数据分析参考堆栈¶
本指南说明了如何使用 DARS,以及如何选择性地构建您自己的 DARS 容器映像。
任何支持 Docker* 容器的系统都可与 DARS 一起使用。本指南中的这些步骤使用 Clear Linux* OS 作为主机系统。
数据分析参考堆栈版本¶
数据分析参考堆栈 (DARS) 为开发人员和企业提供了一个简单、高度优化的软件堆栈来存储和处理大量数据。更多详细信息请参阅 DARS architecture and performance benchmarks。
数据分析参考堆栈提供了两个预构建的 Docker 映像,可在 Docker Hub 获得:
- 一个从 Clear Linux OS 派生且针对 OpenBLAS 优化的 DARS with OpenBlas 堆栈
- 一个从 Clear Linux OS 派生且针对 MKL 优化的 DARS with MKL 堆栈
我们建议您在 DARS repository 中找到 README,查看每个映像的最新组件版本。由于 Clear Linux OS 是滚动发行的,基于 Clear Linux OS 的容器中的软件包版本号可能不是 Clear Linux OS 最新发布的版本号。
注解
数据分析参考堆栈是一项集体成果,成果中的每一个软件都有自己的许可证。有关数据分析参考堆栈的许可和使用的更多详细信息,请参阅 DARS Terms of Use。
使用 Docker 映像¶
要立即开始使用最新的稳定版 DARS 映像,请直接从 Docker Hub 提取。在本教程中,我们将使用 Dars with MKL 版本堆栈。
下载完映像后,您可以使用以下命令运行它:
docker run -it --ulimit nofile=1000000:1000000 --name mkl <name of image>
此命令将启动映像,并进入容器内的 bash shell 中。您将看到类似以下内容的输出:
root@fd5155b89857 /root # spark-shell spark-shell Config directory: /usr/share/defaults/spark/ Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /___/ .__/\_,_/_/ /_/\_\ version 2.4.0 /_/ Using Scala version 2.12.7 (OpenJDK 64-Bit Server VM, Java 1.8.0-internal) Type in expressions to have them evaluated. Type :help for more information. scala>
--ulimit nofile 参数是当前必需的参数,以便增加 spark 引擎在某一时点打开的打开文件的数量。
构建 DARS 映像¶
如果选择构建您自己的 DARS 容器映像,您可以根据需要对它们进行自定义。将提供的 Dockerfile 用作基准。
要使用 Clear Linux OS 构建映像,请从安装了 containers-basic-dev 捆绑包的 Clear Linux OS 开发平台开始。使用 swupd 了解有关捆绑包和安装捆绑包的更多信息。
克隆 Data Analytics Reference Stack GitHub* 存储库。
git clone https://github.com/clearlinux/dockerfiles/tree/master/stacks/dars -b master
在 DARS 目录中,运行 make 来构建 OpenBLAS 和 MKL 映像。
make
然后运行 make baseline 构建基准 CentOS 映像。根据系统的不同,可能需要一段时间才能完成构建。完成后,使用 Docker 检查生成的映像。
make baseline
完成后,使用 Docker 检查生成的映像
docker images | grep dars您可以使用任何一个生成的映像来启动功能齐全的容器。如果需要自定义容器,您可以编辑所提供的
Dockerfile。