在 Windows 10 中安装和设置 Spark 开发环境

Spark是一个针对超大数据集合的低延迟的集群分布式计算系统, 与同为大数据处理的框架 Hadoop 相比,最明显的就是快。本文介绍在 Windows 10 中搭建 Spark 2.4.4 版开发环境。

环境需求

OS: Windows 10
Java: JDK 8

安装过程

  1. 首先到官网去下载 Spark 的分发包, 本文选择下载的是 2.4.4 for Pre-build for Apache Hadoop 2.7 的版本。下载链接

  2. 到 Winutils 的官网下载 hadoop 对应版本的工具, 比如上一步我选择的是 Hadoop 2.7 , 这一步就可以选择下载 hadoop-2.7.1 的版本。其实就是下载后就是名为 hadoop-2.7.1 的目录,我们需要的就是其 bin 子目录中的内容。

  3. 将第一步下载的文件 spark-2.4.4-bin-hadoop2.7.tgz 解压到是定目录,我指定到 d:\devel 目录中,解压完以后得到 d:\devel\spark-2.4.4-bin-hadoop2.7 目录,里面就是 spark 的程序了。

  4. 将第二部下载内容中 bin 目录下的所有文件复制到 d:\devel\spark-2.4.4-bin-hadoop2.7\bin 目录中去。

  5. 设置环境变量:

新增如下的两个环境变量:

1
2
HADOOP_HOME = d:\devel\spark-2.4.4-bin-hadoop2.7
SPARK_HOME = d:\devel\spark-2.4.4-bin-hadoop2.7

修改 PATH 环境变量,在最后增加如下的值:

1
;d:\devel\spark-2.4.4-bin-hadoop2.7\bin

验证安装

打开一个 CMD 窗口,在窗口中执行:

1
spark-shell

如果没有问题,将进入 Spark 的交互命令模式,类似以下界面:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
Spark context Web UI available at http://DESKTOP-DUER5RE:4040
Spark context available as 'sc' (master = local[*], app id = local-1575159271759).
Spark session available as 'spark'.
Welcome to
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/___/ .__/\_,_/_/ /_/\_\ version 2.4.4
/_/

Using Scala version 2.11.12 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_191)
Type in expressions to have them evaluated.
Type :help for more information.

scala>

输入

1
:quit

可推出交互命令模式

本文标题:在 Windows 10 中安装和设置 Spark 开发环境

文章作者:梅老师

发布时间:2019年12月01日 - 07:12

最后更新:2020年09月16日 - 08:09

原始链接:https://www.mls-tech.info/spark/spark-setup-on-win10/

许可协议: 署名-非商业性使用-禁止演绎 4.0 国际 转载请保留原文链接及作者。