在上安装 Spark的步骤如下:
1. 安装Java
Spark是用Scala编写的,并且依赖Java。因此,首先需要安装Java。
安装 8(或更高版本)
执行以下命令安装:
sudo apt update
sudo apt install openjdk-8-jdk
你可以通过运行以下命令检查Java版本,确保安装成功:
java -version
输出应该显示Java版本信息,例如:
openjdk version "1.8.0_292"
如果没有安装Java 8,你可以选择其他版本(例如 11或 17),但Spark推荐使用Java 8。
2. 安装Scala(可选)
Spark使用Scala作为其默认编程语言,因此最好安装Scala。不过,如果你打算使用( API)或Spark的其他语言API,Scala并不是必须的。
如果你想安装Scala,可以执行以下命令:
sudo apt install scala
3. 下载并安装Spark
访问 Spark官网并选择你想要的Spark版本。这里选择一个预编译版本(例如,Spark 3.x版本),并选择与兼容的版本。如果你不打算使用,可以选择不带的版本。
使用wget命令下载Spark:
wget https://dlcdn.apache.org/spark/spark-3.3.1/spark-3.3.1-bin-hadoop3.2.tgz
(请确保根据实际版本修改URL)
解压下载的文件:
tar -xvzf spark-3.3.1-bin-hadoop3.2.tgz
将Spark移动到一个常用目录,比如/opt:
sudo mv spark-3.3.1-bin-hadoop3.2 /opt/spark
4. 配置环境变量
为确保可以从命令行使用Spark,你需要设置环境变量。
编辑~/.文件:
nano ~/.bashrc
添加以下行到文件的末尾:
export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
export PYSPARK_PYTHON=python3
使更改生效:
source ~/.bashrc
5. 配置Spark(可选)
如果需要,您可以进一步配置Spark。Spark的默认配置文件通常位于$/conf目录下,您可以复制一份模板配置文件并进行自定义配置。
复制模板配置文件:
cd $SPARK_HOME/conf
cp spark-env.sh.template spark-env.sh
编辑$/conf/spark-env.sh,根据需要配置Spark环境,例如设置Java和的路径。
nano $SPARK_HOME/conf/spark-env.sh
添加或修改如下内容:
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export SPARK_MASTER_HOST=localhost
6. 启动Spark
Spark包含两个主要进程:Spark 和Spark 。你可以通过start-.sh和start-.sh启动它们。
启动Spark :
$SPARK_HOME/sbin/start-master.sh
启动Spark (默认连接到):
$SPARK_HOME/sbin/start-worker.sh spark://localhost:7077
此时,Spark 会在:8080上启动Web UI,你可以在浏览器中访问它查看集群状态。
7. 启动Spark Shell
Spark还提供了交互式的命令行工具。如果你想使用Scala Shell,可以运行以下命令:
$SPARK_HOME/bin/spark-shell
如果你想使用(),可以运行:
$SPARK_HOME/bin/pyspark
8. 配置Spark为系统服务(可选)
如果你希望Spark在启动时自动启动,可以配置Spark作为系统服务。下面是基本的配置步骤。
创建一个新的服务文件:
sudo nano /etc/systemd/system/spark.service
在文件中添加以下内容:
[Unit]
Description=Apache Spark
After=network.target
[Service]
Type=simple
User=your_user
ExecStart=/opt/spark/sbin/start-all.sh
ExecStop=/opt/spark/sbin/stop-all.sh
Restart=on-failure
[Install]
WantedBy=multi-user.target
重新加载服务,并启用它:
sudo systemctl daemon-reload
sudo systemctl enable spark
sudo systemctl start spark
9. 检查Spark安装是否成功
在浏览器中访问Spark 的Web UI:
http://localhost:8080
如果可以看到Spark 的状态页面,说明Spark安装成功。
总结
现在你已经在上成功安装并配置了 Spark。你可以通过Spark Shell、或提交Spark作业来开始使用Spark。如果你需要运行集群模式,建议设置多个Spark节点。
———END———
限 时 特 惠: 本站每日持续更新海量各大内部创业教程,永久会员只需109元,全站资源免费下载 点击查看详情
站 长 微 信: nanadh666



