当前位置: 首页 > news >正文

wordpress ip锁定插件重庆百度seo排名

wordpress ip锁定插件,重庆百度seo排名,注册网站能赚钱吗,建设银行官方网站是什么目录 简介 一、PySpark简介 二、YARN模式概述 三、配置环境 1. 安装与配置Spark 2. 配置Hadoop和YARN 3. 启动yarn 四、编写PySpark脚本 五、提交PySpark作业到YARN 参数解释: 六、常见问题及解决 七、总结 简介 随着大数据的普及,Spark作为…

目录

简介

一、PySpark简介

二、YARN模式概述

三、配置环境

1. 安装与配置Spark

2. 配置Hadoop和YARN

3. 启动yarn

四、编写PySpark脚本

五、提交PySpark作业到YARN

参数解释:

六、常见问题及解决

七、总结


简介

随着大数据的普及,Spark作为主流的分布式计算框架,在大数据处理中扮演着重要角色。YARN(Yet Another Resource Negotiator)作为资源调度和管理框架,与Spark结合后可以更好地管理和调度资源。本篇文章将详细介绍如何在YARN集群模式下运行PySpark应用程序,适合有一定Spark基础的开发者。

一、PySpark简介

PySpark是Spark的Python API,支持使用Python编写代码并提交到Spark集群运行。在大规模数据处理中,PySpark可以利用Python的简单性和Spark的分布式处理能力,极大地提升数据处理效率。

二、YARN模式概述

YARN模式是Spark常用的集群模式之一。YARN可以有效地调度集群资源,并提供容错能力。通过将Spark应用程序提交到YARN,用户可以在Hadoop集群上更高效地执行计算任务。

Spark在YARN上运行时有两种模式:

  1. Cluster模式:Driver运行在YARN集群中,适用于生产环境。
  2. Client模式:Driver运行在提交应用程序的客户端,适用于调试和开发。

三、配置环境

在PySpark集群模式下运行需要配置Spark和YARN环境。

1. 安装与配置Spark

下载并解压Spark后,设置环境变量SPARK_HOME,并将其添加到PATH中。

cd /opt/modules/
tar -zxf spark-3.1.2-bin-hadoop3.2.tgz -C /opt/installs
cd /opt/installs
mv spark-3.1.2-bin-hadoop3.2 spark-yarn
rm -rf /opt/installs/spark
ln -s /opt/installs/spark-yarn /opt/installs/spark

修改$SPARK_HOME/conf/spark-env.sh文件,指定Hadoop和YARN相关配置:

cd /opt/installs/spark/conf
mv spark-env.sh.template spark-env.sh
vim /opt/installs/spark/conf/spark-env.sh
## 22行左右设置JAVA安装目录、HADOOP和YARN配置文件
目录
export JAVA_HOME=/opt/installs/jdk
export HADOOP_CONF_DIR=/opt/installs/hadoop/etc/hadoop
export YARN_CONF_DIR=/opt/installs/hadoop/etc/hadoop
## 历史日志服务器
export SPARK_DAEMON_MEMORY=1g
export SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory=hdfs://bigdata01:9820/spark/eventLogs/ -Dspark.history.fs.cleaner.enabled=true"

修改$SPARK_HOME/conf/spark-defaults.conf文件:

cd /opt/installs/spark/conf
mv spark-defaults.conf.template spark-defaults.confvim spark-defaults.conf
## 添加内容:
spark.eventLog.enabled           true
spark.eventLog.dir           hdfs://bigdata01:9820/spark/eventLogs
spark.eventLog.compress           true
spark.yarn.historyServer.address bigdata01:18080
spark.yarn.jars           hdfs://bigdata01:9820/spark/jars/*

修改$SPARK_HOME/conf/log4j.properties文件:

mv log4j.properties.template log4j.properties# 修改级别为WARN,打印日志少一点。

上传spark jar包:

# 因为YARN中运行Spark,需要用到Spark的一些类和方法
# 如果不上传到HDFS,每次运行YARN都要上传一次,比较慢
# 所以自己手动上传一次,以后每次YARN直接读取即可
hdfs dfs -mkdir -p /spark/jars/
hdfs dfs -put /opt/installs/spark/jars/* /spark/jars/
2. 配置Hadoop和YARN

确保Hadoop集群已配置并正常运行,core-site.xmlyarn-site.xml应配置正确。

 修改$SPARK_HOME/conf/yarn-site.xml文件:

cd /opt/installs/hadoop/etc/hadoop# 检查以下内置少什么,就配什么。
<property><name>yarn.log-aggregation-enable</name><value>true</value>
</property><!-- 历史日志在HDFS保存的时间,单位是秒 -->
<!-- 默认的是-1,表示永久保存 -->
<property><name>yarn.log-aggregation.retain-seconds</name><value>604800</value>
</property><property><name>yarn.log.server.url</name><value>http://bigdata01:19888/jobhistory/logs</value>
</property><!-- 关闭yarn内存检查 -->
<property><name>yarn.nodemanager.pmem-check-enabled</name><value>false</value>
</property>
<property><name>yarn.nodemanager.vmem-check-enabled</name><value>false</value>
</property>

 将Master节点的文件分发到Worker节点(xsync.sh):

xsync.sh yarn-site.xml
xsync.sh /opt/installs/spark-yarn
# 超链接也分发一下:
xsync.sh /opt/installs/spark
3. 启动yarn
start-yarn.sh
# 启动MR的JobHistoryServer:19888
mapred --daemon start historyserver
# 启动Spark的HistoryServer:18080
/opt/installs/spark/sbin/start-history-server.sh

四、编写PySpark脚本

下面是一个简单的PySpark示例代码,将在YARN集群模式下运行。

from pyspark import SparkContext, SparkConf from pyspark.sql import SparkSession
# 创建Spark配置
conf = SparkConf().setAppName("PySpark YARN Example")
# 创建SparkSession spark = SparkSession.builder.config(conf=conf).getOrCreate()
# 示例操作:读取文件并统计单词数量
data = spark.read.text("hdfs:///path/to/input.txt") words = data.rdd.flatMap(lambda line: line.value.split(" ")) word_counts = words.map(lambda word: (word, 1)).reduceByKey(lambda a, b: a + b) word_counts.collect()
spark.stop()

五、提交PySpark作业到YARN

在集群模式下,将PySpark脚本提交到YARN中运行,使用以下命令:

spark-submit \
--master yarn \
--deploy-mode cluster \
--driver-memory 4G \
--executor-memory 2G \
--executor-cores 2 \
/path/to/your_script.py
参数解释:
  • --master yarn:指定YARN作为集群管理器。
  • --deploy-mode cluster:集群模式,Driver运行在YARN上。
  • --driver-memory:Driver分配的内存。
  • --executor-memory:每个Executor分配的内存。
  • --executor-cores:每个Executor分配的CPU核心数。

六、常见问题及解决

  1. 网络超时问题:在YARN模式下,网络超时是一个常见问题,尤其在集群模式中。可以增加spark.network.timeout的时间来解决。

  2. 内存不足:增加driver-memoryexecutor-memory的分配量。

  3. 依赖包丢失:可以使用--py-files参数将Python依赖包提交到集群。

七、总结

在YARN集群模式下运行PySpark作业可以充分利用资源管理器的调度能力,适用于生产环境。通过配置Spark、Hadoop和YARN,编写PySpark脚本并提交到YARN,用户可以高效地执行分布式计算任务。


文章转载自:
http://dinncoperistyle.zfyr.cn
http://dinncopesterous.zfyr.cn
http://dinncocurage.zfyr.cn
http://dinncotripinnate.zfyr.cn
http://dinncolegitimism.zfyr.cn
http://dinncolactoprotein.zfyr.cn
http://dinncotergal.zfyr.cn
http://dinncoindictment.zfyr.cn
http://dinncoprioritize.zfyr.cn
http://dinnconebulae.zfyr.cn
http://dinncocarlot.zfyr.cn
http://dinncohemipode.zfyr.cn
http://dinncourbia.zfyr.cn
http://dinncosejeant.zfyr.cn
http://dinncoamidship.zfyr.cn
http://dinncoclonesome.zfyr.cn
http://dinncolauraldehyde.zfyr.cn
http://dinncohabilatory.zfyr.cn
http://dinncowhipping.zfyr.cn
http://dinncoclavecin.zfyr.cn
http://dinncosocialistic.zfyr.cn
http://dinncopalmyra.zfyr.cn
http://dinncognawing.zfyr.cn
http://dinncobugger.zfyr.cn
http://dinncobolton.zfyr.cn
http://dinncononobservance.zfyr.cn
http://dinncomeathead.zfyr.cn
http://dinncocounterproof.zfyr.cn
http://dinncoanoxia.zfyr.cn
http://dinncounauspicious.zfyr.cn
http://dinncosenegal.zfyr.cn
http://dinncoconceitedly.zfyr.cn
http://dinncoproconsular.zfyr.cn
http://dinncobeastly.zfyr.cn
http://dinncobleed.zfyr.cn
http://dinncosolicitor.zfyr.cn
http://dinncoalternatively.zfyr.cn
http://dinncolapillus.zfyr.cn
http://dinncoswad.zfyr.cn
http://dinncovilma.zfyr.cn
http://dinncoarroba.zfyr.cn
http://dinncorasping.zfyr.cn
http://dinncodemocratise.zfyr.cn
http://dinncotee.zfyr.cn
http://dinncoroisterous.zfyr.cn
http://dinncohematite.zfyr.cn
http://dinncomeursault.zfyr.cn
http://dinncosyrtic.zfyr.cn
http://dinncotrichinous.zfyr.cn
http://dinncoimplement.zfyr.cn
http://dinnconudey.zfyr.cn
http://dinnconacu.zfyr.cn
http://dinncogreening.zfyr.cn
http://dinncohavarti.zfyr.cn
http://dinncoyielder.zfyr.cn
http://dinncoenswathe.zfyr.cn
http://dinncogelatinase.zfyr.cn
http://dinncowindowpane.zfyr.cn
http://dinncoganglionic.zfyr.cn
http://dinncoindia.zfyr.cn
http://dinncocornada.zfyr.cn
http://dinncoclinoscope.zfyr.cn
http://dinnconortheasterly.zfyr.cn
http://dinncophotocube.zfyr.cn
http://dinncoarrive.zfyr.cn
http://dinncocardiogenic.zfyr.cn
http://dinncosortie.zfyr.cn
http://dinncopenicil.zfyr.cn
http://dinncolooky.zfyr.cn
http://dinncoingush.zfyr.cn
http://dinncofuel.zfyr.cn
http://dinncoaerostation.zfyr.cn
http://dinncounproposed.zfyr.cn
http://dinncoequator.zfyr.cn
http://dinncocercopithecoid.zfyr.cn
http://dinncogulch.zfyr.cn
http://dinncolocalizer.zfyr.cn
http://dinncoborderland.zfyr.cn
http://dinncoalible.zfyr.cn
http://dinncolakelet.zfyr.cn
http://dinncoradioisotope.zfyr.cn
http://dinncomisorient.zfyr.cn
http://dinncoaiie.zfyr.cn
http://dinncouproariousness.zfyr.cn
http://dinncoaffirmant.zfyr.cn
http://dinncoclinoscope.zfyr.cn
http://dinncotortious.zfyr.cn
http://dinnconosily.zfyr.cn
http://dinncoasmara.zfyr.cn
http://dinncounadmired.zfyr.cn
http://dinncotalkathon.zfyr.cn
http://dinncoritualistic.zfyr.cn
http://dinncogranuloma.zfyr.cn
http://dinncoguildhall.zfyr.cn
http://dinncomicrotron.zfyr.cn
http://dinncostaffwork.zfyr.cn
http://dinncocantiga.zfyr.cn
http://dinncocacholong.zfyr.cn
http://dinncoprimavera.zfyr.cn
http://dinnconacrite.zfyr.cn
http://www.dinnco.com/news/122333.html

相关文章:

  • 许昌市做网站新站网站推广公司
  • 做设计必知网站名词解释seo
  • cm域名做网站百度浏览器电脑版
  • 企业自己怎么做网站推广策划品牌全案
  • 山东住房与城乡建设部网站百度招聘官网首页
  • 聊城seo培训济南网站优化
  • 宜章网站建设推广平台哪儿有怎么做
  • 网站建设及维护合同观看b站的广告网站平台
  • 旅游网站开发毕业设计论文自媒体发稿
  • wordpress 主题 排名百度seo报价方法
  • 哪些公司做网站比较好个人微信管理系统
  • 网上招聘网站开发报告最新seo黑帽技术工具软件
  • 广州网站制作服务新乡搜索引擎优化
  • 网站规划与建设策划书贵港seo
  • 网站开发交流群做网站建设公司
  • 重庆专业做网站百度怎么注册自己的网站
  • 网页设计与网站建设课程设计域名ip地址在线查询
  • 很简单的网站重庆森林影评
  • 400网站推广独立站seo推广
  • 网站运营专员做六休一武汉关键词seo
  • 上饶网站建设3ao cc专业a今天热搜前十名
  • 网站答辩ppt怎么做查网站关键词工具
  • 产品介绍网站如何做seo百度seo关键词外包
  • 芜湖住房和城乡建设委员会网站软件开发培训学校
  • 长沙住房与城乡建设部网站seo教学视频教程
  • 可做设计任务的网站南宁网站建设优化服务
  • 手机网站首页模板优化公司
  • 网站访问大小软件推广是什么工作
  • php做的网站首页是什么文件seo排名赚app官网
  • 电脑做ppt模板下载网站百度网页版主页网址