当前位置: 首页 > news >正文

低价网站建设靠谱吗微信朋友圈产品推广语

低价网站建设靠谱吗,微信朋友圈产品推广语,上海网站建设公司哪家好,网站营销怎么做spark 相关概念补充 课程目标 了解spark的安装部署知道spark作业提交集群的过程 6.1 spark的安装部署 1、下载spark安装包 http://spark.apache.org/downloads.html 高版本不存在cdh的编译版本,可以从官网下载源码版本,指定高版本hadoop进行编译 编译…

spark 相关概念补充

课程目标

  • 了解spark的安装部署
  • 知道spark作业提交集群的过程

6.1 spark的安装部署

  • 1、下载spark安装包

    http://spark.apache.org/downloads.html

    高版本不存在cdh的编译版本,可以从官网下载源码版本,指定高版本hadoop进行编译

    编译步骤:

    • 1,安装java(JDK 1.7及以上)

      export JAVA_HOME=/xxx
      export JRE_HOME=/xxx
      export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib:$CLASSPATH
      export PATH=$JAVA_HOME/bin:$PATH
      
    • 2,安装Maven, 版本为3.3.9或者以上

      下载地址:https://mirrors.tuna.tsinghua.edu.cn/apache//maven/maven-3/3.3.9/binaries

      配置MAVEN_HOME

      export MAVEN_HOME=/xxx
      export PATH=$MAVEN_HOME/bin:$PATH
      
    • 3,下载spark源码

      [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0srZc7VH-1690872631229)(C:/Users/beibei/Desktop/%E6%89%80%E6%9C%89%E8%B5%84%E6%96%99/spark-core/pics/s1.png)]

    • 4,增加cdh的repository

      解压spark的源码包,编辑pom.xml文件, 在repositories节点 加入如下配置:

      <repository><id>cloudera</id><url>https://repository.cloudera.com/artifactory/cloudera-repos/</url></repository>
      
    • 5,编译

      设置内存:

      export MAVEN_OPTS=“-Xmx2g -XX:ReservedCodeCacheSize=512m”

      开始编译:

      ./dev/make-distribution.sh --name 2.6.0-cdh5.7.0 --tgz  -Pyarn -Phadoop-2.6 -Phive -Phive-thriftserver -Dhadoop.version=2.6.0-cdh5.7.0 -DskipTests clean package
      

      源码编译后,bin目录下的文件可能不存在可执行权限,需要通过chmod指令添加可执行权限

      chmod +x xxx

  • 2、规划spark安装目录

  • 3、解压安装包

  • 4、重命名安装目录

  • 5、修改配置文件

    • spark-env.sh(需要将spark-env.sh.template重命名)
      • 配置java环境变量
        • export JAVA_HOME=java_home_path
      • 配置PYTHON环境
        • export PYSPARK_PYTHON=/xx/pythonx_home/bin/pythonx
      • 配置master的地址
        • export SPARK_MASTER_HOST=node-teach
      • 配置master的端口
        • export SPARK_MASTER_PORT=7077
  • 6、配置spark环境变量

    • export SPARK_HOME=/xxx/spark2.x
    • export PATH=$PATH:$SPARK_HOME/bin

6.2 spark 集群相关概念

  • spark集群架构(Standalone模式)

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-u4nro2Hr-1690872631231)(/img/spark1.png)]

    • Application

      用户自己写的Spark应用程序,批处理作业的集合。Application的main方法为应用程序的入口,用户通过Spark的API,定义了RDD和对RDD的操作。

    • Master和Worker

      整个集群分为 Master 节点和 Worker 节点,相当于 Hadoop 的 Master 和 Slave 节点。

      • Master:Standalone模式中主控节点,负责接收Client提交的作业,管理Worker,并命令Worker启动Driver和Executor。
      • Worker:Standalone模式中slave节点上的守护进程,负责管理本节点的资源,定期向Master汇报心跳,接收Master的命令,启动Driver和Executor。
    • Client:客户端进程,负责提交作业到Master。

    • Driver: 一个Spark作业运行时包括一个Driver进程,也是作业的主进程,负责作业的解析、生成Stage并调度Task到Executor上。包括DAGScheduler,TaskScheduler。

    • Executor:即真正执行作业的地方,一个集群一般包含多个Executor,每个Executor接收Driver的命令Launch Task,一个Executor可以执行一到多个Task。

  • Spark作业相关概念

    • Stage:一个Spark作业一般包含一到多个Stage。

    • Task:一个Stage包含一到多个Task,通过多个Task实现并行运行的功能。

    • DAGScheduler: 实现将Spark作业分解成一到多个Stage,每个Stage根据RDD的Partition个数决定Task的个数,然后生成相应的Task set放到TaskScheduler中。

    • TaskScheduler:实现Task分配到Executor上执行。

      [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-byrLH5ms-1690872631232)(/img/spark2.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5jpaPOks-1690872631232)(/img/spark3.png)]

http://www.dinnco.com/news/43088.html

相关文章:

  • 青岛商城网站建设郑州网络营销哪家正规
  • 杭州建站平台百度下载电脑版
  • 官方网站开发用什么语言100个商业经典案例
  • 阳江招聘网有哪些seo网站推广公司
  • 天助可以搜索别人网站口碑营销案例
  • wordpress 镜像域名网站建设与优化
  • 中国菲律宾友谊淘宝网店的seo主要是什么
  • 欧洲做r18 cg的网站东莞百度快照优化排名
  • 潮州有没有做网站的人搜狗seo排名软件
  • 网站建设开发中br标签的作用深圳百度seo代理
  • 网站建设开发语言河南网站推广优化排名
  • 网站开发步奏百度官网认证
  • 南京做信息登记公司网站百度竞价开户需要多少钱
  • 塔城地区建设工程信息网站搜索引擎优化排名
  • 网站怎样做才能有点击率智慧软文发稿平台
  • 安徽智能网站建设推荐2024百度下载
  • 建设部职称评审的网站十大品牌营销策划公司
  • 纪委网站建设方案网络推广哪个平台效果最好
  • 用iis搭建网站广州seo运营
  • 怎么做卖保险的网站微营销平台系统
  • 手机商城网站系统2021年经典营销案例
  • 免费工程信息网搜索引擎优化seo应用
  • 做软装设计找图有什么好的网站新闻博客软文自助推广
  • web前端设计成都网站seo技巧
  • 曙光建设有限公司网站谷歌google搜索引擎入口
  • 移动网站开发书籍迅雷磁力链bt磁力天堂下载
  • 化妆品网站建设计划书网络媒体发稿
  • 网站IP限制怎么做湖北网站seo策划
  • 在线链接转换工具seo搜索引擎优化技术
  • 集团网站建设工作方案重庆seo排名方法