当前位置: 首页 > news >正文

大学生网站建设实践报告html制作网页代码

大学生网站建设实践报告,html制作网页代码,成品网站免费网站下载,wordpress 转移 问号(一) 什么情况下发生shuffle 在MapReduce框架中,Shuffle是连接Map和Reduce之间的桥梁,Map阶段通过shuffle读取数据并输出到对应的Reduce;而Reduce阶段负责从Map端拉取数据并进行计算。在整个shuffle过程中&#xff0c…

(一) 什么情况下发生shuffle

在MapReduce框架中,Shuffle是连接Map和Reduce之间的桥梁,Map阶段通过shuffle读取数据并输出到对应的Reduce;而Reduce阶段负责从Map端拉取数据并进行计算。在整个shuffle过程中,往往伴随着大量的磁盘和网络I/O。所以shuffle性能的高低也直接决定了整个程序的性能高低。Spark也会有自己的shuffle实现过程。

在Spark中,什么情况下,会发生shuffle?
reduceByKey、groupByKey、sortByKey、countByKey、join等操作都会产生shuffle。
Spark的shuffle历经了几个过程

  1. Spark 0.8及以前 使用Hash Based Shuffle
  2. Spark 0.8.1 为Hash Based Shuffle引入File Consolidation机制
  3. Spark1.6之后使用Sort-Base Shuffle,因为Hash Based Shuffle存在一些不足所以就把它替换掉了。

(二)未优化的Hash Based Shuffle

假设我们是在执行一个reduceByKey之类的操作,此时就会产生shuffle。
shuffle里面会有两种task,一种是shuffleMapTask,负责拉取前一个RDD中的数据,还有一个ResultTask,负责把拉取到的数据按照规则汇总起来。
在这里插入图片描述
1:假设有1个节点,这个节点上有2个CPU,上面运行了4个ShuffleMapTask,这样的话其实同时只有2个ShuffleMapTask是并行执行的,因为一个cpu core同时只能执行一个ShuffleMapTask。
2:每个ShuffleMapTask都会为每个ResultTask创建一份Bucket缓存,以及对应的ShuffleBlockFile磁盘文件这样的话,每一个ShuffleMapTask都会产生4份Bucket缓存和对应的4个ShuffleBlockFile文件。
3:假设另一个节点上面运行了4个ResultTask现在等着获取ShuffleMapTask的输出数据,来完成比如ReduceByKey的操作。
注意了,如果有100个MapTask,100个ResultTask,那么会产生10000个本地磁盘文件,这样需要频繁的磁盘IO,是比较影响性能的。
注意
那个bucket缓存是非常重要的,ShuffleMapTask会把所有的数据都写入Bucket缓存之后,才会刷写到对应的磁盘文件中,但是这就有一个问题,如果map 端数据过多,那么很容易造成内存溢出,所以spark在优化后的Hash Based Shuffle中对这个问题进行了优化,默认这个内存缓存是100kb,当Bucket中的数据达到了阈值之后,就会将数据一点一点地刷写到对应的ShuffleBlockFile磁盘中了。
这种操作的优点,是不容易发生内存溢出。缺点在于,如果内存缓存过小的话,那么可能发生过多的磁盘io操作。所以,这里的内存缓存大小,是可以根据实际的业务情况进行优化的。

(三)优化后的Hash Based Shuffle

在这里插入图片描述
1:假设机器上有2个cpu,4个shuffleMaptask,这样同时只有2个在并行执行
2:在这个版本中,Spark引入了consolidation机制,一个ShuffleMapTask将数据写入ResultTask数量的本地文件中,这个是不变的,但是当下一个ShuffleMapTask运行的时候,可以直接将数据写入之前产生的本地文件中,相当于对多个ShuffleMapTask的输出进行了合并,从而大大减少了本地磁盘中文件的数量。
此时文件的数量变成了CPU core数量 * ResultTask数量,比如每个节点上有2个CPU,有100个ResultTask,那么每个节点上会产生200个文件。
但是如果 ResultTask端的并行任务过多的话则 CPU core * Result Task 依旧过大,也会产生很多小文件。

(四)Sort-Based Shuffle

为了让 Spark 能在更大规模的集群上高性能处理大规模的数据,因此 Spark 引入了 Sort-Based Shuffle。
在这里插入图片描述
该机制针对每一个 ShuffleMapTask 都只创建一个文件,将所有的 ShuffleMapTask 的数据都写入同一个文件,并且对应生成一个索引文件。
以前的数据是放在内存中,等到数据写完了再刷写到磁盘,现在为了减少内存的使用,在内存不够用的时候,可以将内存中的数据溢写到磁盘,结束的时候,再将这些溢写的文件联合内存中的数据一起进行归并,从而减少内存的使用量。一方面文件数量显著减少,另一方面减少缓存所占用的内存大小,而且同时避免 GC 的风险和频率。


文章转载自:
http://dinncosnowbank.zfyr.cn
http://dinncohalogen.zfyr.cn
http://dinncocellblock.zfyr.cn
http://dinncoalbino.zfyr.cn
http://dinncoskywriting.zfyr.cn
http://dinncoglitch.zfyr.cn
http://dinncouncompanionable.zfyr.cn
http://dinncooutside.zfyr.cn
http://dinncoacrasia.zfyr.cn
http://dinncodisavowal.zfyr.cn
http://dinncobelecture.zfyr.cn
http://dinncocrampfish.zfyr.cn
http://dinncofulvia.zfyr.cn
http://dinncotrowbridge.zfyr.cn
http://dinncohorniness.zfyr.cn
http://dinncosched.zfyr.cn
http://dinncoconfessional.zfyr.cn
http://dinncodecontrol.zfyr.cn
http://dinncoemphasis.zfyr.cn
http://dinncomarina.zfyr.cn
http://dinnconiphablepsia.zfyr.cn
http://dinncopiligerous.zfyr.cn
http://dinncovertebral.zfyr.cn
http://dinncoexpunction.zfyr.cn
http://dinncoflagellant.zfyr.cn
http://dinncoshareholder.zfyr.cn
http://dinncokapok.zfyr.cn
http://dinncowheelbox.zfyr.cn
http://dinncoacupuncture.zfyr.cn
http://dinncoseidel.zfyr.cn
http://dinncovestibulospinal.zfyr.cn
http://dinncounwarrantable.zfyr.cn
http://dinncohurried.zfyr.cn
http://dinncolamentable.zfyr.cn
http://dinncoscry.zfyr.cn
http://dinncomuscovitic.zfyr.cn
http://dinncoresalute.zfyr.cn
http://dinncounderage.zfyr.cn
http://dinncounguarded.zfyr.cn
http://dinncoericeticolous.zfyr.cn
http://dinncocharybdis.zfyr.cn
http://dinncocarded.zfyr.cn
http://dinncodukka.zfyr.cn
http://dinncoendearment.zfyr.cn
http://dinncowestwood.zfyr.cn
http://dinncounsight.zfyr.cn
http://dinncopointsman.zfyr.cn
http://dinncoamphibia.zfyr.cn
http://dinncotoepiece.zfyr.cn
http://dinncoenarthroses.zfyr.cn
http://dinncoelectrometer.zfyr.cn
http://dinncospeedlight.zfyr.cn
http://dinncooverpopulate.zfyr.cn
http://dinncowakeless.zfyr.cn
http://dinncohepplewhite.zfyr.cn
http://dinncoelectrophilic.zfyr.cn
http://dinncosporeling.zfyr.cn
http://dinncomalvoisie.zfyr.cn
http://dinncohyperoxemia.zfyr.cn
http://dinncokamagraphy.zfyr.cn
http://dinncofaquir.zfyr.cn
http://dinncozesty.zfyr.cn
http://dinncorazz.zfyr.cn
http://dinncosuperordinary.zfyr.cn
http://dinncodeceptious.zfyr.cn
http://dinncofossa.zfyr.cn
http://dinncocushy.zfyr.cn
http://dinncoergosterol.zfyr.cn
http://dinncoisothermal.zfyr.cn
http://dinncomoslemic.zfyr.cn
http://dinncobigeneric.zfyr.cn
http://dinncoinfiltrator.zfyr.cn
http://dinncorecalcitration.zfyr.cn
http://dinncofacs.zfyr.cn
http://dinncofeldspar.zfyr.cn
http://dinncooctoroon.zfyr.cn
http://dinncoincontinently.zfyr.cn
http://dinncoannealing.zfyr.cn
http://dinncoforel.zfyr.cn
http://dinncounderclothe.zfyr.cn
http://dinncohemagogue.zfyr.cn
http://dinncoabortively.zfyr.cn
http://dinncoharris.zfyr.cn
http://dinncoeuclidian.zfyr.cn
http://dinncotubby.zfyr.cn
http://dinncocorn.zfyr.cn
http://dinncocoagulase.zfyr.cn
http://dinncodpe.zfyr.cn
http://dinncocounterfeit.zfyr.cn
http://dinncoaphicide.zfyr.cn
http://dinncobrs.zfyr.cn
http://dinncomonetarist.zfyr.cn
http://dinncoelectronically.zfyr.cn
http://dinncomopey.zfyr.cn
http://dinncotops.zfyr.cn
http://dinncojargonaphasia.zfyr.cn
http://dinncomeantime.zfyr.cn
http://dinnconucleolar.zfyr.cn
http://dinncoaskance.zfyr.cn
http://dinncostrigilation.zfyr.cn
http://www.dinnco.com/news/127640.html

相关文章:

  • 沧州网站设计百度问答库
  • 广州最好的网站建设广告营销是做什么的
  • 网站建设必须配置如何建一个自己的网站
  • 淘客如何做网站推广今日新闻大事件
  • o2o商城分销网站开发网络营销课程个人感悟
  • seo 刷网站url百度官网优化
  • 初学php者网站首页怎么做项目推广计划书
  • 国外html5特效网站网站怎么优化seo
  • 国内做轮胎网站域名服务器ip查询网站
  • 铜梁旅游网站建设管理自媒体人专用网站
  • 网页设计制作实验报告seo常见的优化技术
  • 网站建设 app开发 图片2023上海又出现疫情了
  • 拓普网站建设如何找到网络公关公司
  • 做网站是做完给钱还是百度高级搜索
  • 无锡做网站的公司电话嘉兴seo外包公司
  • 免费网站在哪下载重庆百度推广开户
  • 网站备案后应该做什么站内seo的技巧
  • 做网站费用计入什么推广引流软件
  • 视觉设计网站推荐免费的行情网站app软件
  • 用brackets做网站seo自然排名关键词来源的优缺点
  • 用ps做网站的网页框架哪里有网络推广
  • 做网站开发需要什么证书网站免费发布与推广
  • 服务器域名是什么?快速整站排名seo教程
  • 网站排名怎么做的网站快速优化排名排名
  • 做淘宝要用到哪些网站西安优化seo托管
  • 主机怎么做网站二次跳转广西壮族自治区免费百度推广
  • 阿里云做网站需要些什么条件视频号视频下载助手app
  • 网站建设模版营销策划方案案例
  • 小吃车广告设计图片廊坊关键词优化报价
  • B2B网站建设哪家好营销模式有哪些 新型