当前位置: 首页 > news >正文

东莞网站建制作空间刷赞网站推广

东莞网站建制作,空间刷赞网站推广,抖音小程序入驻,微信表情开放平台官网搜索引擎日志分析 要求: 读取文件转换成RDD,并完成: 打印输出:热门搜索时间段(小时精度)Top3打印输出:热门搜索词Top3打印输出:统计黑马程序员关键字在哪个时段被搜索最多将数据转…

搜索引擎日志分析

要求:

读取文件转换成RDD,并完成:

  • 打印输出:热门搜索时间段(小时精度)Top3
  • 打印输出:热门搜索词Top3
  • 打印输出:统计黑马程序员关键字在哪个时段被搜索最多
  • 将数据转换为JSON格式,写出为文件

代码:

"""
综合案例
要求:读取文件转换成RDD,并完成:打印输出:热门搜索时间段(小时精度)Top3打印输出:热门搜索词Top3打印输出:统计黑马程序员关键字在哪个时段被搜索最多将数据转换为JSON格式,写出为文件
"""
# 构建执行环境入口对象
import json
from pyspark import SparkConf, SparkContext
import osos.environ['PYSPARK_PYTHON'] = "D:/Python/Python311/python.exe"
conf = SparkConf().setMaster("local[*]").setAppName("test_spark")
conf.set('spark.default.parallelism', '1')
sc = SparkContext(conf=conf)# 读取文件转换成RDD,并完成:
rdd = sc.textFile("E:/百度网盘/1、Python快速入门(8天零基础入门到精通)/资料/第15章资料/资料/search_log.txt")
# print(rdd.collect())
# TOOP 需求1:热门搜索时间段(小时精度)Top3
# 1.1 取出全部的时间并转换为小时
# 1.2 转换为(小时,1)的二元元组
# 1.3 Key分组聚合Value
# 1.4 排序(降序)
# 1.5 取前三
# result1 = rdd.map(lambda x: x.split("\t")).\
#     map(lambda x: x[0][:2]).\
#     map(lambda x: (x, 1)).\
#     reduceByKey(lambda a, b: a + b).\
#     sortBy(lambda x: x[1], ascending=False, numPartitions=1).\
#     take(3)
# print("需求1的结果:", result1)
result1 = rdd.map(lambda x: (x.split("\t")[0][:2], 1)). \reduceByKey(lambda a, b: a + b). \sortBy(lambda x: x[1], ascending=False, numPartitions=1). \take(3)
print("需求1的结果:", result1)# TOOP 需求2:热门搜索词Top3
# 2.1 取出全部的搜索词
# 2.2 (词,1)二元元组
# 2.3 分组聚合
# 2.4 排序
# 2.5 Top3
result2 = rdd.map(lambda x: (x.split("\t")[2], 1)). \reduceByKey(lambda a, b: a + b). \sortBy(lambda x: x[1], ascending=False, numPartitions=1). \take(3)
print("需求2的结果:", result2)# TOOP 需求3:统计黑马程序员关键字在哪个时段被搜索最多
# 3.1 过滤内容,只保留黑马程序员关键字
# 3.2 转换为(小时,1)的二元元组
# 3.3 Key分组聚合Value
# 3.4 排序(降序)
# 3.5 取前1
result3 = rdd.map(lambda x: x.split("\t")).\filter(lambda x: x[2] == '黑马程序员').\map(lambda x: (x[0][:2], 1)).\reduceByKey(lambda a, b: a + b).\sortBy(lambda x: x[1], ascending=False, numPartitions=1).\take(1)
print("需求3的结果:", result3)# TOOP 需求4:将数据转换为JSON格式,写出为文件
# 4.1 转换为JSON格式的RDD
# 4.2 写出为文件
rdd.map(lambda x: x.split("\t")).\map(lambda x: {'time': x[0], 'user_id': x[1], 'key_word': x[2], 'rank1': x[3], 'rank2': x[4], 'url': x[5]}).\saveAsTextFile("D:/output_json")

 

 

 

http://www.dinnco.com/news/33188.html

相关文章:

  • 北京高端企业网站短视频营销常用平台有
  • 一个空间可以做几个网站吗怎么在网络上推广
  • 郑州网站建设公司咨询沈阳专业网站seo推广
  • 定制型网站建设谷歌seo什么意思
  • 网站建设运营岗位职责优化网站关键词的技巧
  • 一 一个甜品网站建设目标icp备案查询官网
  • 浙江大学陈越做的刷题网站小红书seo
  • 深圳市专业做网站哈尔滨seo优化公司
  • 情色网站源码临沂google推广
  • 网站建设主要工作流程app推广平台有哪些
  • 海城网站建设什么是网络营销推广
  • 网站底部设计代码百度云搜索引擎官方入口
  • 无锡网站怎么做2022当下社会热点话题
  • 新媒体网站建设费用详单南城网站优化公司
  • 做静态网站需要什么seo快速排名是什么
  • 朔州城市建设网站b站视频推广怎么买
  • 做网站在浏览器预览怎么出现了状况指数平滑法
  • 浙江平湖建设局网站蓝牙耳机网络营销推广方案
  • 网站建设咨询seo培训公司
  • 企业网站多少钱一年外链发布
  • 做电子手环网站需求分析青岛网站seo服务
  • 用word可以做网站吗最新的全国疫情
  • 汕头网站推广排名百度seo引流
  • 网站建设 前端 后端如何写好一篇软文
  • 眉山做网站搜索引擎营销特点是什么
  • 企业公司做网站南宁今日头条最新消息
  • 局域网网站开发软件百度推广后台登录入口
  • 网站建设委托合同郑州关键词优化平台
  • 中国南京网站武汉网络推广平台
  • 企业网站优化方案范本网络营销与策划实践报告