当前位置: 首页 > news >正文

北京网站制作培训学校办公软件培训

北京网站制作培训学校,办公软件培训,芯片设计公司,网站部署到终端机怎么做前言 在跑调度任务时候,有时候子任务需要依赖前置任务的输出,但类似读取 Parquet 或者 Orc 文件时,如果不判断目录是否为空,在输出为空时会报错,所以需要 check 一下,此外Hadoop通常在写入数据时会在目录中…

前言

在跑调度任务时候,有时候子任务需要依赖前置任务的输出,但类似读取 Parquet 或者 Orc 文件时,如果不判断目录是否为空,在输出为空时会报错,所以需要 check 一下,此外Hadoop通常在写入数据时会在目录中生成一个名为_SUCCESS的文件来表示写入操作已成功完成,我们在检测时要排除这个文件

HDFS API 判断

from py4j.java_gateway import java_import
from pyspark.sql import SparkSession# 初始化SparkSession
spark = SparkSession.builder.appName("Example").getOrCreate()# 导入Hadoop FileSystem类
java_import(spark._jvm, 'org.apache.hadoop.fs.Path')
java_import(spark._jvm, 'org.apache.hadoop.fs.FileSystem')# 定义要检查的路径
FEATURE_OUTPUT_PATH = "your_path_here"# 获取Hadoop Configuration
hadoop_conf = spark._jsc.hadoopConfiguration()# 获取FileSystem对象
fs = spark._jvm.FileSystem.get(hadoop_conf)# 检查路径是否存在
path = spark._jvm.Path(FEATURE_OUTPUT_PATH)if fs.exists(path):# 获取目录下所有的文件和子目录status_list = fs.listStatus(path)non_success_files = [file_status.getPath().getName() for file_status in status_list iffile_status.getPath().getName() != "_SUCCESS"]# 检查除_SUCCESS文件外是否还有其他文件if non_success_files:# 读取Parquet文件table = spark.read.format('parquet').option('header', 'true').load(FEATURE_OUTPUT_PATH)else:print("The directory is empty or only contains a _SUCCESS file.")
else:print("The path does not exist.")

本地 Shell 判断

注意这段脚本能使用的前提是,执行的机器上已经安装和配置了 HDFS 的 shell 命令

import subprocessout=subprocess.check_output("hadoop fs -ls /tmp/file.txt",shell=True)out=out.strip()out=out.split("\n")for l in out:if l.endswith(".txt"):print "file exit"else:print "file not exit"
http://www.dinnco.com/news/24961.html

相关文章:

  • 制做商品网站常州百度推广公司
  • 可以给别人做ps设计的网站莫停之科技windows优化大师
  • 网站制作怎么报价2024年8月爆发新的大流行病毒吗
  • 乌兰察布做网站公司谷歌广告联盟官网
  • 芜湖网站建设哪家好2345网址导航官网官方电脑版下载
  • mac字体怎么安装wordpress官网seo优化找哪家做
  • 企业应用平台和系统管理下载seo快排软件
  • 建微网站有什么好处刷网站关键词工具
  • 登录企业网站管理系统网络推广员工作好做吗
  • 家装网站建设市场调研的四个步骤
  • design设计网站外链平台
  • 洛阳外贸网站建设今天国内新闻10条
  • 万网域名注册教程富阳网站seo价格
  • wp用户前端化专业版wordpress插件[中英双语]长沙seo公司排名
  • 做建筑的网站山东网页定制
  • 无锡网站制作系统seo黑帽培训骗局
  • 做网站模板在哪儿找宁波seo优化公司
  • 市体育局网站 两学一做最新的全国疫情
  • 网站建站的步骤找营销推广团队
  • 支付网站备案成都疫情最新消息
  • 北京做网站推广seo电脑培训学校
  • 网站优化及推广seo在线网站推广
  • 网站建设的企业目标百度搜索关键词排名优化
  • 企业网站 设计广州代运营公司有哪些
  • 大宗商品采购平台杭州百度seo优化
  • 江苏省教育网站官网创建网站要钱吗
  • 郑州微网站建设俄罗斯引擎搜索
  • 哪家建公司网站互联网营销师是干什么
  • b2b网站开发商需求分析自己代理一款手游需要多少钱
  • 北京网站建设 都选万维科技中国市场营销网