当前位置: 首页 > news >正文

使用wampserver做响应式网站企业seo排名有 名

使用wampserver做响应式网站,企业seo排名有 名,电脑广告设计软件,中国服务器市场Debezium系列之:记录一次数据库某张表部分数据未同步到hive表的原因 一、背景二、查找数据丢失流程三、数据丢失原因四、解决方法一、背景 反馈mysql数据库中某张表的数据没有同步到hive中,现在需要排查定位下原因数据丢失一般常见需求排查的方向: 数据是否采集到hdfs上采集…

Debezium系列之:记录一次数据库某张表部分数据未同步到hive表的原因

  • 一、背景
  • 二、查找数据丢失流程
  • 三、数据丢失原因
  • 四、解决方法

一、背景

  • 反馈mysql数据库中某张表的数据没有同步到hive中,现在需要排查定位下原因

数据丢失一般常见需求排查的方向:

  • 数据是否采集到hdfs上
  • 采集到hdfs的话,进一步去确认数据是否是因为Spark任务资源不够导致没有加载到hive表中
  • 数据没有采集到的话,进一步定位分析没有采集到的原因,目前比较常见的是数据库原因导致、业务场景导致

二、查找数据丢失流程

  • 首先拿一条丢失数据的id,去确认这条数据是否采集到hdfs上,发现成功采集到了hdfs上
  • 观察hdfs文件生成时间,发现这张表的数据文件生成时间比较晚
    • 初步判断出现了数据库主从延迟或者采集延迟,但是spark任务会等到主从延迟或者采集延迟结束才会执行,这样应该能确保不会遗漏数据,进一步确认任务执行情况
    • 发现spark任务并没有出现延迟执行的情况,因此就出现了特殊情况
  • 再去查看数据库中其他表的采集情况,发现其他表的hdfs数据文件生成并没有延迟,这就说明只有这张数据丢失的表产生了采集延迟,进一步排查分析这张表
  • 发现丢失数据这张表近一天的hdfs文件生成时间是在同一时间点生成的,这表明近一天的数据是在同一时间采集到了hdfs
  • 查看这张数据丢失表数据情况,发现这张表在不同小时的数据工用了相同的gtid,这表明这些数据来自同一个事件
  • 进一步查看数据库其他表在不同小时gtid的情况,通过比较gtid,发现丢失数据这张表使用的gtid符合递增情况
  • 至此,基本找到数据没有加载到hive的原因
  • <
http://www.dinnco.com/news/39354.html

相关文章:

  • 网站建设品牌有哪些百度官网app下载
  • wordpress内容页怎么分页宁波正规站内优化seo
  • 内容管理系统WordPress安阳企业网站优化外包
  • 如何做凡客网站冯耀宗seo教程
  • 刘娇娇做网站骗钱的cba最新消息
  • 乐清做网站建设大数据分析网站
  • 图书网站开发的实践意义专门搜索知乎内容的搜索引擎
  • 聚美网站开发开题报告网站优化排名易下拉排名
  • 网站建设与管理教学视频下载百度站长工具验证
  • 许昌做网站公司哪家专业百度云群组
  • 岳阳网站开发开封网站推广
  • 网站建设的意义app推广代理平台
  • 怎么做网站的seo排名知乎优化网站的意思
  • 网站悬浮窗怎么做盲盒
  • 建设网站熊掌号郑州网络推广团队
  • 常用的设计网站seo优化教程培训
  • 烟台做网站哪家好域名查询大全
  • 做网站技巧制作自己的网页
  • 网站怎么申请备案seo检测
  • 专门做ppt的网站名称seo品牌优化整站优化
  • 专业做化妆品的网站杭州搜索引擎排名
  • 丽水手机网站建设互动营销经典案例
  • 南昌建站价格网络优化培训要多少钱
  • 如何制作旅游网站品牌营销推广
  • wordpress导航跟随无锡网站优化
  • 连云港网站制作公司哪家好公司推广方法有哪些
  • 新开传奇网站195合击app推广的常用方法
  • 企业做网站需要提供什么资料常见的网络营销方式
  • 高校建设主流网站seo客服
  • web网站开发的基本流程百度快速优化推广