Flink实时计算指标对数方案

  • 时间:
  • 浏览:1

为了方便理解,还是拿底下离线和实时的下单金额为例。

最终小李拿着被委托人存储的明细数据和小王对了一下,发现是小王的口径不一样,越来越 排除有些预售订单,最终小李将汇报给老板,得到了老板的嘉奖。

二、实时数据统计方案

a.学习成本低、会sql的基本就都可不可否了,而不到重新学习es负责的count、group by 等语法操作

于是,小王看着被委托人数据告诉小李:某人在亲戚亲戚亲戚亲戚朋友平台下了30个iphone x合计几块钱、某人又在亲戚亲戚亲戚亲戚朋友这里买了10台联想笔记本电脑合计几块钱 .......

小李想了想,按照导师的思路开发如下的宽表加工方案:

小李看着最终展示在大屏上的30亿GMV,瞬间就蒙了,心里想道:我这里谁能谁能告诉我谁买了几块个iphone呀,也谁能谁能告诉我亲戚亲戚亲戚朋友花了几块钱呀?

写HDFS与es相比,指在非常明显的优点:

实时计算能提供给用户查看当前的实时统计数据,日后数据的准确性真是 一个 很大的有哪些的难题,要怎样说服用户肯能领导数据计是否是越来越 有哪些的难题的,就都可不可否和有些的数据提供方进行比对了。有哪些的难题的关键就在于,若果有明细数据,就都可不可否和任意一方进行比对,毕竟有明细数据。不服?亲戚亲戚亲戚亲戚朋友就对一对啊。

日后有有些亲戚亲戚亲戚朋友肯能会说,es对应的sql count、group by语法操作,非常复杂,况且也都在用来做线上服务,而有些用与对数,有些时效性有些都可不可否全版考虑,曾经语录,就都可不可否考虑将数据回写至HDFS了。

对于一个 实时数据产品人员、肯能开发人员来说,产品上展示的实时数据,pv、uv、gmv等等,为什么么知道有有哪些数据是都在正确的呢?当有些的小组开发的产品的数据(肯能有些的数据提供方)又是另外一个 数字,越来越 究竟该要怎样判断被委托人的数据还是别人的数据是正确的呢?这就都可不可否一套实时数据对数方案,本文主要从背景、实时数据计算方案、对数方案、总结四方面来介绍,说服老板肯能让被委托人相信被委托人的数据是准确的、无误的。

相信做过实时数据统计的亲戚亲戚亲戚朋友,肯定会遇到一个 有哪些的难题,为什么么知道被委托人算的数据是都在对的呢?比如:pv、uv、dau、gmv、订单等等统计数据。

(2)用Flink实时宽表数据存储至HDFS,通过Hive进行查询

日后在整个过程中,不得不思考一下,最后计算出来的存储在redis中指标数据是都在正确的呢?为什么么能给用户肯能老板一个 信服的理由呢?相信你这名 有哪些的难题一定是困扰所有做实时数据开发的亲戚亲戚亲戚朋友。

上述流程图描述了一般的实时数据计算流程,接收日志肯能MQ到kafka,用Flink进行处置和计算,将最终计算结果存储在redis中,最后查询出redis中的数据给大屏、看板等展示。

明细数据的存储、设计也很有讲究,都可不可否和离线肯能有些提供方的数据字段进行对齐,曾经就非常方便进行比对了,而采用hive你这名 辦法 又是最简便的辦法 了,毕竟大多数人都在会sql的,无论开发人员还是数据人员肯能BI人员。

(1)用Flink将实时宽表数据存储至elasticsearch

一、背景:

三、对数处置方案

日后都可不可否考虑采用下图的方案,将加工的宽表通过Flink写入到HDFS,日后新建hive表进行关联HDFS数据进行关联查询。

四、总结

将加工的宽表数据通过Flink写入es,曾经都可不可否得到所有数据的明细数据,拿着明细和有些数据提供方进行比对即可。

比如说:离线的同事说离线昨天的数据订单是1w,实时昨天的数据真是 2w,指在越来越 大的误差,到底是实时计算出有哪些的难题了,还是离线出有哪些的难题了呢?

某电商双11实时数据大屏最终展示的GMV是30亿,小李当晚汇报给老板,双11GMV是30亿。第四天晨会,离线的同事小王汇报给老板,双11GMV是30亿。一齐又一个 数据部门的同事小赵说,亲戚亲戚亲戚亲戚朋友这边计算的是192亿。老板听到越来越 多数据,一瞬间就谁能谁能告诉我该相信谁的呢?日后有些,小李、小王亲戚亲戚亲戚亲戚朋友两数据差距最大,亲戚亲戚亲戚亲戚朋友对一下吧,汇报我一个 最终结果。

于是小李回去请教了被委托人的导师,导师说你把底下的实时宽表数据存储下来,就都可不可否和亲戚亲戚亲戚朋友对了,就知道谁买了几块个iphone x了,谁有买了几块个联想电脑了。

b.都可不可否非常方便地和离线表数据进行关联查询(大多数情况下都在和离线数据比对),两张Hive表的关联查询,容易找出两张表的数据差异