一般的app数据采集可能会存在数据上报延时,因此数据会存在两个时间:数据生成的时间和服务器收到的时间。
由于我们底层数据都是按时间来做天的分区,那么该用数据生成的时间还是服务器收到的时间? 服务器收到时间。
如若用服务器时间。那么面对查询某app或者某用户某天的明细数据的时候这个如何操作? 有三种方式来处理:
1. 不做处理,查询的时候,跨两天的分区来查。
2. 时候修补,比如每两天按照消息发送时间重新处理一遍数据。
3. 对于ods数据,不再做处理,在DW层按照消息发送时间来处理。
千锋教育-做有情怀、有良心、有品质的职业教育机构
一般的app数据采集可能会存在数据上报延时,因此数据会存在两个时间:数据生成的时间和服务器收到的时间。
由于我们底层数据都是按时间来做天的分区,那么该用数据生成的时间还是服务器收到的时间? 服务器收到时间。
如若用服务器时间。那么面对查询某app或者某用户某天的明细数据的时候这个如何操作? 有三种方式来处理:
1. 不做处理,查询的时候,跨两天的分区来查。
2. 时候修补,比如每两天按照消息发送时间重新处理一遍数据。
3. 对于ods数据,不再做处理,在DW层按照消息发送时间来处理。
上一篇
说一说RPC通信框架下一篇
什么是ETL?hive外部表是使用external关键字并指定一个hdfs目录创建的表。hive内部表在创建时会在对应hive目录下创建相应的文件夹,外部表则以指定文件夹为...详情>>
2022-09-02 17:21:00Checkpoint是为runtime准备的,Savepoint 是为用户准备的。Checkpoint 机制的目标在于保证Flink作业意外崩溃重启不影响exactly once 准确性,通...详情>>
2022-09-02 16:59:22State:指一个具体的Task/Operator的状态。State可以被记录,在失败的情况下数据还可以恢复,Flink中有两种基本类型的State: Keyed State, Op...详情>>
2022-09-02 16:59:19Flink 内部是基于producer-consumer模型来进行消息传递的,Flink的反压设计也是基于这个模型。Flink 使用了高效有界的分布式阻塞队列,就像 Jav...详情>>
2022-09-02 16:59:16虽说水位线(Watermark)表明早于它的事件不应该再出现,但是接收到水位线以前的的消息是不可避免的,这就是所谓的迟到事件。实际上迟到事件是乱...详情>>
2022-09-02 16:59:00