Hi 欢迎来到易观方舟
有问题就找小舟助手
联系我们 周一至周五 10:00 - 18:00

产品咨询:4006 - 010 - 231 转 1

商务合作:4006 - 010 - 231 转 2

咨询与帮助

什么是数据河?特点是什么

大数据的环境下,做运营的一定要做好分析。因为现在数据只有流动起来才可以产生价值。基于IOTA架构的数据河与数据湖组建企业内部的可流动的大数据水系,用数据驱动整个企业精益成长。那什么是数据河呢?作用是什么呢?

 

什么是数据河?

 

数据河(DataRiver)就是在由源头产生清晰干净的有效数据(去ETL化,数据源头业务就像生态水源一样,不让污水流下去),通过各个河流网,流向各个数据消费端的架构。

 

数据河的特点

 

源头有效:根据大数据IOTA架构,数据河在产生的源头就需要加工为有效的CDM数据(CommonDataModel),参见文章《Lambda架构已死,去ETL化的IOTA才是未来》,数据通过数据耕种方和使用方直接在数据产生源头通过EdgeSDK进行清洗。

 

全局唯一:多条数据河的差别在于CDM模型的不同,而不是使用者的使用方法不同,避免同样数据源被多次加工失去数据唯一性。

 

高低流向: 数据河一定是要有高低流向,即每条河流都需要有确定的使用者,而不是漫无目的的洪水,数据源头的质量是通过环境治理由使用者定义的,而不是由产生者,产生者只关注数据是真实即可。

 

湖中暂存:数据河一定是基于IOTA架构的实时数据,在CDM模型的支持下,实时流向使用者。数据河在数据湖中只是暂存,一定会流向其他河流和分支,而不会沉积在数据湖中,否则会产生数据淤泥,最终成为数据沼泽。

 

最终一个企业内部由多条河流组成一个公司内部的数据生态(EnterpriseDataEcoSystem):

 

数据源头(DataSource):数据产生者,确保产生的数据都是真实数据,像冰川雪水一样确保数据真实性。通过边缘计算,变为IOTA架构当中的CDM模型,确保CDM全局唯一,不用管数据业务统计的计算逻辑。

 

数据河(DataRiver):有全局CDM模型唯一定义的,由数据源头流向数据消费者的数据架构,可以使用大数据IOTA架构或者其他类似的去实时数据处理架构。

 

数据消费者(DataCosumer):数据消费方,拿到原始真实的数据,根据自己的业务逻辑,实时计算为自己所需要的结果或者根据数据实时驱动自己的业务。

 

数据三角洲(DataDelta):多条数据河交汇使用的地方,需要数据耕种者(DataCultivators)把两个不同的CDM模型(例如用户行为数据的CDM与商品库存数据的CDM),实时合并,提供给数据消费者实时驱动自己的业务。一般,三角洲的河流交汇越多,这个三角洲的土壤更加肥沃。数据三角洲的耕种,可以通过AI或者机器学习会产生新的数据源,在新的CDM模型和使用者的支撑下可以是新的数据源头(DataSource)。

 

数据湖(DataLake):在河流交汇或者河水需要暂存下来的时候,这是根据数据耕种者的需要,其中的数据一定是要继续流动的,而不是死水,即数据在数据湖中暂存时间是有限的,例如3个月或者6个月,最终在数据消费者这里才是永久保留。

 

这个模式比较典型的一个实现就是易观方舟,易观方舟以IOTA架构安装到企业内部,帮助企业建立用户行为分析这个CDM的数据河,以“主、谓、宾”的模式打通企业内部用户的各种行为,直接提供给产品和运营做相关的数据分析,同时也是一个PaaS平台,可以供给给其他数据耕种者继续再次加工。

 

数据河是数据驱动中台的最终架构,只有让数据流动起来不断消费才可以让数据不断的自我更新迭代数据质量,不断自我加强才可以实现数据驱动业务。

 

数据,只有流动起来才可以产生价值。宁要IOTA架构下的数据河,不要Lambda架构下的数据湖。

相关推荐:

体验文中提到的功能

立即免费体验Demo

智能用户运营,就用易观方舟

连通内外部数据源,打通全端用户运营触点,构建智能用户运营闭环

体验Demo