陈纯院士报告分享:时序大数据流(图)实时计算及智能决策

 
 
 
 
 
 

来源:中国计算机学会

 

2023年3月,由中国计算机学会主办的 “CCF中国数字经济50人论坛高端峰会”在杭州举行。CCF会士、中国工程院院士、浙江大学陈纯教授受邀出席,做了题为“时序大数据流(图)实时计算及智能决策”的主题报告。为充分梳理和展现峰会成果,现将陈纯院士的主题报告内容做以下分享。

 

 

 

报告主题:时序大数据流(图)实时计算及智能决策

 

 

人类社会和物理空间在信息空间中映射有两种基本表达结构,分别是针对对象的特征空间结构和针对关系的关联图谱结构。在互联网、移动互联网出现之后,这两种结构所表达的数据都可以拥有时间戳。基于时间戳的数据被称为 “时序数据”,时序数据是从2013年开始提出了的概念。从计算机算法的角度来看,时序数据有几个特点:第一是增量的;第二是时序的,时间不能隔断;第三是动态的;第四需要处理复杂的时序变化。

 

在2015年的时候,我们开始研究时序数据,有别于历史数据和实时数据的处理,针对时序大数据流的实时计算,我们希望做到每秒千万级并发访问,千亿级流水和高实时。

 

大数据、流数据到“时序大数据”发展历程

 

针对时序大数据的处理,我们的研究工作涉及到四项关键技术,分别是:

 

1、面向复杂统计指标的实时增量计算。基于多项式拆解的复杂算子增量计算算法,实现了在长周期、多尺度、高密度时间窗口中的方差、协方差、K阶中心矩等数十种复杂算子实时计算。例如,从数学上,我们需要把计算协方差的方法重新写成增量的方法,以前的数据不是简单的原数据,而是通过计算以后的中间量,这需要花费很长的时间。我们用了十几年的时间,把每个算法从数学的角度重新定义。

 

2、面向时序数据处理的动态时间窗口技术。时间窗口需要提供滚动、滑动的漂移能力,也要支持长周期时间窗口的动态精度控制,并且还要支持基于弹性时间窗口的实时ADHoc查询。

 

3、多源时序数据的实时关联计算。关联分析非常重要,不仅仅是一个特征的时序分析,还需要关联起来,这个时候需要有一个关联分析的引擎。针对关联分析的引擎,我们必须在内存里面有非常大的空间,但是要做到实时也是非常难的。 

 

4、基于流的事件序列识别(复杂事件处理CEP)。主要是支持CEP的增量匹配及数理统计问题,要把增量匹配增量统计。

 

通过多年的努力,我们基本上解决了四大关键技术问题,形成了我们称之为的流立方技术。流立方能够和均匀流架构完全结合起来,具有历史数据的大数据量的处理能力,同时又具有流处理的实时能力。这是一个大数据处理的方式,因为在具体应用当中,大家会碰到很多大数据的分析,但是很多时候,都没有加上时间这个纬度的分析,当然没有加上时间纬度的分析也许能够解决问题,但是要花费很大的计算量。这四项关键是处理大数据实时时序的大数据流分析,后面结合AI的模型,可以形成一个实时的流的管理。

 

流立方,除了流之外,还可以在图上展示。特征空间的分析用特征向量就可以,加了一个在每个特征空间里面时间纬度,形成时序的时间分析。图的分析是关联分析,关联分析图也是可以加时间纬度。

 

如下图所示,在2017年的时候已经知道图数据的处理非常重要。同样的,到了2018年的时候,图越来越大,需要进行实时的图计算,这个时候我们想到很多的方式,分布式的实时图数据也有,类似于流处理,和以前的批处理的架构一样。以前所谓的图处理,现在是实时图处理,关键是加上时序分析。到了2018年有1.0版,目前我们希望有2.0版,这里有大量的工作需要做。尤其是图计算越来越重要,图计算能够产生80%的数据创新。通过图计算分析能够洞彻数据之间的关联关系,提高社会运行效率,这是战略的制高点。

 

从“时序流”到“时序动态图”的发展历程

 

图计算也是非常难的,实时图计算,时序图的动态回溯和分析,百亿级顶点,万亿亿的边,两两都有边,时间轴会变一下,有的顶点增加,有的顶点减少,有的关联边没有了,有的边增加了,这个关联度要建立起来。这样的应用案例非常多,去年在新冠期间,在实时的时空关联中,有很多顶点,除了每个人是一个顶点之外,把时空分割起来也是一个顶点。所以,一个人在时间、空间上和你关联起来,就是时空关联。几百亿的顶点和边,怎么做都是困难的,这里通过时序图的实时增量计算和动态回溯,时序图的分布式处理,时序图的智能决策都有很大的挑战性。在我们的研究工作中,这里依然由四项关键技术。

 

1、时序图的实时增量计算,包括统计特征,聚合的统计,聚合边的关联。图和流不一样,图实时动,图的结构就变了,到了下一时刻,原来是两亿的点的图,变成了现在的2.3亿,增加三千万点。需要动态建图,并且时序图的增量匹配是个问题。事件驱动的图模式并行匹配,需要很大的工作量,除此之外,更难的是原有的图算法很多,需要进行图算法的增量计算,有大量工作要做。 

 

2、时序图的实时动态回溯。支持长周期、混合时间尺度的时序计算能力,以及支持弹性时间窗口的视图实时回溯能力。关系在变化,每个切面都要变,需要实时进行查询。 

 

3、时序图的分布式内存存储引擎。这么大的图做到实时,一定要把数据导进内存,能不能做一个分布式的内存架构显得非常重要。到目前为止,开源的流效益依然不高。我们做的时序图分布式存储引擎叫做cubebose,希望对图的结构更加有效。

 

4、面向时序图的实时决策(三核智能决策引擎),把数据从实时采集到实时决策,指标计算特征提取这里面有图数据库,时间关系等。

 

针对时序图的应用,银行交易反欺诈系统是一个典型的案例。这个系统用到了流的处理引擎,是一个精巧的计算,可以不用大量的算力和计算机来做这个工作。银联要求每秒5万个并发,希望在50毫秒内全球要响应,IBM的硬件要一千多万,我们的算法只使用4台PC设备。如果没有时序流的计算,硬件不仅仅4台,可能要40台都不够。

 

第二案例是铁路12306,大量的爬票程序存在,需要在每秒170万的并发量,几千台设备管理买票都要宕机。阿里的双11支付的峰值是每秒60多万,铁路12306峰值达到180万,是阿里的双11的3倍。采用了我们的算法,仅仅使用了22台设备。现在铁路12306核心处理只有22台,安装了22个节点的流立方,可以做到每秒200万的处理能力。

 

在数字经济时代,数据怎么处理,从时间轴上面考虑,这是非常重要的。因为以前的算法没有时间这个纬度,我们通过很多AI模型来计算来解决这个问题,但是加上时间,一切问题迎刃而解。黑客攻击也是一样,以前没有时间戳,没有办法,加上时间戳很多问题很多模型都简化很多,所以我建议大家在具体的数字经济时代,当我们在处理数据的时候,结合场景,加一个纬度(时间)加上去看看,能不能起到一个很好的作用。

 

 

 

陈纯

CCF会士、中国工程院院士、浙江大学教授

 

陈纯 中国工程院院士,浙江大学计算机科学与技术学院教授、博士生导师,浙江大学信息学部主任,国家数码喷印工程技术研究中心首席科学家,国家新一代人工智能战略咨询委员会委员,CCF中国数字经济50人论坛委员。曾任浙江大学计算机科学与技术学院院长、浙江大学软件学院院长和浙江大学计算机软件研究所所长。是国家教委“跨世纪优秀人才培养计划”首批入选专家,浙江省首批特级专家。荣获第三届中国青年科技奖,2012年度全国五一劳动奖章。

 

 

 
 
 
 
 
 

免责声明:本号所载内容均为原创、投稿、授权转载或网络公开资料搜集整理,仅供读者交流学习使用,版权归原作者所有,且仅代表作者个人观点,与本号立场无关。若所引用的图片、数据、文字等来源标注有误或涉及侵权,烦请及时联系删除。

欢迎扫码关注

 

 

 

首页    行业动态    院士说    陈纯院士报告分享:时序大数据流(图)实时计算及智能决策
创建时间:2023-03-31 09:17
浏览量:0