此页面上的内容需要较新版本的 Adobe Flash Player。

获取 Adobe Flash Player

大数据

中科院院士陈国良:现在研究大数据,“是什么”比“为什么”重要
作者:   来源:大洋网   日期:2020-10-25

   10月24日,在广东省科协与广东省科技厅共同主办的2020年岭南科学论坛系统活动之“新一代信息技术高端科学论坛”上,中国科学院院士陈国良指出,大数据的概念很热,人人都知道大数据很重要。但是大数据的理论研究仍然不够,从科学高度去认识大数据仍然存在很多问题,这需要各个领域的科学家去努力回答这些难题。



   陈国良是并行算法、高性能计算专家。他认为大数据并不是一个新概念。

   “大家不要认为大数据是颠覆性的概念,其实我们很多技术除非是原创的原理,基本上是在从原有基础的发展和演变而来的。”陈国良表示,在自己读书时就接触过“巨量数据”、“海量数据”、“天文量级的数据”等各种概念。

   而最早“海量数据”的来源是大科学工程所产生的数据,比如大型强子碰撞试验,斯隆数字天空勘探计划、基因测序等等。而随着新兴信息技术的发展,物联网、人工智能等技术的应用则催生了更多的数据。

   在陈国良看来,大数据(BIGDATA)的名称也有不科学之处。“大小只能表述具体的事物,比如桌子等。数据是一个抽象事物,抽象事物用大小表述可能不太合适。”他说。

   陈国良说,如今很多人都把大数据作为一种资产、资源甚至企业的竞争力,这都是关于大数据内部属性的认知。

   在内部属性之外,大数据是否还会有外部效应呢?关于外部效应形象的比喻是蜜蜂采蜜不仅提供蜂蜜,还传播花粉给农业带来大丰收。陈国良说,在优化生产、节能增收的内部属性外,隐藏在大数据中的外部效应还有很多科学问题待解。除此之外,大数据还有潜在的、暂时看出的长远影响,犹如当年交流电的发明只是为了照明,但是如今交流电已经无处不用。

   “大数据难道仅仅只是一个现象,是否具有理论问题,这需要各个领域的科学工作者来回答。”陈国良说,自己是计算科学领域的科研工作者,他就从计算科学领域来回答这些问题。

   他认为,大数据直观定义是目前常用的软件工具无法在容许的时间内进行获取、存储、管理、分析的数据集。大数据具有高价值、大容量、快速率、多样性这四重属性。

   陈国良表示,大数据在计算领域的科学问题,在于原来计算数据的方法在大数据面前不够用。如今常规对数据的处理方式遭遇了技术挑战,科学家需要研究计算问题。

   据他介绍,大数据中需要计算的数据包括静态数据和动态数据。静态数据是指采集完毕并存入存储器中的数据,这需要并行计算和交互式计算两种模式。而动态数据是不断在采集过程中的数据,在流动数据中多少具有代表性,其中就涉及采样的问题。

   “大数据价值递减规律是实际采样中遵行的一套法则,有人提出优先采样,抓住前面的数据就能实现价值。我们正在用定量的科学方式去验证这个原理,其中包括很多数学方法。”陈国良表示,在科学研究中,很多都需要这类的定量分析。

   “我们现在研究大数据,知道‘是什么’比知道‘为什么’重要,‘为什么’可以后期慢慢研究。”陈国良表示。

   广州日报全媒体记者 龙锟 通讯员科记协
   广州日报全媒体编辑 胡群智