邬贺铨:大数据应当追求数据精确而非大而全

来源:二局科学道德办公室   发表时间:2016-08-23

[ 字号  ]

作者:彭科峰 来源:中国科学报 发布时间:2016/7/12

 

    ■本报记者 彭科峰

 

    在目前的南方大规模降雨中,百度、阿里巴巴等多家公司利用大数据,即时发布武汉等城市街道积雨状况的地图,提醒出行市民提前避让。这显示了大数据的巨大威力和前景。

 

    在日前举办的中国大数据产业峰会暨中国电子商务创新发展峰会上,中国工程院院士、中国互联网协会理事长邬贺铨向记者表示,大数据不能追求以大盖全,而应当追求数据精准并强调规律。“对一个大数据集而言,我们很难要求所有数据都精准,但只要大多数数据有代表性,就不妨碍我们利用数据集合得到较为准确的结果。”

 

    据介绍, 2015年、2016年两年内,全世界新产生的数据量约等于人类有史以来到2014年全球累积数据量的总和。邬贺铨认为,大数据具有增长性、颗粒性、异构性、移动性、多维性、隐私性等特点。他以医疗大数据为例介绍说,一个千万人口的国内城市50年累计的医疗数据量,预计能达到10PB级。这些数据具有多样性和碎片化的特点,颗粒性大小差别很大。未来,人们需要将这些非结构化数据转换为结构化数据进行处理和储存。

 

    “我们正加速进入大数据时代,但并不是所有数据都能开放,而是按照分类来进行部分开放。”邬贺铨说,大数据有很多来源,包括社会空间数据、物理空间数据和信息空间数据。比如国家安全数据、商业秘密数据、个人隐私数据这三方面的数据就不能开放。

 

    《中国科学报》 (2016-07-12 第4版 综合)

版权所有:中国工程院  网站标识码:bm50000001  备案号:京ICP备14021735号-3  京公网安备 11010202008133号
地址:北京市西城区冰窖口胡同2号  邮政信箱:北京8068信箱  邮编:100088  工程院位置图
电话:8610-59300000  传真:8610-59300001  邮箱:bgt@cae.cn