重邮张清华:发展数据科学需要大数据试验场( 二 )


"数据科学"的特征我主要说三个 。 第一是不在意数据的杂乱 , 而在意数据的量;第二是不要求数据精准 , 而强调数据面面俱到 。 面面俱到的含义不是涵盖所有数据 , 而是各个方面都要有代表性数据 , 这就离不开概率论支持 。 第三是不追求因果关系 , 但重视统计规律 。 这意味着不只追求因果关系 , 更多在于追求关联关系 。
科学研究的前三种范式都属于知识范式 , 它们的重要特征就是从数据特征里面挖掘出能够被我们理解的知识 。 数据科学范式下 , 有一个不一样的思维方式:我们是否可以挖掘出客观存在但人类无法理解的知识呢?数据科学的内涵知识 , 是否可以通过数字世界的特殊方式直接解决问题?我认为数据科学范式下挖掘出来知识 , 可能我们理解不了 , 但是机器能理解 , 这种规律应该是数据范式下我们去探索和思考的 。
建设大数据试验场驱动数据科学发展
要探索数据世界、治理数据世界 , 就必须发展"数据科学" , 这是一个重要前提 。 每一个科学都需要探索 , 在探索过程中都需要做试验或者实验 。 试验是探索 , 实验是验证 。 我想 , 最重要的事情就是做"大数据试验场" 。 大数据试验场想做的就是驱动数据科学发展 , 探索数字世界的奥秘 , 换一个角度看世界 。
为什么要建大数据试验场呢?因为数据孤岛的存在 , 我们现在的一些数据挖掘方法 , 只能挖到一些很低端的浅层次的数据 , 更深层次的怎样进行挖掘 , 需要新的挖掘方法和新的理论 , 就需要建设试验场 。 做一个比较浅显易懂的对比方式 , 试验场跟矿场是类似的 。
重邮张清华:发展数据科学需要大数据试验场文章插图
目前 , 重邮正在建设"大数据试验场" , 我们建设大数据试验场的目的是探索数据科学本身的内涵、探究数据科学本身规律 , 然后引导产业创新 , 引导行业的发展 。 我们在浪潮等一些知名企业的指导下 , 构建了千万元级的算力 , 但长期目标是打造示范性算力基础设施 , 构建大数据试验场基础设施 , 在高校中打造算力平台的典范 , 为重庆市实施大数据智能化发展作出贡献 。
最后 , 欢迎大家到重邮来 , 也对本次2020浪潮云数智峰会的召开表示祝贺 , 谢谢大家!
【重邮张清华:发展数据科学需要大数据试验场】#浪潮##大数据##智能化##重庆邮电大学#