访李飞飞:从清华附中高材生到阿里飞刀,一口井钻出「云原生」

【新智元导读】他初三上清华 , 如今是达摩院数据库首席科学家 。 李飞飞从学术界走向工业界 , 带领阿里云技术团队一手打造了云原生分布式数据库 , 让阿里「全面上云」的战役再下一城 。 今天 , 他用一口水井为我们道出了云原生! 如果要用一个关键词来定义中国当下的消费时代 , “双11”是再贴切不过了 。
从2009年11月起 , 它只花了十年的时间 , 就从一个只有27家商户参与的打折日 , 变成了一个全民狂欢的消费节 , 2019年已经有超过18万家品牌参加 , 累计成交额更是高达2684亿元 。
每年的双11 , 都是互联网的流量洪峰 。
访李飞飞:从清华附中高材生到阿里飞刀,一口井钻出「云原生」文章插图
面对逐年攀升的成交额数据 , 到底是什么作为支撑呢?
阿里巴巴集团副总裁、阿里云智能事业群数据库产品事业部总裁、达摩院数据库与存储实验室负责人李飞飞在新智元专访中透露 , 去年双11交易峰值达到了每秒55万笔 , 而每笔交易又能拆分成很多个事务 , 总的下来每秒会有几百万的transaction事务在0:00:01那一刻发生 , 交易量会暴涨133倍 。 比如说之前一秒有一个 , 现在就是一秒有133个 。
短时间内如此高的增长 , 对后端的计算和存储系统的挑战巨大 。 系统的弹性、可扩展性及高可用性要非常好 , 不然难以支撑瞬间的交易暴涨 。
这是对数据科学的极大挑战 , 也是每个有抱负的「数据科学家」最好的舞台 , 李飞飞为这个舞台准备了20年 。
从清华附中起飞:李飞飞如何走上数据科学之路?
李飞飞从小喜欢深挖钻研 , 参加了很多数学和物理竞赛 。
在清华附中的国家教委理科实验班 , 没有了高考的压力 , 李飞飞便一头扎进了竞赛里 。
16岁是个分水岭 。 那一年 , 他初三毕业进入了国家教委理科实验班 , 确定了后续保送进清华的道路 。
本科的毕业设计 , 让他第一次接触到了数据科学 。 那个年代 , 大数据还没有兴起 , 但在当时的李飞飞看来 , 这个工作具有前瞻性的意义 。
访李飞飞:从清华附中高材生到阿里飞刀,一口井钻出「云原生」文章插图
即使来到了2017年 , 「数据科学家」这个岗位也依然很「感性」 。
因为当时 , 数据科学还不是一门大热学科 , 「数据科学家」的概念还停留在表层 , 很少有人能透过枯燥和乏味参悟到其中的魅力 。
从2001年初到2002年上半年 , 在这一年多的时间里 , 李飞飞都沉浸在自己的毕设项目里 , 每天都和外文网站上的海量数据打交道 。
通过对BBC、CNN等网站信息的拆解并分析Hyperlink资源 , 成功将网站的结构拓扑出来 , 并描绘出一个完整的后台 , 还初步实现了对网站信息的自动化理解 。
「现在回头来 , 我们当时这个项目看其实是非常超前的 , 以当时的技术确实也也不大可能lead to somewhere」 , 在谈到本科毕设的项目时 , 李飞飞如是说 。
虽然当时只用了一些分词、词频统计等简单的方法 , 但是已经有了现代NLP技术的影子 。 真正有前瞻思考的人总是走在时代的前面 。
「01、02年左右 , 还没有大数据的概念 , 但本质上 , 我认为大数据和数据库是同源同本的 , 也就是对数据的管理和处理 。 」
「这个项目对我的锻炼很大 , 当时的那个人工智能 , 包括深度神经网络跟NLP的技术还没有发展起来 , 其实当时已经有神经网络 , 我本科时期上过这门课 , 印象还很深 , 觉得这个效果很好 , 但是当时因为集群的规模、算力的限制 , 也没有深度的网络 。 」
管中窥豹 , 可见一斑 。
通过这个项目 , 李飞飞很早地认识到了数据驱动的力量和永无止境的探索空间 。
「在那个年代 , 很多的上层应用分析 , 很多时候是rule-based , 也就是规则驱动 , 定义规则 , 然后根据这个来搭建系统 , 但当时我们做那个项目就已经感受到数据驱动的力量 。
访李飞飞:从清华附中高材生到阿里飞刀,一口井钻出「云原生」文章插图
「数据从生产、处理到存储、消费 , 这个全链路的理解、挖掘和管理 , 是永远没有止境的 , 因为数据量在不断地变大 。 数据类型在不断地这个复杂化 。 基于这些数据构建的上层应用也在多样性 , 也在多样化」
数据的挖掘和管理如同一个滚滚向前的车轮 , 随着时代和技术的演进不断向前 , 激发了李飞飞在这个领域探索不断探索的热情 。
在这个具有超前意识项目的熏陶下 , 李飞飞毅然决然地走上了数据科学的道路 , 转而到美国波士顿大学攻读数据库系统和大数据 。 之后又先后在佛罗里达和犹他大学计算机系任教 , 从助理教授到副教授 , 一路做到正教授 , 这一干就是10年 。