积累了几十年的临床数据宝藏,正承载着医药巨头的大数据野心

积累了几十年的临床数据宝藏,正承载着医药巨头的大数据野心

11月20号刊

CDO·数据智能

葛兰素史克(GSK)在大数据方面怀有远大梦想。通过利用数十年积累下来的临床试验数据, 这家制药巨头旨在更迅速地将药物投放市场。如果成功的话,它有望在这个因步伐缓慢而常常饱受诟病的行业占据优势。

这是葛兰素史克首席数据官(CDO)Mark Ramsey 的主要目标和挑战;他承认,GSK 在利用数据方面动作迟缓的行业是个落后者。2015 年GSK 聘请Ramsey,便是希望扭转这个颓势。

Ramsey 说:“与金融服务、电信或零售等行业相比,制药业在使用数据作为战略资产方面没有取得多大进展。”他在加盟 GSK 之前,在三星移动担任过 CDO,并在IBM 效力 18 年期间担任过几个数据分析岗位。“我们的首要目标是如何更高效地开展临床试验,以加快药物发现。”

并非只有各大制药公司任由可能很丰富的数据闲置在庞大的孤岛中。Gartner 的一项调查显示,许多公司在物色领导人,帮助从这些数据宝藏中发掘优势和运营效率,预计到 2019 年底,90% 的大公司会设有 CDO。

Gartner 分析师 Doug Laney 认为,到 2020 年,50% 的领先企业会设有战略影响力和权威性与首席信息官(CIO)不相上下的 CDO。CDO 可以将其个人的优先事项与企业的优先事项结合起来,以此确立领导地位。这正是 Ramsey 所努力的方向。

积累了几十年的临床数据宝藏,正承载着医药巨头的大数据野心

以下是Ramsey 如何致力于全面改变 GSK 的数据战略。

 

奠定数据基础

 

制药公司(许多公司有数十年、甚至数百年的历史)经常从临床试验收集和存储海量数据。然而,大多数只是将这些数据用不同的数据库存储起来,每次临床试验后,积累的信息越来越多。Ramsey 表示,GSK 有 300 多年的历史, 它在 2100 多个孤岛中存放着数 PB 级的此类数据,这些孤岛有待制药公司挖掘,以获得宝贵的洞察力。

Ramsey 来到GSK 后评估了该公司的数据概况,迅速了解到数据分析技术并没有在整个公司得到全面使用。相反,这项技术只是用于旨在将新药投向市场的一次性临床试验。他从中看到了共享众多试验的数据的大好机会,但要是没有一种全面的数据平台:GSK 大数据信息平台,这就无从谈起。

该平台的基础是一个 Cloudera Hadoop 数据湖,StreamSets 公司的自动化机器人技术从成千上万个作业系统中获取数据后放入到该数据湖。随后,GSK 使用 Trifacta 软件清理杂乱、复杂的数据集,并做成业务用户有兴趣分析的视图。GSK 还利用 Tamr 公司的机器学习软件,将数据转移到行业本体(Ontology),并利用AtScale 软件对数据进行虚拟化处理。业务用户通过 Zoomdata 可视化软件查看数据。该平台中的其他工具还包括谷歌的TensorFlow、TibcoSpotfire 和 Anaconda 等。Ramsey 表示,各种技术整合起来,那样它们可以共享数据,而这使临床试验更容易。

作为这个项目的一部分,该公司已在 11 个月内将大约 12TB 的结构化数据和近 8PB 的非结构化信息转移到该平台――这个速度对任何一家企业来说都很快,更不用说是制药公司了。

Ramsey 解释:“尽管 GSK 已有 300 多年的历史,但我们正尽量像一家初创公司那样来运作。”



 

缩小数据发现窗口

 

GSK 大数据信息平台已经获得了成效,缩短了为临床试验筛选数据的时间。过去研究人员要花一年的时间来分析临床试验,从而找出血液类型与呼吸药物疗效之间的关系,现在却只需要短短 30 分钟。Ramsey 说:“这给研究人员的工作效率带来了巨大的影响。”

Ramsey 表示,GSK 最近还与英国生物样本库(UK Biobank) 签署了一项合作协议,利用其平台为 500000 名患者开展外显子组测序(Exome Sequencing),帮助研究人员分析与这些特点有关的DNA 特性。Ramsey 说:“这与研发过程有关,所以带来了巨大的价值。”GSK 希望用其平台开展的计算机模拟将帮助该公司将药物发现周期从五年或七年缩短至两年。

Ramsey 为力求做好数据分析工作的公司提供建议。

进行整体评估:你先要了解数据在哪里、是什么样的数据、如何使用数据。Ramsey 加入GSK 后,发现 IT 部门对数据毫无头绪。于是他让IT 团队构建了一项数据搜索技术,找到研发部门的每个数据源。一旦你对数据环境进行了评估, 就可以设立一个支持那些任务的数据分析团队, 并开始考虑建立获取、处理和分析数据的平台。

先对数据运用分析技术:许多公司常常忽略仔细呈现用于分析的数据,就是由于它们一门心思想解决业务问题。Ramsey 鼓励同行专注于数据筛选,并利用市面上的机器学习工具了解你拥有的数据。他说:“确保将大数据工具运用于数据本身,让这成为现实。只有筛选数据,并将筛选过的数据提供给业务用户,才可以开始创造价值。”

获得业务部门的支持:Ramsey 表示,获得公司高层的认可至关重要,他的直属上司是 GSK 的研发部门总裁。他说:“拥有一种出色的平台只完成了一半;你要有挑战极限,而且想要改变决策方式,从而为公司提升价值的高层。”

作者 | Clint Boulton 

杂志编辑 | 正月

编译 | 沈建苗

微信编辑 | 李昊原

原文发表于《IT经理世界》,转载请注明

积累了几十年的临床数据宝藏,正承载着医药巨头的大数据野心