薛万国:“点菜后立马炒出来”是临床科研数据库的发展趋势( 二 )


此外 , 还有一部分数据需要人工摘录补充 , 如:随访记录、纸质材料等 。
临床科研数据库面临的技术问题
从技术上看 , 随着真实世界研究的增多 , 从电子病历系统中抽取并自动填写数据的需求越来越强烈 , 表单的自动填写功能得到加强 。 要与电子病历系统建立连接 , 把电子病历数据映射到科研系统中 , 在映射的真实世界基础上 , 再去定义表单、自动填补表单的数据项 。
此外 , 临床科研数据库当前还面临着如下几个技术问题:
一是病例数据模型 , 病例原始数据模型要有统一的标准化模型 , 可采用类似于电子病历的通用模型;科研特征数据模型随研究目的不同而不同 , 需动态建立 。
二是病例表单定义 , 界面定义包括:界面元素类型、属性、组合、布局等;校验规则定义包括:类型一致性、非空值、值域校验、数据项之间的校验等 。
三是原始数据的关联与提取 , 需要对时间点和医疗事件进行自动识别 , 对数据项进行计算处理和自动判断 , 要对自由文本自动提取结构化数据项 。
临床科研数据库的发展趋势
当前 , 专病数据库只有做到如下几方面 , 才能逐渐接近大家的理想状态:
1.与院后随访系统的整合
专病数据库不仅要与EMR系统集成 , 还要与随访系统集成 , 因为大量数据来源于随访 。 要建立与患者多渠道的互动机制 , 将院后服务与随访调查相结合 , 将主动调查与患者自报告相结合 。 患者的反馈可能是文本或图片 , 要能把关键信息提取出来 , 融合到科研数据库中 , 实现临床数据与随访数据的整合、在院数据与院外数据的整合 。
2.与医疗业务系统的协同
从既有数据库中以回顾方式提取数据有很大的局限性:一是医疗过程中的业务数据如果当时没记录下来 , 事后无法补充;二是文本数据结构化的难度很大 。 因此 , 只有尽量把回顾性的数据提取变成前瞻性采集 , 逐步把“结构化”融合到业务过程中 , 也就是所谓的“临床科研一体化” , 即要在医疗业务过程中采集科研数据 , 平衡医疗与科研的需要 。
3.回顾性研究数据收集利用模式的改变
回顾性研究的数据收集有两种研究路径:一是预先建立专病数据库 , 其工作量大 , 技术上有难度 , 临床人员整理数据也有难度;二是针对研究问题即席抽取 , 直接从大数据中心提取数据 。
第二种研究路径“针对问题即席抽取”将是发展趋势 , 这就对工具产生了新的需求 , 需要灵活、高效的数据抽取加工工具 , 能把科研数据很容易地从原始数据中提取出来 。 想要什么随时加工 , “点菜后能立马炒出来” 。 既面向科研人员 , 也面向技术人员 。