搜狐|承启生物实现纯国产硬件高性能分析大规模基因测序数据

日前 , 承启生物首次实现了在纯国产电脑上使用自研FANSe算法高性能分析大规模基因测序数据 , 其速度与当前基于主流Intel和AMD处理器的台式机和服务器相当 。 这实现了精准医学基因测序领域的纯国产流程实用化 , 在这一领域中国彻底摆脱了"卡脖子"问题 。
大规模测序 , 又称新一代测序、二代测序 , 将DNA或RNA打断成许多小片段进行平行测序 , 一次测序即可得到几百万至几亿个小片段的核酸片段序列信息 , 在生物学研究、疾病诊断、流行病溯源等领域有着广泛的应用 。 但产生的海量数据必须经过大量运算才能得到有生物学意义的结论 , 通常这需要很强算力的计算机或服务器才能在数小时内给出结果 。
然而 , 高性能CPU和GPU高度依赖进口 , 不但有被国外断供"卡脖子"的危险 , 而且进口CPU还可能存在后门 , 有泄密风险 。 在政府等对安全性要求极高的场合 , 以往一直没有纯国产计算机能满足大规模测序的分析需求 , 这是由于国产CPU难以满足需求 。
承启一直在生物信息国产化处理领域做努力 , 经过深入调研发现 , 兆芯开先CPU架构的整数性能理论上比较优秀 , 实际应用时需要软件的特定优化才能发挥其全部性能潜力 , 因此选择了兆芯开先CPU作为FANSe算法适配优化的目标 。
承启生物自研的FANSe算法是目前唯一规模化商用的纯国产高性能大规模测序比对算法 , 2020年其曾创下单机5分钟分析完一个30X人全基因组测序数据集的世界纪录 , 并一直保持至今 。 算法完全自研带来了显著的优势 , 可以任意根据CPU的特性而进行特别优化 , 而依赖于国外知识产权的传统算法则难以做到 。
搜狐|承启生物实现纯国产硬件高性能分析大规模基因测序数据
图片

承启生物在纯国产电脑上使用自研FANSe算法高性能分析大规模基因测序数据
日前 , FANSe算法在纯国产平台上运行成功 , CPU是兆芯开先KX-U6780A , 固态硬盘来自长江存储 , 内存芯片来自长鑫 。 与之对比的是一台双Intel E5V3 (共28核56线程)的服务器 , 都部署在承启基因测序分析云平台上 。 在常见的转录组、翻译组、细菌菌群宏基因组等应用中 , 纯国产计算机的性能仅比服务器慢1%~12% , 使用中几乎感觉不到其性能差异 。 这也是纯国产计算设备在大规模测序数据处理上第一次在实际应用性能上几乎追平国际主流服务器 。
此前 , 承启生物和华大智造联合发布了国产大规模测序的全流程 , 将测序仪、试剂、分析算法等全面实现国产化 , 不依赖国外知识产权 , 有力地捍卫了中国精准医学的自主权 。
如今 , 承启再进一步 , 凭借专门优化的FANSe算法 , 将纯国产计算设备的应用性能提高到比肩国际主流的水平 , 标志着中国的基因测序的安全性和自主可控达到一个全新的高度 , 不仅能支撑诸多精准医学应用 , 更能在检验检疫、流行病控制、生物战防治、法医鉴定等直接关系到国家安全的方面大显身手 。
深圳承启生物科技有限公司简介

承启生物是基于自主核心技术"多组学+信息学"提供医学服务、IVD及治疗方案的综合性精准医学平台 , 致力于用生物医学前沿科技为人们提供精准医疗及健康管理解决方案 。 旗下有四家国家高新技术企业以及一家持牌临检中心 。
【搜狐|承启生物实现纯国产硬件高性能分析大规模基因测序数据】承启生物拥有完全自主研发并获得国际高度认可的超高精度基因测序数据分析FANSe算法 。 该FANSe算法于2020年创造了算法准确度和速度的世界纪录 , 被作为国际人类蛋白质组计划核心支柱的推荐算法 。 承启生物还建立了国内第一个全自主基因检测流程 , 在基因组、转录组、翻译组、蛋白质组、代谢组全组学层次均有精准的自主技术 , 该流程被作为国家医学生命组学质量控制标准的蓝本 。