基因行业容器存储解决方案


1、基因行业背景
1.1. 中国基因市场分析
基因组学是未来精准医疗的“基石” 。 70%的基因企业选择使用云计算来处理基因组相关业务 。 过去一年内 , 阿里云为基因医学影像数据提供了安全可靠的存储 , 500%数据增长 , 增长迅猛 。 强大无限制的计算能力 , 阿里云支撑了百万以上的基因样本数据分析工作 。
基因行业容器存储解决方案
本文插图
2. 基因行业的存储痛点和需求分析
2.1. 基因组学数据管理相对复杂
一家大型基因测序功能公司每日会产生 10TB 到 100TB 的下机数据 , 大数据生信分析平台需要达到 PB 级别的数据处理能力 , 这背后需要生物科技和计算机科技的双向支撑 。 测序应用从科研逐步走向临床应用 , 计算模式从离线向在线演进 , 交付效率越来越重要 。 多变的数据处理流程 , 以及大量的生物信息软件版本的管理 , 大量排队的数据处理任务 , 由于生物信息软件的运行特性CPU平均利用率仍然不足 , 难以无人职守的处理失败任务 , 成本居高不下等等问题存在于以下的现有的系统中 , 催生了生物信息行业对云计算和云原生技术的拥抱姿态 , 在成本 , 弹性 , 效率 , 规模也提出了更高要求 。
从基因业务角度理解 , 基因行业的数据处理的主要需求是提升效率 , 降低成本 。 基因场景的数据传输要求高速、稳定 。 如下图所示 , 是基因业务的数据处理流程图 。
基因行业容器存储解决方案
本文插图
典型的基因行业数据传输与交付场景如下:? 测序服务商海量数据上云 , 数据上云有多重途径 , 通过OSS工具、存储网关、闪电立方等 。 一般1PB数据离线迁移 , 最快1周上云 。 ? 科技服务公司:企业客户数据交付 。 数据交付 , 通知杭州到上海 , 同账号的跨地域复制的数据交付 , 在线迁移服务 , 完成跨地域、跨账号交付 。 杭州传到全球访问 , 全球访问加速 。 杭州传到企业用户 , 基于阿里云ram子账号 , 企业客户自己账号系统的交付体系 。 ? 样本数据保存进行高吞吐分析计算 , 对存储要求高吞吐、高IOPS , 对计算资源要求弹性、横向扩展 。 ? 科研院所分析结果实现全球数据分发快速 , 一般每天交付19TB数据 , 全球14个数据中心保障快速就近交付 。 ? 分析结果长期保存归档 , 要求高性价比、高可靠性 。
2.2. 典型的基因行业的数据存储痛点
1、数据存储:数据增长快 , 存储费用高 , 管理困难;长期保存数据可靠性难以保障;需要寻求低成本大数据量的数据压缩方式;元数据管理混乱 , 数据清理困难 。
2、分发共享:海量数据需要快速、安全的分发到国内多地及海外;传统硬盘寄送方式周期长 , 可靠性低;多地中心数据需要共享访问 。
3、计算分析:批量样本处理时间长 , 资源需求峰谷明显 , 难以规划;大规模样本的数据挖掘需要海量计算资源 , 本地集群难以满足;计算工作流流程迁移困难、线上线下调度困难、跨地域管理困难;线下弹性能力差 , 按需计算需求 。
3、阿里云基因容器存储解决方案
阿里云上的基因行业的容器存储解决方案架构如下:
基因行业容器存储解决方案
本文插图
【基因行业容器存储解决方案】
阿里云基因文件存储解决方案说明:
? 基于AGS/ACK工作流搭建极速、低成本、高精度的基因测序的容器计算环境 , 根据业务需求 , 按需弹性提供计算资源 , 解决业务高峰期排队问题的同时 , 提高资源利用率 。
? 文件存储可以对接容器基因计算环境 , 满足基因测序的计算和数据共享需求:
? NAS为基因行业用户提供低时延、高 IOPS 的文件存储 , 用于基因数据分析中的共享存储 , 保存下机数据和组装后的数据 , 以及过程中的中间数据 。