本站点使用Cookies,继续浏览表示您同意我们使用Cookies。Cookies和隐私政策>

搜索

聚合数据,迎接基因普惠时代

2021年08月30日

文/华大集团IT高级总监 曾文君

为什么基因如此重要

大家可能都听说过基因,但基因到底是什么,为什么基因对我们如此重要,很多人就不是很清楚了。

我们知道生命的形成始于受精卵,受精卵经过分裂、分化,最终发育形成一个完整的生命体。在生命形成的背后,基因支持着生命的基本构造和性能,控制着生命生长、发育、衰老、凋亡等过程。正所谓种瓜得瓜种豆得豆,生物的繁衍生息与自身的成长过程都依赖于遗传信息的正确传递和使用,而基因就是遗传信息的基本单位。

可以说基因是万物生存发展之源,距今6500万年前的恐龙灭绝,1万多年前的猛犸象灭绝,都是由于这些物种的基因无法适应环境的突变导致的。基因也和我们的健康息息相关,遗传因素是内因,环境因素是外因。大部分出生缺陷是由遗传因素导致,肿瘤发生的根本原因是基因突变,传感染病是外来基因的入侵所致。

基因+医疗影像的精准医疗大数据,成为推动医学进步的新动能

恶性肿瘤是大家很关注的话题。这里有一些数据:

根据国家癌症中心最新的统计数据显示,恶性肿瘤死亡占居民全部死因的23.91%,仅次于心脑血管疾病。近十几年来恶性肿瘤的发病死亡均呈持续上升态势。平均每天超过1万人被确诊为癌症,每13.5秒有一名癌症患者死亡。发病率每年保持约3.9%的增幅。

现代医学已经逐步迈向到精准医学,通过基因+影像+大数据的多方面技术结合,正在逐步实现“早发现、早治疗、精准治疗”。

一个好的技术,如果无法把价格降到大众可以接受的水平,那这个技术只能停留在实验室里。摩尔定律告诉我们,IT性能每18个月会翻一番,而基因测序技术正在以超摩尔定律的速度快速发展。2000年,人类第一次完成全基因组的测序,耗资30亿美元。今天,这个价格降到了500美金。

测序成本急速下降,全面加速了全基因组时代的来临。

全基因组时代,数据成为企业核心竞争力

一个人的基因组大小为3GB,为了保证数据准确度,需要平行测序30次,总数据量达到了100GB。围绕着这些基因数据,业内已形成了一个完善的产业链,涵盖了上游的测序仪及试剂耗材、中游的测序服务和生物信息分析,下游面向终端各种数据应用。

数据产能的爆发式增长,离不开基因测序仪行业的快速发展。全世界只有2个国家可以量产临床级测序仪,一个是美国,一个是中国。华大智造是目前中国唯一可自主研发且量产临床级测序仪的企业。2015年,华大推出第一款拥有完全自主知识产权的桌面型高通量基因测序仪BGISEQ500,每天可产生数据520G。2019年,华大智造发布了最新T7测序仪,每天可产出6TB数据,每年是1.6PB数据。短短4年,数据产出能力增加了11.5倍。

海量数据的产生,给IT基础架构带来前所未有的挑战,如何高效的计算,如何安全、低成本的存储,是摆在我们面前的一个个挑战。

聚合海量、多样性数据,打造国家级基因共享平台

深圳国家基因库是我国首个获批筹建的国家级基因库,委托深圳华大生命科学研究院建设和运营,也是世界上继美国、欧洲和日本之后的第四个国家级基因库。它是服务于国家战略的、国家级公益性创新科研及产业重大基础设施。目前已经具备了千万级样品存储、千万级基因合成、20PB年数据产出能力,存储和计算能力也是位居领先的。

建设新型数据基础设施,让数据分析更高效

无创产前基因检测,是目前普及程度最广的基因检测产品。华大基因已经为超过510万孕妇提供了无创产前基因检测服务。过去5年,深圳市在无创产前技术的有效应用,及全市各级政府和医疗机构的共同努力下,唐氏综合征患儿的活产率从2.32/万下降到0.92/万,实践经验证明这类疾病可以被控制。

无创产前检测对时效性要求非常高,信息分析要求极高的稳定性和效率,对于整个产业来说,追求效率提升的路没有终点。为了匹配这种大数据量、高吞吐的业务要求,我们选择了全分布式文件存储,业务系统性能和稳定性获得很大提高,报告交付周期也从15天降低到7天,为业务保驾护航!

BT+IT快速融合发展的道路上,华大将继续为实现“基因科技造福人类”的远大目标,砥砺前行,不忘初心!

TOP