编者:本文对原文作了部分删减。查看原文全文请点击“版权信息”栏原文链接。
现如今,当围绕着数据所有权、个人隐私展开激烈辩论的时候,我们却忽略了对个人来说最重要的数据:基因组信息。
不同个体的基因组中有99.9%的基因是相同的,正是那0.1%的差异决定了每个人的与众不同——性别、体貌特征、情绪、甚至是疾病。这些数据对我们个人来说是至关重要的。
2018年,我们看到了太多数据被损坏或者滥用的例子。对于那些想要保护自己基因组信息的人来说,区块链是对现有基因组数据市场封闭架构的一种强大的替代方案。
区块链的用武之地
耗时13年,耗资37亿美元的人类基因组测序计划于2003年完成。现如今,一个人要是想进行基因测序大概只需花费1000美元,而且整个时间也缩短到了几天。据估计,这一费用很快就会降低到100美元。
随着基因组数据驱动的药物设计和靶向治疗的发展,制药和生物技术公司预计将在未来几年推动基因组数据市场的发展,到2025年这方面的投入将达到276亿美元。与此同时,随着精准医疗和基因编辑技术的革新步伐加快,个体基因中所包含的价值也将呈指数级增长。而且就在过去的一年里,美国还史无前例地批准了新的基因疗法。然而,这一过程存在着很多问题。
基因组学在推动现代医学范式转变上具有无与伦比的潜力,但它依赖于利用大量的数据集来建立遗传变异和性状之间的相关性。而想要获得大量的基因组数据,不仅面临着科学上的障碍,也面临着伦理上、社会上和技术上的障碍。
对于处于这一前沿的许多研究者来说,这正是中本聪在2008年发布的白皮书、以及后来被称为区块链技术的用武之地。
George Church教授是来自哈佛大学的知名遗传学家。他多年来一直在努力加速和推动大规模的基因组数据生成。他曾呼吁志愿者为他的非营利组织个人基因组计划(PGP)做贡献。PGP相当于一个“维基百科”,它包含开放获取的大约1万个人类基因组样本数据。
PGP依靠人们放弃隐私和数据所有权来追求科学的进步。分享数据的人要么是“特别无私的人”,要么是那些因为家庭经历而关心某一特定疾病研究的人。
现在基因组学发展的限制在于如何让所有人都参与进来,据估计,全球大约只有100万人接受了基因组测序。
为了解决这个问题,一个通证化的、支持区块链的生态系统可能成为向大众开放的技术引爆点。通过允许人们将自己的基因组货币化,并将访问权直接出售给数据购买者,区块链平台可以帮助将测序成本降低到“免费甚至可以为人们提供净利润”。
通证化为启用不同的场景提供了灵活性。数据所有者可以根据他们所支持的研究开发任何药物,或者通过加密货币通证来偿还他们的医疗处方。相关合同会被公开进行哈希处理,并将个人的同意书记录在区块链上。
基因组学的窘境
Nebula公司进行的一项调查发现,当人们被问及是否会考虑对他们的基因组进行测序时,隐私和伦理方面的问题远远超过了所有其他因素。在另一项对13000人进行的研究中,86%的人表示他们担心自己的基因数据被滥用:超过一半的人表达了对隐私的担忧。
今年4月,在Cambridge Analytica丑闻爆出后,有消息称警探挖掘出了一个业余爱好者的基因组数据库,其中包含了一些个人DNA片段,他们希望这些片段能帮助破案。
在不知情的公众上传的集中存储的基因材料中,执法部门没有遇到任何阻力。当许多人通过DNA的纠缠欢呼金州杀手的逮捕时,其他人表达了相当的不安。
这种模糊的访问权限具有超出了取证的意义。现如今人们担心雇主和保险公司的基因歧视——后者目前只在法律上被部分禁止。
为基因组学带来变革的匿名区块链系统
在这个越来越不透明的基因组数据领域中,私人公司将消费者产生的基因型数据货币化,而序列数据则分散在专有的、中心化的系统中。
将基因组学引入区块链将允许加速研究所需的时间,同时通过将匿名身份与加密标识分开来保护这种独特的个人信息。用户仍然控制着他们的数据,并确切地决定与谁共享数据以及共享数据的目的。反过来,这种访问将在一个可审计和不可变的分类帐本上被跟踪。
区块链可以去除医疗领域的病情错报问题
据称,23andMe存储了大约500万份基因型客户资料,其竞争对手Ancestry.com存储了约1000万份。这些公司针对每一份个人资料会收集大约300个表现型数据,以此来了解你的健康情况和生活习惯。
表现型是个体的一组可观察的特征,这些特征是个体的基因型与环境相互作用的结果。生成和共享对这些数据的访问对于通过变异和特征的相关性解码基因组至关重要。但由于大部分表现型数据都来自于自我报告,现有数据的质量是不确定的。而错误的数据会影响医疗研究的效率和准确性。
区块链系统可以提供独特的机制来阻止欺骗的发生。如果发现某人试图隐瞒自己的健康状况,那么他们的加密货币存款就会被扣留。
2018年:染色体和区块链
考虑到人体基因组的数据强度,中心化存储器是无法满足哪怕是一小部分人的需求。
单个基因组的复杂原始数据集可达200GB。据报道,在2017年6月,美国国家卫生研究院的GenBank拥有超过两万亿碱基的序列。鉴于基因组的数据庞大,这仍然需要先将其压缩再写入到区块链上。而截止到2018年6月中旬,比特币区块链的平均交易额为423千字节。
比特币区块链的平均交易规模,2014-18。来源:TradeBlock.com
今年6月,DNAtix宣布首次使用区块链技术传输了一条完整的染色体。Lidsky告诉Cointelegraph,公司已经成功地在今年8月实现了99%的DNA信息压缩率。
但即使在区块链上,由于基因组学的独特敏感性,数据传输也是不必要和不明智的。一些研究者建议共享数据访问,该解决方案将区块链与先进的加密技术和分布式计算方法相结合。
加密数据可以提供给所谓的基因组应用程序的开发者,它们还可以为研究人员和其他第三方开发者提供进一步的盈利来源。但是,将基因解释外包给一个应用程序真的那么简单吗?这种有着几十年历史的医疗模式让患者去找遗传顾问,让他们检查风险,讨论病情预期,帮助他们解释可能令人困惑、甚至是害怕的结果。
一些基因检测公司已经被指责给他们的客户留下了“大量数据和很少答案”的印象。“23andMe能解释一系列‘健康’基因,它还能揭示你是否携带一种可能影响孩子未来健康的基因突变体,而且截至2017年,它甚至被授权披露包括乳腺癌和帕金森症在内的遗传健康风险。”
Nebula和DNAtix都在考虑如何将遗传咨询师集成到他们的生态系统中,Grishin还提议用户可以“选择”是否真的想“知道基因组结果的一切”,或者仅仅想要“现代医学能够解决的病情”。
生物技术前沿
区块链对基因组学的重要性逐渐显现。既然我们细胞中的DNA被理解为信息的终身存储者,那么就需要一种新的颠覆性技术来安全地、灵活地管理人体代码的连锁网络。
基因组学的出现提出了仅靠科学无法解决的问题。对于我们所有的受访者来说,区块链可能是创造公平和透明的所有权和流通方式的关键,以确保这些原始的生物信息载体不会被滥用。