Evo 2 基因组大模型
Evo 2 刚刚为整座建筑打开了灯。生命的三个域。DNA、RNA和蛋白质。从分子尺度到基因组尺度。而且他们用一个模型就做到了。
微信 ezpoda免费咨询:AI编程 | AI模型微调| AI私有化部署
AI工具导航 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo
Arc Institute 刚刚发布了一个基础模型,该模型使用来自生命各个领域的9万亿个核苷酸进行训练。它能预测疾病突变、生成完整的细菌基因组,甚至在你的表观基因组中写字。
TLDR
- Evo 2 是一个400亿参数的基因组基础模型,使用来自10万+物种、跨生命所有领域的9.3万亿DNA token进行训练,具有100万碱基对的上下文窗口和单核苷酸分辨率。
- 零样本变异效应预测在非SNV突变(插入、缺失)的编码区和非编码区均优于其他所有方法;像AlphaMissense这样的模型甚至无法对这些变异进行评分。
- 该模型生成完整的线粒体基因组、约580kb的原核生物基因组(70%的功能基因命中率),以及包含内含子、启动子和tRNA的真核生物染色体尺度序列。
- 使用Enformer/Borzoi进行推理时波束搜索,可设计染色质可及性模式;他们在小鼠干细胞染色质中用莫尔斯电码写下"EVO2"并进行了实验验证(AUROC 0.92-0.95)。
- 完全开源:模型权重、训练代码、推理代码、数据集和SAE可解释性工具。这是所有模态中最大的完全开源模型之一。
在基因组学与AI交汇的领域,有一个没有人愿意谈论的事实。多年来,我们已经有了蛋白质语言模型。ESM、ProGen、ProtTrans;任你选择。我们也有DNA模型。DNABERT、Nucleotide Transformer、最初的Evo。都是好模型,有用的模型。但问题是:它们都像是有人造了一个非常令人印象深刻的闪光灯,然后把它指向了大教堂的一个角落。
你可能看到了祭坛,或者中殿,但建筑的其他部分呢?一片漆黑。
Evo 2 刚刚为整座建筑打开了灯。生命的三个域。DNA、RNA和蛋白质。从分子尺度到基因组尺度。而且他们用一个模型就做到了。
哦!他们还在小鼠染色质中写了莫尔斯电码。不过我们稍后会讲到。
1、Evo 2 到底是什么?
Evo 2 是来自Arc Institute的生物基础模型,与NVIDIA、斯坦福大学、加州大学伯克利分校和加州大学旧金山分校合作构建。
两个版本:一个70亿参数的模型,使用2.4万亿token训练;旗舰版400亿参数模型,使用9.3万亿token训练。这个名为OpenGenome2的训练数据集包含来自细菌、古菌、真核生物和噬菌体的超过8.8万亿个核苷酸。超过10万个物种。整个生命之树,或者说是迄今为止人们组装进训练集的最接近完整的树。
9.3万亿Token(不算多但确实如此)
为了理解9.3万亿token的概念:GPT-3使用大约3000亿token训练。LLaMA 3使用15万亿。Evo 2处于相同的计算级别,但它消费的不是Reddit帖子和维基百科文章,而是40亿年生物学的累积进化记录。每一个密码子、每一个内含子、每一个调控元件、每一个CRISPR阵列、每一个启动子。训练数据就是生命本身。
上下文窗口?
100万碱基对。单核苷酸分辨率。这意味着模型可以在单次前向传递中关注相隔百万碱基距离的基因组特征。作为参考,一个典型的人类基因可能是10-50千碱基。Evo 2可以同时看到其中的二十个。
底层架构是StripedHyena 2,一种卷积多混合系统,将三种不同变体的输入相关卷积算子与注意力机制相结合。它不是Transformer。不完全是。它是一种混合架构,使用短显式、中正则化和长隐式hyena算子,按特定块布局排列。
效果如何?与高度优化的Transformer基线相比,在100万上下文长度下吞吐量提升高达3倍。当你的训练需要2000+个NVIDIA H100 GPU运行数月时,这很重要。
训练分两个阶段:在8,192 token上下文长度的预训练阶段,数据加权侧重于功能性遗传元件(基因窗口);随后是多阶段中期训练阶段,将上下文扩展到100万token。这符合NLP的最佳实践,即先短后长。效果很好。验证困惑度随模型规模和上下文长度的增加而改善。
他们用基因组"大海捞针"测试验证了长上下文能力:将一个特定的100碱基对序列隐藏在100万碱基对的随机DNA中,然后让模型找到它。Evo 2可以做到。这不是派对把戏;这证明了模型可以在其完整上下文窗口中保持有意义的注意力。人类染色质中的拓扑关联域、细菌中的操纵子结构、基因组间的同线性块——这些就是1M上下文窗口旨在捕获的长程依赖关系。
2、零样本变异预测实际上是如何工作的?
这就是Evo 2开始赢得声誉的地方。模型学习跨DNA、RNA和蛋白质序列的似然分布。降低模型预测似然的突变被预测为有害。无需微调。无需特定任务的监督。纯粹的序列理解。
他们在20个原核物种和16个真核物种上测试了这一点。结果正是训练有素的生物学家所预期的,但仅从原始序列中提取:非同义突变、提前终止密码子和移码突变比同义突变引起更大的似然变化。tRNA和rRNA中的缺失比基因间区域的缺失影响更大。
模型甚至学会了标准遗传密码、支原体密码(密码4)和纤毛虫密码(密码6)之间的区别。它仅从序列上下文中推断出哪些终止密码子对哪些生物体重要。
这种结果会让你停下来思考。没有人告诉模型关于遗传密码的事情。它是自己推断出来的。
3、ClinVar人类变异致病性基准?
对于编码区SNV,Evo 2具有竞争力,领先于ESM-2等零样本方法,但落后于GPN-MSA等基于比对的方法。这很合理。但对于非SNV编码变异——插入、缺失、重复?Evo 2优于所有测试方法。关键在于:像AlphaMissense和GPN-MSA这样的模型甚至无法对这些变异进行评分。它们根本不支持输入格式。Evo 2原生处理这些变异,因为它在核苷酸级别操作。
对于非编码SNV,Evo 2 40B在所有无监督模型中排名第一。对于非编码非SNV?在所有模型中排名第一,无论是有监督还是无监督。
BRCA1结果值得特别关注。在非编码BRCA1变异上,Evo 2优于所有测试模型,包括有监督的剪接预测器。当分别分析剪接位点附近的非编码变异时,Evo 2 40B仍然优于一切。他们将此扩展到BRCA2,Evo 2在编码和非编码变异的综合分析上超过了GPN-MSA等专门模型。
但这里变得具有临床意义。当他们在Evo 2嵌入上使用BRCA1数据训练简单的岭回归分类器时?AUROC达到0.95,AUPRC达到0.88。他们从40B模型的每个块中提取嵌入,找到最具信息量的层,训练了一个轻量级分类器,实现了功能缺失变异和功能性变异之间的清晰分离。来自嵌入。不是来自专门的临床模型。而是来自通用基因组模型的内部表示。
我们是认真的吗?一个通用DNA模型在BRCA1变异分类上击败了专门的临床工具?这对临床基因组学的意义是巨大的。意义不明的变异(VUS)是遗传咨询师的噩梦。一个能为各种变异类型提供信息丰富的零样本评分,或者其嵌入可以训练轻量级专门分类器的基础模型,可以显著减轻VUS的负担。
4、SAE特征是安静的炸弹
创新从不让人失望,但有时真正的故事埋藏在三张图之后。
他们在Evo 2第26层的内部表示上训练了稀疏自编码器(SAE)。没有生物学标签。没有注释。只是:将模型学到的东西分解为可解释的特征。
他们的发现是非凡的。噬菌体前体区域、开放阅读框、基因间区域、tRNA、rRNA的独特特征。一个在CRISPR间隔序列上激活的特征,将其与噬菌体DNA关联(不是通过记忆;它也在打乱的间隔序列上激活)。与蛋白质二级结构对应的特征,α螺旋和β折叠,从编码这些蛋白质的DNA序列中检测出来。让这个事实沉淀一下:模型在读取DNA时,学会了在核苷酸级别看到α螺旋的样子。
在人类基因组中,他们发现了一个优先在移码突变后激活的特征。与转录因子结合基序匹配的特征。他们的无监督SAE特征命中了HOCOMOCO数据库中70%的启动子富集基序。相比之下,专门为此任务构建的HOMER基序发现算法只能回忆35%。
但是等等。他们在人类基因组中识别了外显子-内含子边界特征,然后显示这些特征可以转移到52,000年前的猛犸象基因组。一个在现代基因组上训练的模型,产生了对已死去五万年的样本有效的特征。
这不是通常的"我们训练了一个模型,它在基准测试上表现良好"。这是一个学会了观察生物学的模型。
5、从零开始生成整个基因组
生成能力是Evo 2真正狂野的地方。
从线粒体开始。他们用人线粒体DNA的部分序列提示Evo 2,生成了超过250个独特的16千碱基序列。生成的序列具有人类线粒体预期的正确数量的编码序列、tRNA基因和rRNA基因。正确的同线性。匹配的密码子使用。预测的多聚体蛋白质复合物与人类线粒体蛋白质匹配。这些是看起来像功能性线粒体基因组的新序列。
扩大规模。他们用来自生殖支原体(一种约580千碱基的最小基因组模型)的10.5千碱基提示,生成了十个全长序列。近70%的生成基因包含显著的Pfam命中。前代Evo 1只能达到18%。生成蛋白质的长度和二级结构分布与自然生物体相似。生成的蛋白质在序列组成多样化的同时,与自然蛋白质具有结构同源性。
再次扩大规模。他们用来自酿酒酵母III号染色体的10.5千碱基提示,生成了330千碱基的DNA序列。这些序列包含tRNA、启动子和具有内含子结构的基因。内含子结构!模型学会了从提示中生成带有内含子的真核生物基因。
作者们恰当地保持谨慎:这些计算机模拟指标不能保证功能基因组,生成物缺乏一些基本要素。但从Evo 1到Evo 2的轨迹是明确的。生成质量大幅提升。
哦,关于生物安全?他们故意在训练中排除了真核病毒基因组。当他们尝试对模型进行红队测试以生成人类病毒蛋白质时,结果基本上是随机的。数据排除完全按预期工作。
6、在表观基因组中写莫尔斯电码:扮演上帝
这是让我坐直的部分。
Evo 2并没有明确学习染色质可及性。它是一个序列模型,不是表观基因组学模型。但他们将它与Enformer和Borzoi(从DNA预测染色质可及性的模型)结合,使用推理时波束搜索。思路是:用Evo 2生成128碱基对的片段,使用Enformer/Borzoi集成对目标染色质可及性模式进行评分,保留最佳候选,继续生成。
他们设计了多千碱基序列,其中染色质可及区域的位置和宽度拼写出莫尔斯电码信息。"EVO2"。"LO"(互联网上传输的第一条消息)。"ARC"。
然后他们合成了DNA。将其整合到小鼠胚胎干细胞中。用ATAC-seq测量染色质可及性。
7、实验AUROC?0.92到0.95。
他们真的在表观基因组中写了字,而且成功了。合成DNA,由AI设计,整合到活细胞中,精确产生指定的染色质可及性模式。如果五年前你告诉我这个,我会说这是科幻小说。嗯,这不是科幻小说。
扩展行为遵循对数线性关系:更多的推理时计算产生更好的设计。每步三十个或更多波束搜索候选足以达到0.9以上的AUROC。然后他们将此扩展到人类细胞系HEK293T和K562,在序列内染色质变异方面实现了92%的成功率(36个设计中有33个AUROC超过0.8)。他们甚至设计了细胞类型特异性的可及性图谱,在24个设计中有4个实现了不同细胞类型间超过两倍的差异可及性。
关键的是,设计的峰值区域在没有显式条件设定的情况下富集了细胞类型适当的转录因子基序。没有告诉Evo 2要在峰值中放置TF结合位点。它还是这样做了,因为这就是创造可及染色质的基因组的样子。模型已经学会了足够的生物学知识,默认就会做正确的事情。
如果这都不能唤醒我们……那还有什么能呢?
8、谁构建了这个?为什么这很重要?
作者名单值得一看。Arc Institute,Patrick Collison支持的研究机构。NVIDIA提供计算能力。斯坦福、伯克利、UCSF提供生物学深度。Goodfire负责机械可解释性(他们的SAE工作越来越令人印象深刻)。在作者名单中隐藏着:Greg Brockman,OpenAI联合创始人,现在列为"独立研究员"。这是他此后的首次研究。
但真正的故事不是名字。而是开放性。Evo 2是有史以来在任何模态中发布的最大的完全开源模型之一。训练代码在GitHub上。推理代码。完整的OpenGenome2训练数据集。SAE模型和可视化工具。用于生成和评分的交互式Web界面。有不开放的模型吗?我们怎么会知道?谁在使用那些?
在这个最大的AI实验室越来越封闭、囤积权重并将训练数据隐藏在API墙后面的世界里,Arc Institute刚刚发布了一个400亿参数、使用9万亿token训练的模型,附带一切:代码、数据、权重和可解释性工具。
这就是"开源"在人们不仅仅将其用于营销时的实际含义。
9、Evo 2 不能做什么(目前)
诚实的局限性(暂时……)
在蛋白质DMS基准测试上,Evo 2与ProGen等蛋白质语言模型具有竞争力,但落后于使用序列比对和结构条件设定的最先进方法。对于远端调控变异(远离基因,保守性低),Evo 2落后于专门在可及性数据上训练的ChromBPNet等序列到功能模型。人类基因必要性预测虽然优于其他基因组语言模型(AUROC 0.66 vs 0.50-0.59),但仍显一般。
生成的基因组缺乏一些必需基因。计算机模拟指标不能保证序列在细胞中实际发挥作用。细胞类型特异性染色质设计仍然具有挑战性,只有17%的差异设计实现了超过两倍的特异性。具有推理时引导的基因组尺度生成在计算上是昂贵的。
作者们对此看得很清楚。未来方向包括将Evo 2与群体规模基因组变异数据结合、从生物实验中进行强化学习,以及整合序列之外的其他模态。
他们还指出,Evo 2在蛋白质DMS基准测试上的性能开始饱和,在最大模型规模上可能下降,这是在其他蛋白质语言模型中也观察到的模式。更大并不总是对每个任务都更好;规模与下游性能之间的关系比"更多参数等于更好"更加微妙。
它作为原型工作了;然后一切都不行了!开个玩笑。大部分时候是有效的。但差距是真实的,值得诚实承认,而不是把它们埋在补充图中。
10、学会观察生物学而未被教导的模型
抱歉,让我说得直接一点。我们已经处于生物学的"基础模型"时代几年了,大多数被炒作的东西都是渐进式的。这里一个基准测试的分数提升,那里一个新的蛋白质结构预测。有用的工作。重要的工作。但很少是范式转变的工作。
Evo 2不同。不是因为任何单一能力远超之前的存在,而是因为其广度。一个单一模型预测编码和非编码区、原核和真核生物的变异效应,生成整个基因组,通过SAE分解揭示可解释的生物学特征,设计实验验证的染色质模式。全部来自DNA序列。全部来自一次训练。
机械可解释性工作在这里极其重要。当模型在没有被告知的情况下发现转录因子结合基序,当它找到可以转移到猛犸象的外显子-内含子边界,当它从核苷酸序列发展出蛋白质二级结构的内部表示——这不是曲线拟合。这是一个真正学会了生物学如何运作的系统。
如果你从事基因组学、临床遗传学、合成生物学、基因治疗:Evo 2是你的新基线。不是因为它在每个任务上都击败每个专门模型。它没有。但因为它是一个能够处理生命所有基因组复杂性的基础,而且它完全开放供你构建。
致Arc Institute的朋友们:你们发布了真正重要的东西,并且完全开放。在一个越来越将开放视为负担的行业中,这个决定比任何基准数字都重要。
就我个人而言?我希望无论什么都不会成功击败生死循环。如果你以前读过我的文章,我对人类行为持虚无主义观点。我们甚至没有1%准备好释放像这样的模型能给世界带来什么。
这是我的观点。你应该做你感到舒适的事情。
原文链接: Evo 2: The 40 Billion Parameter Model Is Playing God
汇智网翻译整理,转载请标明出处