螺旋状RNA结构的两张数字图像

资料来源:©Townshend等人,2021年《科学》

阿瑞斯对RNA结构的预测比那些最好的竞争对手的预测更接近真实情况

一个由生化学家和计算机科学家组成的团队开发了一种新的方法,可以准确预测RNA分子的三维结构,使用的是一种人工智能系统,训练有素的是少量已知的RNA形状。

专家们对这一进展表示欢迎,认为这是在计算预测RNA结构方面取得的重大进步,并表示这可能有助于更好地理解RNA在细胞功能和新的治疗药物中的作用。

Rhiju Das他说,这种新的机器学习系统——被称为原子旋转等变评分器(Ares)——使用一种“等变”神经网络来准确区分RNA分子的三维结构。

Das解释说,同变神经网络中的计算“神经元”不像其他类型的神经网络那样只使用数字来激活,还使用向量、张量和其他类型的可量化对象。这使得Ares能够评估RNA分子的结构特征,比如不同类型的螺旋、“发夹”和茎干——这种方法被称为“几何深度学习”。

基本训练

研究人员仅对Ares系统进行了18种复杂的rna的训练,这些rna的结构是经过艰苦的实验确定的。该系统随后在更大的RNA结构上进行了测试RNA-Puzzles网站这是一个已有十年历史的科学竞赛。

他们使用了Rosetta分子建模软件的一个版本,从网站上为6个已解决的RNA生成了1500多个不同的结构模型,同时确保至少1%的模型是“接近原生的”——这意味着它们与RNA的真实结构非常吻合。

然后,他们使用Ares为每个模型结构计算分数,并使用Rosetta软件的评分功能、核糖核酸统计协议(Rasp)和3dRNAscore计算分数。Ares系统的表现明显优于其他三种评分功能:在其得分最高的10个模型中,有81%的模型至少包含了一种“接近本土”的模型结构,而Rosetta、Rasp和3dRNAscore的这一比例分别为48%、48%和33%。

Ares在测试中也超过了其他评分功能,测试池中没有“接近本机”的模型。它还擅长于在四轮rna谜题竞赛中进行盲预测,在这些竞赛中,rna的真实结构还不知道,在每一种情况下,它都能给出最准确的模型。

Das说:“令人惊讶的是,我们能够从这么少的训练实例中训练战神网络,然后在rna谜题盲赛上获得最先进的结果。”

在追赶

研究人员写道,RNA结构的科学知识远远落后于蛋白质结构,而蛋白质结构受益于像这样的人工智能预测系统AlphaFold来自谷歌子公司DeepMind。相比之下,这些训练通常是在数千个结构的庞大数据集上进行的。

人类基因组转录RNA的分数大约是30倍,编码蛋白质,但可用RNA结构的数量小于1%的蛋白质,“主要是因为相关的RNA的结构不太可能比他们的蛋白质,因此不能作为模板,研究人员写道。

他们现在希望,Ares开创的几何深度学习方法将有助于刺激对RNA结构的研究,尽管到目前为止,它只解决了这一过程的一部分。达斯说:“我们的论文仍然依赖于上一代罗塞塔软件生成的模型池,这些模型没有使用神经网络。”“如果现在能利用几何深度学习的技巧来生成RNA 3D模型,那将是非常棒的。”

由于Ares只需要原子坐标和化学元素作为输入,同样的方法可以应用于其他涉及三维化学结构的领域。类似的等变神经网络已经成功地应用在最近的研究论文中AlphaFold和Rosetta软件,达斯说。

计算生物学家亚历克斯·贝特曼他指出,RNA结构的预测落后于AlphaFold在蛋白质结构预测方面取得的进展。但是“战神的发展已经在该领域取得了巨大的进步,我们期待着获得这些模型,”他说。

他警告说,“战神”还需要提高其准确性。他说:“也许,受AlphaFold 2.0方法发表的启发,我们将在未来几个月或几年看到更好的方法和模型。”“对于RNA研究来说,这是一个非常激动人心的时刻。”