大型语言模型也可预测蛋白质结构：速度是 AphaFold2 的 6 倍，准确性有待提高

大型语言模型也可预测蛋白质结构：速度是 AphaFold2 的 6 倍，准确性有待提高

根据 Ars Technica 报道，近日 Meta 公司的一个团队训练了一个可预测蛋白质结构的大型语言模型（LLM），该模型被用来统计蛋白质中氨基酸的出现次数，并可根据其所学内容提取蛋白质结构信息。

LLM 最初是为语言处理任务而开发的，但它们还有执行其他任务的潜力。在这项新研究中，它的任务是获取组成蛋白质的线性氨基酸串，并用其来预测蛋白质成熟时这些氨基酸的三维（3D）结构，这对于理解蛋白质的功能至关重要。研究人员向模型输入了大量的蛋白质样本，并随机拿掉了其中数个氨基酸，然后要求模型预测空位中应该存在的氨基酸是什么。

在这种训练过程中，模型发展出了使用氨基酸频率的统计数据和周围蛋白质背景等信息进行预测的能力。为了将 LLM 的"注意力模式"转向蛋白质的 3D 结构，研究人员将实验确定的蛋白质结构和其他人工智能预测的蛋白质结构用于训练，最终得到了一个名为 ESMFold 的新模型。

该模型参数达到 150 亿，能够在输入一串原始氨基酸序列后，输出蛋白质的 3D 结构。研究者已利用该模型预测了超过 6.17 亿个宏基因组蛋白序列，其中高置信度序列超过 2.25 亿个。尽管该模型的准确度相较谷歌的 AlphaFold2 仍有差距，但速度可达前者的 6 倍。

学术新闻 | 新冠病毒会改变人体细胞内的染色体结构、劳斯莱斯获资为英国月球基地开发微型核反应堆