有机化合物的命名(科研人不担心有机物命名不规范了)
文章目录[隐藏]
- 方法
- 模型的优缺点。
- 缺点:
- 在线提供。
- 使用提示。
- 有机化合物命名史。
有机化合物的命名(研究人员不用担心有机化合物的命名不规范)。
“有机化合物怎么命名?有机化合物的命名规则是什么?”,“这种药的活性成分深圳生命网叫什么名字?”,“有没有什么软件或者程序可以找到有机化合物的命名?”、“某某命名软件也要花钱。”,“有些软件命名不准确。」 ……
注:部分来自知乎问题。
总之,有机化合物的命名太难,规则太繁琐,没有开源软件。……
AI的发展“兴盛”能否解决上述问题?
现在,莫斯科罗蒙诺索夫州立大学和Syntelly初创公司的研究人员开发了一种基于Transformer的人工神经方法,可以根据IUPAC命名系统生成有机化合物的名称。
它也是开源的,可以在线使用。
我迫不及待地想有一个在线体验,在本文的“使用小攻略”部分。
项目地址:https://app.syntelly.com/smiles2iupac.
IUPAC命名法是有机化合物命名的系统方法,在有机化学中占有重要地位。化学家通常手动创建IUPAC名称,但这个过程容易出错,需要对命名规则有深刻的理解。电脑可以缓解这个问题。化学家可以使用软件工具来生成名字。
然而,对于有机结构到名称的翻译,并没有开源工具。与现有解决方案(如ChemDraw JS和词典hem TK)的许可协议需要特殊许可才能嵌入其他平台。
近日,来自莫斯科罗蒙诺索夫州立大学和Syntelly初创公司的研究人员开发了一种基于Transformer的人工神经方法,根据IUPAC命名系统生成有机化合物的名称。新的解决方案已经在Syntelly平台上实现,可以在线使用。
这项名为“用于化学符号间转换的基于变压器的人工神经网络”的研究发表在7月20日的《科学报告》杂志上。
“起初,我们想为我们的AI化学平台Syntelly创建一个IUPAC名称生成器。很快,我们意识到通过数字化IUPAC规则来创建算法需要一年多的时间,因此我们决定利用我们在神经网络解决方案方面的经验,”该研究的主要作者、Syntelly初创公司的联合创始人Sergey Sosnin说。
循环神经网络(RNN)和Transformer已经成功地应用于自然语言翻译。研究人员基于Transformer构建了一个神经网络,可以将分子从SMILES(简化分子线性输入规范)转换为IUPAC名称,反之亦然。描述了它们的解决方案,讨论了它们方法的优缺点,并表明Transformer可以提供类似人类化学直觉的东西。
结果表明,将SMILES字符串转换为IUPAC名称的Struct2IUPAC模型在PubChem测试集中的准确率达到98.9%。逆向模型(IUPAC2Struct)的准确率为99.1%,相当于开源OPSIN软件(一种用于名称到结构转换的开源工具)。
方法
数据库:深度学习技术需要大量数据。新网络使用全球最大的开放化学数据库PubChem进行培训和测试,包含94,726,085个结构。数据库分为两部分,一部分用于培训,另一部分用于测试。
IUPAC和SMILES标记:标记是将一个序列分成块并划分这些块(标记)的过程。这是语言模型常见的预处理阶段。使用基于字符的SMILES标记,并实现基于规则的IUPAC标记。本文研究的IUPAC标记是人工设计和管理的。该标记可以正确处理来自PubChem的99%以上的分子。
插图:SMILES标记化(上)和IUPAC名称标记化(下)的演示。(来源:论文)
Transformer模型:使用Google团队设计的现代神经架构Transformer作为研究基础,并训练其将分子的结构表示转换为IUPAC名称,反之亦然,Transformer是Google最初设计的最强大的机器翻译神经网络之一。
训练了两个模型:将SMILES字符串转换为IUPAC名称的Struct2IUPAC和执行反向转换的IUPAC2Srtuct。基本上不需要IUPAC2Srtuct模型,因为可以成功使用开源OPSIN。
图形:结构2交流变压器模型。(来源:论文)
验证步骤:使用OPSIN,您可以验证生成的化学名称,以确保它们对应于正确的结构。可以检测到发电机的故障,并且不会显示错误的名称。
图示:验证步骤。(来源:论文)
模型的优缺点。
优点:1。1:structure 2 upac模型的准确率为98.9%。
为了验证模型的质量,研究人员从测试集中随机选择了10万个分子。SMILES-to-IUPAC名称转换器作为验证步骤运行,在测试集中100,000个随机分子的子集上达到98.9%的准确率。
“我们已经证明Transformer能够准确解决算法问题,为软件开发提出了新的范式。它推翻了不应在这类问题中使用它们的普遍观点。在机器翻译中,用同义词替换一个单词是非常可能的,但是在我们的任务中,一个错误的符号会导致一个错误的分子。但是,Transformer成功完成了这项任务。”索斯宁补充道。
优势二:2:IUPAC 2构建模型的准确率为99.1%。
研究人员将IUPAC和SMILES Transformer模型(IUPAC2Struct)与测试集中基于规则的工具OPSIN进行了比较(表1)。IUPAC 2结构转换器的精度为99.1%,OPSIN为99.4%。
表1:在100,000个不同光束尺寸的分子测试装置上模型的精确度(%)。
缺点:
具有大量标记物(寡聚体、肽等)的分子。)在我们的数据集中并不代表深圳生命网,这可能是这类大分子性能下降的原因之一。
尽管该模型在非常大的分子上的准确率不到50%,但发现了一些有趣而复杂的分子例子,它们正确地生成了IUPAC名称。
插图:Transformer生成了两个名称正确的挑战者示例。(来源:论文)
此外,极小分子的性能明显下降。例如甲烷,可能是Transformer使用自我注意机制来分析输入序列中标记之间的相关性。对于超短序列,很难掌握token之间的关系。
在线提供。
新的解决方案已经在Syntelly平台上实现,可以在线使用。研究人员希望他们的方法可以用于化学符号和其他与技术符号相关的任务之间的转换,例如数学公式的生成或软件程序的翻译。
研究人员说:“令人惊讶的是,我们基于神经的解决方案的性能与基于规则的软件相当。」
使用提示。
在介绍之前先做个小声明:只代表个人试用的感觉,专业多的同学应该收获更多~
《华尔街日报》提到,“目前还没有结构到名称翻译的开源工具。」
首先打开在线开源网站:https://app.syntelly.com/molecules/1.左侧菜单栏有很多功能选项。在此选择“个人”选项,点击搜索框进入画板。输入待命名有机化合物的结构,以甲苯(C7H8)为例。
点击“计算”获得甲苯:cc1ccccc1和IUPAC名称:甲苯的微笑。
该杂志提到:“你可以将分子从SMILES转换为IUPAC名称,反之亦然。」
在这里输入SMILES/IUPAC,点击“计算”得到甲苯结构及其对应的SMILES/IUPAC。
此外,该工具还附带了一个大型数据集库。
在已发表的期刊和论文中也有有机化学结构的名称。当然也可以自己上传新的纸质PDF。
化学反应也可以预测:
解锁更多功能,获得自己的朋友~
有机化合物命名史。
在有机化学的初始阶段,化合物的命名没有共同的规则。1919年,国际纯粹与应用化学联合会(I深圳生命网UPAC)成立,IUPAC出版了有机化学命名法,俗称“蓝皮书”。提供了化合物的明确名称指南。
有机结构有几种不同的表现形式。例如,SMILES(简化分子输入行输入系统)旨在为基于人类和基于计算机的化学信息处理提供便利。
过去,化学家手动创建IUPAC名称。这个过程容易出错,因为它需要对术语有深刻的理解,并且涉及复杂的算法。此外,化学家更喜欢琐碎的名字,这给不同符号之间的正确转换带来了额外的挑战。计算机缓解了这个问题。现在化学家广泛使用软件工具来产生名字。
名字生成器的历史始于加菲尔德的开创性工作。然而,化学家的第一个日常软件是在20世纪末创建和发布的。
目前有几种生成IUPAC名称的商业程序:ACD/Labs、ChemDraw、Marvin、IMnova IUPAC名称等。此外,还有一个为某些编程语言提供应用程序编程接口(APIs)的框架词汇库TK。
然而,对于有机结构到名称的翻译,并没有开源工具。与现有解决方案(如ChemDraw JS和词典hem TK)的许可协议需要特殊许可才能嵌入其他平台。
该研究人员表示,“我们相信我们的方法适合解决其他技术符号之间的转换问题(或其他算法挑战),并希望我们的发现能够在开发基于规则的解决方案成本高或耗时长时突出解决问题的新方法。」