dingsir的个人博客分享 http://blog.sciencenet.cn/u/dingsir

博文

警惕一些化学网站中的错误

已有 2706 次阅读 2021-12-23 11:28 |个人分类:其它兴趣|系统分类:科研笔记

因为工作需要我经常需要查找各类化学物质的名称,CAS号和它的各种理化特性及毒性等,各类化学网站提供了很多的方便性。但是,我也发现了一个问题,有很多化学网站的资料准确性比较差,很容易误导用户!

我们知道,化学品的资料,它的各种信息(如中文名/英文名/CAS/结构式/分子式/理化性质/用途/毒性)等比较多,但有一个要求是暗含的,就是所有这些信息应该是属于同一个化合物的,不能张冠李戴。一旦各字段之间不能一致的话,这个导致的问题比较多了。但是,国内的化学网站,往往就存在这样的问题!

比如中文名称出错。不规范的命名就算了,毕竟命名有俗名、商品名、常用名、IUPAC标准命名、CA命名等多种不同体系共存。如果不是发表文章,只是内部使用,我一般推荐使用最简洁又准确的命名--简洁是为了交流方便少写几个字,准确是了为防止歧义。一定要使用这两个方面都能得到保证的名字。此外,名字最好还能传达出这个结构中比较重要的官能团或特定结构。例如一些高电压电解液的添加剂结构中有磺酰基的结构,但如果两边都是烷基,用某某砜来命名可能就更直观一点。如果是磺酸酯或磺酰亚胺类结构,则不宜翻译成砜,要不看起来就怪怪的。比如说,有些新闻中把新兴起的锂盐LiFSI (推荐的翻译:双氟磺酰基亚胺锂)翻译成“氟代双砜氨基锂”就有点这样子。

网站上,看得出有些名称是很不规范,有的是生硬翻译,如把酯翻译成盐;还有本来存在着常见俗名或比较容易理解的母体不采用,而一定要直译IUPAC标准命名的,我觉得这还不算错,属于可以容忍的不规范或不“信雅达”。 但如果名称与结构信息对不上,名称与CAS对不上,中文名与英文名对不上,还有名称与用途对不上的,这类错误经常能够碰上,不在少数,这也是为什么我要吐槽的原因。这类错误,偶发的时候也可以容忍---毕竟干这活既要有较强的专业知识,又比较简单枯燥。但出现多了,网站的专业性就大打折扣了。当然,这类问题,不止在化学网站上有,在一些网上的翻译软件中也屡见不鲜,值得注意。

名称的多样化以及多种命名方式的共存,导致了一个问题,以化学品名称进行数据库的检索时,很容易出现漏检。你来A来标识,它用B来标识,两者稍有不同,就检索不到了。因此在化学数据库的结构中,用结构式或者CAS来检索就比较放心,除此之外,基于结构式生成的SMILES(特别是经处理过具有唯一性的SMILES)和InChi等文本化的结构也是可行的。另外,一些著名数据库的索引号也经常被使用,CAS号(或称CA的登记号RN)是其中最著名的一种。此外,分子式(如C3H8O)这样的检索也行,虽然是一对多(一个分子式对应多个可能的化合物),但至少大大减少了目标的范围。

以前ChemicalBook.com这个网站的资料准确性还可以,但今年我发现它网站上多了很多资料上的低级错误,有非常多类似上面提到的这类错误,我还反馈过几次,但毕竟杯水车薪。估计是某次网站批量导入化学物质信息时出现了字段之间的不一致,导致了大面积的数据错误。使用这个网站的朋友们务必要严肃检查了。不然你找了一个CAS号根据它把东西买来了,结果不是你想要的,就尴尬了。这里也希望这个网站能加强检查,尽快消除这种非常影响专业形象的错误。

CB名称错CAS错结构错的乙烯基.png

为什么说上面这个记录中CAS号是错的呢?我找了源头上的数据,显示这个结构的CAS应该是420788-47-2

CA中的数据.png


我们有个测试的添加剂,从SMILES来看,含有两个硫原子,我在检查时发现中文名称中完全没有含硫的任何迹象,不带"硫"、"磺"、"巯"、“锍"等任何提示硫存在的名称, 心生疑惑,经过仔细询问,原来名称是从化源网(https://www.chemsrc.com/)上找来的,再仔细一看,果真网站上就这么提供的。这个添加剂结构我不演示,借用上面例子在这里一找,结果如下,与ChemcialBook错得一样。

化源网与CB一样错.png

再来一例,盖德化工网。

盖德化工网.png


Chem960

Chem960上.png

再看另一家的

鹰谷商城的数据.png

因为没有提供中文名,不存在中文名出错的机会,但这个CAS错了,10-18-4是一个在CA中检索不到的CAS

还有一些更小的网站,上面收集的数据不齐,只有一个CAS号10-18-4和一个英文名,就不贴出来了。


我们再查查英文的化学网站,我掌握的不多。

第一个是ChemSpider,我把评论PS到图片里面了。

ChemSpider上的比较严谨.png

这个相对让人放心,虽然收录了不存在的CAS(错的源头在哪里我还没找出来),但至少收录了一个正确的CAS.

pubchem:

PubChem上的数据.png

虽然我一直对PubChem比较放心,但这里也弄错了。类似的还有ChemExper.com,也是CAS出问题。

我再查查试剂公司的网址,因为要卖东西,它们对CAS号审查应该比较严一点,毕竟因为这类信息出错导致卖错了东西影响就大了。百灵威上查不到(其实正确的那个CAS也查不到有货):

百灵威没有乱来.png

Sigma-Aldrich网站上也查不到这个化合物(420788-47-2这个也查不到)。 说明它们没有这个试剂的商业化销售。

Sigma上面也没有.png


因为研发是技术信息的源头,研发的信息正确与否,影响到后面的产品开发、产品应用等很多环节,因此在研发阶段对化合物各种信息的掌握要尽可能准确,特别要防止以讹传讹的情况发生。

对这类化合物的信息的检查就很必要,对这类化学网站上的信息,要有存疑的心态去收集,要结合各种可能的信息去验证或确认,以减少错误。

坦白说,我个人的感觉:国内的化学网站这方面做得不太好,虽然网站多,服务也丰富,但信息的质量就比较差了。相比之下,国外的有些化学品网站要严谨得多,这可能是两种不同的工作心态导致的问题。

一般来说,我比较信得过的有几个,供大家参考:

1)chemexper.com网站,它的基本资料还是比较可信的,但供应商在上面发布的资料不算,那个肯定是参差不齐的。

2)ChemSpider.com也还可以。

3)https://pubchem.ncbi.nlm.nih.gov/网站, 不过是英文的。

4)Sigma-Aldrich化学试剂商的网站,现在变成默克的了,网址:https://www.sigmaaldrich.cn/; 百灵威试剂公司的网站 https://www.jkchemical.com/product-catalog

5)最后就是化学文摘CA了。但即使是它,仔细研究起来,里面也还是有不少毛病。比如沸点显然标错了;专利解析不完全等。又要权威又要全面,但我们没有更好的选择了。CA(或SCIfinder)里面关于物质的熔点/沸点,很多没有实测的数据,它用软件估计了一个数据放在哪里,对于这类数据,我一般是不信也不用的。如果可能的话,自己亲测一下最为放心。毕竟CA只是收集,不可能去一一验证。

在不同应用中传递结构式,除了用结构的图片或专门的软件生成的文件外,还可以考虑使用SMILES或InChi,这两者都是为了文本化化学结构而设计的,轻巧简便,特别是前者还具有比较直观的好处。CAS号虽然好用,但毕竟是属于化学文摘社的,没有提供对社会的免费检索。InChi是针对这一缺点开发的,有兴趣的朋友可以试试,我以前的博客中讨论过。




https://blog.sciencenet.cn/blog-1213210-1317823.html

上一篇:又一次遭遇特殊空格
下一篇:对“减少有害流负面效果”策略的一点补充--增加流的方向性的分析
收藏 IP: 210.13.108.*| 热度|

3 强涛 李剑超 黄正亮

该博文允许注册用户评论 请点击登录 评论 (3 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-24 07:05

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部