化学结构专利信息检索相关技巧

化学结构专利信息检索相关技巧

  不同于其他技术领域,化学领域的专利文献检索包括文字信息检索和化学结构信息检索。前者通过主流的专利文献检索方法(关键词结合日臻完善的分类体系进行检索)已发展的相当成熟;由于化学技术领域的特殊性,其专利文献所涉及的信息显得非常庞杂。例如,化学物质的名称复杂多变,很难用若干关键词进行充分描述;很多新合成或者新发现的化学物质必须以化学结构的方式进行描述;很多化学物质亦存在着同分异构现象…再加上很多国家/地区对化学专利文献的标引工作进行的不够深入,常规的文字信息检索方式已满足不了化学专利文献检索对查全率的要求。此时,化学结构信息检索作为文字信息检索的重要补充就显得尤为重要。


  由于成本昂贵、技术实现上亦存在着较大的障碍,化学结构信息检索在国内专利文献检索工作中的应用率非常之低,而国内很多涉及化学领域的行业,尤其是近年来的仿制药行业,对专利信息的检索和利用已关乎到企业发展的战略层面,据IMS健康咨询公司的研究数据表明,随着大批量专利药物已踏入“专利悬崖”的边缘,2016年全球通用名化学药的市场份额预计将达到35%,销售额预计将超过4000亿美元,这对研发实力相对薄弱的国内药企来说无疑是十分难得的发展机会,然而,想要在这巨大的市场份额中分一杯羹,仿制药的专利挑战能力成为国内药企首先要修炼的“内功”,而高效、便捷的化学结构信息检索无疑是修得这一“内功”的不二法门。

       当前,国内的专利数据库检索系统通常都不具备化学结构信息检索的功能,很多涉及化学专利文献检索的工作还需要依靠国外的数据库检索系统,如:美国化学文摘社(CAS)与德国莱布尼学会卡尔斯鲁厄专利信息中心(FIZ Karlsruhe)共同运营的STN和ProQuest旗下的DIALOG等国际联机检索系统。然而,这些数据库检索系统的费用普遍高昂,本土化工作亦不尽如人意,这大大增加了国内企业的资金和时间成本,很多资金实力较为薄弱的中小型化工企业更是望而却步。

       下面将结合主流数据库的构建方法,利用免费或性价比较高的专业数据库/互联网资源对化学结构信息检索的方式做简要介绍。以期国内的研发人员或者专利从业者能够获得些许启发,从而摸索出更多“平民化”的检索方法。

       专利文献检索中的化学结构信息检索,由于其特殊性,很难仅在单一的数据库中完成。因此,多数据库的协同检索便成为解决这一问题的有效途径。实现上述跨库检索所需要的数据库通常包括两种类型:化学物质信息数据库和传统的专利数据库。前者所要实现的功能主要是化学物质信息的“标准化”。如上文所述,化学物质所涉及的信息非常庞杂,涉及药品方面的化学物质更是如此,仅是名称便分为化学名、通用名和商品名,若一一列举,工作量势必难以承受,若有遗漏,又很难保证查全率。现有的专利文献分类体系,如IPC、USPC、FI/F-term及ELCA,均无法取得较好的归类效果。因此,上述的化学物质信息数据库需要在“专利体系”以外寻找。

       CAS化学登记系统(CAS Chemical Registry System)便是作为化学物质信息数据库的优选之一,其分派给唯一的化学物质登记注册数字标识符,即CAS RN(Chemical Abstracts Service Registry ),换个角度来说,每一个CAS RN几乎包含了所有对应的化学物质信息,如此便等同于将该化学物质相关的关键词全部囊获。接下来便是利用上述关键词通过常规的文字信息检索方式在传统的专利数据库中进行检索,而通过化学结构式索引到CAS RN已是较为成熟的应用,国内亦可找到很多免费的结构式检索工具,如此便大体实现了化学结构信息检索的基本要求。

       然而,仅将CAS化学登记系统中的数据作为化学物质信息数据库是远不够的。由于语言上的差别,CAS RN对应的化学物质信息大多为英文表述,没有或者缺少对应的中文表述。而很多化学物质信息在中国行业内存在着大量的中文别称,中国的专利文献中对同一化学物质势必会存在着大量不同的中文表述形式。因此,若想进一步提高检索质量,化学物质信息数据库的选取需进一步的扩充和“本土化”,将CAS化学登记系统中的信息和国内化学领域的中文数据信息充分结合就成了非常必要的工作。

       目前,国内、外互联网上存在着不少能够提供上述信息的免费数据平台,很多还支持简单的结构式检索。国内有:在线化工词典、爱化学以及Chemical Book等;国外有:Chemidplus和google等。上述网络平台和SciFinder、STN、DIALOG等商业数据平台相比肯定存在着不少欠缺,但如果能灵活运用、充分配合,在大数据的背景下所得到的化学物质信息亦能无限接近上述商业平台,使得”花小钱、办大事“成为可能。

       以乙酰水杨酸为例,为大家具体演示上述方法的检索流程:

       首先,在爱化学网站的化学结构式录入界面中画出乙酰水杨酸(C9H8O4)的化学结构式,并进行”精确检索“(网站亦提供化学结构式的”子结构搜索“和”相似搜索“),得到的检索结果如下:

 

  
CAS  RN
  
中文名
英文名
化学结构式
分子式
50-78-2
邻乙酰水杨酸;阿司匹林;乙酰水杨酸;2-(乙酰氧基)苯甲酸
Acetylsalicylic  acid;2-Acetoxybenzoic acid;Aspirin
1.png
C9H8O4


       从上述检索结果中,我们获取到乙酰水杨酸的CAS RN以及相应的中英文名,接下来需要根据上述结果对乙酰水杨酸的信息做进一步的扩展。例如,可根据CAS RN在化工引擎网站的化工词典界面进行检索,可得到关于乙酰水杨酸更多的中英文别名(由于数量较多,故在此不做列举)。由于信息来源不一,在做具体检索之前,我们需要对关键词做进一步的筛选,将上述检索结果中明显不相关的部分剔除。

       最后,根据上述检索到的乙酰水杨酸相关的关键词(此示例中主要为中英文名)在传统的专利数据库中进行布尔逻辑式检索,此时,可配合分类号对关注的技术领域做进一步定位,例如,若关注的是乙酰水杨酸在通用名化学药领域(仅作概念举例)的专利信息,那可以将IPC分类号限制于:A61K31,含有机有效成分的医药配制品;A61K9,以特殊物理形状为特征的医药配制品;以及C07,有机化学。以上,便完成了对乙酰水杨酸的化学结构信息检索。

       “花小钱、办大事”是很多国人的处事原则,本文关于化学结构专利信息检索的方法便能很好的满足这一需求。然而,这毕竟是在高端数据平台昂贵、中低端数据平台缺失的情况下退而求其次的选择,结果的稳定性难以得到保障。若有功能集成度较高、价格合理的数据平台将会极大满足国内化学领域研发人员或者专利从业者的检索需求。目前,国内、外的一些数据库供应商正在做这方面的尝试,PatSnap智慧芽也推出了能够实现化学结构专利信息检索功能的Beta版,大家如果有兴趣可以申请免费试用。

        作者:PatSnap智慧芽专利工程师  张帅

智慧牙学院微信
相关视频
光电领域技术主题检索及分析
 刘丹丹
PatSnap 智慧芽学院创始院长
¥19.90 (会员免费)
 4901
化学领域专利检索分析实例
 蒋雯
PatSnap 智慧芽前华北区培训经理
¥9.90 (会员免费)
 5202
专利人员的高级检索教程
 刘丹丹
PatSnap 智慧芽学院创始院长
免费送数据库试用账号
 5.6万