药学总述 中医药学言语系统研究总述
于彤 贾李蓉 刘静 杨硕 董燕 朱玲
摘要:中医药学言语体系(TCMLS)是由我国中医科学院中医药信息研讨所联合全国13家中医药科研单位和高等院校于2002年开端研发的大型术语体系。它是在一致医学言语体系(UMLS)的根底上,依据中医药范畴的言语特征及学科体系特征,选用本体(ontology)的规划理念和办法研发而成。经过10余年的展开,TCMLS的技能体系日趋老练,相关研讨也越来越深化和体系化。经过回忆TCMLS的展开进程,对相关研讨文献进行总述,剖析存在的问题和未来的展开方向。
关键词:中医药;言语体系;中医药学言语体系;本体
中医药学经过几千年的展开,在临床实践和医学研讨进程中产生了许多的概念和术语。朝代更迭、言语变迁、地域差异、学科交融等多种要素的概括影响,使中医药学术语体系变得极为杂乱。针对中医药文本中许多存在的同物异名、同名异物等现象,中医药作业者往往无法做出正确判别。经过树立一个完好、精确的言语体系,能够有用处理词义含糊、一词多义、一义多词等杂乱的言语现象,能够处理长时间困扰中医药信息化范畴的术语运用不规范、术语安排不体系、信息检索效能低劣等问题。为此,我国中医科学院中医药信息研讨所(以下简称“信息所”)联合全国13家中医药科研单位和高等院校,从2002年开端研发中医药学言语体系(traditional Chinese medicine languagesystem,TCMLS)。本文回忆了TCMLS的展开进程,对相关研讨文献进行总述,剖析存在的问题和展开方向,为中医药学言语体系的研讨、编制和运用人员供给参阅。
1概述
TCMLS原名为中医药一体化言语体系。它是参照一致医学言语体系(LMLS),依据中医药范畴的言语特征及学科体系特征,选用本体(ontology)的规划理念和办法研发而成的大型术语体系。其意图在于运用现代信息技能,逐渐树立规范化的中医药术语体系,然后支撑中医药信息资源的合理安排和有用检索。
TCMLS首要包含语义网络(semanticnetwork)和根底词库两大部分。其间,语义网络界说了中医药范畴最根本的语义类型(semantictype)和语义联系(semantic relation),构成TCMLS的顶层结构。根底词库则以概念为单位对中医药术语进行体系整理和精确诠释,树立科学合理的概念分类体系以及概念之间的语义联系。经过10余年的研发,TCMLS的技能体系日趋完善,树立了老练的术语收集体系;组建了由300多名专家组成的术语加工团队;收录了约12万个概念、30万个术语和127万条语义联系,涵盖了中医药学科体系及与之相关的生物、化工、哲学等学科的专业术语,在文献检索、文本发掘、术语集成等方面得到了实践运用。
2中医药学言语体系展开进程
从20世纪90年代开端,本体技能在医学范畴得到广泛运用,在常识获取、常识办理和信息检索等方面发挥了活泼的作用。UMLS是其间的一个代表性本体,它调集了来自100多个词表中的100多万个概念,用于进步计算机“了解”医学信息的才能,促进医学信息体系之间的互操作。注意到UMLS在医学范畴获得的成功,中医药作业者开端考虑将本体技能引进中医药范畴,以中医药学科为主导且遵从中医药展开思路,研发根据本体的大型术语体系。2002年,信息所联合全国13家单位正式启动了TCMLS的建造作业。TCMLS从树立之初到现在为止,大体阅历了3个阶段。
2.1建造初始阶段(2002—2005年)
在建造初期,尹爱宁等提出了树立TCMLS的办法学,拟定了TCMLS的技能规范。Zhou XZ等则从信息技能视点提出了TCMLS的技能计划。这些研讨为TCMLS的建造给出了科学合理的顶层规划和路线图,为其长时间健康展开奠定了根底。在此阶段,各单位加工人员选用单机版的Protege软件别离加工各自的部分,再由信息所一致汇总。这一加工形式促成了多单位数百人协同共建,但所加工的数据不免有所重复和对立。
2.2敏捷生长阶段(2005—2009年)
从2005年开端,根据万维网(Web)的加工渠道成功布置并投入运用。各单位加工人员得以在一致的网络渠道上协同共建,免去了数据汇总的环节。根据网络的协作办法明显提高了加工功率,使TCMLS的规划得以敏捷增长。但加工人员的主观性和专业水平差异等要素构成TCMLS的数据存在许多质量问题,因而数据质量保证和数据清洗技能成为研讨要点之一。在体系建造的一起,学者们也针对体系规划和架构等问题进行了重复研讨,提出了一系列调整和改善计划。
2.3安稳展开阶段(2009—2014年)
经过上一阶段的大规划数据加工,TCMLS已收集了现代中医药文献中呈现的大部分概念和术语,其数据增量开端逐年放缓。在2009年,信息所与维思比科技(北京)有限公司协作,在老练的商业软件的根底上,树立了更为安稳的网络加工渠道。在完结渠道改造和数据清洗等作业之后,TCMLS体系的数据质量得以明显提高。跟着TCMLS的展开老练,其在文献检索、文本发掘、术语集成等诸多方面的运用研讨渐趋活泼。TCMLS的规划理念和成功经验,也在中医古籍言语体系、传统针灸常识体系语义网络等体系的建造中得以推行。
3中医药学言语体系相关研讨
中医药术语体系具有明显的言语、文明和学科特征,没有现成的处理计划能够照搬。在TCMLS的建造中,从中医药特征和需求动身,展开了许多立异性的研讨作业。下面从办法学研讨、规范化研讨、剖析与点评研讨以及运用研讨等方面,对相关文献进行概括剖析。
3.1办法学研讨
学者们针对TCMLS的建造,展开了体系性的办法学研讨。尹爱宁等提出“杂乱度约好与限制办法”“多学科交融与磕碰办法”以及“本体论与诠释论相关运用办法”等3种办法,为TCMLS的规划和构建供给了新思路和新办法。尹爱宁等还完结了TCMLS的顶层规划,包含概念分类结构、语义类型以及语义联系等内容。方青、曾召、谢琪也针对TCMLS的规划理念、规划准则、体系架构和构建办法展开了研讨和评论。
学者们还针对TCMLS所触及的信息科学办法与技能展开了研讨。Zhou XZ等、方青提出了TCMLS的技能计划,包含体系架构、数据存储、概念编码办法、修改东西、查询效劳等内容。汤萌发研发了根据Web的TCMLS加工渠道,支撑多单位许多人员的协同加工。Mao YX等针对TCMLS的办理和保护展开研讨,提出了根据子本体模型的本体演化办法,以支撑大型本体的重用。崔蒙等研讨怎么经过主动化办法逐渐提高TCMLS的数据质量,提出了根据语义网络的数据清洗战略。
3.2规范化研讨
为和谐多安排许多人员的编审作业,需求树立科学合理的技能规范。早在2003年,尹爱宁等就为TCMLS拟定了包含收词准则、收词规范、一级类目、语义类型、语义联系在内的技能规范。这项规范在体系树立进程中发挥了重要作用。但其适用规划仅限于TCMLS,其他中医药本体均不完全符合这套规范,由此构成本体体系之间的异构性。可见,为使一套技能规范具有广泛的影响力和约束力,需求在威望的规范化安排的结构下展开作业。
鉴于此,信息所于2008年,代表我国向世界规范化安排(ISO)健康信息学技能委员会(TC 215)提出了技能规范“Health informatics Semanticnetwork
framework of traditional Chinesemedicine language system”的项目提案,致力于在ISO结构下推动TCMLS语义网络结构的世界规范化作业。该项目于2012年得到成功立项,于2013年3月构成草案并进入评定和投票环节,并于2014正式发布。它在多术语体系交融、术语效劳以及术语体系互操作等范畴将发挥根底性作用。
3.3剖析与点评研讨
学者们针对TCMLS各方面进行剖析与点评研讨,以期发现其间存在的问题,促进TCMLS的展开与完善。例如,贾李蓉等对TCMLS中语义类型的运用情况进行剖析,找出不合理的语义类型并主张删去。杨阳等、贾李蓉、曹莉等针对TCMLS语义联系进行了深化的剖析和评论。贾李蓉还主张对TCMLS语义联系进行调整,如添加“开窍于……”“与……相表里”等中医特有的语义联系。李莎莎指出TCMLS分类结构存在问题,提出了分类辅导准则以及改善的分类结构,使TCMLS词库分类愈加合理。贾李蓉等从术语的收词规划、术语完好性等方面对根底词库进行了剖析,提出了改善定见。
2012年,贾李蓉等针对TCMLS展开了较为全面、体系的点评研讨。成果标明,该体系学科分类十分合理,语义分类根本合理,体系完好性较好,但语义相关的精确性较差。可见,TCMLS规划合理且具有相当规划,合适展开运用研讨,其数据质量问题可在实践运用中逐渐完善。
别的,谢琪、曾召等先后对TCMLS与UMLS进行比较剖析。成果标明,TCMLS尽管学习了UMLS的规划办法,但其结构和内容均有明显的中医药特征,然后充分肯定了TCMLS的独特性和创造性。
3.4运用研讨
TCMLS作为中医药学规划最大的本体,在中医药信息化的展开中发挥着重要的作用。怎么运用如此大规划的术语资源成为现阶段研讨的要点问题。TCMLS在文献检索、文本语义联系发现、术语集成等方面现已获得了实践运用,开始验证了TCMLS的实用性。
3.4.1文献检索 TCMLS能处理中医药学中同一概念具有不同表达形式、同一种表达形式表达意思不同的问题,然后改善文献检索的作用。贾李蓉等研发了根据TCMLS的中医药文献检索效劳渠道,它能供给术语检索、文献检索及互联网资源检索等效劳。该渠道运用TCMLS的术语信息完结了同义检索、相关概念检索等高档功用,提高了检索成果的全面性和精确性。
3.4.2文本语义联系发现 在中医药文献中蕴含着许多的相关性常识,体现为概念之间的相相联系。若能完结从文献中主动抽取语义联系的技能,则可大幅提高常识获取的功率。陶金火等、张小刚、于彤等展开了根据TCMLS从文本中发现语义联系的一系列测验。发掘出来的语义联系可与TCMLS的语义联系相结合,得到更为全面、精确的语义联系,然后扩展TCMLS的数据。
3.4.3术语集成 术语体系的运用实践标明,单个术语体系往往难以满意科研或临床运用的需求,多术语体系的交融已成为完结术语体系实用化的先决条件之一。鉴于此,于彤等选用本体技能研发中医药术语集成体系,将TCMLS、中医古籍言语体系等多个术语体系集成在同一个渠道中,经过Web供给一站式的术语信息检索与拜访效劳,支撑言语学家对语义网络进行概括、阅读和比较研讨。
4中医药学言语体系展开方向
TCMLS已趋于老练并获得成功运用,但仍存在许多值得研讨的问题。例如,跟着TCMLS体系规划的扩展,怎么对本体进行有用办理?怎么经过主动化办法提高TCMLS的数据质量,逐渐完结数据规范化?TCMLS等中医药本体皆自成体系、互不兼容,怎么完结各体系之间的相关、和谐与交融?现就TCMLS加工及运用2个方面评论其研讨思路及展开方向。
4.1大规划本体工程协作
TCMLS是由全国多家单位、数百名范畴专家协作加工的大型本体体系,怎么支撑多安排的大规划协作始终是一个重要的技能问题。TCMLS建造之初,运用Protege进行加工。Protege是由斯坦福大学研发的一款本体修改软件,具有开源免费、装置便利、用户界面友爱等长处,因而得到了广泛运用。但它是一款单机版的软件,需求各单位人员别离加工,再将数据一致汇总,这一加工办法导致数据兼并时呈现许多重复和不匹配的问题。跟着体系规划逐渐扩展,这个问题变得越来越严峻。
2005年,浙江大学研发了根据Web的TCMLS加工东西,使各单位人员能够经过网络进行实时同步加工,然后提高了加工功率和数据的一致性。尔后,网络化加工东西经过屡次晋级,与之配套的审校机制也不断完善,构成了相对老练的虚拟协作形式。
在未来的研讨中,可将单机版Protege与Web渠道相结合,进一步优化大规划本体工程的协作形式。未来可完结TCMLS的模块化,运用Protege开发独立的本体模块,运用Web渠道保护同享的本体结构。用户可将个人开发的本体模块导入Web渠道中,与同享本体相交融;也可从渠道中导出本体模块,经过Protege进行修改、推理和查询。简略常识安排体系(simple knowledge organizationsystem,SKOS)为本体在Web上的发布和交流供给了一项引荐规范,能支撑上述方针的完结。将TCMLS转换为SKOS本体,为在Web渠道上完结本体发布、导入导出、本体交融等使命奠定了根底。
4.2推动中医药学言语体系实践运用
TCMLS在中医药信息化中具有巨大的运用潜力。中医药范畴已积累了许多的数据库和海量文献,但仅供给简略的检索功用。怎么根据TCMLS整合中医药数字资源,树立一站式常识效劳渠道,面向中医药作业者和社会群众供给完好、精确、智能的常识效劳,是TCMLS运用研讨的核心问题。
近年来,谷歌常识图谱(Google knowledgegraph)的巨大成功,使“常识图谱”成为常识效劳范畴的新的研发热门。TCMLS的大型语义网络为构建大型中医药常识图谱奠定了根底。在往后的研讨中,可根据TCMLS将中医药范畴首要的术语体系和数据库集成在一起,构成以“语义网络”为骨架的大型常识图谱。常识图谱是TCMLS的一种天然的扩展,其常识内容愈加丰厚,因而更具效劳价值。
在常识图谱的根底上,可进一步树立语义维基体系,面向网络用户供给百科全书式的常识效劳;并参阅维基用户的修改成果和反应定见,不断完善和丰厚TCMLS的内容,进而完结一站式的常识检索效劳,为用户供给异构数据库和文献库的一致检索。在此根底上,可逐渐完结常识引荐、常识地图、常识问答、决议计划支撑、联系推理等高档效劳。
5小结
TCMLS是根据本体技能研发的大型术语体系,它对中医药范畴的概念和术语进行了体系整理,为中医药术语规范化供给了根底性东西。现在,TCMLS已初具规划,其运用推行作业也在稳步进行之中。TCMLS的树立是一项立异性作业,关于中医药术语规范化以及信息数字化的完结具有重大意义。TCMLS的成功标明,本体能很好地处理中医药范畴中各种杂乱的言语现象,是构建中医药术语体系的有用手法。在国内外尚缺少构建本体的老练流程、办法和技能规范的情况下,TCMLS也为本体工程办法学的展开与完善做出了奉献。