首页

途径节点 根据SNOMED术语编码两节点之间多途径算法的完成及其对中医术语编码的含义

点击:0时间:2019-03-28 22:18:00

成福春+刘华+房敏

摘要:充沛运用体系化医学术语集-临床术语(Systematized Nomenclature of Medicine-Clinical Terms,SNOMED CT术语)展开已有的先进效果,对其体系架构进行深化研讨。对SNOMED术语两节点之间或许存在的多条途径,运用回溯算法,主动查找并输出。关于开发医学术语检索引擎,构建具有中医自身特色的术语体系等均具有重要含义。

要害词:SNOMED CT;中医术语;回溯算法;多途径;编码化;本地化

doi: 10.3969/j.issn.2095-5707.2014.01.004

Implementation of Multi-Path Algorithm Between Two Nodes of SNOMED CT and Its Significance for the Coding of Traditonal Chinese Medicine Terminology

Cheng Fuchun, Liu Hua, Fang Min

(Yueyang Hospital of Integrated Traditional Chinese and Western Medicine, Shanghai University of Traditional Chinese Medicine, Shanghai 200437, China)

Abstract: The SNOMED CT terminologies have been fruitful. This paper study its architecture deeply. By using backtracking algorithm to find automatically and output the multiple paths between two SNOMED CT nodes. It is important for the development of medical terminology searching engine and the construction of the Traditional Chinese Medicine (TCM) terminology coding system.

Key words: SNOMED CT; TCM terms; back-tracking algorithm; multi-path; coding; localization

1 SNOMED CT简介

医学术语及其编码化,关于规范临床数据收集、数据剖析检索运用、进步医疗质量以及研讨的深度,具有重要含义。医学术语文字自身存在多样性,首先是语种、言语的多样性,如英语、阿拉伯语、中文等;其次是符号的多样性,如各式各样的符号都有或许呈现在术语中。因而,经过一致编码,既能够进步计算机处理功率,又能够规范数据录入,更能够便利运用人员检索剖析等,还能够进行国际范围内的术语沟通。因为运用了逻辑描绘、联系型数据库结构等计算机技能,SNOMED CT是一个能够满意记载卫生保健、疾病分期、病理生理学研讨、医治及医治效果所需求的语义学上一致的临床术语与医学信息编码体系,向全国际供给了电子医学记载(电子病历)的底层结构支撑。SNOMED CT集根底科学、实验室医学和特种医学在内的优势及CTV3术语有关初级护理的丰厚作业效果为一体,成为多语种的、包含内容最广泛的临床参阅术语与信息编码体系[1]。

可是,SNOMED CT要在我国运用,有必要处理以下几个问题:①SNOMED CT术语的汉化问题,以及怎么进行同步;汉化自身并不存在技能上的难点,可是怎么保证其精确性与一致性;几十万条术语,作业量巨大,何时能完结;SNOMED CT每半年发布一次新的版别,怎么进行更新与同步;②中医术语怎么既能独立运用,又能与SNOMED CT进行整合;我国存在的中医医疗体系、中医术语怎么参加其间;加哪些内容;层次结构怎么;术语之间的联系怎么表明;中医术语现在已有几个国家规范,如1997版的GB/T 16751.1-1997《中医临床治疗术语 疾病部分》,GB/T 16751.2-1997《中医临床治疗术语 证候部分》,GB/T 16751.3-1997《中医临床治疗术语 治法部分》,以及2006版的GB/T 20348-2006《中医根底理论术语》。现在发布的中医术语规范,存在以下问题:纸质版别,难以进行数据导入;编码较为简略,层次结构不明晰;未能充沛整合,尚缺较多内容;长期无更新。中医现在尚无一套既具有信息技能特征,又具有中医医学自身特征的术语编码体系。③技能问题。如查询检索的功率与精确性。 对以上问题进行剖析与拆解,围绕着术语的发生、术语版别的变迁、术语的映射、术语整个生命周期办理,能够将以上问题分为三类,一是技能方面的问题,如编码、索引等,需开宣布相关算法,处理高效精确查询检索等问题。二是事务方面的问题,如术语分类,层次结构,同一概念术语的多种表达办法等。需对中心概念进行提取与界定,术语之间的联系进行界说。三是办理方面的问题,如及时处理术语保护机制、组织、人员等方面的问题。

2 SNOMED CT术语本地化需求处理的要害技能问题

SNOMED CT是依据代码化的,每一个术语都用一个代码来表明,在编码进程中,考虑到了该术语地点的方位及分类,还考虑到了保护组织、次序码、校验码等。因为存在着常用术语、同义术语、近义术语等,其三张中心表为主概念术语表、术语界说表、术语联系表。

在SNOMED CT的技能完结文档中,提出两种效劳,一是术语效劳(Terminology Service),主要功用包含:术语的分类、术语的保护、术语的查找、术语的检索(文本检索、层次导航、表达式检索与范式等),创立和保护参阅集等。提出创立术语效劳器,开发相关的术语效劳API(运用程序接口)等。术语的版别保护以及术语的映射,包含SNOMED CT不同版别之间的映射,以及与其他术语体系的映射,如SNOMED CT与ICD(国际疾病分类编码)的映射,SNOMED CT与观测方针标识符逻辑命名与编码体系(Logical Observation Identifiers Names and Codes, LOINC)之间的映射等。术语效劳的中心在于供给术语查询及检索效劳,是术语自身的保护,是站在术语自身保护的视点。二是记载效劳(Record Service),主要功用包含:扩展查找与约束重复,实时检索,后台编码,主动以及半主动编码。为完结数据的高效录入,可增加相关条件约束,如子集的运用,术语的排序、前组合表达式与后组合表达式的运用,检索与聚合剖析,数据交换表达办法,以及编码化存储。记载效劳的中心在于便利精确地进行术语数据查找、录入、编码、存储等,在于术语的实践运用,及站在运用者、运用者的视点展开效劳。

可是,不论其视点怎么,技能上的中心问题主要有以下两个方面:

2.1 术语检索的功率问题

经过索引技能,将不同的词语,依照相应的规矩,重新组合,构成索引表,进步检索功率,如单要害词算法、多要害词算法。其间心是运用英语词汇的特色,将术语分词后,对要害词进行标示,并取其要害词的前三个首字母进行组合,再依照相应的规矩排序,构建索引表。查询时,经过索引表,找到相关术语代码,再经过代码,找到相应的术语内容。因为中医术语是以字符为单位的,因而,将相关虚字符除掉后,亦可用单要害词算法、多要害词算法,构建适用于中医术语检索的索引,然后进步检索功率。

2.2 术语之间联系的运用

树立联系表,将术语层次结构与硬编码脱离开来,是SNOMED CT差异于其他术语集的一大改善与立异。2002年2月31日发布的SNOMED CT 1.0版别由概念表、描绘表、联系表以及一份前史表、映射表和相关的技能性文件组成[2]。以往的编码办法,大多具有方位特征特色,如1979年版的SNOMED Ⅱ,以英文字符打头,如T代表解剖轴。因为编码的唯一性,一旦运用这个编码,就或许存在于各种记载傍边。跟着知道的深化与改动,术语的结构、方位或许会发生变化。而一旦这个术语代码自身的方位发生了改动,运用老的程序与算法,不简略将此类编码区别出来,简略构成过错。因而,将术语之间的联系分离出来,专门进行保护,然后使之愈加灵敏地习惯实践情况的需求,是SNOMED CT联系表的重要含义地点。

而对联系的处理,是经过寻觅出特定的联系代码,进行相关数据的查询检索。如IS-A联系,代表了术语之间的上下位联系,也能够以为是概念从粗到细的一个进程。经过IS-A寻觅途径,若两点之间无途径,则能够为无直接联系;若两点之间只要一条途径,则阐明晰概念由粗到细的衍生联系;若两点之间有多条途径,则阐明晰对该概念有着不同的了解。而途径长短问题表现了术语之间相关的严密程度,也代表了术语之间的亲疏联系。

术语节点之间的途径,既是SNOMED自身的特殊性,又是其他运用程序得以实践运用的根底。是现实生活中关于同一个概念,从不同视点、不同层次去了解的实践情况的反映。因而,开发规划出SNOMED术语两节点之间多途径算法,既是术语检索引擎自身的需求,也是术语检索引擎是否成功的一个中心标志。

3 SNOMED术语两节点之间多途径算法的完结

SNOMED术语的中心在于层次结构,以及术语与术语之间的联系。SNOMED依据IS-A联系,可构成树(图)状结构,可运用TreeView等树型展示控件,进行术语的树状阅读与展示。如2013年1月版的SNOMED术语尖端分类,经过SQL句子查询,“select CONCEPTID1 from sct1_Relationships_Core_INT_ 20130131 where RELATIONSHIPTYPE='116680003' and CONCEPTID2='138875005'”,得到19条记载[123037004,Body structure (body structure)身体结构;……;373873005,Pharmaceutical/biologic product (product)药物/生化产品],阐明2013年1月版的SNOMED CT仍分为19个大轴。

某一个术语,或许存在多个方位联系,如7895008,Poisoning by drug AND/OR medicinal substance (disorder),药物和/或医学物质中毒(症);既是87858002,Drug-related disorder (disorder),药物相关症(症)的子节点;又是75478009,Poisoning (disorder),中毒(症)的子节点;因而,它底下的某一个术语,其向上寻觅上级节点(父节点)途径的进程中,就存在着多条途径的或许。而怎么将这些多条途径主动精确找出,需求有相应的算法来完结。如(51862005,138875005)两节点之间的途径联系如图1所示。其间51862005,Poisoning by diiodohydroxyquin (disorder),二碘喹啉中毒(症);111762003,Poisoning by antirheumatic (disorder),抗风湿药物中毒(症);10070005,Poisoning by quinoline AND/OR hydroxyquinoline derivative (disorder),喹啉 和/或羟基喹啉衍生物中毒(症);441952005,Poisoning due to chemical substance (disorder),化学物质中毒(症);46878002, Poisoning by antimalarial drug (disorder),抗疟疾药物中毒(症);49450009,Poisoning by antiprotozoal drug (disorder),抗原虫药中毒(症);419639006,Poisoning by anti-infective agent (disorder),抗感染剂中毒(症);7895008,Poisoning by drug AND/OR medicinal substance (disorder),药物和/或医学物质中毒(症);87858002,Drug-related disorder (disorder),药物相关症(症);75478009,Poisoning (disorder),中毒(症);64572001,Disease (disorder),病(症);404684003,Clinical finding (finding),临床发现(发现);138875005,SNOMED CT Concept (SNOMED RT+CTV3),SNOMED CT概念(SNOMED RT+CTV3)。

扼要算法如下:①界说办法名及传入参数、效果类型,界说数组列表获取得到的途径。②界说一个栈来寄存已拜访节点信息。③运用IS-A联系,获取某一节点的上级父节点;将拜访过的节点压入栈中,判别是否抵达方针节点,若未抵达,查找当时节点父节点,并将其父节点压入栈中。④不断重复③,若找到方针节点,则将此条途径记载入数组列表中。⑤运用栈的性质,用回溯算法,持续寻觅有无其他途径。⑥若寻觅到根节点,或许栈中已无元素,完结循环,输出取得的途径。

图1 两节点之间多途径示意图

本研讨运用C#,以及SQL Server的存储进程,函数,界说栈、字符串数组列表,运用回溯算法,将每一条途径进行找出并记载,完结了将多条途径主动找出的功用。如图1,运用回溯算法,共输出7条途径:

①138875005 404684003 64572001 75478009 7895008 111762003 51862005;

②138875005 404684003 6457200187858002 789500811176200351862005;

③138875005 404684003 64572001 75478009 441952005 51862005;

④138875005 404684003 64572001 75478009 7895008 10070005 51862005;

⑤138875005 404684003 64572001 87858002 7895008 10070005 51862005;

⑥138875005 404684003 64572001 75478009 7895008 419639006 49450009 46878002 51862005;

⑦138875005 404684003 64572001 87858002 7895008 419639006 49450009 46878002 51862005。

4 关于中医术语编码体系的含义

4.1 逐渐将中医术语参加到SNOMED CT一致体系架构中

SNOMED CT要在我国运用,第一步需战胜的妨碍是术语翻译问题。因为术语数量巨大,概念术语已近40万条,且每半年会有相应的更新,其作业量可想而知。笔者采取了一个相对简略的办法,运用google翻译,已将2011-07-31版的约40万条术语翻译成中文。因为是医学术语翻译,精确率相对较高,约80%左右,能够在此根底上,在实践运用中,进行术语精确性的进步。

现在的首要问题是中医术语的体系结构怎么经过编码及联系的增加参加与一致到SNOMED CT术语会集[3]。现在现已将四个国标,1997版的GB/T 16751.1- 1997《中医临床治疗术语 疾病部分》,GB/T 16751.2- 1997《中医临床治疗术语 证候部分》,GB/T 16751.3- 1997《中医临床治疗术语 治法部分》,以及2006版的GB/T 20348-2006《中医根底理论术语》,作为SNOMED CT的四个概念顶轴,依照其原有的层次结构,将相应术语参加到其概念表、界说表、联系表中。接下来将考虑对症状与体征术语、中药术语、丹方术语、针灸、按摩、穴道、办法等相关术语进行收拾增加。

运用是一个逐渐深化的进程,受需求驱动,因而,详细的运用是跟着医学自身的展开而逐渐展开起来的。如某一专病专科,如某一医家,有其自身的术语增加及保护的需求,需求对中医术语体系进行扩展。

4.2 开发术语检索引擎,供给相关效劳,打造中医知识库体系

SNOMED界说了术语之间的相互联系,最主要的联系是IS-A联系,可是还有着其他联系。如2011-07-31版别中,经过“select distinct RELATIONSHIPTYPE from dbo.sct1_Relationships_ Core_INT_20110731”,可得到65种联系,如149016008,MAY BE A (attribute),或许是(特色);363698007,Finding site (attribute),发现部位(特色);418775008,Finding method (attribute),发现办法(特色)等。

而在中医术语中,联系则更为多见。临床知识库的建造,更多表现的是联系的运用。在知识库的构建方面,经过代码与代码之间的组合,如肺结核,或许一起呈现四个主要症状,发热、咳嗽、潮热、盗汗等。在实践运用中,就可依据这些症状,判别或许会是某种疾病或病证。

中医医学自身,可表现为术语及其相相联系的调集,如阴阳五行的相生、相克、相乘、相侮联系。联系在某种程度上能够表现为特色。如中药的性、味、归经,因为每一味中药都有着性、味、归经等特色,并且每一味中药都有或许存在着多种性、味、归经等。因而,为了更好地运用中医特色,可经过在术语联系表中,增加相应的联系条目,来反映中医中药特色自身。如同义联系、反义联系、配伍忌讳、相生联系、相克联系、相佐联系、母子联系、母病及子、子病及母等联系。以及一些古医籍中的内容,如医家学术思想、病因病机,治则治法等相关的特色维度[4]。联系需求进行笼统来获取,并给每一个联系以一个特定概念与编码。

在此根底上,开发术语检索引擎,供给相关术语效劳,如近义词检索、反义词检索、以及相生、相克联系检索,性味归经等检索功用。更高层面上,经过在联系表中界说相关规矩,完结某些疾病、病证的判别、辨别等。

4.3 在医师作业站、护理作业站、专病专科作业站等实践运用术语效劳体系

医学术语的运用终究表现在医师作业站、护理作业站中。现在的电子医嘱现已根本完结中药编码化。可是医学术语的本地化,如专病专科、症状与体征、确诊术语,以及其他的中医根底理论术语等,并未彻底表现在现在的医师护理作业站中。

本地化进程,可依据需求进行定制,而不用拘泥于某一固定的款式。在实践数据录入中,应满意录入数据的粒度需求,如精细化录入,以及一般文本录入,以及后期剖析与聚合计算等。如某一医院为中医专科医院,其偏重点在针灸、按摩等传统疗法上,经络穴道的术语就应愈加丰厚。而某一医院以骨伤科为主,关于骨伤科的许多术语内容则会得到较为全面的展示。可经过对相关子集进行界说等办法,对术语进行扩展。

在实践数据录入中,可充沛运用单选框、复选框、组合列表框等控件,便利用户点选,进步用户的输入速度与精确性。经过术语效劳的办法,为医师作业站、护理作业站的记载效劳供给支撑。

参阅文献

[1]钟伶,林丹红,林晓华.临床医学体系术语SNOMED CT的特色及其运用[J].中华医学图书情报杂志,2007, 16(2):58-60.

[2]杨阳,崔蒙.SNOMED展开概略与展望[J].我国中医药信息杂志,2007,14(2):97-99.

[3]郭玉峰,刘保延,姚乃礼,等.依据SNOMED CT中心构架研讨的中医临床术语集规范化特征要素初探[J].我国中

医药信息杂志,2008,15(9):96-97.

[4]郭玉峰,刘保延,周雪忠.SNOMED CT的语义联系与衔接概念[J].中华中医药学刊,2008,26(10):2206-2209.

(收稿日期:2013-08-27,修改:魏民)

相关资讯
最新新闻
关闭