随机森林算法 根据随机森林和多符号学习算法的缓慢胃炎实证特征挑选和证候分类辨认研讨
徐玮斐 顾巍杰 刘国萍 刘晏 颜建军 钟涛
摘要:意图 对缓慢胃炎实证证候的特征症状进行挑选,并树立证候模型,为缓慢胃炎证候量化确诊的树立供给办法学参阅。办法 运用缓慢胃炎中医问诊规范化量表收集临床症状和体征,并运用机器学习范畴新提出的随机森林和多符号学习算法对缓慢胃炎的实证症状进行挑选和模型构建。成果 运用随机森林和信息增益算法,结合多符号学习算法对证候别离建模,随机森林算法挑选出15个特征症状,信息增益办法挑选出20个特征症状,二者的模型最高准确率别离为83%、82%。经过点评,随机森林算法选出的特征症状愈加精简,进步了确诊模型的辨认率。定论 随机森林结合多符号学习算法可完成缓慢胃炎实证证候特征症状的挑选,一起还可处理几个证候相兼问题,补偿传统学习算法的缺乏。
要害词:随机森林算法;多符号学习算法;缓慢胃炎;特征挑选;证候
DOI:10.3969/j.issn.1005-5304.2016.08.006
中图分类号:R259.733 文献标识码:A 文章编号:1005-5304(2016)08-0018-06
证候指人体生理病理的全体功用状况,临床上常指对个别全体功用状况的判别成果[1]。证候分类是对不同个别生理病理全体功用状况进行分类的一种办法,片面症状和体征(舌脉等)信息则是中医证候分类的首要根据。此外,症状和体征的呈现在不同证候中有不同的规则,这种规则可以运用现代办法去寻觅和不断完善,然后找到证候分类规范的拟定和完善办法。刘渡舟教授大力提倡“抓主症”,并指出每一种病证都有其特异性的主症,可以是一个症状,也或许由若干个症状组成[2]。跟着数理核算学和数据发掘技能的开展,怎么找出患者的主症,是进步临床辨证准确性的要害,也是中医步入“数字中医”年代的急迫使命。特征挑选旨在去除不相关特征和冗余特征,力求以最少的特征来表达原始信息,并到达最优的猜测或分类精度。特征挑选与寻觅“主症”的意图相同。随机森林算法(random forest algorithm)是一种嵌入式的特征挑选办法,充沛运用了集成分类器构建进程所发生的分类模型。随机森林算法合适对高维、离散型数据进行建模仿真,当数据含噪声时也体现出杰出的功能。
本课题组前期研讨显现,临床实践中缓慢胃炎证候往往不会单一呈现、经常交错在一起,2个以上证候兼杂的状况占30%以上[3]。这归于典型的多符号问题。因而,咱们运用课题组提出符号相关特征的多符号学习办法[4]和随机森林算法相结合,进行缓慢胃炎症状和体征的挑选和实证证候分类辨认,为缓慢胃炎的中医证候确诊规范化及客观化研讨供给参阅。
1 材料与办法
1.1 研讨目标
2008年9月-2010年10月于上海中医药大学隶属龙华医院、上海中医药大学隶属曙光医院、上海交通大学医学院隶属新华医院、上海市普陀区中心医院及上海市中医医院消化内科门诊、住院部、胃镜室进行病例收集,去除信息不完好及不契合缓慢胃炎确诊的量表,共收集有用样本919例。其间男性354例(38.5%),均匀年龄(44.61±14.54)岁;女人565例(61.5%),均匀年龄(48.70±12.74)岁。本研讨获得上海市医院道德委员会赞同,一切归入病例患者均签署知情赞同书。
1.2 确诊规范
1.2.1 西医确诊规范 参阅中华医学会消化病学分会《我国缓慢胃炎共同定见(2006年,上海)》[5],经过胃镜与病理组织学成果结合临床体现确诊筛选为缓慢胃炎患者。
1.2.2 中医证候确诊规范 参阅《中药新药临床研讨辅导准则(试行)》[6]及中华人民共和国国家规范《中医临床治疗术语·证候部分》[7]拟定脾胃湿热、湿浊中阻、脾胃气虚、脾胃虚寒、肝气郁滞、肝胃郁热、胃阴缺乏、胃络瘀血8个证候的辨证规范。
1.3 归入规范
①契合缓慢胃炎确诊规范和中医证候确诊规范;②对本查询知情赞同者。
1.4 扫除规范
①精神病患者及伴有其他体系重度疾病者;②言语表达能力较差,病况叙说有困难者;③未获得知情赞同,回绝合作者。
1.5 收集量表的制造办法
由上海市资深中西医结合消化体系临床专家、临床医师及研讨者组成研讨小组。参阅以往量表制造的经历[8],经过文献检索,参阅国内缓慢胃炎证型与证候有关的症状频率的报导,开始拟定出临床流行病学查询表。并经2轮专家咨询及相关的核算学查验,完善批改量表。断定的中医问诊量表包括寒热、汗、头身胸腹、二便、饮食口味、睡觉、心情、妇女共8个维度,及既往史、望诊、切诊等内容,共113个变量。
1.6 查询办法
量表中对症状处以清晰的界说,指出问诊时的详细操作办法和次序。病例收集人员经共同练习。为确保在查询进程中的共同,小组成员定时会集,对典型病例的材料进行评论,以尽或许确保所收集材料的共同性。
1.7 确诊办法
约请3位临床经历丰富的高年资主任医师,参阅课题组拟定的辨证确诊规范,对信息完好的病例进行中医辨证确诊。选取2位专家确诊成果共同的数据进行录入;关于确诊不共同的数据,再与专家评论,确诊成果到达共同后再录入。
1.8 数据输入及处理
选用Epidata3.1软件树立数据库。独立双遍录入,并对2份录入数据进行比照核对。再进行逻辑查看,批改查询表填写过错。
1.9 剖析办法
1.9.1 症状(体征)特征挑选办法 前期研讨显现,信息学的特征提取办法中信息增益(information gain)的成果最优[4],因而,本研讨运用随机森林和信息增益2种算法进行对照,别离对缓慢胃炎临床常见证候进行特征挑选,并运用REAL多符号学习算法对证候进行辨认。选用matlab7.0进行剖析。
1.9.1.1 信息增益 信息增益在机器学习范畴被广泛使用。在信息论中,样本特色的信息增益越大,其包括的信息量也越大。它是经过核算一个特征能带来多少用于分类的信息,以衡量特征对应分类的重要度。在信息增益中,重要性的衡量规范就是看特征可以为分类体系带来多少信息,带来的信息越多,该特征越重要。
1.9.1.2 随机森林算法 本研讨运用Abhishek Jaiantilal的R package randomForest工具包练习出中医缓慢胃炎数据的分类模型以断定特征重要度。在不添加原样本集样本的状况下经过自举法(bootstrap)挑选样本子集构建一组重量分类器,然后运用投票(voting)机制归纳重量分类器的成果得到终究分类成果。在构建重量分类器时,未被选中的样本组成袋外(out-of-bag,OOB)数据集,用袋外数据进行测验得到袋外差错(out-of-bag error,OOB Err)。在森林每一颗树的构建进程中,记下OOB案例集,并记下分类投票正确的个数。随机改动OOB案例会集一个特征m,把这些案例练习成树。然后用之前未受改动特征m影响状况下正确分类投票数减去改动OOB案例会集特征m后的正确分类票数得到票数差,这个票数差客观反映了特征m对分类的影响程度。对每棵树做相同处理,然后每棵树结构得到的票数差取均匀值称为特征m的重要度(raw importance)。取出重要度参向量importance=(ipt1,ipt2,…,iptn)。则权
1.9.2 多符号学习办法 为了更好地体现符号之间的关联性,本研讨运用课题组提出的符号相关特征的多符号学习算法(REAL算法)进行证候模型的树立。
输入:练习特搜集( 以及每个特搜集对应的类标签集 );测验特搜集( 以及每个特搜集对应的类标签集 );近邻数(k);参数(s)。
输出:类向量( );真值向量( )。
算法流程如下:
Step1:经过特征挑选算法挑选各个符号N个相关特征,将每个特征的标号别离放在1个数组中。
Step2:对原始数据集进行10倍穿插查验,区分练习集和测验集。
Step3:根据每个符号别离运用相关的特征子集进行练习。所属练习样本之间的间隔→每个类的先验概率→由每个样本的间隔选取最近的k个近邻→近邻的标签→累计每个样本的近邻确实是该类的个数→后验概率。
Step4:根据每个符号别离运用测验会集相关的特征子集进行测验,核算所属练习样本的特征子集和测验样本的特征子集之间的间隔→测验样本的近邻→近邻的标签→经过先、后验概率得到每个值的最大后验概率值。
1.9.3 试验设置与点评 根据每个证型别离选取112、100、70、60、50、40、30、20、15、10、5个症状组成的证型相关的特征子集,再运用多符号学习办法对相应的特征子集建模。试验成果的点评选用5种在多符号学惯用的比较常见的点评目标:汉明丢失(Hamming loss)、首符号过错(One-error)、掩盖间隔(Coverage)、排序丢失(Ranking loss)、均匀精度(Average precision)。
1.9.3.1 均匀精度 表明猜测符号调会集的符号排序等级比实践中的某个 的特定符号更高的核算概率。实践反映了猜测符号的均匀准确率,该值 越大分类功能越好。
1.9.3.2 掩盖间隔 代表掩盖猜测样本符号的均匀间隔,该值 越小分类功能越好。
1.9.3.3 汉明丢失 点评示例-标签对错分的次数,该值 越小越好。也就是不归于某个案例的符号被猜测为该案例了,或许归于某个案例的符号却没有被猜测出来。
式中 表明2个案例-符号对相应方位上数值的差异。
1.9.3.4 首符号过错 核算猜测的最高等级符号不在样本符号调集的次数,该值 越小越好。在单符号分类问题中,该点评准则被视作一般的分类过错。
1.9.3.5 排序丢失 表明不相关符号比相关符号排序更高的次数,该值 越小分类功能越好。
其间 代表Y中Yi的补集。
2 成果
2.1 根据随机森林和信息增益的REAL算法不同特征数下均匀准确率的改变
因为前期的研讨显现,信息增益办法选取20个特征时的辨认率最高,均匀准确率到达最大值为82%[6]。因而,本研讨首要运用随机森林算法别离选取不同的特征数运用REAL算法进行剖析,别离选取112、100、70、60、50、40、30、20、15、10、5个症状组成的证型相关的特征子集,在这些症状(体征)子集上进行证候确诊模型的建模,研讨症状(体征)挑选对证候猜测模型的影响。以挑选的特征数目为横坐标、猜测的均匀精度(最高为1)为纵坐标作图,详细成果见表1、图1。
从图1中可以看出,跟着特征数的改变,均匀准确率是不同的。在挑选的特征数为15时,均匀准确率到达最大值83%,之后跟着特征数的添加,均匀准确率逐步下降。
图2是运用随机森林算法特征挑选数目为15、信息增益特征挑选数目为20时,REAL算法各项功能的比照。
从图2中可以看出,运用随机森林算法进行特征挑选时均匀精度、掩盖间隔、汉明丢失、首符号过错和排序丢失别离到达0.830、0.157、0.137、0.265和0.114。而运用信息增益进行特征挑选时,这5项目标别离为0.820、0.160、0.142、0.283和0.117。根据随机森林算法的REAL算法的各项功能要高于信息增益。
特征挑选办法下REAL算法各项功能比较
2.2 提取的最优症状(体征)子集
随机森林算法在选取15个症状特征时的辨认率最高,均匀准确率到达最大值83%;而信息增益办法选取20个特征时的辨认率最高,均匀准确率到达最大值82%。可见随进森林算法的成果更好,因而,咱们得到缓慢胃炎4个实证证候脾胃湿热、湿浊中阻、肝气郁滞、肝胃郁热的最优症状(体征)子集,并依照权值进行排序。
脾胃湿热证提取的症状(体征)有苔黄、苔白、苔腻等15个症状体征,湿浊中阻证提取的症状(体征)有苔腻、苔厚、苔白等15个症状体征,肝气郁滞证提取了因心情而加剧、胁肋胀或痛、苔腻等15个症状体征,肝胃郁热证提取了舌色红、苔腻、灼痛等15个症状体征,详细见表2。
3 评论
特征挑选不只可以去除数据的冗余特征信息和无关特征信息然后进步原始数据的质量,而且还可以大大下降数据发掘的本钱。
3.1 特征挑选
随机森林算法是一种机器学习办法,合适对高维、离散型数据进行建模仿真,当数据含噪声时也体现出杰出的功能。它是Leo Breiman[9-10]于2001年提出的一个新的组合分类器算法,然后对数据进行发掘和模式辨认。该办法在许多范畴得到了使用,例如天文学、微阵列、药物发现、癌细胞剖析等[11]。其首要长处有:①较少的参数调整;②不用忧虑过度拟合;③适用于数据会集存在很多不知道特征;④可以估量哪个特征在分类中更重要;⑤当数据会集存在很多的噪音时相同可以获得很好的猜测功能。本研讨充沛考虑到中医数据的多符号特色,将随机森林算法和REAL多符号学习算法结合,挑选出缓慢胃炎4个实证证候的症状和体征大部分与中医理论相符。如湿热内蕴,上泛舌面可见苔黄、苔腻、苔厚。根据中医理论,舌中部多反映中焦脾胃的病变,脾胃运化异常,多见舌中厚腻。寒湿困脾,湿浊上泛见舌苔白厚腻,苔滑、齿痕、胖大皆为寒湿阻滞,脾失运化的体现。肝气郁滞可见胁肋肿痛,肝失条达则因心情而加剧,肝胃不好、胃气上逆可见嗳气等。肝胃郁热则见舌色红,热使脉道扩张、血行加快,气血沸涌,致使舌体头绪充盈而舌色红,灼痛、大便便质偏干、苔黄也皆是热证的典型体现。
但肝气郁滞证候中一起呈现“痛有定处”和“痛无定处”2个症状,脾胃湿热证和湿浊中阻证中见脉弦,与中医理论不完全相符。或许有以下原因:①临床上肝气郁滞证多与血瘀等证候相兼呈现,独自呈现者较少,故而痛有定处和痛无定处一起呈现。②弦脉临床主痛,肝胆病、痰饮、脾胃湿热及湿浊中阻证湿郁化饮也可见弦脉。尽管这几个症状(体征)可以用中医理论解说,但并非该证候的特异性症状(体征),考虑在往后研讨中扩展样本量,进一步深入探讨。
3.2 证候模型构建
本研讨是将随机森林算法和信息增益办法进行比照,前期研讨显现信息增益办法选取20个特征数目时的辨认率最高,均匀准确率到达最大值。4个证候的特征子集别离为:脾胃湿热证共提取苔黄、苔腻、胸骨后炙烤感等症状(体征)20个;湿浊中阻证共提取苔白、舌胖大、苔腻等症状(体征)20个;肝气郁滞证共提取因心情而加剧、胁胀或痛、痛无定处等症状(体征)20个;肝胃郁热证共提取舌色红、灼痛、喜冷等症状(体征)20个。
而随机森林算法在选取15个症状特征时的辨认率最高,均匀准确率到达最大值为83%。经过比较发现,信息增益所得成果中包括的症状(体征)根本包括了随机森林算法选出的15个症状(体征),可见随机森林算法可以到达精简症状的意图,而且进步了证候的辨认率。一起,随机森林算法可以核算单个特征重要性,能衡量各个特征对分类问题的重要性和贡献度,为证候确诊的客观化供给了直接的参阅和根据,也为缓慢胃炎证候的确诊规范树立供给了学习。
参阅文献:
[1] 吕爱平,李梢,王永炎.从片面症状的客观规则探究中医证候分类的科学根底[J].中医杂志,2005,46(1):4-6.
[2] 傅延龄,刘渡舟.抓主症办法的知道与运用[J].中华中医药杂志, 1993,8(4):43-44.
[3] LIU G P, ZHEN R W, YAN S X. Association analysis and distribution of chronic Ggastritis syndromes based on associated density[C]// 2010 IEEE International Conference on Bioinformatics and Biomedicine Workshops(ITCM2010).Hong Kong,2010:790-794.
[4] LIU G P, YAN J J, WANG Y Q, Application of multi-label learning using the relevant feature for each label (REAL) algorithm in the diagnosis of chronic gastritis[J]. Evidence-Based Complementary and Alternative Medicine,2012 (2012),Article ID 135387.doi:10.1155/2012/135387.
[5] 中华医学会消化病学分会.我国缓慢胃炎共同定见(2006年,上海)[J].中华消化内镜杂志,2007,24(1):58-63.
[6] 郑筱萸.中药新药临床研讨辅导准则(试行)[M].北京:我国医药科技出版社,2002:124-129.
[7] 国家技能监督局.中医临床治疗术语:证候部分[M].北京:我国规范出版社,1997:17-20.
[8] 刘国萍,王忆勤,董英,等.中医心系问诊量表的研发及点评[J].中西医结合学报,2009,7(1):1222-1225.
[9] BREIMAN L. Random forests[J]. Machine leaning,2001,45(1):5-32.
[10] BREIMAN L. Manual on setting up, using, and understanding random forests v4.0[EB/OL].[2014-05-10].http://oz.Berkeley.edu/users/ breiman/Using-random-forests-V4.0.pdf.
[11] REMLINGER K. Introduction and application of random forest on high though put screening data from drug discovery[EB/OL].[2014- 05-10].http://www4.ncsu.edu/ksremlin.