第
卷2 0 0
9 年片 4期月
(【 MPUTER’) TECHN( I X ANI ) ( Y )DEVEI(IM ENT )
计算机技术与发展
V ( 1 ) 9 1 (. )4 Ap 2 0 r 09
基于 KN N算法的医药信息文本分类系统的研究许幸,启蕊张(东药学院医药信息工程学院,东广州 5 0 0 )广广 1 0 6摘要:针对目前医药信息文本分类领域的现状,计并实现了一种基于 K N算法的医药信息文本分类系统。该系统充设 N
分利用了向量空间模型在表示方法上的优势和快速 K NN算法的特点,并采用逆向最大匹配分词方法进行分词,有效提可
高医药信息分类的准确性和信息处理效率。此外,构建了一个医药信息数据集,据集包含 52医药类文本,中训该数 8篇其练文本 4 3, 3篇测试文本 19,在该数据集上对医药信息文本分类系统进行了测试,到了 7 .3 4篇并得 48%的 F值。实验证 明,系统可以较好地实现医药信息文本分类。该 关键词:医药信息;本分类;文向量空间模型; N K N算法中图分类号: 3 1 TP 9文献标识码: A文章编号:6 3—6 9 2 0 )4—0 0 17 2 X( 0 9 0 2 6—0 4
Re e r h o e c lI o m a i n Te tCa e o i a i n s a c fM dia nf r to x tg r z toBa e n KNN g r t s do Al o ihmXU n Xig,Z HANG—u Qi i r( ol e f dcl nomai nier g G ag o gP a cui l ie i, un zo 10 6 C ia C lg i f t nE g ei, un dn hr eta Un r t G a gh u5 0 0, h ) e o Me a I r o n n ma c v sy nAb ta t De in n lme t se of dclno maintxt ae oiainbsdo sr c: s sa di e n sas tm g mp y me ia fr to e tg r t ae nKNN lo i m .Ths y tm sstege i c z o ag rt h is se u e h e— trs aemo e t e rsn e t sstefs o p c d l orp ee tatx。ue h a
tKNN loih oeasf e t n du e h e es xmu mac osg n h ag rt m t lsi atx,a sst erv r ma i m th t e me tt e y e wo d .Th rfr,i i o e h cu ayo dc ln o ma incasfct na dt eef in yo nomainpo e s g.I d t n, rs eeo e tmprv stea c rc f me ia fr t lsiiai h fie c fifr t rc si i o o n c o n na dio i c nt csad tsto dclifr t n icu ig5 2 meI ld c me t .whc sr d ml iie t riigs ticu ig4 3 o sr t aae fme ia omai n ldn 8 dc o u ns u n o i a ih i a o ydvdsi oatann e n ldn 3 n nd c me t d 1 9 d c m e t .Th y t m f d ia n o ma in t x ls ii t n i e t do u a a e d a Fl c r f 4. 3% i o u n sa 4 o u n s n esse o me c l f r t e tca sfc i t se n o rd t s ta o e o 8 i o ao S n s 7 S o t i e .Th e u ts o h e t r ca i c to e f r a c n me i l n o ma in. b an d e r s l h wst eb te ls f in p ro m n e o d c f r t i a a i o
Ke r s: dclifr ain;tx aeo iain;v co p c d l ywo d me i no a m to e tctg rzt o e trs aemo e;KNN lo t ag r h im
0引言 医药信息历史悠久,累积了巨量的信息资源,量大传统的纸质信息转为电子文档形式保存,它容纳了医药海量的各种类别的原始信息。同时,在互联网上,电子文档医药信息每天都在急剧增加。如何在浩如烟海而又纷繁芜杂的医药信息文本中以最快的速度、少最的时间、掌握最有效的信息?据 F r s R s r or t e ac e e h的统
效的信息获取手段。但这种人工分类的做法存在着许多弊端:一是耗费大量的人力、物力
和精力;二是分类结果一致性不高。因此,自动文本分类成为处理海量数据的关键技术 l 。
文本分类在自然语言处理与理解、信息管理与组织、内容信息过滤等领域都有着广泛的应用。在文本自动分类中,著名的文本分类分类方法有支持向量机 (u pr V c r ci,V、 S pot et h eS M)K最近邻 ( o Ma n K— N a— er et e ho, N、经网络 ( erl e ok N、 s N i brK N)神 g N ua N t r, N) w
计资料指出, O 8%以上的数据以非结构化的形式存在_。因此, 1 J对非结构化数据的处理尤其显得重要。 面对海量信息,传统的做法是,对网上的信息进行人工分类,并加以组织和整理,为人们提供一种相对有收稿日期:0 8—0—2 20 7 3
线性最小二乘估计 ( L F、 L S )贝叶斯算法 ( ae) Bys和决策树等 J。在这些方法中, NN是一种简单、 K有效、非参数的方法,当训练样本数增加时,其分类时间将急剧增加,当词库增加,分类精度也会增加。同时, NN方 K法也是一种基于实例的文本特征向量空间模型表示的分类方法l。 _ 4 J
基金项目:广东省医学科研基金资助项目( 2 0{ 8;东约学院 B 088)广}科研基金资助项目(0 7 GY I 20 Y 0 )作者简介:许幸( 94一)男, 18,广东罗定人,助理工程师,研究方向
目前关于文本分类的系统基本上都是通用的文本分类系统,没有专门针对医药信息的文本分类系统。
为医药信息处理;张启蕊,博士,讲师,研究方向为信息处理、文本分类。
第 4期
许
幸等:于 KN算法的医药信息文本分类系统的研究基 N
.2 7 . 0
文中研究的基于 K N算法的医药信息文本分类系 N统,针对医药信息文本自动分类而设计的系统,以是可
2医药自动文本分类系统文中设i ̄医药信息文本分类系统的训练和分类 -* t0 -模型如图 1示。该模型包括两个模块:练模块和所训
有效提高医药信息分类的准确性,大提高信息处理大效率,为医药信息搜索引擎提供基础。
分类模块。训练模块由预处理、文本表示、特征降维、 分类器和性能评价五个部分组成,分类模块由预处理、 文
本表示和分类器三个部分组成。
1 l N算法 KN K—N ae e h o)法 N( ers N i b r算 t g
是机器学习领域的经典算法,其基本思想相当直观:把未知类别实例与训练集中的每个实例进行比较,出最找邻近的 k个实例,通过选中的 k个实
: r……………………一练块………… - 模…调 ; I
例的类别来判断未知类别实例的类别[l 5。
一一 T
I I I
K N算法已在文本分类中得到 N了成功的应用,给定的未知类别的对文本,考虑在训练集中与该未知文本距离最近的 k篇文本,根据这 k篇文本所属的类别判定新文本所属的类别。 类别判断方法如下: 对找到的 k篇文本,为每个类别打分,然后排序,
果:I l
I:
, _分模 J块 x类图 1文本分类过程图
L一_一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一-一一一一 一一一
下面对该系统中关键模块采用的技术进行介绍。2 1技术路线 .
中文文本分类领域,处理主要完成标点符号的预
只有分值超过指定阈值的类别才判定为文本 d的类别。
去除、的切分、用词的删除等功能。中文分词是自词停 然语言处理领域的一个研究热点和难题,常用的几种机械分词方法有正向最大匹配分词方法、向最大匹逆
K N算法在文本分类中的具体实现步骤如下: N①根据特征项集合重新描述训练文本向量; ②把待分类文本导人后,据特征词分词该文根本,确定待分类文本的向量表示; ③在训练文本集中选出与待分类文本最相近 (相似)的 K个文本,计算公式为:厂■——————一
配分词方法、最少切分方法。一般说来,向匹配的切逆分精度略高于正向匹配,到的歧义现象也比较少。遇 有研究显示,向最大匹配的错误率为 11 9左右,正/6逆向最大匹配的错误率为 12 5右-。因此逆向最大/4左 6 J匹配分词方法可以达到较好的分词效果。因此,中文设计的医药信息分类系统采用了逆向最大匹配法对医
d加=2/ w ( a )^∑ b一 q。 a b
() 1
药信息文本进行分词。医药信息文本分类的预处理主要包括分词和停用词处理两部分
内容。分词是利用特定词典 (通用集和医药信息专用集结合 )行分词,进停用词处理则是利用禁用词集去除文档中的语义虚泛的禁用词,如:例 “,地”“等。的”“,得” 为了配合本系统的逆向最大匹配分词方法,建在
其中,是待分类文本 P和训练样本 q d距离;是属性 总数,是待分类文本 P中的第 h个属性;是第 h a 个属性的权重。
④在待分类文本的 K个最相近 (相似 )的训练文
本中,依次计算每类的权重,计算公式为:三
px )=∑ s a, P(pc) (, i m( )a日, qP= J
() 2
立医药信息分词字典时,用长词优先的法则进行建采
其中, s (p ) C个最近邻中∑ i a,是5 e r 的k的样本a和 p 立。即在收集医药信息词里,把词语的长度也计尽量z之间的相似度。 ( p c)= 1 p a,。,是类别的样本; P ( p f)=0 p是类别 C的样本。。“,。,不。 ⑤根据公式 ( ) 1计算待分类文本 X和每个训练样本的距离,选择与待分类样本距离最小的 K个样本作
算在内,:风湿性关节炎”如“收集为一个词,同时“风湿”“与关节炎”收集在字典里。在建立字典时,医也把
药信息的词语与通用的词语相结合,这对医药信息文献的文本训练与分类提供更多的特征词的提取。查阅大量的医药类的书籍,经过分析,建立字典如下:吖啶、
为X的K个最近邻。根据公式 ( ) 2计算待分类文本与 x 的 K个最近邻样本的权重。把各类的权重进行比较, 把文本分类到权重最大的那个样本所属的类别中。
吖啶橙、吖啶黄、吖啶黄素、阿克拉霉素、阿霉素、米阿巴、阿米巴病、阿米巴痢疾、阿米卡星、阿米替林、阿米
28 0
汁算机技术与发展
第 1 9卷
妥、阿奇霉素、阿奇霉素分散片、阿奇霉素片、司咪阿唑、司匹林等。阿
2 4系统实现 .
文中没计的医药信息文本分类系统考虑了系统的
另外,文本表示方法采用向量空问模型,特征选择方法使用方法,分类算法采用 K NN算法。2 2数据集 .
可扩展性、用户的习惯以及系统的保密性等问题,包含了添加类别、用户管理等模块,系统功能模块图如图 2 所
示。下面对主要模块分别进行介绍。医药文本分类系统
根据国家的药品分类管理办法,品的分类体系药包括如:处方药与非处方药 J 7 。根据资料整理,现在得出以下分类:中药(神药、安补虚药、活血化瘀药、气理药、清热药等)西药 (、维生素、抗病毒药、减肥药、毒解药、抗疟药、喘药、平抗真菌药等 )保健品(、美容祛斑、 营养强化、抗疲劳、调节血脂等 )医疗器械 (、护理设备、 能量治疗器械、医用敷料、植入器械等 )仪器设备 (、包系统操作
用户管理
装设备、分析和检测仪器、粉碎机械、片机械等 )饮等15 2类。文中根据实际情况,构建的数据集包括理气药、清热药、抗肿瘤药、化痰止咳平喘药和影响血液及造血系统的药物共五个类别,训练样本与测试样本的数量分布如表 1所示。训练集和测试集彼此之间不重叠,不包括任何重复的文本。 表 1数据集的各类别文本分布主题类理气清热抗肿化痰止咳影响血液及造药药瘤药平喘药血系统的药物 5 5 2 0 9 2 2 5 4 5 3 5
①添加词典:把建立的词典加载记录在一个临时②清除词典:把记录词典临时哈希表里的信息清
①添加类别:加训练样本的类别,增并记录在类②清空特征:空该类别的特征表示,清把该类别
训练样本集 7 1 9 15 2 0 0 测试文本集 2 4
为了测试特征集规模对分类效果的影响,在选择
理气药的特征词时总量与其它类别相对较少,而其他类别的特征词总量大体相当。然后对此语料库进行训
练,最后使用测试集文本进行测试并进一步分析实验结果。 2 3性能评价 .
①加载样本:载属于同一类的训练样本,加并在
系统评价采用经典的指标查准率、全率、 查 F值进行评价,各指标定义如下: 准确率是某类别中所有判为该类的文本中分类正
每一个训练样本进行提取特征表示,并存储在该类别③继续学习:当该类别的训练样本增加时,不必重新训练,只需要把再学习的 C ek o勾上, hcb x然后把
确的文本所占的比率,其计算公式为:
准率确=
髅
㈥() 4
召回率是某类别中所有应分为该类的文本中分类正确的文本所占的比率,其计算公式为:
召回率=这
垂奎该类所有参与分类文本数
准确率与召回率反映了分类质量的两个不同方面,二者必须综合考虑,不可偏废,因此,现在在分类系统中,存在一种综合评估指标,即为 F测试值, 其计算公式为:
②文本分类:每一个待分类文本先进行预处把表,通过公式( ) 1计算每~个待分类文本与训练样本的
距离,然后再通过公式 ( ) 2计算权重,把待分类文本分
F值器 1=分类系统的性能。
㈤①系统管理:系统管理员对系统进行管理,包括
最后通过准确性、回率、召宏平均 F值来衡量该
第 4期
许
幸等:于 KNN算法的医药信息文本分类系统的研究基
2 9 0
②权限设置:系统的权限为二级管理权限,本系
密切,以训练语料要反映一定的广度。在本系统进所行设计的时候,度认为每一类的训练库集大,取的一提
统管理员级别最高,可以进行任何操作,系统操作员只
能对自己的信息进行维护并拥有对分类器进行操作的权限。
特征词越多越好,但经过测试后发现这种认识是有错误的。抽取的特征词太多,会不利于文本的自动分也
③修改密码:管理员与操作员都可以对自己的密码进行修改。
类。因为有些特征词对于相对权重小的文本的分类会有干扰的作用。所以语料库的大小,要经过大量的需测试才可以确定。
3实验结果与分析3 1实验结果 .
4结束语构建了一个实验用医药语料库,结合医药信息并的特点利用 K NN算法实现了医药信息文本分类系统。实验结果显示,构建的数据集上该系统可以获在得 7 .3 4 8%的 F值。因此, 1该系统较好地实现了医药信息的自动分类,有效提高了医药信息分类的处理效
使用文中构建的训练集对设计的系统进行训练, 使用构建的测试集对医药信息分类系统进行测试,测试结果如表 2所示,果图如图 3结所示,图中 L为理气药,为清热药,为抗肿瘤药,为化痰止咳平喘药, Q K H
Y为影响血液及造血系统的药物, F为宏平均值。表 2医药信息分类系统的分类结果 类别理气药清热药抗肿化痰止咳影响血液及造宏平瘤药平喘药血系统的药物均值
准确率 7 . t 3 9% 7% 7 .7% 6 1% 4 64 3.6召回率 7 3 7 .3% 4 2 0 8% 3 3 7 9% 6% 0 7 .3% 08 6% 8 6 .9% 93 7 7 l6% 6 9 9 2% 7 6 04‘
率。但是,这还仅仅在于对医药信息自动分类的初步成功尝试,在接下来的工作中,将重点在构建更为丰富
的医药数据集以及相应的分类算法方面进行深人的研究。
F1值 7 2% 3 6 43 7 6% 4 8 7 .7% 6 .4 1 5%
参考文献:[]唐 1菁,记全,炳儒 .于沈杨基we b的文本挖掘系统的研究与实现[]计算机科学, 0 3 3 J, 20,0()6 1:0—6 3
[]张启蕊, 2张
凌,守斌, .基董等
于免疫算法的文本分类研究[] J .微计算机信息,20, 3 0 7 2()20 2 2 8:1— 1 . [] Sb s a i .Mah el ri 3 e a i tn F ci an g i n e n na tmae e tctg r ain J . uo td tx aeoi t[] z oACM C ompuig t Suv y。2 02, n re s 0
图 3医药信息分类系统的分类结果图 3.结果分析 2[]王 4煜,自
3 ( )1—4 . 41: 7
石,正欧 .于 We文本分类的快速 K N王用 b N
实验过程与结果显示,该系统的分类处理速度比
算法[]情报学报,0 72 ()6—6 . J. 20,6 1:0 4
较慢,反应了算法上还有待改进与优化,词典集的词量不够丰富,需要不断增加,分词的方法还存在着两个缺
[]印 5[]杨 6
鉴,焕云.于 )谭基 (计量的 K 2统 NN文本分类算法超.分词技术研究报告[/ L .08一O .学资源 R O]20 3教
[]小型微型计算机系统, 0,8 6:0 4 07 J. 2 72 ( )19—19 . 0
点:一是限制了词的长度,二是每次分词都有若干次无效循环 (要一直循环到最大长度为止)。并且该系统对于类别差异性较大的类别具有较高的分类性能,而对
网,算机网络专栏,t:/ w t k .o L n e/计 ht/w w.i o cm/ uw n p g n80 6 83. t . h m1
[]
国家食品药品监督管理局 .处方药与非处方药分类管理 7办法[/ L . 9 9—0 S 0] 19 6— 1 . t:/ w sa gv c/ 1 ht/w w.d. o .n pW )/ 2 8/ 4 24. m1】 (I 8 2 5 ht .
于类别差异不大的类别的识别能力还有待提高。这说明文本的特征表示是影响分类系统性能的主要原因。在实验中,发现特征词的选择与语料库情况关系
中国计算机学会会干、国科技核心期刊 U中
《算机技术与发展》计欢迎订阅,邮发代号:2 17 5 2