第9卷第5期2009年10月
鸡西大学学报
JOURNALOFJIXIUNIVERS兀Y
V01.9No.5
Oct.2009
文章编号:1672—6758(2009)05-0151—2
网络环境下文本自动分类方法研究综述
吴
波
摘要:介绍了网络环境下文本自动分类的过程,针对文本信息自动分类的研究方法,分析了当前我国文本信息自动分类研究中存在的问题,提出了其未来发展的趋势。
关键词:文本分类;分类方法;分类;网络环境中图分类号I(;254.0一文本分类的过程
文本分类过程是从人工正确分类的语料库起,经过预处理形成便于计算机处理的结构化特征数据,特征数据与分类算法相结合形成分类器,待分类文本经预处理后形成文档特征向量,输入分类器进行判断得出分类结
果。
文献标识码:A
该算法简单,没有学习过程,但分类时要将所有样本都存人计算机中,每次决策都要将待识别样本与全部训练样本之间的距离进行比较,因此存储和计算量较大,同时k值的确定需要进行一系列实验才能确定。
实验证明,基于KNN模型的方法在分类精确度上与C5.0和标准的K—NN相当。新方法还将这种基于KNN模型的方法成功用于文本分类。另外,针对K—NN方法的第一个缺陷,Nong
Ye
andXiangyang
二常见的文本分类方法1.贝叶斯方法。
贝叶斯方法(NaveBayes,NB)是比较经典的文本分类方法。朴素贝叶斯分类器是以贝叶斯定理为理论基础的一种在已知先验概率与条件概率的情况下得到后验概率的模式分类方法,用这种方法可以确定一个给定样本属于一个特定类的概率。目前基于朴素贝叶斯方法的分类器被认为是一个简单、有效而且在实际应用中很成功的分类器。在文本分类领域,贝叶斯定理可以表述如下:
,
..、
Li将聚类方法和
经典的K—NN方法结合起来,提出了一种新的分类方法,称为CCA—S。CCA—S能够处理大规模数据集,可伸缩性好,并且支持增量式学习。但CCA—S只能处理连续属性,而且只针对类别为两类的分类问题。
5.支持向量机--SVM。
支持向量机(Support
Vector
Machines:SVM)理论,
由Vapnik在1995年提出,用于解决二分类模式识别问题。它基于结构风险最小化原则,在向量空间中找到一个决策面,这个面能“最好”地分割两个分类中的数据点。该算法的原理是在给定的训练集上作一个超平面的线性划分,将分类问题转化为一个寻找空间最优平面的问题,再次转化成一个二次规划问题。原因是如果所有的向量都能够被某个超平面正确划分,并且各类向量与超平面的最小距离最大化,则该平面为最优超平面,距离平面最近的异类向量为支持向量,一组支持向量可以唯一确定一个超平面。
三
文本自动分类方法研究的新进展1.多分类器融合(fusion)的方法。
实际应用的复杂性和数据的多样性往往使得单一的分类方法不够有效。因此学者们对多种分类方法的融合(fusion)进行了广泛的研究,取得了一系列研究成果。纵观文献中的研究,可以大致将多分类器的融合技术分为以下几类:投票机制(voting)、行为知识空间方法(Behav.
ior—KnowledgeSpace
pLci/diJ
2——i百丁一
r、ui,
p(Ci)P(dl/ci)
上述公式表示在给定文档d;的条件下,d;属于类别c;的概率(称为后验概率)。所以对文档d;分类的问题就转化为计算p(ejd;)的值,使P(cj/d;)取得最大值的那个类别d;就是所属的类别。
2.决策树方法——Decisi∞Tree。
决策树方法是从训练集中自动归纳出分类树。在应用于文本分类时,决策树算法基于一种信息增益标准来选择具有信息的词,然后根据文本中出现的词的组合判断类别归属。
3.相似度计算方法——R0cchio。
Rocchio是情报检索领域最经典的算法。在算法中,首先为每一个类c建立一个原型向量(即训练集中C类的所有样本的平均向量),然后通过计算文档向量D与每一个原型向量的距离来给D分类。可以通过点积或者Jaccard近似来计算这个距离。这种方法学习速度非常快。
BKS)、证据理论(Dempster—Sharer
programming
theory)、贝叶斯方法和遗传编程(genetic
4.K一近邻方法——K—NN。
K—NN方法是一种基于实例的文本分类方法,由Cover和Hart于1968年提出,是传统的文本分类算法中效果最好的算法之一。KNN用来计算文本间的相似度,找出训练集中与测试文本最相近的k个文本,取k个文档中某一类别相似度之和最大的类别,作为新文本类别。
GP)。采用投票机制的方法主要有装袋(bagging)和推进(boosting)。近两年来,PeterBuhlmann和BinYu提出了boosting的一个新变种L2Boost,L2Boost计算简单,且性能可与其他基于boosting的方法相媲美。另外还有采用BKS进行分类器融合以及用证据理论将四个不同的分类方法(sVM。KNN。KNN
Model—based
approach和Roc.
作者筒介:吴波,馆员,连云港职业技术学院图书馆,江苏 连云港。邮政编码:222000
15l