journal6 ›› 2008, Vol. 29 ›› Issue (2): 39-41.

• 计算机 • 上一篇    下一篇

文本聚类中的特征选择方法

  

  1. (湖南环境生物职业技术学院信息技术系,湖南 衡阳 421005)
  • 出版日期:2008-03-25 发布日期:2012-05-25
  • 作者简介:龚静(1972-),女,湖南岳阳人,湖南环境生物职业技术学院信息技术系副教授,硕士,主要从事自然语言处理研究.
  • 基金资助:

    湖南省教育厅科学研究项目(07D036)

Way of Feature Selection Based on Text Clustering

  1. (Department of Information Technology,Hunan Environment-Biological Polytechnic,Hengyang 421005,Hunan China)
  • Online:2008-03-25 Published:2012-05-25

摘要:介绍了3种用于文本聚类的特征选择方法:文档频度、单词权、单词熵.用一个中文文本语料库对这3种特征选择方法进行了比较实验,实验结果表明在文本聚类中单词权的特征选择方法具有最好的选择结果.

关键词: 特征选择, 文本聚类, 中文文本

Abstract: Three feature selection ways are presented for texts clustering:document frequency,term strength,entropy-based feature ranking.A comparative experiment was conducted on the there ways by using a Chinese corpus.Results show that feature selection way of TS is the best choice for the results in text clustering.

Key words: feature selection, text clustering, Chinese text

公众号 电子书橱 超星期刊 手机浏览 在线QQ