吉首大学学报(自然科学版)

• 计算机 • 上一篇    下一篇

基于MEM和HMM的中文词性标注方法

周潭,莫礼平,胡美琪,李航程   

  1. (吉首大学信息科学与工程学院,湖南 吉首 416000)
  • 出版日期:2020-03-25 发布日期:2020-09-08
  • 通讯作者: 莫礼平(1972—),女,湖南益阳人,吉首大学信息科学与工程学院高级实验师,主要从事自然语言处理、Petri网理论及其应用研究.
  • 基金资助:

    国家自然科学基金资助项目(61462029);湖南省自然科学基金资助项目(2019JJ40234);吉首大学本科生科研项目(JDX1809);湖南省大学生研究性学习和创新性实验计划项目(湘教通〔2018〕255号);吉首大学生研究性学习和创新性实验计划项目(JDCX2018012)

Chinese Part-of-Speech Tagging Method Based on Maximum Entropy Model and Hidden Markov Model

ZHOU Tan, MO Liping, HU Meiqi, LI Hangcheng   

  1. (College of Information Science & Engineering, Jishou University, Jishou 416000, Hunan China)
  • Online:2020-03-25 Published:2020-09-08

摘要:

为了进一步提高中文语料库中语料的词性标注效率,在分析最大熵模型(MEM)和隐马尔科夫模型(HMM)所涉及理论、算法及其在中文词性标注技术中的应用的基础上,进行了基于MEM和HMM的中文词性标注实验.实验结果显示,基于MEM和HMM的中文词性标注算法都获得了一致性很好且覆盖率较高的标注效果,中文词性标注的准确率、召回率和F1这3个指标均达到92%以上;MEM的标注效果总体上比HMM的稍佳.

关键词: 最大熵模型, 隐马尔科夫模型, 中文词性标注

Abstract:

In order to further improve the efficiency of part-of-speech tagging in Chinese corpora, experiments of Chinese part-of-speech tagging methods based on the maximum entropy model (MEM) and the hidden Markov model (HMM) are designed according to the theoretical basis, algorithms, and application technology. The experimental results  show that the Chinese part-of-speech tagging algorithms based on MEM and HMM have obtained a very consistent and high-coverage tagging result and the three indicators of tagging accuracy, recall rate and F1 value have reached above 92%, with the effect of MEM  better than that of HMM.

Key words: maximum entropy model, hidden Markov model, Chinese part-of-speech tagging

公众号 电子书橱 超星期刊 手机浏览 在线QQ