《机电工程》杂志,月刊( 详细... )
中国标准连续出版物号: ISSN 1001-4551 CN 33-1088/TH
主办单位:浙江省机电集团有限公司
浙江大学
主编:陈 晓
副 主 编:唐任仲、罗向阳(执行主编)
总 经 理:罗向阳
出 版:浙江《机电工程》杂志社有限公司
地 址:杭州市上城区延安路95号浙江省机电集团大楼二楼211、212室
电话Tel:+86-571-87041360、87239525
E-mail:meem_contribute@163.com
国外发行:中国国际图书贸易总公司
订阅:全国各地邮局 国外代号:M3135
国内发行:浙江省报刊发行局
邮发代号:32-68
广告发布登记证:杭上市管广发G-001号
在线杂志 |
当前位置: 机电工程 >>在线杂志 |
TFLD:一种中文文本关键词自动提取方法
作者:管瑞霞1,2,陆 蓓1 日期:2010-11-16/span> 浏览:4386 查看PDF文档
TFLD:一种中文文本关键词自动提取方法
管瑞霞1,2,陆 蓓1
(1.杭州电子科技大学 计算机应用技术研究所,浙江 杭州 310018;
2.浙江育英职业技术学院,浙江 杭州 310013)
摘要:为了提高中文关键词提取的准确率和实用性,提出了一种改进了候选词权重计算的关键词提取算法TFLD(term frequency, location & distance algorithm),利用候选词权重排序自学习,提高了提取关键词算法的效率。该方法采用词语词频统计、分布区域以及词语距离位序3种特征项,并使用最小均平方(LMS)法则训练算法模型的调整因子。实验结果表明,该方法提高了关键词提取的精度。
关键词:关键词提取;中文文本;中文信息处理
中图分类号:TP391
文献标识码:A文章编号:1001-4551(2010)09-0123-04
TFLD: a novel phrase-extraction method for Chinese text
GUAN Rui-xia1,2, LU Bei1
(1. Institute of Computer Application Technology, Hangzhou Dianzi University, Hangzhou 310018, China; 2. Zhejiang Yuying College, Hangzhou 310013, China)
Abstract: Aiming at improving accuracy and practicality of key-phrase extraction for Chinese,a new algorithm was proposed, which named as TFLD(term frequency, location & distance algorithm), the calculation accuracy by obtaining a sorted candidate key word sequence was improved. Based on word frequency features including statistic of term frequency, term location and term distance, the least mean square(LMS) algorithm was trained to calculate the parameters for TFLD algorithm. The experimental results show that the proposed method improves the accuracy of key-phrase extraction in a considerable magnitude.
Key words: key-words extraction; Chinese text; Chinese information processing
友情链接