概述
An Empirical Comparison of Goodness Measures for Unsupervised Chinese Word Segmentation with a Unified Framework
Hai Zhao Chunyu Kit
City University of Hong Kong
2008年
这篇文章是最之前无监督分词方法的一个比较
主要比较4个指标
Frequency of substring with Reduction (2004年提出)两个重叠的字符串,ABCD,ABC,如果频率相同,则ABC(短的)被认为是redundant word candidate,字串频次必须>1;
Description Length Gain(DLG)没看原文,公式是DLG(x i-j)=L(X) - L(X[ r -> xi-j]+“xi-j”),字面上的理解是:L(x)是x的熵*x的长度;r -> xi-j是把所有的 xi-j用r这个符号替换;+xi-j在全文结尾再加上xi-j这个字符串
Accessor Variety (AV)边界多样性,取一个字符串,左右边界多样性的最小值。单边边界多样性的计算:例如字符串xi-j,其左侧xi-1的type个数,则是左边界多样性,如果type包含句首(换行),每个句首是一个type;同理,右边界。
Boundary Entropy(Branching Entropy,BE)边界熵,h(xi-j)=-取和(p(x|xi-j)logp(x|xi-j))。即传说中的左熵右熵。
测试语料是Sighan2005,四个语料都做了测试,效果最好的是DLG+AV
2007年的时候,也发表了一篇文章,工作基本相同,没有2008年这篇全面。
名字是:Incorporating Global Information into Supervised Learning for Chinese Word Segmentation
本文列举AV、branch entropy两种非监督分词方法,将其加入到CRF中,看结果。
两种方法的核心都是1970年提出的:if the uncertainty of successive tokens increases,then the location is at a border.即当连续字符的不确定性增加,这个位置有可能是个边界。
本文使用非监督学习方法:1 COS,不同句子中出现的最长相同子串,子串长度在2-7之间,2 AVS,AV(s)=min{Lav(S),Rav(S)})
监督学习方法是:CRF,特征为6特征,3窗口,与我不一样的地方在于T:数字、日期、英文、标点、其它。并且是T-1T0T1
从实验结果看,AVS会起到一定的作用,COS作用不大。但是相对于baseline的提高,也仅限于与0.001-5例如从0.945-0.949或0.961-0.963
最后
以上就是会撒娇海燕为你收集整理的笔记-2008-An Empirical Comparison of Goodness Measures for Unsupervised CWS with a ~的全部内容,希望文章能够帮你解决笔记-2008-An Empirical Comparison of Goodness Measures for Unsupervised CWS with a ~所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复