-
公开(公告)号:CN101377770B
公开(公告)日:2017-03-01
申请号:CN200710148214.3
申请日:2007-08-27
Applicant: 微软技术许可有限责任公司
IPC: G06F17/27
Abstract: 本发明提供一种中文组块分析的方法,能在相对较小的训练数据的基础上得到较精确的中文组块分析的结果,该中文组块分析方法利用了词的形态特征以及词的基于概率分布的相似性特征来作为标记模型的辅助的信息特征,以提高组块分析的准确度。该中文组块分析的技术能在训练数据量较小时有效提高组块分析的准确度,使得中文组块分析的应用能力得到很大的提高。