发明授权
- 专利标题: 用于分词的方法和装置
-
申请号: CN201811076566.7申请日: 2018-09-14
-
公开(公告)号: CN109190124B公开(公告)日: 2019-11-26
- 发明人: 邓江东
- 申请人: 北京字节跳动网络技术有限公司
- 申请人地址: 北京市石景山区实兴大街30号院3号楼2层B-0035房间
- 专利权人: 北京字节跳动网络技术有限公司
- 当前专利权人: 抖音视界有限公司
- 当前专利权人地址: 100041 北京市石景山区实兴大街30号院3号楼2层B-0035房间
- 代理机构: 北京英赛嘉华知识产权代理有限责任公司
- 代理商 王达佐; 马晓亚
- 主分类号: G06F17/27
- IPC分类号: G06F17/27
摘要:
本申请实施例公开了用于分词的方法和装置。该方法的一具体实施方式包括:获取预设词汇集合和待分词文本,其中,预设词汇集合为基于预设文本集合预先生成的词汇集合,预设词汇集合中的词汇包括第一信息和第二信息;基于预设词汇集合,对待分词文本进行分词,获得至少一个词汇序列;对于至少一个词汇序列中的词汇序列,确定该词汇序列中的词汇的第一信息和第二信息,以及基于所确定的第一信息和第二信息,确定该词汇序列的概率,其中,对于词汇序列中的词汇,该词汇的第二信息为基于与该词汇相邻的词汇确定出的第二信息;从至少一个词汇序列中选取概率最大的词汇序列作为分词结果。该实施方式提高了分词的准确性。
公开/授权文献
- CN109190124A 用于分词的方法和装置 公开/授权日:2019-01-11