- 专利标题: 一种基于中文语素和拼音联合统计的词向量表示方法
- 专利标题(英): A word vector representation method based on Chinese language element and pinyin joint statistics
-
申请号: CN201811465623.0申请日: 2018-12-03
-
公开(公告)号: CN109815476A公开(公告)日: 2019-05-28
- 发明人: 潘坚跃 , 刘祝平 , 潘艺旻 , 王译田 , 陈文康 , 王汝英 , 李欣荣 , 赵光俊 , 周航帆 , 魏伟 , 刘畅 , 李艳
- 申请人: 国网浙江省电力有限公司杭州供电公司 , 天津市普迅电力信息技术有限公司 , 国网信息通信产业集团有限公司
- 申请人地址: 浙江省杭州市上城区建国中路219号
- 专利权人: 国网浙江省电力有限公司杭州供电公司,天津市普迅电力信息技术有限公司,国网信息通信产业集团有限公司
- 当前专利权人: 国网浙江省电力有限公司杭州供电公司,天津市普迅电力信息技术有限公司,国网信息通信产业集团有限公司
- 当前专利权人地址: 浙江省杭州市上城区建国中路219号
- 代理机构: 天津盛理知识产权代理有限公司
- 代理商 董一宁
- 主分类号: G06F17/27
- IPC分类号: G06F17/27 ; G06N3/04 ; G06N3/08
摘要:
一种基于中文语素和拼音联合统计的词向量表示方法,包括如下步骤:①采集互联网文本信息构建语料库,对构建的语料库进行正文清洗和分词处理;②对中文语料进行分词处理后转为不保留声调信息的拼音信息,然后分别对语素和拼音特征在训练集语料和全文档中统计词频和逆文档概率作统计权重TFc、IDFc、TFp和IDFp;③基于上下文语素和拼音联合统计的中文词表示模型,构造中文单个语素表示向量;④在步骤③的基础上训练一个三层神经网络以用于中心目标词的预测。该方法可满足离线词典和语料数据规模的适应性、可直接学习大规模无标注的互联网信息文本数据、可提高常规的词嵌入模型对于中文语言差异特性的兼顾性、可提高对错别字词语的表示和识别准确性。
公开/授权文献
- CN109815476B 一种基于中文语素和拼音联合统计的词向量表示方法 公开/授权日:2023-03-24