发明授权
- 专利标题: 一种中文关系抽取方法
-
申请号: CN201910626307.5申请日: 2019-07-11
-
公开(公告)号: CN110334354B公开(公告)日: 2022-12-09
- 发明人: 丁宁 , 李自然 , 郑海涛 , 刘知远 , 沈颖
- 申请人: 清华大学深圳研究生院
- 申请人地址: 广东省深圳市南山区西丽大学城清华校区
- 专利权人: 清华大学深圳研究生院
- 当前专利权人: 清华大学深圳研究生院
- 当前专利权人地址: 广东省深圳市南山区西丽大学城清华校区
- 代理机构: 深圳新创友知识产权代理有限公司
- 代理商 孟学英
- 主分类号: G06F40/247
- IPC分类号: G06F40/247 ; G06F40/295 ; G06F40/211 ; G06K9/62 ; G06N3/04 ; G06N3/08
摘要:
本发明提供一种中文关系抽取方法,包括如下步骤:S1:数据预处理:对输入数据的文本进行多粒度信息的预训练处理,以提取出所述文本中的字、词和词义三个级别的分布式向量;S2:特征编码:以双向长短时记忆网络为基本架构,通过所述字、词和词义三个级别的分布式向量得到字的隐藏状态向量、词的隐藏状态向量,进而得到字级别的最终隐状态向量;S3:关系分类:学习所述字级别的最终隐状态向量,采用所述字级别的注意力机制将所述字级别的隐状态向量融合成一个句子级别的隐状态向量。有效地解决分词歧义和多义词歧义的问题,大大提升了模型在关系抽取任务上的表现,提高中文关系抽取的准确率和鲁棒性。
公开/授权文献
- CN110334354A 一种中文关系抽取方法 公开/授权日:2019-10-15