发明授权
- 专利标题: 文字中提取多元组的方法和装置
-
申请号: CN201710280347.X申请日: 2017-04-25
-
公开(公告)号: CN108733636B公开(公告)日: 2021-07-13
- 发明人: 林得苗
- 申请人: 北京庖丁科技有限公司
- 申请人地址: 北京市海淀区厢黄旗2号楼2层X06-205室
- 专利权人: 北京庖丁科技有限公司
- 当前专利权人: 北京庖丁科技有限公司
- 当前专利权人地址: 北京市海淀区厢黄旗2号楼2层X06-205室
- 代理机构: 北京东方亿思知识产权代理有限责任公司
- 代理商 段月欣
- 主分类号: G06N3/08
- IPC分类号: G06N3/08 ; G06K9/62 ; G06F40/10 ; G06F40/30
摘要:
本发明提供了一种文字中提取多元组的方法和装置,涉及文本处理领域。该文字中提取多元组的方法,包括:将带有合法标识和非法标识的训练数据输入循环神经网络,得到网络参数;识别待测文本中的多元实体,并对待测文本中除多元实体外的其他部分进行分词;按照在待测文本中的排列顺序,将多元实体的词向量和分词后得到的词语的词向量一一对应输入多个子网络中,结合网络参数,得到各子网络输出的隐向量,前一子网络输出的隐向量为后一子网络的输入;将组成多元组的多元实体对应的隐向量进行整合计算,得到判断向量;利用网络参数,对判断向量进行分类,得到分类结果;提取分类结果为合法的多元组,作为合法多元组。能够提高提取多元组的正确率。
公开/授权文献
- CN108733636A 文字中提取多元组的方法和装置 公开/授权日:2018-11-02