基于自编码器融合文档信息的事件触发词抽取方法及系统

    公开(公告)号:CN110135457B

    公开(公告)日:2021-04-06

    申请号:CN201910288771.8

    申请日:2019-04-11

    Abstract: 本发明涉及一种基于自编码器融合文档信息的事件触发词抽取方法,包括:以未标注自由文本语料生成训练集,训练GRU模型以构建该自编码器;对训练语料进行预处理和标签标注,提取待识别词;以该自编码器获取该待识别词在其所在文档内的文档向量,作为该待识别词的全局特征;以该待识别词的词向量和实体类型分布式表达,作为该待识别词的局部特征;将该全局特征和该局部特征进行向量拼接,获得该待识别词的上下文特征;将该上下文特征输入Bi‑GRU模型进行多分类,以识别该待识别词是否为事件触发词及该待识别词的对应事件类型。

    基于自编码器融合文档信息的事件触发词抽取方法及系统

    公开(公告)号:CN110135457A

    公开(公告)日:2019-08-16

    申请号:CN201910288771.8

    申请日:2019-04-11

    Abstract: 本发明涉及一种基于自编码器融合文档信息的事件触发词抽取方法,包括:以未标注自由文本语料生成训练集,训练GRU模型以构建该自编码器;对训练语料进行预处理和标签标注,提取待识别词;以该自编码器获取该待识别词在其所在文档内的文档向量,作为该待识别词的全局特征;以该待识别词的词向量和实体类型分布式表达,作为该待识别词的局部特征;将该全局特征和该局部特征进行向量拼接,获得该待识别词的上下文特征;将该上下文特征输入Bi-GRU模型进行多分类,以识别该待识别词是否为事件触发词及该待识别词的对应事件类型。

Patent Agency Ranking