一种基于多粒度融合与Bert筛选的中文文本自动校对方法

    公开(公告)号:CN113221542A

    公开(公告)日:2021-08-06

    申请号:CN202110348599.8

    申请日:2021-03-31

    Abstract: 本发明涉及一种基于多粒度融合与Bert筛选的中文文本自动校对方法,属于自然语言处理技术领域;本发明通过结合字粒度与词粒度级别的校对模型,以期能够利用不同粒度级别的信息。字粒度模型采用集成规则生成候选集与Bert筛选的方法,词粒度采用传统方法,先构建候选集,然后使用N‑Gram模型计算句子困惑度取最佳候选。另外该方法还解决了多字少字等错误类型问题。实验结果验证了该方法能有效提高检错纠错的召回率,有效提升校对模型性能。对比现有技术,本发明规避了字粒度校对模型和词粒度校对模型带来的局限性,基于多粒度融合与Bert筛选通过两种粒度有效结合不同层次信息,通过N‑Gram LM打分与Bert进行筛选,能够有效提高错误的召回率和校对的准确率。

    基于图卷积网络与关系证据互指导的篇章关系抽取方法

    公开(公告)号:CN115358234A

    公开(公告)日:2022-11-18

    申请号:CN202210828795.X

    申请日:2022-07-14

    Abstract: 本发明公开了基于图卷积网络与关系证据互指导的篇章关系抽取方法,属于计算机自然语言处理技术领域。本发明针对文档级别的文本,构造包含实体提及和实体关系两种节点的文档图,利用图卷积神经网络学习关系表征。同时,利用关系表征指导证据集抽取网络抽取对应的证据集,最后将证据集表征融入关系表征进行关系判别。本发明通过关系抽取和证据集抽取两通道任务的联合训练。关系抽取为证据集抽取提供特定关系信息,证据集抽取为关系抽取提供依据信息,从而提高篇章关系抽取的效果。同时,在文档图中创新性的增加关系节点促进了实体之间的消息传递,有利于模型充分学习语义表征。

Patent Agency Ranking