一种基于语义匹配的文本摘要自动抽取方法

    公开(公告)号:CN115965027A

    公开(公告)日:2023-04-14

    申请号:CN202211724703.X

    申请日:2022-12-30

    Abstract: 一种基于语义匹配的文本摘要自动抽取方法,建立文本摘要抽取模型,抽取文本中的关键语句,利用贪心选择策略,构建候选摘要集,以候选摘要作为抽取单元;其次,对候选摘要集、原始文档和参考摘要文本序列,通过神经主题模型获取文本的主题表征,通过BERT预训练模型获取文本的语言表征;最后,使用语义匹配网络计算候选摘要与原始文档的语义相似度,在输出层中抽取出匹配度最佳的候选摘要。本方法能够利用文本之间的语义关系抽取原始文档中的关键内容,为解决抽取式文本摘要提供了一种可行的途径。

    基于关键信息掩码与拷贝的生成式文本摘要方法

    公开(公告)号:CN115659172A

    公开(公告)日:2023-01-31

    申请号:CN202211178863.9

    申请日:2022-09-26

    Abstract: 本发明提供一种基于关键信息掩码与拷贝的生成式文本摘要方法,通过获得原始文档的以词为单位的原始文本序列,以获取关键信息集合;获得输入文本序列;构建关键信息掩码语言模型,输入文本序列经由关键信息掩码语言模型后,获得掩码矩阵,得到训练集;构建生成式文本摘要模型,包括编码器、解码器和融合关键信息的BIOK拷贝机制,生成文本摘要;通过训练后的生成式文本摘要模型获得输入文档的文本摘要;本发明通过使用基于关键信息的掩码语言模型和BIOK拷贝机制,将使模型获得识别与总结关键信息的能力,能够减少生成文本中的集外词数量,并有效提升文本摘要的生成质量。

Patent Agency Ranking