- 专利标题: 一种用于专利文件处理的预训练模型的构建方法及系统
-
申请号: CN202211640990.6申请日: 2022-12-20
-
公开(公告)号: CN116187163B公开(公告)日: 2024-02-20
- 发明人: 裴非 , 徐青伟 , 严长春 , 范娥媚 , 蔡明睿
- 申请人: 北京知呱呱科技有限公司 , 知呱呱(天津)大数据技术有限公司
- 申请人地址: 北京市海淀区长春桥路11号3号、4号楼裙房四层401-1号
- 专利权人: 北京知呱呱科技有限公司,知呱呱(天津)大数据技术有限公司
- 当前专利权人: 北京星河智源科技有限公司,知呱呱(天津)大数据技术有限公司
- 当前专利权人地址: 100089 北京市海淀区长春桥路11号3号、4号楼裙房四层401-1号
- 代理机构: 北京华清迪源知识产权代理有限公司
- 代理商 郑兴旺
- 主分类号: G06F30/27
- IPC分类号: G06F30/27 ; G06F40/279 ; G06F119/02
摘要:
本发明公开了一种用于专利文件处理的预训练模型的构建方法,其特征在于,包括模型构建、数据预处理、训练语料生成、辅助训练任务、下游微调任务、模型保存输出的步骤。技术方案通过对文档内部的标题、摘要、权利要求、说明书等各组成部分语义结构关系编码,融合文本字符、位置信息、结构关系生成模型输入,结合掩码语言模型MLM、下一句NSP训练策略和专利领域特定的字词、句子级别的辅助训练任务,通过专利领域的IPC分类、标题预测、摘要预测等任务进行微调,构建专利领域的预训练模型,提升了专利领域中文本检索、理解、解析等任务的整体准确率。
公开/授权文献
- CN116187163A 一种用于专利文件处理的预训练模型的构建方法及系统 公开/授权日:2023-05-30