一种用于专利文件处理的预训练模型的构建方法及系统

发明授权

CN116187163B 一种用于专利文件处理的预训练模型的构建方法及系统有权转让

请登陆查看更多内容

专利标题： 一种用于专利文件处理的预训练模型的构建方法及系统
申请号： CN202211640990.6

申请日： 2022-12-20
公开(公告)号： CN116187163B

公开(公告)日： 2024-02-20
发明人: 裴非 , 徐青伟 , 严长春 , 范娥媚 , 蔡明睿
申请人： 北京知呱呱科技有限公司 , 知呱呱(天津)大数据技术有限公司
申请人地址： 北京市海淀区长春桥路11号3号、4号楼裙房四层401-1号
专利权人： 北京知呱呱科技有限公司,知呱呱(天津)大数据技术有限公司
当前专利权人： 北京星河智源科技有限公司,知呱呱（天津）大数据技术有限公司
当前专利权人地址： 100089 北京市海淀区长春桥路11号3号、4号楼裙房四层401-1号
代理机构： 北京华清迪源知识产权代理有限公司
代理商 郑兴旺
主分类号： G06F30/27
IPC分类号： G06F30/27 ; G06F40/279 ; G06F119/02

摘要：

本发明公开了一种用于专利文件处理的预训练模型的构建方法，其特征在于，包括模型构建、数据预处理、训练语料生成、辅助训练任务、下游微调任务、模型保存输出的步骤。技术方案通过对文档内部的标题、摘要、权利要求、说明书等各组成部分语义结构关系编码，融合文本字符、位置信息、结构关系生成模型输入，结合掩码语言模型MLM、下一句NSP训练策略和专利领域特定的字词、句子级别的辅助训练任务，通过专利领域的IPC分类、标题预测、摘要预测等任务进行微调，构建专利领域的预训练模型，提升了专利领域中文本检索、理解、解析等任务的整体准确率。

公开/授权文献

CN116187163A 一种用于专利文件处理的预训练模型的构建方法及系统公开/授权日：2023-05-30

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06F	电数字数据处理（基于特定计算模型的计算机系统入G06N）
G06F30/00	计算机辅助设计（CAD）
G06F30/20	.设计优化、验证或模拟（电路设计的优化、验证或模拟入G06F30/30）
G06F30/27	..使用机器学习，例如人工智能，神经网络，支持向量机[SVM]或训练模型