一种用于专利文件处理的预训练模型的构建方法及系统
摘要:
本发明公开了一种用于专利文件处理的预训练模型的构建方法,其特征在于,包括模型构建、数据预处理、训练语料生成、辅助训练任务、下游微调任务、模型保存输出的步骤。技术方案通过对文档内部的标题、摘要、权利要求、说明书等各组成部分语义结构关系编码,融合文本字符、位置信息、结构关系生成模型输入,结合掩码语言模型MLM、下一句NSP训练策略和专利领域特定的字词、句子级别的辅助训练任务,通过专利领域的IPC分类、标题预测、摘要预测等任务进行微调,构建专利领域的预训练模型,提升了专利领域中文本检索、理解、解析等任务的整体准确率。
0/0