-
公开(公告)号:CN115858813B
公开(公告)日:2025-05-16
申请号:CN202211628660.5
申请日:2022-12-20
Applicant: 北京信息科技大学 , 北京市工程咨询股份有限公司
IPC: G06F16/36 , G06F18/22 , G06F18/214 , G06F16/35 , G06F16/3329 , G06F40/30
Abstract: 本发明涉及面向工程咨询报告的文本检索方法,以改善工程咨询报告撰写过程中人力成本大、编撰周期过长等问题,包括以下步骤:构建面向工程咨询报告的文本检索语料集,使用语料集微调simCSE对比学习模型,将得到的模型参数初始化Vanilla BERT模型,将语料的文本信息送入Vanilla BERT模型得到语义匹配分数。将文本信息和关键词信息通过SAT模型得到词级粒度的义原词向量表示并送入DRMM深度文本交互模型,得到关联匹配分数。将得到的语义匹配分数和关联匹配分数归一化后加权融合,得到最终的匹配分数,完成标题与段落之间的文本检索。本发明联合上下文向量表示和文本交互匹配方法,有效增强了文本检索的效果。
-
公开(公告)号:CN115858813A
公开(公告)日:2023-03-28
申请号:CN202211628660.5
申请日:2022-12-20
Applicant: 北京信息科技大学 , 北京市工程咨询有限公司
IPC: G06F16/36 , G06F18/22 , G06F18/214 , G06F16/35 , G06F16/332 , G06F40/30
Abstract: 本发明涉及面向工程咨询报告的文本检索方法,以改善工程咨询报告撰写过程中人力成本大、编撰周期过长等问题,包括以下步骤:构建面向工程咨询报告的文本检索语料集,使用语料集微调simCSE对比学习模型,将得到的模型参数初始化Vanilla BERT模型,将语料的文本信息送入Vanilla BERT模型得到语义匹配分数。将文本信息和关键词信息通过SAT模型得到词级粒度的义原词向量表示并送入DRMM深度文本交互模型,得到关联匹配分数。将得到的语义匹配分数和关联匹配分数归一化后加权融合,得到最终的匹配分数,完成标题与段落之间的文本检索。本发明联合上下文向量表示和文本交互匹配方法,有效增强了文本检索的效果。
-
公开(公告)号:CN115329046A
公开(公告)日:2022-11-11
申请号:CN202211001959.8
申请日:2022-08-21
Applicant: 北京信息科技大学 , 北京市工程咨询有限公司
Abstract: 本发明涉及自然语言处理领域的文本检索技术,提升了现有方法在语义匹配上的不足,包括以下步骤:围绕在工程咨询报告范围获取实验所需数据,每个标题标注60段文本数据;将数据以[CLS]标题[SEP]段落[SEP]的形式传入BERT模型,得到标题和段落的向量表示;基于向量分别构建图拓扑结构,并利用图卷积神经网络GCN获取全局结构特征;针对具有上下文信息和全局特征的向量表示,利用排序模型得到第一个得分;将段落对应关键词利用Word2Vec得到向量表示,基于余弦相似度得到第二个得分,对两个得分加权平均得到最终匹配结果;训练模型并更新参数,在测试集上提取文本特征并进行检索。本发明能够提升文本检索的准确性。
-
-