-
公开(公告)号:CN118069789B
公开(公告)日:2024-07-23
申请号:CN202410464773.9
申请日:2024-04-18
Applicant: 北京北大软件工程股份有限公司
Abstract: 本发明公开一种面向立法意见的关键信息抽取方法、系统及设备,涉及自然语言处理技术领域。该方法包括对证据信息的输入文本和所有待分类关系类别标签进行预处理,得到预处理后的文本;所述预处理包括:文档分割和预训练语言模型的处理;根据预处理后的文本,采用因果驱动的证据语义模型和因果驱动的标签语义模型,基于连续优化的NoTEARS因果发现算法以及L层R‑GCN图神经网络,确定去噪后证据信息和语义增强后的标签信息;根据去噪后证据信息和语义增强后的标签信息进行双向语义匹配,并将双向语义匹配的匹配分数进行聚合,得到综合打分;根据综合打分进行实体关系抽取。本发明能够充分利用外部知识,解决数据标签分布不均衡问题。
-
公开(公告)号:CN114550194B
公开(公告)日:2022-08-19
申请号:CN202210441221.7
申请日:2022-04-26
Applicant: 北京北大软件工程股份有限公司
Abstract: 本申请实施例提供一种识别信访件的方法和装置,该方法包括:获取待识别信访件;对待识别信访件进行格式转换,得到待识别信访件的图像;对待识别信访件的图像中的指定内容进行识别,得到识别结果;其中,指定内容包括红头标题、文号、日期、公章和手写签名中的至少一个内容。借助于上述技术方案,本申请实施例能够减轻信访工作人员工作量与压力,提升信访件处理效率。
-
公开(公告)号:CN118069789A
公开(公告)日:2024-05-24
申请号:CN202410464773.9
申请日:2024-04-18
Applicant: 北京北大软件工程股份有限公司
Abstract: 本发明公开一种面向立法意见的关键信息抽取方法、系统及设备,涉及自然语言处理技术领域。该方法包括对证据信息的输入文本和所有待分类关系类别标签进行预处理,得到预处理后的文本;所述预处理包括:文档分割和预训练语言模型的处理;根据预处理后的文本,采用因果驱动的证据语义模型和因果驱动的标签语义模型,基于连续优化的NoTEARS因果发现算法以及L层R‑GCN图神经网络,确定去噪后证据信息和语义增强后的标签信息;根据去噪后证据信息和语义增强后的标签信息进行双向语义匹配,并将双向语义匹配的匹配分数进行聚合,得到综合打分;根据综合打分进行实体关系抽取。本发明能够充分利用外部知识,解决数据标签分布不均衡问题。
-
公开(公告)号:CN118627506B
公开(公告)日:2024-11-08
申请号:CN202411110723.7
申请日:2024-08-14
Applicant: 北京北大软件工程股份有限公司
IPC: G06F40/284 , G06F18/22 , G06N3/0499 , G06N3/0464
Abstract: 本申请公开了一种答案文段提取方法、装置、设备、介质及产品,涉及自然语言处理技术领域,该方法包括:接收用户问题和对应答案所在的文档;分别获取用户问题中词元的词向量、文档中词元的词向量和全局词元的词向量;获取文档中词元的词向量对应的所有候选答案文段的表示向量;获取用户问题中词元的词向量对应的问题表示向量和全局词元的词向量对应的全局阈值表示向量;获取各个候选答案文段的表示向量与问题表示向量之间的第一相似度,以及全局阈值表示向量与问题表示向量之间的第二相似度;获取第一相似度中大于第二相似度的目标相似度;输出目标相似度对应的目标候选答案文段。本申请可以处理文档中的答案文段是由多个文段组成的任务。
-
公开(公告)号:CN117421609B
公开(公告)日:2024-04-02
申请号:CN202311722719.1
申请日:2023-12-15
Applicant: 北京北大软件工程股份有限公司
Abstract: 本发明公开了一种应用于社交媒体的图像与文本语义相似度计算方法及系统,涉及语义相似度计算技术领域,该方法包括:通过图像场景图生成模型和文本场景图生成模型分别将图像和文本转化为图像场景图和文本场景图;根据图像场景图和文本场景图中物体‑关系‑物体三元组分别构建图像高层语义子图和文本高层语义子图;基于图像场景图和文本场景图中的物体节点和关系节点,利用向量点积计算局部细节匹配分数;基于高层语义子图和文本高层语义子图计算高层语义匹配分数;基于局部细节匹配分数和高层语义匹配分数计算图像与文本的语义相似度。本发明从底层局部细节到高层语义信息来衡量两个模态语义的相关程度,得到更加准确的图像与文本的语义相似度。
-
公开(公告)号:CN114550194A
公开(公告)日:2022-05-27
申请号:CN202210441221.7
申请日:2022-04-26
Applicant: 北京北大软件工程股份有限公司
Abstract: 本申请实施例提供一种识别信访件的方法和装置,该方法包括:获取待识别信访件;对待识别信访件进行格式转换,得到待识别信访件的图像;对待识别信访件的图像中的指定内容进行识别,得到识别结果;其中,指定内容包括红头标题、文号、日期、公章和手写签名中的至少一个内容。借助于上述技术方案,本申请实施例能够减轻信访工作人员工作量与压力,提升信访件处理效率。
-
公开(公告)号:CN118627506A
公开(公告)日:2024-09-10
申请号:CN202411110723.7
申请日:2024-08-14
Applicant: 北京北大软件工程股份有限公司
IPC: G06F40/284 , G06F18/22 , G06N3/0499 , G06N3/0464
Abstract: 本申请公开了一种答案文段提取方法、装置、设备、介质及产品,涉及自然语言处理技术领域,该方法包括:接收用户问题和对应答案所在的文档;分别获取用户问题中词元的词向量、文档中词元的词向量和全局词元的词向量;获取文档中词元的词向量对应的所有候选答案文段的表示向量;获取用户问题中词元的词向量对应的问题表示向量和全局词元的词向量对应的全局阈值表示向量;获取各个候选答案文段的表示向量与问题表示向量之间的第一相似度,以及全局阈值表示向量与问题表示向量之间的第二相似度;获取第一相似度中大于第二相似度的目标相似度;输出目标相似度对应的目标候选答案文段。本申请可以处理文档中的答案文段是由多个文段组成的任务。
-
公开(公告)号:CN117421609A
公开(公告)日:2024-01-19
申请号:CN202311722719.1
申请日:2023-12-15
Applicant: 北京北大软件工程股份有限公司
Abstract: 本发明公开了一种应用于社交媒体的图像与文本语义相似度计算方法及系统,涉及语义相似度计算技术领域,该方法包括:通过图像场景图生成模型和文本场景图生成模型分别将图像和文本转化为图像场景图和文本场景图;根据图像场景图和文本场景图中物体‑关系‑物体三元组分别构建图像高层语义子图和文本高层语义子图;基于图像场景图和文本场景图中的物体节点和关系节点,利用向量点积计算局部细节匹配分数;基于高层语义子图和文本高层语义子图计算高层语义匹配分数;基于局部细节匹配分数和高层语义匹配分数计算图像与文本的语义相似度。本发明从底层局部细节到高层语义信息来衡量两个模态语义的相关程度,得到更加准确的图像与文本的语义相似度。
-
公开(公告)号:CN114756657A
公开(公告)日:2022-07-15
申请号:CN202210472515.6
申请日:2022-04-29
Applicant: 北京北大软件工程股份有限公司
IPC: G06F16/33 , G06F16/332 , G06F16/31 , G06F40/126 , G06F40/194 , G06F40/279 , G06F40/30 , G06N3/04 , G06N3/08 , G06N5/04
Abstract: 本申请实施例提供了一种获取法律条文的方法和模型,该方法包括:将法律条文数据库中的N条法律条文进行编码,得到N个法律条文语义向量,并且存储所述N条法律条文语义向量;获取问题所对应的问题语义向量;将所述N条法律条文语义向量和所述问题语义向量输入到目标推理器中,通过所述目标推理器获得与所述问题对应的候选法律条文集合,其中,所述候选法律条文集合包括N1个候选法律条文,N为大于1的整数,N1为大于或等于1并且小于N的整数。通过本申请的一些实施例能够实现从多个法律条文中抽取出与问题相关的候选法律条文集合。
-
-
-
-
-
-
-
-