-
公开(公告)号:CN118395969A
公开(公告)日:2024-07-26
申请号:CN202410607932.6
申请日:2024-05-16
Applicant: 北京天融信网络安全技术有限公司 , 北京天融信科技有限公司 , 北京天融信软件有限公司
IPC: G06F40/205 , G06F40/186 , G06F40/284 , G06N3/0442
Abstract: 本申请实施例提供一种文本参数抽取方法、设备及存储介质,涉及文本抽取技术领域。所述方法包括:获取与输入语句相匹配的问题模板以及对应的答案模板;筛选出与输入语句相匹配的目标问题模板,并从输入语句中抽取出至少一候选参数;基于至少一候选参数和目标问题模板确定若干候选问题语句;获取每一候选问题语句与输入语句的相似度结果,根据相似度结果选取目标问题语句,并确定对应的目标文本参数。本申请实施例通过在从输入句中提取得到若干候选参数之后,再基于这些候选参数构成若干候选问题语句,以根据候选问题语句与输入语句的相似度对候选参数进行二次筛选,从而有效提高输入语句与语料库模板的对齐效率和准确率。
-
公开(公告)号:CN118861254A
公开(公告)日:2024-10-29
申请号:CN202411109296.0
申请日:2024-08-13
Applicant: 北京天融信网络安全技术有限公司 , 北京天融信科技有限公司 , 北京天融信软件有限公司
IPC: G06F16/332 , G06F40/30 , G06F16/35 , G06N5/04
Abstract: 本申请涉及人工智能技术领域,尤其是一种用于确定问题答案的方法、装置及存储介质。包括:确定定位问题并向量化;对待解答问题进行向量化;确定多个待选定位问题;确定待检索子文档和与向量化后的待解答问题对应的目标文档片段;在目标文档片段的数量小于预设数值的情况下,调整待解答问题,以得到至少一个调整后的待解答问题;从调整后的待解答问题中确定出新的待解答问题,并再次回到对待解答问题进行向量化的步骤,直至目标文档片段的数量大于预设数值;根据目标文档片段确定针对待解答问题的答案,实现了文档的分层处理,能够精确地定位问题,避免了答非所问和重复检索工作,提高了文档检索效率,能够快速并准确地确定问题答案。
-
公开(公告)号:CN116910180A
公开(公告)日:2023-10-20
申请号:CN202310889836.0
申请日:2023-07-19
Applicant: 北京天融信网络安全技术有限公司 , 北京天融信科技有限公司 , 北京天融信软件有限公司
Abstract: 本申请的一些实施例提供了一种检测文本相似度的方法、装置、存储介质及电子设备,该方法包括:确定原始文本对应的待比对文本指纹;通过将所述待比对文本指纹与预设指纹库进行对比,获取与所述原始文本相匹配的相似文本。本申请的一些实施例可以实现对文本相似度的校测,成本低效率高。
-
公开(公告)号:CN115758027A
公开(公告)日:2023-03-07
申请号:CN202211473789.3
申请日:2022-11-22
Applicant: 北京天融信网络安全技术有限公司 , 北京天融信科技有限公司 , 北京天融信软件有限公司
IPC: G06F16/958 , G06F16/957
Abstract: 本申请提供一种基于网页生成PDF的方法、装置、设备及存储介质,所述方法包括:获得网页访问路径及待访问网页的核心内容的Xpath路径;基于所述网页访问路径向网页发送访问请求,获得反馈的网页数据;确定所述网页数据的网页元素节点树;基于所述Xpath路径中的内容及网页元素节点树确定出所述网页数据中需要删除的非核心数据,所述非核心数据为所述网页数据中除核心数据及其显示相关数据以外的数据;删除所述网页中的非核心数据;基于所述网页数据中显示的核心数据生成对应的PDF文件。本申请基于网页生成PDF的方法能够直接对网页内容转换为PDF文件,且排版正常,支持文件内容不失真放大。
-
公开(公告)号:CN117786045A
公开(公告)日:2024-03-29
申请号:CN202311765523.0
申请日:2023-12-20
Applicant: 北京天融信网络安全技术有限公司 , 北京天融信科技有限公司 , 北京天融信软件有限公司
IPC: G06F16/33
Abstract: 本申请实施例公开了一种文本召回方法、装置、计算设备及机器可读存储介质,属于数据处理领域。文本召回方法包括:根据目标文本和目标文本的文本长度,确定第一数量的关键词;根据每个关键词在目标文本中的出现顺序,将第一数量的关键词进行组合,得到关键文本;分别对关键词和关键文本进行向量化,得到关键词向量和关键文本向量;将关键文本向量与所有的关键词向量进行加权求和,得到目标文本对应的向量映射;根据向量映射对目标文本进行向量召回,生成目标文本的文本召回结果。在限制关键词数量的基础上,基于每个关键词的重要性,得到目标文本对应的向量映射。通过向量映射进行文本召回,能够得到高准确性的文本召回结果。
-
公开(公告)号:CN115982367A
公开(公告)日:2023-04-18
申请号:CN202310205874.X
申请日:2023-03-03
Applicant: 北京天融信网络安全技术有限公司 , 北京天融信科技有限公司 , 北京天融信软件有限公司
IPC: G06F16/35 , G06F40/237 , G06F40/216 , G06F18/22
Abstract: 本申请提供一种标签词库构建方法、装置和文本分类方法、装置,以及电子设备和存储介质,其中,所述标签词库构建方法包括:基于标注数据和mT5模型生成标签提取模型,其中,所述标注数据包括第一正类文本的标签和负类文本的标签;基于所述标签提取模型,提取第二正类文本的标签,得到第一标签和第一标签的词向量;统计所述第一标签的词频,并基于所述第一标签的词向量和所述第一标签的词频,构建标签词库。本申请能够解决词库创建成本高、难度高、质量难保障这一技术问题,并且可用于对文本进行分类。
-
-
-
-
-