-
公开(公告)号:CN120011492A
公开(公告)日:2025-05-16
申请号:CN202411864855.9
申请日:2024-12-17
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F16/3329 , G06F16/334 , G06F40/279 , G06F40/30
Abstract: 本公开提供了一种数据生成方法和装置,涉及信息技术领域,具体涉及自然语言处理、大模型、检索增强生成RAG等技术领域,可应用于智能问答、智能医疗问诊、教育培训、法律咨询和新闻解读等领域。具体实现方案为:对获取的文档进行分片处理,得到文本单元集合;基于文本单元集合,得到问答对集合和图结构元素集合,并在图数据库中存储图结构映射关系;基于问答对集合和图结构元素集合,得到问题向量和图结构向量,将问题向量和图结构向量作为文本向量,并在向量数据库中存储文本向量和文本映射关系;基于图数据库,得到社区向量,并在向量数据库中存储社区映射关系和社区向量,社区映射关系用于表征社区向量与图结构元素集合之间的关系。
-
公开(公告)号:CN104503958B
公开(公告)日:2017-09-26
申请号:CN201410665760.4
申请日:2014-11-19
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/27
Abstract: 本发明提供了一种文档摘要的生成方法及装置,其中,该方法包括:获得文档,并使用预设特征对文档进行处理,以获得摘要候选句,其中,预设特征包括摘要关键词、数词、与文档中包含的标题的距离在预定范围内的句子和子标题中的一种或几种;对摘要候选句进行压缩处理;以及对压缩处理后的摘要候选句进行后处理,以生成文档的摘要。本发明实施例提供的文档摘要的生成方法及装置,生成的摘要精炼、准确,并且摘要中不存在冗余信息,生成过程简单,无需人工参与,可大大降低文档的摘要的生成时间,提高文档生成摘要的效率。
-
公开(公告)号:CN119851661A
公开(公告)日:2025-04-18
申请号:CN202411896662.1
申请日:2024-12-20
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L15/22 , G10L15/26 , G10L15/04 , G10L15/18 , G10L15/183 , G06F16/3329 , G06F16/334 , G06F16/353 , G06N5/04
Abstract: 本公开提供了基于大模型的数据处理方法、装置、设备及存储介质,涉及数据处理技术领域,尤其涉及人工智能、大数据、大模型等技术领域。具体实现方案为:对目标对话音频进行语音活动检测,得到存在语音活动的多个目标音频片段;基于所述多个目标音频片段,得到目标文本内容;利用大模型,对所述目标文本内容进行意图提取,并提取出以下至少之一:与问题相关的问题文本,与回答相关的答复文本;基于目标对话音频中的时间信息以及提取出的文本,得到与所述目标对话音频相关联的带有时间信息的目标对话文本,其中,目标对话文本包括以下至少之一:带有时间信息的问答对,带有时间信息的问题文本。
-
公开(公告)号:CN104503958A
公开(公告)日:2015-04-08
申请号:CN201410665760.4
申请日:2014-11-19
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/27
Abstract: 本发明提供了一种文档摘要的生成方法及装置,其中,该方法包括:获得文档,并使用预设特征对文档进行处理,以获得摘要候选句,其中,预设特征包括摘要关键词、数词、与文档中包含的标题的距离在预定范围内的句子和子标题中的一种或几种;对摘要候选句进行压缩处理;以及对压缩处理后的摘要候选句进行后处理,以生成文档的摘要。本发明实施例提供的文档摘要的生成方法及装置,生成的摘要精炼、准确,并且摘要中不存在冗余信息,生成过程简单,无需人工参与,可大大降低文档的摘要的生成时间,提高文档生成摘要的效率。
-
-
-