-
公开(公告)号:CN120011492A
公开(公告)日:2025-05-16
申请号:CN202411864855.9
申请日:2024-12-17
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F16/3329 , G06F16/334 , G06F40/279 , G06F40/30
Abstract: 本公开提供了一种数据生成方法和装置,涉及信息技术领域,具体涉及自然语言处理、大模型、检索增强生成RAG等技术领域,可应用于智能问答、智能医疗问诊、教育培训、法律咨询和新闻解读等领域。具体实现方案为:对获取的文档进行分片处理,得到文本单元集合;基于文本单元集合,得到问答对集合和图结构元素集合,并在图数据库中存储图结构映射关系;基于问答对集合和图结构元素集合,得到问题向量和图结构向量,将问题向量和图结构向量作为文本向量,并在向量数据库中存储文本向量和文本映射关系;基于图数据库,得到社区向量,并在向量数据库中存储社区映射关系和社区向量,社区映射关系用于表征社区向量与图结构元素集合之间的关系。