-
公开(公告)号:CN119829717A
公开(公告)日:2025-04-15
申请号:CN202411905240.6
申请日:2024-12-23
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F16/3329 , G06F40/194 , G06F18/214 , G06N5/022
Abstract: 本申请涉及人工智能技术领域,特别是涉及一种大模型问答的知识溯源方法、装置、介质和设备。包括:获取大模型问答生成的待溯源文本;根据目标问题和目标任务模式对应的每一置信数据源,得到初始知识载体列表C;根据待溯源文本和C,得到关键知识载体列表M;根据待溯源文本和M,得到关键知识片段匹配度列表集DP;若MAX(DPj)<EP;则将Mj从M中删除;否则不删除,以更新M,得到目标知识载体列表G。本申请提高了知识溯源的准确性,减少了溯源的工作量。且节约了计算机资源,能够为待溯源文本提供较为准确的溯源知识载体,使得用户能够获取大模型问答输出结果的知识来源,辅助用户对于大模型问答输出结果的置信度的判断。
-
公开(公告)号:CN119761417A
公开(公告)日:2025-04-04
申请号:CN202411808552.5
申请日:2024-12-10
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06N3/0455 , G06N3/048 , G06N3/047 , G06N3/084 , G06N5/04
Abstract: 本申请涉及数据处理技术领域,尤其提供一种大模型的优化训练、数据处理方法、装置、设备和存储介质,首先,针对每条样本指令,将样本指令输入基础模型,得到样本指令的N条候选答案,利用M个不同的奖励模型分别对候选答案进行评分,得到候选答案的M个评分结果;然后对候选答案的M个评分结果进行加权计算,得到候选答案的偏好值;基于候选答案的偏好值从N条候选答案中选取第一答案和第二答案;最后构建偏好样本数据集,偏好样本数据集包括偏好样本,偏好样本包括样本指令以及样本指令对应的第一答案和第二答案,偏好样本数据集用于采用离线方式对基础模型进行优化训练。以减少了对巨量计算资源的消耗,使大模型偏好对齐训练任务更易实施。
-
公开(公告)号:CN119760097A
公开(公告)日:2025-04-04
申请号:CN202411952374.3
申请日:2024-12-27
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F16/3329 , G06F16/334 , G06F16/338 , G06N3/0455 , G06F16/34 , G06F16/335
Abstract: 本发明涉及智能问答技术领域,尤其涉及一种大模型RAG召回策略智能规划方法、装置、介质及设备,通过引入提示词将初始问题转化为目标问题,对目标问题进行关键信息和向量的多维度处理,以基于预设大模型获取到参考召回数据,将初始场景类别、预设召回路径、目标问题、参考召回数据和预设提示词输入至预设大模型中,获取到目标召回路径,按照顺序依次执行目标召回路径中的所有数据召回环节,获取到目标召回数据,通过为大模型提供多维度参考信息,辅助大模型获取到由多个按顺序排列的数据召回环节构成的目标召回路径,使得数据召回过程更加高效,并能够适应各种复杂多变的应用场景和问题类型,提高了召回方法的准确性和效率。
-
公开(公告)号:CN118394748B
公开(公告)日:2025-03-21
申请号:CN202410514210.6
申请日:2024-04-26
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F16/215 , G06F16/22
Abstract: 本发明提供了一种数据监测系统,系统包括处理器、存储器和数据库,存储器中存储有计算机程序,数据库中存储有监测规则参考表,处理器用于:获取用户输入的监测任务信息集M;对于M中的Mr,如果当前时间为Tr对应的监测时间,则利用DRr对Mr对应的当前需要处理的数据集DCr进行监测,得到对应的监测结果RSr;如果RSr为表征DCr的质量不满足预设要求的结果,输出对应的提示信息。本发明能够多维度对数据质量进行自动监测,能够提高监测效率和监测准确率。
-
公开(公告)号:CN118627492B
公开(公告)日:2025-01-24
申请号:CN202411092157.1
申请日:2024-08-09
Applicant: 北京中科闻歌科技股份有限公司 , 天津中科闻歌科技有限公司
IPC: G06F40/216 , G06F40/226
Abstract: 本发明提供了一种检测目标模型的方法、电子设备及存储介质,涉及模型检测技术领域,所述方法能够根据指定选择题数据列表集合的总集和目标模型获取预设选项标签列表对应的第一累计被选择次数列表集合,获取第一累计被选择次数列表集合对应的关键向量列表集合并获取关键向量列表集合对应的关键向量相关系数列表,当大于预设向量相关系数的关键向量相关系数的数量与所有关键向量相关系数的比值不大于预设比值时,确定目标模型在生成选择题答案时不存在选项标签偏见或选项位置偏好,可知本发明能够检测出目标模型在生成选择题答案时是否存在选项标签偏见或选项位置偏好,有利于增强目标模型的可靠性,提高目标模型在教育和测试等环境中的公正性。
-
公开(公告)号:CN113536763B
公开(公告)日:2024-11-05
申请号:CN202110821206.0
申请日:2021-07-20
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F40/194 , G06F16/335
Abstract: 本公开涉及一种信息处理方法、装置、设备及存储介质。其中,信息处理方法包括:获取待处理文本;确定待处理文本与已存储文本之间的文本相似度;基于待处理文本的发布时间和已存储文本的发布时间,对文本相似度进行修正,得到修正后的文本相似度;在修正后的文本相似度大于或等于预设相似度阈值的情况下,将已存储文本作为待处理文本的相似文本。根据本公开实施例,可以提高重复信息的查找精度和效率且节约设备资源,以进一步提高重复信息的处理效果和效率,降低文本内容的重复性,进而使得用户快速且准确的从网络平台中查找感兴趣信息的需求,提高用户查看信息的体验且节约设备资源。
-
公开(公告)号:CN113449101B
公开(公告)日:2024-10-22
申请号:CN202010226687.6
申请日:2020-03-26
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F16/35 , G06F16/335 , G06F16/36
Abstract: 本发明实施例涉及一种公共卫生安全事件检测及事件集合构建方法及系统,方法包括:确定多个第一文本数据对应的多个主题信息,以及每个主题信息对应的至少一个第一文本数据;对每个主题信息对应的至少一个第一文本数据进行事件检测,确定每个主题信息对应的至少一个目标事件;将全部主题信息以及每个主题信息对应的至少一个目标事件作为事件集合;从互联网新闻流数据中获取与事件集合中主题信息相匹配的第二文本数据;基于第二文本数据与事件集合中目标事件的归属度对事件集合进行更新,基于静态文本数据构建的事件集合可以实现对动态文本数据的检测,进而提高互联网新闻流数据的检测效率,形成特定主题下相关舆情分析数据。
-
公开(公告)号:CN112364641B
公开(公告)日:2024-10-22
申请号:CN202011259475.4
申请日:2020-11-12
Applicant: 北京中科闻歌科技股份有限公司 , 深圳中科闻歌科技有限公司 , 国科智安(北京)科技有限公司
IPC: G06F40/284 , G06F40/166
Abstract: 本申请涉及一种面向文本审核的中文对抗样本生成方法及装置,其中方法包括:获取待处理语句信息;对待处理语句信息进行分词,得到多个词语;确定词语的第一重要性信息;获取各个词语对应的扰动词语;根据第一重要性信息,依次得到将待处理语句信息中各个词语替换为对应的扰动词语后的扰动语句信息;在确定扰动语句信息满足预设条件时,根据扰动语句信息得到对待处理语句信息攻击成功后的对抗样本。通过本实施例中的方法可以实现对待处理语句进行词语替换的方式得到对抗样本,进而可以增加用于对预测模型进行训练的样本的多样性,同时可以通过自动生成对抗样本,提升训练数据获取的便利性,提升模型训练的效率。
-
公开(公告)号:CN118485046A
公开(公告)日:2024-08-13
申请号:CN202410907835.9
申请日:2024-07-08
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F40/169 , G06F16/35 , G06F18/214 , G06F18/27 , G06F40/35 , G06F16/332
Abstract: 本公开提供了一种标注数据处理方法和装置,涉及人工智能技术领域,具体涉及自然语言处理、深度学习、大模型等技术领域。具体实现方案为:获取初始标注指令数据集,初始标注指令数据集包括标注回复文本数据;基于初始标注指令数据集中的标注回复文本数据,得到筛选标注指令数据集,筛选标注指令数据集中的标注回复文本数据不具有重复内容;基于筛选标注指令数据集,确定内容问题类型;基于内容问题类型以及多种不同类型的大模型,对筛选标注指令数据集进行处理,得到目标标注指令数据集。
-
公开(公告)号:CN116996630B
公开(公告)日:2024-07-12
申请号:CN202310964008.9
申请日:2023-08-02
Applicant: 北京中科闻歌科技股份有限公司
IPC: H04N5/262 , G10L21/10 , G10L21/18 , H04N5/265 , G06N3/0475 , G06N3/094 , G06F16/332
Abstract: 本发明提供了一种实时问答虚拟人视频生成方法、电子设备及存储介质,方法包括:基于待播报信息获取对应的场景视频;对音频文件进行特征提取,得到对应的音频特征;基于场景视频和音频特征,生成口型与音频特征相匹配的场景视频,作为初始人脸驱动视频;基于场景视频中的目标图像以及初始驱动视频,获取对应的人脸关键点、人脸深度图和人脸的RGB编码特征;基于获取的人脸关键点、人脸深度图和人脸的RGB编码特征,得到目标人脸驱动视频;利用目标人脸驱动视频中的人脸替换场景视频中的人脸,得到虚拟人视频;将虚拟人视频和音频文件进行合成,得到待播报的虚拟人播报视频。本发明能够提高虚拟人视频的制作效率。
-
-
-
-
-
-
-
-
-