-
公开(公告)号:CN119760369A
公开(公告)日:2025-04-04
申请号:CN202411808970.4
申请日:2024-12-10
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F18/21 , G06F18/2431 , G06N3/0455 , G06N3/08 , G06N5/04
Abstract: 本发明涉及大模型评测领域,特别是涉及一种多模态图表问答大模型的评价测试方法、介质及设备。包括:将判断类测试数据集,输入待评测大模型,以获取判断类模型输出结果。判断类问答对中的问题信息包括对问题本体文本及对回答信息只能是正面或反面信息的提示信息。将所有填空类模型输出结果、选择类模型输出结果及判断类模型输出结果的准确性信息进行统计,生成待评测大模型的执行评价信息。本发明中鉴于多模态大模型对指令的遵循可能存在潜在的变异性,所以在针对低阶任务性能的评价中,使用的指令类型包括从正面和负面角度提出的判断题、填空题和选择题三种题型来对待评测模型进行提问,由此来更加全面的对待评测大模型进行评测。
-
公开(公告)号:CN119692472A
公开(公告)日:2025-03-25
申请号:CN202411760334.9
申请日:2024-12-03
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06N5/04 , G06N20/00 , G06F40/284
Abstract: 本发明提供了一种多模态图表问答大模型构建方法、电子设备和存储介质,包括:基于第一样本数据集对图文对齐模型进行训练,得到训练好的图文特征对齐模型;其中,第一样本数据集中包括图像样本和对应的文本内容;基于第二样本数据集对具有训练好的图文特征对齐模型的多模态图表问答大模型进行训练,得到训练后的多模态图表问答大模型,作为最终的多模态图表问答大模型,第二样本数据集包括图表样本的上下文表示信息、图像和问答对数据。本发明得到的多模态图表问答大模型相对于现有的多模态图表问答大模型的图表问答能力能够得到进一步提升,且具有较强的中文理解能力。
-
公开(公告)号:CN119538981A
公开(公告)日:2025-02-28
申请号:CN202411627791.0
申请日:2024-11-14
Applicant: 北京中科闻歌科技股份有限公司
Abstract: 本公开涉及一种领域大语言模型微调训练方法、装置、电子设备及介质;方法包括:在微调训练阶段,获取多个领域任务的原始指令数据,构建单项选择任务数据集,单项选择任务数据集包括多个领域任务的多条单项选择任务数据,对单项选择任务数据集中的原始指令题目进行数据扰动操作,识别各个领域任务的关键注意力头,获取关键注意力头索引表,基于关键注意力头索引表,加载目标领域任务对应的目标关键注意力头列表;针对目标领域任务,基于目标关键注意力头列表进行关键注意力头训练,更新目标关键注意力头列表中各个关键注意力头的权重参数,冻结其他网络层的权重参数。
-
公开(公告)号:CN116996630A
公开(公告)日:2023-11-03
申请号:CN202310964008.9
申请日:2023-08-02
Applicant: 北京中科闻歌科技股份有限公司
IPC: H04N5/262 , G10L21/10 , G10L21/18 , H04N5/265 , G06N3/0475 , G06N3/094 , G06F16/332
Abstract: 本发明提供了一种实时问答虚拟人视频生成方法、电子设备及存储介质,方法包括:基于待播报信息获取对应的场景视频;对音频文件进行特征提取,得到对应的音频特征;基于场景视频和音频特征,生成口型与音频特征相匹配的场景视频,作为初始人脸驱动视频;基于场景视频中的目标图像以及初始驱动视频,获取对应的人脸关键点、人脸深度图和人脸的RGB编码特征;基于获取的人脸关键点、人脸深度图和人脸的RGB编码特征,得到目标人脸驱动视频;利用目标人脸驱动视频中的人脸替换场景视频中的人脸,得到虚拟人视频;将虚拟人视频和音频文件进行合成,得到待播报的虚拟人播报视频。本发明能够提高虚拟人视频的制作效率。
-
公开(公告)号:CN116862803A
公开(公告)日:2023-10-10
申请号:CN202310864682.X
申请日:2023-07-13
Applicant: 北京中科闻歌科技股份有限公司
Abstract: 本公开涉及一种逆转图像重建方法、装置、设备及可读存储介质。本公开通过获取待逆转图像,所述待逆转图像包括待逆转的高质量图像和/或待逆转的低质量图像,对所述待逆转图像进行逆转处理,得到逆转图像。由于对所述待逆转图像进行逆转处理,得到逆转图像,进而可以对逆转图像的隐空间特征进行约束,使逆转得到的隐空间特征的分布更符合GAN隐空间中原始隐空间编码的分布,在图像编辑中减少图像伪影的出现,从而提高真实图像的图像编辑的效果。并且,本公开实施例可以适用于高质量图像以及低质量图像,提高了逆转方法的泛化性能,提升了低质量图像逆转的重建效果,保证了GAN逆转方法对图像质量的稳定性。
-
公开(公告)号:CN119862889A
公开(公告)日:2025-04-22
申请号:CN202411940326.2
申请日:2024-12-26
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F40/30
Abstract: 本公开涉及一种基于裁判模型的大语言模型评价方法、装置、设备及介质,该方法包括:将预先获取的测试问题分别输入待评价的多个大语言模型,并获取各个大语言模型的输出结果;将测试问题、各个大语言模型的输出结果以及预设的第一引导指令输入预先建立的裁判模型,得到裁判模型输出的模型评价结果,第一引导指令用于引导裁判模型采用准确性、相关性、创造性、逻辑连贯性和信息完整性等目标评价标准对多个大语言模型的模型性能进行评价,模型评价结果包括性能最优的目标大语言模型的信息的。本公开通过将多个大语言模型针对同一问题的输出结果输入裁判模型,引导裁判模型从多角度对各个大语言模型的输出结果进行评价,能够自动对大语言模型进行全面评价。
-
公开(公告)号:CN119759451A
公开(公告)日:2025-04-04
申请号:CN202411952368.8
申请日:2024-12-27
Applicant: 北京中科闻歌科技股份有限公司
Abstract: 本发明涉及大语言模型技术领域,特别是涉及一种基于大模型的插件调用方法、电子设备及存储介质,所述方法包括:将预设插件关键词库中的预设插件关键词与用户输入的目标请求文本中的任一请求关键词进行匹配,根据匹配上的预设插件直接确定出目标插件或确定出若干备选插件,而当请求关键词未匹配上预设插件时则将所有预设插件作为备选插件,再通过给定大语言模型从若干个备选插件中筛选出目标插件,从所述目标请求文本中提取目标参数信息并发送至目标插件得到插件反馈结果,当插件反馈结果的判断结果为符合预设要求时,将插件反馈结果作为请求反馈文本;本发明能够提高对话系统中的目标插件选取的准确率,使选择出的目标插件更符合用户的需求。
-
公开(公告)号:CN117275068B
公开(公告)日:2024-05-17
申请号:CN202311224982.8
申请日:2023-09-21
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06V40/16 , G06V40/40 , G06V10/774 , G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种含不确定性引导的测试阶段训练人脸伪造检测方法及系统,属于深度学习以及计算机视觉技术领域,方法包括:获取待判别的图像作为初始输入图像;获取所述初始输入图像的高频信息图像;提取所述高频信息图像中不同尺度的RGB特征和频域注意力特征,将所述RGB特征和所述频域注意力特征进行融合;将所述融合后RGB特征和所述频域特征进行交叉注意力计算,得到融合特征;基于所述融合特征,并根据不同的输入图像和任务需求,自适应选择融合方式,得到判别特征,并基于所述判别特征进行分类任务。本发明充分利用频域和RGB域中有效的信息挖掘伪造痕迹,利用不确定性引导的测试阶段训练策略,对网络中的不确定性进行优化,提高了泛化性能。
-
公开(公告)号:CN116823597B
公开(公告)日:2024-05-07
申请号:CN202310964424.9
申请日:2023-08-02
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06T3/04 , G06N3/0475 , G06N3/094
Abstract: 本发明涉及图像处理领域,尤其涉及一种图像生成系统,包括:目标图像A和A对应的目标语义特征向量B,所述系统实现以下步骤:将A作为待加噪图像A0,初始化加噪次数t=0,通过噪声预测模型对A0和B进行噪声预测,得到噪声预测结果Ct,对A0和Ct进行加权相加,得到加噪图像Dt,以Dt作为A0,迭代得到目标加噪图像E,将E和B输入图像生成模型中进行图像生成,得到生成图像Es,以Es作为E,迭代得到目标生成图像,通过编码噪声的形式提取A中的随机信息、面部细节和语义信息等信息,并在A上多次叠加编码得到的噪声来得到E,进一步对E和B进行多次图像生成处理得到目标生成图像,提高了目标生成图像的准确性。
-
公开(公告)号:CN117275068A
公开(公告)日:2023-12-22
申请号:CN202311224982.8
申请日:2023-09-21
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06V40/16 , G06V40/40 , G06V10/774 , G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种含不确定性引导的测试阶段训练人脸伪造检测方法及系统,属于深度学习以及计算机视觉技术领域,方法包括:获取待判别的图像作为初始输入图像;获取所述初始输入图像的高频信息图像;提取所述高频信息图像中不同尺度的RGB特征和频域注意力特征,将所述RGB特征和所述频域注意力特征进行融合;将所述融合后RGB特征和所述频域特征进行交叉注意力计算,得到融合特征;基于所述融合特征,并根据不同的输入图像和任务需求,自适应选择融合方式,得到判别特征,并基于所述判别特征进行分类任务。本发明充分利用频域和RGB域中有效的信息挖掘伪造痕迹,利用不确定性引导的测试阶段训练策略,对网络中的不确定性进行优化,提高了泛化性能。
-
-
-
-
-
-
-
-
-