-
公开(公告)号:CN119692503A
公开(公告)日:2025-03-25
申请号:CN202411756900.9
申请日:2024-12-02
Applicant: 华院计算技术(上海)股份有限公司
Abstract: 本发明提供一种多专家混合模型的决策方法、系统、存储介质和程序产品,属于计算机技术领域。其中方法包括以下步骤:构建多个参数可学习的专家模型;构建一个参数可学习的全局模型;获取多模态任务数据集,分别训练各个专家模型和全局模型,得到全局模型和各个专家模型的输出;根据全局模型和各个专家模型的输出,利用专家模型选择机制,得到多专家混合模型的决策权重;将决策权重点乘各个专家模型的输出,通过加权求和的方式得到模型决策结果。本发明简化了混合专家模型推理阶段的流程,减少了模型的复杂程度和参数量,使得整体模型更加高效。
-
公开(公告)号:CN119478518A
公开(公告)日:2025-02-18
申请号:CN202411579032.1
申请日:2024-11-06
Applicant: 华院计算技术(上海)股份有限公司
Abstract: 本发明提供一种奶量检测和建模的方法、系统、存储介质和程序产品,属于奶量检测技术领域。其中奶量检测模型建立方法包括以下步骤:收集图像;对图像进行标注,得到初始标注;建立并训练基础图像分割模型;对图像中的部分视频帧进行标注;对基础图像分割模型进行细粒度调节,得到调节后的图像分割模型;使用调节后的图像分割模型对图像进行预测,挑选出正确的预测结果作为新标注;将新标注和初始标注组合成数据集,结合注意力机制训练基础图像分割模型,得到进阶图像分割检测模型;输出奶瓶检测结果、奶瓶的最大容量和液面位置;进行推理结果集成后处理,输出最终结果。本发明构建了一个高准确率、低误报率、高效率、可扩展的奶瓶奶量的检测方法。
-
公开(公告)号:CN117152283B
公开(公告)日:2025-02-11
申请号:CN202310944172.3
申请日:2023-07-28
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06T11/00 , G06V40/16 , G06V10/80 , G06N3/0455 , G06N3/0464 , G06N3/08 , G10L25/03 , G10L25/30
Abstract: 本发明提供一种利用扩散模型的语音驱动人脸图像生成方法及系统,涉及AIGC技术领域,包括:输入驱动音频和部分人脸图像;对驱动音频和部分人脸图像分别进行特征提取,得到音频特征和图像特征;将音频特征和图像特征输入到扩散模型,生成完整图像特征;将扩散模型生成的完整图像特征输入解码器,得到完整人脸图像。本发明充分利用扩散模型以及特征融合,实现准确清晰地生成和音频相对应的人脸图像。
-
公开(公告)号:CN119229872A
公开(公告)日:2024-12-31
申请号:CN202411260877.4
申请日:2024-09-09
Applicant: 华院计算技术(上海)股份有限公司
IPC: G10L15/26 , G06F40/232 , G06F40/103
Abstract: 本发明提供一种语音识别错误纠正处理方法、系统、存储介质和程序产品。其中方法包括以下步骤:获取原始语音数据;将原始语音数据转换成第一文本;基于第一文本预设专业术语提示;使用大语言模型对第一文本进行纠错处理,得到第二文本;使用大语言模型对第二文本进行正式化转换,得到最终文本。本发明能够提高专业术语识别准确性、转换口语化文本为正式化文本、降低人工校正的成本和时间,以及提升文本的专业性和可用性。总而言之,本发明能够显著提高ASR系统转换效率、处理专业名词和行业特定名词的准确性和文本正式化程度。
-
公开(公告)号:CN117234369B
公开(公告)日:2024-06-21
申请号:CN202311057771.X
申请日:2023-08-21
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06F3/0481 , G06T13/40 , G06V10/80
Abstract: 本发明公开一种数字人交互方法及系统、计算机可读存储介质、数字人设备,该方法包括:接收包含语音的用户交互视频;将所述用户交互视频分离为视频帧和语音,将所述语音转换为文本,得到多模态数据;根据所述多模态数据分别获取基于视频、语音、文本的情绪感知结果及感知编码;根据各模态的情绪感知结果或感知编码确定控制标签向量;将所述控制标签向量融合到各模态的感知编码中;根据融合后的各模态的感知编码分别生成基于视频、语音、文本的生成内容;将所述基于视频、语音、文本的生成内容进行合成处理,得到合成视频。利用本发明方案,可以有效提高数字人的情感识别和表达能力,提升用户使用体验和效率。
-
公开(公告)号:CN118014056A
公开(公告)日:2024-05-10
申请号:CN202410217289.6
申请日:2024-02-27
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06N3/098 , G06N3/0455 , G06N20/20 , G06N5/04
Abstract: 本发明提供一种数据增强与预测增强方法协同的数学大语言模型微调方法、系统、设备及介质,其特征在于,包括:获取原问题、原答案,通过问题重写和答案细化的方式补充有效的训练样例,获取增广问题和增广答案;基于所述增广问题和增广答案,进行数据集简化计算,获取简化计算数据集;基于所述简化计算数据集,进行预测输出的增强。LLM的性能有较大弊端,没有解题过程,直接给出结果的问答对难以提高推理能力,而受污染或本身就有错的答案标签甚至会降低微调后LLM的正确率,同时仅限简单问题的数据在复杂多步推理的任务中也很少有帮助。针对上述问题,本发明使用合理增广的优质数学推理数据集和针对高精度与复杂运算的简化计算数据集进行训练,对LLM的预测输出进行多次采样和多轮对话后再进行反向传播,最终提高微调后通用大语言模型正确求解算术计算问题的能力。
-
公开(公告)号:CN116881398A
公开(公告)日:2023-10-13
申请号:CN202310818447.9
申请日:2023-07-04
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06F16/33 , G06F16/338 , G06F16/31
Abstract: 本发明公开一种提升大模型生成信息质量的方法及装置,该方法包括:接收用户输入信息;利用知识库确定所述用户输入信息的辅助信息;根据所述用户输入信息和所述辅助信息,生成基于大模型的反馈信息。利用本发明方案,可以提升大型预训练模型生成信息的时效性和准确性。
-
公开(公告)号:CN116664746A
公开(公告)日:2023-08-29
申请号:CN202310620674.0
申请日:2023-05-29
Applicant: 华院计算技术(上海)股份有限公司
Abstract: 一种人脸重建方法及装置、计算机可读存储介质、终端,所述方法包括:分别对原始人脸图像及其深度图像进行特征提取,得到人脸特征矩阵以及深度图特征矩阵;对所述人脸特征矩阵以及所述深度图特征矩阵进行拼接处理,得到融合特征矩阵;将所述融合特征矩阵输入预测模型,得到优化形状矩阵和优化表情矩阵;基于所述优化形状矩阵和所述优化表情矩阵,对初始化纹理矩阵和初始化光照控制矩阵进行迭代优化,以确定优化纹理矩阵和优化光照控制矩阵。采用上述方案有助于改进人脸重建的效果。
-
公开(公告)号:CN116664731A
公开(公告)日:2023-08-29
申请号:CN202310753806.7
申请日:2023-06-21
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06T13/40 , G06V10/774 , G10L15/06
Abstract: 一种人脸动画生成方法及装置、计算机可读存储介质、终端,方法包括:对输入音频进行特征提取,得到语音特征序列;基于语音特征序列、参考人脸动画以及预训练模型,进行多轮迭代,得到多帧人脸生成动画,其中,在每轮迭代中,采用下述方式确定当前轮的人脸生成动画:基于之前各轮得到的人脸生成动画确定当前轮的人脸动画序列,并对当前轮的人脸动画序列、当前轮的初始化人脸动画以及参考人脸动画进行拼接;将当前轮的人脸动画拼接结果与当前轮的语音特征拼接结果输入预训练模型,得到预测噪声;采用预测噪声对当前轮的初始化人脸动画进行去噪处理,得到当前轮的人脸生成动画。上述方案有助于提高生成的人脸动画之间的表情状态的平滑性和连贯性。
-
公开(公告)号:CN116580263A
公开(公告)日:2023-08-11
申请号:CN202310562166.1
申请日:2023-05-18
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06V10/774 , G06V10/44 , G06V10/80 , G06V10/776 , G06T13/40 , G06T13/20 , G06N3/0464
Abstract: 本发明公开了一种图像处理模型训练、处理方法、系统、设备及其介质。该模型的训练方法包括:获取原始三维面部数据和若干样本音频数据;提取原始三维面部数据的样本面部特征;获取样本音频数据的样本音频特征;基于样本音频特征调整样本面部特征,以得到对应的样本三维面部数据;以每组的样本面部特征与样本音频特征作为输入,对应的样本三维面部数据作为输出,对预设网络进行训练,以得到图像处理模型。通过图卷积神经网络获取面部特征和多层次处理得到音频特征,通过卷积神经网络的训练,得到的图像处理模型具有更高的精度、泛用性和鲁棒性。计算融合特征的融合损失和样本三维面部数据的生成损失,提高模型训练的效率和准确性。
-
-
-
-
-
-
-
-
-