一种提升扩散模型图片生成效果的方法

    公开(公告)号:CN116863034A

    公开(公告)日:2023-10-10

    申请号:CN202310850135.6

    申请日:2023-07-11

    Inventor: 金致宇 沈旭立

    Abstract: 本发明提供一种提升扩散模型图片生成效果的方法,涉及计算机技术领域,包括:给定预训练的文本编码器并输入文字描述;将文本编码器内部注意力机制的尺度因子替换为稳定尺度因子,得到新的文本编码器;根据文字描述及新的文本编码器得到文本编码,利用扩散模型获得文字编码的编码文本向量;基于编码文本向量,通过解码模型得到输入的文字描述的生成图片。本发明使用稳定尺度因子,在文本生成图像领域中自适应地调节尺度因子,从而实现自然的高保真的生成图片,最终提升扩散模型生成效果。

    一种人格评估系统设计方法、装置、存储介质和程序产品

    公开(公告)号:CN119889551A

    公开(公告)日:2025-04-25

    申请号:CN202510060705.0

    申请日:2025-01-14

    Abstract: 本发明提供一种人格评估系统设计方法、装置、存储介质和程序产品,涉及自然语言处理技术领域及心理学人格评估技术领域。其中,人格评估系统设计方法包括:管理用户注册与登录,并控制对评估结果的访问权限;采集数据并对数据进行预处理;使用大语言模型分析经过预处理的数据,得到评估数据;设定人格评估体系,对所述评估数据进行特征提取,生成实时特征维度评分;根据实时特征维度评分生成定期解析报告,并根据用户反馈调整解析报告;对数据传输和存储进行加密处理,确保数据安全。本发明基于心理学人格评估的相关理论与方法,利用大语言模型的语义理解和情感分析能力进行人格评估,实现了使用指定的人格评估体系进行精准、便捷和实时的评估。

    一种多专家混合模型的决策方法、系统、存储介质和程序产品

    公开(公告)号:CN119692503A

    公开(公告)日:2025-03-25

    申请号:CN202411756900.9

    申请日:2024-12-02

    Abstract: 本发明提供一种多专家混合模型的决策方法、系统、存储介质和程序产品,属于计算机技术领域。其中方法包括以下步骤:构建多个参数可学习的专家模型;构建一个参数可学习的全局模型;获取多模态任务数据集,分别训练各个专家模型和全局模型,得到全局模型和各个专家模型的输出;根据全局模型和各个专家模型的输出,利用专家模型选择机制,得到多专家混合模型的决策权重;将决策权重点乘各个专家模型的输出,通过加权求和的方式得到模型决策结果。本发明简化了混合专家模型推理阶段的流程,减少了模型的复杂程度和参数量,使得整体模型更加高效。

    一种奶量检测和建模的方法、系统、存储介质和程序产品

    公开(公告)号:CN119478518A

    公开(公告)日:2025-02-18

    申请号:CN202411579032.1

    申请日:2024-11-06

    Abstract: 本发明提供一种奶量检测和建模的方法、系统、存储介质和程序产品,属于奶量检测技术领域。其中奶量检测模型建立方法包括以下步骤:收集图像;对图像进行标注,得到初始标注;建立并训练基础图像分割模型;对图像中的部分视频帧进行标注;对基础图像分割模型进行细粒度调节,得到调节后的图像分割模型;使用调节后的图像分割模型对图像进行预测,挑选出正确的预测结果作为新标注;将新标注和初始标注组合成数据集,结合注意力机制训练基础图像分割模型,得到进阶图像分割检测模型;输出奶瓶检测结果、奶瓶的最大容量和液面位置;进行推理结果集成后处理,输出最终结果。本发明构建了一个高准确率、低误报率、高效率、可扩展的奶瓶奶量的检测方法。

    数字人交互方法及系统、计算机可读存储介质、数字人设备

    公开(公告)号:CN117234369B

    公开(公告)日:2024-06-21

    申请号:CN202311057771.X

    申请日:2023-08-21

    Abstract: 本发明公开一种数字人交互方法及系统、计算机可读存储介质、数字人设备,该方法包括:接收包含语音的用户交互视频;将所述用户交互视频分离为视频帧和语音,将所述语音转换为文本,得到多模态数据;根据所述多模态数据分别获取基于视频、语音、文本的情绪感知结果及感知编码;根据各模态的情绪感知结果或感知编码确定控制标签向量;将所述控制标签向量融合到各模态的感知编码中;根据融合后的各模态的感知编码分别生成基于视频、语音、文本的生成内容;将所述基于视频、语音、文本的生成内容进行合成处理,得到合成视频。利用本发明方案,可以有效提高数字人的情感识别和表达能力,提升用户使用体验和效率。

    人脸动画生成方法及装置、计算机可读存储介质、终端

    公开(公告)号:CN116664731A

    公开(公告)日:2023-08-29

    申请号:CN202310753806.7

    申请日:2023-06-21

    Abstract: 一种人脸动画生成方法及装置、计算机可读存储介质、终端,方法包括:对输入音频进行特征提取,得到语音特征序列;基于语音特征序列、参考人脸动画以及预训练模型,进行多轮迭代,得到多帧人脸生成动画,其中,在每轮迭代中,采用下述方式确定当前轮的人脸生成动画:基于之前各轮得到的人脸生成动画确定当前轮的人脸动画序列,并对当前轮的人脸动画序列、当前轮的初始化人脸动画以及参考人脸动画进行拼接;将当前轮的人脸动画拼接结果与当前轮的语音特征拼接结果输入预训练模型,得到预测噪声;采用预测噪声对当前轮的初始化人脸动画进行去噪处理,得到当前轮的人脸生成动画。上述方案有助于提高生成的人脸动画之间的表情状态的平滑性和连贯性。

Patent Agency Ranking