一种提升扩散模型图片生成效果的方法

    公开(公告)号:CN116863034B

    公开(公告)日:2024-05-14

    申请号:CN202310850135.6

    申请日:2023-07-11

    Inventor: 金致宇 沈旭立

    Abstract: 本发明提供一种提升扩散模型图片生成效果的方法,涉及计算机技术领域,包括:给定预训练的文本编码器并输入文字描述;将文本编码器内部注意力机制的尺度因子替换为稳定尺度因子,得到新的文本编码器;根据文字描述及新的文本编码器得到文本编码,利用扩散模型获得文本编码的编码文本向量;基于编码文本向量,通过解码模型得到输入的文字描述的生成图片。本发明使用稳定尺度因子,在文本生成图像领域中自适应地调节尺度因子,从而实现自然的高保真的生成图片,最终提升扩散模型生成效果。

    人脸图像生成方法及装置、计算机可读存储介质、终端

    公开(公告)号:CN118015110A

    公开(公告)日:2024-05-10

    申请号:CN202311762681.0

    申请日:2023-12-19

    Abstract: 一种人脸图像生成方法及装置、计算机可读存储介质、终端,所述方法包括:确定人脸图像生成模型,人脸图像生成模型包括音频内容特征提取子模型、音频情感特征提取子模型、扩散子模型;将驱动音频分别输入音频内容特征提取子模型和音频情感特征提取子模型进行特征提取,得到音频内容特征和音频情感特征;至少基于音频内容特征和音频情感特征进行拼接,得到音频融合特征;将所述音频融合特征和带噪声的参考人脸图像特征输入所述扩散子模型进行去噪处理,得到目标完整人脸特征;对目标完整人脸特征进行解码,得到完整人脸生成图像。上述方案有助于生成既能准确匹配驱动音频中的口型,又能精准表达驱动音频包含的情绪的人脸生成图像。

    基于语音交互的自动测试与评分系统、方法、设备及介质

    公开(公告)号:CN117975961A

    公开(公告)日:2024-05-03

    申请号:CN202410124390.7

    申请日:2024-01-29

    Abstract: 本发明公开了一种基于语音交互的自动测试与评分系统、方法、设备及介质,该自动测试与评分系统包括:试题播放模块、收音识别模块与评分模块,三个模块之间通信连接;试题播放模块,用于控制语音播报装置播放预先录制的若干个待测试题对应的第一音频;收音识别模块,用于对接收到的待测试者对应于第一音频反馈的第二音频进行语音识别,得到语音识别结果并发送;评分模块,用于接收语音识别结果与待测试题的预设标准结果进行对比,生成目标评分。本发明利用收音识别模块对自动控制播放待测试题对应的第一音频反馈的第二音频进行语音识别,基于评分模块对语音识别结果进行评分,解决了语音交流测试依赖于人工进行且人工评分一致性不稳定的问题。

    连铸质量判定方法及装置、计算机可读存储介质、终端

    公开(公告)号:CN116579650B

    公开(公告)日:2024-04-26

    申请号:CN202310487045.5

    申请日:2023-04-28

    Inventor: 余炯

    Abstract: 一种连铸质量判定方法及装置、计算机可读存储介质、终端,所述方法包括:确定多个连铸工艺段,所述连铸工艺段是对连铸工艺流程进行划分得到的;对于每个连铸工艺段,将该连铸工艺段的第一工艺参数集合中各个工艺参数的参数值输入对应的质量判定机理模型,得到第一结果;将第二工艺参数集合中各个工艺参数的参数值输入质量判定神经网络模型,得到第二结果;采用预设的权重值,对各个连铸工艺段得到的所述第一结果进行加权运算,得到加权运算结果;基于所述加权运算结果与所述第二结果,确定所述连铸工艺流程的连铸质量判定结果。采用上述方案,可以提高连铸质量判定结果的准确度。

    一种用于增强检索效果的法律文本多标签生成方法及装置

    公开(公告)号:CN117909519A

    公开(公告)日:2024-04-19

    申请号:CN202410092818.4

    申请日:2024-01-23

    Abstract: 本发明提供一种用于增强检索效果的法律文本多标签生成方法及装置,其中方法包括:获取法律文本和法律问题,构建用于训练的数据集;对所述数据集进行预处理,得到法律文本标签和法律问题数据;基于所述法律文本标签和法律问题数据,训练得到多标签分类模型;基于所述多标签分类模型,构建知识库检索模型;将所述知识库检索模型整合到RAG框架中,得到RAG框架下的法律文本多标签生成模型;对所述法律文本多标签生成模型进行评估和优化。本发明减少了因法典数量庞大带来的检索噪音,优化了法律信息检索的各个环节,显著提升了法律信息检索系统检索的精确度和效率,减少了计算资源的消耗。

    视频生成方法及装置、计算机可读存储介质、计算设备

    公开(公告)号:CN116471427B

    公开(公告)日:2024-03-29

    申请号:CN202211096271.2

    申请日:2022-09-08

    Inventor: 贾皓文 王成

    Abstract: 一种视频生成方法及装置、计算机可读存储介质、计算设备,所述方法包括:确定用户选择的布局框架,所述布局框架包括多个元素,每个元素具有布局结构信息,其中,所述布局结构信息包括:时间范围、位置信息、尺寸信息和层级信息,所述时间范围用于指示在目标视频的时间轴上的范围,所述位置信息用于指示在视频画面中的位置;获取用户针对每个元素选择的素材,并建立所述素材和所述元素的布局结构信息之间的绑定关系;根据所述素材及其绑定的布局结构信息,生成所述目标视频。通过本申请提供的方案,能够提高视频的生成效率,优化用户的使用体验。

    模型训练方法、可控文本的生成方法、系统、设备及介质

    公开(公告)号:CN116383652B

    公开(公告)日:2024-02-06

    申请号:CN202310354856.8

    申请日:2023-04-03

    Inventor: 蔡华

    Abstract: 本发明公开了一种模型训练方法、可控文本的生成方法、系统、设备及介质,该模型训练方法包括:以第一训练样本为输入,训练可控文本生成模型,以确定可控文本生成模型中提示子模型和注意力子模型的参数;可控文本生成模型还包括预先训练的文本生成子模型;在每个时间步中,注意力子模型以之前所有时间步的提示词隐含状态、当前时间步的提示词隐含状态和之前所有时间步的文本隐含状态为输入,以当前时间步的注意力文本矩阵为输出。本发明使用提示子模型引导文本生成子模型,防止可控文本的主题发散,出现与提示词不相关的内容;注意力子模型实现了在每个时间步进行独立提示,防止可控文本的内容不与所有的提示词的内容对应,避免出现提示词的丢失。

    手势生成方法及装置、计算机可读存储介质、终端

    公开(公告)号:CN117456598A

    公开(公告)日:2024-01-26

    申请号:CN202311169519.8

    申请日:2023-09-11

    Abstract: 一种手势生成方法及装置、计算机可读存储介质、终端,方法包括:确定时序对齐的音频语义特征序列、音频韵律特征序列、手势词特征序列;基于各个特征序列以及预训练模型执行多轮迭代,以确定生成手势特征序列;在每轮迭代中,至少基于第i个手势词特征以及第i个音频语义特征进行特征融合,得到第一融合特征,并基于所述第一融合特征确定目标手势词特征;至少基于第i个手势词特征以及第i个音频韵律特征进行特征融合,得到第二融合特征;至少基于目标手势词特征以及第二融合特征进行拼接处理,得到拼接结果;将所述拼接结果输入所述预训练模型,得到第i轮输出的生成手势特征。上述方案有助于生成能准确表达语义且体现个性差异的手势。

    基于AIGC的训练数据集确定方法及装置、存储介质、终端

    公开(公告)号:CN117036852A

    公开(公告)日:2023-11-10

    申请号:CN202310956278.5

    申请日:2023-07-31

    Inventor: 余炯 王予津

    Abstract: 一种基于AIGC的训练数据集确定方法及装置、存储介质、终端,方法包括:将第一训练数据集输入初始模型进行初步迭代训练得到预训练模型;将第二训练数据集输入预训练模型进行再次迭代训练得到再训练模型,所述第二训练数据集是基于AIGC技术对所述第一训练数据集进行扩充得到的;将多张待标注图像输入再训练模型进行产品缺陷预测,并采用产品缺陷预测结果对待标注图像进行标注,得到第三训练数据集;其中,第二训练数据集与第一训练数据集的图像数量的比值大于等于10,初步迭代训练采用的第一损失函数与再次迭代训练采用的第二损失函数的收敛阈值的比值大于等于2。上述方案可以快速获得大量标注有准确的产品缺陷标签的训练数据集。

    图片生成方法及装置、存储介质、计算设备

    公开(公告)号:CN117036546A

    公开(公告)日:2023-11-10

    申请号:CN202310956306.3

    申请日:2023-07-31

    Abstract: 本申请提供了一种图片生成方法及装置、存储介质、计算设备,该图片生成方法包括:获取输入内容,输入内容包括人脸标识、服装标识、姿态信息以及背景图片;将输入内容输入至扩散模型,以生成目标图片,其中,扩散模型根据人脸标识调用其对应的第一LoRA模型生成目标图片中的人脸,扩散模型根据服装标识调用其对应的第二LoRA模型生成目标图片中的服装,目标图片还包括姿态信息中的姿态以及背景图片中的背景。本申请技术方案能够提升图片生成的效率和灵活性。

Patent Agency Ranking