一种声音信号转换方法、系统、装置和程序产品

    公开(公告)号:CN120018042A

    公开(公告)日:2025-05-16

    申请号:CN202510145075.7

    申请日:2025-02-10

    Abstract: 本发明提供一种声音信号转换方法、系统、装置和程序产品,涉及辅助听力技术领域。其中,声音信号转换方法包括:采用声音采集模块监听周围环境;使用声音识别与分类模块进行声音事件识别;使用信号转换模块将识别到的声音事件转换为感官信号指令;使用信号反馈模块执行感官信号指令,产生感官信号,并传递给用户。本发明提出了一种基于感官反馈的辅助听力解决方案,尤其是利用触觉这一更为直接的感官通道,采用便携装置,配合高灵敏度的声音采集模块和快速的声音识别算法,使聋人在不同的场景下都能迅速感知外接的声音信息,提高了信息反馈的实时性、准确性和可辨识度,可适用于各种场景。

    图像分割方法及装置、计算机可读存储介质、终端

    公开(公告)号:CN118379490A

    公开(公告)日:2024-07-23

    申请号:CN202410317452.6

    申请日:2024-03-19

    Abstract: 一种图像分割方法及装置、计算机可读存储介质、终端,所述方法包括:获取待处理图像;对待处理图像进行预处理;将待处理图像输入至图像分割模型,图像分割模型用于根据预处理的结果对待处理图像进行分割,得到待处理图像的图像分割结果,图像分割结果包括至少一个区域,同一区域中的像素点的类别相同;其中,根据预处理的结果对待处理图像进行分割包括:在使用第一卷积核进行卷积之前执行第一补零操作,在使用第二卷积核进行卷积之前执行第二补零操作,其中,第一卷积核和第二卷积核为属于图像分割模型中的同一个卷积层的不同卷积核,第一补零操作的类型和第二补零操作的类型不同。本申请提供的方案有利于提高图像分割的准确性。

    抠图模型训练方法、图像抠图处理方法、装置及介质

    公开(公告)号:CN118379321A

    公开(公告)日:2024-07-23

    申请号:CN202410476312.3

    申请日:2024-04-19

    Abstract: 本公开提供了一种抠图模型训练方法、图像抠图处理方法、装置及介质,其中,抠图模型训练方法包括以下步骤:将样本图像分别输入人像抠图模型和物体抠图模型中,得到对应的第一图像和第二图像,所述第一图像为包含人像的抠图蒙版,所述第二图像为包含物体的抠图蒙版;对所述第一图像和所述第二图像执行与操作得到所述样本图像对应的标签,所述标签为同时包含人像和物体的抠图蒙版;利用所述样本图像以及所述样本图像对应的所述标签对目标抠图模型进行训练,通过样本图像和样本图像对应的标签构建同时包含人像和物体的多主体数据集对抠图模型进行训练,使抠图模型在面对人像和物体这种多主体抠图的场景下能够得到更加准确的抠图结果。

    人体关键点生成方法及装置、计算机可读存储介质、终端

    公开(公告)号:CN117520762A

    公开(公告)日:2024-02-06

    申请号:CN202311260150.1

    申请日:2023-09-26

    Abstract: 一种人体关键点生成方法及装置、计算机可读存储介质、终端,所述人体关键点包含人脸关键点和躯体关键点,所述方法包括:对目标音频进行第一特征提取得到第一特征序列,然后解码得到多组人脸关键点,第一特征序列至少包含目标音频的语义信息和韵律信息;对目标音频进行第二特征提取得到第二特征序列,第二特征序列包含目标音频的语义信息且不包含韵律信息;采用第二特征序列与预设的待匹配样本库中的至少一部分样本特征序列进行特征匹配,以确定相似度最高的样本特征序列;基于所述多组人脸关键点,以及相似度最高的样本特征序列对应的一组或多组躯体关键点进行拼接,得到多组人体关键点。上述方案有助于提高生成的人体关键点的准确性和稳定性。

    人脸情绪图像生成方法及装置、可读存储介质、终端

    公开(公告)号:CN117218224A

    公开(公告)日:2023-12-12

    申请号:CN202311057116.4

    申请日:2023-08-21

    Abstract: 一种人脸情绪图像生成方法及装置、可读存储介质、终端,所述方法包括:对目标情绪文本以及输入音频分别进行编码,以得到情绪特征向量和语音特征向量序列;将情绪特征向量分别与每个语音特征向量进行融合,得到融合特征向量序列;将融合特征向量序列输入预训练的表情预测模型,以得到第一人脸表情向量序列;基于第一人脸表情向量序列和第二人脸表情向量序列进行渲染,以得到渲染人脸图像序列,所述第二人脸表情向量序列是根据与所述语音特征向量序列时序对齐的原始人脸图像序列确定的;将渲染人脸图像序列和所述情绪特征向量输入预训练的图像映射模型,以生成人脸情绪图像序列。上述方案有助于获得情绪状态更加自然且符合预期的人脸情绪图像。

    一种提升扩散模型图片生成效果的方法

    公开(公告)号:CN116863034A

    公开(公告)日:2023-10-10

    申请号:CN202310850135.6

    申请日:2023-07-11

    Inventor: 金致宇 沈旭立

    Abstract: 本发明提供一种提升扩散模型图片生成效果的方法,涉及计算机技术领域,包括:给定预训练的文本编码器并输入文字描述;将文本编码器内部注意力机制的尺度因子替换为稳定尺度因子,得到新的文本编码器;根据文字描述及新的文本编码器得到文本编码,利用扩散模型获得文字编码的编码文本向量;基于编码文本向量,通过解码模型得到输入的文字描述的生成图片。本发明使用稳定尺度因子,在文本生成图像领域中自适应地调节尺度因子,从而实现自然的高保真的生成图片,最终提升扩散模型生成效果。

Patent Agency Ranking