一种基于特征洗牌的低资源车牌识别方法及装置

    公开(公告)号:CN118351524B

    公开(公告)日:2025-02-11

    申请号:CN202410477685.2

    申请日:2024-04-19

    Abstract: 本发明涉及人工智能与计算机视觉技术领域,特别是指一种基于特征洗牌的低资源车牌识别方法及装置,方法包括:获取车牌图像的样本数据集;构建初始的车牌识别模型;车牌识别模型包括:全局感知编码器、特征洗牌模块以及解码器模块;将样本数据集输入初始的车牌识别模型中,通过全局感知编码器对样本数据进行特征提取,获得全局视觉特征,通过特征洗牌模块对初始的阅读顺序进行洗牌,获得洗牌后的空间关注特征;将空间关注特征输入解码器,获得预测结果;根据预测结果,采用最小化损失函数训练模型,获得训练好的车牌识别模型;获取待识别的车牌图像数据并输入训练好的车牌识别模型中,获得预测车牌号码。采用本发明,可提高低资源车牌识别的性能。

    一种基于堆栈记忆网络的多模态语音合成方法及系统

    公开(公告)号:CN116543749B

    公开(公告)日:2023-09-15

    申请号:CN202310814315.9

    申请日:2023-07-05

    Abstract: 本发明提供一种基于堆栈记忆网络的多模态语音合成方法及系统,涉及视频和语音处理技术领域,包括:用视频信息辅助从文本中合成具有视听同步性的语音。从人脸中提取说话人特性,即利用人脸控制合成语音的音色。在训练和推理时,通过引入的视频‑语音堆栈记忆网络,显式的利用视频检索对应语音,并从检索得到的语音中提取风格特征,解决多模态TTS模块训练‑推理风格不匹配的问题并增强合成音频的表现性,定制个性化语音。本发明引入视频‑语音堆栈记忆网络显式的连接视频和语音两个模态,而非利用距离损失去最小化不同模态信息提取的特征之间的距离。

    一种基于Transformer的人脸检测方法及装置

    公开(公告)号:CN116740790B

    公开(公告)日:2024-02-09

    申请号:CN202310746034.4

    申请日:2023-06-21

    Abstract: 本发明公开了一种基于Transformer的人脸检测方法及装置,涉及计算机视觉技术领域。包括:获取待检测的图像数据;将图像数据输入到训练好的基于Transformer的人脸检测模型;其中,基于Transformer的人脸检测模型包括特征提取模块、多尺度特征构造模块、人脸检测模块以及人脸关键点检测模块;根据图像数据以及基于Transformer的人脸检测模型,得到图像数据的人脸检测结果。本发明使用Transformer作为骨干网络,通过双阶段目标检测结构实现基于Transformer的人脸检测。这样既能有效利用Transformer能更好地获得全局信息的特点,又能保证在使用相对较小的数据集时模型能够快速收敛。

    一种基于Transformer的人脸检测方法及装置

    公开(公告)号:CN116740790A

    公开(公告)日:2023-09-12

    申请号:CN202310746034.4

    申请日:2023-06-21

    Abstract: 本发明公开了一种基于Transformer的人脸检测方法及装置,涉及计算机视觉技术领域。包括:获取待检测的图像数据;将图像数据输入到训练好的基于Transformer的人脸检测模型;其中,基于Transformer的人脸检测模型包括特征提取模块、多尺度特征构造模块、人脸检测模块以及人脸关键点检测模块;根据图像数据以及基于Transformer的人脸检测模型,得到图像数据的人脸检测结果。本发明使用Transformer作为骨干网络,通过双阶段目标检测结构实现基于Transformer的人脸检测。这样既能有效利用Transformer能更好地获得全局信息的特点,又能保证在使用相对较小的数据集时模型能够快速收敛。

    一种多模态的表现性语音合成方法及装置

    公开(公告)号:CN116386590B

    公开(公告)日:2023-08-15

    申请号:CN202310613237.6

    申请日:2023-05-29

    Abstract: 本发明公开了一种多模态的表现性语音合成方法及装置,属于语音合成技术领域,方法包括:将噪声语谱图和与噪声语谱图对应的第一无声视频序列输入至噪声掩码编码器,通过噪声掩码编码器获得去噪掩码;将第二无声视频序列输入至多尺度风格编码器,通过多尺度风格编码器提供多尺度的风格嵌入;将文本信息输入至文本编码器,通过文本编码器获得文本信息嵌入;文本信息嵌入序列经过变量适配器的处理,获得帧级别的语音特征;将帧级别的语音特征与去噪掩码相乘,获得去噪后的帧级别的语音特征;将去噪后的帧级别的语音特征与风格嵌入在通道维度上进行拼接;将拼接得到的特征序列输入至解码器,通过解码器合成干净的语谱图。

    一种镍基耐磨耐蚀合金热浸镀方法

    公开(公告)号:CN1670236A

    公开(公告)日:2005-09-21

    申请号:CN200510011589.6

    申请日:2005-04-19

    Abstract: 提供了一种耐磨耐蚀的镍基自熔合金的热浸镀方法,属于金属制品表面涂层保护技术领域。工艺包括:清洁镀件表面,清除表面的油污和氧化层以及杂质;在炉中真空或惰性气体保护下熔炼Ni-Cr-Si-B系合金,加热到超过其熔点,使其熔化成镀液;将表面清理过的金属制品镀件热浸镀前进行预热;将预热后的镀件浸入镍基合金的镀液中进行热浸镀;冷却。本发明的优点在于:涂层和基体表面形成牢固的化学冶金结合,其厚度根据需要控制在0.05~1mm,涂层具优异的耐磨耐蚀性能,并且工艺简化,成本低,易实用化。

    一种基于堆栈记忆网络的多模态语音合成方法及系统

    公开(公告)号:CN116543749A

    公开(公告)日:2023-08-04

    申请号:CN202310814315.9

    申请日:2023-07-05

    Abstract: 本发明提供一种基于堆栈记忆网络的多模态语音合成方法及系统,涉及视频和语音处理技术领域,包括:用视频信息辅助从文本中合成具有视听同步性的语音。从人脸中提取说话人特性,即利用人脸控制合成语音的音色。在训练和推理时,通过引入的视频‑语音堆栈记忆网络,显式的利用视频检索对应语音,并从检索得到的语音中提取风格特征,解决多模态TTS模块训练‑推理风格不匹配的问题并增强合成音频的表现性,定制个性化语音。本发明引入视频‑语音堆栈记忆网络显式的连接视频和语音两个模态,而非利用距离损失去最小化不同模态信息提取的特征之间的距离。

    一种多模态的表现性语音合成方法及装置

    公开(公告)号:CN116386590A

    公开(公告)日:2023-07-04

    申请号:CN202310613237.6

    申请日:2023-05-29

    Abstract: 本发明公开了一种多模态的表现性语音合成方法及装置,属于语音合成技术领域,方法包括:将噪声语谱图和与噪声语谱图对应的第一无声视频序列输入至噪声掩码编码器,通过噪声掩码编码器获得去噪掩码;将第二无声视频序列输入至多尺度风格编码器,通过多尺度风格编码器提供多尺度的风格嵌入;将文本信息输入至文本编码器,通过文本编码器获得文本信息嵌入;文本信息嵌入序列经过变量适配器的处理,获得帧级别的语音特征;将帧级别的语音特征与去噪掩码相乘,获得去噪后的帧级别的语音特征;将去噪后的帧级别的语音特征与风格嵌入在通道维度上进行拼接;将拼接得到的特征序列输入至解码器,通过解码器合成干净的语谱图。

Patent Agency Ranking