一种量化模型的生成方法及装置、电子设备及存储介质

    公开(公告)号:CN115759238B

    公开(公告)日:2023-08-11

    申请号:CN202310005904.2

    申请日:2023-01-04

    Abstract: 本公开涉及一种量化模型的生成方法及装置、电子设备及存储介质,所述方法包括:对于预先训练的目标检测模型进行量化;根据所述目标检测模型每一网络层的量化前与量化后输出值的差值,确定每一网络层对目标检测模型的贡献度;对于贡献度小于预设阈值的所有网络层进行分组,确定每一组的网络层;对每一组的网络层和贡献度大于或等于预设阈值的每一网络层,进行并行量化,得到与所述目标检测模型对应的量化模型,将每一组的多个贡献度小于预设阈值的网络层与单个贡献度大于或等于预设阈值的网络层进行并行量化,能够通过对贡献度较大的网络层进行单独量化,确保量化过程精度,并通过并行量化的方式提高量化过程的速度。

    人窗相对距离的确定方法、装置、电子设备及存储介质

    公开(公告)号:CN119963483A

    公开(公告)日:2025-05-09

    申请号:CN202411908740.5

    申请日:2024-12-23

    Abstract: 本公开涉及安全监测领域,更具体地,本公开涉及一种人窗相对距离的确定方法、装置、电子设备及存储介质。方法包括:通过预训练的目标检测模型识别目标图像,获得第一检测框和第二检测框的检测框信息,其中所述第一检测框用于标记人体在所述目标图像中对应的区域,所述第二检测框用于标记窗户在所述目标图像中对应的区域;分别确定人体和窗户在所述目标图像中的深度信息;根据所述检测框信息和深度信息确定人体和窗户的相对距离。

    家装场景的智能调度系统、方法、电子设备及存储介质

    公开(公告)号:CN119902496A

    公开(公告)日:2025-04-29

    申请号:CN202411907962.5

    申请日:2024-12-23

    Abstract: 本公开涉及智能调度领域,更具体地,本公开涉及一种家装场景的智能调度系统、方法、电子设备及存储介质。系统包括:解析模块,所述解析模块基于大语言模型解析用户输入的信息,获得输入特征;模型选择模块,所述模型选择模块基于所述解析模块获得的所述输入特征,从预存储的多个模型中确定与所述用户输入的信息相关的目标模型;处理模块,所述处理模块通过所述目标模型对所述用户输入的信息进行处理,获得对应的处理结果。

    保护壁纸类型的识别方法、装置、电子设备及存储介质

    公开(公告)号:CN119810806A

    公开(公告)日:2025-04-11

    申请号:CN202411756387.3

    申请日:2024-12-02

    Abstract: 本公开涉及壁纸检测领域,更具体地,本公开涉及一种保护壁纸类型的识别方法、装置、电子设备及存储介质。方法包括:通过预训练的目标检测模型检测识别目标图像,获得第一检测框、第二检测框和第三检测框,其中,第一检测框用于标记门在目标图像中对应的区域,第二检测框用于标记窗户在目标图像中对应的区域,第三检测框用于标记保护壁纸在目标图像中的对应的区域;基于第一检测框、第二检测框和第三检测框的相对位置关系,确定每个第三检测框对应的保护壁纸的类型,保护壁纸的类型包括门的保护壁纸、窗户的标准壁纸或其他类型的保护壁纸。

    一种基于局部注意力机制的人脸活体检测方法及装置

    公开(公告)号:CN117133059A

    公开(公告)日:2023-11-28

    申请号:CN202311045752.5

    申请日:2023-08-18

    Abstract: 本发明提供一种基于局部注意力机制的人脸活体检测方法和装置,方法包括:S1、将人脸活体检测数据集中的视频进行预处理,得到预处理后的图片数据;S2、在图像分类数据集ImageNet上预训练的视觉Transformer模型Vi T中,插入局部注意力Patch Attent i on模块和新的MLP分类头,再使用所述预处理后的图片数据对新的视觉Transformer模型进行微调,得到训练完成的Vi T*模型;S3、使用所述Vi T*模型作为教师网络,指导插入局部注意力Patch Attent i on模块的轻量级Vi T‑T i ny模型学习,训练得到最终的Vi T‑T i ny*模型;S4、使用最终的Vi T‑T i ny*模型进行推理,判断待检测图片是否为真实人脸。本发明对演示攻击具有良好的分辨能力,从而提升模型检测精度。

    一种基于堆栈记忆网络的多模态语音合成方法及系统

    公开(公告)号:CN116543749B

    公开(公告)日:2023-09-15

    申请号:CN202310814315.9

    申请日:2023-07-05

    Abstract: 本发明提供一种基于堆栈记忆网络的多模态语音合成方法及系统,涉及视频和语音处理技术领域,包括:用视频信息辅助从文本中合成具有视听同步性的语音。从人脸中提取说话人特性,即利用人脸控制合成语音的音色。在训练和推理时,通过引入的视频‑语音堆栈记忆网络,显式的利用视频检索对应语音,并从检索得到的语音中提取风格特征,解决多模态TTS模块训练‑推理风格不匹配的问题并增强合成音频的表现性,定制个性化语音。本发明引入视频‑语音堆栈记忆网络显式的连接视频和语音两个模态,而非利用距离损失去最小化不同模态信息提取的特征之间的距离。

Patent Agency Ranking