一种基于局部和全局跨通道融合的声纹识别方法

    公开(公告)号:CN117496980B

    公开(公告)日:2024-03-26

    申请号:CN202311845138.7

    申请日:2023-12-29

    Abstract: 本发明公开了一种基于局部和全局跨通道融合的声纹识别方法,属于数字信号处理和语音识别技术领域,该方法引入了局部和全局跨通道融合的设计,通过将一个整理的信息划分为两个部分,分别对其进行局部和全局特征提取,接着将局部和全局特征进行融合,让信息更加丰富增加模型识别的泛化能力。该方法在声纹识别中具有较高的准确率和实时性,并行的设计在没有加宽模型的宽度前提下,进一步加快了运算速度,弥补了传统的声纹识别技术在准确性和运算速度方面存在的不足,在语音助手唤醒、身份证和信用卡识别等相关应用场景具有较大的应用潜力。

    一种基于扩张卷积和密集连接的镜头边界检测方法

    公开(公告)号:CN117456431A

    公开(公告)日:2024-01-26

    申请号:CN202311799128.4

    申请日:2023-12-26

    Abstract: 本发明涉及视频检索领域,尤其是涉及一种基于扩张卷积和密集连接的镜头边界检测方法。所述检测方法包括如下步骤:对视频进行预处理,将视频的帧转换为48×27像素大小,这样做计算量相对较小,可以加快模型的训练速度,并减少过拟合。对于训练集,训练脚本随机选择包含注释过渡的100帧序列。将处理后的帧序列输入训练好的神经网络模型;模型输出每一帧的镜头边界概率,根据设定的阈值得到镜头边界帧,用于分割镜头。本发明通过在视频帧上运用卷积神经网络,准确判定镜头边界,实现视频分割,有利于视频管理和检索。本发明所涉及方法综合运用扩张卷积、自注意力和密集连接等技术,强化了特征提取和传递,提高了镜头边界检测的准确性和效率。

    一种基于局部和全局跨通道融合的声纹识别方法

    公开(公告)号:CN117496980A

    公开(公告)日:2024-02-02

    申请号:CN202311845138.7

    申请日:2023-12-29

    Abstract: 本发明公开了一种基于局部和全局跨通道融合的声纹识别方法,属于数字信号处理和语音识别技术领域,该方法引入了局部和全局跨通道融合的设计,通过将一个整理的信息划分为两个部分,分别对其进行局部和全局特征提取,接着将局部和全局特征进行融合,让信息更加丰富增加模型识别的泛化能力。该方法在声纹识别中具有较高的准确率和实时性,并行的设计在没有加宽模型的宽度前提下,进一步加快了运算速度,弥补了传统的声纹识别技术在准确性和运算速度方面存在的不足,在语音助手唤醒、身份证和信用卡识别等相关应用场景具有较大的应用潜力。

    一种基于扩张卷积和密集连接的镜头边界检测方法

    公开(公告)号:CN117456431B

    公开(公告)日:2024-03-26

    申请号:CN202311799128.4

    申请日:2023-12-26

    Abstract: 本发明涉及视频检索领域,尤其是涉及一种基于扩张卷积和密集连接的镜头边界检测方法。所述检测方法包括如下步骤:对视频进行预处理,将视频的帧转换为48×27像素大小,这样做计算量相对较小,可以加快模型的训练速度,并减少过拟合。对于训练集,训练脚本随机选择包含注释过渡的100帧序列。将处理后的帧序列输入训练好的神经网络模型;模型输出每一帧的镜头边界概率,根据设定的阈值得到镜头边界帧,用于分割镜头。本发明通过在视频帧上运用卷积神经网络,准确判定镜头边界,实现视频分割,有利于视频管理和检索。本发明所涉及方法综合运用扩张卷积、自注意力和密集连接等技术,强化了特征提取和传递,提高了镜头边界检测的准确性和效率。

    一种基于镜头特征的视频检索方法

    公开(公告)号:CN117473120A

    公开(公告)日:2024-01-30

    申请号:CN202311815386.7

    申请日:2023-12-27

    Abstract: 本发明公开了一种基于镜头特征的视频检索方法,属于视频检索领域。本方法一共分为三个步骤,分别是镜头分割、特征提取、相似度计算及排序。镜头分割使用AutoShot模型对视频进行镜头划分,特征提取使用MC3_18模型对划分的镜头进行特征提取,相似度计算及排序计算镜头特征向量之间的余弦相似度并排序输出结果。本方法是一种以视频找视频的方法,其优点是能够有效解决通过视频片段寻找完整视频的难题且检索结果受到视频后期剪辑导致的画面顺序变动的影响小。

Patent Agency Ranking