一种面向实时语音通讯的丢包补偿方法

    公开(公告)号:CN116248229A

    公开(公告)日:2023-06-09

    申请号:CN202211572689.6

    申请日:2022-12-08

    Abstract: 本发明公开一种面向实时语音通讯的丢包补偿方法,包括如下步骤:构建基于对抗神经网络的补偿训练模型,所述补偿训练模型包括补偿系数生成器、谐波组和逼真度判别器;将历史音频输入至所述补偿系数生成器和谐波组中处理,获得初始修补音频;通过所述逼真度判别器计算初始修补音频与所述历史音频所对应的无丢包真实音频之间的相似度;基于相似度,更新补偿训练模型的参数,继续训练,直到模型收敛或达到最大迭代次数,输出当前的补偿系数生成器和谐波组作为训练好的丢包补偿模型。本发明能够更加准确地预测出丢失的音频帧,提高实时语音通讯中的音频质量。

    基于哈希加密的声纹认证隐私保护方法

    公开(公告)号:CN116055061A

    公开(公告)日:2023-05-02

    申请号:CN202310058677.X

    申请日:2023-01-18

    Abstract: 基于哈希加密的声纹认证隐私保护方法,对提取的声纹特征向量进行处理,生成二进制哈希声纹特征向量,通过随机投影然后带量化将得到的二进制哈希特征向量转换为位序列,生成哈希串特征向量q1,并将其保存到服务端。提取待验证语音音频数据的声纹特征向量,对声纹特征向量进行处理,生成二进制哈希声纹特征向量,通过随机投影然后带量化将得到的二进制哈希特征向量转换为位序列,生成哈希串特征向量q2;由哈希串特征向量q2与服务端哈希串特征向量q1进行匹配,计算q2于q1的汉明距离,得到决策结果,如完全匹配则认证,若否则拒绝。解决了声纹特征不被他人利用、泄露或篡改,保护使用者隐私的难题。

    一种基于语音识别技术的智能安防系统

    公开(公告)号:CN115083417A

    公开(公告)日:2022-09-20

    申请号:CN202210658453.8

    申请日:2022-06-11

    Inventor: 张星东 丁卓

    Abstract: 本发明属于安防系统技术领域,尤其为一种基于语音识别技术的智能安防系统,包括语音识别单元、人脸识别单元、动作识别单元和中央处理系统,所述人脸识别单元用于实时采集目标环境周围的图像信息,提取图像信息中的人脸图像特征,将提取到的人脸图像特征数据与人脸库中存储的人脸特征数据进行匹配,进行人脸识别;所述中央处理系统用于将语音识别数据及结果、人脸识别数据及结果和动作识别数据及结果进行整合处理,上传整合后的数据至后台远程终端。本发明用以语音识别技术为主,人脸识别技术和动作识别技术为辅的三重安防监测方式,实现对目标环境的高可靠性安全防控,较之单一安防监测方式大大提高了其检测结果的准确性和可靠性。

    电话卡冒用检测方法、系统、计算机设备及存储介质

    公开(公告)号:CN113763963B

    公开(公告)日:2025-02-18

    申请号:CN202110974150.2

    申请日:2021-08-24

    Abstract: 本方案涉及一种电话卡冒用检测方法、系统、计算机设备及存储介质。所述方法包括:获取包含有疑似被冒用电话卡的电话号码的嫌疑名单;获取与电话号码对应机主的电话录音,并通过重采样算法将电话录音的采集频率调整为目标采集频率;将含有目标采集频率的电话录音输入至声纹识别算法模型中,得到与电话录音对应的声纹特征;在注册录音底库中查找与电话号码对应的注册声纹特征;将声纹特征与注册声纹特征进行比对,得到比对结果,并根据比对结果确定电话号码对应的电话卡是否被冒用。通过对采集的电话录音以及数据库中的目标电话录音进行声纹识别,从而根据声纹识别结果确定电话录音对应的机主是否为注册机主,可以准确检测出电话卡是否被冒用。

    基于多模态数据融合的环境音事件检测方法

    公开(公告)号:CN119446154A

    公开(公告)日:2025-02-14

    申请号:CN202411562113.0

    申请日:2024-11-05

    Inventor: 赵胜 丁卓

    Abstract: 本发明涉及环境音事件检测技术领域,具体涉及一种基于多模态数据融合的环境音事件检测方法,利用麦克风阵列、摄像头和传感器同步采集音频、视频及环境数据,形成多模态数据源。对采集到的多模态数据进行预处理,以提高数据质量和后续分析的准确性。从处理后的数据中提取关键特征,并将这些特征进行融合,形成多模态特征。构建深度学习模型,并使用多模态特征进行训练,以获得能够识别环境音事件的模型。将训练后的模型进行剪枝、量化和知识蒸馏等优化,部署在边缘设备上,实现实时的初步特征提取和事件检测。解决了现有技术中环境音事件检测方法存在的鲁棒性差、实时性不高以及泛化能力有限的问题。

    基于选择性扫描视觉状态空间模型的视频序列分割方法

    公开(公告)号:CN119206568A

    公开(公告)日:2024-12-27

    申请号:CN202411238187.9

    申请日:2024-09-05

    Inventor: 丁建睿 张听 丁卓

    Abstract: 本发明涉及深度学习语义分割技术领域,尤其涉及一种基于选择性扫描视觉状态空间模型的视频序列分割方法,将图像序列输入到重叠特征块划分层,将输入图像序列划分为图像特征块序列;将图像特征块序列输入到基于选择性扫描视觉的状态空间模型编码器中提取不同尺度上的粗细特征序列;将不同尺度上的粗细特征序列输入到多层感知机层进行多级特征的有效融合得到特征序列;将特征序列输入到基于卷积神经网络的轻量级解码头预测分割掩码,并进行视觉可视化生成语义分割图;以此方式解决了现有技术中传统的卷积神经网络接受范围有限,并且基于自注意力的网络在构建长期依赖方面具有极高的计算复杂度,从而导致图像序列分割效果差的技术问题。

    一种基于分贝和能量值转换的音频分析方法及系统

    公开(公告)号:CN119028371A

    公开(公告)日:2024-11-26

    申请号:CN202410969187.X

    申请日:2024-07-19

    Inventor: 谢羽凯 丁卓

    Abstract: 本发明涉及音频分析技术领域,具体涉及一种基于分贝和能量值转换的音频分析方法及系统;音频信号预处理模块用于接收音频信号,并对音频信号进行预处理,去除音频信号中的噪声,得到音频处理信号;分贝值计算模块用于计算音频处理信号中的SPL值,提取分贝值;能量值提取模块用于计算每帧音频处理信号的短时能量值;转换融合模块用于融合分贝值和能量值,对音频信号中的关键信息进行整合和提炼;通过将分贝值和能量值的分析相结合,实现对音频信号更为全面和深入的分析,不仅能够提高音频分析的准确性和可靠性,而且能够在保证实时性的同时减少资源消耗。

    一种基于循环生成对抗网络的图像风格迁移方法

    公开(公告)号:CN117994122B

    公开(公告)日:2024-11-26

    申请号:CN202410135881.1

    申请日:2024-01-31

    Inventor: 郑宇力 丁卓

    Abstract: 本发明涉及计算机视觉技术领域,具体涉及一种基于循环生成对抗网络的图像风格迁移方法;将风格A的图像集和风格B的图像集共同作为训练集,两种风格的图像集分别把对方的风格作为迁移目标,构建一个用于判断图像的风格和是否经过迁移的判别器,两个用于进行风格迁移的生成器;利用推土机距离和梯度惩罚更新判别器,利用循环一致性损失、一致性损失和两个生成器损失更新生成器;通过推土机距离收敛与否判断训练进程;通过实际生成的效果图来调整多优化目标的损失函数的超参数;本发明改善了循环生成对抗网络训练的稳定性,使得训练进程可视化,有效降低了模型训练的难度,可以用于不同数据集的图像风格迁移任务。

    一种基于改进ESPRIT算法的宽带信号DOA估计方法

    公开(公告)号:CN118859102A

    公开(公告)日:2024-10-29

    申请号:CN202410837357.9

    申请日:2024-06-26

    Abstract: 本发明提出了一种基于改进ESPRIT算法的宽带信号DOA估计方法,将ESPRIT算法所需的阵元偶麦克风阵列通过麦克风复用简化为均匀线阵;并针对阵列位移矢量大于信号最小半波长时出现的相位卷绕问题,在用窄带ESPRIT算法估计宽带信号声源DOA的任务上给出了基于聚类的解卷绕方案。以开始出现相位卷绕的频率点为界限,将整个频带分为两部分。统计无相位卷绕的部分频率点信号DOA估计结果作为聚类中心的初始值,利用先验聚类中心对应的方向角引导存在相位卷绕的部分频率点信号进行相位解卷绕,从而避免拓展孔径阵列对中高频率信号DOA估计造成的误差,实现全频带的无相位卷绕DOA估计。该方法使得麦克风阵列能够藉由拓展阵列孔径获得更准确的估计结果。

    一种基于局部差异信息辅助的小样本类增量音频分类方法

    公开(公告)号:CN118366475A

    公开(公告)日:2024-07-19

    申请号:CN202410415397.4

    申请日:2024-04-08

    Abstract: 本发明公开了一种基于局部差异信息辅助的小样本类增量音频分类方法,本发明包括计算模块预训练阶段和分类器融合阶段,将音频分类数据集样本按照类别划分为基类、伪新类和新类,这三个类别互不重叠;所述计算模块预训练阶段为训练特征提取网络,基类分类器和小样本分类权重生成器;所述分类器融合阶段为:从基类中选取每个类别的代表性样本与新类样本混合得到混合样本,将基类分类器与新类分类器级联输入到知识保存模块中,基于混合样本训练知识保存模块,输出能够同时识别基类和新类的统一分类器。本发明改善了相似的新类与基类之间的混淆问题,提高了模型同时识别基类和新类的准确率。

Patent Agency Ranking