一种基于freeswitch呼叫中心的音频流识别推送系统

    公开(公告)号:CN119052362A

    公开(公告)日:2024-11-29

    申请号:CN202411025522.7

    申请日:2024-07-30

    Inventor: 周坤坤 丁卓

    Abstract: 本发明涉及通信技术领域,具体涉及一种基于freeswitch呼叫中心的音频流识别推送系统;包括音频流数据接收模块、音频流预处理模块、音频流识别推送模块、结果推送模块和集成模块;音频流数据接收模块用于接收音频流数据;音频流预处理模块用于对接收到的音频流数据进行预处理,去除音频流中的噪声和干扰;音频流识别推送模块用于对预处理后的音频流数据进行识别,将语音信息数据转换为文字信息数据,得到识别结果;结果推送模块用于将识别结果推送至终端设备,进行结果的实时传输和共享,通过上述方式,获得提高freeswitch呼叫中心的音频流传输效果和质量的效果。

    基于PANNs结构的口吃类型检测方法
    22.
    发明公开

    公开(公告)号:CN118969014A

    公开(公告)日:2024-11-15

    申请号:CN202411194757.9

    申请日:2024-08-29

    Inventor: 谭涛 丁卓 邵曦

    Abstract: 本发明涉及医疗检测技术领域,具体涉及一种基于PANNs结构的口吃类型检测方法,包括:获取原始训练数据并进行各种变换处理,生成具有多样性的训练数据,以增加训练数据的多样性,将具有多样性的训练数据置入PANNs‑CNN14模型中对PANNs‑CNN14模型进行预训练,基于预训练好的PANNs‑CNN14模型来提取声音的深层特征,精准的识别和分类不同的口吃类型,将PANNs‑CNN14模型输出进行解码转换为二进制标签,获得具体的口吃事件标签,完成对口吃事件的分类和识别,达到了不依赖于特定语言的语音识别特性,可以适应各种语言的音频数据,提高了系统的通用性和适应性的效果。

    一种用于提高数据传输安全的隐私计算方法及系统

    公开(公告)号:CN118842584A

    公开(公告)日:2024-10-25

    申请号:CN202411116875.8

    申请日:2024-08-15

    Inventor: 李朋程 丁卓

    Abstract: 本发明涉及计算机技术领域,具体公开了一种用于提高数据传输安全的隐私计算方法及系统,包括数据混淆模块、数据传输模块和扩展加密算法模块,数据混淆模块生成盐值和秘钥,确保数据的混淆性和完整性,数据传输模块负责保障数据传输过程的完整性和安全性,对请求参数和请求结果进行加密,同时采用不可逆的加密算法,扩展加密算法模块通过增加秘钥长度、轮数和修改轮函数来提高加密强度。使用AES扩展算法对传输的数据进行加密,确保数据在传输过程中即使被截获也无法阅读,每个消息都使用不同的盐值,并且使用密钥进行计算,使得攻击者无法轻易预测盐值或破解密钥,保证加密数据的混淆性和不可逆性。

    一种拓展孔径双麦克风阵列宽带无模糊DOA估计方法

    公开(公告)号:CN118707439A

    公开(公告)日:2024-09-27

    申请号:CN202410837353.0

    申请日:2024-06-26

    Abstract: 本发明提出了一种拓展孔径双麦克风阵列宽带无模糊DOA估计方法,针对麦克风阵列拓展孔径产生相位模糊的问题,在用窄带MUSIC算法估计宽带信号声源DOA的任务上给出了基于聚类的解模糊方案。以开始出现相位模糊的频率点为界限,将整个频带分为两部分。对于无相位模糊的部分频率点,直接用窄带MUSIC算法估计信号的MUSIC谱,读取峰值坐标为当前频率点信号DOA估计结果;并用这部分频带信号的估计结果初始化聚类中心,引导存在相位模糊的部分频率点,对存在伪峰的谱函数进行修正,从修正后的谱函数上读取峰值坐标为当前频率点信号估计结果。从而实现全频带的无模糊DOA估计。该方法使得双麦克风阵列能够藉由拓展阵列孔径获得更准确的DOA估计结果。

    一种基于自适应步长LMS滤波器的广义旁瓣消除方法

    公开(公告)号:CN118571244A

    公开(公告)日:2024-08-30

    申请号:CN202410615296.1

    申请日:2024-05-17

    Abstract: 本发明提出了一种基于自适应步长最小均方误差滤波器的广义旁瓣消除方法,根据基于循环插值的双通道互相关算法和宽带MUSIC算法,利用麦克风阵列从音频中收集目标语音的波达方向信息,根据波达方向信息补偿麦克风阵列各通道音频间的时延,并将时延补偿后的音频在时频域上表示,作为波束形成部分的输入,分别计算时延补偿后的音频通过固定波束形成滤波器和阻塞矩阵后得到的固定波束形成结果和多路参考噪声信号;估计音频中噪声的功率谱密度。最后计算固定波束形成器输出和噪声抑制后的参考噪声的残差,作为当前帧算法的输出;再将该输出反馈给噪声抑制滤波器,计算下一帧噪声抑制滤波器的权值,从而消除残留的旁瓣噪声,达到降噪的目的。

    一种车载情境感知语音交互系统
    26.
    发明公开

    公开(公告)号:CN118484161A

    公开(公告)日:2024-08-13

    申请号:CN202410552355.5

    申请日:2024-05-07

    Inventor: 赵胜 丁卓 段艺博

    Abstract: 本发明涉及通信技术领域,具体涉及一种车载情境感知语音交互系统;包括情感识别模块、环境感知模块、自适应反馈生成模块和交互历史管理模块,情感识别模块和环境感知模块分别与自适应反馈生成模块连接,自适应反馈生成模块与交互历史管理模块连接;情感识别模块用于分析驾驶者的情感状态;环境感知模块用于获取车辆内外部环境信息;自适应反馈生成模块用于根据驾驶者的情感状态和车辆内外部环境信息生成自适应的语音反馈;交互历史管理模块用于维护交互历史记录,通过上述结构,实现根据车辆内外部环境和驾驶者情绪,自适应地调整语音交互。

    基于情绪识别的伪造音频检测方法

    公开(公告)号:CN117059131B

    公开(公告)日:2024-03-29

    申请号:CN202311324794.2

    申请日:2023-10-13

    Inventor: 陈卓越 丁卓

    Abstract: 本发明涉及音频分析技术领域,具体涉及一种基于情绪识别的伪造音频检测方法;建立语音情绪识别系统,建立合成语音检测系统,使用语音情绪识别系统和合成语音检测系统对伪造音频进行检测,在建立语音情绪识别系统的步骤中:选择情感语音语料库,进行语音输入的预处理和转换,从语音中提取情感特定特征,使用分类模型来识别情感,在建立合成语音检测系统的步骤中:合成语音检测系统由二值分类器组成,以特征向量Fx作为输入,估计输入信号所属的类别,使用标准的34层残差网络,使用多头注意力池来学习假音频和欺骗检测的判别嵌入,利用神经拼接来提高模型的泛化能力,通过上述方式,实现更加全面地检测伪造音频。

    基于情绪识别的伪造音频检测方法

    公开(公告)号:CN117059131A

    公开(公告)日:2023-11-14

    申请号:CN202311324794.2

    申请日:2023-10-13

    Inventor: 陈卓越 丁卓 鲁宁

    Abstract: 本发明涉及音频分析技术领域,具体涉及一种基于情绪识别的伪造音频检测方法;建立语音情绪识别系统,建立合成语音检测系统,使用语音情绪识别系统和合成语音检测系统对伪造音频进行检测,在建立语音情绪识别系统的步骤中:选择情感语音语料库,进行语音输入的预处理和转换,从语音中提取情感特定特征,使用分类模型来识别情感,在建立合成语音检测系统的步骤中:合成语音检测系统由二值分类器组成,以特征向量Fx作为输入,估计输入信号所属的类别,使用标准的34层残差网络,使用多头注意力池来学习假音频和欺骗检测的判别嵌入,利用神经拼接来提高模型的泛化能力,通过上述方式,实现更加全面地检测伪造音频。

    基于大数据自监督的声纹识别模型训练方法、系统

    公开(公告)号:CN115472167A

    公开(公告)日:2022-12-13

    申请号:CN202210986290.6

    申请日:2022-08-17

    Abstract: 本方案涉及一种基于大数据自监督的声纹识别模型训练方法、系统。所述方法包括:各个分布式主机获取多源录音数据进行分布式存储,并对录音数据进行数据清洗,得到带标签的录音数据以及未带标签的录音数据;各个分布式主机对带标签的录音数据以及未带标签的录音数据切片处理,分别向切片处理后的录音数据加入噪声干扰,得到样本对并输入到自监督学习模型中,与服务器进行联邦学习模型训练,在服务器上训练得到声纹识别基础模型;服务器基于带标签的录音数据对基础模型的模型参数进行监督学习精调,得到声纹识别精调模型。采用横向联邦学习由服务器统筹存储在不同分布式主机上的多源数据用于声纹识别模型的大规模训练,可实现海量数据模型训练。

    用于电话语音识别的信息处理方法及装置

    公开(公告)号:CN117765951B

    公开(公告)日:2024-11-08

    申请号:CN202311224332.3

    申请日:2023-09-21

    Inventor: 赵胜 丁卓

    Abstract: 本申请公开了一种用于电话语音识别的信息处理方法及装置,其中方法包括获取非电话信道语音数据,并对所述非电话信道语音数据进行随机速度扰动,得到第一语音数据;对所述第一语音数据添加噪声和混响数据,得到第二语音数据;对所述第二语音数据进行音频降采样,并将降采样后的数据进行电话信道传输模拟,得到第三语音数据;基于所述第三语音数据,对预设的声纹识别用模型进行训练,以作为训练样本对所述预设的声纹识别用模型进行训练。通过特定的数据增强方式得到的数据用于声纹识别系统模型训练,实现少数据量情况下的电话信道声纹识别模型的训练,进而克服了在没有真实的电话数据可用的情况下将难以针对电话数据实施模型的训练的问题。

Patent Agency Ranking