一种语音识别方法及装置和智能音箱

    公开(公告)号:CN111785282B

    公开(公告)日:2024-11-05

    申请号:CN201910265991.9

    申请日:2019-04-03

    发明人: 郑斯奇

    摘要: 本申请公开了一种语音识别方法及装置和智能音箱,本申请使用根据近场语音和远场语音训练好的降噪自动编码器,将需要识别的语音信息的声纹特征向量,特别是远场的声纹特征向量,投影到了与近场声纹特征尽可能相似的空间,再利用降噪自动编码器输出的声纹特征向量实现后续对语音用户身份的识别,降低了由于说话人与设备之间的距离而带来的不能准确识别出远离设备的说话人身份的问题,提升了远场声纹识别的鲁棒性。

    一种基于3D卷积的生态环境鸟类鸣声识别方法

    公开(公告)号:CN118538226B

    公开(公告)日:2024-09-24

    申请号:CN202411001630.0

    申请日:2024-07-25

    摘要: 本申请涉及语音处理技术领域,具体涉及一种基于3D卷积的生态环境鸟类鸣声识别方法,包括:采集自然环境音频数据,获取有效音频信号,划分滑动窗口,获取每个滑动窗口的信号周期,计算振幅变异因子以及音频结构单调因子,获取鸟鸣置信系数,构建鸟鸣增强信号,计算频域受扰因子以及鸟鸣信号差异因子,获取鸟鸣受扰系数,根据鸟鸣受扰系数以及鸟鸣增强信号中的有效音频信号确定平滑系数,获取鸟类鸣声识别结果。本申请旨在解决传统的维纳滤波算法未考虑到自然环境中音频信号的复杂性导致难以在保留鸟类鸣声细节信息的同时兼顾对自然环境中音频信号的去噪效果的问题。

    一种音频识别方法、装置、电子设备及存储介质

    公开(公告)号:CN114550731B

    公开(公告)日:2024-09-17

    申请号:CN202210343564.X

    申请日:2022-03-31

    摘要: 本公开提供了一种音频识别方法、装置、电子设备、可读存储介质以及计算机程序产品,涉及人工智能、安全认证技术以及声纹识别技术领域。具体实现方案为:基于待识别音频在频域对应的第一音频特征,确定所述待识别音频在实数域对应的第二音频特征;利用目标压缩函数对所述第二音频特征进行特征压缩,获得所述待识别音频对应的非线性音频特征,所述目标压缩函数为预先对可平滑对数压缩函数进行参数学习得到的,所述可平滑对数压缩函数中包括预设的可学习参数;基于所述非线性音频特征,确定所述待识别音频对应的音频识别结果。该方案能够在无需人工提取音频特征的情况下,高效的模拟出待识别音频的非线性,进而能够提高音频识别的安全性和识别效率。

    基于人工智能的智慧课堂学生参与度多维评估方法及系统

    公开(公告)号:CN118071551A

    公开(公告)日:2024-05-24

    申请号:CN202410116738.8

    申请日:2024-01-26

    发明人: 吴昊 郭艺涵

    摘要: 本发明公开了一种基于人工智能的智慧课堂学生参与度多维评估方法及系统,涉及音视频数据处理技术领域。该方法包括:提取学生听课视频中的图像;进行人脸检测,以得到对应的人脸区域图像;对每个人脸区域图像进行专注度检测;确定学习专注度;实时采集课堂中的发言语音信号,进行声纹识别,若为学生身份,则对该学生的发言语音信号进行识别,根据语音内容识别结果判定是否为有效发言;确定发言踊跃度;根据该课堂学生的学习专注度和发言踊跃度对该课堂学生的参与度进行评估。本发明结合多种智能模型实现精准高效的学习专注度检测、身份识别及语音内容识别;结合学习专注度和发言踊跃度,从多个维度对学生的参与度进行更加有效的评估。

    用于室内多人识别检测的深度学习模型的训练方法及系统

    公开(公告)号:CN117912471A

    公开(公告)日:2024-04-19

    申请号:CN202410129198.7

    申请日:2024-01-30

    摘要: 本发明实施例提供一种用于室内多人识别检测的深度学习模型的训练方法。该方法包括:对室内进行音量活动检测,确定出没有达到预设功率密度阈值的室内噪声训练集,以及达到预设功率密度阈值的脚步声训练集;利用室内噪声训练集确定室内环境噪声信噪比,基于信噪比更新室内噪声库;基于室内噪声库滤除脚步声训练集中的附加噪声,得到第一样本特征;通过动态时间规整确定脚步声训练集的概率分布函数,利用概率分布函数建立相似矩阵,匹配得到第二样本特征;对深度学习模型进行训练,直至模型收敛。本发明实施例基于动态时间规整的信号包络相关性分析有效降低了检测触发伪造的概率。采用小波变换和谱减法进行特征提取,提高了多人检测的分辨性能。

    语音唤醒方法及相关设备
    6.
    发明公开

    公开(公告)号:CN117711410A

    公开(公告)日:2024-03-15

    申请号:CN202310629972.6

    申请日:2023-05-30

    发明人: 高欢

    摘要: 本申请实施例提供一种语音唤醒方法及相关设备。该方法包括:在第一时刻,电子设备接收到第一语音,电子设备唤醒语音助手;在第二时刻,电子设备接收到第二语音,电子设备唤醒语音助手;第二语音中的关键词与第一语音中的关键词不同;在第三时刻,电子设备接收到第三语音,电子设备不唤醒语音助手;第三语音中的关键词与第一语音中的关键词不同,第三语音中的关键词与第二语音中的关键词不同。这样,当关键词是命令词时,电子设备唤醒语音助手;当关键词不是命令词时,电子设备不唤醒语音助手;可丰富电子设备的语音交互功能的唤醒场景,同时,降低误唤醒的语音助手的概率。

    一种基于多渠道聚合的意图分类方法、装置、设备及介质

    公开(公告)号:CN117648440A

    公开(公告)日:2024-03-05

    申请号:CN202311613675.9

    申请日:2023-11-27

    发明人: 马亿凯

    摘要: 本发明涉及人工智能技术领域,尤其涉及一种基于多渠道聚合的意图分类方法、装置、设备及介质。获取待推荐对象所在的N个推荐渠道,确定推荐渠道记录的待推荐对象的内容信息,对内容信息进行关键词提取,得到推荐渠道的关键词,从预设的意图类别中选取与关键词匹配的匹配意图类别集,将N个匹配意图类别集中的匹配意图类别进行聚合处理,得到意图聚合结果,对意图聚合结果中的匹配意图类别进行评分处理,得到每个匹配意图类别中的评分结果,根据评分结果,确定待推荐对象的目标意图类别。先提取待推荐用户在单推荐渠道中的意图类别,再将多推荐渠道中的意图类别进行聚合处理,根据聚合后的结果再次进行意图挖掘分类,提高了意图分类的精度。

    机器语音的鉴别方法、装置、设备及存储介质

    公开(公告)号:CN112309404B

    公开(公告)日:2024-01-19

    申请号:CN202011169295.7

    申请日:2020-10-28

    发明人: 张超 马骏 王少军

    摘要: 本发明涉及人工智能领域,公开了一种机器语音的鉴别方法、装置、设备及存储介质,用于提高机器语音的鉴别效率。机器语音的鉴别方法包括:获取用户输入的初始语音,并对初始语音进行预处理,得到目标语音,预处理包括音频切分处理、均值归一化处理、预增强处理、加窗处理与添加随机噪声;通过特征提取函数计算目标语音的功率能量谱,根据功率能量谱计算目标语音中的语音特征;通过预置深度神经网络模型中的卷积层、通道区块、过度区块、全连接层和分类网络层对语音特征进行计算,得到语音确信值;当语音确信值小于或等于辨别阈值时,确定目标语音为机器语音。此外,本发明还涉及区块链技术,用户输入的初始语音可存储于区块链中。

    一种声纹注册方法、装置及设备
    9.
    发明公开

    公开(公告)号:CN116863941A

    公开(公告)日:2023-10-10

    申请号:CN202310867638.4

    申请日:2023-07-15

    发明人: 班荣军

    摘要: 本发明公开了声纹注册技术领域的一种声纹注册方法、装置及设备,包括:通过录音设备记录说话人的语音数据,采集的语音数据进行语音识别,获得语音识别结果,对语音数据存储;对获取的语音样本切分为长度相同的语音帧;将语音识别得到的语音识别结果与随机内容进行比对,保存比对结果一致的语音数据作为原始文件;获取每条语音段中每个语音帧的声纹识别特征,并于声纹注册的录音文件进行声纹注册,该声纹注册方法、装置及设备,结构设计合理,能够使注册的声纹质量提高,语言采集的数据更的精准,能够在用户声音出现变化的情况下,能够精准识别,避免因声音的变化导致声纹的录制失败,能够一次性完成声纹的录制,无需反复注册。