-
公开(公告)号:CN111785282B
公开(公告)日:2024-11-05
申请号:CN201910265991.9
申请日:2019-04-03
申请人: 阿里巴巴集团控股有限公司
发明人: 郑斯奇
摘要: 本申请公开了一种语音识别方法及装置和智能音箱,本申请使用根据近场语音和远场语音训练好的降噪自动编码器,将需要识别的语音信息的声纹特征向量,特别是远场的声纹特征向量,投影到了与近场声纹特征尽可能相似的空间,再利用降噪自动编码器输出的声纹特征向量实现后续对语音用户身份的识别,降低了由于说话人与设备之间的距离而带来的不能准确识别出远离设备的说话人身份的问题,提升了远场声纹识别的鲁棒性。
-
公开(公告)号:CN118538226B
公开(公告)日:2024-09-24
申请号:CN202411001630.0
申请日:2024-07-25
申请人: 百鸟数据科技(北京)有限责任公司
摘要: 本申请涉及语音处理技术领域,具体涉及一种基于3D卷积的生态环境鸟类鸣声识别方法,包括:采集自然环境音频数据,获取有效音频信号,划分滑动窗口,获取每个滑动窗口的信号周期,计算振幅变异因子以及音频结构单调因子,获取鸟鸣置信系数,构建鸟鸣增强信号,计算频域受扰因子以及鸟鸣信号差异因子,获取鸟鸣受扰系数,根据鸟鸣受扰系数以及鸟鸣增强信号中的有效音频信号确定平滑系数,获取鸟类鸣声识别结果。本申请旨在解决传统的维纳滤波算法未考虑到自然环境中音频信号的复杂性导致难以在保留鸟类鸣声细节信息的同时兼顾对自然环境中音频信号的去噪效果的问题。
-
公开(公告)号:CN114550731B
公开(公告)日:2024-09-17
申请号:CN202210343564.X
申请日:2022-03-31
申请人: 北京百度网讯科技有限公司
摘要: 本公开提供了一种音频识别方法、装置、电子设备、可读存储介质以及计算机程序产品,涉及人工智能、安全认证技术以及声纹识别技术领域。具体实现方案为:基于待识别音频在频域对应的第一音频特征,确定所述待识别音频在实数域对应的第二音频特征;利用目标压缩函数对所述第二音频特征进行特征压缩,获得所述待识别音频对应的非线性音频特征,所述目标压缩函数为预先对可平滑对数压缩函数进行参数学习得到的,所述可平滑对数压缩函数中包括预设的可学习参数;基于所述非线性音频特征,确定所述待识别音频对应的音频识别结果。该方案能够在无需人工提取音频特征的情况下,高效的模拟出待识别音频的非线性,进而能够提高音频识别的安全性和识别效率。
-
公开(公告)号:CN118071551A
公开(公告)日:2024-05-24
申请号:CN202410116738.8
申请日:2024-01-26
申请人: 北京师范大学
IPC分类号: G06Q50/20 , G06Q10/0639 , G06V40/16 , G10L17/02 , G10L17/20 , G06N3/0464 , G06V10/82
摘要: 本发明公开了一种基于人工智能的智慧课堂学生参与度多维评估方法及系统,涉及音视频数据处理技术领域。该方法包括:提取学生听课视频中的图像;进行人脸检测,以得到对应的人脸区域图像;对每个人脸区域图像进行专注度检测;确定学习专注度;实时采集课堂中的发言语音信号,进行声纹识别,若为学生身份,则对该学生的发言语音信号进行识别,根据语音内容识别结果判定是否为有效发言;确定发言踊跃度;根据该课堂学生的学习专注度和发言踊跃度对该课堂学生的参与度进行评估。本发明结合多种智能模型实现精准高效的学习专注度检测、身份识别及语音内容识别;结合学习专注度和发言踊跃度,从多个维度对学生的参与度进行更加有效的评估。
-
公开(公告)号:CN117912471A
公开(公告)日:2024-04-19
申请号:CN202410129198.7
申请日:2024-01-30
申请人: 西交利物浦大学
摘要: 本发明实施例提供一种用于室内多人识别检测的深度学习模型的训练方法。该方法包括:对室内进行音量活动检测,确定出没有达到预设功率密度阈值的室内噪声训练集,以及达到预设功率密度阈值的脚步声训练集;利用室内噪声训练集确定室内环境噪声信噪比,基于信噪比更新室内噪声库;基于室内噪声库滤除脚步声训练集中的附加噪声,得到第一样本特征;通过动态时间规整确定脚步声训练集的概率分布函数,利用概率分布函数建立相似矩阵,匹配得到第二样本特征;对深度学习模型进行训练,直至模型收敛。本发明实施例基于动态时间规整的信号包络相关性分析有效降低了检测触发伪造的概率。采用小波变换和谱减法进行特征提取,提高了多人检测的分辨性能。
-
公开(公告)号:CN117711410A
公开(公告)日:2024-03-15
申请号:CN202310629972.6
申请日:2023-05-30
申请人: 荣耀终端有限公司
发明人: 高欢
摘要: 本申请实施例提供一种语音唤醒方法及相关设备。该方法包括:在第一时刻,电子设备接收到第一语音,电子设备唤醒语音助手;在第二时刻,电子设备接收到第二语音,电子设备唤醒语音助手;第二语音中的关键词与第一语音中的关键词不同;在第三时刻,电子设备接收到第三语音,电子设备不唤醒语音助手;第三语音中的关键词与第一语音中的关键词不同,第三语音中的关键词与第二语音中的关键词不同。这样,当关键词是命令词时,电子设备唤醒语音助手;当关键词不是命令词时,电子设备不唤醒语音助手;可丰富电子设备的语音交互功能的唤醒场景,同时,降低误唤醒的语音助手的概率。
-
公开(公告)号:CN117648440A
公开(公告)日:2024-03-05
申请号:CN202311613675.9
申请日:2023-11-27
申请人: 中国平安人寿保险股份有限公司
发明人: 马亿凯
IPC分类号: G06F16/35 , G10L15/26 , G10L15/18 , G10L15/16 , G10L15/20 , G10L21/0272 , G10L17/18 , G10L17/20 , G06F18/24 , G06F18/22 , G06F40/284 , G06F40/30 , G06Q40/08
摘要: 本发明涉及人工智能技术领域,尤其涉及一种基于多渠道聚合的意图分类方法、装置、设备及介质。获取待推荐对象所在的N个推荐渠道,确定推荐渠道记录的待推荐对象的内容信息,对内容信息进行关键词提取,得到推荐渠道的关键词,从预设的意图类别中选取与关键词匹配的匹配意图类别集,将N个匹配意图类别集中的匹配意图类别进行聚合处理,得到意图聚合结果,对意图聚合结果中的匹配意图类别进行评分处理,得到每个匹配意图类别中的评分结果,根据评分结果,确定待推荐对象的目标意图类别。先提取待推荐用户在单推荐渠道中的意图类别,再将多推荐渠道中的意图类别进行聚合处理,根据聚合后的结果再次进行意图挖掘分类,提高了意图分类的精度。
-
公开(公告)号:CN112309404B
公开(公告)日:2024-01-19
申请号:CN202011169295.7
申请日:2020-10-28
申请人: 平安科技(深圳)有限公司
IPC分类号: G10L17/02 , G10L17/18 , G10L17/20 , G10L17/26 , G10L25/21 , G10L25/30 , G10L25/45 , G10L25/51
摘要: 本发明涉及人工智能领域,公开了一种机器语音的鉴别方法、装置、设备及存储介质,用于提高机器语音的鉴别效率。机器语音的鉴别方法包括:获取用户输入的初始语音,并对初始语音进行预处理,得到目标语音,预处理包括音频切分处理、均值归一化处理、预增强处理、加窗处理与添加随机噪声;通过特征提取函数计算目标语音的功率能量谱,根据功率能量谱计算目标语音中的语音特征;通过预置深度神经网络模型中的卷积层、通道区块、过度区块、全连接层和分类网络层对语音特征进行计算,得到语音确信值;当语音确信值小于或等于辨别阈值时,确定目标语音为机器语音。此外,本发明还涉及区块链技术,用户输入的初始语音可存储于区块链中。
-
公开(公告)号:CN116863941A
公开(公告)日:2023-10-10
申请号:CN202310867638.4
申请日:2023-07-15
申请人: 安徽声云智能科技有限公司
发明人: 班荣军
摘要: 本发明公开了声纹注册技术领域的一种声纹注册方法、装置及设备,包括:通过录音设备记录说话人的语音数据,采集的语音数据进行语音识别,获得语音识别结果,对语音数据存储;对获取的语音样本切分为长度相同的语音帧;将语音识别得到的语音识别结果与随机内容进行比对,保存比对结果一致的语音数据作为原始文件;获取每条语音段中每个语音帧的声纹识别特征,并于声纹注册的录音文件进行声纹注册,该声纹注册方法、装置及设备,结构设计合理,能够使注册的声纹质量提高,语言采集的数据更的精准,能够在用户声音出现变化的情况下,能够精准识别,避免因声音的变化导致声纹的录制失败,能够一次性完成声纹的录制,无需反复注册。
-
公开(公告)号:CN116682459A
公开(公告)日:2023-09-01
申请号:CN202310706286.4
申请日:2023-06-14
发明人: 廖华 , 申晓杰 , 潘勇斌 , 蔡宇 , 邓厚兵 , 李闯 , 潘鹏 , 梁阳 , 袁卫义 , 姜宪法 , 邓朝翥 , 李更达 , 钟文明 , 程浩 , 陈磊 , 陆世豪 , 苏晓 , 覃言 , 肖明斌 , 杨政 , 柳明 , 黄彩燕 , 王丹 , 崔洋洋 , 高治良 , 杨登舟 , 林东跃 , 王宁 , 农云聪 , 杨翔
IPC分类号: G10L25/51 , G10L17/22 , G10L17/04 , G10L17/02 , G10L17/18 , G10L25/30 , G10L25/03 , G10L25/21 , G10L17/20
摘要: 一种声音相似度匹配方法、系统、装置及可读介质,所述方法包括:对待识别录音信号预处理,获得待识别录音信号的录音模型;将待识别录音信号的录音模型输入相似度计算模型,通过匹配度计算模型计算待识别录音信号的录音模型与录音模型库中样本录音的录音模型的匹配度;匹配度计算模型是基于样本录音数据集训练得到的深度学习模型;根据待识别录音信号的录音模型与样本录音的录音模型的匹配度,获取待识别录音信号与样本录音的匹配结果。本申请通过深度学习网络,将待识别录音的录音特征与录音模型库内收录的录音特征进行匹配度计算,得到较高准确率的匹配结果。
-
-
-
-
-
-
-
-
-