-
公开(公告)号:CN105592264A
公开(公告)日:2016-05-18
申请号:CN201510952923.1
申请日:2015-12-17
Applicant: 北京大学深圳研究生院
IPC: H04N5/232
CPC classification number: H04N5/23216 , H04N5/23245
Abstract: 本发明公开了一种语音控制拍照软件。利用最自然便捷的人机交互方式——语音,来控制拍照快门。采用语音识别技术实现语音命令控制拍照,识别的语音命令可由用户自定义设置,实现个性化语音识别;另外也通过声纹识别技术,让拍照只能由用户的语音进行控制,避免其他人对拍照过程进行干扰,实现“拍照听我的”的效果。最后可对拍摄的照片进行多种特效处理,使照片更具特色和美感。本发明实现语音控制拍照,解放双手,可以满足双手残疾人或双手不方便的人群进行拍照的需求;同时能减少人们自拍或合影带来的烦恼。
-
公开(公告)号:CN106448684A
公开(公告)日:2017-02-22
申请号:CN201611006202.2
申请日:2016-11-16
Applicant: 北京大学深圳研究生院
Abstract: 本发明属于语音信号处理与机器学习领域,涉及一个基于深度置信网络特征矢量的信道鲁棒声纹识别系统,由语音采集及预处理模块、原始谱特征提取模块、深度置信网络训练模块、说话人声纹特征矢量提取模块、说话人声学模型生成模块和说话人身份鉴定模块构成。通过来自不同信道的语音数据和相对应的说话人身份编号,有监督地训练一个深度置信网络,并提出了一种判别比值选择具有最佳类别区分性的深度置信网络隐含层输出来构造说话人声纹特征矢量,该特征矢量具有信道鲁棒性。相比于传统的基于i-vector的说话人确认系统,本系统在信道失配情况下具有更高的声纹识别准确率。
-