-
公开(公告)号:CN117636861A
公开(公告)日:2024-03-01
申请号:CN202210968944.2
申请日:2022-08-12
Applicant: 北京小米移动软件有限公司 , 北京小米松果电子有限公司
Abstract: 本公开涉及一种设备的唤醒方法、装置、电子设备、可读存储介质及芯片,该方法包括:获取待测语音,通过唤醒词识别模型识别待测语音,在待测语音中包含唤醒词的情况下,确定待测语音是否为误唤醒语音,在待测语音为误唤醒语音的情况下,拒绝唤醒设备;能够在待测语音中包含唤醒词的情况下,判断待测语音是否为误唤醒语音,如句中唤醒语音,待测语音为句中唤醒语音时,拒绝唤醒设备,减少了误唤醒的发生,提升了用户的使用体验。
-
公开(公告)号:CN116434760A
公开(公告)日:2023-07-14
申请号:CN202310403661.8
申请日:2023-04-14
Applicant: 北京小米移动软件有限公司
IPC: G10L19/008 , G10L19/02 , G10L19/022
Abstract: 本申请关于一种音频编码方法、装置、电子设备和存储介质,属于音频处理技术领域。该方法包括:对声道序列进行分组,得到多个声道组,每个声道组包括声道序列中连续的若干个声道,相邻的声道组间存在一个或多个相同的声道;对声道序列中各声道的音频信号按帧进行频域转换,得到各声道每帧的频域系数;根据各声道的频域系数,从变换矩阵集中确定声道组对应的频带集中各频带的目标变换矩阵;基于各频带的目标变换矩阵,对声道组内声道的频域系数进行同频带去相关处理,得到声道组的编码信息;基于声道组的编码信息得到编码码流,并将编码码流发给解码器进行解码。由此,本方案可以实现对多个声道的音频信号的压缩传输,降低传输和存储成本。
-
公开(公告)号:CN116391226A
公开(公告)日:2023-07-04
申请号:CN202380008348.2
申请日:2023-02-17
Applicant: 北京小米移动软件有限公司
IPC: G10L25/51 , G10L19/00 , G10L19/018
Abstract: 本公开实施例公开了一种心理声学分析方法、装置、设备及存储介质,可以应用于通信系统中,该方法包括:确定音频信号的多个掩蔽源;根据多个掩蔽源中的部分掩蔽源,分析音频信号的掩蔽阈值。通过实施本公开的方法,由于从音频信号的所有掩蔽源中选择部分掩蔽源参与掩蔽阈值的分析计算,从而能够有效减少心理声学分析的计算量,进而降低计算复杂度。
-
公开(公告)号:CN117242517A
公开(公告)日:2023-12-15
申请号:CN202380010554.7
申请日:2023-08-09
Applicant: 北京小米移动软件有限公司
IPC: G10L25/45 , G10L25/21 , G10L19/022
Abstract: 本公开提出一种音频信号处理方法及装置、通信设备、通信系统、存储介质,该方法包括:确定处理第一音频信号所需的窗函数长度值,并确定第一窗函数,其中,第一窗函数包括:与窗函数长度值相关的参考变量值,参考变量值小于窗函数长度值,参考变量值用于确定恢复第一音频信号所需要的时延;以及根据第一窗函数处理第一音频信号,得到与第一音频信号相关的谱系数。本公开的方法,实现有效地降低音频信号处理的延时。
-
公开(公告)号:CN117099160A
公开(公告)日:2023-11-21
申请号:CN202380009897.1
申请日:2023-06-30
Applicant: 北京小米移动软件有限公司
IPC: G10L25/27 , G06F18/2135
Abstract: 本公开提出了一种音频数据处理方法、装置、芯片以及电子设备,涉及数据处理技术领域,可获取音频数据的数据矩阵,所述数据矩阵为AVS编码器中所述音频数据对应的MDFT数据矩阵;确定所述数据矩阵中每个列向量对应幂运算参数的目标参数值;基于所述目标参数值对所述数据矩阵中的每个列向量进行幂变换,得到所述数据矩阵对应的幂变换矩阵,所述幂变换用于使数据矩阵的方差集中在主成分方向上,增强所述数据矩阵中主成分的特征占比;利用PCA降维算法对所述幂变换矩阵进行数据降维处理,得到所述音频数据的数据降维结果。本公开能够提高AVS编码器中PCA模块数据降维的精准度。
-
公开(公告)号:CN115620712A
公开(公告)日:2023-01-17
申请号:CN202110803197.2
申请日:2021-07-15
Applicant: 北京小米移动软件有限公司 , 北京小米松果电子有限公司
Abstract: 本公开涉及一种语音唤醒方法,包括:获取语音信息,并从所述语音信息之中提取具有无损格式的至少一个唤醒音频片段特征;将所述至少一个唤醒音频片段特征输入唤醒语音判别模型,以得到所述语音信息的预测分数;根据所述预测分数,判断所述语音信息是否满足预设声音质量条件;响应于判断所述语音信息满足预设声音质量条件,执行所述语音信息对应的操作。通过本公开可以快速、准确的识别语音信息是否是人声,降低误唤醒的概率,提升用户的使用体验。
-
-
-
-
-