-
公开(公告)号:CN116010810A
公开(公告)日:2023-04-25
申请号:CN202211570249.7
申请日:2022-12-08
Applicant: 北京小米移动软件有限公司 , 北京小米松果电子有限公司
IPC: G06F18/214 , G06F18/241 , G06N3/096 , G06F16/65 , G10L25/30 , G10L25/51
Abstract: 本公开提供了一种音频分类模型训练方法、装置、设备和存储介质。所述音频分类模型训练方法包括:利用弱标签音频数据集对神经网络模型进行训练,得到多标签分类模型;将多标签分类模型中的特征提取网络迁移到用于特定任务的音频分类模型中;其中,特征提取网络用于提取音频数据的嵌入特征;利用特定任务对应的强标签音频数据集训练包含有特征提取网络的音频分类模型。本公开实施例在训练用于特定任务的音频分类模型时,能够降低训练数据的人工标注成本,提高模型训练效率;并且能够保证模型性能。
-
公开(公告)号:CN114913845A
公开(公告)日:2022-08-16
申请号:CN202110176302.4
申请日:2021-02-09
Applicant: 北京小米移动软件有限公司
Abstract: 本公开关于一种语音识别方法、语音识别模型的训练方法和装置,其中,语音识别的方法包含:获取运动件的运动信号,以及采集的语音信号,对语音信号进行特征提取,生成语音特征,对运动信号进行频域特征提取,生成频谱特征,将语音特征和频谱特征,输入训练得到的语音识别模型,得到语音识别结果。本申请中,对于语音采集过程中,包含特定噪声的场景,在语音识别的过程中充分考虑了运动件产生的噪音信号,提高了语音识别的效果。
-
公开(公告)号:CN118332405A
公开(公告)日:2024-07-12
申请号:CN202410501814.7
申请日:2024-04-24
Applicant: 北京小米移动软件有限公司 , 北京小米松果电子有限公司
IPC: G06F18/241 , G06F18/214 , G06F16/45 , G06F16/48 , G06F40/30 , G06N3/045 , G06N3/096
Abstract: 本申请提出一种语义检索模型的训练方法、语义检索方法和装置,其中,方法包括:获取初始多媒体数据,采用设定的随机种子对初始多媒体数据进行增广,得到第一多媒体数据,将第一多媒体数据分别输入初始语义检索模型的第一分类网络和第二分类网络,得到第一多媒体数据的第一分类概率值和第二分类概率值,根据第一分类概率值和第二分类概率值之间的差异,确定第一损失函数,根据第一损失函数对语义检索模型进行参数调整,以得到训练后的第一语义检索模型。通过对初始多媒体数据采用设定的随机种子进行增广,使得输入第一分类网络和第二分类网络中第一多媒体数据是相同且增强的数据,提高了模型的训练效果。
-
公开(公告)号:CN115910075A
公开(公告)日:2023-04-04
申请号:CN202211552041.2
申请日:2022-12-05
Applicant: 北京小米移动软件有限公司 , 北京小米松果电子有限公司
Abstract: 本公开涉及一种音频识别方法、装置、介质及芯片。本公开的音频识别方法包括:采集待识别的音频数据;将音频数据进行特征提取,获得音频数据对应的音频特征;将音频特征输入训练完成的音频识别模型,获取音频数据在多个候选分类下的预测输出,其中,候选分类包括唤醒词分类和环境音分类,候选分类下的预测输出用于表示音频数据为候选分类的概率;根据多个预测输出,确定音频数据的分类识别结果。通过本公开,可以对音频数据中是否包含唤醒词和环境音进行识别,通过一次识别可以获得更加全面的识别结果,提高分类识别结果的准确性,还能有效降低音频识别模型在部署时的资源占用,拓宽该音频识别方法的使用范围,提升音频识别效率。
-
公开(公告)号:CN117642817A
公开(公告)日:2024-03-01
申请号:CN202280004611.6
申请日:2022-06-20
Applicant: 北京小米移动软件有限公司 , 北京小米松果电子有限公司
Abstract: 本公开是关于一种识别音频数据类别的方法、装置及存储介质。识别音频数据类别的方法包括:获取待识别的音频数据;对所述待识别的音频数据进行特征提取,得到待识别音频特征;将所述待识别音频特征输入至预设的音频类别识别模型,得到所述音频数据的类别标签。通过本公开,将音频数据对应的弱标签转换为软标签,解决了弱标签存在漏标、标注错误等问题。
-
公开(公告)号:CN114913845B
公开(公告)日:2024-05-24
申请号:CN202110176302.4
申请日:2021-02-09
Applicant: 北京小米移动软件有限公司
Abstract: 本公开关于一种语音识别方法、语音识别模型的训练方法和装置,其中,语音识别的方法包含:获取运动件的运动信号,以及采集的语音信号,对语音信号进行特征提取,生成语音特征,对运动信号进行频域特征提取,生成频谱特征,将语音特征和频谱特征,输入训练得到的语音识别模型,得到语音识别结果。本申请中,对于语音采集过程中,包含特定噪声的场景,在语音识别的过程中充分考虑了运动件产生的噪音信号,提高了语音识别的效果。
-
公开(公告)号:CN115132202A
公开(公告)日:2022-09-30
申请号:CN202110328410.9
申请日:2021-03-26
Applicant: 北京小米移动软件有限公司
IPC: G10L15/26 , H04M1/7243
Abstract: 本公开是关于一种音频处理方法、移动终端、系统及存储介质。该音频处理方法,应用于移动终端,移动终端包括,语音交互应用,文本处理应用,该音频处理方法包括:在检测到针对移动终端的音频处理功能的开启指令时,基于移动终端的音频采集模组获取第一音频数据;通过移动终端的语音交互应用对第一音频数据进行处理,得到音频处理结果;其中,语音交互应用对应有至少一种类型的音频处理模组,不同类型的音频处理模组分别用于对第一音频数据进行不同处理;开启移动终端的文本处理应用,并通过文本处理应用输出音频处理结果。这样,即使临时通知开会,也不需要再临时准备额外的录音录像设备,为会议记录的形成提供了便利性。
-
-
-
-
-
-