-
公开(公告)号:CN117894301A
公开(公告)日:2024-04-16
申请号:CN202311870858.9
申请日:2023-12-29
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音识别模型的训练方法、语音识别方法和相关装置,该方法包括:利用语音识别模型对第一样本语音特征进行多次编码处理,得到第一样本语音编码特征,其中,至少一次编码处理作为目标编码处理,目标编码处理得到的编码特征作为样本目标特征,目标编码处理的输出特征为基于目标编码处理对应的样本分类特征得到,样本分类特征是对样本目标特征进行对应的目标建模单元的分类预测得到,对第一样本语音编码特征进行解码,得到第一样本语音对应的第一样本识别文本;基于第一样本识别文本和样本分类特征,调整语音识别模型的模型参数,能够提升语音识别模型的训练效率。
-
公开(公告)号:CN118797550A
公开(公告)日:2024-10-18
申请号:CN202410484339.7
申请日:2024-04-22
Applicant: 中移(杭州)信息技术有限公司 , 中国移动通信集团有限公司 , 科大讯飞股份有限公司
Abstract: 本申请提供了一种多模态个性化遥控方法、装置、电子设备和存储介质,涉及人工智能技术领域,其中方法包括:接收用户的语音指令,并采集所述用户的图像信息;基于所述语音指令,确定所述用户的声音信息和指令信息;将所述图像信息和所述声音信息输入多模态特征识别模型,得到所述多模态特征识别模型输出的所述用户的个性化识别特征;基于所述用户的个性化识别特征和指令信息,确定所述用户对应的多模态操作界面和/或个性化推荐内容。本申请提供的方法和装置,使得人机交互方式和推荐内容能够更好地满足用户的个性化需求,提高了用户对于智能显示产品的个性化使用体验。
-
公开(公告)号:CN117953874A
公开(公告)日:2024-04-30
申请号:CN202311867273.1
申请日:2023-12-29
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提出一种多模态通用模型的预训练方法、语音识别方法及相关装置,能够基于不同模态的数据对多模态通用模型进行训练,提升多模态通用模型对具有多模态输入的下游任务的通用性,并且通过以拉近同源数据组中各数据对应的数据特征的距离为目标,对多模态通用模型的参数进行调整,能够使多模态通用模型对不同模态但描述相同或相近内容的数据进行相同的理解,进而提高对具有多模态输入的下游任务的预测结果的准确性,提升多模态通用模型针对具有多模态输入的下游任务的解决能力。
-
-