-
公开(公告)号:CN117690432A
公开(公告)日:2024-03-12
申请号:CN202311846228.8
申请日:2023-12-27
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种基于生成对抗网络的语音唤醒方法、装置、存储介质、电子设备及计算机程序产品,该方法包括:获取待识别的目标语音数据;对目标语音数据进行声学特征提取,得到目标声学特征;将目标声学特征输入语音识别模型中进行处理,语音识别模型包括解码器和已训练的生成对抗网络,生成对抗网络包括生成器和第一判别器,生成器用于根据目标声学特征生成目标编码特征;第一判别器用于根据目标编码特征输出第一判别结果;解码器用于根据预设唤醒词对目标编码特征进行解码,并输出解码分数;根据第一判别结果和解码分数,进行车载语音系统的唤醒操作,从而无需用户手动操作即可唤醒车载语音系统,简化了唤醒流程,用户体验感好。
-
公开(公告)号:CN110853621B
公开(公告)日:2024-02-13
申请号:CN201910954698.3
申请日:2019-10-09
Applicant: 科大讯飞股份有限公司
IPC: G10L15/02 , G10L15/06 , G10L15/08 , G10L15/14 , G10L15/16 , G10L15/18 , G10L15/22 , G10L15/26 , G10L25/24
Abstract: 本申请提供了一种语音顺滑方法、装置、电子设备以及计算机存储介质,通过获取待顺滑的语音数据;根据所述待顺滑的语音数据确定待顺滑的文本数据;根据所述待顺滑的文本数据确定顺滑后的文本数据;根据所述顺滑后的文本数据确定顺滑后的语音数据。可以删去语音中的冗余部分,在不影响语义的基础上减少语音条的时长,提高用户语音聊天的效率。
-
公开(公告)号:CN117520490A
公开(公告)日:2024-02-06
申请号:CN202311385141.5
申请日:2023-10-23
Applicant: 科大讯飞股份有限公司
IPC: G06F16/332 , G06F16/35 , G06F40/30 , G06N3/045 , G10L15/26
Abstract: 本申请公开了一种人机对话方法、系统以及相关装置,该方法包括:获取用户选择的目标角色;其中,所述目标角色对应有个性信息,所述个性信息是基于用户输入的多个类别的参考信息得到的;获取用户输入的第一对话内容;至少基于所述目标角色的所述个性信息和所述第一对话内容,生成用于回复所述第一对话内容的第二对话内容。通过上述方式,本申请能够提高虚拟角色与用户进行对话的灵活性。
-
公开(公告)号:CN117474807A
公开(公告)日:2024-01-30
申请号:CN202311819869.4
申请日:2023-12-27
Applicant: 科大讯飞股份有限公司
IPC: G06T5/77 , G06V10/44 , G06V10/774 , G06V10/86
Abstract: 本发明提供了一种图像修复方法、装置、设备及存储介质,图像修复方法包括:获取待修复图像以及与待修复图像相关的音频;获取能够表征音频的整个音频信息的音频特征,作为目标音频特征;利用目标音频特征,对待修复图像进行修复,得到待修复图像对应的修复后图像。本发明提供的图像修复方法可利用与待修复图像相关的音频的信息对待修复图像中受损的图像信息进行补偿,从而实现真正意义上的受损补偿,本发明提供的图像修复方法具有较好的修复效果。
-
公开(公告)号:CN117200839A
公开(公告)日:2023-12-08
申请号:CN202311250963.2
申请日:2023-09-25
Applicant: 科大讯飞股份有限公司 , 科大讯飞(苏州)科技有限公司
IPC: H04B7/0413 , H04B7/06 , H04B7/08
Abstract: 本发明提供一种波束选择和数据传输方法、装置、电子设备和存储介质,方法包括:确定波束集合;将波束集合中的各波束分别作为个体,将各波束的波束方向作为个体位置,进行个体位置的搜索迭代,搜索迭代以基于所述各波束的数据传输效果为优化目标;基于迭代完成的个体位置,对波束集合进行波束选择。本发明提供的方法、装置,将与数据传输效果相关联的优化目标引入MIMO系统波束的多目标任务锁定中的波束选择中,避免搜索迭代中过早陷入局部最优解,实现了贴合多目标的最适宜的波束集合的选择,进而在MIMO系统中实现了多目标的数据传输。
-
公开(公告)号:CN117037842A
公开(公告)日:2023-11-10
申请号:CN202310997762.2
申请日:2023-08-07
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种音频处理方法、装置、电子设备和存储介质,方法包括:提取待处理音频的音频特征,并将音频特征作为待处理音频所对应的时频图像,提取时频图像的图像特征;基于图像特征,在连续的多个时间窗口上分别进行概率分布预测,得到待处理音频在每个时间窗口上的概率分布预测结果;基于每个时间窗口上的概率分布预测结果,确定待处理音频的音频处理结果。本发明提供的方法、装置,将音频特征作为时频图像,提取时频图像的图像特征,基于图像特征,在连续的多个时间窗口上分别进行概率分布预测,得到在每个时间窗口上的概率分布预测结果,实现了全面的特征提取,时间视野充足和丰富的概率预测,进而大大提升了进行音频处理的准确性。
-
公开(公告)号:CN116932889A
公开(公告)日:2023-10-24
申请号:CN202310692490.5
申请日:2023-06-09
Applicant: 科大讯飞股份有限公司
Inventor: 刘杰 , 于继栋 , 熊世富 , 李兵 , 杨涵 , 林金城 , 邹灵犀 , 赵旨遒 , 金冰敏 , 孙洪山 , 汪佳 , 刘谢霞 , 胡国平 , 刘聪 , 王士进 , 魏思 , 刘权 , 马天宇 , 杨文亮
IPC: G06F16/9535
Abstract: 本申请公开了一种选题推荐方法、装置、设备及可读存储介质。该方案中,首先,获取用户的选题需求,以及,各大社交平台的热点信息,然后,即可结合各大社交平台的热点信息和用户的选题需求,确定至少一个推荐选题,并针对每个推荐选题,从各大社交平台中,确定与该推荐选题相关的作品;最后,输出各个推荐选题以及与各个推荐选题相关的作品,以供用户参考。基于该方案,可以协助用户快速选出具有爆款潜力的选题。
-
公开(公告)号:CN116821323A
公开(公告)日:2023-09-29
申请号:CN202310492873.8
申请日:2023-04-28
Applicant: 科大讯飞股份有限公司
IPC: G06F16/34 , G10L15/26 , G06F16/33 , G06F40/186 , G06F3/0482 , G06F3/04842
Abstract: 本申请公开了一种纪要生成方法、系统及相关装置,该方法包括:获取基于音频数据得到的参考文本;响应于获取到输入内容,基于所述输入内容得到至少一条概要文本;其中,所述输入内容包括与所述音频数据相关的手写内容和图像内容中的至少一种;基于所述概要文本和所述参考文本中的至少一种,得到纪要文本;其中,所述纪要文本至少包括从所述参考文本中得到的与所述概要文本相匹配的重点文本。通过上述方式,本申请能够提高用户对当前场景下内容进行总结的效率和准确率。
-
公开(公告)号:CN116013257A
公开(公告)日:2023-04-25
申请号:CN202211637702.1
申请日:2022-12-16
Applicant: 科大讯飞股份有限公司
Abstract: 本申请实施例公开了一种语音识别、语音识别模型训方法、装置、存储介质及设备,该方法包括:通过在语音识别模型的编码网络模块中加入混合专家网络和嵌入模块,利用嵌入模块对目标语音数据的目标声学特征序列进行语音特征提取处理,以得到目标语音嵌入特征,将目标语音嵌入特征和目标声学特征序列输入至混合专家网络的神经网络模块中进行编码处理,使得混合专家网络的神经网络模块中可以得到与语言相关的特征和目标声学特征序列,提高混合专家网络的神经网络模块的输出结果的准确性,将输出结果输入至解码网络模块中进行解码处理,以得到目标语音数据的识别文本,可提高各种语言混说场景中的语音识别的准确率。
-
公开(公告)号:CN111145778B
公开(公告)日:2023-04-04
申请号:CN201911193451.0
申请日:2019-11-28
Applicant: 科大讯飞股份有限公司
Abstract: 本申请实施例公开了一种音频数据的处理方法、装置、电子设备及计算机存储介质,方法包括:检测到音频拼接指令;确定待拼接的N段原始音频特征序列,N为大于等于2的整数;根据所述N段原始音频特征序列生成参考音频特征序列,所述参考音频特征序列包括所述N段原始音频特征序列的全部音频帧;根据预设策略更新所述参考音频特征序列中的音频帧,得到目标音频特征序列。实施本申请实施例有利于提升拼接处的音频数据的完整性,使拼接处的音频过度更加自然。
-
-
-
-
-
-
-
-
-