-
公开(公告)号:CN117809634A
公开(公告)日:2024-04-02
申请号:CN202311693771.9
申请日:2023-12-06
Applicant: 科大讯飞股份有限公司
IPC: G10L15/18 , G06F16/335 , G06F16/33 , G06F40/247 , G10L15/16 , G10L15/183 , G10L15/06
Abstract: 本申请公开了一种语音识别方法、装置、设备及可读存储介质。在对用户的待识别语音数据进行识别,得到原始识别结果之后;基于待识别语音数据、原始识别结果、用户的个性化文本特征序列以及候选词表,确定目标词以及目标词对应的推荐词表,其中,目标词为原始识别结果中与候选词表中词语的发音相似的词语,目标词对应的推荐词表是基于用户的个性化文本特征序列对候选词表中各候选词进行排序后得到的排序后的候选词表。基于该方案,如果原始识别结果中的目标词不能满足用户的个性化需求,用户即可从目标词对应的推荐词表中选取能够满足用户的个性化需求的词,进而使识别结果能够满足用户的个性化需求。
-
公开(公告)号:CN117474807A
公开(公告)日:2024-01-30
申请号:CN202311819869.4
申请日:2023-12-27
Applicant: 科大讯飞股份有限公司
IPC: G06T5/77 , G06V10/44 , G06V10/774 , G06V10/86
Abstract: 本发明提供了一种图像修复方法、装置、设备及存储介质,图像修复方法包括:获取待修复图像以及与待修复图像相关的音频;获取能够表征音频的整个音频信息的音频特征,作为目标音频特征;利用目标音频特征,对待修复图像进行修复,得到待修复图像对应的修复后图像。本发明提供的图像修复方法可利用与待修复图像相关的音频的信息对待修复图像中受损的图像信息进行补偿,从而实现真正意义上的受损补偿,本发明提供的图像修复方法具有较好的修复效果。
-
公开(公告)号:CN117200839A
公开(公告)日:2023-12-08
申请号:CN202311250963.2
申请日:2023-09-25
Applicant: 科大讯飞股份有限公司 , 科大讯飞(苏州)科技有限公司
IPC: H04B7/0413 , H04B7/06 , H04B7/08
Abstract: 本发明提供一种波束选择和数据传输方法、装置、电子设备和存储介质,方法包括:确定波束集合;将波束集合中的各波束分别作为个体,将各波束的波束方向作为个体位置,进行个体位置的搜索迭代,搜索迭代以基于所述各波束的数据传输效果为优化目标;基于迭代完成的个体位置,对波束集合进行波束选择。本发明提供的方法、装置,将与数据传输效果相关联的优化目标引入MIMO系统波束的多目标任务锁定中的波束选择中,避免搜索迭代中过早陷入局部最优解,实现了贴合多目标的最适宜的波束集合的选择,进而在MIMO系统中实现了多目标的数据传输。
-
公开(公告)号:CN117037842A
公开(公告)日:2023-11-10
申请号:CN202310997762.2
申请日:2023-08-07
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种音频处理方法、装置、电子设备和存储介质,方法包括:提取待处理音频的音频特征,并将音频特征作为待处理音频所对应的时频图像,提取时频图像的图像特征;基于图像特征,在连续的多个时间窗口上分别进行概率分布预测,得到待处理音频在每个时间窗口上的概率分布预测结果;基于每个时间窗口上的概率分布预测结果,确定待处理音频的音频处理结果。本发明提供的方法、装置,将音频特征作为时频图像,提取时频图像的图像特征,基于图像特征,在连续的多个时间窗口上分别进行概率分布预测,得到在每个时间窗口上的概率分布预测结果,实现了全面的特征提取,时间视野充足和丰富的概率预测,进而大大提升了进行音频处理的准确性。
-
公开(公告)号:CN116312641A
公开(公告)日:2023-06-23
申请号:CN202211095543.7
申请日:2022-09-05
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种情感检测方法、装置、电子设备和存储介质,其中方法包括:获取待检测语音;基于情感检测模型,对所述待检测语音的语义特征进行情感检测,得到情感检测结果;其中,所述情感检测模型是基于样本语音的语义特征以及所述样本语音的语音情感标签训练得到的;所述样本语音的语音情感标签是基于所述样本语音的转写文本中各关键词的分词情感信息确定的。本发明中样本语音的语音情感标签是基于样本语音的转写文本中各关键词的分词情感信息确定的,从而实现自监督训练,进而节省人工标注成本的同时确保情感检测的鲁棒性。
-
公开(公告)号:CN114648980A
公开(公告)日:2022-06-21
申请号:CN202210203533.4
申请日:2022-03-03
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种数据分类和语音识别方法、装置、电子设备及存储介质,其中方法包括,确定待分类数据,待分类数据包括原始语音、识别文本和修改文本;确定待分类数据在预设特征下的特征值,预设特征用于表征识别文本和修改文本之间的差异信息和用户的用户信息;基于特征值,确定待分类数据的有效性分类结果。本发明提供的方法、装置、电子设备及存储介质,能够通过获取样本数据的候选特征中各个特征值,并根据候选特征中各个特征值对应的有效标注样本数和无效标注样本数,从候选特征中选取预设特征,实现了从候选特征中去除无效特征,在不影响有效性判断准确率的情况下,能够提高判断的执行效率。
-
公开(公告)号:CN114283831A
公开(公告)日:2022-04-05
申请号:CN202111660465.6
申请日:2021-12-30
Applicant: 科大讯飞股份有限公司
IPC: G10L21/0208 , G10L15/26 , G10L15/065 , G10L15/06 , G10L25/21 , G10L25/06
Abstract: 本申请提供了一种语音识别、网络模型的训练方法、装置、设备和存储介质,解决了现有技术中语音识别系统识别效果较差的问题。基于初始说话人波束和多路语音信号确定第一目标说话人波束,初始说话人波束基于多路语音信号的波束成形过程得到,第一目标说话人波束指示多路语音信号各自在初始说话人波束所在方向上的声音信息;基于第一目标说话人波束和多路语音信号确定噪声波束,噪声波束指示多路语音信号中除了第一目标说话人波束之外的声音信息;基于噪声波束和唤醒波束对第一目标说话人波束进行滤波,得到第二目标说话人波束,唤醒波束指示包含唤醒词的波束;对第二目标说话人波束进行语音识别,得到识别文本。
-
公开(公告)号:CN109979432B
公开(公告)日:2021-10-08
申请号:CN201910262128.8
申请日:2019-04-02
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种方言翻译方法及装置,该方法包括:在获取到待翻译的目标语音后,可以先生成目标语音的语音特征,然后,利用该语音特征、以及预置的各种方言的方言表征向量,对目标语音进行翻译。可见,本申请采用的翻译依据是目标语音的语音特征和各种方言的方言表征向量,由于该语音特征包含了目标语音所属方言的特点信息,而各种方言的方言表征向量又表征了各种方言的特点信息,由此,本申请将目标语音的语音特征和各种方言的方言表征向量相结合作为翻译依据时,可以更方便、准确地对不同方言类型的目标语音进行翻译,而无需人工频繁手动切换不同的方言翻译模式进行翻译,从而提升了用户翻译体验。
-
公开(公告)号:CN109818737B
公开(公告)日:2021-10-08
申请号:CN201811583879.1
申请日:2018-12-24
Applicant: 科大讯飞股份有限公司
Abstract: 一种个性化口令生成方法及系统,其中方法包括:接收由第一用户发送的口令;确定接收所述口令的第二用户,并获取第二用户信息;根据所述口令的信息和所述第二用户信息,生成针对第二用户的个性化口令。本发明使得口令信息与接收口令的第二用户息息相关,不再是千篇一律的统一形式,更由于附带了特定的接收方的属性信息,使口令本身相比现有的口令形式,能够发挥出成倍的优势并可以因此拓展到多个应用场景中,以满足接收方甚至发送方对于多样性、娱乐性、安全性、专属性等方面的需求,从而能够获得更佳的用户之间的交互效果,以此大大提升用户体验。
-
公开(公告)号:CN108899035B
公开(公告)日:2021-08-17
申请号:CN201810872692.7
申请日:2018-08-02
Applicant: 科大讯飞股份有限公司
Abstract: 本发明实施例提供一种消息处理方法及装置,属于计算机应用技术领域。该方法包括:获取源消息及目标消息,源消息中包含指定语音口令,目标消息包含有领取语音口令;若领取语音口令使用的语言类型与指定语音口令对应的语言类型相同,且指定语音口令与领取语音口令之间满足预设条件,则将源消息的关联账户中的电子资源转移至目标消息的关联账户,指定语音口令对应的语言类型可任意设置。由于指定语音口令对应的语言类型可任意设置,除了普通话外,消息处理过程还可以使用不同国家地区的语言,从而消息处理过程可适用于不同的语言场景,消息的传播力度较强且传播范围较广。
-
-
-
-
-
-
-
-
-