-
公开(公告)号:CN107507627A
公开(公告)日:2017-12-22
申请号:CN201610425701.9
申请日:2016-06-14
Applicant: 科大讯飞股份有限公司
Abstract: 本发明公开了一种语音数据热度分析方法及系统,该方法包括:接收语音数据;对所述语音数据进行端点检测,得到所述语音数据中的各有效语音段和非有效语音段;对所述有效语音段进行语音识别,得到对应所述有效语音段的识别文本;对各有效语音段提取基于声学上的热度特征;根据各有效语音段及其对应的识别文本提取各有效语音段基于内容上的热度特征;利用所述基于声学上的热度特征和基于内容上的热度特征、以及预先构建的热度预测模型,计算各有效语音段的第一热度值。利用本发明,可以提高语音数据热度分析的准确性。
-
公开(公告)号:CN105895085A
公开(公告)日:2016-08-24
申请号:CN201610200600.1
申请日:2016-03-30
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种多媒体转写方法,应用于多媒体转写系统中,包括以下步骤:S1、接收演示文稿,并构建所述演示文稿的关键信息树;S2、接收语音数据,并对所述语音数据进行语音识别,得到所述语音数据的转写文本;S3、通过所述关键信息树将所述语音数据和所述转写文本与所述演示文稿进行同步;S4、将同步后带有所述语音数据和所述转写文本的演示文稿显示给用户。用户在看演示文稿时可以同时听到演讲人的声音,看到演讲人声音转写的文本;进一步地,根据每页演示文稿包含的子主题对转写文本分段,同一个子主题的转写文本作为一段,不同子主题的转写文本作为不同的段,可以方便用户理解转写文本,进一步提高了用户体验。
-
公开(公告)号:CN118538223A
公开(公告)日:2024-08-23
申请号:CN202410846915.8
申请日:2024-06-27
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种语音交互方法、装置、电子设备和存储介质,方法包括:获取用户语音流;对所述用户语音流进行语种识别,得到所述用户语音流对应的语种信息,并对所述用户语音流进行语音识别,得到与所述语种信息对应的识别文本;基于所述识别文本,得到与所述语种信息对应的交互合成语音,并播报所述交互合成语音。本发明提供的语音交互方法、装置、电子设备和存储介质,语音交互过程中无需用户手动切换或设置语种,用户可以随意输入系统支持的各类语种,实现多语种免切,从而提高了语音交互的便利性。此外,通过得到与语种信息对应的交互合成语音,能够实现语音交互全链路按照同一个语种进行交互,提高了用户体验感。
-
公开(公告)号:CN114898755A
公开(公告)日:2022-08-12
申请号:CN202210824381.X
申请日:2022-07-14
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音处理方法及相关装置、电子设备、存储介质,其中,语音处理方法包括:获取持续至当前时刻的空白语音的语音时长,并判断语音时长是否不小于首个检测时长;响应于语音时长不小于首个检测时长,基于截止至当前时刻采集到的有效语音,获取语音处理结果,并基于空白语音的端点时刻,确定参考时刻;将最新使用的检测时长的下一检测时长,作为参考时长,并判断从参考时刻开始持续采集参考时长的参考语音是否仍空白;若是且所有检测时长均已使用,则将最新获取的语音处理结果置为有效。上述方案,能够提升语音交互的响应速度。
-
公开(公告)号:CN110099332A
公开(公告)日:2019-08-06
申请号:CN201910424815.5
申请日:2019-05-21
Applicant: 科大讯飞股份有限公司
IPC: H04R3/00
Abstract: 本申请公开了一种音频环境展示方法及装置,该方法包括:在实时获取到每一待预测音频段后,可以先将当前获取的待预测音频段作为目标音频段,然后对目标音频段所属的环境类型进行预测,得到预测环境类型,接着,再展示出得到的目标音频段所属的预测环境类型。可见,本申请不仅能够预测出实时获取到的每一待预测音频段所属的环境类型,还能够将预测结果向用户进行实时展示,从而使得用户能够实时获知每一目标音频段所属的环境类型,进而可以根据该环境类型,从每一目标音频段中获取到其所关注的内容,提升了用户体验。
-
公开(公告)号:CN108536654A
公开(公告)日:2018-09-14
申请号:CN201810330612.5
申请日:2018-04-13
Applicant: 科大讯飞股份有限公司
Inventor: 胡尹
Abstract: 本发明实施例提供一种识别文本展示方法及装置,属于语音识别和自然语言处理技术领域。方法包括:获取识别文本中每一分词的分类特征;将每一分词的分类特征输入至分类模型,输出每一分词的分类标记,分类标记用于表示分词在识别文本中的重要程度和/或在识别文本中的异常情况;根据每一分词的分类标记,确定每一分词的展示方式,并基于每一分词的展示方式对识别文本中每一分词进行展示。由于在展示识别文本中文本内容的同时,还可以通过展示方式来体现分词在识别文本中的重要程度和/或在识别文本中的异常情况,从而承载发言人发言时的情感色彩和/或发言时的语义。因此,满足了发言人个性化展示其发言的需求。
-
-
-
-
-