-
公开(公告)号:CN119728658A
公开(公告)日:2025-03-28
申请号:CN202411754114.5
申请日:2024-12-02
Applicant: 科大讯飞股份有限公司
IPC: H04L65/80 , H04L65/60 , G10L13/02 , G10L19/012
Abstract: 本发明提供一种音频播报方法、装置、系统、电子设备和存储介质,其中方法包括:在接收到合成引擎发送的上一合成音频帧的情况下,根据上一合成音频帧的推送时间节点、推送时间长度和当前推送时间节点,刷新得到当前服务推送信息;根据音素链和当前服务推送信息,对合成引擎的合成速度进行刷新,得到当前合成速度;根据音素链和当前服务推送信息,对依据当前合成速度合成的当前合成音频帧进行静音片段配置,得到待播报音频帧;将待播报音频帧推送至音频处理端进行音频播报。本发明实现精细化、智能化地进行音素级的合成速度的动态调整和静音片段的动态配置,以提高音频播报的全局的流畅性和实时性,提升用户体验感。
-
公开(公告)号:CN117880558A
公开(公告)日:2024-04-12
申请号:CN202311845861.5
申请日:2023-12-27
Applicant: 科大讯飞股份有限公司
IPC: H04N21/234 , G06F16/332 , G06V20/40 , G06V10/74 , G06F16/735 , G06F16/35 , G06F40/30 , G06N3/04 , G06N3/08 , H04N21/258 , H04N21/233 , H04N21/2343 , G10L15/26
Abstract: 本申请提出一种定位视频位置的方法、装置、电子设备和存储介质,能够基于用户对目标视频的浏览需求,在文本内容中确定与浏览需求匹配的目标文本内容,其中,上述的文本内容包括根据目标视频中的音频生成的文本。然后根据目标文本内容在目标视频中对应的位置,从目标视频中截取符合浏览需求的目标视频段。如此设置,能够基于用户的浏览需求自动从目标视频中截取符合浏览需求的目标视频段,有效降低了用户浏览视频的成本。
-
公开(公告)号:CN117688159A
公开(公告)日:2024-03-12
申请号:CN202311829001.2
申请日:2023-12-26
Applicant: 科大讯飞股份有限公司
IPC: G06F16/332 , G06F16/583 , G06F16/535 , G06F16/335
Abstract: 本发明公开了一种信息搜索方法、装置、计算机设备及存储介质。首先获取问题内容。问题内容在知识库中对应有目标图片标识,目标图片标识对应有目标拍摄图片。接下来,基于目标拍摄图片和目标图片标识在场景库中对应的目标场景数据确定答案内容。最后,输出问题内容对应的答案内容。通过融合不同类型的目标拍摄图片和目标场景数据实现多模态搜索,以多模态形式生成问题内容对应的答案,从而提高信息搜索的精度和准确性。进一步地,基于目标拍摄图片和目标场景数据可以返回多种类型的答案内容,不仅仅是文本,也可以是图片、导航地图等,为用户提供更丰富、更直观的答案内容,从而提高用户体验。
-
公开(公告)号:CN115985315A
公开(公告)日:2023-04-18
申请号:CN202211635354.4
申请日:2022-12-19
Applicant: 科大讯飞股份有限公司
IPC: G10L15/22 , G10L17/22 , G10L21/0272 , G10L21/028
Abstract: 本发明提供一种说话人标注方法、装置、电子设备和存储介质,涉及语音处理技术领域,该方法包括:获取语音数据,并对语音数据进行转写,得到转写文本;对语音数据进行切分,得到至少一个语音片段,并提取每个语音片段的声纹特征;针对每个设定时间段,对设定时间段内的声纹特征进行聚类分析,得到说话人分离结果;利用说话人分离结果对第一历史说话人分离结果进行聚类更新,基于更新后的第一历史说话人分离结果对转写文本进行说话人标注;其中,第一历史说话人分离结果是基于设定时间段之前的至少一个设定时间段对应的说话人分离结果确定的。本发明提供的技术方案能够对语音转写文本进行说话人标注,提高说话人标注的准确性。
-
公开(公告)号:CN119474327A
公开(公告)日:2025-02-18
申请号:CN202510066924.X
申请日:2025-01-16
Applicant: 科大讯飞股份有限公司
IPC: G06F16/3329 , G06F3/16 , G06F40/16 , G06T13/00 , G06F16/338
Abstract: 本发明涉及知识问答技术领域,提供一种知识问答方法、装置、电子设备及存储介质,方法包括:获取第一用户的待回答问题;基于知识库确定与待回答问题对应的目标知识素材;基于目标知识素材,确定目标回答;基于目标回答,生成以第二用户作为虚拟人形象的目标虚拟人视频;目标虚拟人视频中的音频是以第二用户的声纹对目标回答进行语音合成得到的;知识库基于第二用户的音频、文本和文档中的至少一种构建。将个性化语音合成与知识问答系统进行统一,避免现有技术中二者分离带来的体验割裂问题,确保用户从问答到语音输出的整体流程流畅无缝,提高用户的使用体验;灵活利用第二用户的知识库,对用户的个性特征进行深度适配,提高用户的使用体验。
-
-
-
-