-
公开(公告)号:CN119728658A
公开(公告)日:2025-03-28
申请号:CN202411754114.5
申请日:2024-12-02
Applicant: 科大讯飞股份有限公司
IPC: H04L65/80 , H04L65/60 , G10L13/02 , G10L19/012
Abstract: 本发明提供一种音频播报方法、装置、系统、电子设备和存储介质,其中方法包括:在接收到合成引擎发送的上一合成音频帧的情况下,根据上一合成音频帧的推送时间节点、推送时间长度和当前推送时间节点,刷新得到当前服务推送信息;根据音素链和当前服务推送信息,对合成引擎的合成速度进行刷新,得到当前合成速度;根据音素链和当前服务推送信息,对依据当前合成速度合成的当前合成音频帧进行静音片段配置,得到待播报音频帧;将待播报音频帧推送至音频处理端进行音频播报。本发明实现精细化、智能化地进行音素级的合成速度的动态调整和静音片段的动态配置,以提高音频播报的全局的流畅性和实时性,提升用户体验感。
-
公开(公告)号:CN119167101A
公开(公告)日:2024-12-20
申请号:CN202411177288.X
申请日:2024-08-26
Applicant: 科大讯飞股份有限公司
IPC: G06F18/22 , G06F18/214
Abstract: 本申请公开了一种任务处理方法、系统和相关装置,该方法包括:获取由至少一个目标任务触发的任务处理指令;将所述任务处理指令输入至智能分析模型,得到所述智能分析模型输出的与每个目标任务匹配的处理内容;其中,所述智能分析模型包括模型基础网络以及与所述模型基础网络并列的至少一个目标调节子网络,所述模型基础网络与调度模块耦接,所述调度模块用于从多个训练后的候选参数集中选取与目标任务匹配的目标参数集以构建所述目标调节子网络。通过上述方式,本申请能够提高任务处理的效率。
-
公开(公告)号:CN118863066A
公开(公告)日:2024-10-29
申请号:CN202411085202.0
申请日:2024-08-08
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种数据处理方法、装置、相关设备及计算机程序产品,方法包括:对于第一存储空间中待处理的目标数据,若目标数据的总长度大于基准长度且无法被基准长度整除,则从目标数据中确定多份数据,每份数据的长度为基准长度的整数倍,且多份数据的并集等于目标数据;将每份数据分别拷贝到第二存储空间;在对第二存储空间中的数据执行完推理计算后,将第二存储空间中每份计算后的数据,按照其在第一存储空间中的原始位置,以覆盖的形式拷贝至第一存储空间。本申请方案能够解决当前芯片在面对算子非对齐shape场景时,在不同存储空间之间拷贝数据时容易出现数据踩踏,计算结果出错的问题,保证整体计算结果的准确性。
-
公开(公告)号:CN118484525B
公开(公告)日:2024-10-29
申请号:CN202410947840.2
申请日:2024-07-16
Applicant: 科大讯飞股份有限公司
IPC: G06F16/332 , G06F9/50
Abstract: 本申请公开了一种问答交互方法及相关装置、电子设备和存储介质,其中,问答交互方法包括:获取用户在当前轮次输入的第一语句;调用GPU计算资源处理第一语句,得到当前轮次中当前注意力特征,将外部存储空间中历史轮次的历史注意力特征,调取至GPU显存空间;调用GPU计算资源处理当前注意力特征和历史注意力特征,得到第二语句;按照生成时间由新到旧的顺序调取GPU显存空间中键特征和值特征,并写回至外部存储空间,以用于当前轮次的下一轮次。上述方案,能够提升计算资源的利用率和吐字效率,并尽可能地降低首响延迟。此外,通过异构缓存,能够大大缓解保存历史注意力特征对于GPU显存空间的需求压力,特别是在长文本的交互场景下。
-
公开(公告)号:CN118484525A
公开(公告)日:2024-08-13
申请号:CN202410947840.2
申请日:2024-07-16
Applicant: 科大讯飞股份有限公司
IPC: G06F16/332 , G06F9/50
Abstract: 本申请公开了一种问答交互方法及相关装置、电子设备和存储介质,其中,问答交互方法包括:获取用户在当前轮次输入的第一语句;调用GPU计算资源处理第一语句,得到当前轮次中当前注意力特征,将外部存储空间中历史轮次的历史注意力特征,调取至GPU显存空间;调用GPU计算资源处理当前注意力特征和历史注意力特征,得到第二语句;按照生成时间由新到旧的顺序调取GPU显存空间中键特征和值特征,并写回至外部存储空间,以用于当前轮次的下一轮次。上述方案,能够提升计算资源的利用率和吐字效率,并尽可能地降低首响延迟。此外,通过异构缓存,能够大大缓解保存历史注意力特征对于GPU显存空间的需求压力,特别是在长文本的交互场景下。
-
公开(公告)号:CN118473603A
公开(公告)日:2024-08-09
申请号:CN202410945379.7
申请日:2024-07-15
Applicant: 科大讯飞股份有限公司
IPC: H04L1/00
Abstract: 本申请公开了一种弱网对抗方法及相关装置,涉及通讯技术领域,弱网对抗方法包括:获取当前的网络状态参数,并获取接收端设备的当前计算资源信息;根据网络状态参数,从若干种弱网对抗策略中确定目标弱网对抗策略,若干种弱网对抗策略包括冗余策略和组合对抗策略,组合对抗策略为冗余策略与重传策略的组合;根据当前计算资源信息从若干种编码方式中确定目标编码方式,若干种编码方式包括第一编码方式、第二编码方式以及组合编码方式,组合编码方式为第一编码方式与第二编码方式的组合;按目标弱网对抗策略以及目标编码方式,对音频数据进行编码和传输。本申请公开的弱网对抗方法能够有效提升弱网场景下音频实时传输的质量和用户感受。
-
公开(公告)号:CN118467207A
公开(公告)日:2024-08-09
申请号:CN202410837624.2
申请日:2024-06-26
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种大模型解码系统、方法、相关设备及计算机程序产品,系统包括终端设备和云端服务器,在终端设备布置小规模的近似模型进行解码,然后在云端服务器采用规模更大的目标模型,对近似模型的当前解码结果进行确认或纠正,在终端硬件资源受限的情况下,能够提升终端设备本地模型的推理效果。同时,无需云端服务器逐个token进行解码,能够降低云端服务器的服务负载。
-
公开(公告)号:CN117880558A
公开(公告)日:2024-04-12
申请号:CN202311845861.5
申请日:2023-12-27
Applicant: 科大讯飞股份有限公司
IPC: H04N21/234 , G06F16/332 , G06V20/40 , G06V10/74 , G06F16/735 , G06F16/35 , G06F40/30 , G06N3/04 , G06N3/08 , H04N21/258 , H04N21/233 , H04N21/2343 , G10L15/26
Abstract: 本申请提出一种定位视频位置的方法、装置、电子设备和存储介质,能够基于用户对目标视频的浏览需求,在文本内容中确定与浏览需求匹配的目标文本内容,其中,上述的文本内容包括根据目标视频中的音频生成的文本。然后根据目标文本内容在目标视频中对应的位置,从目标视频中截取符合浏览需求的目标视频段。如此设置,能够基于用户的浏览需求自动从目标视频中截取符合浏览需求的目标视频段,有效降低了用户浏览视频的成本。
-
公开(公告)号:CN117710526A
公开(公告)日:2024-03-15
申请号:CN202311693721.0
申请日:2023-12-06
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种稿件生成方法、装置、电子设备和存储介质,其中方法包括:确定目标音频;基于目标音频进行要点提取,得到内容要点;基于内容要点进行稿件生成,得到带有图像的目标稿件;图像与内容要点关联,实现了图文并茂的稿件生成,不仅保证了出稿效率,还提升了稿件质量,具有较好的生动性和真实性,克服了传统方案中人工编辑出稿速度慢、智能写作稿件缺乏真实性和生动性,以及后期需要人工处理,十分不便的缺陷,实现了快速有效的稿件生成,极大地缩短了出稿时间,提升了出稿速度和稿件质量。
-
公开(公告)号:CN117407502A
公开(公告)日:2024-01-16
申请号:CN202311382008.4
申请日:2023-10-23
Applicant: 科大讯飞股份有限公司
IPC: G06F16/332 , G06F40/216 , G06F40/226 , G06N5/025
Abstract: 本申请提供一种问答对抽取方法、装置、电子设备及存储介质,所述问答对抽取方法,对目标文档进行文档信息解析后,基于文档信息生成用于指示接收指令的对象从目标文档的文本内容中抽取问答对的第一提示指令,然后将该第一提示指令输入预训练的大语言模型,使得该大语言模型从目标文档的文本内容中提取问答对。该方案借助了预训练的大语言模型强大的自然语言处理能力,由该大语言模型执行对目标文档的问答对提取任务,能够提高问答对抽取效率。并且,大语言模型执行问答对抽取任务不受限于特定规则或模板,其问答对抽取更全面、抽取的问答对更丰富。
-
-
-
-
-
-
-
-
-