-
公开(公告)号:CN119832897A
公开(公告)日:2025-04-15
申请号:CN202510278032.6
申请日:2025-03-10
Applicant: 科大讯飞股份有限公司
IPC: G10L15/02 , G10L15/04 , G10L15/18 , G10L21/007 , G06F40/58
Abstract: 本申请公开了一种音频语种转换方法、系统和相关装置,该方法包括:获取目标对象的初始音频流,确定所述初始音频流对应的初始音频特征、以及所述初始音频流对应的当前语种;基于所述初始音频特征和所述当前语种,获取当前转换轮次对应的目标特征片段;其中,不同转换轮次对应的所述目标特征片段基于所述初始音频特征的语义进行分割;确定至少一个转换语种,基于所述当前语种和所述目标特征片段,生成与所述转换语种匹配的转换音频。通过上述方式,本申请能够提高音频跨语种转换的准确性。
-
公开(公告)号:CN119830925A
公开(公告)日:2025-04-15
申请号:CN202411940911.2
申请日:2024-12-26
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音翻译方法及相关装置、设备和存储介质,其中,语音翻译方法包括:获取待翻译语音的识别结果;其中,识别结果包括:与待翻译语音中各个语音帧的音频特征分别对齐的识别字符和发音单元;基于识别结果进行分析,选择语音帧作为语义分割点;其响应于历史分割点之后检测到句末分割点,基于历史分割点之后最新句末分割点,确定目标分割点,并以不晚于历史分割点的语义分割点为本次分割的起始位置且以目标分割点为本次分割的结束位置,组合音频特征作为特征集合,以及基于特征集合,翻译得到翻译文本;其中,历史分割点为上次分割时作为结束位置的语义分割点。上述方案,能够提升语音翻译的实时性和准确性。
-
公开(公告)号:CN119785791A
公开(公告)日:2025-04-08
申请号:CN202510278029.4
申请日:2025-03-10
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音交互方法及相关装置、设备、系统和存储介质。该方法包括:基于流式音频进行语音活动检测;响应于检测到语音开始端点,从语音开始端点对流式音频进行语义结束检测,以检测语音开始端点之后的语义结束端点,并从语音开始端点对流式音频继续进行语音活动检测,以检测语音开始端点之后的语音结束端点;基于语音结束端点、语义结束端点中至少一者,确定音频结束端点;基于从语音开始端点至音频结束端点的目标音频,生成用于回应目标音频的目标内容。上述方案,能够提升语音识别和交互的质量。
-
公开(公告)号:CN119785771A
公开(公告)日:2025-04-08
申请号:CN202411940606.3
申请日:2024-12-26
Applicant: 科大讯飞股份有限公司
Abstract: 本发明涉及计算机技术领域,提供一种解码网络的插词方法、装置、电子设备和存储介质,方法包括:确定待插入槽及其对应的候选词;在所述待插入槽包括重复出现的多个相同槽的情况下,将所述多个相同槽对应的候选词复用为同一个候选词节点;将所述候选词节点与所述多个相同槽的端点连接,得到插词后的解码网络。本发明提供的解码网络的插词方法、装置、电子设备和存储介质,在待插入槽包括重复出现的多个相同槽的情况下,将该重复出现的多个相同槽对应的候选词复用为同一个候选词节点,即只需要构建一次候选词,相比于现有技术中对每一个槽就需要进行一次候选词的插入,需要重复构建多次候选词,减少了插词的时间开销,同时降低了新增的内存占用。
-
公开(公告)号:CN119763570A
公开(公告)日:2025-04-04
申请号:CN202411900452.5
申请日:2024-12-23
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种语音唤醒识别方法及装置,所述方法包括:对唤醒语音数据进行唤醒词识别;在唤醒语音数据中存在唤醒词的情况下,确定唤醒语音数据中唤醒词所属目标语种,以及从唤醒语音数据中剪除唤醒词;基于目标语音识别模型,对剪除唤醒词后的唤醒语音数据进行语音识别,得到语音唤醒识别结果,目标语音识别模型用于识别目标语种下的语音数据。本发明提供的语音唤醒识别方法及装置,先对简短、明确且易于识别的唤醒语音数据进行唤醒词识别,确定唤醒意图的起始点,不仅可以减少计算量,也可以准确识别多个不同唤醒词,接着剪除唤醒语音数据中的唤醒词,从而可以避免唤醒词对后续识别用户唤醒意图的干扰,进一步提高语音唤醒识别精度。
-
公开(公告)号:CN119692368A
公开(公告)日:2025-03-25
申请号:CN202510205232.9
申请日:2025-02-24
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音翻译方法、系统和相关装置,该方法包括:获取至少一端的输入音频,确定所述输入音频的待翻译语种,将每端的所述输入音频分别作为待翻译音频,确定所述待翻译音频对应的初始识别文本;其中,所述初始识别文本匹配有至少一个识别语种;基于所述待翻译语种、所述初始识别文本及其对应的所述识别语种,获取与所述待翻译音频匹配的提示文本;其中,所述提示文本包括与所述识别语种匹配的转换语种;从候选词库中获取与所述初始识别文本匹配的参考词汇;基于所述初始识别文本、所述提示文本和所述参考词汇,获取所述待翻译音频对应的翻译文本。通过上述方式,本申请能够提高语音翻译的准确性和效率。
-
公开(公告)号:CN119495310A
公开(公告)日:2025-02-21
申请号:CN202411486918.1
申请日:2024-10-23
Applicant: 科大讯飞股份有限公司
IPC: G10L21/007 , G10L15/26 , G10L15/00 , G10L13/08 , G06F40/58
Abstract: 本申请公开了一种音频播报的调节方法、系统和相关装置,该方法包括:获取目标对象的初始音频,确定所述初始音频对应的翻译文本;获取所述初始音频对应的第一参考时长和所述翻译文本对应的第二参考时长;基于所述翻译文本、所述第一参考时长和所述第二参考时长,生成调节后的转换音频。通过上述方式,本申请能够提高音频播报的灵活性以及提升用户体验感。
-
公开(公告)号:CN118690748B
公开(公告)日:2025-01-28
申请号:CN202411173918.6
申请日:2024-08-26
Applicant: 科大讯飞股份有限公司
IPC: G06F40/284 , G06F40/242 , G06F40/30
Abstract: 本申请公开了一种英语固定搭配识别方法及相关装置,先获取以目标英语单词开头且目标英语单词后面包含第一单词的目标英语单词序列,再确定第一单词的词性是否为目标词性;如果第一单词的词性是目标词性,则确定目标英语单词序列是英语固定搭配。考虑到虽然英语的语言多样性、语境复杂性以及文化差异等因素,会导致英语固定搭配的形式可能发生变化,但是,不管怎样变化,英语固定搭配必须符合特定的语法和语义规则,而对于以目标单词开头的英语固定搭配,目标单词后面的词的词性是需要满足条件,才能与特定的语法和语义规则匹配,因此,基于目标单词后的第一单词的词性是否为目标词性,确定目标英语单词序列是否为英语固定搭配,准确率更高。
-
公开(公告)号:CN118070785A
公开(公告)日:2024-05-24
申请号:CN202311384849.9
申请日:2023-10-23
Applicant: 科大讯飞股份有限公司
IPC: G06F40/258 , G06F40/30 , G06N3/0455
Abstract: 本申请公开了一种标题生成方法及相关装置、设备和存储介质,其中,标题生成方法包括:获取目标文档中待生成标题的第一子文档;基于第一子文档,生成第一标题,并基于第一子文档经语句调序之后的第二子文档,生成第二标题,以及基于第一子文档的文档摘要,生成第三标题;基于第一标题、第二标题和第三标题中任意两者之间的一致性检测结果,得到第一子文档的目标标题。上述方案,能够提高目标标题的生成质量。
-
公开(公告)号:CN117894300A
公开(公告)日:2024-04-16
申请号:CN202311870857.4
申请日:2023-12-29
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种样本音频数据的获取方法、语音识别方法及相关装置。该方法包括:获取目标音频数据的标注文本和至少两个参考文本,标注文本是基于目标音频数据的字幕确定的,各参考文本是分别利用不同的语音识别模型对目标音频数据进行识别得到的;基于标注文本和至少两个参考文本之间的比对结果,确定目标音频数据的类型,类型表征标注文本的准确性或者目标音频数据的语音识别难度;对目标音频数据执行与类型匹配的处理,并将经处理后的目标音频数据作为用于对目标语音识别模型进行训练的样本音频数据。上述方案,能够提高获取对目标语言识别模型训练的样本音频数据的效率。
-
-
-
-
-
-
-
-
-