-
公开(公告)号:CN119830926A
公开(公告)日:2025-04-15
申请号:CN202411940917.X
申请日:2024-12-26
Applicant: 科大讯飞股份有限公司
IPC: G06F40/58 , G06F40/232 , G06N3/0455 , G10L15/26
Abstract: 本申请公开了一种语音翻译方法及相关装置、设备和存储介质,其中,语音翻译方法包括:获取待翻译语音的若干初始识别文本和用于指示翻译的思维链;利用大语言模型按照思维链处理若干初始识别文本,得到待翻译语音的最终翻译文本;其中,思维链至少包括:基于若干初始识别文本进行错误校正,得到语音识别文本,并基于语音识别文本翻译为目标语种,得到第一翻译文本,基于第一翻译文本翻译为待翻译语音的源语种,得到第二翻译文本,以及至少基于第二翻译文本和语音识别文本之间差异修正第一翻译文本,得到最终翻译文本。上述方案,能够提升大语言模型实现语音翻译的准确性,特别是在数据资源限制的情况下。
-
公开(公告)号:CN118690748B
公开(公告)日:2025-01-28
申请号:CN202411173918.6
申请日:2024-08-26
Applicant: 科大讯飞股份有限公司
IPC: G06F40/284 , G06F40/242 , G06F40/30
Abstract: 本申请公开了一种英语固定搭配识别方法及相关装置,先获取以目标英语单词开头且目标英语单词后面包含第一单词的目标英语单词序列,再确定第一单词的词性是否为目标词性;如果第一单词的词性是目标词性,则确定目标英语单词序列是英语固定搭配。考虑到虽然英语的语言多样性、语境复杂性以及文化差异等因素,会导致英语固定搭配的形式可能发生变化,但是,不管怎样变化,英语固定搭配必须符合特定的语法和语义规则,而对于以目标单词开头的英语固定搭配,目标单词后面的词的词性是需要满足条件,才能与特定的语法和语义规则匹配,因此,基于目标单词后的第一单词的词性是否为目标词性,确定目标英语单词序列是否为英语固定搭配,准确率更高。
-
公开(公告)号:CN114492469B
公开(公告)日:2024-11-08
申请号:CN202111630203.5
申请日:2021-12-28
Applicant: 科大讯飞股份有限公司
IPC: G06F40/58 , G06F40/30 , G06F40/289 , G06F18/214
Abstract: 本申请公开了一种翻译方法、翻译装置和计算机可读存储介质,该翻译方法包括:获取待处理数据,将待处理数据输入第一翻译模型,得到翻译数据;其中,第一翻译模型的训练方法包括:获取训练完的第二翻译模型、原始平行语料以及多个新词集,新词集包括第一新词以及至少一个第二新词,第二新词为第一新词的译文;对新词集进行处理,得到包含新词集的第一训练平行语料;对第一训练平行语料进行清洗处理,得到第二训练平行语料;采用原始平行语料与第二训练平行语料,对第二翻译模型进行更新训练,得到第一翻译模型。通过上述方式,本申请能够提升新词的翻译效果。
-
公开(公告)号:CN114742514A
公开(公告)日:2022-07-12
申请号:CN202210199273.8
申请日:2022-03-02
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了同传延迟检测方法及相关装置、电子设备、存储介质,其中,同传延迟检测方法包括:检测同传过程中各个语句对的语句同传延迟;其中,语句对包括源语种的第一语句和目标语种的第二语句,语句对的语句同传延迟包括语句对的帧级延迟;基于所述语句同传延迟,统计得到篇章同传延迟。上述方案,能够自动检测同传延迟,相较于人工检测有助于大幅减少检测时间和检测成本。
-
公开(公告)号:CN114492469A
公开(公告)日:2022-05-13
申请号:CN202111630203.5
申请日:2021-12-28
Applicant: 科大讯飞股份有限公司
IPC: G06F40/58 , G06F40/30 , G06F40/289 , G06K9/62
Abstract: 本申请公开了一种翻译方法、翻译装置和计算机可读存储介质,该翻译方法包括:获取待处理数据,将待处理数据输入第一翻译模型,得到翻译数据;其中,第一翻译模型的训练方法包括:获取训练完的第二翻译模型、原始平行语料以及多个新词集,新词集包括第一新词以及至少一个第二新词,第二新词为第一新词的译文;对新词集进行处理,得到包含新词集的第一训练平行语料;对第一训练平行语料进行清洗处理,得到第二训练平行语料;采用原始平行语料与第二训练平行语料,对第二翻译模型进行更新训练,得到第一翻译模型。通过上述方式,本申请能够提升新词的翻译效果。
-
公开(公告)号:CN112347789A
公开(公告)日:2021-02-09
申请号:CN202011230897.9
申请日:2020-11-06
Applicant: 科大讯飞股份有限公司
IPC: G06F40/30 , G06F40/289
Abstract: 本申请提供了一种标点预测方法、装置、设备及存储介质,其中,方法包括:获取待预测文本,其中,待预测文本为当前语音片段的当前识别结果;以待预测文本是否为当前语音片段的首个中间识别结果为依据,获取历史预测信息,其中,历史预测信息为,在对历史识别结果进行标点预测的过程中所产生的、用于确定标点预测结果的中间信息;根据历史预测信息和待预测文本预测待预测文本中词的标点信息。本申请提供的标点预测方法具有较高的预测准确度和预测效率,该优势使得本申请提供的标点预测方法能够适用于机器同声传译场景。
-
公开(公告)号:CN119785831A
公开(公告)日:2025-04-08
申请号:CN202510279973.1
申请日:2025-03-11
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种语音识别评估方法、装置、电子设备和存储介质,属于自然语言处理技术领域,其中方法包括:获取目标语音的语音识别文本和语音识别文本标签;对语音识别文本和语音识别文本标签进行翻译,得到语音识别文本的第一译文和语音识别文本标签的第二译文;将语音识别文本和第一译文对齐,得到第一对齐信息,将语音识别文本标签和第二译文对齐,得到第二对齐信息;将第一对齐信息和第二对齐信息输入至评估模型,得到语音识别文本的评估结果;评估模型是基于样本语音识别文本对应的第一样本对齐信息,样本语音识别文本标签对应的第二样本对齐信息,以及样本语音识别文本的评估结果标签进行训练得到的。本发明能够提高语音识别评估的准确性。
-
公开(公告)号:CN119917617A
公开(公告)日:2025-05-02
申请号:CN202411970420.2
申请日:2024-12-30
Applicant: 科大讯飞股份有限公司
IPC: G06F16/3329 , G06F16/3332 , G06F16/334 , G06F18/214 , G06N5/04
Abstract: 本申请提供一种多语种微调数据生成方法、装置、设备、介质及程序产品,该多语种微调数据生成方法包括:基于预设语种的原始问题,改写生成第一问题;其中,第一问题用多语种表示;基于第一问题,改写生成第二问题;其中,第二问题用多语种表示;基于第一问题和第二问题,确定目标问题;其中,目标问题用多语种表示;生成目标问题对应的目标回答;基于目标问题和目标回答,生成多语种微调数据。本申请能够自动生成多样性的多语种微调数据。
-
公开(公告)号:CN118690748A
公开(公告)日:2024-09-24
申请号:CN202411173918.6
申请日:2024-08-26
Applicant: 科大讯飞股份有限公司
IPC: G06F40/284 , G06F40/242 , G06F40/30
Abstract: 本申请公开了一种英语固定搭配识别方法及相关装置,先获取以目标英语单词开头且目标英语单词后面包含第一单词的目标英语单词序列,再确定第一单词的词性是否为目标词性;如果第一单词的词性是目标词性,则确定目标英语单词序列是英语固定搭配。考虑到虽然英语的语言多样性、语境复杂性以及文化差异等因素,会导致英语固定搭配的形式可能发生变化,但是,不管怎样变化,英语固定搭配必须符合特定的语法和语义规则,而对于以目标单词开头的英语固定搭配,目标单词后面的词的词性是需要满足条件,才能与特定的语法和语义规则匹配,因此,基于目标单词后的第一单词的词性是否为目标词性,确定目标英语单词序列是否为英语固定搭配,准确率更高。
-
公开(公告)号:CN112735417B
公开(公告)日:2024-04-26
申请号:CN202011591155.9
申请日:2020-12-29
Applicant: 中国科学技术大学 , 科大讯飞股份有限公司
Abstract: 本发明提供一种语音翻译方法、电子设备、存储介质。其中,语音翻译方法,包括:在获取待翻译语音数据的过程中对待翻译语音数据进行流式语音识别;对当前流式语音识别进行即时判定,以判定识别的当前识别结果是否触发翻译操作,若是,对当前识别结果进行翻译。其能够降低翻译等待时间,提高翻译效率。
-
-
-
-
-
-
-
-
-