-
公开(公告)号:CN119694302A
公开(公告)日:2025-03-25
申请号:CN202411769405.1
申请日:2024-12-04
Applicant: 合肥智能语音创新发展有限公司 , 科大讯飞股份有限公司
Abstract: 本申请公开了一种多语种语音识别模型训练方法及相关装置,涉及语音识别技术领域,包括:预先构建包含第一训练分支和第二训练分支的多语种语音识别模型训练模型,其中,第一训练分支和第二训练分支均由编码器和解码器组成,第一训练分支和第二训练分支共用解码器和部分编码器;通过语音文本有监督训练数据以及纯文本训练数据,对第一训练分支和第二训练分支进行多任务联合训练,得到训练好的第一训练分支作为多语种语音识别模型。该方案能够降低模型训练的计算开销,提高训练数据的利用率,从而在有效降低训练周期和减少有监督训练数据的情况下,训练得到一个高效、准确的多语种语音识别模型,进而提升多语种语音识别的效果。
-
公开(公告)号:CN119649378A
公开(公告)日:2025-03-18
申请号:CN202411674214.7
申请日:2024-11-21
Applicant: 科大讯飞股份有限公司
IPC: G06V30/18 , G06F40/232
Abstract: 本申请公开了一种错字识别方法、装置、设备和存储介质,该方法包括:获取待识别文字的第一笔画序列、以及待识别文字对应的正确文字的第二笔画序列;对第一笔画序列和第二笔画序列进行笔画匹配,分别确定待识别文字中未成功匹配的第一差异笔画和正确文字中未成功匹配的第二差异笔画;利用错字识别模型基于第一差异笔画和第二差异笔画进行错字识别,确定待识别文字的目标识别结果,目标识别结果用于表征待识别文字是否为错字。通过上述方式,本申请能够提高错字识别的准确度。
-
公开(公告)号:CN119626205A
公开(公告)日:2025-03-14
申请号:CN202510154037.8
申请日:2025-02-12
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种基于语音的年龄预测方法及相关装置,涉及语音处理技术领域,包括:在获取待预测说话者的语音数据之后,先对语音数据进行识别,得到识别文本,再根据语音数据以及识别文本,确定待预测说话者的年龄预测参考特征,年龄预测参考特征包括声学特征和人物事件关系特征;最后,基于待预测说话者的年龄预测参考特征,确定待预测说话者的年龄预测结果。本方案中,由于人物事件关系特征用于表征基于待预测说话者年龄相关的人物事件确定的待预测说话者的年龄范围及其可信度,具有较高的参考性,因此,在基于语音进行年龄预测时,考虑了人物事件关系特征,能够提升年龄预测结果的准确性。
-
公开(公告)号:CN119599021A
公开(公告)日:2025-03-11
申请号:CN202411627403.9
申请日:2024-11-14
Applicant: 科大讯飞股份有限公司
IPC: G06F40/30 , G06F40/253 , G06F16/3329
Abstract: 本申请公开了一种回答质量评测方法及相关装置、设备和存储介质,其中,回答质量评测方法包括:获取第一大语言模型针对目标问题生成的目标回答;基于目标问题和目标回答,构造第一提示文本;其中,第一提示文本用于指示第二大语言模型生成至少一个目标评分,至少一个目标评分包括表征目标回答的语义质量的第一目标评分、表征目标回答的语法结构的第二目标评分中至少一者;将第一提示文本输入至第二大语言模型,以得到目标问题的至少一个目标评分;基于至少一个目标评分,生成第一大语言模型关于目标问题的回答质量评测结果。上述方案,能够在实现回答质量自动化评测的情况下,提升评测结果的准确性。
-
公开(公告)号:CN119597316A
公开(公告)日:2025-03-11
申请号:CN202411666821.9
申请日:2024-11-21
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种程序更新评价方法及相关装置、设备和存储介质,其中,程序更新评价方法包括:响应于当前设备上目标程序存在待更新的目标版本,获取当前设备上目标程序的当前版本;至少基于当前版本的发布数据与目标版本的发布数据之间的差异,生成若干评价维度下的评价数据;其中,各个评价维度下评价数据分别表征:当前设备上目标程序在对应评价维度下,目标版本相较于当前版本的变化程度;基于若干评价维度下的评价数据,生成目标程序的更新评价总结。上述方案,能够提供关于目标程序尽可能准确的更新评价总结,满足决策是否更新目标程序的个性化需求,以提升用户的使用感。
-
公开(公告)号:CN119589677A
公开(公告)日:2025-03-11
申请号:CN202411852011.2
申请日:2024-12-16
Applicant: 科大讯飞股份有限公司
IPC: B25J9/16
Abstract: 本发明提供一种任务执行方法、装置及机器人,所述方法包括:基于待执行任务对应的环境图像,识别环境中的物品信息;基于用于描述待执行任务的执行指令以及物品信息,将待执行任务分解为多个子任务,各子任务包括执行对象以及执行对象的执行动作;识别各执行对象的位姿,并基于各执行对象的位姿以及执行动作,执行对应子任务。本发明提供的任务执行方法、装置及机器人,不依赖于预定义指令集,从而能够处理更复杂、更灵活的执行指令,适应复杂多变的应用场景。此外,本发明在面对长文本执行指令时,也能够准确理解任务需求。
-
公开(公告)号:CN119577193A
公开(公告)日:2025-03-07
申请号:CN202411634834.8
申请日:2024-11-15
Applicant: 科大讯飞股份有限公司
IPC: G06F16/901 , G06F16/9035
Abstract: 本申请公开了一种图扁平化方法、基于图数据的问答方法、装置、相关设备及计算机程序产品,本申请对于原始图,如果其中包含环路,则将其处理成有向无环图,进而从中识别出所有的端点,对于两两端点,在原始图中搜索两两端点之间的路径信息,可以将每条路径信息作为扁平化后的图信息。相比于现有技术将原始图的邻接列表作为扁平化的图信息,本申请方案能够从原始图中抽取到两两端点之间的路径,相比于邻接列表该路径信息具有更长的节点以及各节点之间的顺序信息,能够更好的表示原始图数据。尤其是对于具有复杂拓扑结构和长距离依赖关系的图数据,通过路径信息可以更好的表现原始图数据,当应用于下游任务时,可以提升下游任务的效果。
-
公开(公告)号:CN119251652B
公开(公告)日:2025-03-07
申请号:CN202411784286.7
申请日:2024-12-06
Applicant: 科大讯飞股份有限公司
IPC: G06V10/94 , G06V20/70 , G06V20/64 , G06V10/774 , G06F3/04842 , G06F3/04855
Abstract: 本申请公开了一种数据审核交互方法及相关装置,涉及数据标注技术领域,方法包括:获取已标注数据帧序列,已标注数据帧序列的每个已标注数据帧包括一标注出目标的点云帧和该点云帧对应的标注出目标的图像帧;在第一界面展示由已标注数据帧序列中的各已标注点云帧组成的已标注点云帧序列;当检测到用于从第一界面展示的已标注点云帧中选取一待审核目标并触发审核的第一用户操作时,从已标注数据帧序列中提取待审核目标对应的已标注数据帧子序列;在第二界面展示提取的已标注数据帧子序列,以便用户对待审核目标的标注信息进行审核,并在审核标注信息有误时进行修改。本申请公开的数据审核交互方法能够帮助用户快速有效地完成标注信息的审核和修改。
-
公开(公告)号:CN119559962A
公开(公告)日:2025-03-04
申请号:CN202411486466.7
申请日:2024-10-23
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种同传翻译方法、电子设备和计算机可读存储介质,该方法包括:获取待译音频;利用目标分割模型确定待译音频对应的待译文本的文本分割位置;其中,文本分割位置包括第一文本分割位置和第二文本分割位置,第一文本分割位置为待译文本中的第一子待译文本和第二子待译文本之间的位置,第二子待译文本对第一子待译文本的翻译影响度低于第一影响度阈值,第二文本分割位置为待译文本中的目标标点所在位置;按照文本分割位置,对待译音频进行分段翻译。通过上述方式,本申请能够提高同传翻译的时效性,降低同传翻译的时延。
-
公开(公告)号:CN119541535A
公开(公告)日:2025-02-28
申请号:CN202411425512.2
申请日:2024-10-12
Applicant: 科大讯飞股份有限公司
IPC: G10L25/48 , G10L15/22 , B60R16/037
Abstract: 本申请公开了一种语音唤醒方法及相关装置、设备、系统和存储介质,其中,语音唤醒方法包括:获取各个座椅处的音频采集结果和状态检测结果;基于音频采集结果和状态检测结果,确定目标音区数,基于状态检测结果,从音频采集结果中提取得到音频通道数为目标音区数的第一音频;基于目标音区数调用唤醒引擎,得到第一唤醒实例;其中,第一唤醒实例中唤醒引擎的实际通道数为目标音区数;输入第一音频至第一唤醒实例并运行,得到第一唤醒结果。上述方案,能够在实现多音区唤醒的前提下,尽可能地提升多音区唤醒对不同驾驶场景的唤醒准确性和自适应性,并尽快地减少多音区唤醒的资源消耗。
-
-
-
-
-
-
-
-
-