-
公开(公告)号:CN119961365A
公开(公告)日:2025-05-09
申请号:CN202411967167.5
申请日:2024-12-30
Applicant: 海南声谷科技有限公司 , 科大讯飞股份有限公司 , 合肥讯飞数码科技有限公司
Abstract: 本申请公开了一种区域探测方法及相关装置、设备和存储介质,其中,区域探测方法包括:基于待探测区域的环境数据和探测设备的属性数据,构建用于指引探索待探测区域的目标地图;基于目标优化函数,确定各个子区域的探测优先级;其中,目标优化函数包含遍历若干子区域所涉及的至少一项目标指标值;基于探测优先级,得到若干子区域的预规划路径;基于目标地图和探测设备依照预规划路径探索时获取的传感器数据,驱动探测设备探索待探测区域。上述方案,能够在待探测区域环境复杂的情况下,提升探测设备在待探测区域的探索合理性。
-
公开(公告)号:CN119785801A
公开(公告)日:2025-04-08
申请号:CN202411754107.5
申请日:2024-12-02
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种离线个性化声纹学习方法及说话人分离方法,涉及语音处理技术领域,在设备端确定内置的通用声纹识别模型和目标通用声纹学习数据,并获取个性化声纹学习数据;利用训练数据和个性化声纹学习数据,对通用声纹识别模型进行元学习,得到初始个性化声纹识别模型;最后利用测试数据,分别对通用声纹识别模型和初始个性化声纹识别模型进行测试,并基于得到的第一测试结果,确定目标个性化声纹识别模型。该方法利用个性化声纹学习数据以及设备端内置的训练数据,对通用声纹识别模型进行元学习以及测试即可实现离线个性化训练,不需要向每个设备端传输模型更新包,可以大大提高模型更新效率,降低成本,避免因更新包传输引入的安全性问题。
-
公开(公告)号:CN119694302A
公开(公告)日:2025-03-25
申请号:CN202411769405.1
申请日:2024-12-04
Applicant: 合肥智能语音创新发展有限公司 , 科大讯飞股份有限公司
Abstract: 本申请公开了一种多语种语音识别模型训练方法及相关装置,涉及语音识别技术领域,包括:预先构建包含第一训练分支和第二训练分支的多语种语音识别模型训练模型,其中,第一训练分支和第二训练分支均由编码器和解码器组成,第一训练分支和第二训练分支共用解码器和部分编码器;通过语音文本有监督训练数据以及纯文本训练数据,对第一训练分支和第二训练分支进行多任务联合训练,得到训练好的第一训练分支作为多语种语音识别模型。该方案能够降低模型训练的计算开销,提高训练数据的利用率,从而在有效降低训练周期和减少有监督训练数据的情况下,训练得到一个高效、准确的多语种语音识别模型,进而提升多语种语音识别的效果。
-
公开(公告)号:CN119649378A
公开(公告)日:2025-03-18
申请号:CN202411674214.7
申请日:2024-11-21
Applicant: 科大讯飞股份有限公司
IPC: G06V30/18 , G06F40/232
Abstract: 本申请公开了一种错字识别方法、装置、设备和存储介质,该方法包括:获取待识别文字的第一笔画序列、以及待识别文字对应的正确文字的第二笔画序列;对第一笔画序列和第二笔画序列进行笔画匹配,分别确定待识别文字中未成功匹配的第一差异笔画和正确文字中未成功匹配的第二差异笔画;利用错字识别模型基于第一差异笔画和第二差异笔画进行错字识别,确定待识别文字的目标识别结果,目标识别结果用于表征待识别文字是否为错字。通过上述方式,本申请能够提高错字识别的准确度。
-
公开(公告)号:CN119589677A
公开(公告)日:2025-03-11
申请号:CN202411852011.2
申请日:2024-12-16
Applicant: 科大讯飞股份有限公司
IPC: B25J9/16
Abstract: 本发明提供一种任务执行方法、装置及机器人,所述方法包括:基于待执行任务对应的环境图像,识别环境中的物品信息;基于用于描述待执行任务的执行指令以及物品信息,将待执行任务分解为多个子任务,各子任务包括执行对象以及执行对象的执行动作;识别各执行对象的位姿,并基于各执行对象的位姿以及执行动作,执行对应子任务。本发明提供的任务执行方法、装置及机器人,不依赖于预定义指令集,从而能够处理更复杂、更灵活的执行指令,适应复杂多变的应用场景。此外,本发明在面对长文本执行指令时,也能够准确理解任务需求。
-
公开(公告)号:CN119541495A
公开(公告)日:2025-02-28
申请号:CN202411461438.X
申请日:2024-10-18
Applicant: 合肥智能语音创新发展有限公司 , 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音识别方法及相关装置、设备和存储介质,语音识别方法包括:获取当前轮次的第一解码特征;其中,当前轮次的第一解码特征包含上一轮次所输出解码字符的特征信息;获取待识别语音中各个语音帧的编码特征分别与第一解码特征之间的对齐概率,并基于对齐概率选择至少部分语音帧的编码特征与第一解码特征进行融合,得到第二解码特征;基于第二解码特征进行解码,得到当前轮次所输出的解码字符,并返回获取当前轮次的第一解码特征的步骤进行迭代,直至最新输出的解码字符表征语音识别结束为止,基于各个轮次的解码字符,得到待识别语音的识别文本。上述方案,能够提升语音识别的效率和准确性,特别是流式语音识别的效率和准确性。
-
公开(公告)号:CN119360824A
公开(公告)日:2025-01-24
申请号:CN202411272598.X
申请日:2024-09-11
Applicant: 科大讯飞股份有限公司
IPC: G10L13/08 , G10L13/033 , G10L17/02
Abstract: 本申请公开了一种语音增广方法及相关方法、装置、设备和存储介质,其中,语音增广方法包括:获取待增广语音,并获取待合成文本;基于待增广语音进行特征提取,得到待增广语音所属说话人的声纹特征和待增广语音所属场景的环境噪声特征;基于各个待增广语音分别所属说话人的第一分布,选择至少一个说话人的声纹特征,作为目标声纹特征,并基于各个待增广语音分别所属场景的第二分布,选择至少一种场景的环境噪声特征,作为目标环境噪声特征;获取由任一目标声纹特征、任一目标环境噪声特征和待合成文本所合成语音,作为增广语音。上述方案,能够实现语音增广以提升语音数据多样性。
-
公开(公告)号:CN118411979B
公开(公告)日:2024-10-29
申请号:CN202410882124.0
申请日:2024-07-03
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种合成语音的调整方法、训练方法及相关装置。该方法包括:获取初始合成语音的属性调整文本,其中,属性调整文本用于表征对初始合成语音进行语音属性调整的属性差异;获取参考属性调整文本进行语音合成得到的调整后的合成语音。上述方案,能够实现对语音属性的调整,满足用户对于合成语音的个性化需求。
-
公开(公告)号:CN118538221A
公开(公告)日:2024-08-23
申请号:CN202410507743.1
申请日:2024-04-25
Applicant: 科大讯飞股份有限公司
IPC: G10L15/26 , G06F40/232
Abstract: 本申请提供了语音识别方法、装置、设备、存储介质及程序产品,该方法包括:在第i个语音段的识别结果中将置信度小于置信度阈值的实体关键词进行标注,得到对应的第一待纠错文本,并将第一待纠错文本添加至待纠错文本集合;将第i+k个语音段的语音编码和待纠错文本集合输入大语言模型,以使大语言模型对第i+k个语音段的语音编码进行解码,以及对待纠错文本集合进行纠错;在第一待纠错文本对应的纠错结果中的实体关键词的置信度均不小于置信度阈值的情况下,将第一待纠错文本对应的纠错结果确定为第i个语音段的更新后识别结果,并将第一待纠错文本移出待纠错文本集合。根据本申请的技术方案,能够有效提升长语音中的实体关键词识别的准确性。
-
公开(公告)号:CN117572877B
公开(公告)日:2024-05-31
申请号:CN202410061297.6
申请日:2024-01-16
Applicant: 科大讯飞股份有限公司
IPC: G05D1/43 , G05D1/633 , G05D1/644 , G05D1/648 , G05D109/12
Abstract: 本申请公开了一种双足机器人步态控制方法、装置、存储介质及设备,该方法包括:首先获取目标双足机器人的本体信息;并响应于目标用户对目标双足机器人的触发操作,生成用户输入的任务标签和速度指令,然后将本体信息、任务标签和速度指令输入至预先构建的步态控制模型,预测得到目标双足机器人的步态动作轨迹;接着利用该步态动作轨迹,对目标双足机器人进行步态运动控制,以实现其各种步态间的平稳切换。由于本申请是先利用双足机器人的仿真本体信息,通过深度强化学习和模仿学习联合训练的方式训练得到了步态控制模型,从而保证了该步态控制模型能够实现对多样步态动作轨迹的控制生成,进而能够用以控制目标双足机器人各种步态间的平稳切换。
-
-
-
-
-
-
-
-
-