-
公开(公告)号:CN114267330A
公开(公告)日:2022-04-01
申请号:CN202111659164.1
申请日:2021-12-30
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种语音合成方法、装置、电子设备和存储介质,其中方法包括:确定待合成的篇章文本的篇章音素序列;对所述篇章音素序列进行编码,得到所述篇章文本的语音学特征;基于所述语音学特征进行语音合成,得到所述篇章文本的合成语音。本发明提供的方法、装置、电子设备和存储介质,通过对篇章文本的篇章音素序列进行编码,从而得到针对篇章文本整体建模的语音学特征,据此进行语音合成,能够保证合成语音在韵律、情感等语感层面的连贯性,提高合成语音的自然度。
-
公开(公告)号:CN113628630A
公开(公告)日:2021-11-09
申请号:CN202110925487.4
申请日:2021-08-12
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供了一种信息转换方法和装置。首先,调用第一编码模型对输入信息进行编码得到第一特征,然后调用第一解码模型对第一特征进行解码,得到与输入信息类型不同的输出信息。其中,第一解码模型至少包含与N层第一编码依序一一对应的N层第一解码器,每层第一解码器的输入包含其对应的第一编码,且除第1层外还包含下一层第一解码器的输出编码。每层第一解码器的输出编码用于表征输出信息在其对应粒度下的组成部分的特征,且该粒度小于下一层第一解码器对应的粒度。本方案能够使得信息转换的准确性和稳定性大幅提升。当输入信息和输出信息分别为文本和语音时,以上层次化的编解码过程能够稳定、高效的生成具有高自然度的合成语音。
-
公开(公告)号:CN113628610A
公开(公告)日:2021-11-09
申请号:CN202110924333.3
申请日:2021-08-12
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供了一种语音合成方法和装置。首先调用第一编码模型对文本信息进行编码得到文本特征,然后再调用第一解码模型基于所述文本特征进行解码得到语音信息。其中,该第一编码模型和该第一解码模型分别至少包含级联的N层第一编码器和级联的M层第一解码器。对任何1≤i
-
公开(公告)号:CN110148413B
公开(公告)日:2021-10-08
申请号:CN201910422699.3
申请日:2019-05-21
Applicant: 科大讯飞股份有限公司
Abstract: 本申请实施例公开了一种语音评测方法及相关装置,方法包括:获取第一测评模式下作为评测标准的第一语音,以及获取待评测的第二语音;处理第一语音得到第一文本,以及处理第二语音得到第二文本;获取第一测评模式对应的第一文本检测策略;按照第一文本检测策略处理第一文本和第二文本,得到针对第二语音的检测结果。本申请有利于提高设备进行语音评测的灵活性和全面性。
-
公开(公告)号:CN104978962B
公开(公告)日:2019-01-18
申请号:CN201410149146.2
申请日:2014-04-14
Applicant: 科大讯飞股份有限公司
Abstract: 本发明涉及音乐检索技术领域,公开了一种哼唱检索方法及系统,该方法包括:获取用户哼唱歌曲片段;提取所述哼唱歌曲片段的旋律特征及频谱特征;根据所述旋律特征从所述歌曲库中选择候选歌曲;将所述频谱特征与所述候选歌曲的频谱特征进行匹配,得到频谱相似度;根据所述频谱相似度、或者根据所述频谱相似度及所述旋律相似度,对所述候选歌曲进行排序。本发明可以有效提高检索结果的准确率。
-
公开(公告)号:CN119990314A
公开(公告)日:2025-05-13
申请号:CN202510056814.5
申请日:2025-01-14
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供一种题目解答方法、装置、设备、介质及程序产品,该题目解答方法包括:基于决策树的根节点选择下一个子节点,直至到达一个叶子节点;决策树的节点包括由待解答题目的至少一个解答步骤组成的解答内容;在叶子节点不是终端节点的情况下,扩展叶子节点的各个子节点;确定叶子节点的各个子节点各自对应的特征,并基于各个特征,删除叶子节点的部分子节点,获得叶子节点的被保留子节点;基于叶子节点的被保留子节点,进行模拟和回溯,确定根节点的目标子节点,将目标子节点确定为决策树的根节点,返回执行基于决策树的根节点选择下一个子节点的步骤,直至生成待解答题目的完整解答内容。本申请能够提升多步骤题目解答的效率和准确率。
-
公开(公告)号:CN119864006A
公开(公告)日:2025-04-22
申请号:CN202411904686.7
申请日:2024-12-23
Applicant: 科大讯飞股份有限公司
IPC: G10L13/02 , G10L13/047 , G10L13/10
Abstract: 本申请公开了一种语音合成生成方法、电子设备和存储介质。该方法包括:获取初始语音数据对应的初始语音特征和初始韵律特征;将所述初始语音特征和所述初始韵律特征进行拼接,得到初始待加噪对象;对所述初始待加噪对象进行加噪,得到加噪对象;将所述加噪对象和所述初始语音数据对应的音素序列输入到扩散模型,以对所述加噪对象进行去噪,得到目标对象,其中所述目标对象包括目标语音特征与目标韵律特征的组合;获取所述目标对象对应的目标语音数据。本申请提升了语音生成的自然度和表现力。
-
公开(公告)号:CN119832563A
公开(公告)日:2025-04-15
申请号:CN202411637370.6
申请日:2024-11-15
Applicant: 科大讯飞股份有限公司
IPC: G06V30/19 , G06V30/41 , G06V20/62 , G06V30/148
Abstract: 本发明提供一种答题模型训练、答题方法及装置,方法包括:获取预训练数据和训练数据,预训练数据包括第一题目图像、第一题目图像中第一题干文本以及用于描述第一题目图像中图形区域的第一描述文本,训练数据包括第二题目图像,以及第二题目图像对应的答案文本;基于预训练数据,对初始模型进行预训练,得到预训练模型;基于预训练模型,确定第二题目图像对应的预测答案文本;基于预测答案文本,以及答案文本,对预训练模型进行模型微调,得到答题模型。本发明提供的答题模型训练、答题方法及装置,在保证答题准确性的同时,提升了答题效率。
-
公开(公告)号:CN119808867A
公开(公告)日:2025-04-11
申请号:CN202411769381.X
申请日:2024-12-04
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种混合专家网络训练方法、装置、设备及计算机程序产品,本申请将混合专家层中各专家均衡划分为若干组均分到若干个设备上,不同设备间共享相同的路由模块。训练过程,对于混合专家层的输入隐层序列,通过路由模块计算每路专家的得分,对于每个专家组按照组内专家的得分,选取组内的激活专家,不同组内激活专家数量相同,每个专家组处理完整的隐层序列,由每个专家组内的激活专家对输入的隐层序列进行处理,得到激活专家的输出,并基于各激活专家的输出,得到混合专家层的输出。本申请保证了各设备间计算的绝对均衡且不会因drop‑pad(即丢弃数据和补0)而影响模型的效果。
-
公开(公告)号:CN113628610B
公开(公告)日:2024-02-13
申请号:CN202110924333.3
申请日:2021-08-12
Applicant: 科大讯飞股份有限公司
Abstract: 合成语音。本申请提供了一种语音合成方法和装置。首先调用第一编码模型对文本信息进行编码得到文本特征,然后再调用第一解码模型基于所述文本特征进行解码得到语音信息。其中,该第一编码模型和该第一解码模型分别至少包含级联的N层第一编码器和级联的M层第一解码器。对任何1≤i
-
-
-
-
-
-
-
-
-