-
公开(公告)号:CN119811363A
公开(公告)日:2025-04-11
申请号:CN202510304422.6
申请日:2025-03-14
Applicant: 科大讯飞股份有限公司
IPC: G10L13/027 , G10L13/08 , G10L13/10 , G06F40/263 , G06F40/279 , G06F40/30 , G06N3/0455 , G06N3/088 , G06N3/094
Abstract: 本申请公开了一种语音合成方法、装置、设备和存储介质,该方法包括:获取待合成文本对应的音素序列;基于时长预测相关信息进行时长预测,得到待合成文本对应的目标时长信息,其中,时长预测相关信息包括参考语音的参考时长信息、待合成文本和音素序列;基于目标时长信息进行语音表征预测,得到目标细粒度语音表征;基于目标细粒度语音表征合成目标语音。上述方案,能够提升语音合成的效果。
-
公开(公告)号:CN119763604A
公开(公告)日:2025-04-04
申请号:CN202411610719.7
申请日:2024-11-12
Applicant: 科大讯飞股份有限公司 , 合肥智能语音创新发展有限公司 , 浙江潮汐力科技有限公司
Abstract: 本发明提供一种变压器状态识别方法、装置、电子设备和存储介质,涉及电力技术领域,其中方法包括:获取变压器的待测音频数据;将待测音频数据输入声纹提取模型中,得到声纹提取模型输出的目标声纹;声纹提取模型是基于第一数量的第一样本变压器的无状态标签的第一样本音频数据训练得到的;基于目标声纹和至少一个注册声纹,对变压器的状态进行识别。本发明是先基于大量无状态标签的第一样本音频数据训练得到声纹提取模型,再通过声纹提取模型基于少量有状态标签的第二样本音频数据确定至少一个注册声纹,进而结合注册声纹实现变压器的状态识别,在只需要少量有状态标签的样本音频数据的情况下,提高了变压器状态识别的准确性。
-
公开(公告)号:CN119024257A
公开(公告)日:2024-11-26
申请号:CN202310619029.7
申请日:2023-05-26
Applicant: 科大讯飞股份有限公司
Inventor: 李俊 , 宫韬 , 蔡明琦 , 杨杰 , 刘铱豪 , 马旭 , 宋若淼 , 翟晓伟 , 刘颖 , 车骋 , 徐甲甲 , 李心 , 储汉卿 , 任颖 , 苏海涛 , 梁华 , 胡琼英 , 方昕 , 高建清 , 刘聪 , 胡国平
Abstract: 本申请公开了一种声源成像系统的性能测试方法以及相关装置,该方法包括:使两个测试声源分别与声源成像系统之间具有第一预设距离;两个测试声源分别相对声源成像系统具有相同的第一预设俯仰角和不同的第一预设方位角,且两个第一预设方位角差值的绝对值为180°;使两个测试声源同时发出声波,声源成像系统获得两个测试声源的第一检测结果;其中,第一检测结果包括对应测试声源的第一测试俯仰角和第一测试方位角;基于两个测试声源的第一检测结果、以及相应的第一预设俯仰角和第一预设方位角判定声源成像系统的分辨率精度是否符合对应的要求。通过上述方式,本申请能够高效准确地判断声源成像系统对于多声源的定位是否准确。
-
公开(公告)号:CN119339704A
公开(公告)日:2025-01-21
申请号:CN202411531365.7
申请日:2024-10-30
Applicant: 科大讯飞股份有限公司
IPC: G10L13/02 , G10L13/047
Abstract: 本申请公开了一种韩语文本发音预测方法、语音合成方法、装置、相关设备及计算机程序产品,对于目标韩语文本中每一单词,将其和发音词典进行匹配,如果词面和发音规则均匹配成功,则使用匹配成功的词典发音作为当前单词的发音。如果词面匹配成功但发音规则匹配失败,则获取发音词典中匹配成功的词面下的目标发音信息。调用发音预测模型预测当前单词的候选发音信息,利用候选发音信息中首音素和/或尾音素,替换目标发音信息中的首音素和/或尾音素,得到当前单词的发音。通过融合不同的发音预测方式,提高韩语单词的发音预测准确性,尤其是提高了韩语针对音变部分的预测准确度,提升了语音合成效果,降低发音词典构建的难度。
-
公开(公告)号:CN118485785A
公开(公告)日:2024-08-13
申请号:CN202410948625.4
申请日:2024-07-16
Applicant: 科大讯飞股份有限公司 , 浙江潮汐力科技有限公司
Abstract: 本发明涉及图像处理技术领域,提供一种三维重建方法、装置、电子设备和存储介质,其中方法包括:获取至少两个视角图像;基于至少两个视角图像的视角图特征之间的相关性,对各视角图特征进行特征增强,得到各视角图像的增强图特征,并基于各视角图像的增强图特征,进行深度预测,得到预测深度范围;将预测深度范围作为立体匹配算法的初始深度范围,应用立体匹配算法在至少两个视角图像的基础上进行三维重建。本发明提供的方法、装置、电子设备和存储介质,将预测深度范围作为初始深度范围,能够缩小初始深度范围与真实深度情况之间的误差,提高在三维重建的迭代优化效率,降低陷入局部最优解的风险,由此提高三维重建效率,保证三维重建质量。
-
公开(公告)号:CN119689187A
公开(公告)日:2025-03-25
申请号:CN202411882976.6
申请日:2024-12-19
Applicant: 科大讯飞股份有限公司
IPC: G01R31/12
Abstract: 本发明提供一种局部放电检测方法、装置、电子设备和存储介质,其中方法包括:获取待检测的电力设备的放电声音信号;基于放电声音信号的放电周期性特征,对放电声音信号进行滑窗滤波,得到多个放电声音信号分量;基于各放电声音信号分量对应的频段的局部放电特征频率能量进行局部放电检测,得到局部放电检测结果,克服了传统方案中因环境干扰导致无法准确有效进行局部放电检测的缺陷,利用局部放电的机理特征,结合滑窗滤波方法进行局部放电检测,能够抑制环境中大部分的干扰因素,准确进行是否局部放电的判断,得到准确可靠的局部放电检测结果,提升了检测的准确性和可信度。
-
公开(公告)号:CN119782899A
公开(公告)日:2025-04-08
申请号:CN202411754118.3
申请日:2024-12-02
Applicant: 科大讯飞股份有限公司 , 合肥智能语音创新发展有限公司 , 浙江潮汐力科技有限公司
IPC: G06F18/241 , G06F18/213 , G06F18/25 , G06V10/42 , G06V10/44 , G06N3/045 , G06N3/0464 , G06N3/0895 , G10L25/30 , G10L25/51 , G06F123/02
Abstract: 本发明提供一种设备状态识别方法、装置、电子设备和存储介质,其中方法包括:对待测设备的音频数据进行特征提取,得到音频特征,并对所述待测设备的图像数据进行特征提取,得到图像特征;将所述音频特征和所述图像特征输入至设备状态识别模型,得到所述设备状态识别模型输出的状态识别结果。本发明通过同时利用音频特征和图像特征进行设备状态识别,可以使模型捕捉到设备状态更全面、更丰富的信息,从而提高识别的准确性和鲁棒性,通过在模型中引入全局注意力模块和局部注意力模块,增加了多重注意力机制,可以有效去除冗余信息,并从全时域、全频域和局部细节三个层面上提升特征的表征能力,进一步提高识别的准确性和泛化能力。
-
公开(公告)号:CN119724148A
公开(公告)日:2025-03-28
申请号:CN202510224088.3
申请日:2025-02-27
Applicant: 科大讯飞股份有限公司
IPC: G10L13/027 , G10L13/08 , G06F40/30 , G06N3/0455 , G06N3/0464 , G06N3/0475 , G06N3/094
Abstract: 本申请公开了一种语音合成方法及相关装置、设备和存储介质,其中,语音合成方法包括:基于特征预测模型预测待合成字符序列的发音特征;其中,待合成字符序列为文本序列或音素序列,发音特征至少包含待合成字符序列与发音内容和发音韵律相关的特征信息;基于声学模型对发音特征和待合成字符序列的序列隐层特征进行预测,得到声学特征;其中,序列隐层特征为特征预测模型处理待合成字符序列过程中所得到的隐层特征;基于声码器对声学特征进行波形恢复,得到合成语音。上述方案,能够提升语音合成的稳定性和自然度。
-
公开(公告)号:CN117975936A
公开(公告)日:2024-05-03
申请号:CN202410125985.4
申请日:2024-01-29
Applicant: 科大讯飞股份有限公司
IPC: G10L13/027 , G10L13/08
Abstract: 本申请公开了一种口语文本生成方法、语音合成方法及相关装置,该方法包括:获取目标书面文本和提示语,其中,提示语用于指示口语文本生成模型执行口语文本生成任务;利用口语文本生成模型按照提示语的第一指示内容,对目标书面文本执行口语文本生成任务,得到目标口语文本。通过上述方式,本申请能够得到更加口语化的口语文本。
-
公开(公告)号:CN119961422A
公开(公告)日:2025-05-09
申请号:CN202510447052.1
申请日:2025-04-10
Applicant: 科大讯飞股份有限公司
IPC: G06F16/3329 , G06F16/334 , G06F16/338
Abstract: 本申请公开了一种领域问答大模型训练及问答方法、相关设备及程序产品,涉及自然语言处理技术领域。本申请引入了裁判模型,能够对输入的答案进行偏好打分,评估答案的质量。基于领域知识库提取领域问答数据,在对初始大模型进行迭代训练时由裁判大模型对初始大模型生成的领域问题对应的第一答案,和领域问答数据中的第二答案分别打分,基于打分结果选取满足偏好要求的答案与领域问题组成目标训练数据,利用目标训练数据对初始大模型进行训练,得到最终的领域问答大模型,其采用了高质量的领域问答训练数据进行训练。本申请不需要人工对提取的领域问答数据进行校对即可得到高质量的目标训练数据,节省了人工成本,提高了训练效率。
-
-
-
-
-
-
-
-
-