Patent search ap:("科大讯飞股份有限公司") AND inv:"吴重亮" Page 1

1.

发明公开
一种语音识别方法及相关装置审中-实审

公开(公告)号：CN119400181A

公开(公告)日：2025-02-07

申请号：CN202411635769.0

申请日：2024-11-15

Applicant: 科大讯飞股份有限公司

Inventor： 张钟泽 , 汪宇辉 , 吴重亮 , 李永超

IPC: G10L15/26 , G10L15/16 , G10L15/08

Abstract: 本申请公开了一种语音识别方法及相关装置，涉及语音识别技术领域，语音识别方法包括：获取目标语音数据；通过对目标语音数据进行初步语音识别，获取目标语音数据的字级别声学信息以及候选语音识别结果；将目标语音数据的字级别声学信息投射到大语言模型的表征空间中，得到目标语音数据的目标声学特征；利用大语言模型，辅以目标语音数据的候选语音识别结果，将目标语音数据的目标声学特征处理成文字序列，得到目标语音数据的语音识别结果。本申请公开的语音识别方法具有较好的识别效果。

2.

发明授权
音频识别方法、系统和相关装置有权

公开(公告)号：CN118553249B

公开(公告)日：2024-12-13

申请号：CN202411022971.6

申请日：2024-07-29

Applicant: 科大讯飞股份有限公司

Inventor： 季栋 , 张钟泽 , 吴重亮 , 李永超 , 吴明辉

IPC: G10L15/26 , G10L15/06 , G10L15/08

Abstract: 本申请公开了一种音频识别方法、系统和相关装置，该方法包括：获取待识别音频；将所述待识别音频输入至目标识别模型，得到与所述待识别音频匹配的目标识别文本；其中，所述目标识别模型基于训练后的初始识别模型得到，所述初始识别模型包括参数共享的音频解析网络和文本解析网络，所述音频解析网络利用多个训练音频进行训练，所述文本解析网络利用多个训练文本进行训练，所述训练音频匹配有文本标签，所述训练文本匹配有类别标签。通过上述方式，本申请能够提高音频识别的准确性。

3.

发明授权
语音处理方法、电子设备及存储装置有权转让

公开(公告)号：CN113314123B

公开(公告)日：2024-05-31

申请号：CN202110390273.1

申请日：2021-04-12

Applicant: 中国科学技术大学 , 科大讯飞股份有限公司

Inventor： 吴重亮 , 万根顺 , 高建清 , 刘聪 , 王智国 , 胡国平

IPC: G10L15/26 , G10L15/16 , G10L15/08 , G10L15/02 , G10L15/22 , G10L15/18

Abstract: 本申请公开了一种语音处理方法、电子设备及存储装置。该方法包括：采集第一语音数据；对第一语音数据进行分类，得到第一语音数据中至少部分帧语音数据所属的类别；基于至少部分帧语音数据所属的类别，得到第一语音数据的类别；基于第一语音数据，执行与类别对应的操作。上述方案，录音设备能够基于语音数据进行更智能、灵活的操作。

4.

发明公开
音频识别方法、系统和相关装置有权

公开(公告)号：CN118553249A

公开(公告)日：2024-08-27

申请号：CN202411022971.6

申请日：2024-07-29

Applicant: 科大讯飞股份有限公司

Inventor： 季栋 , 张钟泽 , 吴重亮 , 李永超 , 吴明辉

IPC: G10L15/26 , G10L15/06 , G10L15/08

Abstract: 本申请公开了一种音频识别方法、系统和相关装置，该方法包括：获取待识别音频；将所述待识别音频输入至目标识别模型，得到与所述待识别音频匹配的目标识别文本；其中，所述目标识别模型基于训练后的初始识别模型得到，所述初始识别模型包括参数共享的音频解析网络和文本解析网络，所述音频解析网络利用多个训练音频进行训练，所述文本解析网络利用多个训练文本进行训练，所述训练音频匹配有文本标签，所述训练文本匹配有类别标签。通过上述方式，本申请能够提高音频识别的准确性。

5.

发明公开
语音增广方法及相关方法、装置、设备和存储介质审中-实审

公开(公告)号：CN118136034A

公开(公告)日：2024-06-04

申请号：CN202410090166.0

申请日：2024-01-22

Applicant: 科大讯飞股份有限公司

Inventor： 胡今朝 , 吴重亮 , 李永超 , 吴明辉

IPC: G10L21/02 , G10L25/03 , G10L25/27 , G10L25/48 , G10L17/04 , G10L15/06 , G10L15/18

Abstract: 本申请公开了一种语音增广方法及相关方法、装置、设备和存储介质，其中，语音增广方法包括：获取目标语音；其中，目标语音包含多个语音通道；基于目标语音执行增广处理，得到与目标语音表达相同含义的增广语音；其中，增广处理包括以下至少一项操作：对至少一个语音通道的语谱图执行至少一种谱增广，对至少一个语音通道中语音帧的目标数据以帧为单位进行增广，对至少一个语音通道中语音帧的目标数据以通道为单位进行增广，且语音帧的目标数据为语音帧本身、语音帧的声学特征中任一者。上述方案，能够在实现多通道语音增广的前提下，尽可能地提升多通道语音增广的多样性。

6.

发明公开
语音识别模型的训练方法、语音识别方法和相关装置审中-实审

公开(公告)号：CN117711384A

公开(公告)日：2024-03-15

申请号：CN202311728209.5

申请日：2023-12-14

Applicant: 科大讯飞股份有限公司

Inventor： 胡今朝 , 吴重亮 , 马志强 , 李永超 , 吴明辉 , 方昕

IPC: G10L15/06 , G10L15/04 , G10L15/26 , G10L25/06

Abstract: 本申请公开了一种语音识别模型的训练方法、语音识别方法和相关装置，该方法包括：获取若干样本音频段；利用语音识别模型分别对各样本音频段进行特征提取，得到各样本音频段的音频特征和至少一个场景特征，场景特征用于表征样本音频段的说话人、采集通道和所属音频源中的至少一者的信息；利用语音识别模型至少基于各样本音频段的音频特征，得到各样本音频段的样本识别文本；基于样本识别文本和样本音频段的标注文本之间的文本差异、以及各样本音频段的场景特征之间的特征相似度，调整语音识别模型。通过上述方式，本申请能够提高语音识别的准确性。

7.

发明公开
语音转换方法及相关方法、设备和存储介质审中-公开

公开(公告)号：CN117423334A

公开(公告)日：2024-01-19

申请号：CN202311198417.9

申请日：2023-09-15

Applicant: 科大讯飞股份有限公司

Inventor： 张国洋 , 吴重亮 , 李永超

IPC: G10L15/18 , G10L15/26 , G10L13/08 , G10L15/08

Abstract: 本申请公开了一种语音转换方法及相关方法、设备和存储介质，其中，语音转换方法包括：提取源语音的第一语义特征；响应于表征源语音中源字词转换为目标字词的转换指令，基于第一语义特征，预测得到源语音中源字词替换为目标字词之后的第二语义特征；基于第一语义特征和第二语义特征，重建得到至少一个生成语音；其中，不同生成语音的发音变动程度不同，且发音变动程度表征在发音维度由源字词变为目标字词的程度。上述方案，能够自动获取源语音的相似语音。

8.

发明公开
语音识别方法及相关装置、电子设备、存储介质有权转让

公开(公告)号：CN113724689A

公开(公告)日：2021-11-30

申请号：CN202110910287.1

申请日：2021-08-09

Applicant: 科大讯飞股份有限公司

Inventor： 吴重亮 , 方昕 , 吴明辉 , 李永超 , 刘俊华

IPC: G10L15/02 , G10L15/06 , G10L15/18 , G10L15/26

Abstract: 本申请公开了一种语音识别方法及相关装置、电子设备、存储介质，其中，语音识别方法包括：获取若干音频帧的语义特征表示；利用语音识别模型对若干音频帧的语义特征表示进行识别，得到若干音频帧对应的识别文本；其中，语音识别模型采用注意力机制，且注意力机制的掩膜是基于语音识别要求的时延而生成的。上述方案，能够降低不同时延要求下语音识别的复杂度和成本。

9.

发明公开
语音识别方法和电子设备、存储装置有权转让

公开(公告)号：CN112489651A

公开(公告)日：2021-03-12

申请号：CN202011378944.4

申请日：2020-11-30

Applicant: 科大讯飞股份有限公司

Inventor： 吴重亮 , 万根顺 , 高建清 , 刘聪 , 王智国 , 胡国平

IPC: G10L15/22 , G10L15/06 , G10L15/26

Abstract: 本申请公开了一种语音识别方法和电子设备、存储装置，其中，语音识别方法包括：获取语音识别场景下采集到的原始音频和与语音识别场景相关的第一参考列表；对原始音频进行初始识别，得到初始识别文本；从第一参考列表中，筛选与初始识别文本满足第一预设条件的参考词语，得到第二参考列表；利用第二参考列表，对原始音频进行最终识别，得到最终识别文本。上述方案，能够提高语音识别准确性。

10.

发明公开
特定说话人语音识别方法、装置、相关设备及计算机程序产品审中-实审

公开(公告)号：CN118298830A

公开(公告)日：2024-07-05

申请号：CN202410520839.1

申请日：2024-04-28

Applicant: 科大讯飞股份有限公司

Inventor： 胡今朝 , 吴重亮 , 李永超 , 吴明辉 , 许广军 , 刘广厚 , 王豹 , 张为泰 , 刘权 , 王士进

IPC: G10L15/26 , G10L15/02 , G10L17/02

Abstract: 本申请公开了一种特定说话人语音识别方法、装置、相关设备及计算机程序产品，采用解耦每个说话人的方式，给语音识别模型一个目标说话人的提示语音及待分离的混合语音，让模型一次只输出混合语音中该目标说话人的说话内容对应的识别文本，模型每次输出仅包含一个目标说话人的说话内容识别文本，可以保证说话人与说话内容识别文本间的对应匹配，且避免传统方案由于分隔符位置预测错误所导致的多个说话人的说话内容预测错误的情况。本申请方案中模型能够以目标说话人的提示语音作为参考，更加准确的从混合语音中分离出目标说话人的说话内容识别文本，提升了目标说话人语音识别结果的准确度。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification