Patent search ap:("科大讯飞股份有限公司") AND inv:"宋亚楠" Page 1

1.

发明授权
语音唤醒方法及装置有权

公开(公告)号：CN108538298B

公开(公告)日：2021-05-04

申请号：CN201810298845.1

申请日：2018-04-04

Applicant: 科大讯飞股份有限公司

Inventor： 宋亚楠 , 潘嘉 , 吴国兵

IPC: G10L15/26 , G10L15/22 , G06F16/332 , G06F16/33

Abstract: 本发明实施例提供了一种语音唤醒方法及装置，属于计算机应用技术领域。该方法包括：基于用户交互状态确定实时唤醒词库，实时唤醒词库用于下一次交互流程；获取用户输入的语音信号，基于实时唤醒词库及语音信号进行唤醒。由于在上一次交互流程中断后，可基于实时唤醒词库进行唤醒，再次进行唤醒时能够给予用户休眠无感知的用户体验，从而使得用户能够直接衔接休眠之前的交互场景，而不用重复之前已经执行过的交互流程。因此，可降低交互成本，并提高用户体验。

2.

发明公开
语音翻译方法及装置、电子设备以及计算机可读存储介质审中-实审

公开(公告)号：CN119400179A

公开(公告)日：2025-02-07

申请号：CN202411493818.1

申请日：2024-10-24

Applicant: 科大讯飞股份有限公司

Inventor： 梁随 , 宋亚楠 , 孔常青 , 熊世富 , 高建清

IPC: G10L15/26 , G10L15/06 , G10L15/18 , G10L19/00

Abstract: 本申请公开了语音翻译方法及装置、电子设备以及计算机可读存储介质，语音翻译方法包括：获取到待翻译语音的第一语音编码向量；对第一语音编码向量进行实时顺滑处理，得到第一语音编码向量对应的标记信息与分段信息；基于第一语音编码向量、标记信息、分段信息与至少一个提示词生成具有要点信息且顺滑的第二语音编码向量；对第二语音编码向量进行解码，得到目标语音；其中，待翻译语音与目标语音对应的语种不同。本申请能够基于要点信息对源语音进行翻译，从而提高翻译的流畅性与准确性，继而提高用户体验。

3.

发明公开
语音识别方法、装置、设备及存储介质审中-实审

公开(公告)号：CN117636845A

公开(公告)日：2024-03-01

申请号：CN202311595931.6

申请日：2023-11-23

Applicant: 科大讯飞股份有限公司

Inventor： 郭顺杰 , 宋亚楠 , 万根顺 , 熊世富 , 高建清 , 潘嘉 , 刘聪

IPC: G10L15/02 , G10L15/06 , G10L15/16 , G10L15/18

Abstract: 本申请提供了一种语音识别方法、装置、设备及存储介质，具体实现方案为：基于第i帧音频的标签状态确定跳帧数；其中，i为正整数；利用所述跳帧数对所述第i帧音频进行跳帧解码处理，得到目标音频帧对应的非空白标签特征；其中，所述目标音频帧表示第i+1帧音频之前的标签状态为非空白标签的音频帧；基于所述第i+1帧音频和所述目标音频帧对应的非空白标签特征，预测所述第i+1帧音频的标签状态；根据所述第i+1帧音频的标签状态确定所述第i+1帧音频的语音识别结果。根据本申请的技术方案，能够显著提升推理速度，从而提高语音识别的效率。

4.

发明授权
一种说话人标注方法、装置、设备及存储介质有权

公开(公告)号：CN111462759B

公开(公告)日：2024-02-13

申请号：CN202010249826.7

申请日：2020-04-01

Applicant: 科大讯飞股份有限公司

Inventor： 宋亚楠 , 刘庆峰 , 刘聪 , 魏思 , 王智国 , 高建清 , 潘嘉 , 胡国平

IPC: G10L17/02 , G10L17/04 , G10L25/51

Abstract: 本申请提出一种说话人标注方法、装置、设备及存储介质，该方法包括：获取待标注语音数据的声学特征；至少根据所述待标注语音数据的声学特征、已标注语音数据中出现过的说话人的特征，标注所述待标注语音数据的说话人；其中，所述已标注语音数据中出现过的说话人的特征，基于在对所述已标注语音数据进行说话人标注过程中学习到的说话人与其语音数据的声学特征之间的关联联系，所确定。采用上述方法能够实现对语音数据的说话人标注，并且能够保证较高的说话人标注准确度。

5.

发明公开
一种说话人标注方法、装置、设备及存储介质有权

公开(公告)号：CN111462759A

公开(公告)日：2020-07-28

申请号：CN202010249826.7

申请日：2020-04-01

Applicant: 科大讯飞股份有限公司

Inventor： 宋亚楠 , 刘庆峰 , 刘聪 , 魏思 , 王智国 , 高建清 , 潘嘉 , 胡国平

IPC: G10L17/02 , G10L17/04 , G10L25/51

Abstract: 本申请提出一种说话人标注方法、装置、设备及存储介质，该方法包括：获取待标注语音数据的声学特征；至少根据所述待标注语音数据的声学特征、已标注语音数据中出现过的说话人的特征，标注所述待标注语音数据的说话人；其中，所述已标注语音数据中出现过的说话人的特征，基于在对所述已标注语音数据进行说话人标注过程中学习到的说话人与其语音数据的声学特征之间的关联联系，所确定。采用上述方法能够实现对语音数据的说话人标注，并且能够保证较高的说话人标注准确度。

6.

发明公开
音频语种转换方法、系统和相关装置无效

公开(公告)号：CN119495285A

公开(公告)日：2025-02-21

申请号：CN202411486919.6

申请日：2024-10-23

Applicant: 科大讯飞股份有限公司

Inventor： 宋亚楠 , 孔常青 , 熊世富 , 高建清 , 刘聪

IPC: G10L15/00 , G10L15/02 , G10L15/04 , G10L15/18 , G10L21/007 , G06F40/58

Abstract: 本申请公开了一种音频语种转换方法、系统和相关装置，该方法包括：获取目标对象的初始音频流，确定所述初始音频流对应的初始音频特征、以及所述初始音频流对应的当前语种；基于所述初始音频特征和所述当前语种，获取当前转换轮次对应的目标特征片段；其中，不同转换轮次对应的所述目标特征片段基于所述初始音频特征的语义进行分割；确定至少一个转换语种，基于所述当前语种和所述目标特征片段，生成与所述转换语种匹配的转换音频。通过上述方式，本申请能够提高音频跨语种转换的准确性。

7.

发明公开
语音翻译方法、电子设备及计算机可读存储介质审中-实审

公开(公告)号：CN119400169A

公开(公告)日：2025-02-07

申请号：CN202411493813.9

申请日：2024-10-24

Applicant: 科大讯飞股份有限公司

Inventor： 陈潇钰 , 宋亚楠 , 孔常青 , 熊世富 , 高建清

IPC: G10L15/22 , G10L15/26 , G10L15/02 , G10L15/06 , G10L15/18 , G06F40/58

Abstract: 本申请公开了一种语音翻译方法、电子设备及计算机可读存储介质。其中，方法包括：获取音频片段；对音频片段进行表征提取，得到音频片段的多个初始高阶语音表征，并对各初始高阶语音表征进行音素分类，确定初始音素集；利用基于专有词汇偏置列表构建得到的目标数据库中的各专有词汇音素集匹配初始音素集中的音素，得到音频片段中的至少一个目标专有词汇的目标高阶语音表征；替换目标专有词汇的初始高阶语音表征为目标高阶语音表征，形成音频片段的高阶语音表征集；对高阶语音表征集进行翻译，得到音频片段的目标翻译文本。借助音素级专有词汇激励可以缓解语音翻译任务中不同应用场景下由于发音和口音差异带来的泛化性问题。

8.

发明授权
语音数据标注方法和装置有权

公开(公告)号：CN107578769B

公开(公告)日：2021-03-23

申请号：CN201610523333.1

申请日：2016-07-04

Applicant: 科大讯飞股份有限公司

Inventor： 宋亚楠 , 潘嘉 , 刘聪 , 胡国平 , 胡郁 , 刘庆峰

IPC: G06F40/20

Abstract: 本发明提出一种语音数据标注方法和装置，该语音数据标注方法包括：接收语音数据，对所述语音数据进行语音识别，得到识别文本；获取用户对所述识别文本确认后的用户确认文本；对所述识别文本和所述用户确认文本进行分析，提取自动标注特征；根据所述自动标注特征及预先构建的自动标注模型，对所述语音数据进行标注。该方法能够解决人工标注存在的问题，提高语音数据标注的效率并降低成本。

9.

发明公开
语音唤醒方法及装置有权

公开(公告)号：CN108538298A

公开(公告)日：2018-09-14

申请号：CN201810298845.1

申请日：2018-04-04

Applicant: 科大讯飞股份有限公司

Inventor： 宋亚楠 , 潘嘉 , 吴国兵

IPC: G10L15/26 , G10L15/22 , G06F17/30

Abstract: 本发明实施例提供了一种语音唤醒方法及装置，属于计算机应用技术领域。该方法包括：基于用户交互状态确定实时唤醒词库，实时唤醒词库用于下一次交互流程；获取用户输入的语音信号，基于实时唤醒词库及语音信号进行唤醒。由于在上一次交互流程中断后，可基于实时唤醒词库进行唤醒，再次进行唤醒时能够给予用户休眠无感知的用户体验，从而使得用户能够直接衔接休眠之前的交互场景，而不用重复之前已经执行过的交互流程。因此，可降低交互成本，并提高用户体验。

10.

发明公开
音频语种转换方法、系统和相关装置审中-实审

公开(公告)号：CN119832897A

公开(公告)日：2025-04-15

申请号：CN202510278032.6

申请日：2025-03-10

Applicant: 科大讯飞股份有限公司

Inventor： 刘晨璇 , 宋亚楠 , 孔常青 , 熊世富 , 高建清 , 刘聪

IPC: G10L15/02 , G10L15/04 , G10L15/18 , G10L21/007 , G06F40/58

Abstract: 本申请公开了一种音频语种转换方法、系统和相关装置，该方法包括：获取目标对象的初始音频流，确定所述初始音频流对应的初始音频特征、以及所述初始音频流对应的当前语种；基于所述初始音频特征和所述当前语种，获取当前转换轮次对应的目标特征片段；其中，不同转换轮次对应的所述目标特征片段基于所述初始音频特征的语义进行分割；确定至少一个转换语种，基于所述当前语种和所述目标特征片段，生成与所述转换语种匹配的转换音频。通过上述方式，本申请能够提高音频跨语种转换的准确性。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification