Patent search ap:("科大讯飞股份有限公司") AND inv:"马志强" Page 1

1.

发明公开
音效生成方法及系统审中-公开

公开(公告)号：CN119785759A

公开(公告)日：2025-04-08

申请号：CN202411940031.5

申请日：2024-12-26

Applicant: 科大讯飞股份有限公司

Inventor： 黄姿 , 孙磊 , 胡亚军 , 马志强

IPC: G10L13/02 , G06N3/0455 , G06N3/08 , G10L13/08 , G10L25/27 , G10L25/48

Abstract: 本发明提供一种音效生成方法及系统，该方法包括：获取目标文本数据；将所述目标文本数据输入至音效描述生成微调模型，得到由所述音效描述生成微调模型输出的所述目标文本数据中的目标音效内容描述信息对应的音效语音数据；其中，所述音效描述生成微调模型是基于第一训练数据集和第二训练数据集，依次对目标生成式大语言模型训练得到的；所述第一训练数据集中的音效内容描述标签对应的训练样本占比系数小于所述第二训练数据集中的所述音效内容描述标签对应的训练样本占比系数。本发明使得音效生成结果更为准确。

2.

发明公开
多说话人语音识别方法、装置、相关设备及计算机程序产品审中-实审

公开(公告)号：CN118380001A

公开(公告)日：2024-07-23

申请号：CN202410590383.6

申请日：2024-05-13

Applicant: 科大讯飞股份有限公司

Inventor： 胡今朝 , 吴重亮 , 马志强 , 李永超 , 吴明辉 , 方昕 , 许广军 , 刘广厚 , 王豹 , 张为泰 , 刘权 , 王士进

IPC: G10L17/02 , G10L17/04 , G10L17/18 , G10L15/04

Abstract: 本申请公开了一种多说话人语音识别方法、装置、相关设备及计算机程序产品，涉及语音识别领域，获取混合语音中每一说话人的说话时间戳信息以及配置的每一说话人的标识向量，生成每一说话人相对于混合语音的嵌入向量表示，融合混合语音的声学特征向量和每一说话人相对于混合语音的嵌入向量表示，得到融合向量表示，通过该融合向量表示可以包含说话人信息及说话人边界信息，基于融合向量表示执行多说话人语音识别任务，可以有效提升对混合语音的识别结果的准确度。

3.

发明公开
音频文本强制对齐方法、装置、设备及可读存储介质审中-实审

公开(公告)号：CN118230715A

公开(公告)日：2024-06-21

申请号：CN202410468801.4

申请日：2024-04-18

Applicant: 科大讯飞股份有限公司

Inventor： 胡今朝 , 吴重亮 , 马志强 , 李永超 , 吴明辉 , 方昕 , 许广军 , 刘广厚 , 王豹 , 张为泰 , 刘权 , 王士进

IPC: G10L13/08 , G10L15/26 , G10L25/30

Abstract: 本申请公开了一种音频文本强制对齐方法、装置、设备及可读存储介质。本方案中，在确定待对齐音频以及与待对齐音频对应的待对齐文本的音素标签序列之后，基于对齐路径中隶属于两个相邻单字的相邻两个音素标签之间包括预设停顿间隔标签，并且隶属于同一个单字的相邻两个音素标签之间不包括预设停顿间隔标签的规则，根据待对齐音频中各音频帧对应预设停顿间隔标签、预设静音标签、预设各音素标签的概率和待对齐文本的音素标签序列确定最终对齐路径，能够使得最终对齐路径中，不会出现隶属于两个相邻单字的相邻两个音素标签之间丢失停顿间隔的问题，也不会出现隶属于同一个单字的相邻两个音素标签之间包括停顿间隔的问题。

4.

发明公开
语音识别方法、装置、相关设备及计算机程序产品审中-实审

公开(公告)号：CN118197287A

公开(公告)日：2024-06-14

申请号：CN202410541327.3

申请日：2024-04-30

Applicant: 科大讯飞股份有限公司

Inventor： 胡今朝 , 吴重亮 , 马志强 , 李永超 , 吴明辉 , 方昕 , 许广军 , 刘广厚 , 王豹 , 张为泰 , 刘权 , 王士进

IPC: G10L15/02 , G10L15/06 , G10L15/16 , G10L15/26 , G06N3/0442 , G06N3/0455 , G06N3/0464 , G06N3/088

Abstract: 本申请公开了一种语音识别方法、装置、相关设备及计算机程序产品，提供了一种基于转置的自注意力机制，可以先从第一维度（可以是通道维度或时间维度）对声学特征进行自注意力机制计算，对结果进行转置处理，之后沿第二维度（可以是时间维度或通道维度）对转置结果再次进行自注意力机制计算，从而实现了同时在通道维度和时间维度上通过自注意力机制进行建模，更好地进行多通道信息的融合，提升多通道语音识别效果。进一步地，本申请基于多通道语音信号进行端到端的语音建模，与传统方案对比不需要将多通道语音信号融合成单一通道语音信号，因而不会存在语音信息的丢失，进一步提升了多通道语音识别效果。

5.

发明公开
一种语音识别方法、装置、设备和存储介质审中-实审

公开(公告)号：CN117636873A

公开(公告)日：2024-03-01

申请号：CN202311356807.4

申请日：2023-10-18

Applicant: 科大讯飞股份有限公司

Inventor： 胡今朝 , 马志强 , 吴重亮 , 李永超 , 吴明辉 , 方昕

IPC: G10L15/26 , G10L15/06 , G10L15/16

Abstract: 本申请公开了一种语音识别方法、装置、设备和存储介质，其中，语音识别方法包括：获取待识别语音；基于语音识别模型对待识别语音进行识别，得到待识别语音的目标识别文本；其中，语音识别模型基于样本语音训练得到，样本语音标注有样本语音的样本真实文本以及样本真实文本的实体掩膜，实体掩膜与样本真实文本长度相同，且实体掩膜用于指示样本真实文本中样本领域实体的所在位置。上述方案，能够提高语音识别的准确率，尤其是在待识别语音中含有领域实体情况下的识别准确率。

6.

发明公开
语音识别方法、装置、设备及可读存储介质审中-实审

公开(公告)号：CN117558263A

公开(公告)日：2024-02-13

申请号：CN202410034818.9

申请日：2024-01-10

Applicant: 科大讯飞股份有限公司

Inventor： 马志强 , 李永超 , 孙磊

IPC: G10L15/06 , G10L15/02 , G10L15/16 , G10L15/26 , G06N3/0455 , G06N3/08

Abstract: 本申请公开了一种语音识别方法、装置、设备及可读存储介质。本方案中，预先对端到端语音识别模型进行领域自适应训练得到多领域语音识别模型以及各领域的提示向量参数，每个领域的提示向量参数用于指示该领域专有的语音识别信息，在获取待识别语音数据、确定待识别语音数据的声学特征序列之后，获取待识别语音数据所属领域的提示向量参数，将该提示向量参数和声学特征序列，输入该领域的多领域语音识别模型，多领域语音识别模型对提示向量参数和声学特征序列进行编解码处理，得到语音数据的识别结果。本方案可有效保证端到端语音识别模型在各领域识别效果。

7.

发明授权
一种语音识别方法及其相关设备有权转让

公开(公告)号：CN113409792B

公开(公告)日：2024-02-13

申请号：CN202110694320.1

申请日：2021-06-22

Applicant: 中国科学技术大学 , 科大讯飞股份有限公司

Inventor： 马志强 , 吴明辉 , 方昕 , 刘俊华

IPC: G10L15/26 , G10L15/04 , G10L15/16 , G10L19/00 , G10L25/30

Abstract: 本申请公开了一种语音识别方法及其相关设备，该方法包括：在获取到当前语音段和该当前语音段对应的参考语音后，先依据待使用状态数据和该当前语音段对应的参考语音，对该当前语音段进行编码处理，得到该当前语音段的语音编码和该当前语音段的编码状态数据；再对该当前语音段的语音编码进行解码处理，得到该当前语音段对应的语音文本，并利用该当前语音段的编码状态数据，更新该待使用状态数据。如此能够实现边采集用户语音边进行语音识别的目的，可以提高语音识别的实时性。又因当前语音段的历史语音信息(也就是，待使用状态数据)在历史语音识别过程中已计算过，使得在当前轮语音识别过程中直接使用即可，如此有利于提高语音识别的实时性。

8.

发明授权
语音识别方法、装置及存储介质有权转让

公开(公告)号：CN112767917B

公开(公告)日：2022-05-17

申请号：CN202011641751.3

申请日：2020-12-31

Applicant: 科大讯飞股份有限公司

Inventor： 方昕 , 吴明辉 , 马志强 , 刘俊华

IPC: G10L15/02 , G10L15/26 , G10L25/24 , G10L15/16

Abstract: 本申请实施例公开了一种语音识别方法、装置及存储介质，方法包括：对待识别语音数据进行编码，得到第一特征向量序列；对预设热词库中每一热词进行编码，得到第二特征向量序列；对所述预设热词库中每个热词的音频片段进行编码，得到第三特征向量序列；将所述第一特征向量序列和所述第三特征向量序列进行第一注意力操作，得到第四特征向量序列；根据所述第二特征向量序列、所述第三特征向量序列和所述第四特征向量序列进行解码操作，得到识别结果。采用本申请实施例能够提升热词识别精度。

9.

发明公开
一种篇章级文本翻译方法及装置有权

公开(公告)号：CN110489761A

公开(公告)日：2019-11-22

申请号：CN201810463138.3

申请日：2018-05-15

Applicant: 科大讯飞股份有限公司

Inventor： 马志强 , 刘俊华 , 魏思 , 胡国平

IPC: G06F17/28 , G06F17/22

Abstract: 本申请公开了一种篇章级文本翻译方法及装置，该方法包括：将待翻译的篇章级文本中的每一文本单位，分别作为待翻译文本，然后，从篇章级文本中获取待翻译文本的关联文本，并根据该关联文本对待翻译文本进行翻译。可见，在对待翻译文本进行翻译时，不但考虑了待翻译文本的当前语境，还考虑了待翻译文本的关联文本内容，能够提高待翻译文本的翻译结果的准确性，因而提升了用户体验。

10.

发明公开
自动配乐方法、装置、电子设备和计算机程序产品审中-实审

公开(公告)号：CN119807426A

公开(公告)日：2025-04-11

申请号：CN202411940315.4

申请日：2024-12-26

Applicant: 科大讯飞股份有限公司

Inventor： 黄姿 , 孙磊 , 胡亚军 , 马志强

IPC: G06F16/353 , G06F18/213 , G06N3/0442 , G06N3/0455 , G06F16/68

Abstract: 本申请提出一种自动配乐方法、装置、电子设备和计算机程序产品，该方法通过检测文档中相邻语句是否属于相同情节，将文档划分为多个情节单元，当相邻语句具备相同的情节元素时，表示相邻语句属于相同情节。将各情节单元和提示语句输入到大语言模型中，得到大语言模型输出的各情节单元的情感类别，提示语句用于指示大语言模型执行确定各情节单元的情感类别的任务，选择与各情节单元的情感类别相同的音乐作为各情节单元的背景音乐。如此可以实现自动对文档进行情节划分并自动确定各情节单元对应的情感类别，进而根据情感类别为各情节单元选择合适的配乐，不需要工作人员对文档进行深度的理解，有效提高了配乐效率。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification