Patent search ap:("科大讯飞股份有限公司") AND inv:"田定书" Page 1

1.

发明公开
清扫方法、装置、电子设备和存储介质审中-实审

公开(公告)号：CN119817985A

公开(公告)日：2025-04-15

申请号：CN202411637362.1

申请日：2024-11-15

Applicant: 科大讯飞股份有限公司

Inventor： 吴嘉嘉 , 高建清 , 田定书 , 潘嘉 , 刘聪

IPC: A47L11/24 , A47L11/40 , G06V20/10 , G06V10/764 , G06V10/80 , G06V10/82 , G06N3/09

Abstract: 本发明提供一种清扫方法、装置、电子设备和存储介质，其中方法包括：获取待清扫区域的布局图，以及待清扫区域的区域图像；区域图像是扫地机器人在待清扫区域中以对应位姿采集得到的，布局图由所述扫地机器人建图得到；基于布局图、区域图像，以及区域图像对应位姿的位姿文本，确定待清扫区域的速度场；基于速度场，控制扫地机器人对待清扫区域进行清扫，克服了传统方案中扫地机器人的清扫模式千篇一律，无法对特殊区域进行重点清扫的缺陷，能够基于对场景的理解确定对应的清扫策略，从而使得清扫过程轻重得当，实现不同场景下清扫模式的灵活调整，可以有效应对各种场景，实现智能化清扫，清扫更加灵活，效率更高。

2.

发明公开
同传质量评测方法及相关装置、设备和存储介质审中-实审

公开(公告)号：CN119312818A

公开(公告)日：2025-01-14

申请号：CN202411858505.1

申请日：2024-12-17

Applicant: 科大讯飞股份有限公司

Inventor： 田定书 , 李如子 , 殷运鹏 , 张蔡辉 , 王浩洋 , 高建清 , 刘聪

IPC: G06F40/51 , G10L15/26

Abstract: 本申请公开了一种同传质量评测方法及相关装置、设备和存储介质，其中，同传质量评测方法包括：基于目标语音的同传文本进行切分，得到若干子文本；获取目标语音中与子文本相对应子语音的刷字数据；其中，子语音的刷字数据包括：子语音在同传过程中从首次出字到逐渐修正直至最终翻译为子文本的若干文本；基于子语音的刷字数据，分析得到子语音的同传质量分；基于各个子语音的同传质量分，融合得到表征目标语音同传质量的目标分值。上述方案，能够在流式同传的应用场景下，提升同传质量评测的准确性。

3.

发明公开
一种语音端点检测方法、装置、设备及存储介质审中-实审

公开(公告)号：CN116580725A

公开(公告)日：2023-08-11

申请号：CN202310513866.1

申请日：2023-05-08

Applicant: 科大讯飞股份有限公司

Inventor： 陈洁茹 , 田定书 , 万根顺 , 张景宣 , 付中华 , 高建清 , 潘嘉 , 刘聪 , 胡国平

IPC: G10L25/87 , G10L25/51 , G10L25/30 , G10L25/03 , G10L25/57 , G06N3/0442 , G06N3/0464 , G06N3/044 , G06N3/08

Abstract: 本发明提供了一种语音端点检测方法、装置、设备及存储介质，语音端点检测方法包括：获取目标数据，目标数据包括目标音频数据；将目标数据输入预先训练得到的音频帧分类模型，得到目标音频数据的音频帧的分类结果，其中，音频帧分类模型以带有若干噪声类别中的一个或多个类别的噪声的第一音频数据为训练样本，以第一音频数据的音频帧在多个维度下的真实类别为样本标签训练得到，多个维度包括语音维度和若干噪声类别分别对应的噪声维度；根据目标音频数据的音频帧的分类结果确定语音端点。本发明提供的语音端点检测方法能够检测出准确的语音端点。

4.

发明公开
一种视频翻译方法及相关装置审中-实审

公开(公告)号：CN119629295A

公开(公告)日：2025-03-14

申请号：CN202411879800.5

申请日：2024-12-19

Applicant: 科大讯飞股份有限公司

Inventor： 疏坤 , 何山 , 殷兵 , 李如子 , 田定书

IPC: H04N5/265 , G10L13/02 , G10L13/08 , G06V40/16 , G06F40/205

Abstract: 本申请公开了一种视频翻译方法及相关装置，涉及视频处理技术领域，包括：获取待翻译的原始视频之后，先利用原始视频中说话者的声纹特征和情绪标签进行语音合成，得到目标语言的语音数据，再将目标语言的语音数据替换原始视频中的原始语音数据，得到初始翻译视频，然后利用目标语言的语音数据进行说话者嘴部区域图像合成，得到说话者嘴部区域的合成图像，最后将说话者嘴部区域的合成图像与初始翻译视频进行融合，得到最终翻译视频。该方案能够尽量还原视频原声，并尽量贴合原视频中人物的说话状态，而且能够保证最终翻译视频中，在口唇画面丢失或者出现前后画面的自然过渡，因此可以提升用户听觉感受和视觉感受。

5.

发明公开
方言识别方法、装置、设备及程序产品审中-实审

公开(公告)号：CN119517006A

公开(公告)日：2025-02-25

申请号：CN202411486618.3

申请日：2024-10-23

Applicant: 科大讯飞股份有限公司

Inventor： 万根顺 , 奚昌凤 , 田定书 , 熊世富 , 高建清 , 刘聪

IPC: G10L15/00 , G10L15/18 , G10L25/51 , G10L15/06 , G06F16/334

Abstract: 本申请提出一种方言识别方法、装置、设备及程序产品，该方法包括：将方言语音输入方言语音识别模型，得到方言识别结果；其中，所述方言语音识别模型是基于方言语音样本进行方言语音识别训练以及基于方言文本发音样本进行方言文本预测训练得到的，所述方言文本发音样本包括方言文本对应的普通话发音。上述方案基于新的模型训练方案训练方言语音识别模型并将其用于方言语音识别，能够提高方言语音识别效果。

6.

发明公开
错误分析方法、系统、电子设备和存储介质审中-实审

公开(公告)号：CN119337108A

公开(公告)日：2025-01-21

申请号：CN202411910898.6

申请日：2024-12-24

Applicant: 科大讯飞股份有限公司

Inventor： 王涵放 , 陆梦寒 , 田定书

IPC: G06F18/20 , G06F18/24 , G06F18/10

Abstract: 本发明涉及数据分析技术领域，提供一种错误分析方法、系统、电子设备和存储介质，其中方法包括：对待分析数据进行预处理，得到属性向量；基于分析路径，对属性向量中的错误进行识别，得到错误识别结果；对错误识别结果进行错误分类，并对错误分类结果中的真错误进行分析，确定错误原因；对错误原因进行展示，得到错误地图，并将真错误的分析过程以树状图的形式进行展示，得到分析地图。本发明支持用户自定义分析路径，可以提高错误分析的灵活性并满足用户需求，通过对错误识别结果进行分类并专注于分析真错误，可以提高错误分析的效率和准确性，通过展示错误地图和分析地图，可以使用户更加直观和快速地定位错误原因，从而提高分析效率。

7.

发明授权
一种翻译质量评价方法及装置有权

公开(公告)号：CN109062912B

公开(公告)日：2023-07-28

申请号：CN201810898744.8

申请日：2018-08-08

Applicant: 科大讯飞股份有限公司

Inventor： 宋雪洁 , 宋明 , 田定书 , 刘俊华

IPC: G06F40/51 , G06F40/289

Abstract: 本申请公开了一种翻译质量评价方法及装置，该方法包括：在获取到对给定文本进行正确翻译后的参考翻译文本后，将其按照预设文本单位进行切分，得到各个参考单位文本，然后确定每一参考单位文本在该参考翻译文本中的重要度，接着，关于对给定文本进行翻译后的待评价文本即目标翻译文本，便可以根据每一参考单位文本对应的重要度，确定出目标翻译文本的翻译质量。可见，本申请不再只进行目标翻译文本与参考翻译文本中词语的遍历式匹配，而是根据该参考翻译文本中每一参考单位文本对应的重要度，确定出目标翻译文本的翻译质量，即，在进行翻译质量评价时考虑了参考翻译文本中每一词语本身的内容，从而提高了翻译质量评价结果的可信度。

8.

发明公开
音频分离方法、系统和相关装置审中-实审

公开(公告)号：CN119864047A

公开(公告)日：2025-04-22

申请号：CN202411781377.5

申请日：2024-12-05

Applicant: 科大讯飞股份有限公司

Inventor： 闵锐 , 田定书 , 马峰 , 高建清

IPC: G10L21/0272 , G10L15/06 , G10L17/04

Abstract: 本申请公开了一种音频分离方法、系统和相关装置，该方法包括：获取待分离音频；将所述待分离音频输入至训练后的目标分离模型，得到第一子音频和第二子音频；其中，所述目标分离模型是利用多个目标训练样本进行训练得到的，所述目标训练样本是基于多个初始训练音频以及与多个音轨类别分别匹配的候选声部确定的，所述初始训练音频包括与多个音轨类别分别匹配的参考声部，所述候选声部用于对所述初始训练音频中的至少一个所述参考声部进行替换。通过上述方式，本申请能够提高音频分离的准确性。

9.

发明公开
语音识别方法、语音识别模型训练方法、设备和介质审中-实审

公开(公告)号：CN116612749A

公开(公告)日：2023-08-18

申请号：CN202310460643.3

申请日：2023-04-25

Applicant: 科大讯飞股份有限公司

Inventor： 张文辉 , 万根顺 , 田定书 , 高建清 , 潘嘉 , 刘聪 , 胡国平

IPC: G10L15/06 , G10L15/16 , G10L15/26

Abstract: 本申请公开了一种语音识别方法、语音识别模型训练方法、设备和介质，该方法包括：获取待识别语音并获取经训练的语音识别模型；语音识别模型包括编码网络和解码网络；在利用编码网络对待识别语音进行编码的各个阶段中，先在目标语音属性下分类得到待识别语音所属的预测属性类别，再基于目标语音属性下预测属性类别进行编码，得到第一编码特征；基于解码网络对第一编码特征进行解码，得到待识别语音的识别文本；其中，语音识别模型至少基于第一损失进行调整，第一损失表征在目标语音属性下，样本语音标注的预设属性类别与被语音识别模型进行识别所得到的样本属性类别之间的差异。通过上述方式，本申请能够在提升语音识别准确率的同时，减少成本。

10.

发明公开
图像增强方法、装置、电子设备和存储介质审中-实审

公开(公告)号：CN119904374A

公开(公告)日：2025-04-29

申请号：CN202510377749.6

申请日：2025-03-28

Applicant: 科大讯飞股份有限公司

Inventor： 张圆 , 田定书 , 吴嘉嘉

IPC: G06T5/60 , G06T7/13 , G06N3/045 , G06N3/048 , G06N3/08

Abstract: 本发明涉及计算机视觉技术领域，提供了一种图像增强方法、装置、电子设备和存储介质，其中方法包括：基于目标图像进行边缘检测，得到轮廓特征；基于轮廓特征以及标签特征，对目标图像进行图像增强，得到目标增强图像；标签特征基于目标图像带有的目标检测标签构建得到，目标增强图像与目标图像带有相同的目标检测标签，目标检测标签包括对应图像中各目标的检测框的坐标和类别，克服了传统方案中难以精确控制生成图像，以及生成的图像缺乏真实性和自然度的缺陷，不仅实现了高质量、多样化的图像增强，还能精确控制生成图像中物体的类别和位置，从而可以为目标检测任务提供大量优质的数据集，进而有助于提升目标检测模型的性能和增强泛化能力。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification