-
公开(公告)号:CN118070785A
公开(公告)日:2024-05-24
申请号:CN202311384849.9
申请日:2023-10-23
Applicant: 科大讯飞股份有限公司
IPC: G06F40/258 , G06F40/30 , G06N3/0455
Abstract: 本申请公开了一种标题生成方法及相关装置、设备和存储介质,其中,标题生成方法包括:获取目标文档中待生成标题的第一子文档;基于第一子文档,生成第一标题,并基于第一子文档经语句调序之后的第二子文档,生成第二标题,以及基于第一子文档的文档摘要,生成第三标题;基于第一标题、第二标题和第三标题中任意两者之间的一致性检测结果,得到第一子文档的目标标题。上述方案,能够提高目标标题的生成质量。
-
公开(公告)号:CN117894300A
公开(公告)日:2024-04-16
申请号:CN202311870857.4
申请日:2023-12-29
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种样本音频数据的获取方法、语音识别方法及相关装置。该方法包括:获取目标音频数据的标注文本和至少两个参考文本,标注文本是基于目标音频数据的字幕确定的,各参考文本是分别利用不同的语音识别模型对目标音频数据进行识别得到的;基于标注文本和至少两个参考文本之间的比对结果,确定目标音频数据的类型,类型表征标注文本的准确性或者目标音频数据的语音识别难度;对目标音频数据执行与类型匹配的处理,并将经处理后的目标音频数据作为用于对目标语音识别模型进行训练的样本音频数据。上述方案,能够提高获取对目标语言识别模型训练的样本音频数据的效率。
-
公开(公告)号:CN117854507A
公开(公告)日:2024-04-09
申请号:CN202311757128.8
申请日:2023-12-19
Applicant: 科大讯飞股份有限公司
IPC: G10L15/26 , G10L21/0208 , G10L21/10 , G06V40/16
Abstract: 本申请提供一种语音识别方法、装置、电子设备及存储介质,所述方法包括:采集目标场景下的视频图像和语音信息,并对所述视频图像进行图像切割和人脸检测,获得每个人脸的唇部区域;根据所述语音信息和所述唇部区域,确定目标对象的语音片段,所述语音片段用于表示语音和唇部运动的关联性;将每个目标对象的语音片段从背景语音中分离出干净语音,并对所述干净语音进行语音识别以将其转换为语音识别文本。本申请可以在复杂噪声场景中提高语音识别的准确性。
-
公开(公告)号:CN117789695A
公开(公告)日:2024-03-29
申请号:CN202311805097.9
申请日:2023-12-25
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音唤醒方法、装置、设备及可读存储介质,在获取待识别的语音信号之后,先获取预设唤醒词的语种信息,预设唤醒词的语种信息用于指示预设唤醒词中包含的唤醒词片段,以及每个唤醒词片段对应的语种;然后对语音信号按语种进行切分,得到语种片段集合,语种片段集合中包括至少一个语种片段;最后语种片段集合与预设唤醒词的语种信息的一致性,确定语音信号的唤醒结果为第一唤醒结果还是第二唤醒结果,第一唤醒结果用于指示唤醒成功,第二唤醒结果用于指示唤醒失败。该方案能够实现多个语种的唤醒词的语音唤醒以及由多个语种拼接得到的唤醒词的语音唤醒。
-
公开(公告)号:CN117688949A
公开(公告)日:2024-03-12
申请号:CN202311384913.3
申请日:2023-10-23
Applicant: 科大讯飞股份有限公司
IPC: G06F40/58 , G10L15/00 , G10L15/22 , G10L15/26 , G06N3/0455 , G06N3/0464 , G06N3/0442 , G06N3/098
Abstract: 本申请公开了一种数据处理方法及相关装置、设备和存储介质,其中,数据处理方法包括:获取待处理数据,并获取待处理数据的目标任务;其中,目标任务为语音识别、语音翻译、文本翻译中任一者;基于待处理数据进行识别,得到待处理数据的数据类型;将待处理数据输入至与数据类型匹配的编码网络进行编码,至少得到待处理数据的编码特征;至少将待处理数据的编码特征和目标任务输入至解码网络进行解码,得到对待处理数据执行目标任务之后的目标文本。上述方案,能够在尽可能地降低系统复杂度的前提下,实现对语音/文本的自适应处理。
-
公开(公告)号:CN117688169A
公开(公告)日:2024-03-12
申请号:CN202311384857.3
申请日:2023-10-23
Applicant: 科大讯飞股份有限公司
IPC: G06F16/34 , G06F40/258 , G06N3/0455 , G06N3/0464 , G06N3/042 , G06N3/048
Abstract: 本申请公开了一种摘要生成方法及相关装置、设备和存储介质,其中,摘要生成方法包括:提取原始文档的摘要框架;其中,摘要框架包含原始文档中所涉及的事件以及事件之间的逻辑关系;基于摘要框架,生成原始文档的文档摘要。上述方案,能够提升文档摘要的生成效率,并提升文档摘要的流畅性。
-
公开(公告)号:CN116720484A
公开(公告)日:2023-09-08
申请号:CN202310492889.9
申请日:2023-04-28
Applicant: 科大讯飞股份有限公司
IPC: G06F40/166 , G10L15/26 , G10L17/02
Abstract: 本申请公开了一种文本规整方法及相关装置、电子设备和存储介质,其中,文本规整方法包括:获取待规整文本,并响应于规整请求,基于待规整文本进行规整,得到目标文本,再以预设突显样式显示目标文本在待规整文本基础上的规整内容。上述方案,能够提升文本规整的效率,以及规整展示的便利性交互。
-
公开(公告)号:CN116611401A
公开(公告)日:2023-08-18
申请号:CN202310432494.X
申请日:2023-04-18
Applicant: 科大讯飞股份有限公司
IPC: G06F40/166 , G06F40/253 , G06F3/0482 , G06F3/0483 , G06F3/0484
Abstract: 本申请公开了一种文案生成方法及相关装置、电子设备和存储介质,其中,文案生成方法包括:响应于获取用户关于生成期望文案的第一需求文本,获取期望文案的生成参数,第一需求文本至少指示期望文案的目标主旨,生成参数至少指示期望文案的目标风格;再基于第一需求文本和生成参数,生成契合目标主旨且匹配目标风格的第一目标文案。上述方案,能够提高生成文案的准确性和便利性。
-
公开(公告)号:CN116072105A
公开(公告)日:2023-05-05
申请号:CN202211584850.1
申请日:2022-12-09
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供了一种时序采样方法及装置、语音识别方法及装置,涉及人工智能技术领域。该时序采样方法包括:获取目标语音数据;基于目标语音数据,利用采样模型,确定目标语音数据的时序采样结果,其中,采样模型包括l层下采样网络和l层上采样网络,每层下采样网络包括并联的skip模块和下采样模块,每层上采样网络包括并联的skip模块和上采样模块,采样模型用于基于每层下采样网络的skip模块和下采样模块以及每层上采样网络的skip模块和上采样模块,为目标语音数据匹配采样模型中的最优采样路径,l为大于1的正整数。通过本申请中的时序采样方法,能够提升对语音数据的声学特征的学习能力、以及建模粒度的适配度。
-
公开(公告)号:CN115861670A
公开(公告)日:2023-03-28
申请号:CN202211415707.X
申请日:2022-11-11
Applicant: 科大讯飞股份有限公司
IPC: G06V10/762 , G06V10/74 , G06V10/774 , G06V10/80 , G06V40/16 , G06V20/40 , G06N3/08 , G10L25/27
Abstract: 本发明提供一种特征提取模型的训练方法和数据处理方法及装置,其中训练方法包括:获取至少一个模态的样本数据;执行样本数据所属的模态所对应的有监督任务,获取有监督任务执行过程中生成的样本数据的数据特征;对样本数据的数据特征进行聚类,基于聚类结果确定样本数据所属模态下的基准数据特征,并基于基准数据特征与样本数据的数据特征之间的相似度,确定与样本数据相匹配的基准数据特征;基于至少一个模态的样本数据,以及与样本数据相匹配的基准数据特征,训练特征提取模型。本发明提供的方法和装置,能够强化特征提取模型训练时指导标签的区分性和表征能力,从而达到加快特征提取模型收敛速度,提升特征提取模型表达能力的效果。
-
-
-
-
-
-
-
-
-