-
公开(公告)号:CN117177024A
公开(公告)日:2023-12-05
申请号:CN202311030846.5
申请日:2023-08-14
Applicant: 科大讯飞股份有限公司
Inventor: 胡国平 , 付新勇 , 姚仕豪 , 高建清 , 郜静文 , 刘烨秋 , 王雨露 , 张若楠 , 管广鹏 , 吕磊 , 陈付国 , 金左雨 , 董飞 , 何山 , 殷兵 , 刘聪 , 魏思 , 王士进 , 刘权
IPC: H04N21/81 , H04N21/44 , G10L13/027 , G10L13/08
Abstract: 本申请公开了一种视频配音方法和相关装置、电子设备及存储介质。该方法包括:获取原始视频;获取基于原始视频的关键帧、用于指示视频配音的第一描述文本、原始文案中至少一种参考信息而得到的文案文本;获取由文案文本合成得到的视频配音;基于原始视频和视频配音,生成目标视频。上述方案,有助于提高对视频配音的效率,并降低视频配音的成本。
-
公开(公告)号:CN112686134B
公开(公告)日:2023-12-01
申请号:CN202011588676.9
申请日:2020-12-29
Applicant: 科大讯飞股份有限公司
IPC: G06V30/32
Abstract: 本发明提供一种手写识别方法、装置、电子设备和存储介质,其中方法包括:确定待识别的轨迹点序列及其对应的笔迹图像;对所述笔迹图像进行空间特征提取,得到空间特征图;索引所述轨迹点序列中各个轨迹点对应在所述空间特征图中的特征,得到轨迹点空间特征序列;对所述轨迹点空间特征序列进行手写识别,得到识别结果。本发明提供的方法、装置、电子设备和存储介质,通过索引轨迹点序列中各个轨迹点对应在空间特征图中的特征,得到轨迹点空间特征序列用于手写识别,实现了手写识别在时间层面和空间层面上的特征融合,能够有效利用用户手写过程中在各个层面上的特征信息,从而有效提高手写识别的识别性能,以满足不同情形下的手写识别需求。
-
公开(公告)号:CN116682158A
公开(公告)日:2023-09-01
申请号:CN202310651309.6
申请日:2023-06-01
Applicant: 科大讯飞股份有限公司
IPC: G06V40/16 , G10L25/63 , G10L25/30 , G06V40/70 , G06V20/40 , G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/084
Abstract: 本申请公开了一种情绪识别方法、装置、存储介质及设备,该方法包括:首先获取待识别的目标视频,并从中分离出音频信号流和图像信号流,然后将音频信号流和图像信号流分别输入预先构建的情绪识别模型,预测得到目标视频中目标用户对应的第一初步情绪识别结果和第二初步情绪识别结果;其中,情绪识别模型是在利用样本音频信号流和样本图像信号流进行交替训练后,再通过梯度融合的参数更新方式训练得到的;接着根据第一初步情绪识别结果和第二初步情绪识别结果,确定目标用户的最终情绪识别结果。由于本申请是先利用模态相关的训练方法和梯度融合的参数更新方式构建了情绪识别模型,从而在利用该模型进行情绪识别时,能够提高识别结果的准确率。
-
公开(公告)号:CN116664979A
公开(公告)日:2023-08-29
申请号:CN202310654313.8
申请日:2023-06-02
Applicant: 科大讯飞股份有限公司
IPC: G06V10/774 , G06V10/25 , G06V10/764 , G06V10/74 , G06N3/0455 , G06N3/0895
Abstract: 本发明提供了一种伪标签生成方法、模型训练方法、目标检测方法和设备,方法包括:采用已标注的第一训练图像对构建的目标检测模型进行训练,得到第一目标检测模型,利用第一目标检测模型获取第一训练图像中已标注目标对应的目标特征,利用第一目标检测模型并辅以已标注目标对应的目标特征,生成未标注的第二训练图像的伪标签,在此基础上,采用已标注的训练图像和具有伪标签的训练图像训练得到最终的目标检测模型,进而,利用训练得到的目标检测模型对待检测图像进行目标检测。本发明针对未标注的训练图像可生成准确的伪标签,在此基础上可训练得到性能较佳的目标检测模型,进而,利用该模型对待检测图像进行目标检测,可获得较好的检测效果。
-
公开(公告)号:CN116188649A
公开(公告)日:2023-05-30
申请号:CN202310472056.6
申请日:2023-04-27
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提出一种基于语音的三维人脸模型驱动方法及相关装置,基于目标语音的语音特征和目标情绪特征,按照偏移预测参数,进行三维模型顶点偏移预测,按照预测得到的三维模型顶点偏移数据,驱动三维基础模型,得到目标语音对应的三维人脸动画。偏移预测参数是通过样本视频对应的4D合成数据、音频特征和情绪特征,进行三维模型顶点偏移预测处理而确定的;4D合成数据是将样本视频的每帧图像对应的三维重建人脸模型,按照样本视频的帧率合成的数据。本方案将样本视频的每帧图像重建为三维人脸模型得到的4D合成数据作为确定偏移预测参数的样本数据,提高了样本数据的数据量和情绪多样性,从而提高了语音驱动三维人脸模型的准确度和情绪化效果。
-
-
公开(公告)号:CN116152447A
公开(公告)日:2023-05-23
申请号:CN202310431115.5
申请日:2023-04-21
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供一种人脸建模方法、装置、电子设备及存储介质,所述人脸建模方法,包括:获得包含目标人脸的影像数据;利用预先训练的面部参数处理模型,对所述影像数据中的目标人脸进行参数化建模,得到所述目标人脸的面部参数;其中,所述面部参数处理模型至少基于样本影音数据中的人脸影像数据,以及与所述人脸影像数据对应的语音数据进行人脸参数建模训练得到。该方法通过样本影音数据中的人脸影像数据,以及与所述人脸影像数据对应的语音数据进行人脸参数建模,训练能够基于包含目标人脸的影像数据,获得目标人脸的面部参数的面部参数处理模型,使得所述面部参数处理模型能够学习到二维图像中缺失的、而在语音空间中存在的信息。
-
公开(公告)号:CN116030827A
公开(公告)日:2023-04-28
申请号:CN202211677826.2
申请日:2022-12-26
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供了一种乐谱的跟随方法、装置、设备及存储介质,具体实现方案为:获取目标对象演奏的音频数据;根据所述音频数据确定对应的音频特征;在所述音频特征与待演奏乐谱中指定音符对应的音符特征匹配的情况下,在所述待演奏乐谱中将所述指定音符的下一音符确定为待演奏音符。根据本申请的技术方案,能够实现乐谱的自动跟随。
-
公开(公告)号:CN116012868A
公开(公告)日:2023-04-25
申请号:CN202310133784.4
申请日:2023-02-08
Applicant: 科大讯飞股份有限公司
IPC: G06V30/414 , G06V30/412 , G06V30/413 , G06T9/00 , G06F40/126 , G06V30/19 , G06V30/10 , G06Q50/20
Abstract: 本发明提供一种试题批改方法、装置、电子设备和存储介质,其中方法包括:获取待批改的作答图像,以及作答图像对应试题的标准答案;对作答图像进行图像编码,得到作答图像特征;基于作答图像特征,以及标准答案的答案特征,进行字符解码,得到作答图像的作答结果;基于标准答案和作答结果进行试题批改。本发明提供的方法、装置、电子设备和存储介质,以作答结果大部分是正确的作为先验知识,应用标准答案的答案特征作为解码时的补充信息,从而保证即便是在书写潦草和拍照模糊这些视觉信息损失比较严重的场景下,也能实现高精度的作答结果识别,进而实现高精度的试题批改。
-
公开(公告)号:CN115866147A
公开(公告)日:2023-03-28
申请号:CN202211398986.3
申请日:2022-11-09
Applicant: 科大讯飞股份有限公司
IPC: H04N1/00
Abstract: 本申请提供了一种图像处理方法、系统、存储介质和电子设备,用于根据图像确定实际页面摆放位置以判断其是否超出摄影设备的视野范围,解决了在判断页面是否超出摄影设备的视野范围时精度不够,易受页面边缘空白区域干扰的问题。该图像处理方法包括:获取利用摄像设备采集的、目标书籍的当前页的页面图像;在基于页面图像确定当前页疑似超出摄像设备的视野范围的情况下,对页面图像进行文字识别,得到页面图像包含的第一文本内容;获取目标书籍的当前页的第二文本内容;基于第一文本内容和第二文本内容,确定当前页是否超出摄像设备的视野范围。通过本申请的方案,排除了页面边缘空白区域在确定页面摆放位置时造成的干扰,提高了精度。
-
-
-
-
-
-
-
-
-