-
公开(公告)号:CN112651319A
公开(公告)日:2021-04-13
申请号:CN202011518646.0
申请日:2020-12-21
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种视频检测方法、装置、电子设备及存储介质,所述方法包括:获取待检测的视频;提取音频特征数据;提取视频特征数据;确定音频特征数据和视频特征数据之间的特征距离;判断视频的真伪,基于音频特征数据、视频特征数据和特征距离来判断视频的真伪。本方法中,使用音频特征数据对视频特征数据中的嘴部区域执行注意力机制,强化了视频的嘴部区域的特征,同时,由于考虑了音频、视频、音视频多模态特征距离三个维度的虚假视频判别,从而能够有效的提升算法泛化性和鲁棒性,使得该方法具有泛化性好、可靠性高等优点。
-
公开(公告)号:CN114900714B
公开(公告)日:2023-11-21
申请号:CN202210382403.1
申请日:2022-04-12
Applicant: 科大讯飞股份有限公司
IPC: H04N21/234 , H04N19/42 , H04N19/44 , G06T9/00 , G06N3/0455 , G06N3/08
-
公开(公告)号:CN114900714A
公开(公告)日:2022-08-12
申请号:CN202210382403.1
申请日:2022-04-12
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开一种基于神经网络的视频生成方法及相关装置。视频生成方法包括:获取素材文件,其中所述素材文件包括语音文件、文本文件以及图像文件中的至少一种;将所述素材文件输入视频生成神经网络,通过所述视频生成神经网络对所述素材文件生成压缩视频数据;其中,所述压缩视频数据中至少部分视频帧的表征依赖于其他视频帧。通过上述方案可以节省编码计算量,提高视频生成网络本身的运行效率和生成视频流的质量。
-
公开(公告)号:CN114357135A
公开(公告)日:2022-04-15
申请号:CN202111672307.2
申请日:2021-12-31
Applicant: 科大讯飞股份有限公司
IPC: G06F16/332 , G06F16/338 , G06F16/33 , G06V40/16 , G06F40/295 , G06K9/62 , G06V10/774
Abstract: 本申请公开了交互方法、交互装置、电子设备以及存储介质,其中,该交互方法包括:获取到用户的问询文本以及面部表情,并确定用户当前的情感类型标签;基于问询文本与情感类型标签确定问询文本的回复文本,并基于问询文本以及回复文本形成对话文本;利用对话文本以及情感类型标签得到与情感类型标签匹配的情感回应数据;将情感回应数据加载到虚拟形象中,以对用户做出带有情感的交互响应。通过上述方案,本申请交互方法对应的虚拟形象能够进行类人的情感表达,从而能够使用户对应获得更自然,更具趣味性的交互体验。
-
公开(公告)号:CN115439614A
公开(公告)日:2022-12-06
申请号:CN202211326579.1
申请日:2022-10-27
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提出一种虚拟形象的生成方法、装置、电子设备和存储介质,能够从目标用户的音频数据中提取得到音素特征,以及从与音频数据同步的视频数据中提取得到面部表情特征。基于上述音素特征和面部表情特征,解算得到目标用户的面部表情参数序列。其中,面部动作较为复杂的部分集中在下半张脸的口唇区域,而用户说话的语音音素与口唇动作有较强的相关性,因此,本申请引入音素特征,根据音素特征和面部表情特征解算面部表情参数序列,利用面部表情参数序列驱动目标用户对应的三维虚拟形象模型生成的虚拟形象,能够精确还原目标用户面部的动作。
-
公开(公告)号:CN112651319B
公开(公告)日:2023-12-05
申请号:CN202011518646.0
申请日:2020-12-21
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种视频检测方法、装置、电子设备及存储介质,所述方法包括:获取待检测的视频;提取音频特征数据;提取视频特征数据;确定音频特征数据和视频特征数据之间的特征距离;判断视频的真伪,基于音频特征数据、视频特征数据和特征距离来判断视频的真伪。本方法中,使用音频特征数据对视频特征数据中的嘴部区域执行注意力机制,强化了视频的嘴部区域的特征,同时,由于考虑了音频、视频、音视频多模态特征距离三个维度的虚假视频判别,从而能够有效的提升算法泛化性和鲁棒性,使得该方法具有泛化性好、可靠性高等优点。(56)对比文件肖辉等.融合多特征的视频帧间篡改检测算法《.信号处理》.2020,第6卷(第1期),第84-93页.梁瑞刚等.视听觉深度伪造检测技术研究综述《.信息安全学报》.2020,第5卷(第2期),第1-17页.N. Bhakt et al.A Novel Framework forReal and Fake Smile Detection fromVideos《.2018 Second InternationalConference on Electronics, Communicationand Aerospace Technology 》.2018,第 1327-1330页.张衡等.基于聚类网络的文本-视频特征学习《.计算机科学》.2020,第1-5.肖易明;张海剑;孙洪;丁昊.引入注意力机制的视频声源定位.信号处理.2019,第35卷(第12期),第1969-1978页.
-
公开(公告)号:CN115393532A
公开(公告)日:2022-11-25
申请号:CN202211326540.X
申请日:2022-10-27
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供了一种脸部绑定方法、装置、设备及存储介质,涉及人工智能技术领域,具体实现方案为:利用获取到的目标对象的脸部图像,在目标对象对应的三维人脸模型中确定三维人脸模型的脸部特征区域;在脸部特征区域中确定对应的三维人脸模型顶点与脸部骨骼点的目标连接关系和三维人脸模型顶点与脸部骨骼点的目标运动关系;根据三维人脸模型顶点与脸部骨骼点的目标连接关系和三维人脸模型顶点与脸部骨骼点的目标运动关系,确定目标对象的三维人脸模型顶点与脸部骨骼点的绑定关系根据本申请的技术方案,能够在三维建模软件中实现三维人脸模型顶点与脸部骨骼点的自动绑定,提高脸部绑定效率,进而提升虚拟形象的生成效率。
-
公开(公告)号:CN109118498A
公开(公告)日:2019-01-01
申请号:CN201810958638.4
申请日:2018-08-22
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供了一种摄像头污点检测方法、装置、设备及存储介质,方法包括:获取目标场景下的目标图像序列,目标图像序列包括目标图像和目标图像之前和/或之后的N帧图像;基于目标图像序列确定目标图像对应的统计特征,并基于统计特征确定目标图像中的污点遮挡区域;通过预先建立的污点检测模型,从目标图像中检测出污点遮挡区域;将基于统计特征确定出的污点遮挡区域和通过污点检测模型检测出的污点遮挡区域进行融合,得到目标图像最终的污点检测结果。本申请提供的摄像头污点检测方法、装置、设备及存储介质,可实现运动场景下污点的实时检测,并且,污点检测准确率较高、检测运算负担较小,即检测效果较好。
-
公开(公告)号:CN107856667A
公开(公告)日:2018-03-30
申请号:CN201711093865.7
申请日:2017-11-08
Applicant: 科大讯飞股份有限公司
Abstract: 本发明公开了一种辅助泊车系统及方法,该系统包括:监测模块,包括设置在车辆上的一个或多个摄像头,所述摄像头用于采集车身周围图像;人机交互触摸屏,用于显示所述摄像头采集的图像;目标车位确定模块,用于确定在车辆坐标系中的目标车位;路径规划模块,用于根据车辆当前位置及所述目标车位进行路径规划,得到规划路径;控制模块,用于根据所述规划路径完成泊车。利用本发明,即使在周围环境复杂、无明显停车线等情况下,也能够得到准确的规划路径,对用户进行有效的泊车辅助。
-
公开(公告)号:CN114357135B
公开(公告)日:2024-11-01
申请号:CN202111672307.2
申请日:2021-12-31
Applicant: 科大讯飞股份有限公司
IPC: G06F16/332 , G06F16/338 , G06F16/33 , G06V40/16 , G06F40/295 , G06T13/40 , G10L13/08
Abstract: 本申请公开了交互方法、交互装置、电子设备以及存储介质,其中,该交互方法包括:获取到用户的问询文本以及面部表情,并确定用户当前的情感类型标签;基于问询文本与情感类型标签确定问询文本的回复文本,并基于问询文本以及回复文本形成对话文本;利用对话文本以及情感类型标签得到与情感类型标签匹配的情感回应数据;将情感回应数据加载到虚拟形象中,以对用户做出带有情感的交互响应。通过上述方案,本申请交互方法对应的虚拟形象能够进行类人的情感表达,从而能够使用户对应获得更自然,更具趣味性的交互体验。
-
-
-
-
-
-
-
-
-