-
公开(公告)号:CN112651319A
公开(公告)日:2021-04-13
申请号:CN202011518646.0
申请日:2020-12-21
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种视频检测方法、装置、电子设备及存储介质,所述方法包括:获取待检测的视频;提取音频特征数据;提取视频特征数据;确定音频特征数据和视频特征数据之间的特征距离;判断视频的真伪,基于音频特征数据、视频特征数据和特征距离来判断视频的真伪。本方法中,使用音频特征数据对视频特征数据中的嘴部区域执行注意力机制,强化了视频的嘴部区域的特征,同时,由于考虑了音频、视频、音视频多模态特征距离三个维度的虚假视频判别,从而能够有效的提升算法泛化性和鲁棒性,使得该方法具有泛化性好、可靠性高等优点。
-
公开(公告)号:CN112650869A
公开(公告)日:2021-04-13
申请号:CN202011535678.1
申请日:2020-12-23
Applicant: 科大讯飞股份有限公司
IPC: G06F16/538 , G06F16/583 , G06N3/04 , G06N3/08
Abstract: 本发明提供一种图像检索重排序方法、装置、电子设备及存储介质,通过提取各候选图像中感兴趣区域,并确定各候选图像中感兴趣区域对应的前景特征,可以初步挖掘出各候选图像中可能包含的目标实例,减少背景噪声对重排序结果造成的影响;通过引入目标图像的图像特征与各候选图像中感兴趣区域对应的前景特征之间的相关性,可以有效利用前景特征确定出目标图像的查询特征向量;通过确定出的查询特征向量,对各候选图像进行重排序,可以使得重排序精度提高,重排序结果更准确。
-
公开(公告)号:CN112465935A
公开(公告)日:2021-03-09
申请号:CN202011301793.2
申请日:2020-11-19
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种虚拟形象合成方法、装置、电子设备和存储介质,其中方法包括:确定待合成的语音数据的语音特征,以及与所述语音特征相对应的面部表情特征;对所述语音特征和所述面部表情特征进行融合,基于融合所得的特征合成表情与所述语音数据相匹配的虚拟形象视频。本发明提供的方法、装置、电子设备和存储介质,对语音特征和面部表情特征进行融合,基于融合所得的特征合成虚拟形象视频,面部表情特征的应用使得合成虚拟形象的表情能够趋向于一致稳定,语音特征的应用降低面部表情特征的准确性对于虚拟形象合成准确性的影响,为虚拟形象合成提供更多口唇细节信息。从而保证虚拟形象视频中虚拟形象的表情能够自然匹配语音数据。
-
公开(公告)号:CN112465115A
公开(公告)日:2021-03-09
申请号:CN202011341346.X
申请日:2020-11-25
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种GAN网络压缩方法、装置、设备及存储介质,对于待压缩的GAN网络,将其中每一层的原始操作子替换为至少一个候选操作子,每一层的输出由每一层替换后的各候选操作子的输出组成,并且候选操作子的计算量小于被替换的原始操作子的计算量,初始化GAN网络中各候选操作子的参数及其权重,交替更新生成网络G和判别网络D,直至GAN网络收敛为止,基于收敛的GAN网络中每一层各候选操作子的最终权重,确定每一层最终保留的操作子,以得到压缩后的GAN网络。本申请方案同时对GAN网络中生成网络G和判别网络D进行压缩,在实现对GAN网络压缩的同时,保证了压缩后GAN网络的平衡性。
-
公开(公告)号:CN111091158A
公开(公告)日:2020-05-01
申请号:CN201911360386.6
申请日:2019-12-25
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供了一种针对教辅图像的图像质量的分类方法,获取第一图像块集合以及第二图像块集合。其中,第一图像块集合中包括从待分类的图像中选取的图像块,第二图像块集合中包括从待分类的图像的印刷重建图像中选择的图像块。第一图像块集合中的图像块与第二图像块集合中的图像块一一对应,对应的图像块为位置信息相同的图像块。进一步依据第一图像块集合和第二图像块集合,确定待分类图像的质量分类结果。本申请获取的质量分类结果既可以对待分类的图像的原始数字图像进行质量评估,也可以对待分类的图像的打印图像进行质量评估。并且,在任意一个图像块集合中,图像块之间的结构不相似,由此保证了采样的多样性,从而提高评估结果的准确性。
-
公开(公告)号:CN109862313A
公开(公告)日:2019-06-07
申请号:CN201811518639.3
申请日:2018-12-12
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种视频浓缩方法及装置,该方法包括:获取包括多个运动目标的待浓缩视频,随后为各个浓缩图像选择运动目标组合方式,该各个浓缩图像是对待浓缩视频进行浓缩后得到的各个帧图像,以便根据各个浓缩图像中的运动目标组合方式,对待浓缩视频进行视频浓缩。可见,本申请可以为每一帧浓缩图像选择一种合理的运动目标组合方式,从而使每帧浓缩图像中的各个运动目标能够最大限度的占据图像空间、并使每帧浓缩图像中的不同运动目标之间的重叠程度尽量小,进而提高浓缩视频的浓缩精度。
-
公开(公告)号:CN109840485A
公开(公告)日:2019-06-04
申请号:CN201910063138.9
申请日:2019-01-23
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供了一种微表情特征提取方法、装置、设备及可读存储介质,其中,微表情特征提取方法包括:获取包含人脸区域的目标图像,其中,目标图像为待提取微表情特征的单幅图像,或者为待提取微表情特征的多幅图像中的任一幅图像,或者为待提取微表情特征的视频中的任一帧图像;从目标图像获取微表情预测特征,其中,微表情预测特征为目标图像中与微表情有关的特征;根据微表情预测特征和预先构建的微表情特征提取模型,确定目标图像中人脸的目标微表情特征。本申请提供的微表情特征提取方法能够从包含人脸区域的目标图像中提取出准确有效的微表情特征。
-
公开(公告)号:CN109783684A
公开(公告)日:2019-05-21
申请号:CN201910072964.X
申请日:2019-01-25
Applicant: 科大讯飞股份有限公司
IPC: G06F16/70
Abstract: 本申请提供了一种视频的情感识别方法、装置、设备及可读存储介质,方法包括:获取待识别视频,并基于指定的边界划分依据对待识别视频进行粗粒度的边界划分,获得粗粒度视频片段;基于粗粒度视频片段的时空语义信息,对粗粒度视频片段进行细粒度的边界划分,获得细粒度视频片段;确定细粒度视频片段的至少一种情感识别结果,并通过细粒度视频片段的至少一种情感识别结果获得待识别视频的情感识别结果。本申请提供的情感识别方法具有较高的识别准确度。
-
公开(公告)号:CN107886949A
公开(公告)日:2018-04-06
申请号:CN201711195319.4
申请日:2017-11-24
Applicant: 科大讯飞股份有限公司
CPC classification number: G10L15/22 , G06F17/30867 , G10L2015/225 , H04L67/26
Abstract: 本发明实施例提供一种内容推荐方法及装置,所述方法包括:获取目标用户的语音请求数据,提取所述语音请求数据中对应的交互推荐特征;根据所述交互推荐特征,在预先构建的与所述目标用户对应的推荐知识库中获取相应的推荐内容并发送给所述目标用户;其中,所述推荐知识库中包括多个对应关系模型;且所述各对应关系模型分别基于从各历史用户的样本语音请求数据中提取的交互推荐特征及和所述各历史用户相对应的推荐内容建立。所述方法大大方便了用户使用的同时,结合了目标用户请求的声学、语义、用户属性及说话人信息,从而进一步提高了内容推荐的准确度。
-
公开(公告)号:CN119741405A
公开(公告)日:2025-04-01
申请号:CN202510260633.4
申请日:2025-03-06
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种动作数据生成方法、装置、设备、存储介质和程序产品,涉及人工智能技术领域,包括:获得目标语音的音频特征以及目标语音对应的文本;基于对文本的语义理解,确定文本中需要数字人同步执行肢体动作的目标文本段,每个目标文本段对应的肢体动作的类别,以及每个目标文本段对应的待生成的骨架动作序列中的各个动作帧的位置编码;对应每个目标文本段,至少将音频特征、该目标文本段对应的肢体动作的类别以及该目标文本段对应的各个动作帧的位置编码作为扩散模型的控制条件,通过扩散模型生成与该目标文本段对应的骨架动作序列。本申请提高了基于骨架动作序列驱动的数字人的肢体动作与语音内容的匹配度。
-
-
-
-
-
-
-
-
-