视频字幕错别字检测方法、装置、设备及存储介质

    公开(公告)号:CN115659957A

    公开(公告)日:2023-01-31

    申请号:CN202211337233.1

    申请日:2022-10-28

    Abstract: 本申请公开了一种视频字幕错别字检测方法、装置、设备及存储介质,对于包含用户唇形和/或手语图像的视频,识别出其中的字幕文本,以及从视频中抽取出唇形图像序列和/或手语图像序列,提取字幕文本的文字模态特征,以及提取唇形图像序列的唇形模态特征,提取手语图像序列的手语模态特征,由唇形模态特征和/或手语模态特征作为视觉模态特征,将视觉模态特征和文字模态特征进行融合,基于融合特征确定视频中包含的真实文本。本申请在考虑了字幕文本的文字模态特征的基础上,进一步融合了视频中唇形/手语的视觉模态特征,使得预测结果更加准确,在此基础上,通过对比真实文本和字幕文本,确定错别字检测结果,大大提升了错别字检测的准确度。

    图文联合纠错方法、装置、存储介质及计算机设备

    公开(公告)号:CN114241279A

    公开(公告)日:2022-03-25

    申请号:CN202111651496.5

    申请日:2021-12-30

    Abstract: 本申请公开一种图文联合纠错方法、装置、存储介质及计算机设备。该方法包括:获取待处理的文本数据和图像数据,文本数据包括目标文本,图像数据包括场景图片;提取文本数据的文本向量表示,文本向量表示包含目标文本的文本信息;提取图像数据的图片向量表示,图片向量表示包含场景图片的图像信息;根据文本向量表示与图片向量表示,计算包含有文本信息和图像信息的多模态向量表示;在目标文本用于表达场景图片时,根据多模态向量表示确定针对目标文本和场景图片的纠错结果,以根据纠错结果对图文进行纠错,实现了图文联合纠错,提升了纠错能力。

Patent Agency Ranking