视频处理方法、装置、电子设备及存储介质

    公开(公告)号:CN113011320B

    公开(公告)日:2024-06-21

    申请号:CN202110285487.2

    申请日:2021-03-17

    Inventor: 宋浩 黄珊

    Abstract: 本申请提供了一种视频处理方法、装置、电子设备及计算机可读存储介质;涉及人工智能领域中的计算机视觉技术;方法包括:从视频的第一视频帧提取第一视频帧特征,并从所述视频的第二视频帧提取第二视频帧特征;将所述第一视频帧特征划分为多个第一视频帧子特征,并将所述第二视频帧特征划分为多个第二视频帧子特征;基于所述多个第一视频帧子特征和所述多个第二视频帧子特征,确定所述第一视频帧和所述第二视频帧之间的相似度;根据所述第一视频帧和所述第二视频帧之间的相似度,确定所述视频中的标识帧。通过本申请,能够准确高效地识别视频中具有代表性的标识帧。

    一种模型训练的方法、图像匹配的方法、装置及存储介质

    公开(公告)号:CN113822427A

    公开(公告)日:2021-12-21

    申请号:CN202110866443.9

    申请日:2021-07-29

    Inventor: 汪翔 黄珊

    Abstract: 本申请公开了一种基于人工智能技术实现的模型训练方法,包括;获取第一待训练图像;基于第一待训练图像,通过语义分割模型获取第一区域分割结果;根据第一区域分割结果,获取来源于第一待训练图像的第一样本图像以及第二样本图像,第一样本图像和第二样本图像分别包括的感兴趣区域的区域占比均大于或等于占比阈值;根据第一样本图像以及第二样本图像,对待训练图像匹配模型的模型参数进行更新,直至满足模型训练条件,得到图像匹配模型。本申请还提供了图像匹配的方法、装置及介质。本申请能够更有针对性地对图像进行框选,取出具有代表性的图像块作为样本图像,从而有利于训练得到更具有鲁棒性的图像匹配模型。

    一种语言处理方法、装置、设备及计算机可读存储介质

    公开(公告)号:CN113705162A

    公开(公告)日:2021-11-26

    申请号:CN202110241344.1

    申请日:2021-03-04

    Inventor: 李应弟 黄珊

    Abstract: 本申请公开了一种语言处理方法、装置、设备及计算机可读存储介质,所述方法包括:获取目标文本的至少两个基本区编码,所述基本区编码与至少两种字型编码关联;确定所述至少两个基本区编码中相邻两个基本区编码的组合关系,所述组合关系表征相邻两个基本区编码是否对应相同的目标字型编码;基于所述组合关系,从所述各个基本区编码关联的至少两种字型编码中确定所述各个基本区编码对应的目标字型编码;获取所述目标字型编码对应的目标字符;基于所述目标字符,显示所述目标文本。利用本申请实施例提供的技术方案至少可以实现目标文本的字型的正确显示。

    网络结构调整方法、装置和存储介质及电子设备

    公开(公告)号:CN113569886A

    公开(公告)日:2021-10-29

    申请号:CN202110057636.X

    申请日:2021-01-15

    Inventor: 郑重 汪翔 黄珊

    Abstract: 本发明公开了一种人工智能场景下的网络结构调整方法、装置和存储介质及电子设备,还涉及计算机视觉技术、机械学习等技术。其中,该方法包括:在获取到用于复原字符图像的目标网络结构的情况下,对目标网络结构中包括的N层卷积结构按照M种压缩方式进行压缩,以得到P个候选网络结构;通过P个候选网络结构分别对每组样本字符图像中的第一图像进行字符复原,以得到第一图像对应的复原字符图像;依次比对每个复原字符信息与对应的已复原样本字符的字符信息,以得到复原字符信息对应的字符相似度;将目标网络结构中的N层卷积结构,替换为字符相似度达到相似度阈值的候选网络结构。本发明解决了网络结构调整准确性较差的技术问题。

    视频文字跟踪方法、视频处理方法、装置、设备及介质

    公开(公告)号:CN113392689A

    公开(公告)日:2021-09-14

    申请号:CN202011565988.8

    申请日:2020-12-25

    Inventor: 宋浩 黄珊

    Abstract: 本申请公开了视频文字跟踪方法、视频处理方法、装置、设备及介质,在对视频文字进行跟踪识别时,从第一视频帧中确定到第一文本框后,在与第一视频帧相邻的视频帧中第一文本框对应的位置生成多个粒子,根据各个粒子的位置确定第二文本框,然后确定第一文本框和各个第二文本框的相似度,将相似度最高的第二文本框确定为第三文本框,根据第三文本框与第一文本框确定视频文字的目标跟踪轨迹。该方法通过当前视频帧中文字的位置确定其相邻的视频帧中同段文字可能出现的位置,无需再对相邻的视频帧从一开始进行检测,能够有效减少视频文字跟踪过程中所需要的处理时间,提高视频文字跟踪的速度,节省计算资源。本申请可广泛应用于人工智能技术领域。

    视频处理方法、装置、电子设备及存储介质

    公开(公告)号:CN113011320A

    公开(公告)日:2021-06-22

    申请号:CN202110285487.2

    申请日:2021-03-17

    Inventor: 宋浩 黄珊

    Abstract: 本申请提供了一种视频处理方法、装置、电子设备及计算机可读存储介质;涉及人工智能领域中的计算机视觉技术;方法包括:从视频的第一视频帧提取第一视频帧特征,并从所述视频的第二视频帧提取第二视频帧特征;将所述第一视频帧特征划分为多个第一视频帧子特征,并将所述第二视频帧特征划分为多个第二视频帧子特征;基于所述多个第一视频帧子特征和所述多个第二视频帧子特征,确定所述第一视频帧和所述第二视频帧之间的相似度;根据所述第一视频帧和所述第二视频帧之间的相似度,确定所述视频中的标识帧。通过本申请,能够准确高效地识别视频中具有代表性的标识帧。

    一种基于视频的文本识别方法、模型训练的方法及装置

    公开(公告)号:CN112101329A

    公开(公告)日:2020-12-18

    申请号:CN202011305590.0

    申请日:2020-11-19

    Inventor: 宋浩 黄珊

    Abstract: 本申请公开了一种采用人工智能技术实现的文本识别方法,包括:获取第一视频帧以及第二视频帧;基于第一视频帧获取第一文本概率值以及第一特征向量;基于第二视频帧获取第二文本概率值以及第二特征向量;基于第一特征向量以及第二特征向量获取相似度分值;若第一文本概率值以及第二文本概率值均大于或等于文本概率阈值,且相似度分值小于或等于相似度阈值,则根据第一视频帧以及第二视频帧确定目标视频帧;对目标视频帧进行文本识别。本申请还提供了模型训练方法及装置。本申请使用孪生网络对视频帧之间的文本相似度进行计算,这样能够判断出相似度较高的视频帧,由此从这些相似度较高的视频帧进行文本识别,提升了针对于视频的文本检测效率。

    一种视频处理方法、装置、设备及存储介质

    公开(公告)号:CN111294646A

    公开(公告)日:2020-06-16

    申请号:CN202010096614.X

    申请日:2020-02-17

    Inventor: 宋浩 黄珊

    Abstract: 本发明实施例提供了一种视频处理方法、装置、设备及存储介质;方法包括:从待处理视频对应的帧序列中提取相邻视频帧;定位相邻视频帧中每个视频帧中的文本区域;确定相邻视频帧中每个视频帧中的文本区域之间的相似度;根据相似度确定待处理视频中包含相同文本的关键视频帧段;基于关键视频帧段确定待处理视频中的文本关键帧。通过本发明实施例,能够提升视频关键帧的准确度。

    文本识别方法、装置、电子设备以及存储介质

    公开(公告)号:CN111126140B

    公开(公告)日:2024-09-06

    申请号:CN201911134547.X

    申请日:2019-11-19

    Inventor: 王洪振 黄珊

    Abstract: 本发明实施例公开了一种文本识别方法、装置、电子设备以及存储介质,其中,该文本识别方法包括:获取待识别图像,所述待识别图像包括待检测文本,对所述待识别图像进行语义分割,得到所述待检测文本对应的多个目标像素点以及每个目标像素点对应的像素关联信息,基于像素关联信息以及多个目标像素点,确定每个目标像素点在所述待识别图像中的位置以及所述待检测文本的偏转信息,根据所述偏转信息对所述待检测文本的角度进行调整,对调整后的待检测文本进行文本识别,得到文本识别结果,该方案可以有效地提高文本检测的准确率,进而提高文本识别的准确率。

    图像的文本识别方法、装置、电子设备及计算机存储介质

    公开(公告)号:CN111563502B

    公开(公告)日:2023-12-15

    申请号:CN202010387657.3

    申请日:2020-05-09

    Inventor: 徐培 黄珊

    Abstract: 本申请提供了一种图像的文本识别方法、装置、电子设备及计算机可读存储介质,涉及图像处理领域。该方法包括:接收待检测图像;调用训练后的字符识别模型对待检测图像进行处理,或将待检测图像输入字符识别模型中,使得字符识别模型基于预设的锚框参数中的倾斜角度,在待检测图像中生成具有互不相同的倾斜角度的至少两个锚框;基于倾斜角度互不相同的各个锚框确定出图像中包含至少一个关键字字符的待识别区域;识别出待识别区域中的至少一个关键字字符,并对待识别区域和各个关键字字符进行掩膜处理,以生成待识别区域和各个关键字字符的标注信息;将识别出的各个关键字字符和各个标注信息在待检测图像中进行展示。本申请有效提(56)对比文件CN 110659647 A,2020.01.07尚果超.基于深度卷积模型的手写中文文本识别《.中国优秀硕士学位论文全文数据库 信息科技辑》.2020,(第3期),I138-1310.Hu, H等.Wordsup: Exploiting wordannotations for character based textdetection《.Proceedings of the IEEEinternational conference on computervision》.2017,4940-4949.

Patent Agency Ranking