一种视觉问答分析方法、装置、系统及可读存储介质

    公开(公告)号:CN114020863A

    公开(公告)日:2022-02-08

    申请号:CN202111161716.6

    申请日:2021-09-30

    Abstract: 本发明公开了一种视觉问答分析方法、装置、系统及计算机可读存储介质,该方法包括:获取图像和问题文本信息,并将图像和问题文本信息作为输入;判断图像中是否存在OCR信息,若存在,则采用字符识别网络对图像进行字符识别,得到多个字符结果及与每个字符结果各自对应的置信度得分;根据每个字符结果、各自对应的置信度得分以及预先建立的答案空间集合,得到与每个字符结合各自对应的相关答案空间及对应的分类概率值;根据各个分类概率值,从各个相关答案空间中确定出目标答案空间;本发明在使用过程中能够提高分类结果的准确性以及视觉问答结果的准确度。

    一种文生视频生成方法、产品、设备及存储介质

    公开(公告)号:CN119946378A

    公开(公告)日:2025-05-06

    申请号:CN202510406455.1

    申请日:2025-04-02

    Abstract: 本申请公开了一种文生视频生成方法、产品、设备及存储介质,涉及人工智能技术领域,包括:将文本描述和噪声向量输入至按照预设蒸馏策略训练的第一文生视频模型,以生成与文本描述匹配的视频和相应的视频隐向量;预设蒸馏策略为利用学生模型和基于注意力机制的扩散模型依次对历史高分辨率视频进行去噪,并基于去噪结果对应的损失对预设学生模型的模型参数进行更新;对视频隐向量进行上采样,并对得到的采样后向量和噪声向量进行拼接;将拼接后向量输入至基于多路状态空间模型的第二文生视频模型,以生成目标文生视频。本申请在基于注意力机制的基础上结合多路状态空间模型,通过多次推理,可提高文生视频的分辨率以及文生视频的生成效率。

    一种视觉问答分析方法、装置、系统及可读存储介质

    公开(公告)号:CN114020863B

    公开(公告)日:2025-04-29

    申请号:CN202111161716.6

    申请日:2021-09-30

    Abstract: 本发明公开了一种视觉问答分析方法、装置、系统及计算机可读存储介质,该方法包括:获取图像和问题文本信息,并将图像和问题文本信息作为输入;判断图像中是否存在OCR信息,若存在,则采用字符识别网络对图像进行字符识别,得到多个字符结果及与每个字符结果各自对应的置信度得分;根据每个字符结果、各自对应的置信度得分以及预先建立的答案空间集合,得到与每个字符结合各自对应的相关答案空间及对应的分类概率值;根据各个分类概率值,从各个相关答案空间中确定出目标答案空间;本发明在使用过程中能够提高分类结果的准确性以及视觉问答结果的准确度。

    数据异构条件下的图像处理方法、联邦学习方法及装置

    公开(公告)号:CN117808127B

    公开(公告)日:2024-05-28

    申请号:CN202410230103.0

    申请日:2024-02-29

    Abstract: 本发明公开了一种数据异构条件下的图像处理方法、联邦学习方法及装置,涉及图像处理技术领域,根据数据分布相似性对边缘计算设备分簇,簇内边缘计算设备具有相似的数据分布,可以让模型更好的捕捉到数据的特征,有效解决数据异构问题。簇内的边缘计算设备根据簇内树形聚合网络进行模型参数聚合,下层的边缘计算设备只向上一层中相应的边缘计算设备发送模型参数,而不向其他边缘计算设备发送模型参数,这样可以极大降低通信开销。边缘计算设备与边缘云服务器在联邦学习过程中进行两层模型参数聚合,得到准确可靠的图像处理模型,最终边缘计算设备使用该准确可靠的图像处理模型进行图像处理,可以提升图像处理的准确性与可靠性。

    一种图像生成方法、装置、设备及计算机可读存储介质

    公开(公告)号:CN117474796B

    公开(公告)日:2024-04-05

    申请号:CN202311813617.0

    申请日:2023-12-27

    Abstract: 本发明涉及图像生成技术领域,具体公开了一种图像生成方法、装置、设备及计算机可读存储介质,在利用文生图扩散模型对待处理文本进行预设次数的去噪处理的过程中,在每次去噪处理中对生成的中间图像进行图像识别,根据图像识别结果和待处理文本的内容误差更新文生图扩散模型的第一阶段去噪向量,得到第二阶段去噪向量,以第二阶段去噪向量作为本次去噪处理的去噪向量;利用最终的第二阶段去噪向量生成与待处理文本对应的结果图像。通过两阶段去噪,加强了每次去噪过程中对待处理文本中包含的细节信息的把控,由此生成的结果图像可以对待处理文本中包含的细节信息进行精准刻画,从而提高了文本图像模态转换的准确性。

    数据异构条件下的图像处理方法、联邦学习方法及装置

    公开(公告)号:CN117808127A

    公开(公告)日:2024-04-02

    申请号:CN202410230103.0

    申请日:2024-02-29

    Abstract: 本发明公开了一种数据异构条件下的图像处理方法、联邦学习方法及装置,涉及图像处理技术领域,根据数据分布相似性对边缘计算设备分簇,簇内边缘计算设备具有相似的数据分布,可以让模型更好的捕捉到数据的特征,有效解决数据异构问题。簇内的边缘计算设备根据簇内树形聚合网络进行模型参数聚合,下层的边缘计算设备只向上一层中相应的边缘计算设备发送模型参数,而不向其他边缘计算设备发送模型参数,这样可以极大降低通信开销。边缘计算设备与边缘云服务器在联邦学习过程中进行两层模型参数聚合,得到准确可靠的图像处理模型,最终边缘计算设备使用该准确可靠的图像处理模型进行图像处理,可以提升图像处理的准确性与可靠性。

    一种图像生成方法、装置、设备及计算机可读存储介质

    公开(公告)号:CN117474796A

    公开(公告)日:2024-01-30

    申请号:CN202311813617.0

    申请日:2023-12-27

    Abstract: 本发明涉及图像生成技术领域,具体公开了一种图像生成方法、装置、设备及计算机可读存储介质,在利用文生图扩散模型对待处理文本进行预设次数的去噪处理的过程中,在每次去噪处理中对生成的中间图像进行图像识别,根据图像识别结果和待处理文本的内容误差更新文生图扩散模型的第一阶段去噪向量,得到第二阶段去噪向量,以第二阶段去噪向量作为本次去噪处理的去噪向量;利用最终的第二阶段去噪向量生成与待处理文本对应的结果图像。通过两阶段去噪,加强了每次去噪过程中对待处理文本中包含的细节信息的把控,由此生成的结果图像可以对待处理文本中包含的细节信息进行精准刻画,从而提高了文本图像模态转换的准确性。

Patent Agency Ranking