一种多模态大型语言模型训练方法、电子设备及存储介质

    公开(公告)号:CN117409431B

    公开(公告)日:2024-04-26

    申请号:CN202311412797.1

    申请日:2023-10-27

    Abstract: 本发明提供了多模态大型语言模型训练方法、电子设备和存储介质,涉及计算机技术应用领域,包括:利用第一训练样本对图文对齐模型进行训练,得到训练后的图文对齐模型;第二训练样本对大型语言模型进行训练,第一训练样本对包含一个第一图像样本和对应的原始文本;第一图像样本仅包括自然图像;第二训练样本集包括多个第二训练样本对,每个第二训练样本对包含一个第二图像样本和对应的问答对文本,其中,第二图像样本中设置有目标检测框,第二图像样本至少包括文档、表格、图表和自然图像。本发明能够理解不同种类的图表和文档数据,且具有对图片中的区域准确定位的能力,能够解锁更加多样的多模态能力。

    一种多模态大模型训练策略确定方法、电子设备及介质

    公开(公告)号:CN117407754B

    公开(公告)日:2024-04-19

    申请号:CN202311415357.1

    申请日:2023-10-27

    Abstract: 本发明提供了一种多模态大模型训练策略确定方法、电子设备及介质,涉及多模态大模型训练策略确定领域,所述方法包括:获取初始多模态大模型对应的状态列表A;使用预设的一阶段训练策略,对初始多模态大模型进行训练,以得到第一中间多模态大模型列表B;使用预设的两阶段训练策略,分别对处于A中每一状态的初始多模态大模型进行训练,以得到第二中间多模态大模型列表C;获取B对应的第一性能参数列表α=(α1,α2,α3)以及C对应的第二性能参数列表β=(β1,β2,β3);若α1<β1、α2<β2且α3<β3,则将预设的两阶段训练策略确定为初始多模态大模型对应的目标训练策略;本发明能够达到确定出最佳的模型训练策略的目的。

    一种保护隐私的联邦查询方法、装置、设备及介质

    公开(公告)号:CN117786750A

    公开(公告)日:2024-03-29

    申请号:CN202311868316.8

    申请日:2023-12-29

    Abstract: 本公开涉及一种保护隐私的联邦查询方法、装置、设备及介质。该方法包括:接收用户终端发送的查询请求;将所述查询请求转发给目标数据库,以使目标数据库根据所述查询请求进行数据查询,得到本地查询结果;接收所述目标数据库返回的本地查询结果,并根据所述本地查询结果确定联邦查询结果;选取所述联邦查询结果对应的脱敏规则对所述联邦查询结果进行数据脱敏,得到脱敏后的联邦查询结果;将所述脱敏后的联邦查询结果发送给所述用户终端。本公开通过对联邦查询结果进行脱敏加强联邦查询的隐私保护。

    一种基于大语言模型的统一信息抽取方法、介质及设备

    公开(公告)号:CN117764062A

    公开(公告)日:2024-03-26

    申请号:CN202311671334.7

    申请日:2023-12-07

    Abstract: 本发明提供了一种基于大语言模型的统一信息抽取方法、介质及设备,涉及信息抽取技术领域,包括:获取待处理文本以及目标指令,将待处理文本和目标指令拼接后输入目标信息抽取模型,以得到目标信息抽取模型输出的信息抽取结果。目标信息抽取模型,通过以下步骤得到:获取若干原始文本集,对若干原始文本集中的每一原始文本,进行目标训练样本生成处理,以得到目标训练样本集,根据目标训练数据集对预设大语言模型进行训练,以得到目标信息抽取模型。本发明能够使得目标信息抽取模型具备抽取不同任务类型信息的能力,提高信息抽取的效率,并可以降低模型的发散性。

    一种图像去噪处理系统
    156.
    发明授权

    公开(公告)号:CN116797493B

    公开(公告)日:2024-01-26

    申请号:CN202310964411.1

    申请日:2023-08-02

    Abstract: 本发明涉及图像处理领域,尤其涉及一种图像去噪处理系统,包括:含噪人脸图像A、中间素描图像特征集合B=(B1,B2,……,Bn,……,BM)和文本特征C,所述系统实现以下步骤:对A和B1进行下采样得到第一个中间图像特征D1,对Di和Bi进行下采样得到Di+1,对DM和文本特征C进行注意力特征提取得到注意力图像特征E,对E进行上采样得到第一个中间噪声图像特征F1,对Fj和DM‑j进行上采样得到Fj+1,对FM‑1和D1进行上采样得到预测噪声图像G,根据A和G得到去噪人脸图像,将图像模态下的B、文本模态下的C与A进行信息融合,根据双模态的特征信息提高了对A的表征能力,提高了去噪结果的准确性。

    基于语音驱动和人脸自驱动的虚拟人视频合成方法

    公开(公告)号:CN116528019B

    公开(公告)日:2024-01-26

    申请号:CN202310724745.1

    申请日:2023-06-19

    Abstract: 本发明提供了一种基于语音驱动和人脸自驱动的虚拟人视频合成方法,包括:对原始虚拟人视频素材进行预处理,得到首帧人脸图像为基准人脸图像的第一视频素材;利用设定口型驱动模型驱动所述第一视频素材,得到第二视频素材;将第一视频素材中的首帧人脸图像作为被驱动人脸图像,将第二视频素材中的人脸图像作为口型驱动图像序列,通过设定人脸驱动算法得到第三视频素材;利用第三视频素材中的人脸图像替换原始虚拟人视频素材中对应的人脸图像,得到第四视频素材;将第四视频素材和目标音频文件进行合成,得到虚拟人内容播报视频。本发明能够高清化虚拟人的唇形、牙齿细节,发音和唇形吻合度高,可以对新的人物形象不加训练而快速迁移。

    基于细粒度感知的文本视频跨模态检索方法和装置

    公开(公告)号:CN116166843B

    公开(公告)日:2023-11-07

    申请号:CN202310200445.3

    申请日:2023-03-02

    Abstract: 本公开涉及一种基于细粒度感知的文本视频跨模态检索方法和装置。所述方法包括:通过文本特征编码模型,对待匹配文本进行特征提取,获得所述待匹配文本的多个词语的文本特征向量集;通过视频特征编码模型,对待匹配视频进行特征提取,获得多个目标对象的目标特征向量集;通过跨模态匹配模型,确定目标特征向量集和文本特征向量集之间的相关性得分。根据本公开的实施例的基于细粒度感知的文本视频跨模态检索方法,可在检索任务中引入更细粒度的语义特征,并在模型训练中针对更细粒度的语义特征的识别和对比能力加以训练,使得模型能够对更细粒度的语义特征进行检索,可提升跨模态检索的准确性。

    数据分片调整方法、装置、设备及可读存储介质

    公开(公告)号:CN116955087A

    公开(公告)日:2023-10-27

    申请号:CN202310981093.X

    申请日:2023-08-04

    Abstract: 本公开涉及一种数据分片调整方法、装置、设备及可读存储介质,通过对分布式集群进行监控,得到所述分布式集群的监控数据,基于所述监控数据判断分布式集群当前是否满足预设的分片调整条件,若所述分布式集群当前满足预设的分片调整条件,则对所述数据分片在分布式集群的各个节点上的分布进行调整。由于基于监控数据进行判断,当判断出所述分布式集群当前满足预设的分片调整条件时,对所述数据分片在分布式集群的各个节点上的分布进行调整,可以避免资源倾斜问题,充分发挥分布式集群的优势,从而会提高检索性能、提高系统的稳定性。并且,可以减少人工干预和手动操作,实现自动化管理,降低管理成本和工作量。

Patent Agency Ranking