一种多模态大模型训练策略确定方法、电子设备及介质

    公开(公告)号:CN117407754A

    公开(公告)日:2024-01-16

    申请号:CN202311415357.1

    申请日:2023-10-27

    Abstract: 本发明提供了一种多模态大模型训练策略确定方法、电子设备及介质,涉及多模态大模型训练策略确定领域,所述方法包括:获取初始多模态大模型对应的状态列表A;使用预设的一阶段训练策略,对初始多模态大模型进行训练,以得到第一中间多模态大模型列表B;使用预设的两阶段训练策略,分别对处于A中每一状态的初始多模态大模型进行训练,以得到第二中间多模态大模型列表C;获取B对应的第一性能参数列表α=(α1,α2,α3)以及C对应的第二性能参数列表β=(β1,β2,β3);若α1<β1、α2<β2且α3<β3,则将预设的两阶段训练策略确定为初始多模态大模型对应的目标训练策略;本发明能够达到确定出最佳的模型训练策略的目的。

    面向大语言模型的词向量生成方法、电子设备及存储介质

    公开(公告)号:CN117113990A

    公开(公告)日:2023-11-24

    申请号:CN202311374453.6

    申请日:2023-10-23

    Abstract: 本发明涉及计算机技术应用领域,提供了一种面向大语言模型的词向量生成方法、电子设备及存储介质,包括:获取待分词的文本,作为目标文本;对目标文本进行分词处理,得到对应的分词集S;基于预设词向量基准表T,获取每个词在每个嵌入矩阵的特征向量;基于预设滑动窗口长度d,将S划分为多个语句片段,得到对应的语句片段集SP;对每个语句片段的特征向量进行融合,得到对应的特征向量;得到SP对应的特征向量F作为目标文本的特征向量。本发明在词向量生成过程中,将多个相邻的词组合视为一个词,能够使得分词的长度得到极大的压缩。此外,将不同词的特征向量通过张量积的方式组合成一个词的特征向量,可以极大的降低可训练参数量。

    数据处理方法、装置、设备及计算机可读存储介质

    公开(公告)号:CN117056408A

    公开(公告)日:2023-11-14

    申请号:CN202311110409.4

    申请日:2023-08-30

    Abstract: 本公开涉及一种数据处理方法、装置、设备及计算机可读存储介质,该方法包括:获取序列化的二进制数据,将所述数据解码为标准化格式的数据对象;对所述标准化格式数据进行数据处理,得到处理结果;将所述处理结果序列化编码后存储到内存,进而写入磁盘中。本公开通过将数据解码为标准化格式数据,通过解码为标准化格式数据,提高使用便捷度;对标准化格式数据进行数据处理,得到处理结果,并将结果通过网络传输,降低了传输的数据大小,节省了带宽;将处理结果编码后存储到内存中,降低了对内存空间的占用;写入磁盘,提高了磁盘利用率,节省了磁盘的使用。

    基于语音驱动和人脸自驱动的虚拟人视频合成方法

    公开(公告)号:CN116528019A

    公开(公告)日:2023-08-01

    申请号:CN202310724745.1

    申请日:2023-06-19

    Abstract: 本发明提供了一种基于语音驱动和人脸自驱动的虚拟人视频合成方法,包括:对原始虚拟人视频素材进行预处理,得到首帧人脸图像为基准人脸图像的第一视频素材;利用设定口型驱动模型驱动所述第一视频素材,得到第二视频素材;将第一视频素材中的首帧人脸图像作为被驱动人脸图像,将第二视频素材中的人脸图像作为口型驱动图像序列,通过设定人脸驱动算法得到第三视频素材;利用第三视频素材中的人脸图像替换原始虚拟人视频素材中对应的人脸图像,得到第四视频素材;将第四视频素材和目标音频文件进行合成,得到虚拟人内容播报视频。本发明能够高清化虚拟人的唇形、牙齿细节,发音和唇形吻合度高,可以对新的人物形象不加训练而快速迁移。

    一种视觉驱动的虚拟角色处理系统

    公开(公告)号:CN116452787A

    公开(公告)日:2023-07-18

    申请号:CN202310696721.X

    申请日:2023-06-13

    Abstract: 本发明提供了一种视觉驱动的虚拟角色处理系统,该系统包括非虚拟角色图像组列表A={A1,A2,……,Ai,……,Am}、虚拟角色图像组B、处理器和存储有计算机程序的存储器,i=1,2,……,m,m为非虚拟角色图像组数量,Ai为第i帧非虚拟角色图像组,还包括根据A获得的非虚拟姿态图像组C={C1,C2,……,Ci,……,Cm}和非虚拟面部图像组D={D1,D2,……,Di,……,Dm},以及根据虚拟角色图像组B获得的虚拟角色的姿态图像Bb和虚拟角色的表情图像Bm,当所述计算机程序被处理器执行时,将Ci与Bb对齐,将Di与Bm对齐,提高了虚拟角色与非虚拟角色的吻合度。

    基于细粒度感知的文本视频跨模态检索方法和装置

    公开(公告)号:CN116166843A

    公开(公告)日:2023-05-26

    申请号:CN202310200445.3

    申请日:2023-03-02

    Abstract: 本公开涉及一种基于细粒度感知的文本视频跨模态检索方法和装置。所述方法包括:通过文本特征编码模型,对待匹配文本进行特征提取,获得所述待匹配文本的多个词语的文本特征向量集;通过视频特征编码模型,对待匹配视频进行特征提取,获得多个目标对象的目标特征向量集;通过跨模态匹配模型,确定目标特征向量集和文本特征向量集之间的相关性得分。根据本公开的实施例的基于细粒度感知的文本视频跨模态检索方法,可在检索任务中引入更细粒度的语义特征,并在模型训练中针对更细粒度的语义特征的识别和对比能力加以训练,使得模型能够对更细粒度的语义特征进行检索,可提升跨模态检索的准确性。

    一种基于知识图谱的智能推荐方法

    公开(公告)号:CN114265982B

    公开(公告)日:2022-08-26

    申请号:CN202111583634.0

    申请日:2021-12-22

    Abstract: 本发明涉及一种基于知识图谱的智能推荐方法,包括:A1、针对指定领域内待推荐信息的目标用户,获取目标用户的类型;A2、若目标用户的类型为活跃用户,则根据目标用户在第一预设时间段内的交互行为数据,基于知识图谱推荐内容方式和基于用户协同过滤推荐方式获取个性化的推荐结果;其中,知识图谱是预先构建的存储有指定领域内知识和实体之间关系的结构化的图谱信息;个性化的推荐结果包括:目标用户的最近邻用户对应的信息项和与目标用户的偏好实体匹配的信息项,本发明的方法可以有效解决现有推荐方法中存在的数据稀疏且关联性弱的问题,同时实现了快速精准推送文本信息,并做到千人千面的个性化推送。

Patent Agency Ranking