-
公开(公告)号:CN116528019B
公开(公告)日:2024-01-26
申请号:CN202310724745.1
申请日:2023-06-19
Applicant: 北京中科闻歌科技股份有限公司
Abstract: 本发明提供了一种基于语音驱动和人脸自驱动的虚拟人视频合成方法,包括:对原始虚拟人视频素材进行预处理,得到首帧人脸图像为基准人脸图像的第一视频素材;利用设定口型驱动模型驱动所述第一视频素材,得到第二视频素材;将第一视频素材中的首帧人脸图像作为被驱动人脸图像,将第二视频素材中的人脸图像作为口型驱动图像序列,通过设定人脸驱动算法得到第三视频素材;利用第三视频素材中的人脸图像替换原始虚拟人视频素材中对应的人脸图像,得到第四视频素材;将第四视频素材和目标音频文件进行合成,得到虚拟人内容播报视频。本发明能够高清化虚拟人的唇形、牙齿细节,发音和唇形吻合度高,可以对新的人物形象不加训练而快速迁移。
-
公开(公告)号:CN117390165A
公开(公告)日:2024-01-12
申请号:CN202311409539.8
申请日:2023-10-27
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F16/332 , G06F16/33 , G06F16/338 , G06F16/34
Abstract: 本申请涉及图表问答技术领域,特别是涉及一种基于多模态大模型的图表问答方法、系统、介质和设备。该方法包括:提取待处理图表中的目标文本信息,得到图表文本特征向量;提取上述待处理图表中目标图像信息,得到图表图像特征向量;将综合文本特征向量和图表图像特征向量进行对齐;根据对齐后的综合文本特征向量和图表图像特征向量生成待处理图表对应的问题对应的目标回答。本申请对于待处理图表的信息提取分为两部分进行,提供的待处理图表的信息更具针对性,更精确,则最终得到的图标问答对应的回答的准确性也越高。
-
公开(公告)号:CN116166843B
公开(公告)日:2023-11-07
申请号:CN202310200445.3
申请日:2023-03-02
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F16/783 , G06F40/289 , G06F18/22
Abstract: 本公开涉及一种基于细粒度感知的文本视频跨模态检索方法和装置。所述方法包括:通过文本特征编码模型,对待匹配文本进行特征提取,获得所述待匹配文本的多个词语的文本特征向量集;通过视频特征编码模型,对待匹配视频进行特征提取,获得多个目标对象的目标特征向量集;通过跨模态匹配模型,确定目标特征向量集和文本特征向量集之间的相关性得分。根据本公开的实施例的基于细粒度感知的文本视频跨模态检索方法,可在检索任务中引入更细粒度的语义特征,并在模型训练中针对更细粒度的语义特征的识别和对比能力加以训练,使得模型能够对更细粒度的语义特征进行检索,可提升跨模态检索的准确性。
-
公开(公告)号:CN116955087A
公开(公告)日:2023-10-27
申请号:CN202310981093.X
申请日:2023-08-04
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F11/30
Abstract: 本公开涉及一种数据分片调整方法、装置、设备及可读存储介质,通过对分布式集群进行监控,得到所述分布式集群的监控数据,基于所述监控数据判断分布式集群当前是否满足预设的分片调整条件,若所述分布式集群当前满足预设的分片调整条件,则对所述数据分片在分布式集群的各个节点上的分布进行调整。由于基于监控数据进行判断,当判断出所述分布式集群当前满足预设的分片调整条件时,对所述数据分片在分布式集群的各个节点上的分布进行调整,可以避免资源倾斜问题,充分发挥分布式集群的优势,从而会提高检索性能、提高系统的稳定性。并且,可以减少人工干预和手动操作,实现自动化管理,降低管理成本和工作量。
-
公开(公告)号:CN116452787B
公开(公告)日:2023-10-10
申请号:CN202310696721.X
申请日:2023-06-13
Applicant: 北京中科闻歌科技股份有限公司
Abstract: 本发明提供了一种视觉驱动的虚拟角色处理系统,该系统包括非虚拟角色图像组列表A={A1,A2,……,Ai,……,Am}、虚拟角色图像组B、处理器和存储有计算机程序的存储器,i=1,2,……,m,m为非虚拟角色图像组数量,Ai为第i帧非虚拟角色图像组,还包括根据A获得的非虚拟姿态图像组C={C1,C2,……,Ci,……,Cm}和非虚拟面部图像组D={D1,D2,……,Di,……,Dm},以及根据虚拟角色图像组B获得的虚拟角色的姿态图像Bb和虚拟角色的表情图像Bm,当所述计算机程序被处理器执行时,将Ci与Bb对齐,将Di与Bm对齐,提高了虚拟角色与非虚拟角色的吻合度。
-
公开(公告)号:CN116823597A
公开(公告)日:2023-09-29
申请号:CN202310964424.9
申请日:2023-08-02
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06T3/00 , G06N3/0475 , G06N3/094
Abstract: 本发明涉及图像处理领域,尤其涉及一种图像生成系统,包括:目标图像A和A对应的目标语义特征向量B,所述系统实现以下步骤:将A作为待加噪图像A0,初始化加噪次数t=0,通过噪声预测模型对A0和B进行噪声预测,得到噪声预测结果Ct,对A0和Ct进行加权相加,得到加噪图像Dt,以Dt作为A0,迭代得到目标加噪图像E,将E和B输入图像生成模型中进行图像生成,得到生成图像Es,以Es作为E,迭代得到目标生成图像,通过编码噪声的形式提取A中的随机信息、面部细节和语义信息等信息,并在A上多次叠加编码得到的噪声来得到E,进一步对E和B进行多次图像生成处理得到目标生成图像,提高了目标生成图像的准确性。
-
公开(公告)号:CN116361509A
公开(公告)日:2023-06-30
申请号:CN202310217049.1
申请日:2023-03-02
Applicant: 新华融合媒体科技发展(北京)有限公司 , 北京中科闻歌科技股份有限公司
IPC: G06F16/75 , G06F16/735 , G06F16/783
Abstract: 本申请涉及视频分类技术领域,特别是涉及一种基于多模态特征的视频分类方法。所述方法包括以下步骤:S100,抽取目标视频vid的视频时序特征Fts;将Fts进行聚合得到Fv;S200,将vid转换为wav格式的音频数据aud;抽取aud的音频时序特征Fas;将Fas进行聚合得到Fa;S300,按照预设频次对vid进行视频帧图像抽取,得到视频帧图像集合img;提取img中的字幕文本信息textocr,并结合vid的文本标题texttitle获取vid的第三特征向量Ft;S400,将Fv、Fa和Ft输入到经训练的第一神经网络模型,得到对vid的一级标签分类结果。本发明实现了对短视频内容的准确分类。
-
公开(公告)号:CN116361468A
公开(公告)日:2023-06-30
申请号:CN202310347374.X
申请日:2023-04-03
Applicant: 北京中科闻歌科技股份有限公司 , 新华融合媒体科技发展(北京)有限公司
IPC: G06F16/35
Abstract: 本发明提供了一种事件脉络生成方法、电子设备和存储介质,方法包括:首先对接收到的文本进行文本编码,然后进行文本聚类,并进行话题清洗与合并,得到所有话题,然后对每个话题,进行事件拆分,得到每个事件,并对相似事件进行合并,然后基于文本相似度进行事件脉络生成,能够更好地划分话题或事件,使得生成的话题或事件更加准确。此外,本发明不需要人工干预,可自动对多篇新闻进行数据预处理,生成话题库和事件库,并根据发布时间,输出事件的事件脉络。
-
公开(公告)号:CN116206295A
公开(公告)日:2023-06-02
申请号:CN202310196542.X
申请日:2023-03-02
Applicant: 新华融合媒体科技发展(北京)有限公司 , 北京中科闻歌科技股份有限公司
IPC: G06V20/60 , G06V10/22 , G06V10/426 , G06V10/74 , G06F16/583 , G06V10/776 , G06V10/82
Abstract: 本申请涉及计算机视觉技术领域,特别是涉及一种LOGO识别系统。该系统包括存储器,所述存储器存储有LOGO数据库,所述LOGO数据库由至少两个LOGO子数据库组成,不同LOGO子数据库对应的LOGO宽高比例范围不同;每个LOGO子数据库存储有对应LOGO的特征向量,每个LOGO子数据库中LOGO对应的特征向量的存储位置标号与对应的LOGO面积占比正相关或负相关;所述系统还包括处理器和存储有计算机程序的存储介质,当所述计算机程序被处理器执行时,实现对应的LOGO识别方法。本发明能够快速识别出图像和视频数据中的LOGO。
-
公开(公告)号:CN115982395A
公开(公告)日:2023-04-18
申请号:CN202310267414.X
申请日:2023-03-20
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F16/45 , G06F18/2415 , G06F18/25 , G06F18/2135
Abstract: 本发明涉及多模态情感预测领域,特别是涉及一种基于量子的媒体信息的情感预测方法、介质及设备。包括如下步骤:对每一模态的表示信息进行预处理,生成每一模态的表示信息对应的复数词向量集A1及A2,对A1及A2进行特征转换处理,生成对应的特征密度矩阵集ρt及ρv;对ρt及ρv进行特征融合处理,生成融合特征fp;根据fp与多个预设情感类型的投影算子,生成fp为每一种预设情感类型的概率值。将P(e1),P(e2),…,P(ew)中最大值对应的情感类型,作为目标媒体信息的情感类型。通过利用量子理论的模型,可以更加有效的捕获不同模态之间的信息交互,进而可以提高对媒体信息所表达情绪的预测结果的精度。
-
-
-
-
-
-
-
-
-