-
公开(公告)号:CN117786054A
公开(公告)日:2024-03-29
申请号:CN202311267037.6
申请日:2023-09-27
Applicant: 中国传媒大学 , 中国科学院信息工程研究所
IPC: G06F16/332 , G06F16/33 , G06F16/383 , G06F16/583 , G06F16/58 , G06N3/0455 , G06N3/042 , G06N5/04
Abstract: 本发明提供一种基于提示学习的生成式文本视觉问答方法及系统,其中的方法包括:对以文本为中心的多模态采样数据进行预处理,以提取所述多模态采样数据中每种模态的特征作为训练数据;利用所述训练数据训练基于提示学习的生成式文本视觉问答模型,其中包括:利用Transformer编码器对所述每种模态的特征进行跨模态交互,以生成所述多模态采样数据的特征向量;利用Transformer解码器将文本视觉问答建模为完形填空任务,通过所述完形填空任务对所述特征向量进行文本视觉问答处理,以文本序列的形式生成答案;模型处理文本视觉问答任务。利用本发明,能够极大地激发预训练语言模型的潜能,同时避免它可能带来的语言偏见。
-
公开(公告)号:CN114220086B
公开(公告)日:2025-03-28
申请号:CN202111295077.2
申请日:2021-11-03
Applicant: 中国科学院信息工程研究所 , 中国传媒大学
IPC: G06V20/62 , G06V10/774 , G06V10/82 , G06N3/0464 , G06N3/084 , G06N3/094 , G06N3/088
Abstract: 本发明公开一种成本高效的场景文字检测方法及系统,属于图像字体识别领域,本发明首先在预训练阶段提出一种无监督域适应方法,通过消除虚拟数据和真实数据的域差异,使虚拟数据在特征上更接近真实数据,从而获得一个较好的迁移学习初始模型;其次在微调阶段提出一个半监督主动学习方法,根据真实数据的标注信息量自适应选择数据进行标注,然后同时利用有标注和无标注的真实数据进行训练,在较小标注成本的条件下尽可能提升场景文字检测性能。
-
公开(公告)号:CN115879462A
公开(公告)日:2023-03-31
申请号:CN202211233226.7
申请日:2022-10-10
Applicant: 中国传媒大学 , 中国科学院信息工程研究所
IPC: G06F40/289 , G06F40/284 , G06V30/40 , G06V30/19 , G06N3/044 , G06N3/08
Abstract: 本发明提供一种无需细粒度检测的场景文本提取方法,首先将所获取的文本图像输入至预训练的文本块检测器中以使文本块检测器对文本图像进行检测剪裁形成文本块图像;再通过预训练的文本块识别器基于文本块特征图获取所述文本块图像的语义特征向量和位置特征向量,基于语义特征向量和所述位置特征向量进行特征融合和拼接以获取预测特征,并获取与预测特征相对应的预测文本,通过这种粗粒度检测与多实例识别相结合的框架减轻检测负担,同时利用丰富的上下文信息进行识别,能够通过启发式文本块生成方法依据真实数据集生成的文本块级数据集训练文本块检测器,无需细粒度检测即可实现高精度文本提取。
-
公开(公告)号:CN114220086A
公开(公告)日:2022-03-22
申请号:CN202111295077.2
申请日:2021-11-03
Applicant: 中国科学院信息工程研究所 , 中国传媒大学
Abstract: 本发明公开一种成本高效的场景文字检测方法及系统,属于图像字体识别领域,本发明首先在预训练阶段提出一种无监督域适应方法,通过消除虚拟数据和真实数据的域差异,使虚拟数据在特征上更接近真实数据,从而获得一个较好的迁移学习初始模型;其次在微调阶段提出一个半监督主动学习方法,根据真实数据的标注信息量自适应选择数据进行标注,然后同时利用有标注和无标注的真实数据进行训练,在较小标注成本的条件下尽可能提升场景文字检测性能。
-
公开(公告)号:CN113849623A
公开(公告)日:2021-12-28
申请号:CN202111186856.9
申请日:2021-10-12
Applicant: 中国传媒大学 , 中国科学院信息工程研究所
IPC: G06F16/332 , G06F16/33 , G06F16/35 , G06F40/126 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 提供一种文本视觉问答方法和装置,该方法包括:通过文本视觉问答模型中的文字表征获取模块从图像获得视觉增强的文字表征,文字表征获取模块包括OCR模块和TVS模块;通过文本视觉问答模型中的物体表征获取模块从图像获得语义导向的物体表征;通过文本视觉问答模型中的预训练的语言模型从与图像对应的问题语句获得问题表征;通过文本视觉问答模型中的第一多模态交互网络模块从视觉增强的文字表征、语义导向的物体表征、问题表征以及先前解码向量获得与视觉增强的文字表征对应的文字表征增强特征和与先前解码向量对应的当前预测解码向量;通过文本视觉问答模型中的答案预测模块从文字表征增强特征和当前预测解码向量获得与问题语句对应的预测答案。
-
公开(公告)号:CN113849623B
公开(公告)日:2024-04-09
申请号:CN202111186856.9
申请日:2021-10-12
Applicant: 中国传媒大学 , 中国科学院信息工程研究所
IPC: G06F16/332 , G06F16/33 , G06F16/35 , G06F40/126 , G06F40/30 , G06N3/0442 , G06N3/0464 , G06N3/08
Abstract: 提供一种文本视觉问答方法和装置,该方法包括:通过文本视觉问答模型中的文字表征获取模块从图像获得视觉增强的文字表征,文字表征获取模块包括OCR模块和TVS模块;通过文本视觉问答模型中的物体表征获取模块从图像获得语义导向的物体表征;通过文本视觉问答模型中的预训练的语言模型从与图像对应的问题语句获得问题表征;通过文本视觉问答模型中的第一多模态交互网络模块从视觉增强的文字表征、语义导向的物体表征、问题表征以及先前解码向量获得与视觉增强的文字表征对应的文字表征增强特征和与先前解码向量对应的当前预测解码向量;通过文本视觉问答模型中的答案预测模块从文字表征增强特征和当前预测解码向量获得与问题语句对应的预测答案。
-
公开(公告)号:CN119052532A
公开(公告)日:2024-11-29
申请号:CN202411093093.7
申请日:2024-08-09
Applicant: 中国传媒大学
IPC: H04N21/2343 , H04N21/25 , H04N21/466 , H04N21/4402
Abstract: 本发明公开了基于元学习的短视频码率自适应系统,涉及流媒体技术领域,包括以下步骤:S1、离线训练,建立模型表示用户特征和网络预测信息;S2、在线学习,根据当前用户环境的特征,对模型参数进行调整和优化。本发明采用上述的基于元学习的短视频码率自适应系统,成功实现了基于元学习的新型SABR框架,该框架能够快速适应不同用户需求,提高系统的实用性与计算速度,使其具有工业应用;成功结合了离线训练与在线学习技术,增强了模型的泛化性和稳定性;在预训练中引入动作掩蔽的思想,增强决策的合理性和可靠性,有效降低了元学习所需的数据量,提升了学习效率和准确性,显著减少了工业环境中的数据需求和训练时间。
-
公开(公告)号:CN117857795B
公开(公告)日:2024-05-31
申请号:CN202410251403.7
申请日:2024-03-06
Applicant: 中国传媒大学
IPC: H04N19/124 , H04N19/132 , H04N19/14 , H04N19/149 , H04N19/154 , H04N19/42 , H04N19/88 , H04N19/91 , G06T9/00 , G06N3/0442 , G06N3/0499 , G06N3/08
Abstract: 本发明提供一种生成‑熵估计联合的极限图像压缩、解压缩方法及系统,通过将原图像转换为初始量化索引矩阵表示,同时提取原图像的边缘信息,生成掩码并将其施加于初始量化索引矩阵,得到掩蔽后的量化索引矩阵;然后使用多阶段Transformer生成模型进行自回归计算,对掩蔽后的量化索引矩阵进行先验分布建模,将保留的索引压缩至比特流,并使用额外的熵编码器将物体边缘信息压缩至比特流;相应的,在解码端依次通过解码物体边缘信息、生成掩码以恢复掩蔽元素的位置信息,使用多阶段Transformer生成模型计算先验分布、解码保留的索引取值预测对丢弃的索引,以重构处理以获取重建图像。利用本发明能够有效提高编解码器在极低传输带宽下的可用性。
-
公开(公告)号:CN101882972A
公开(公告)日:2010-11-10
申请号:CN201010191845.5
申请日:2010-06-04
Applicant: 中国传媒大学
Abstract: 本发明公开了一种Raptor码的解码方法。由于现有的Raptor解码技术为了保证一次性解码成功的高概率,接收的符号数较多,而且一旦解码不成功就必须重启整个解码过程。本发明提出的方法,能够从可能解码成功的最少符号开始解码,如解码不成功,只需继续接收1个新符号,利用解码失败的结果继续解码,直至解码成功。本发明解决了现有技术解码算法中高斯消元对矩阵线性关系的破坏这一问题。改进方法简单,开销小,增强了解码实时性,使其实用性大大加强。
-
公开(公告)号:CN116453024A
公开(公告)日:2023-07-18
申请号:CN202310445856.9
申请日:2023-04-23
Applicant: 中国传媒大学
IPC: G06V20/40 , G06V10/80 , G06V10/82 , G06N3/0464
Abstract: 本发明提供一种视频情绪识别系统、方法,首先对预输入的原始长视频进行预处理以形成目标视频的短时视频片段;再对目标视频的短时视频片段进行特征提取以分别获取频谱融合特征数据、视觉模态信息数据和文本特征数据,根据频谱融合特征数据、视觉模态信息数据和文本特征数据获取情绪权重,并获取与情绪权重相对应的视频情绪预测值,用户可以在平台前端上传待分析的视频,而这些模态数据将在后端进行计算,获得的情绪分数和最终预测将打印在前端的界面上,实现端到端一致性视频情绪识别,本发明能够有效提高声觉贡献效果,简化视觉提取结构,提高一致性,提升多模态视频情感分析的产业应用价值。
-
-
-
-
-
-
-
-
-