-
公开(公告)号:CN117956247A
公开(公告)日:2024-04-30
申请号:CN202311823680.2
申请日:2023-12-27
Applicant: 北京信息科技大学
IPC: H04N21/854 , H04N21/233 , H04N21/439 , G10L15/04 , G10L15/26 , G10L25/90
Abstract: 本发明提供一种音乐驱动的视频自动生成方法、系统、设备及介质,所述方法包括以下步骤:获取音频数据;基于所述音频数据生成音频的客观特征描述;基于音频的客观特征描述通过大模型生成音频的主观特征描述;基于所述音频的客观特征描述和音频的主观特征描述通过大模型生成场景描述文字;将场景描述文字输入到从文本到视频生成工具,生成与音频数据匹配的视频。本发明只需使用音乐中的音频信息,不需要歌词,不需要收集大量音乐和视频数据训练模型,就能生成与音频相关的视频。
-
公开(公告)号:CN119205956B
公开(公告)日:2025-04-15
申请号:CN202411263634.6
申请日:2024-09-10
Applicant: 北京信息科技大学
IPC: G06T11/00 , G06V10/26 , G06V10/764 , G06V10/774 , G06T7/155 , G06V10/56
Abstract: 本发明公开了一种蕴含分割掩模的图像生成方法,包括:获取无标注训练图像;利用图像编辑算法,获取所述无标注训练图像中的目标类别信息;基于所述目标类别信息和图像编辑算法,获取所述训练图像的分割掩模;基于所述分割掩模调整训练图像的亮度,获取蕴含分割掩模的训练图像;利用蕴含分割掩模的训练图像训练文生图模型;基于所述文生图模型,输入任意要生成的目标类别名称,生成包含该目标类别且蕴含分割掩模的图像。本发明在生成图像的同时,还能自动得到图像的分割掩模;不仅能针对训练图像上出现过的类别生成图像,还能针对训练图像上没有出现过的类别生成图像,即具有面向开放词汇类别的文生图能力。
-
公开(公告)号:CN119205956A
公开(公告)日:2024-12-27
申请号:CN202411263634.6
申请日:2024-09-10
Applicant: 北京信息科技大学
IPC: G06T11/00 , G06V10/26 , G06V10/764 , G06V10/774 , G06T7/155 , G06V10/56
Abstract: 本发明公开了一种蕴含分割掩模的图像生成方法,包括:获取无标注训练图像;利用图像编辑算法,获取所述无标注训练图像中的目标类别信息;基于所述目标类别信息和图像编辑算法,获取所述训练图像的分割掩模;基于所述分割掩模调整训练图像的亮度,获取蕴含分割掩模的训练图像;利用蕴含分割掩模的训练图像训练文生图模型;基于所述文生图模型,输入任意要生成的目标类别名称,生成包含该目标类别且蕴含分割掩模的图像。本发明在生成图像的同时,还能自动得到图像的分割掩模;不仅能针对训练图像上出现过的类别生成图像,还能针对训练图像上没有出现过的类别生成图像,即具有面向开放词汇类别的文生图能力。
-
公开(公告)号:CN117409250A
公开(公告)日:2024-01-16
申请号:CN202311412809.0
申请日:2023-10-27
Applicant: 北京信息科技大学
IPC: G06V10/764 , G06V10/774 , G06V10/26 , G06V10/766 , G06V10/82 , G06N3/0895
Abstract: 本发明属于目标检测技术领域,具体公开了一种小样本目标检测方法、装置及介质,本发明能够在只有少量标注的小样本类数据Dnovel的情况下,实现更高的检测性能,可以充分利用现有其他大量标注的公开数据集。具体而言,首先使用具有大量标注的基类数据Dbase来预训练模型,然后在少量标注的小样本类数据Dnovel上优化,实现模型的知识迁移,并具备检测小样本类目标的能力。
-
公开(公告)号:CN116385466B
公开(公告)日:2024-06-21
申请号:CN202310494738.7
申请日:2023-05-05
Applicant: 北京信息科技大学
Inventor: 黄小明
Abstract: 本发明公开了一种基于边界框弱标注的图像中目标分割方法及系统,涉及图像分割技术领域,包括:获取图像数据集,对所述图像数据集进行边界框标注;基于所述边界框标注生成带置信度的像素级伪标注并以此训练目标分割模型;基于交叉验证迭代优化像素级伪标注并以此训练目标分割模型;输出最优模型。本发明与像素级人工标注方法比较,不需要费时费力的像素级标注,仅仅使用简单的边界框标注,节省了人力物力;通过输出图和边界框两个任务的同时学习,全局和局部两个尺度图的融合,提高模型的分割性能;通过交叉验证的伪标注噪声检测方法,检测出伪标注中错误标注,减少对模型训练的影响,提高图像中目标分割精度。
-
公开(公告)号:CN117409250B
公开(公告)日:2024-04-30
申请号:CN202311412809.0
申请日:2023-10-27
Applicant: 北京信息科技大学
IPC: G06V10/764 , G06V10/774 , G06V10/26 , G06V10/766 , G06V10/82 , G06N3/0895
Abstract: 本发明属于目标检测技术领域,具体公开了一种小样本目标检测方法、装置及介质,本发明能够在只有少量标注的小样本类数据Dnovel的情况下,实现更高的检测性能,可以充分利用现有其他大量标注的公开数据集。具体而言,首先使用具有大量标注的基类数据Dbase来预训练模型,然后在少量标注的小样本类数据Dnovel上优化,实现模型的知识迁移,并具备检测小样本类目标的能力。
-
公开(公告)号:CN116189058B
公开(公告)日:2023-10-03
申请号:CN202310197056.X
申请日:2023-03-03
Applicant: 北京信息科技大学
Inventor: 黄小明
IPC: G06V20/40 , G06V10/25 , G06V10/774 , G06V10/82
Abstract: 本发明公开了一种基于无监督深度学习的视频显著性目标检测方法及系统,涉及目标检测技术领域,包括:基于运动完整性和运动可靠性,选择视频帧的最有效运动,生成视频帧的伪标注;基于视频帧的伪标注得分和视频的伪标注得分,挑选高质量的视频帧的伪标注;采用训练数据增强的策略对静止或运动不完整的目标进行处理,获得增强后的数据,构建训练数据集;将训练数据集作为深度神经网络模型的输入进行模型训练,直至损失函数收敛,获取视频显著性目标检测模型并利用该模型获得视频中的显著性目标。本发明无需大量人工标注好的数据,又能发挥神经网络强大的特征学习能力,训练出来的模型能检测明显运动的目标,也能检测静止或运动不明显的目标。
-
公开(公告)号:CN116385466A
公开(公告)日:2023-07-04
申请号:CN202310494738.7
申请日:2023-05-05
Applicant: 北京信息科技大学
Inventor: 黄小明
Abstract: 本发明公开了一种基于边界框弱标注的图像中目标分割方法及系统,涉及图像分割技术领域,包括:获取图像数据集,对所述图像数据集进行边界框标注;基于所述边界框标注生成带置信度的像素级伪标注并以此训练目标分割模型;基于交叉验证迭代优化像素级伪标注并以此训练目标分割模型;输出最优模型。本发明与像素级人工标注方法比较,不需要费时费力的像素级标注,仅仅使用简单的边界框标注,节省了人力物力;通过输出图和边界框两个任务的同时学习,全局和局部两个尺度图的融合,提高模型的分割性能;通过交叉验证的伪标注噪声检测方法,检测出伪标注中错误标注,减少对模型训练的影响,提高图像中目标分割精度。
-
公开(公告)号:CN117956247B
公开(公告)日:2024-08-27
申请号:CN202311823680.2
申请日:2023-12-27
Applicant: 北京信息科技大学
IPC: H04N21/854 , H04N21/233 , H04N21/439 , G10L15/04 , G10L15/26 , G10L25/90
Abstract: 本发明提供一种音乐驱动的视频自动生成方法、系统、设备及介质,所述方法包括以下步骤:获取音频数据;基于所述音频数据生成音频的客观特征描述;基于音频的客观特征描述通过大模型生成音频的主观特征描述;基于所述音频的客观特征描述和音频的主观特征描述通过大模型生成场景描述文字;将场景描述文字输入到从文本到视频生成工具,生成与音频数据匹配的视频。本发明只需使用音乐中的音频信息,不需要歌词,不需要收集大量音乐和视频数据训练模型,就能生成与音频相关的视频。
-
公开(公告)号:CN116189058A
公开(公告)日:2023-05-30
申请号:CN202310197056.X
申请日:2023-03-03
Applicant: 北京信息科技大学
Inventor: 黄小明
IPC: G06V20/40 , G06V10/25 , G06V10/774 , G06V10/82
Abstract: 本发明公开了一种基于无监督深度学习的视频显著性目标检测方法及系统,涉及目标检测技术领域,包括:基于运动完整性和运动可靠性,选择视频帧的最有效运动,生成视频帧的伪标注;基于视频帧的伪标注得分和视频的伪标注得分,挑选高质量的视频帧的伪标注;采用训练数据增强的策略对静止或运动不完整的目标进行处理,获得增强后的数据,构建训练数据集;将训练数据集作为深度神经网络模型的输入进行模型训练,直至损失函数收敛,获取视频显著性目标检测模型并利用该模型获得视频中的显著性目标。本发明无需大量人工标注好的数据,又能发挥神经网络强大的特征学习能力,训练出来的模型能检测明显运动的目标,也能检测静止或运动不明显的目标。
-
-
-
-
-
-
-
-
-