-
公开(公告)号:CN116485713A
公开(公告)日:2023-07-25
申请号:CN202310186536.6
申请日:2023-03-01
Applicant: 北京邮电大学
IPC: G06T7/00 , G06T3/40 , G06N3/0464 , G06N3/08
Abstract: 本申请公开了一种针对图像的计数方法、装置、电子设备及介质。具体可以获取第一待处理图像,并将第一待处理图像输入到预先训练完毕的包括计数网络模型的图像检测网络模型中;利用图像检测网络模型,将第一待处理图像的图像特征进行还原,得到第二待处理图像;利用计数网络模型,对第二待处理图像中的目标对象进行计数统计,得到计数结果。通过应用本申请的技术方案,可以由图像检测网络模型将接收到的低分辨率的待处理图像进行特征重构建以达到提高其图像精度的目的,进而在对提高图像精度后的图像进行计数统计。进而避免出现相关技术中存在的,在低分辨率图像场景下计数性能不佳的问题。
-
公开(公告)号:CN116363421A
公开(公告)日:2023-06-30
申请号:CN202310269093.7
申请日:2023-03-15
Applicant: 北京邮电大学
IPC: G06V10/764 , G06V10/30 , G06V10/40 , G06V10/774 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本申请公开了一种图像的特征分类方法、装置、电子设备及介质。通过应用本申请的技术方案,可以预先利用噪音添加以及噪音去除的方式来衡量不同域图像之间的域间差异值,并以该域间差异值对特征提取器进行域泛化训练从而得到一个具有更强鲁棒性的特征提取器的图像分类模型。进而避免出现相关技术中存在的,传统的图像分类模型在遇到域偏移场景时存在的分类性能大幅下降的问题。
-
公开(公告)号:CN115222940B
公开(公告)日:2023-06-09
申请号:CN202210795660.8
申请日:2022-07-07
Applicant: 北京邮电大学
IPC: G06V10/26 , G06V10/82 , G06V10/764 , G06N3/0475 , G06N3/094 , G06N3/0464
Abstract: 本申请实施例公开了一种语义分割方法和系统,所述方法包括:将源域图片转化为拟真域图片;将所述源域图片及其真实标注、所述拟真域图片输入第一中间级熵对齐网络,输出拟真域预测结果;将所述源域图片及其真实标注、所述目标域图片输入第二中间级熵对齐网络,输出目标域预测结果;利用所述拟真域预测结果和源域图片的真实标注训练输出级预测修正网络;将所述目标域预测结果输入所述输出级预测修正网络进行掩码修正,得到修正后的掩码结果。降低源域和目标域间的域隙,达到更好的域迁移目的。
-
公开(公告)号:CN115439846B
公开(公告)日:2023-04-25
申请号:CN202210952173.8
申请日:2022-08-09
Applicant: 北京邮电大学
IPC: G06V20/70 , G06V10/26 , G06V10/764 , G06V10/82 , G06V10/762 , G06V10/54 , G06V10/56
Abstract: 本申请公开了一种图像的分割方法、装置、电子设备及介质。通过应用本申请的技术方案,可以利用原始图像的类激活图像来确定其每个特征区域图像的所属类别,并将其中特定类别的特征区域图像映射到原始图像中从而得到保留有分割对象的完整边界的分割图像。进而实现一种利用超像素技术保留目标区域的边界,并同时结合采用计算目标区域原型的方法尽可能获得图像完整的伪像素级标签。从而避免了相关技术中存在的,由于类激活图存在产生的伪像素级标签目标区域不完成或边界不明显所导致的,分割后的图像不够精确的问题。
-
公开(公告)号:CN115952255A
公开(公告)日:2023-04-11
申请号:CN202211457156.3
申请日:2022-11-21
Applicant: 北京邮电大学
IPC: G06F16/33 , G06F16/35 , G06F40/289 , G06F16/683 , G06F16/783 , G06F18/22 , G06F18/241 , G06F18/2415 , G06N3/0464 , G06N3/047 , G06N3/08
Abstract: 本申请公开了一种多模态信号内容分析方法、装置、电子设备及存储介质。该多模态信号内容分析方法包括:获取音频‑视频信号对应的字幕词嵌入特征;利用预训练的字幕代理特征提取模型处理所述字幕词嵌入特征,得到字幕代理特征;基于所述字幕代理特征生成字幕。本申请实施例提供的多模态信号内容分析方法,利用预训练的字幕代理特征提取模型处理所述字幕词嵌入特征,得到字幕代理特征,基于字幕代理特征生成字幕,避免了由于字幕语义差异性对训练的影响,生成的字幕能够更好地描述音频‑视频信号的内容,克服了相关技术中没有考虑字幕差异性对音频‑视频字幕任务的影响所导致的不良影响。
-
公开(公告)号:CN112990058B
公开(公告)日:2023-04-07
申请号:CN202110337734.9
申请日:2021-03-30
Applicant: 北京邮电大学
IPC: G06V20/52 , G06V10/75 , G06V10/774
Abstract: 一种基于轨迹分析的多目标行人徘徊检测方法,涉及智慧城市建设中的城市监控视频分析领域,解决现有行人徘徊检测方法只能对单个行人目标进行分析,无法对出现监控场景中的多目标进行分析,同时存在丢失跟踪目标,以及存在连续几帧目标中心点位置不准确等问题,本发明方法包括步骤一、采用深度学习算法,对检测数据集进行训练和调参,获得行人检测模型;步骤二、实时获取监控场景的视频;步骤三、多目标跟踪;本发明基于运动轨迹方向角的变化范围来进行的徘徊检测,能保证连续多帧未检测到对应目标,仍然能确信跟踪的是相同目标;能够规避目标中心点位置不准确的微小扰动带来的轨迹分析误差,适用于任何轨迹形状;可以自定义折返次数。
-
公开(公告)号:CN115439846A
公开(公告)日:2022-12-06
申请号:CN202210952173.8
申请日:2022-08-09
Applicant: 北京邮电大学
IPC: G06V20/70 , G06V10/26 , G06V10/764 , G06V10/82 , G06V10/762 , G06V10/54 , G06V10/56
Abstract: 本申请公开了一种图像的分割方法、装置、电子设备及介质。通过应用本申请的技术方案,可以利用原始图像的类激活图像来确定其每个特征区域图像的所属类别,并将其中特定类别的特征区域图像映射到原始图像中从而得到保留有分割对象的完整边界的分割图像。进而实现一种利用超像素技术保留目标区域的边界,并同时结合采用计算目标区域原型的方法尽可能获得图像完整的伪像素级标签。从而避免了相关技术中存在的,由于类激活图存在产生的伪像素级标签目标区域不完成或边界不明显所导致的,分割后的图像不够精确的问题。
-
公开(公告)号:CN112200093B
公开(公告)日:2022-08-30
申请号:CN202011091366.6
申请日:2020-10-13
Applicant: 北京邮电大学
Abstract: 本发明涉及一种基于不确定性估计的行人再识别方法,属于行人再识别技术领域,包括步骤:获取待识别的原始图像序列,原始图像序列中的每一帧原始图像均包含同一行人;将原始图像序列输入至利用基于不确定性估计的行人再识别模型训练方法训练得到的行人再识别模型中,计算输出集合;使用不确定性估计集合对输出集合进行排序,选择不确定性估计最高的Δ个输出的标号,获得标号集合和选定输出集合;将选定输出集合中的所有输出与数据库中的样本计算距离,并分别匹配出距离最小的图像作为行人再识别的检索结果。本发明能够同时抑制输入图像中的区域噪声和随机噪声,降低噪声对于行人再识别模型性能的影响,提高模型的稳定性,提升行人再识别的准确率。
-
公开(公告)号:CN114186568A
公开(公告)日:2022-03-15
申请号:CN202111541714.X
申请日:2021-12-16
Applicant: 北京邮电大学
Abstract: 本发明公开了一种基于关系编码和层次注意力机制的图像段落描述方法,方法模型由关系编码模块和层次注意解码模块组成。关系编码模块通过两个编码器捕获编码空间关系信息和语义关系信息,其中语义关系编码时通过训练有监督的语义分类器来学习语义关系的先验知识。层次注意解码模块的层次注意力使用带有关系门和视觉门的层次注意力来动态的融合关系信息和物体区域特征,关系门用于在空间关系信息和语义关系信息之间切换,视觉门用于决定是否嵌入使用视觉信息,模型采用从粗粒度区域到细粒度的空间和语义关系的策略在段落生成过程中融合视觉信息。通过在斯坦福段落描述数据集上的大量实验表明,本发明方法在本领域的多个评价指标上显著优于现有方法。
-
公开(公告)号:CN109948721B
公开(公告)日:2021-07-09
申请号:CN201910238135.4
申请日:2019-03-27
Applicant: 北京邮电大学
Abstract: 本发明公开了一种基于视频描述的视频场景分类方法,包括:基于DCT变换以及帧滑动窗口快速提取视频关键帧,并对视频关键帧进行划分;采用3d卷积神经网络对视频不定长关键帧序列进行特征提取;通过Sent2Vec方式获取每个视频描述的嵌入表示作为视频的语义表示;基于提取的特征和语义表示得到最终模型架构三维卷积循环神经网络。本发明借助于视频描述,实现一种快速、准确的视频场景分类方法,该方法可快速准确地提取视频关键帧,相比使用视频所有的帧或者按照一定时间间隔抽样,结果更加准确快速。同时可提升视频场景分类的准确性,通过长短期记忆神经网络训练学习视频的关键帧时序关系,更符合视频这一流媒体的性质。可处理任意长度视频关键帧序列。
-
-
-
-
-
-
-
-
-