-
公开(公告)号:CN119888308A
公开(公告)日:2025-04-25
申请号:CN202411848761.2
申请日:2024-12-16
Applicant: 电子科技大学(深圳)高等研究院
IPC: G06V10/764 , G06V10/80 , G06V10/774 , G06V10/42
Abstract: 本发明属于人工智能技术领域,具体涉及一种基于联合估计和尺度融合的轻量级半监督目标检测方法,通过引入密集学习知识、联合置信估计模块和混合尺度特征金字塔模块,通过像素级预测代替传统的稀疏伪框,直接使用网络输出的连续值作为伪标签,避免了复杂的后处理步骤;联合置信估计模块采用双分支结构,分别对分类和定位质量进行置信度估计,提高了伪标签的准确性;混合尺度特征金字塔模块自适应地融合不同尺度特征,增强了模型对尺度变化的鲁棒性。这一系列创新设计共同作用,显著提升了半监督目标检测的性能,为该技术的实际应用提供了有力支持。
-
公开(公告)号:CN119863500A
公开(公告)日:2025-04-22
申请号:CN202510055817.7
申请日:2025-01-14
Applicant: 电子科技大学
IPC: G06T7/55 , G06T7/70 , G06T7/11 , G06T7/136 , G06N3/045 , G06N3/0455 , G06N3/084 , G06N3/0895
Abstract: 本发明提出了一种基于空间结构感知的自监督深度估计方法。该方法对结构化区域和非结构化区域采用不同的优化策略,具体而言,我们将场景划分为结构化(或平面)区域和非结构化(或非平面)区域,并分别设计了一个时序几何结构对齐模块和一个空间几何不确定性引导模块。对于结构化区域,我们的时序结构对齐模块引入一种新颖的选择性平面对齐约束,促使网络学习精确的空间几何属性。对于非结构化区域,我们的空间几何不确定性引导模块基于结构复杂性建模深度不确定性,并利用不确定性图抑制非结构化区域中的光度损失,从而增强网络对复杂室外场景的适应能力。因此,本发明在自动驾驶场景具有很好的应用前景。
-
公开(公告)号:CN119697456A
公开(公告)日:2025-03-25
申请号:CN202411758603.8
申请日:2024-12-03
Applicant: 电子科技大学(深圳)高等研究院
IPC: H04N21/854 , G06F18/214
Abstract: 本发明公开了一种文本生成视频方法、装置及存储介质,该方法包括步骤:S11:基于输入文本提示生成目标视频帧的第一噪声潜码;S12:基于该输入文本提示和该第一噪声潜码,生成该输入文本提示中每个主体标记的交叉注意力图;S13:对该交叉注意力图进行高斯滤波,使该交叉注意力图平滑;S14:基于该交叉注意力图更新该第一噪声潜码,生成第二噪声潜码,并将该第一噪声潜码替换成该第二噪声潜码;S15:用有帧间注意力控制的扩散模型对该第二噪声潜码去噪;S16:判断采样总步数是否达到预定的步数,且所有主体标记是否达到一个设定的最小注意力阈值,如未达到,则执行步骤S12;S17:基于该第二噪声潜码输出该目标视频帧。本发明的文生视频方法保证了语义准确。
-
公开(公告)号:CN119379865A
公开(公告)日:2025-01-28
申请号:CN202411960520.7
申请日:2024-12-30
Applicant: 电子科技大学(深圳)高等研究院
Abstract: 本发明公开了一种流程图随机生成方法、系统、设备及存储介质,能够根据一组随机点构建多边形形状并对其进行随机化处理,还能引入3D元素并将其投影到2D空间,以增强视觉效果。更重要的是,该方法通过一系列步骤确保了生成的流程图中各元素不会重叠,并能自动产生与元素、连接和文字相关的像素级实例标注,从而大大提升了流程图的质量和适用性。同时,该系统还支持用户导入自定义的元素、连接样式和背景模板,允许进行个性化的调整,使得最终输出的流程图既符合用户的特殊要求,又能保证良好的视觉呈现和专业的标注信息。这种方法有效地解决了传统流程图生成过程中存在的效率低、样式单一和技术细节支持不足的问题。
-
公开(公告)号:CN118675017A
公开(公告)日:2024-09-20
申请号:CN202411144032.9
申请日:2024-08-20
Applicant: 电子科技大学(深圳)高等研究院
IPC: G06V10/774 , G06V10/10 , G06V10/764 , G06V10/82 , G06N3/0464
Abstract: 本申请公开了一种跨域小样本的识别模型的训练方法、识别方法及设备,训练方法包括:获取任意源域图像的振幅特征和任意目标域图像的振幅特征,将源域图像的振幅特征替换为目标域图像的振幅特征,获得类目标域图像;将多张源域图像、多张目标域图像和多张类目标域图像作为训练集;利用训练集对识别模型进行训练,其中在利用源域图像和类目标域图像进行训练的过程中,将源域图像的注意力矩阵和类目标域图像的注意力矩阵替换为目标域图像的注意力矩阵,以对源域图像和类目标域图像的特征矩阵进行重建。本申请能够实现目标域的信息感知,从而能够增强源域图像的表达能力,能更好丰富样本特征。
-
公开(公告)号:CN118570878A
公开(公告)日:2024-08-30
申请号:CN202411031140.5
申请日:2024-07-30
Applicant: 电子科技大学(深圳)高等研究院
Abstract: 本发明实施例公开了一种不完全多模态行人重识别方法及系统,所述方法包括:数据集构建步骤:构建三种模态配对的行人图像数据集;模型构建步骤:构建基于互学习的不完全多模态行人重识别模型;训练步骤:使用所述数据集的数据训练所述模型,得到训练好的模型;识别步骤:将任意模态组合的行人图像输入训练好的模型,提取目标行人的外观特征,并与图库中的行人特征计算相似度,按照相似度排序输出结果,完成行人重识别。本发明同时利用可见光‑近红外‑热红外中的互补信息,在复杂光照条件和恶劣天气下表现良好。此外,本发明实现了缺失模态特征的精细化补偿,提高了模态完备和模态缺失两种场景下的性能。
-
公开(公告)号:CN118425087A
公开(公告)日:2024-08-02
申请号:CN202410560968.3
申请日:2024-05-08
Applicant: 电子科技大学
IPC: G01N21/3563 , G16C20/20 , G06N3/045 , G06N3/08
Abstract: 本发明公开了一种基于深度学习的煤质成分检测方法及系统,方法包括以下步骤:通过次红外传感器获取煤炭的吸光度数据;对煤炭的吸光度数据进行预处理,得到原始特征;对原始特征进行特征多项式交叉,得到二阶交叉特征;将二阶交叉特征作为全连接网络的输入,得到第一检测特征;将原始特征作为交叉网络的输入,得到第二检测特征;将第一检测特征和第二检测特征进行合并,并通过全连接层对合并结果进行处理,得到煤质成分检测结果本发明可以实时预测入炉煤的六大成分值,帮助科学、合理地配煤掺烧,提高燃烧效率,降低碳排放。
-
公开(公告)号:CN113361467A
公开(公告)日:2021-09-07
申请号:CN202110737913.1
申请日:2021-06-30
Applicant: 电子科技大学
Abstract: 本发明提供一种基于领域适应的车牌识别方法,首先利用高斯混合模型对背景建模,通过判断前景出现的时间减少模型在背景帧上的计算资源浪费;利用迁移学习中的领域适应技术无需对数据进行全部标注,大大降低车牌数据的标注成本;提出的基于图像分割的车牌检测做到像素级别的车牌精确定位,并针对分割图提出级联矫正方法矫正车牌图像;采用领域适应技术训练出的网络模型具有很好的泛化能力,面对新的场景只需要收集对应的图像数据,无需再费力标注即可训练出在新场景下表现鲁棒的模型。
-
公开(公告)号:CN113158833A
公开(公告)日:2021-07-23
申请号:CN202110344628.3
申请日:2021-03-31
Applicant: 电子科技大学
Abstract: 本发明公开了一种基于人体姿态的无人车控制指挥方法,包括以下步骤:S1:利用摄像头采集视频,转化为图片帧并进行预处理;S2:对预处理后的图片帧进行目标检测分析,得到人体区域框;S3:对人体区域框进行姿态检测,得到人体姿态特征信息;S4:对人体姿态特征信息进行匹配,得到完整动作;S5:对完整动作进行分类,并映射至无人车控制指令,完成无人车指令自动识别。本发明基于人体姿态实现无人车指令自动识别,创新以计算机视觉的方法来实现对无人车的交互式控制,对于控制指挥中心来说是一种高效的指挥控制方式,对无人车智能化的发展有着极大的促进作用。
-
公开(公告)号:CN119888231A
公开(公告)日:2025-04-25
申请号:CN202510063426.X
申请日:2025-01-15
Applicant: 电子科技大学
IPC: G06V10/26 , G06V20/70 , G06V10/82 , G06V10/28 , G06V10/44 , G06V10/42 , G06V10/764 , G06V20/56 , G06N3/045 , G06N3/0464 , G06N3/0455 , G06N3/047 , G06N3/048 , G06N3/0495 , G06N3/08
Abstract: 本发明提供了一种基于自注意力的车道线语义分割方法,首先进行数据采集与预处理,然后基于ERFnet神经网络模型实现二值语义分割,最后根据二值语义分割图,基于改进的DeepLabV3Plus模型,进行最终的多目标语义分割,ERFnet负责初步的粗粒度分割,快速分离车道线和背景,而改进的DeepLabV3Plus则进一步细化分割结果,通过引入区域自注意力单元和通道自注意力单元,增强了模型对局部和全局特征的捕捉能力。本发明方案通过结合ERFnet和改进的DeepLabV3Plus模型,不仅提高了分割的准确性和泛化能力,而且保持了实时性,实现了车道线的实时和高精度分割,对多变的复杂路况具有较强的适应性。
-
-
-
-
-
-
-
-
-