-
公开(公告)号:CN117346791A
公开(公告)日:2024-01-05
申请号:CN202311629099.7
申请日:2023-12-01
Applicant: 北京科技大学
IPC: G01C21/20 , G01C21/00 , A61G5/04 , A61G5/10 , G06T7/73 , G06N3/0464 , G06T7/246 , G06V10/26 , G06V10/764 , G06V10/82 , G06V20/70
Abstract: 本发明提供了一种基于视觉的智能轮椅路径规划方法及系统,利用深度学习方法完成智能轮椅对外界的感知,设置有基于深度学习的可行驶区域检测模块、障碍物目标检测模块以及深度视觉里程计模块,通过深度学习构建的外界感知模块具有更精确的结果,同时也拥有较快的运行速度及较低的硬件成本。本方案将路径规划任务拆分为全局规划与局部规划,其中全局规划每间隔多个视频帧进行一次全局代价图的计算,而局部规划则在全局规划的基础上,每视频帧实时进行路径规划并控制轮椅运动。本方案仅利用摄像头作为唯一传感器完成路径规划任务,不依赖于多种复杂传感器共同决策,大幅降低智能轮椅的传感器成本,准确度高、算法快捷,硬件消耗少。
-
公开(公告)号:CN116821381A
公开(公告)日:2023-09-29
申请号:CN202311104574.9
申请日:2023-08-30
Applicant: 北京科技大学
IPC: G06F16/432 , G06N3/0455 , G06N3/0464 , G06N3/08 , G06F16/435
Abstract: 本发明公开了一种基于空间线索的语音‑图像跨模态检索方法及装置,涉及计算机视觉和语音处理技术领域。包括:将语音信号输入到音频编码器,得到空间相关的声学特征;将图像信息输入到图像编码器,得到场景图像特征;对特征进行CSIR,得到跨模态检索结果。本发明通过使用深度学习和相关算法,能够对图像和语音之间的空间关联性进行分析与建模,从而实现图像和语音之间的跨模态检索。与以往的跨模态检索方法只针对语音‑图像的共同语义信息建模不同,本发明重点关注不同模态之间的空间语义一致性,通过深入研究图像和语音之间的空间属性联系,本发明可以帮助用户更高效地检索相关的图像和语音内容,提供更好的交互体验和信息管理能力。
-
公开(公告)号:CN116740790A
公开(公告)日:2023-09-12
申请号:CN202310746034.4
申请日:2023-06-21
Applicant: 北京科技大学
Abstract: 本发明公开了一种基于Transformer的人脸检测方法及装置,涉及计算机视觉技术领域。包括:获取待检测的图像数据;将图像数据输入到训练好的基于Transformer的人脸检测模型;其中,基于Transformer的人脸检测模型包括特征提取模块、多尺度特征构造模块、人脸检测模块以及人脸关键点检测模块;根据图像数据以及基于Transformer的人脸检测模型,得到图像数据的人脸检测结果。本发明使用Transformer作为骨干网络,通过双阶段目标检测结构实现基于Transformer的人脸检测。这样既能有效利用Transformer能更好地获得全局信息的特点,又能保证在使用相对较小的数据集时模型能够快速收敛。
-
公开(公告)号:CN116386590B
公开(公告)日:2023-08-15
申请号:CN202310613237.6
申请日:2023-05-29
Applicant: 北京科技大学
IPC: G10L13/02 , G10L13/08 , G10L21/0208 , G10L19/18
Abstract: 本发明公开了一种多模态的表现性语音合成方法及装置,属于语音合成技术领域,方法包括:将噪声语谱图和与噪声语谱图对应的第一无声视频序列输入至噪声掩码编码器,通过噪声掩码编码器获得去噪掩码;将第二无声视频序列输入至多尺度风格编码器,通过多尺度风格编码器提供多尺度的风格嵌入;将文本信息输入至文本编码器,通过文本编码器获得文本信息嵌入;文本信息嵌入序列经过变量适配器的处理,获得帧级别的语音特征;将帧级别的语音特征与去噪掩码相乘,获得去噪后的帧级别的语音特征;将去噪后的帧级别的语音特征与风格嵌入在通道维度上进行拼接;将拼接得到的特征序列输入至解码器,通过解码器合成干净的语谱图。
-
公开(公告)号:CN114781601B
公开(公告)日:2022-12-23
申请号:CN202210359937.2
申请日:2022-04-06
Applicant: 北京科技大学
IPC: G06T3/40
Abstract: 本公开涉及一种图像超分辨率方法及装置,其包括:获取第一图像和第一参考图像;其中,所述第一参考图像的分辨率大于所述第一图像的分辨率;针对所述第一图像的特征,在所述第一图像和所述第一参考图像中挖掘第一组相似特征,并通过聚合挖掘到的第一组相似特征对所述第一图像的特征进行纹理增强,得到所述第一图像的增强特征图;以及,对所述增强特征图依次进行上采样和卷积处理,得到所述第一图像的超分辨率图像;其中,所述超分辨率图像的分辨率等于所述第一参考图像的分辨率。
-
公开(公告)号:CN114581898A
公开(公告)日:2022-06-03
申请号:CN202210126559.3
申请日:2022-02-10
Applicant: 北京科技大学
Abstract: 本发明涉及一种多方向车牌的检测方法和装置,方法包括如下步骤:S1.对采集处理后的图片进行特征提取得到第一特征;对所述第一特征进行检测得到车牌的预测位置;S2.对车牌的预测位置进行扩张得到扩张区域;S3.以所述扩张区域作为参照,对所述第一特征进行处理得到第二特征;S4.对所述第二特征进行修正和再次检测得到多方向车牌的位置。本发明提供了从粗到精的车牌检测方法提升不同尺寸的车牌的检测性能。本发明利用无锚框机制以及粗检测方式来对图像中的车牌的特征进行提取和处理,利用位置修正模块提升车牌检测的准确率,在位置修正模块采用了基于关键点回归四个顶点的计算方法来定位多方向车牌,大量实验表明本发明方法的有效性及可拓展性。
-
公开(公告)号:CN114550237A
公开(公告)日:2022-05-27
申请号:CN202210082324.9
申请日:2022-01-24
Applicant: 北京科技大学
IPC: G06V40/16 , G06V40/40 , G06V10/44 , G06V10/764 , G06V10/82 , G06K9/62 , G06N3/04 , G06N3/08 , G06N5/04
Abstract: 本发明涉及一种人脸活体检测方法和系统,包括:步骤S1,图像预处理阶段,将数据集中的图片进行拆解处理,得到预处理的图片;步骤S2,模型建立阶段,本阶段用于建立模型,所述模型用于对预处理的图片进行处理;步骤S3,模型训练阶段,对步骤S1预处理后的图片分成不同的集合进行训练和校验,得到用于区分人脸类别的最佳阈值;步骤S4,模型推理阶段,对实时视频流中得到的图片进行预处理和模型训练后得到的分数值与步骤S3中的最佳阈值进行比较,根据比较结果来判断视频流中得到的图片是否为真实人脸。相比现有的人脸检测方法,本发明可以对视频中的图片是否存在真实人脸作出高效率的判断,而且误判率低,准确度高。
-
公开(公告)号:CN109766883A
公开(公告)日:2019-05-17
申请号:CN201811583487.5
申请日:2018-12-24
Applicant: 北京科技大学
Abstract: 本发明一种基于深度神经网络的网络视频字幕的快速提取方法。该方法具体为:将随机选取的背景图片合成含字幕的图片,进行处理得到字幕的图片的标签数据;建立字幕文本检测和文本识别模型,用合成训练数据训练字幕文本检测模型和字幕文本识别模型;将训练好的字幕文本检测模型和字幕文本识别模型组合在一起形成一个端到端的字幕提取算法,并加入多Batch的机制,加速字幕的提取速度。使得网络提取字幕的速度比没有多Batch加速机制时提高了两倍。在加入自动合成样本的数据层和多Batch加速机制后,我们的字幕提取方法的字符级识别准确率基本在0.98以上,行级识别准确率达到了平均达到了0.85,平均提取速度60ms/帧。
-
公开(公告)号:CN101869465A
公开(公告)日:2010-10-27
申请号:CN201010192024.3
申请日:2010-05-26
Applicant: 北京科技大学
Abstract: 本发明提出了一种新的白内障硬度识别方法,可以应用于智能医疗器械、白内障手术、远程医疗、白内障视频图像处理等方面。本发明提供了一种白内障硬度识别方法,通过数字显微镜获取白内障手术的实时视频图像,检测跟踪超声乳化仪探头,提取所述超声乳化仪探头前方的白内障图像,利用最近邻分类器对所述白内障图像进行自动识别,从而得到白内障硬度。该方法不仅能实现白内障硬度的自动识别、改善白内障手术效果,而且能极大降低白内障手术的难度,减少了人为误操作给患者带来的不必要损伤,促进了该手术方案的普及。
-
公开(公告)号:CN120012839A
公开(公告)日:2025-05-16
申请号:CN202411930365.4
申请日:2024-12-25
Applicant: 北京科技大学
IPC: G06N3/0475 , G06N3/094 , G06N3/045 , G06N3/0495
Abstract: 本公开涉及神经网络量化领域,更具体地,本公开涉及一种神经网络量化方法、电子设备及存储介质。方法包括:构建对抗生成网络,所述对抗生成网络包括生成器和判别器,其中所述生成器包括辅助分类生成对抗网络中的生成网络,所述判别器包括预训练神经网络和与所述预训练神经网络对应的初始化的量化神经网络;通过预设损失函数对所述对抗生成网络进行训练,并基于训练后的所述对抗生成网络,生成用于神经网络量化的训练数据;通过所述训练数据对所述预训练神经网络进行量化。
-
-
-
-
-
-
-
-
-