-
公开(公告)号:CN117991635A
公开(公告)日:2024-05-07
申请号:CN202410083911.9
申请日:2024-01-19
Applicant: 北京科技大学
IPC: G05B13/04
Abstract: 本发明涉及无人水面航行器控制技术领域,特别是指一种抗干扰的欠驱动无人水面航行器控制方法及装置。抗干扰的欠驱动无人水面航行器控制方法包括:获取航行器参数;通过传感器对航行器的运动状态进行数据采集,获得运动状态信息;根据航行器参数以及运动状态信息进行模型构建,获得运动学模型以及动力学模型;根据运动学模型以及动力学模型,获得控制率;根据控制率,通过反步法进行控制器设计,获得水面欠驱动控制器;获取期望运动轨迹;根据期望运动轨迹,通过水面欠驱动航行器的控制器进行运动控制。本发明是一种面向欠驱动无人水面航行器的鲁棒性强、计算效率高的控制方法。
-
公开(公告)号:CN117346791B
公开(公告)日:2024-03-22
申请号:CN202311629099.7
申请日:2023-12-01
Applicant: 北京科技大学
IPC: G01C21/20 , G01C21/00 , A61G5/04 , A61G5/10 , G06T7/73 , G06N3/0464 , G06T7/246 , G06V10/26 , G06V10/764 , G06V10/82 , G06V20/70
Abstract: 本发明提供了一种基于视觉的智能轮椅路径规划方法及系统,利用深度学习方法完成智能轮椅对外界的感知,设置有基于深度学习的可行驶区域检测模块、障碍物目标检测模块以及深度视觉里程计模块,通过深度学习构建的外界感知模块具有更精确的结果,同时也拥有较快的运行速度及较低的硬件成本。本方案将路径规划任务拆分为全局规划与局部规划,其中全局规划每间隔多个视频帧进行一次全局代价图的计算,而局部规划则在全局规划的基础上,每视频帧实时进行路径规划并控制轮椅运动。本方案仅利用摄像头作为唯一传感器完成路径规划任务,不依赖于多种复杂传感器共同决策,大幅降低智能轮椅的传感器成本,准确度高、算法快捷,硬件消耗少。
-
公开(公告)号:CN117671762A
公开(公告)日:2024-03-08
申请号:CN202311659251.6
申请日:2023-12-06
Applicant: 北京科技大学
IPC: G06V40/16 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本发明属于模式识别及认证数据处理领域,尤其涉及一种智能轮椅人脸安全认证方法及系统,所述方法包括在系统训练阶段,包括:人脸检测训练:人脸区域候选、人脸区域优化、人脸区域确定;人脸识别训练,本发明解决现有技术存在人脸检测精确度差和人脸识别的准确率低的问题,具有人脸检测准确率好、分类效果良好、人脸识别的准确率高的技术效果。
-
-
公开(公告)号:CN116543749A
公开(公告)日:2023-08-04
申请号:CN202310814315.9
申请日:2023-07-05
Applicant: 北京科技大学
Abstract: 本发明提供一种基于堆栈记忆网络的多模态语音合成方法及系统,涉及视频和语音处理技术领域,包括:用视频信息辅助从文本中合成具有视听同步性的语音。从人脸中提取说话人特性,即利用人脸控制合成语音的音色。在训练和推理时,通过引入的视频‑语音堆栈记忆网络,显式的利用视频检索对应语音,并从检索得到的语音中提取风格特征,解决多模态TTS模块训练‑推理风格不匹配的问题并增强合成音频的表现性,定制个性化语音。本发明引入视频‑语音堆栈记忆网络显式的连接视频和语音两个模态,而非利用距离损失去最小化不同模态信息提取的特征之间的距离。
-
公开(公告)号:CN115424621B
公开(公告)日:2023-04-07
申请号:CN202211349630.0
申请日:2022-10-31
Applicant: 北京科技大学
IPC: G10L17/04 , G10L17/08 , G10L17/18 , G06N3/0464 , G06N3/09
Abstract: 本发明实施例涉及一种声纹识别模型的训练方法、声纹识别方法、装置及设备,涉及语音识别领域,通过迭代执行对所述当前语音数据子集中的语音数据进行预处理,获得语音片段;确定第一对比正对和对比负对;将每个语音片段输入到上一迭代获得的深度残差网络模型中,获得对应的说话人嵌入;针对每个说话人嵌入,从预设说话人嵌入队列中确定对应的最近邻正实例,并确定第二对比正对;根据所述第一对比正对、第二对比正对和对比负对对所述上一迭代获得的深度残差网络模型进行训练,获得当前深度残差网络模型;即本发明的实施例通过额外引入的说话人嵌入队列,选取最近邻正实例来构成额外的对比正对,使得训练出的声纹识别模型准确性更高。
-
公开(公告)号:CN111126243B
公开(公告)日:2023-04-07
申请号:CN201911320665.X
申请日:2019-12-19
Applicant: 北京科技大学 , 腾讯科技(深圳)有限公司
Abstract: 本申请公开了一种图像数据检测方法、装置以及计算机可读存储介质,该方法包括:获取检测图像,从检测图像中获取包含目标对象的情景图像;获取情景图像中的像素点对应的位置特征矩阵;位置特征矩阵中包括像素点针对目标对象的位置特征元素;根据情景图像中的目标对象的对象排版特征,生成用于调整位置特征矩阵中的位置特征元素的注意力机制矩阵;根据位置特征矩阵中的位置特征元素和注意力机制矩阵,确定像素点对应的预测区域,将像素点对应的预测区域添加至预测区域集合;在预测区域集合中,选择与目标对象在检测图像中的对象位置和对象尺寸相匹配的预测区域,作为目标区域。采用本申请,可提高针对目标对象的检测准确性。
-
-
公开(公告)号:CN115115913A
公开(公告)日:2022-09-27
申请号:CN202210624687.0
申请日:2022-06-02
Applicant: 北京科技大学 , 深圳市腾讯计算机系统有限公司
IPC: G06V10/80 , G06V10/424 , G06V10/75 , G06V10/774 , G06V10/82 , G06F16/35 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种数据处理方法、装置、电子设备及存储介质,该方法包括:获取待处理文本的文本特征以及待处理图像的图像特征;所述待处理文本为所述待处理图像对应的描述文本;基于所述文本特征确定所述图像特征中的关键图像特征;所述关键图像特征为在所述文本特征中存在对应语义信息的图像特征;基于所述文本特征和所述关键图像特征进行融合处理得到多模态特征,将所述多模态特征编码到预设语义空间,得到多模态特征编码向量;基于所述多模态特征编码向量进行序列标注处理,得到目标对象标签序列;所述目标对象标签序列用于对所述待处理文本进行结构化处理以得到目标结构化数据。本发明提高了文本结构化处理结果的准确性。
-
公开(公告)号:CN109766883B
公开(公告)日:2021-10-22
申请号:CN201811583487.5
申请日:2018-12-24
Applicant: 北京科技大学
Abstract: 本发明一种基于深度神经网络的网络视频字幕的快速提取方法。该方法具体为:将随机选取的背景图片合成含字幕的图片,进行处理得到字幕的图片的标签数据;建立字幕文本检测和文本识别模型,用合成训练数据训练字幕文本检测模型和字幕文本识别模型;将训练好的字幕文本检测模型和字幕文本识别模型组合在一起形成一个端到端的字幕提取算法,并加入多Batch的机制,加速字幕的提取速度。使得网络提取字幕的速度比没有多Batch加速机制时提高了两倍。在加入自动合成样本的数据层和多Batch加速机制后,我们的字幕提取方法的字符级识别准确率基本在0.98以上,行级识别准确率达到了平均达到了0.85,平均提取速度60ms/帧。
-
-
-
-
-
-
-
-
-