-
公开(公告)号:CN116952250B
公开(公告)日:2024-01-05
申请号:CN202311200121.6
申请日:2023-09-18
Applicant: 之江实验室
IPC: G01C21/20 , G06Q10/047 , G06F17/10
Abstract: 本发明公开了一种基于语义地图的机器人指路方法和装置,使用机器人对环境构建语义地图,并采集重要位置并进行语义标注作为语义点;随后构建有向连接图;以机器人当前位置作为起点,选取任意一个语义点作为目的地,获得从起点到目的地的最短路径作为规划路径;获取规划路径上每一个点相对于前一个点的方向信息并记载到列表中,并将规划路径上每一个点的语义信息记载到列表中,得到指路列表并生成指路文本;在机器人的显示屏上显示指路地图,或通过机器人的扬声器进行播放指路文本,完成指路任务。本发明能够生成多样化的指路文本,同时以多种形式对用户的问路进行回应,进一步提升了机器人的人机交互能力。
-
公开(公告)号:CN116258931B
公开(公告)日:2023-09-15
申请号:CN202211611986.7
申请日:2022-12-14
Applicant: 之江实验室
IPC: G06V10/80 , G06V10/774 , G06V10/44
Abstract: 基于ViT和滑窗注意力融合的视觉指代表达理解方法,包括:获取训练图像和对应的指代表达文本;对图像和指代表达文本进行预处理;构建基于ViT和滑窗注意力融合策略的视觉指代网络;输入训练的图像及对应的指代表达文本,对视觉指代网络进行训练;将测试图像及描述图像中感兴趣目标的指代表达文本,输入到训练好的视觉指代网络模型,获得视觉指代表达理解的结果。本发明还包括基于ViT和滑窗注意力融合的视觉指代表达理解系统。本发明基于ViT的结构使用窗口注意力进行视觉特征提取和基于滑窗策略来融合多模态特征,大大降低了模型的计算量和推理时间,同时视觉指代表达理解能够帮助机器人对人的意图进行理解,从而提高人机交互的能力。
-
公开(公告)号:CN115761569B
公开(公告)日:2023-07-04
申请号:CN202211288216.3
申请日:2022-10-20
Applicant: 之江实验室
IPC: G06V20/40 , G06V40/16 , G06V10/44 , G06V10/82 , G06N3/0464
Abstract: 一种基于情感分类的视频情感定位方法,包括:通过人脸识别模型进行视频预处理,将人脸识别的检测结果作为情感定位网络训练集;建立情感定位网络,使用卷积神经网络提取图像局部特征,建立多分支图像特征,使用视觉transformer算法获取情感类别;判断各帧之间情感类别关系,删除误检或者异常结果;将相同表情识别结果,且时序距离较近作为视频中情感定位候选片段;基于情感类别获取的情感定位片段,获取视频候选片段特征,过滤判断错误候选片段;输出模型对视频情感定位结果,具体包括情感片段首尾时间及对应情感类别。本发明能够改善定位片段预设鲁棒性不佳的缺点,保证情感分类准确性的同时提升视频情感定位速率。
-
公开(公告)号:CN115761885A
公开(公告)日:2023-03-07
申请号:CN202211433310.3
申请日:2022-11-16
Applicant: 之江实验室
IPC: G06V40/20 , G06V10/42 , G06V10/764 , G06V10/774 , G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 一种共时与跨域异步融合驱动的行为识别方法,包括:获取多人人体彩色图像作为图像序列;从截取图像中估计二维人体姿态,计算二维人体姿态的关键点热图作为姿态序列;建立表观网络,以图像序列作为输入并提取图像特征;同时,建立姿态网络,以姿态序列作为输入并提取姿态特征;以图像特征和姿态特征作为输入,将图像特征和姿态特征进行缩放、对齐和融合;将融合后的图像特征和姿态特征归一化,拼接归一化后的双流特征得到全局特征,输入到分类器中求解概率最大的行为类别;采集多人人体彩色图像序列、二维人体姿态及其对应的类别标签作为训练数据集,对表观网络、姿态网络、共时缩放单元和跨域融合单元进行预训练优化。
-
公开(公告)号:CN117573845A
公开(公告)日:2024-02-20
申请号:CN202410054169.9
申请日:2024-01-15
Applicant: 之江实验室
IPC: G06F16/332 , G06F40/30 , G06F40/289 , G06F18/213 , G06F18/25
Abstract: 本发明公开了一种面向跨领域人机协同作业的机器人自然语言理解方法。该方法包括人机协同作业领域/意图/槽位标签及关系定义、数据集构建、自然语言通用理解模型构建和参数学习、自然语言理解场景模型构建和参数学习、利用模型进行在线预测等过程。通过定义具体领域中通用槽位标签与专用槽位标签之间的对应关系,以及场景特征描述和人物特征描述,实现对用户意图的识别和对应槽位信息的识别,增强了自然语言理解模型的跨领域泛化能力。本发明所构建的机器人自然语言理解场景模型具备处理多模态输入数据的能力,且在模型参数学习过程中,增加了对模型稳定性的度量,有效提高了自然语言理解的准确率、降低了误识别率。
-
公开(公告)号:CN116884000A
公开(公告)日:2023-10-13
申请号:CN202310837433.1
申请日:2023-07-10
Applicant: 之江实验室
IPC: G06V20/70 , G06V10/74 , G06V10/764 , G06V10/25
Abstract: 本发明公开了一种基于视觉语言与关系检测的关系指代表达理解方法和装置,包括:将关系指代表达分解为参考物体、参考关系和指代物体;利用目标检测算法得到场景图像中的候选实体;利用视觉语言模型分别计算参考物体和指代物体的语言特征与候选实体的视觉特征之间的相似度,得到参考物体相似度和指代物体相似度;利用关系检测算法计算候选实体之间的在参考关系的关系类别上的参考关系概率;由参考物体相似度、指代物体相似度和参考关系概率建立邻接表;依据邻接表计算参考物体相似度、指代物体相似度和参考关系概率的综合概率,由综合概率最高值确定关系指代表达理解的实体。本发明适用于提高服务机器人在关系指代表达理解方面的人机交互能力。
-
公开(公告)号:CN116258931A
公开(公告)日:2023-06-13
申请号:CN202211611986.7
申请日:2022-12-14
Applicant: 之江实验室
IPC: G06V10/80 , G06V10/774 , G06V10/44
Abstract: 基于ViT和滑窗注意力融合的视觉指代表达理解方法,包括:获取训练图像和对应的指代表达文本;对图像和指代表达文本进行预处理;构建基于ViT和滑窗注意力融合策略的视觉指代网络;输入训练的图像及对应的指代表达文本,对视觉指代网络进行训练;将测试图像及描述图像中感兴趣目标的指代表达文本,输入到训练好的视觉指代网络模型,获得视觉指代表达理解的结果。本发明还包括基于ViT和滑窗注意力融合的视觉指代表达理解系统。本发明基于ViT的结构使用窗口注意力进行视觉特征提取和基于滑窗策略来融合多模态特征,大大降低了模型的计算量和推理时间,同时视觉指代表达理解能够帮助机器人对人的意图进行理解,从而提高人机交互的能力。
-
公开(公告)号:CN115761569A
公开(公告)日:2023-03-07
申请号:CN202211288216.3
申请日:2022-10-20
Applicant: 之江实验室
IPC: G06V20/40 , G06V40/16 , G06V10/44 , G06V10/82 , G06N3/0464
Abstract: 一种基于情感分类的视频情感定位方法,包括:通过人脸识别模型进行视频预处理,将人脸识别的检测结果作为情感定位网络训练集;建立情感定位网络,使用卷积神经网络提取图像局部特征,建立多分支图像特征,使用视觉transformer算法获取情感类别;判断各帧之间情感类别关系,删除误检或者异常结果;将相同表情识别结果,且时序距离较近作为视频中情感定位候选片段;基于情感类别获取的情感定位片段,获取视频候选片段特征,过滤判断错误候选片段;输出模型对视频情感定位结果,具体包括情感片段首尾时间及对应情感类别。本发明能够改善定位片段预设鲁棒性不佳的缺点,保证情感分类准确性的同时提升视频情感定位速率。
-
公开(公告)号:CN117573845B
公开(公告)日:2024-05-24
申请号:CN202410054169.9
申请日:2024-01-15
Applicant: 之江实验室
IPC: G06F16/332 , G06F40/30 , G06F40/289 , G06F18/213 , G06F18/25
Abstract: 本发明公开了一种面向跨领域人机协同作业的机器人自然语言理解方法。该方法包括人机协同作业领域/意图/槽位标签及关系定义、数据集构建、自然语言通用理解模型构建和参数学习、自然语言理解场景模型构建和参数学习、利用模型进行在线预测等过程。通过定义具体领域中通用槽位标签与专用槽位标签之间的对应关系,以及场景特征描述和人物特征描述,实现对用户意图的识别和对应槽位信息的识别,增强了自然语言理解模型的跨领域泛化能力。本发明所构建的机器人自然语言理解场景模型具备处理多模态输入数据的能力,且在模型参数学习过程中,增加了对模型稳定性的度量,有效提高了自然语言理解的准确率、降低了误识别率。
-
公开(公告)号:CN116952250A
公开(公告)日:2023-10-27
申请号:CN202311200121.6
申请日:2023-09-18
Applicant: 之江实验室
IPC: G01C21/20 , G06Q10/047 , G06F17/10
Abstract: 本发明公开了一种基于语义地图的机器人指路方法和装置,使用机器人对环境构建语义地图,并采集重要位置并进行语义标注作为语义点;随后构建有向连接图;以机器人当前位置作为起点,选取任意一个语义点作为目的地,获得从起点到目的地的最短路径作为规划路径;获取规划路径上每一个点相对于前一个点的方向信息并记载到列表中,并将规划路径上每一个点的语义信息记载到列表中,得到指路列表并生成指路文本;在机器人的显示屏上显示指路地图,或通过机器人的扬声器进行播放指路文本,完成指路任务。本发明能够生成多样化的指路文本,同时以多种形式对用户的问路进行回应,进一步提升了机器人的人机交互能力。
-
-
-
-
-
-
-
-
-