-
公开(公告)号:CN116312602A
公开(公告)日:2023-06-23
申请号:CN202211565066.6
申请日:2022-12-07
Applicant: 之江实验室
IPC: G10L21/0216
Abstract: 本发明公开了一种基于干扰噪声空间谱矩阵的语音信号波束成形方法与装置。本发明基于麦克风阵列流形矢量计算球面扩散噪声的空间谱矩阵;在麦克风没有检测到语音信号时,计算背景噪声的空间谱矩阵;在麦克风检测到语音信号后,计算信号空间谱矩阵;基于麦克风阵列流形矢量和信号空间谱矩阵对Capon空间谱进行积分,计算干扰语音信号的空间谱矩阵;球面扩散噪声的空间谱矩阵、背景噪声的空间谱矩阵、干扰语音信号的空间谱矩阵叠加得到干扰噪声空间谱矩阵;对干扰噪声空间谱矩阵进行特征值分解,获取特征向量和噪声功率估计值,并以此更新干扰噪声空间谱矩阵;并结合线性约束最小方差波束形成得到波束增强的语音信号。
-
公开(公告)号:CN116258931A
公开(公告)日:2023-06-13
申请号:CN202211611986.7
申请日:2022-12-14
Applicant: 之江实验室
IPC: G06V10/80 , G06V10/774 , G06V10/44
Abstract: 基于ViT和滑窗注意力融合的视觉指代表达理解方法,包括:获取训练图像和对应的指代表达文本;对图像和指代表达文本进行预处理;构建基于ViT和滑窗注意力融合策略的视觉指代网络;输入训练的图像及对应的指代表达文本,对视觉指代网络进行训练;将测试图像及描述图像中感兴趣目标的指代表达文本,输入到训练好的视觉指代网络模型,获得视觉指代表达理解的结果。本发明还包括基于ViT和滑窗注意力融合的视觉指代表达理解系统。本发明基于ViT的结构使用窗口注意力进行视觉特征提取和基于滑窗策略来融合多模态特征,大大降低了模型的计算量和推理时间,同时视觉指代表达理解能够帮助机器人对人的意图进行理解,从而提高人机交互的能力。
-
公开(公告)号:CN115170579B
公开(公告)日:2023-05-12
申请号:CN202211098621.9
申请日:2022-09-09
Applicant: 之江实验室
IPC: G06T7/10 , G06N3/0464 , G06N3/09
Abstract: 本发明属于图像识别技术领域,涉及一种金属锈蚀图像分割方法和装置,该方法包括:建立金属锈蚀图像数据集,将金属锈蚀图像数据集分为训练集和测试集;构建基于U‑net网络和混合注意力机制的深度学习分割网络模型;将训练集输入所述深度学习分割模型中进行训练,得到训练好的模型;将测试集输入所述训练好的模型中进行测试,得到金属锈蚀图像的分割结果;将得到的金属锈蚀图像的分割结果与测试集对应的标签图像中的锈蚀位置进行对比,计算评价指标,对测试结果进行评价。本发明的方法,在原始U‑net网络的基础上,添加混合注意力机制,分别从通道域和空间域两个方面对锈蚀所在区域的权重进行提升,提高了金属锈蚀图像的分割精度、准确度。
-
公开(公告)号:CN116091413A
公开(公告)日:2023-05-09
申请号:CN202211585880.4
申请日:2022-12-09
Applicant: 之江实验室
Abstract: 本发明公开了一种语境知识引导的视觉关系检测方法和装置,包括:获取场景图像,确定场景图像中物体对的语义向量和语境向量,从场景图像中提取包含物体对的局部图像并确定物体对的位置掩码;利用语境知识生成模块根据物体对的语境向量提取物体对的语境知识,利用视觉特征提取模块根据局部图像和物体对的位置掩码提取物体对的视觉特征,利用语义特征提取模块根据物体对的语义向量提取物体对的语义特征,利用视觉关系检测模块根据物体对的视觉特征和语义特征计算物体对的视觉预测结果,利用综合判断模块依据视觉预测结果与物体对的语境知识综合判断得到语境知识引导的物体对的视觉关系。该方法和装置通过语境知识引导提升视觉关系检测的准确性。
-
公开(公告)号:CN116058962A
公开(公告)日:2023-05-05
申请号:CN202310202410.3
申请日:2023-02-23
Applicant: 之江实验室
Abstract: 本公开是关于一种旋转机构和手术机器人。旋转机构包括旋转座和设置于旋转座上的旋转驱动件、输入轴、输出轴和旋转传感器。旋转传感器固定连接设置于输入轴和输出轴之间,以用于监测输入轴和输出轴之间的扭矩变化,并用于使得输入轴能够带动输出轴转动。旋转驱动件与输入轴传动连接,以用于驱动输入轴转动。本公开中的旋转电机能够驱动输入轴转动,进而依次带动旋转传感器、输出轴、弯曲机构、捻送机构和输尿管软镜转动,并最终使得输尿管软镜的软管前端跟随一起旋转,从而达到调整方向的作用。其中,当输尿管软镜的软管前端旋转碰到阻碍时,能够被旋转传感器所感知,进而反馈到操作界面或操作杆上,从而方便医生在旋转方向上及时进行调整。
-
公开(公告)号:CN115858811A
公开(公告)日:2023-03-28
申请号:CN202211609449.9
申请日:2022-12-14
Applicant: 之江实验室
IPC: G06F16/36 , G06F18/22 , G06F18/214 , G06F40/295 , G06F40/30 , G06F16/35 , G06F18/25 , G06F16/31 , G06N3/0455 , G06N3/0464
Abstract: 本发明公开了一种基于知识图谱的中文易混词生成方法。该方法包括中文词知识图谱的本体设计、中文文本数据的预处理过程、中文词对在语义/字音/字形等方面的相似性计算过程、知识图谱实例化过程、用户输入文本的预处理过程、与用户输入文本相对应的知识图谱子图抽取过程以及以多源异构数据为输入的中文易混词生成过程等。本发明可从发音、字形、语义等多方面刻画中文词对的相似性,并能结合文本的领域和主题信息,实现跨领域中文易混淆词的准确生成。
-
公开(公告)号:CN115857516A
公开(公告)日:2023-03-28
申请号:CN202310191246.0
申请日:2023-03-02
Applicant: 之江实验室
IPC: G05D1/02
Abstract: 本发明公开一种结合牛耕式运动与遗传算法的全覆盖路径规划方法和装置,该方法包括:步骤一,对环境地图进行障碍物膨化处理,生成栅格地图;步骤二,在确定完机器人在环境地图的任务目标区域后,对栅格地图进行编码处理;步骤三,采用传统的牛耕式运动方式进行运动,生成代表机器人移动路径的多条初代染色体,作为遗传算法的初代种群;步骤四,对生成的多条初代染色体进行选择操作,并采用轮盘赌的方式生成下一代种群;步骤五,对生成的下一代种群进行交叉和变异操作,后重复步骤四至步骤五,进行种群代数优化,当种群代数达到最大值后,获得最终规划路径。本发明能够有效解决机器人在储罐、桥梁上探伤、除锈等诸多任务场景。
-
公开(公告)号:CN115796288A
公开(公告)日:2023-03-14
申请号:CN202211511472.4
申请日:2022-11-29
Applicant: 之江实验室
Abstract: 本发明公开了一种基于知识库的动态场景下推理任务的方法和装置,包括:在将表达知识库的语义网络按照关系类型划分为动作关系子网络、状态变化关系子网络、从属关系子网络以及介词关系子网络的基础上,依据动作关系子网络进行任务的行为树缺失判断的推理,通过所有子网络实现目标物体和与状态相关的感知数据等缺失数据的推理获取,进而实现行为树的推理。这样的方式能够避免使用任务知识或结构化的机器人任务设计语言,使用通用的语义网络完成任务的推理规划,实现机器人的作业问题,该推理过程不需要过多的人为编辑和干预,作为技术使用方,只需要提供完备的语义网络和实时感知数据,即可以完成对机器人行为的自主控制。
-
公开(公告)号:CN115761569A
公开(公告)日:2023-03-07
申请号:CN202211288216.3
申请日:2022-10-20
Applicant: 之江实验室
IPC: G06V20/40 , G06V40/16 , G06V10/44 , G06V10/82 , G06N3/0464
Abstract: 一种基于情感分类的视频情感定位方法,包括:通过人脸识别模型进行视频预处理,将人脸识别的检测结果作为情感定位网络训练集;建立情感定位网络,使用卷积神经网络提取图像局部特征,建立多分支图像特征,使用视觉transformer算法获取情感类别;判断各帧之间情感类别关系,删除误检或者异常结果;将相同表情识别结果,且时序距离较近作为视频中情感定位候选片段;基于情感类别获取的情感定位片段,获取视频候选片段特征,过滤判断错误候选片段;输出模型对视频情感定位结果,具体包括情感片段首尾时间及对应情感类别。本发明能够改善定位片段预设鲁棒性不佳的缺点,保证情感分类准确性的同时提升视频情感定位速率。
-
公开(公告)号:CN115620356A
公开(公告)日:2023-01-17
申请号:CN202211019716.7
申请日:2022-08-24
Applicant: 之江实验室
IPC: G06V40/16 , G06V40/20 , G06V20/40 , G06V10/82 , G06F18/25 , G06N3/0464 , G06N3/047 , G06N3/08 , G10L15/02 , G10L15/06 , G10L15/16 , G10L15/22 , G10L25/03 , G10L25/24
Abstract: 本发明属于视听处理、机器学习技术领域,公开了一种基于音频和面部输入的受话方检测框架和方法,前端包括音频流编码器和视频流编码器;后端包括交叉注意力模块;双线性融合模块以及自注意力模块;本发明框架输入可变长度的音频和面部区域信息,并通过联合分析音频和面部特征,预测每帧中的受话方。它使用在人对人和人对机器人混合设置中记录的数据集。因此,所述框架可应用并适用于机器人,以区分机器人是否为受话方。使得机器人具有智能视听感知能力,提高了机器人智能化程度。
-
-
-
-
-
-
-
-
-