面向智能服务机器人的语音交互系统的实现方法

    公开(公告)号:CN101577118B

    公开(公告)日:2011-05-04

    申请号:CN200910087108.8

    申请日:2009-06-12

    Applicant: 北京大学

    Inventor: 刘宏 杨雪松

    Abstract: 本发明公开了一种面向智能服务机器人的语音交互系统的实现方法,通过改进的鲁棒性模板训练法训练语音模板,挑选出可用于人机交互的鲁棒性较强的词汇表,弱化了不同说话人的个性信息,在系统的抗噪声和与说话人无关方面得以改进。当输入待测语音时,基于挑选的词汇表计算待测语音与各语音模板的匹配距离,选择最小距离对应的模板为识别结果,如果该识别结果信赖度较高,则输出识别结果,如果信赖度较低,则拒绝该识别结果,同时选择次小距离对应的模板为识别结果,再次判定,如此循环,直至找到信赖度较高的识别结果为止,有效屏蔽了信赖度较低的待测语音,同时又可以修正识别结果,提高识别性能,实现了说话人与机器人安全、友好地交互。

    一种用于版面分析中的连通区域提取方法及装置

    公开(公告)号:CN101290656B

    公开(公告)日:2011-04-27

    申请号:CN200810067409.X

    申请日:2008-05-23

    Abstract: 本发明公开了一种用于版面分析中的连通区域提取方法及装置,该方法包括如下步骤:对于目标像素p(x,y),定义其邻域N(p)为:N(p)={(x-1,y),(x+1,y),(x,y-1),(x,y+1),(x-1,y-1),(x+1,y-1),(x-1,y+1),(x+1,y+1),(x-4,y),(x-3,y),(x-2,y),(x+2,y),(x+3,y),(x+4,y),(x,y+2),(x,y-2)};对于和目标像素p(x,y)具有相同像素值的任意像素q(i,j),判断q(i,j)是否在邻域N(p)中,若是,则将像素p(x,y)和像素q(i,j)作为同一连通区域进行提取。本发明的方法和装置能大大减少了提取的连通区域的数目,增大了连通区域的面积,降低了后续处理中连通区域合并的计算量和处理复杂度,使后续处理变得简单易行。

    一种复杂结构文档图像倾斜快速检测方法

    公开(公告)号:CN100535930C

    公开(公告)日:2009-09-02

    申请号:CN200710176208.9

    申请日:2007-10-23

    Applicant: 北京大学

    Abstract: 本发明涉及一种复杂结构文档图像倾斜快速检测方法,属于文档图像处理范畴。本发明首先从图像中的文本区域及非文本区域提取连通区域的边界段作为倾斜特征,然后通过对提取的边界段进行过滤,得到鲁棒边界段及其对应的倾斜角度,最后通过倾斜角度的加权中值得到整幅图像的倾斜角度。通过大量对比实验表明,该算法具有速度快,精度高,适用范围广的特点。

    一种三维人体行为识别方法、装置、终端及介质

    公开(公告)号:CN120088870A

    公开(公告)日:2025-06-03

    申请号:CN202510588159.8

    申请日:2025-05-08

    Abstract: 本发明涉及计算机视觉技术领域,特别涉及一种三维人体行为识别方法、装置、终端及介质,方法包括将四维点云数据输入已训练的状态空间模型中,提取四维点云数据中不同时间尺度的子序列;将各个子序列中的每一帧三维点云进行排序,得到有序空间序列;将有序空间序列按时间顺序进行拼接,得到每个子序列对应的拼接有序时空序列;根据拼接有序时空序列确定每个子序列对应的中心点特征;获取低阶时空特征,基于低阶时空特征和各个子序列的中心点特征得到动作识别结果。本申请通过兼顾了空间和时间信息,能够捕捉复杂的时空依赖关系,并通过已训练的状态空间模型降低计算的复杂度,进而提高了行为识别结果的准确性和效率。

    一种基于人体姿态估计的人体解析方法及相关装置

    公开(公告)号:CN117456552A

    公开(公告)日:2024-01-26

    申请号:CN202311267861.1

    申请日:2023-09-26

    Abstract: 本申请公开了一种基于人体姿态估计的人体解析方法及相关装置,所述方法包括获取待解析图像的人体关键点图;将所述人体关键点图和所述待解析图像输入经过训练的人体解析模型中的人体解析模块,通过人体解析模块提取人体解析特征图;将所述人体解析特征图输入所述人体解析模型中的像素解码器,通过所述像素解码器提取若干第一特征图;基于所述若干第一特征图以及所述人体解析模型中的Transformer解码器,确定所述待解析图像对应的人体部位分割图。本申请将人体姿态估计与人体解析相结合,将获取到的人体关键点图作为人体解析的先验知识,使得Transformer获知待解析图像中不同类型的人体关键点,提高了人体解析的准确性。

    一种基于人体拓扑感知网络的三维人体姿态估计方法及系统

    公开(公告)号:CN115908497A

    公开(公告)日:2023-04-04

    申请号:CN202211563969.0

    申请日:2022-12-07

    Abstract: 本发明涉及一种基于人体拓扑感知网络的三维人体姿态估计方法及系统。本方法利用人体拓扑的分层次结构和运动约束,充分捕捉信息密度稀疏的人体关节点数据中的先验信息,有效缓解了人体末端关节点估计精度不足的问题。本方法构建了一种多层次特征提取聚合框架,可以由细粒度到粗粒度依次提取关节点层次、肢体层次、全身层次的特征信息;构建了同一肢体内关节点间的运动约束关系,利用父节点辅助高误差的末端关节点的预测。本发明充分利用人体拓扑中高度结构化的先验信息,无需引入额外的数据,便可在控制模型参数量的情况下获得更丰富的人体姿态表征学习能力。

    一种基于深度度量学习结合词袋树模型的机器人回环检测方法和装置

    公开(公告)号:CN108986168B

    公开(公告)日:2022-08-23

    申请号:CN201810609050.8

    申请日:2018-06-13

    Abstract: 本发明公开一种基于深度度量学习结合词袋树模型的机器人回环检测方法和装置。该方法为:1)输入长时间的环境外观变化的场景视频流;2)采用深度度量学习框架训练并学习得到特征提取网络;3)利用特征提取网络从训练视频流图像中抽取特征;4)对得到的特征进行迭代聚类,建立词袋树模型;5)在实际机器人定位和导航过程中,输入机器人实时获取的视频流中的当前关键帧;6)利用特征提取网络提取当前关键帧的特征;7)将当前关键帧的特征添加到词袋树模型;8)利用词袋树模型搜索和匹配图像特征相近的图像帧,并进行相似性度量,判断机器人是否遇到回环。本发明能够实现机器人在动态环境中长时间定位和导航过程中的高效的回环检测。

    一种基于颜色与纹理抑制的长时期跨摄像头目标关联方法及系统

    公开(公告)号:CN114758358A

    公开(公告)日:2022-07-15

    申请号:CN202210410119.0

    申请日:2022-04-19

    Inventor: 刘宏 石伟 吴剑兵

    Abstract: 本发明涉及一种基于颜色与纹理抑制的长时期跨摄像头目标关联方法及系统。该方法包括:输入长时期跨摄像头目标关联数据集中的训练图像;对训练图像进行纹理抑制;对经过纹理抑制的图像进行颜色抑制;利用身份表征模型对抑制颜色和纹理后的图像进行身份特征提取;对提取的身份特征进行监督学习,实现对身份表征模型的参数优化;采用学习的身份表征模型对待查询行人图像和候选行人图像提取身份特征,计算特征间的距离作为相似性得分,选取相似性得分最高的候选行人为跨摄像头场景中的关联目标。本发明可以解决在长时期跨摄像头场景下较难匹配目标行人的问题,可被引入智能监控系统、目标跟踪系统、目标关联系统中,实现更加完备的智能监控技术。

    一种基于神经网络和逆熵加权的音视频关键词识别方法和装置

    公开(公告)号:CN109147763B

    公开(公告)日:2020-08-11

    申请号:CN201810752379.X

    申请日:2018-07-10

    Inventor: 丁润伟 庞程 刘宏

    Abstract: 本发明公开一种基于神经网络和逆熵加权的音视频关键词识别方法和装置。首先,视频中说话人的唇部区域被直接提取为视觉特征,降低了人工设计视觉特征提取噪声的误差,其次,二维和三维卷积神经网络被分别用于对关键词和非关键词的语音和视觉特征进行建模并生成声学模板和视觉模板,可有效地对声学特征的时频特性和视觉特征的时空特性进行建模;再次,根据声学模板和视觉模板,可对待检测的音视频计算得到关键词和非关键词的声学和视觉似然度;最后,对声学和视觉似然度计算对应的熵值来生成声学模态和视觉模态的可靠度权重,以实现音视频的决策层加权融合估计。本发明能够充分利用声学噪声条件下视觉信息的贡献,提高了关键词识别的性能。

    一种基于运动约束光流法的复杂动态场景的运动物体检测方法

    公开(公告)号:CN106846367B

    公开(公告)日:2019-10-01

    申请号:CN201710081019.7

    申请日:2017-02-15

    Abstract: 本发明公开了一种基于运动约束光流法的复杂动态场景的运动物体检测方法。本方法为:1)视频输入;2)提取ORB特征;3)将提取特征与运动物体特征库中的特征进行相似度比较;4)获取当前机器人的运动矢量;5)计算局部光流;6)筛选并建立运动物体特征点库,进而可建立环境点云图。本发明通过机器人的运动方向提高光流法对特征点梯度变化的检测速度;将运动物体的特征以一定的时效性保存在库中,并对时效值及时更新,避免对该特征点的重复计算;本发明比较当前提取的特征和运动物体特征库中的特征的欧式距离,从而减少光流跟踪特征的计算;本发明能减少运动物体对环境的影响,增加机器人对环境建模的可靠性。

Patent Agency Ranking