一种基于神经网络和逆熵加权的音视频关键词识别方法和装置

    公开(公告)号:CN109147763B

    公开(公告)日:2020-08-11

    申请号:CN201810752379.X

    申请日:2018-07-10

    Inventor: 丁润伟 庞程 刘宏

    Abstract: 本发明公开一种基于神经网络和逆熵加权的音视频关键词识别方法和装置。首先,视频中说话人的唇部区域被直接提取为视觉特征,降低了人工设计视觉特征提取噪声的误差,其次,二维和三维卷积神经网络被分别用于对关键词和非关键词的语音和视觉特征进行建模并生成声学模板和视觉模板,可有效地对声学特征的时频特性和视觉特征的时空特性进行建模;再次,根据声学模板和视觉模板,可对待检测的音视频计算得到关键词和非关键词的声学和视觉似然度;最后,对声学和视觉似然度计算对应的熵值来生成声学模态和视觉模态的可靠度权重,以实现音视频的决策层加权融合估计。本发明能够充分利用声学噪声条件下视觉信息的贡献,提高了关键词识别的性能。

    一种基于先验候选框选择策略的行人搜索方法和装置

    公开(公告)号:CN109165540A

    公开(公告)日:2019-01-08

    申请号:CN201810608363.1

    申请日:2018-06-13

    Inventor: 丁润伟 石伟 刘宏

    Abstract: 本发明公开一种基于先验候选框选择策略的行人搜索方法和装置。该方法包括:根据训练集中所有行人边界框的长和宽构建行人候选框特征向量,包含长宽比和长度两个元素;通过k-means++算法选出初始化聚类中心;利用k-means算法进行迭代聚类,得到聚类后的先验候选框;将训练集中的行人图像输入预先定义的行人搜索网络,利用先验候选框生成候选行人并识别出行人的身份,通过训练得到训练好的行人搜索网络;将行人探针和监控场景图像分别通过训练好的行人搜索网络,得到行人探针特征以及监控图像中候选行人的特征,通过计算该两种特征的相似性获得行人探针所在的监控图像及其具体位置。本发明能够有效提高行人搜索的精度和速度。

    一种基于深度度量学习结合词袋树模型的机器人回环检测方法和装置

    公开(公告)号:CN108986168A

    公开(公告)日:2018-12-11

    申请号:CN201810609050.8

    申请日:2018-06-13

    Abstract: 本发明公开一种基于深度度量学习结合词袋树模型的机器人回环检测方法和装置。该方法为:1)输入长时间的环境外观变化的场景视频流;2)采用深度度量学习框架训练并学习得到特征提取网络;3)利用特征提取网络从训练视频流图像中抽取特征;4)对得到的特征进行迭代聚类,建立词袋树模型;5)在实际机器人定位和导航过程中,输入机器人实时获取的视频流中的当前关键帧;6)利用特征提取网络提取当前关键帧的特征;7)将当前关键帧的特征添加到词袋树模型;8)利用词袋树模型搜索和匹配图像特征相近的图像帧,并进行相似性度量,判断机器人是否遇到回环。本发明能够实现机器人在动态环境中长时间定位和导航过程中的高效的回环检测。

    一种基于时延补偿和双耳一致性的双耳声音源定位方法

    公开(公告)号:CN103901400B

    公开(公告)日:2016-08-17

    申请号:CN201410142777.1

    申请日:2014-04-10

    Inventor: 刘宏 张结 丁润伟

    Abstract: 本发明公开了一种基于时延补偿和双耳一致性的双耳声音源定位方法,分别在时域和频域基于最小化均方误差准则推导出双耳能量差和双耳时间差,利用双耳一致性函数改进了时延估计的精度,在得到双耳定位特征之后,利用贝叶斯分层的搜索策略确定声音源的转向角和俯仰角,即达到定位的目的。首先,双耳一致性函数保证了应用于定位的信号帧为可靠的;其次,时延补偿打破了传统的需要两个独立的算法估计双耳时间差和双耳能量差的局限性,使双耳特征提取的手段更具多样化与普适性(适合多种不同程度地噪声环境);最后,分层的定位系统能够有效地减少特征匹配的次数,降低了算法的时间复杂度,保证了声源定位系统的实时性要求。

    一种基于双耳匹配滤波器的双耳声音源定位方法

    公开(公告)号:CN103901401A

    公开(公告)日:2014-07-02

    申请号:CN201410143474.1

    申请日:2014-04-10

    Inventor: 刘宏 张结 丁润伟

    CPC classification number: G01S5/18

    Abstract: 本发明公开了一种新的基于贝叶斯分层模式的双耳声音源定位方法,首先,可靠频带选择机制保证了选择用于估计双耳时间差的频带是可靠的,提高了时间差的估计精度;其次,利用双耳能量差来缩小第一层得到的候选方向集合;再次,第三层提出了双耳匹配滤波器作为新的双耳定位特征,它描述了双耳信号之间的差异,能够充分表达双耳时间差和双耳能量差之间的关系;最后,针对三层定位过程中搜索空间逐渐缩小,采用贝叶斯决策的准则得到概率最大的方向。这种分层的定位系统能够有效地减少特征匹配的次数,降低了算法的时间复杂度,保证了声源定位系统的实时性要求。

    一种基于时延补偿和双耳一致性的双耳声音源定位方法

    公开(公告)号:CN103901400A

    公开(公告)日:2014-07-02

    申请号:CN201410142777.1

    申请日:2014-04-10

    Inventor: 刘宏 张结 丁润伟

    CPC classification number: G01S5/18

    Abstract: 本发明公开了一种基于时延补偿和双耳一致性的双耳声音源定位方法,分别在时域和频域基于最小化均方误差准则推导出双耳能量差和双耳时间差,利用双耳一致性函数改进了时延估计的精度,在得到双耳定位特征之后,利用贝叶斯分层的搜索策略确定声音源的转向角和俯仰角,即达到定位的目的。首先,双耳一致性函数保证了应用于定位的信号帧为可靠的;其次,时延补偿打破了传统的需要两个独立的算法估计双耳时间差和双耳能量差的局限性,使双耳特征提取的手段更具多样化与普适性(适合多种不同程度地噪声环境);最后,分层的定位系统能够有效地减少特征匹配的次数,降低了算法的时间复杂度,保证了声源定位系统的实时性要求。

    一种基于时空信息聚合的对比自监督人体行为识别方法及系统

    公开(公告)号:CN115019397B

    公开(公告)日:2024-04-19

    申请号:CN202210680841.6

    申请日:2022-06-15

    Abstract: 本发明涉及一种基于时空信息聚合的对比自监督人体行为识别方法及系统。该方法对输入的骨架动作序列进行数据增强得到增强后的两个动作序列;利用第一编码器和第二编码器即动量更新编码器将其编码成特征向量;利用预测器得到另一组特征向量,通过损失函数构造有效的单个数据流的特征空间。进一步地,计算骨架序列的运动信息和骨骼信息,并同样作为上述步骤的输入,并在得到特征之后计算特征相似度,数据流内部的相似度矩阵做尖锐处理,并在不同数据流间投票融合,得到相似度伪标签,将时空信息有效聚合后约束单个数据流的分布,来训练更优的模型。本发明训练得到的模型可以在实际应用中取得很好的行为识别效果。

    基于人眼动态变化的三维人脸重建方法、装置及存储介质

    公开(公告)号:CN116993929A

    公开(公告)日:2023-11-03

    申请号:CN202311263345.1

    申请日:2023-09-27

    Abstract: 本申请公开了一种基于人眼动态变化的三维人脸重建方法、装置及存储介质,方法包括:利用初始三维人脸模型确定的三维人脸来确定渲染图像;利用眼状态检测器确定闭眼概率,基于闭眼概率来对人眼关键点进行调整以得到调整后的训练图像;基于渲染图像、训练图像和调整后的训练图像确定的混合损失函数和动态损失函数训练初始三维人脸模型,以得到三维人脸模型;基于三维人脸模型生成重建三维人脸。本申请通过眼状态检测器捕捉的动态细节来确定闭眼概率,根据闭眼概率来对人眼关键点进行调整,通过在弱监督学习过程中引入利用调整后的人眼关键点的动态损失函数,解决了人脸局部区域三维重建的不一致性问题,提高了重建三维人脸的准确性。

    一种基于图多层感知器的三维人体姿态估计方法及系统

    公开(公告)号:CN115205896A

    公开(公告)日:2022-10-18

    申请号:CN202210738751.8

    申请日:2022-06-24

    Abstract: 本发明涉及一种基于图多层感知器的三维人体姿态估计方法及系统。该方法对输入的训练图像通过二维姿态检测器提取人体的二维骨架信息;利用骨架嵌入模块编码骨架成高维向量;利用图多层感知器模型来提取高维语义特征;利用预测头模块来回归得到三维骨架;利用均方误差损失函数训练模型。本发明结合了图卷积和多层感知器的优势,不需要复杂的自注意力机制,便可很好地提升骨架的表征学习能力。

    一种基于点集表示的精确缺陷检测方法和系统

    公开(公告)号:CN114998281A

    公开(公告)日:2022-09-02

    申请号:CN202210686189.9

    申请日:2022-06-16

    Abstract: 本发明涉及一种基于点集表示的精确缺陷检测方法和系统。该方包括对检测目标采用点集进行表示;对于采用点集表示的检测目标,采用全局上下文特征金字塔网络来增强提取对比度明显的多尺度缺陷特征,采用感受野金字塔模块来获取和融合不同尺度大小的缺陷特征,采用自适应正负样本分配检测头来筛选用于学习训练的缺陷正样本;依据筛选得到的缺陷正样本以及提取的缺陷特征,生成准确的缺陷类别以及精确的缺陷位置,实现检测功能。在此基础上,采用深度可分离卷积来代替普通卷积对网络进行轻量优化,以提升检测速度。本发明解决了低对比度问题带来的检测模糊性问题,解决了缺陷尺寸变化大带来的单一性问题,并且避免了不平衡正负样本带来的训练问题。

Patent Agency Ranking