一种基于声学矢量传感器的语音控制智能垃圾桶

    公开(公告)号:CN104309964A

    公开(公告)日:2015-01-28

    申请号:CN201410447310.8

    申请日:2014-09-03

    CPC classification number: B65F1/00 B65F2210/165

    Abstract: 本发明公开了一种基于声学矢量传感器的语音控制智能垃圾桶,实现了垃圾桶的听、转、走等功能。听,即识别用户的简单命令词;转,即转向所估计出的用户所在方位角;走,即移动到用户面前,属于语音人机交互技术领域。将垃圾桶命名为“小T”,当用户要丢垃圾时,只要说“小T过来”,小T识别用户命令后估计语者声源的方向角,并根据该方向角朝用户移动;当用户说“小T停下”时,小T识别出该命令后停下;当用户扔完垃圾后说“小T回去”,小T识别出该命令后回到原位置。本发明提供了友好的语音人机交互方式,用语音控制垃圾桶,满足了行动不便的老人、残疾人、孕妇或者卧床病人的使用要求,为智能家居、智慧医疗等应用场景带来极大的便利。

    一种基于颜色与纹理抑制的长时期跨摄像头目标关联方法及系统

    公开(公告)号:CN114758358A

    公开(公告)日:2022-07-15

    申请号:CN202210410119.0

    申请日:2022-04-19

    Inventor: 刘宏 石伟 吴剑兵

    Abstract: 本发明涉及一种基于颜色与纹理抑制的长时期跨摄像头目标关联方法及系统。该方法包括:输入长时期跨摄像头目标关联数据集中的训练图像;对训练图像进行纹理抑制;对经过纹理抑制的图像进行颜色抑制;利用身份表征模型对抑制颜色和纹理后的图像进行身份特征提取;对提取的身份特征进行监督学习,实现对身份表征模型的参数优化;采用学习的身份表征模型对待查询行人图像和候选行人图像提取身份特征,计算特征间的距离作为相似性得分,选取相似性得分最高的候选行人为跨摄像头场景中的关联目标。本发明可以解决在长时期跨摄像头场景下较难匹配目标行人的问题,可被引入智能监控系统、目标跟踪系统、目标关联系统中,实现更加完备的智能监控技术。

    一种基于先验候选框选择策略的行人搜索方法和装置

    公开(公告)号:CN109165540A

    公开(公告)日:2019-01-08

    申请号:CN201810608363.1

    申请日:2018-06-13

    Inventor: 丁润伟 石伟 刘宏

    Abstract: 本发明公开一种基于先验候选框选择策略的行人搜索方法和装置。该方法包括:根据训练集中所有行人边界框的长和宽构建行人候选框特征向量,包含长宽比和长度两个元素;通过k-means++算法选出初始化聚类中心;利用k-means算法进行迭代聚类,得到聚类后的先验候选框;将训练集中的行人图像输入预先定义的行人搜索网络,利用先验候选框生成候选行人并识别出行人的身份,通过训练得到训练好的行人搜索网络;将行人探针和监控场景图像分别通过训练好的行人搜索网络,得到行人探针特征以及监控图像中候选行人的特征,通过计算该两种特征的相似性获得行人探针所在的监控图像及其具体位置。本发明能够有效提高行人搜索的精度和速度。

    一种基于时频掩膜的单声学矢量传感器目标语音增强方法

    公开(公告)号:CN104103277B

    公开(公告)日:2017-04-05

    申请号:CN201310133745.0

    申请日:2013-04-15

    Inventor: 邹月娴 王鹏 石伟

    Abstract: 本发明涉及一种基于时频掩膜的单声学矢量传感器(Acoustic Vector Sensor,AVS)目标语音增强方法。所述方法已知目标语音的到达角,采用联合固定波束形成器与后置维纳滤波器方法实现目标语音增强,后置维纳滤波器权值的计算涉及目标语音的自功率谱估计,本发明利用语音信号的时频稀疏特性,通过计算AVS中2个梯度传感器输出分量信号间的数据比(Inter‑sensor data ratio,ISDR)来估算接收音频信号时频点关联到达角,通过计算时频点关联到达角与目标达到角之间的误差来设计时频掩膜,以此获得目标语音的自功率谱估计。本发明所述方法不需要任何噪声先验知识,在多说话人存在的复杂环境中,能够有效地增强目标语音,抑制干扰语音及背景噪声。此外该方法运算复杂度低,采用的麦克风阵列体积小(仅有1cm3左右),非常适用于便携设备上的应用。

    一种基于声学矢量传感器的语音控制智能垃圾桶

    公开(公告)号:CN104309964B

    公开(公告)日:2017-01-25

    申请号:CN201410447310.8

    申请日:2014-09-03

    Abstract: 本发明公开了一种基于声学矢量传感器的语音控制智能垃圾桶,实现了垃圾桶的听、转、走等功能。听,即识别用户的简单命令词;转,即转向所估计出的用户所在方位角;走,即移动到用户面前,属于语音人机交互技术领域。将垃圾桶命名为“小T”,当用户要丢垃圾时,只要说“小T过来”,小T识别用户命令后估计语者声源的方向角,并根据该方向角朝用户移动;当用户说“小T停下”时,小T识别出该命令后停下;当用户扔完垃圾后说“小T回去”,小T识别出该命令后回到原位置。本发明提供了友好的语音人机交互方式,用语音控制垃圾桶,满足了行动不便的老人、残疾人、孕妇或者卧床病人的使用要求,为智能家居、智慧医疗等应用场景带来极大的便利。

    一种基于AVS和稀疏表示的单语者声源DOA估计方法

    公开(公告)号:CN103760520B

    公开(公告)日:2016-05-18

    申请号:CN201310726022.1

    申请日:2013-12-25

    Abstract: 本发明提供了一种基于AVS和稀疏表示的单语者声源DOA估计方法。所述方法采用声学矢量传感器(Acoustic Vector Sensor,AVS)实现音频信号采集,利用语音信号的时频稀疏特性和AVS接收分量之间的三角函数关系,采用正弦迹算法提取高信噪比时频点,计算压力梯度传感器与全向压力传感器间的数据比。在此基础上,利用声源的空间稀疏特性,获得传感器间数据比的过完备字典稀疏表示模型,将语者声源到达方向(Direction ofArrival,DOA)估计问题转化为稀疏矢量求解问题。采用l1-SVD方法求解稀疏矢量,计算其空间功率谱,计算得到语音声源的DOA。本发明所述方法在不同的噪声强度和房间混响条件下,能够准确地估计出语者声源的DOA。此外,该方法采用的麦克风阵列体积小(仅有1cm3),非常适用于便携设备上的语音技术。附图说明图1为本发明基于AVS和稀疏表示的单语者声源DOA估计方法示意图。

    一种基于外观与形态解耦的长时期跨摄像头目标关联方法及系统

    公开(公告)号:CN114092873A

    公开(公告)日:2022-02-25

    申请号:CN202111271643.6

    申请日:2021-10-29

    Inventor: 刘宏 石伟 丁润伟

    Abstract: 本发明涉及一种基于外观与形态解耦的长时期跨摄像头目标关联方法及系统。该方法对输入的训练图像通过人体稠密解析估计和边缘估计提取人体轮廓图像,求取训练图像与人体轮廓图像的残差,得到人体外观图像;利用形态表征模型对人体轮廓图像进行高级语义特征提取,利用外观表征模型对人体外观图像进行高级语义特征提取;利用三元组损失函数和识别损失函数训练外观表征模型和形态表征模型,采用学习的两个表征模型对待查询行人图像和候选行人图像提取形态特征和外观特征,通过计算相似性得分得到跨摄像头场景中的关联目标。本发明不需要采用复杂的对抗学习模型就能提取行人的形态信息,并可避免挖掘涉及隐私的人脸信息及不可靠的行人步态信息。

    一种基于外观与形态解耦的长时期跨摄像头目标关联方法及系统

    公开(公告)号:CN114092873B

    公开(公告)日:2024-11-05

    申请号:CN202111271643.6

    申请日:2021-10-29

    Inventor: 刘宏 石伟 丁润伟

    Abstract: 本发明涉及一种基于外观与形态解耦的长时期跨摄像头目标关联方法及系统。该方法对输入的训练图像通过人体稠密解析估计和边缘估计提取人体轮廓图像,求取训练图像与人体轮廓图像的残差,得到人体外观图像;利用形态表征模型对人体轮廓图像进行高级语义特征提取,利用外观表征模型对人体外观图像进行高级语义特征提取;利用三元组损失函数和识别损失函数训练外观表征模型和形态表征模型,采用学习的两个表征模型对待查询行人图像和候选行人图像提取形态特征和外观特征,通过计算相似性得分得到跨摄像头场景中的关联目标。本发明不需要采用复杂的对抗学习模型就能提取行人的形态信息,并可避免挖掘涉及隐私的人脸信息及不可靠的行人步态信息。

    一种基于时频掩膜的单声学矢量传感器目标语音增强方法

    公开(公告)号:CN104103277A

    公开(公告)日:2014-10-15

    申请号:CN201310133745.0

    申请日:2013-04-15

    Inventor: 邹月娴 王鹏 石伟

    Abstract: 本发明涉及一种基于时频掩膜的单声学矢量传感器(Acoustic Vector Sensor,AVS)目标语音增强方法。所述方法已知目标语音的到达角,采用联合固定波束形成器与后置维纳滤波器方法实现目标语音增强,后置维纳滤波器权值的计算涉及目标语音的自功率谱估计,本发明利用语音信号的时频稀疏特性,通过计算AVS中2个梯度传感器输出分量信号间的数据比(Inter-sensor data ratio,ISDR)来估算接收音频信号时频点关联到达角,通过计算时频点关联到达角与目标达到角之间的误差来设计时频掩膜,以此获得目标语音的自功率谱估计。本发明所述方法不需要任何噪声先验知识,在多说话人存在的复杂环境中,能够有效地增强目标语音,抑制干扰语音及背景噪声。此外该方法运算复杂度低,采用的麦克风阵列体积小(仅有1cm3左右),非常适用于便携设备上的应用。

Patent Agency Ranking