一种实现多camera模式识别的方法

    公开(公告)号:CN109729305A

    公开(公告)日:2019-05-07

    申请号:CN201910008089.9

    申请日:2019-01-04

    Abstract: 本发明涉及一种实现多camera模式识别的方法,其通过修改视频会议话机的网卡驱动,在网卡驱动中加入主从模式识别模块,当视频会议话机加载完网卡驱动后,停留设定时间用于检测是否接受到特定的识别包,若没有接收到识别包,将该视频会议话机转换为主机模式,然后开启一个线程,每隔阈值时间发送一个特定的自组识别包到局域网中;若接收到识别包,将该视频会议话机转换为从机模式。本发明通过简单的发送和接收广播的方式,让视频会议话机既可以当作主机使用,也可以满足多camera的场景下,用作从机使用。可以让客户针对视频会议系统话机进行重复的利用,大大的提高了产品利用率。

    一种网络传输特性友好的实时图像自适应恢复系统及方法

    公开(公告)号:CN108235150A

    公开(公告)日:2018-06-29

    申请号:CN201810005359.6

    申请日:2018-01-03

    Abstract: 本发明公开的一种网络传输特性友好的实时图像自适应恢复系统及方法,系统包括编码端和解码端两部分,其中编码端包括编码图像索引生成模块、编码图像宏块信息备份模块、丢包数据传播区域计算模块和丢包区域编码类型控制模块;所述解码端包括解码图像索引提取模块、解码丢包信息统计模块和解码丢包信息反馈模块。本发明解决了丢包环境下频繁申请IDR帧的问题,对实时编解码系统的图像质量以及网络传输效果均具有一定提升。

    一种视频会议系统的多麦克风混音方法

    公开(公告)号:CN104219013A

    公开(公告)日:2014-12-17

    申请号:CN201410441776.7

    申请日:2014-09-01

    Inventor: 毕永建

    Abstract: 本发明提供一种视频会议系统的多麦克风混音方法,通过各麦克风通道采集声音与扬声器播放声音之间的延时时间以及采集声音的能量大小来判定最大回声通道,以排除回声最大的通道,再由各可选通道采集帧能量值以及它们之间的相关性,选择最佳通道采集的声音作为混音源并确定所选通道的混音权值,最后根据所选通道及确定的混音权值进行混音输出。本发明选择最佳通道采集的声音作为最优混音源,且所有算法按照自适应设计,能动态调整最优混音源,保证了声音的采集范围和音质效果。

    一种用于麦克风阵列会议设备的语音识别方法及装置

    公开(公告)号:CN118887956A

    公开(公告)日:2024-11-01

    申请号:CN202411137459.6

    申请日:2024-08-19

    Inventor: 陈纪锦 毕永建

    Abstract: 本申请涉及智能语音交互技术领域,公开了一种用于麦克风阵列会议设备的语音识别方法及装置,其方法包括获取任一单通道的输入音频;采用预设的3A模型对输入音频进行频带建模,融合提取的特征,经过复数网络计算,得到一个掩码作用于输入音频以得到目标音频;将目标音频输入预设的语音唤醒模型,确定唤醒词的音频段;判断是否存在人声;若存在人声,则利用预设的提取模型提取唤醒人声纹特征,确定唤醒人的音频段;将当前帧的唤醒人的音频段输入预设的人声识别模型进行人声指令识别,得到唤醒人的人声指令,通过语言模型识别人声指令对应的意图,并响应唤醒人的人声指令。本申请具有在会议室多人讲话的场景下,改善人声指令和唤醒词识别精度的效果。

    一种基于线性麦克风阵列的声源定位方法及装置

    公开(公告)号:CN112363112B

    公开(公告)日:2024-04-09

    申请号:CN202011093171.5

    申请日:2020-10-13

    Inventor: 陈浩磊 毕永建

    Abstract: 本发明公开了一种基于线性麦克风阵列的声源定位方法及装置,所述方法包括:采用GCC‑PHAT方法对若干组麦克风组合分别进行声源角度计算,得出每帧每组麦克风组合的声源角度信息;将声源角度信息统一放置于预设的时间窗内进行统计,根据预设的统计算法计算出初步声源角度;在判断当前场景需要过滤噪声信息后,对初步声源角度进行噪声信息过滤,得到最终的声源定位结果。本发明通过利用麦克风多通道的信息进行声源角度信息的计算,提升声源定位鲁棒性,优化在实际的视频会议场景中由于噪声和混响的存在而导致声源定位效果不佳的问题,提高音质体验,给出稳定的主讲人的定位角度,从而指导在视频会议中对主讲人进行搜索和定位,实现主讲人特写的效果。

    一种实现IP话机多模式系统升级失败恢复方法

    公开(公告)号:CN109815053B

    公开(公告)日:2021-04-06

    申请号:CN201910008065.3

    申请日:2019-01-04

    Abstract: 本发明涉及一种实现IP话机多模式系统升级失败恢复方法,其在复杂多变的办公环境中可以提供更多的选择来适应不同的环境,让客户能够简单高效的进行系统的恢复。而且而且linux和android都是通过引导自己设置的恢复分区,进入恢复模式,所以本发明可以通用于Linux和android两大主流系统,用户不需要根据不同的系统搭建不同的环境用于恢复系统,这样可以更大的简化的用户的使用。

    一种实现多camera模式识别的方法

    公开(公告)号:CN109729305B

    公开(公告)日:2021-04-02

    申请号:CN201910008089.9

    申请日:2019-01-04

    Abstract: 本发明涉及一种实现多camera模式识别的方法,其通过修改视频会议话机的网卡驱动,在网卡驱动中加入主从模式识别模块,当视频会议话机加载完网卡驱动后,停留设定时间用于检测是否接受到特定的识别包,若没有接收到识别包,将该视频会议话机转换为主机模式,然后开启一个线程,每隔阈值时间发送一个特定的自组识别包到局域网中;若接收到识别包,将该视频会议话机转换为从机模式。本发明通过简单的发送和接收广播的方式,让视频会议话机既可以当作主机使用,也可以满足多camera的场景下,用作从机使用。可以让客户针对视频会议系统话机进行重复的利用,大大的提高了产品利用率。

    一种基于线性麦克风阵列的声源定位方法及装置

    公开(公告)号:CN112363112A

    公开(公告)日:2021-02-12

    申请号:CN202011093171.5

    申请日:2020-10-13

    Inventor: 陈浩磊 毕永建

    Abstract: 本发明公开了一种基于线性麦克风阵列的声源定位方法及装置,所述方法包括:采用GCC‑PHAT方法对若干组麦克风组合分别进行声源角度计算,得出每帧每组麦克风组合的声源角度信息;将声源角度信息统一放置于预设的时间窗内进行统计,根据预设的统计算法计算出初步声源角度;在判断当前场景需要过滤噪声信息后,对初步声源角度进行噪声信息过滤,得到最终的声源定位结果。本发明通过利用麦克风多通道的信息进行声源角度信息的计算,提升声源定位鲁棒性,优化在实际的视频会议场景中由于噪声和混响的存在而导致声源定位效果不佳的问题,提高音质体验,给出稳定的主讲人的定位角度,从而指导在视频会议中对主讲人进行搜索和定位,实现主讲人特写的效果。

    一种基于多麦的视频会议摄像头定位方法

    公开(公告)号:CN104238576A

    公开(公告)日:2014-12-24

    申请号:CN201410474230.1

    申请日:2014-09-17

    Inventor: 毕永建

    Abstract: 本发明提供一种基于多麦的视频会议摄像头定位方法,所述多麦包括至少3个相对位置不变的通道,所述方法包括如下步骤:有远程的声音发出时,采集各通道的回声数据,确定能量值最大的主回声通道及其与主回声线的位置关系;利用主回声通道的位置确定麦克参考位置;有近端的声音发出时,采集各通道的声音能量值,置确定当前发言者位置方向;根据当前发言者位置方向确定摄像头方向。本发明根据多麦各通道的位置信息以及当前接收到的声音能量,判断发言人位置,设计简单灵活,计算简便,无性能方面的消耗,自动调节摄像头的跟踪角度,保证当前会议主发言人在摄像头的拾取范围内,提升会议效果。

Patent Agency Ranking