-
公开(公告)号:CN114390249B
公开(公告)日:2023-05-02
申请号:CN202111528664.1
申请日:2021-12-14
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提出了视频处理方法、装置、电子设备及存储介质,涉及人工智能技术领域,具体涉及计算机视觉、智能交通技术领域。方案为:获取待处理视频;其中,待处理视频中包含第一光波的视频帧和第二光波的视频帧;对待处理视频的多个视频帧进行特征提取,以得到多个视频帧对应的特征图;根据特征图,从多个视频帧中确定相邻的第一视频帧和第二视频帧;其中,第一视频帧为对第一光波采集得到的视频,第二视频帧为对第二光波采集得到的视频帧;根据第一视频帧和第二视频帧,对待处理视频进行切分并保存。由此,通过对待处理视频的切分处理可获取多种数据格式的视频,无需安装多个摄像头分别进行各种数据格式的视频采集,节省了成本。
-
公开(公告)号:CN114495976A
公开(公告)日:2022-05-13
申请号:CN202111614059.6
申请日:2021-12-27
Applicant: 北京百度网讯科技有限公司
IPC: G10L25/48
Abstract: 本公开提供了语音测试方法、装置、系统、电子设备及存储介质,涉及智能语音、人工智能芯片及自然语言处理等人工智能领域,其中的方法可包括:主控芯片获取和保存来自语音芯片的音频数据,主控芯片及语音芯片位于同一产品中;主控芯片根据所保存的音频数据确定出灌测数据,将灌测数据发送给语音芯片,并获取语音芯片返回的、根据灌测数据生成的算法处理结果;主控芯片根据算法处理结果确定出测试指标。应用本公开所述方案,可降低实现成本及提升测试效率等。
-
公开(公告)号:CN112788278B
公开(公告)日:2023-04-07
申请号:CN202011643811.5
申请日:2020-12-30
Applicant: 北京百度网讯科技有限公司
IPC: H04N7/15 , H04N23/67 , G10L21/0208 , H04L65/403 , H04L65/60 , H04L65/80
Abstract: 本公开公开了一种视频流的生成方法、装置、设备及存储介质,涉及语音技术领域、视频处理技术领域、计算机视觉技术领域和深度学习技术领域。具体实现方案为:当监测到语音数据时,确定与语音数据对应的第一发言用户;控制预设摄像头对焦第一发言用户拍摄第一视频帧图像,并采集第一发言用户的第一发言数据;对第一发言数据中的噪音数据进行去噪处理,得到第一目标数据;根据第一目标数据和第一视频帧图像生成视频流。由此,在视频流传输场景下,聚焦发言人进行视频帧图像的拍摄,并且抑制非发言人的噪音,提高了视频流的质量,满足了多种场景下的视频需求。
-
公开(公告)号:CN112669837B
公开(公告)日:2022-12-06
申请号:CN202011483490.7
申请日:2020-12-15
Applicant: 北京百度网讯科技有限公司
Abstract: 本申请公开了一种智能终端的唤醒方法、装置及电子设备,涉及语音识别、自然语言处理、深度学习等人工智能技术领域。实现方案为:采集视频数据及音频数据;对视频数据进行人体检测,以确定视频数据中用户的第一位置;对音频数据进行解析,以确定音频数据是否为唤醒事件及唤醒事件对应的唤醒方位;在音频数据为唤醒事件的情况下,根据与唤醒事件关联的视频数据中用户的第一位置与唤醒方位的匹配度,确定唤醒事件的置信度;根据唤醒事件的置信度,确定是否唤醒智能终端。由此,将视频数据和音频数据相结合,以确定进行智能终端的语音唤醒,有利于避免误唤醒的现象、提高唤醒的可靠性,进而提升对话系统的体验。
-
公开(公告)号:CN114222073A
公开(公告)日:2022-03-22
申请号:CN202111514569.6
申请日:2021-12-13
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了视频输出方法、装置、电子设备和存储介质,涉及计算机技术领域,特别涉及语音和视频处理技术等人工智能技术。具体实现方案为:获取目标视频;根据预先获取的输出信息列表,采用硬件加速方式对该目标视频进行相应处理,生成至少一路输出视频,其中,该输出信息列表中包括至少一个视频输出接口的标识和对应的视频所需参数;将该至少一路输出视频分发给相应的视频输出接口。
-
公开(公告)号:CN114390249A
公开(公告)日:2022-04-22
申请号:CN202111528664.1
申请日:2021-12-14
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提出了视频处理方法、装置、电子设备及存储介质,涉及人工智能技术领域,具体涉及计算机视觉、智能交通技术领域。方案为:获取待处理视频;其中,待处理视频中包含第一光波的视频帧和第二光波的视频帧;对待处理视频的多个视频帧进行特征提取,以得到多个视频帧对应的特征图;根据特征图,从多个视频帧中确定相邻的第一视频帧和第二视频帧;其中,第一视频帧为对第一光波采集得到的视频,第二视频帧为对第二光波采集得到的视频帧;根据第一视频帧和第二视频帧,对待处理视频进行切分并保存。由此,通过对待处理视频的切分处理可获取多种数据格式的视频,无需安装多个摄像头分别进行各种数据格式的视频采集,节省了成本。
-
公开(公告)号:CN114237544A
公开(公告)日:2022-03-25
申请号:CN202111536807.3
申请日:2021-12-15
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种音频输入方法、装置、电子设备及存储介质,涉及人工智能领域,尤其涉及语音技术。具体实现方案为:通过现场可编程门阵列FPGA接收N个音频输入单元按照多路方式发送的音频数据;其中,N为大于1的自然数;通过FPGA将其接收到的音频数据按照单路方式发送至通用串行总线物理层芯片USB‑PHY;通过USB‑PHY将其接收到的音频数据输入至音频接收单元中。本申请实施例可以方便地扩展通道数量,满足多通道录音需求;并且无需额外安装驱动,兼容性好,操作简单。
-
公开(公告)号:CN112788278A
公开(公告)日:2021-05-11
申请号:CN202011643811.5
申请日:2020-12-30
Applicant: 北京百度网讯科技有限公司
IPC: H04N7/15 , H04N5/232 , G10L21/0208 , H04L29/06
Abstract: 本公开公开了一种视频流的生成方法、装置、设备及存储介质,涉及语音技术领域、视频处理技术领域、计算机视觉技术领域和深度学习技术领域。具体实现方案为:当监测到语音数据时,确定与语音数据对应的第一发言用户;控制预设摄像头对焦第一发言用户拍摄第一视频帧图像,并采集第一发言用户的第一发言数据;对第一发言数据中的噪音数据进行去噪处理,得到第一目标数据;根据第一目标数据和第一视频帧图像生成视频流。由此,在视频流传输场景下,聚焦发言人进行视频帧图像的拍摄,并且抑制非发言人的噪音,提高了视频流的质量,满足了多种场景下的视频需求。
-
公开(公告)号:CN114222073B
公开(公告)日:2023-02-17
申请号:CN202111514569.6
申请日:2021-12-13
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了视频输出方法、装置、电子设备和存储介质,涉及计算机技术领域,特别涉及语音和视频处理技术等人工智能技术。具体实现方案为:获取目标视频;根据预先获取的输出信息列表,采用硬件加速方式对该目标视频进行相应处理,生成至少一路输出视频,其中,该输出信息列表中包括至少一个视频输出接口的标识和对应的视频所需参数;将该至少一路输出视频分发给相应的视频输出接口。
-
公开(公告)号:CN112669837A
公开(公告)日:2021-04-16
申请号:CN202011483490.7
申请日:2020-12-15
Applicant: 北京百度网讯科技有限公司
Abstract: 本申请公开了一种智能终端的唤醒方法、装置及电子设备,涉及语音识别、自然语言处理、深度学习等人工智能技术领域。实现方案为:采集视频数据及音频数据;对视频数据进行人体检测,以确定视频数据中用户的第一位置;对音频数据进行解析,以确定音频数据是否为唤醒事件及唤醒事件对应的唤醒方位;在音频数据为唤醒事件的情况下,根据与唤醒事件关联的视频数据中用户的第一位置与唤醒方位的匹配度,确定唤醒事件的置信度;根据唤醒事件的置信度,确定是否唤醒智能终端。由此,将视频数据和音频数据相结合,以确定进行智能终端的语音唤醒,有利于避免误唤醒的现象、提高唤醒的可靠性,进而提升对话系统的体验。
-
-
-
-
-
-
-
-
-