-
公开(公告)号:CN114222073B
公开(公告)日:2023-02-17
申请号:CN202111514569.6
申请日:2021-12-13
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了视频输出方法、装置、电子设备和存储介质,涉及计算机技术领域,特别涉及语音和视频处理技术等人工智能技术。具体实现方案为:获取目标视频;根据预先获取的输出信息列表,采用硬件加速方式对该目标视频进行相应处理,生成至少一路输出视频,其中,该输出信息列表中包括至少一个视频输出接口的标识和对应的视频所需参数;将该至少一路输出视频分发给相应的视频输出接口。
-
公开(公告)号:CN113345472A
公开(公告)日:2021-09-03
申请号:CN202110502922.2
申请日:2021-05-08
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开公开了语音端点检测方法、装置、电子设备及存储介质,涉及深度学习以及智能语音等人工智能领域,其中的方法可包括:获取时间对齐的语音数据及视频数据;利用训练得到的语音检测模型,对语音数据进行语音起点和语音尾点的第一检测;对视频数据进行唇动起点和唇动尾点的第二检测;利用第二检测结果对第一检测结果进行修正,将修正后的结果作为语音端点检测结果。应用本公开所述方案,可提升语音端点检测结果的准确性等。
-
公开(公告)号:CN112669837A
公开(公告)日:2021-04-16
申请号:CN202011483490.7
申请日:2020-12-15
Applicant: 北京百度网讯科技有限公司
Abstract: 本申请公开了一种智能终端的唤醒方法、装置及电子设备,涉及语音识别、自然语言处理、深度学习等人工智能技术领域。实现方案为:采集视频数据及音频数据;对视频数据进行人体检测,以确定视频数据中用户的第一位置;对音频数据进行解析,以确定音频数据是否为唤醒事件及唤醒事件对应的唤醒方位;在音频数据为唤醒事件的情况下,根据与唤醒事件关联的视频数据中用户的第一位置与唤醒方位的匹配度,确定唤醒事件的置信度;根据唤醒事件的置信度,确定是否唤醒智能终端。由此,将视频数据和音频数据相结合,以确定进行智能终端的语音唤醒,有利于避免误唤醒的现象、提高唤醒的可靠性,进而提升对话系统的体验。
-
公开(公告)号:CN113345472B
公开(公告)日:2022-03-25
申请号:CN202110502922.2
申请日:2021-05-08
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开公开了语音端点检测方法、装置、电子设备及存储介质,涉及深度学习以及智能语音等人工智能领域,其中的方法可包括:获取时间对齐的语音数据及视频数据;利用训练得到的语音检测模型,对语音数据进行语音起点和语音尾点的第一检测;对视频数据进行唇动起点和唇动尾点的第二检测;利用第二检测结果对第一检测结果进行修正,将修正后的结果作为语音端点检测结果。应用本公开所述方案,可提升语音端点检测结果的准确性等。
-
公开(公告)号:CN110062321A
公开(公告)日:2019-07-26
申请号:CN201910345767.0
申请日:2019-04-26
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种智能音响的测试方法,该方法包括:向智能音响测试工装发送测试指令;所述测试指令中包括至少一个测试项目;接收所述智能音响测试工装响应所述测试指令后返回的测试数据;根据所述测试数据确定出所述测试指令所包含的各测试项目的测试结果。本公开还提供了另一种智能音响的测试方法、测试上位机以及智能音响测试工装。
-
公开(公告)号:CN112788278B
公开(公告)日:2023-04-07
申请号:CN202011643811.5
申请日:2020-12-30
Applicant: 北京百度网讯科技有限公司
IPC: H04N7/15 , H04N23/67 , G10L21/0208 , H04L65/403 , H04L65/60 , H04L65/80
Abstract: 本公开公开了一种视频流的生成方法、装置、设备及存储介质,涉及语音技术领域、视频处理技术领域、计算机视觉技术领域和深度学习技术领域。具体实现方案为:当监测到语音数据时,确定与语音数据对应的第一发言用户;控制预设摄像头对焦第一发言用户拍摄第一视频帧图像,并采集第一发言用户的第一发言数据;对第一发言数据中的噪音数据进行去噪处理,得到第一目标数据;根据第一目标数据和第一视频帧图像生成视频流。由此,在视频流传输场景下,聚焦发言人进行视频帧图像的拍摄,并且抑制非发言人的噪音,提高了视频流的质量,满足了多种场景下的视频需求。
-
公开(公告)号:CN112669837B
公开(公告)日:2022-12-06
申请号:CN202011483490.7
申请日:2020-12-15
Applicant: 北京百度网讯科技有限公司
Abstract: 本申请公开了一种智能终端的唤醒方法、装置及电子设备,涉及语音识别、自然语言处理、深度学习等人工智能技术领域。实现方案为:采集视频数据及音频数据;对视频数据进行人体检测,以确定视频数据中用户的第一位置;对音频数据进行解析,以确定音频数据是否为唤醒事件及唤醒事件对应的唤醒方位;在音频数据为唤醒事件的情况下,根据与唤醒事件关联的视频数据中用户的第一位置与唤醒方位的匹配度,确定唤醒事件的置信度;根据唤醒事件的置信度,确定是否唤醒智能终端。由此,将视频数据和音频数据相结合,以确定进行智能终端的语音唤醒,有利于避免误唤醒的现象、提高唤醒的可靠性,进而提升对话系统的体验。
-
公开(公告)号:CN114222073A
公开(公告)日:2022-03-22
申请号:CN202111514569.6
申请日:2021-12-13
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了视频输出方法、装置、电子设备和存储介质,涉及计算机技术领域,特别涉及语音和视频处理技术等人工智能技术。具体实现方案为:获取目标视频;根据预先获取的输出信息列表,采用硬件加速方式对该目标视频进行相应处理,生成至少一路输出视频,其中,该输出信息列表中包括至少一个视频输出接口的标识和对应的视频所需参数;将该至少一路输出视频分发给相应的视频输出接口。
-
公开(公告)号:CN110062321B
公开(公告)日:2021-08-17
申请号:CN201910345767.0
申请日:2019-04-26
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种智能音响的测试方法,该方法包括:向智能音响测试工装发送测试指令;所述测试指令中包括至少一个测试项目;接收所述智能音响测试工装响应所述测试指令后返回的测试数据;根据所述测试数据确定出所述测试指令所包含的各测试项目的测试结果。本公开还提供了另一种智能音响的测试方法、测试上位机以及智能音响测试工装。
-
公开(公告)号:CN112788278A
公开(公告)日:2021-05-11
申请号:CN202011643811.5
申请日:2020-12-30
Applicant: 北京百度网讯科技有限公司
IPC: H04N7/15 , H04N5/232 , G10L21/0208 , H04L29/06
Abstract: 本公开公开了一种视频流的生成方法、装置、设备及存储介质,涉及语音技术领域、视频处理技术领域、计算机视觉技术领域和深度学习技术领域。具体实现方案为:当监测到语音数据时,确定与语音数据对应的第一发言用户;控制预设摄像头对焦第一发言用户拍摄第一视频帧图像,并采集第一发言用户的第一发言数据;对第一发言数据中的噪音数据进行去噪处理,得到第一目标数据;根据第一目标数据和第一视频帧图像生成视频流。由此,在视频流传输场景下,聚焦发言人进行视频帧图像的拍摄,并且抑制非发言人的噪音,提高了视频流的质量,满足了多种场景下的视频需求。
-
-
-
-
-
-
-
-
-