语音端点检测方法、装置、电子设备及存储介质

    公开(公告)号:CN113345472A

    公开(公告)日:2021-09-03

    申请号:CN202110502922.2

    申请日:2021-05-08

    Abstract: 本公开公开了语音端点检测方法、装置、电子设备及存储介质,涉及深度学习以及智能语音等人工智能领域,其中的方法可包括:获取时间对齐的语音数据及视频数据;利用训练得到的语音检测模型,对语音数据进行语音起点和语音尾点的第一检测;对视频数据进行唇动起点和唇动尾点的第二检测;利用第二检测结果对第一检测结果进行修正,将修正后的结果作为语音端点检测结果。应用本公开所述方案,可提升语音端点检测结果的准确性等。

    智能终端的唤醒方法、装置及电子设备

    公开(公告)号:CN112669837A

    公开(公告)日:2021-04-16

    申请号:CN202011483490.7

    申请日:2020-12-15

    Abstract: 本申请公开了一种智能终端的唤醒方法、装置及电子设备,涉及语音识别、自然语言处理、深度学习等人工智能技术领域。实现方案为:采集视频数据及音频数据;对视频数据进行人体检测,以确定视频数据中用户的第一位置;对音频数据进行解析,以确定音频数据是否为唤醒事件及唤醒事件对应的唤醒方位;在音频数据为唤醒事件的情况下,根据与唤醒事件关联的视频数据中用户的第一位置与唤醒方位的匹配度,确定唤醒事件的置信度;根据唤醒事件的置信度,确定是否唤醒智能终端。由此,将视频数据和音频数据相结合,以确定进行智能终端的语音唤醒,有利于避免误唤醒的现象、提高唤醒的可靠性,进而提升对话系统的体验。

    语音端点检测方法、装置、电子设备及存储介质

    公开(公告)号:CN113345472B

    公开(公告)日:2022-03-25

    申请号:CN202110502922.2

    申请日:2021-05-08

    Abstract: 本公开公开了语音端点检测方法、装置、电子设备及存储介质,涉及深度学习以及智能语音等人工智能领域,其中的方法可包括:获取时间对齐的语音数据及视频数据;利用训练得到的语音检测模型,对语音数据进行语音起点和语音尾点的第一检测;对视频数据进行唇动起点和唇动尾点的第二检测;利用第二检测结果对第一检测结果进行修正,将修正后的结果作为语音端点检测结果。应用本公开所述方案,可提升语音端点检测结果的准确性等。

    视频流的生成方法、装置、设备及存储介质

    公开(公告)号:CN112788278B

    公开(公告)日:2023-04-07

    申请号:CN202011643811.5

    申请日:2020-12-30

    Abstract: 本公开公开了一种视频流的生成方法、装置、设备及存储介质,涉及语音技术领域、视频处理技术领域、计算机视觉技术领域和深度学习技术领域。具体实现方案为:当监测到语音数据时,确定与语音数据对应的第一发言用户;控制预设摄像头对焦第一发言用户拍摄第一视频帧图像,并采集第一发言用户的第一发言数据;对第一发言数据中的噪音数据进行去噪处理,得到第一目标数据;根据第一目标数据和第一视频帧图像生成视频流。由此,在视频流传输场景下,聚焦发言人进行视频帧图像的拍摄,并且抑制非发言人的噪音,提高了视频流的质量,满足了多种场景下的视频需求。

    智能终端的唤醒方法、装置及电子设备

    公开(公告)号:CN112669837B

    公开(公告)日:2022-12-06

    申请号:CN202011483490.7

    申请日:2020-12-15

    Abstract: 本申请公开了一种智能终端的唤醒方法、装置及电子设备,涉及语音识别、自然语言处理、深度学习等人工智能技术领域。实现方案为:采集视频数据及音频数据;对视频数据进行人体检测,以确定视频数据中用户的第一位置;对音频数据进行解析,以确定音频数据是否为唤醒事件及唤醒事件对应的唤醒方位;在音频数据为唤醒事件的情况下,根据与唤醒事件关联的视频数据中用户的第一位置与唤醒方位的匹配度,确定唤醒事件的置信度;根据唤醒事件的置信度,确定是否唤醒智能终端。由此,将视频数据和音频数据相结合,以确定进行智能终端的语音唤醒,有利于避免误唤醒的现象、提高唤醒的可靠性,进而提升对话系统的体验。

    视频流的生成方法、装置、设备及存储介质

    公开(公告)号:CN112788278A

    公开(公告)日:2021-05-11

    申请号:CN202011643811.5

    申请日:2020-12-30

    Abstract: 本公开公开了一种视频流的生成方法、装置、设备及存储介质,涉及语音技术领域、视频处理技术领域、计算机视觉技术领域和深度学习技术领域。具体实现方案为:当监测到语音数据时,确定与语音数据对应的第一发言用户;控制预设摄像头对焦第一发言用户拍摄第一视频帧图像,并采集第一发言用户的第一发言数据;对第一发言数据中的噪音数据进行去噪处理,得到第一目标数据;根据第一目标数据和第一视频帧图像生成视频流。由此,在视频流传输场景下,聚焦发言人进行视频帧图像的拍摄,并且抑制非发言人的噪音,提高了视频流的质量,满足了多种场景下的视频需求。

Patent Agency Ranking