-
公开(公告)号:CN112992190A
公开(公告)日:2021-06-18
申请号:CN202110145224.1
申请日:2021-02-02
申请人: 北京字跳网络技术有限公司
摘要: 本公开提供一种音频信号的处理方法、装置、电子设备和存储介质。该方法的一具体实施方式包括:获取目标音频信号;基于目标音频信号的时域图和预设的音量阈值,确定目标音频信号的激活区域;基于目标音频信号的频谱质心序列和预设的序列分布阈值,确定目标音频信号的回声啸叫区域;基于目标音频信号的梅尔频率倒谱和预先训练的机器学习模型,确定目标音频信号的人声区域和噪声区域;根据激活区域、回声啸叫区域、人声区域和噪声区域,确定目标音频信号对应的目标人声区域。该实施方式能够获得高质量的清晰人声,有利于提高语音识别或语种识别的准确性。
-
公开(公告)号:CN112992190B
公开(公告)日:2021-12-10
申请号:CN202110145224.1
申请日:2021-02-02
申请人: 北京字跳网络技术有限公司
摘要: 本公开提供一种音频信号的处理方法、装置、电子设备和存储介质。该方法的一具体实施方式包括:获取目标音频信号;基于目标音频信号的时域图和预设的音量阈值,确定目标音频信号的激活区域;基于目标音频信号的频谱质心序列和预设的序列分布阈值,确定目标音频信号的回声啸叫区域;基于目标音频信号的梅尔频率倒谱和预先训练的机器学习模型,确定目标音频信号的人声区域和噪声区域;根据激活区域、回声啸叫区域、人声区域和噪声区域,确定目标音频信号对应的目标人声区域。该实施方式能够获得高质量的清晰人声,有利于提高语音识别或语种识别的准确性。
-
公开(公告)号:CN112650830B
公开(公告)日:2021-11-26
申请号:CN202011297172.1
申请日:2020-11-17
申请人: 北京字跳网络技术有限公司
IPC分类号: G06F16/33 , G06F16/35 , G06F40/216 , G06F40/284 , G10L15/183
摘要: 本公开提供一种关键词提取方法、装置、电子设备和存储介质。该方法的一具体实施方式包括:对目标文本对应的候选关键词集合中各候选关键词进行向量表示得到对应的向量;对各候选关键词对应的向量进行异常点检测,得到异常点向量集合;删除候选关键词集合中与各异常点向量对应的关键词;将候选关键词集合确定为与目标文本对应的关键词集合。该实施方式提高了关键词提取的准确度。
-
公开(公告)号:CN112650830A
公开(公告)日:2021-04-13
申请号:CN202011297172.1
申请日:2020-11-17
申请人: 北京字跳网络技术有限公司
IPC分类号: G06F16/33 , G06F16/35 , G06F40/216 , G06F40/284 , G10L15/183
摘要: 本公开提供一种关键词提取方法、装置、电子设备和存储介质。该方法的一具体实施方式包括:对目标文本对应的候选关键词集合中各候选关键词进行向量表示得到对应的向量;对各候选关键词对应的向量进行异常点检测,得到异常点向量集合;删除候选关键词集合中与各异常点向量对应的关键词;将候选关键词集合确定为与目标文本对应的关键词集合。该实施方式提高了关键词提取的准确度。
-
公开(公告)号:CN112954450B
公开(公告)日:2022-06-17
申请号:CN202110145223.7
申请日:2021-02-02
申请人: 北京字跳网络技术有限公司
IPC分类号: H04N21/44 , H04N21/845
摘要: 本公开提供一种视频处理方法、装置、电子设备和存储介质。该方法的一具体实施方式包括:根据目标视频中图像帧的差异度,确定目标视频中的场景段落;根据场景段落中图像帧包含的人脸信息,确定场景段落的场景段落关键帧;根据各场景段落关键帧对应的段落时长,从场景段落关键帧中选取预设数量的目标关键帧;根据目标关键帧,生成与目标视频关联的目标图像。该实施方式能够获得在人脸信息和段落时长上具有代表性的目标图像,有利于准确合理地体现视频内容。
-
公开(公告)号:CN112954450A
公开(公告)日:2021-06-11
申请号:CN202110145223.7
申请日:2021-02-02
申请人: 北京字跳网络技术有限公司
IPC分类号: H04N21/44 , H04N21/845
摘要: 本公开提供一种视频处理方法、装置、电子设备和存储介质。该方法的一具体实施方式包括:根据目标视频中图像帧的差异度,确定目标视频中的场景段落;根据场景段落中图像帧包含的人脸信息,确定场景段落的场景段落关键帧;根据各场景段落关键帧对应的段落时长,从场景段落关键帧中选取预设数量的目标关键帧;根据目标关键帧,生成与目标视频关联的目标图像。该实施方式能够获得在人脸信息和段落时长上具有代表性的目标图像,有利于准确合理地体现视频内容。
-
-
-
-
-