-
公开(公告)号:CN115937726A
公开(公告)日:2023-04-07
申请号:CN202110605312.5
申请日:2021-05-31
Applicant: 华为云计算技术有限公司
Abstract: 本申请提供了一种说话人检测方法、装置、设备及计算机可读存储介质,其中,该方法包括如下步骤:获取场景在目标时间段的视频数据和音频数据,其中,该场景包括至少一个人员;根据上述视频数据获得上述场景中人员的嘴部特征;根据上述音频数据获得上述场景中人员的音频特征;根据上述嘴部特征和上述音频特征,确定在目标时间段内上述场景中的说话人。利用该方法能够提高场景中的说话人检测的准确率。
-
公开(公告)号:CN115862584A
公开(公告)日:2023-03-28
申请号:CN202111124499.3
申请日:2021-09-24
Applicant: 华为云计算技术有限公司
IPC: G10L13/02 , G10L13/10 , G10L15/26 , G06F40/117 , G06F40/284
Abstract: 本申请实施例公开了一种韵律信息标注方法以及相关设备,用于提高标注的效率。本申请实施例方法包括:计算机设备获取音频信息以及第一文本信息。计算机设备标注第一文本信息中的韵律词以及韵律短语,得到第一标注后文本,第一标注后文本中的韵律短语需要基于所述音频信息进行。计算机设备基于第一标注后文本中标注的韵律词、第一标注后文本中标注的韵律短语以及音频信息标注第一标注后文本中的语调短语,得到第二标注后文本。
-
公开(公告)号:CN115269884A
公开(公告)日:2022-11-01
申请号:CN202110905684.X
申请日:2021-08-06
Applicant: 华为云计算技术有限公司
IPC: G06F16/432 , G06F16/483 , G10L25/57
Abstract: 本申请提供了一种生成视频语料的方法,具体为获取待处理视频,该待处理视频对应语音内容,并且待处理视频的部分视频图像包括语音内容对应的字幕。然后,根据该语音内容,从待处理视频中获取目标视频片段,并将该目标视频片段中的视频图像包括的字幕作为该目标视频片段的标注文本,得到视频语料。如此,可以实现自动生成视频语料,从而不仅可以避免人工标注过程中因为主观认知误差而导致对于切分精度的影响,而且生成视频语料的效率通常也较高。并且,可以避免生成的视频语料中出现语音内容播放不完整的问题,同时,视频语料的标注文本的准确性更高。此外,本申请还提供了一种视频语料生成装置及相关设备。
-
-