-
公开(公告)号:CN118942446A
公开(公告)日:2024-11-12
申请号:CN202410724295.0
申请日:2024-06-05
Applicant: 南京领行科技股份有限公司
IPC: G10L15/04 , G10L15/06 , G10L15/14 , G10L15/26 , G10L21/028
Abstract: 本发明实施例提供了一种语音来源判责方法、装置、电子设备和存储介质。所述方法包括:对目标音频进行处理,得到按照时序排列的多个语音片段;其中,所述语音片段携带有标识语音来源的第一标签,且时序相邻的两两语音片段携带的第一标签不相同;根据所述按照时序排列的多个语音片段,生成由所述语音片段对应的文本片段组成的文本集合;其中,所述文本片段携带有标识所述语音来源的第二标签;基于判责分类模型,根据所述文本集合,确定语音来源的判责结果,使得自动分离出音频中的语音片段以及语音来源,并生成文本片段,利用分类模型完成对语音来源的判责,实现了全链路的自动闭环处理,降低人力成本、提高判责效率和准确性。
-
公开(公告)号:CN118035936A
公开(公告)日:2024-05-14
申请号:CN202410188814.6
申请日:2024-02-20
Applicant: 南京领行科技股份有限公司
IPC: G06F18/25 , G06F18/213 , G06V40/16 , G06V10/774 , G06V10/44
Abstract: 本发明公开了一种唇形驱动模型的训练方法、唇形驱动方法、装置及设备,涉及人工智能技术领域,尤其涉及数字人、深度学习技术领域。该方法包括:分别对样本掩码图像和所述样本掩码图像对应的样本音频频谱进行降维处理,得到样本人脸图像特征和样本音频特征;对所述样本人脸图像特征和所述样本音频特征进行融合,得到图音融合特征;分别对所述图音融合特征进行处理,得到样本人脸预测图像和样本人脸预测轮廓;根据所述样本人脸图像特征、所述样本音频特征、所述样本人脸预测图像、所述样本人脸预测轮廓和标签数据,确定训练损失;采用所述训练损失,对唇形驱动模型进行训练。通过上述技术方案,能够提升生成数字人的图像质量。
-
公开(公告)号:CN117609790A
公开(公告)日:2024-02-27
申请号:CN202311694454.9
申请日:2023-12-11
Applicant: 南京领行科技股份有限公司
IPC: G06F18/214 , G06F18/22 , G06F18/23 , G06F18/2431 , G06N3/044 , G06N3/0464 , G06N3/084 , G06N3/088
Abstract: 本发明公开了一种训练行为序列预测模型、预测行为序列的方法、装置、设备及介质,涉及计算机技术领域。该方法包括:将第一行为序列样本集中的第一样本输入第一模型,获得第一样本的特征向量,基于该特征向量,对第一样本进行聚类,获得聚类结果;将第二行为序列样本集中的第二样本输入第二模型,获得第二样本对应的第一类别;基于聚类结果,确定第二样本对应的第二类别;根据第一类别和第二类别,更新第二模型的网络参数、第一模型的网络参数;迭代执行上述步骤,直至满足停止条件,在满足停止条件的情况下将更新后的第二模型作为行为序列预测模型。该方法将第一行为序列样本集的聚类结果作为伪标签,替代了人工标注标签,降低了样本收集和标注成本。
-
公开(公告)号:CN116740520A
公开(公告)日:2023-09-12
申请号:CN202310714577.8
申请日:2023-06-15
Applicant: 南京领行科技股份有限公司
IPC: G06V10/80 , G06V20/70 , G06V10/774 , G06V10/82
Abstract: 本申请提供了一种异常行为检测及特征融合模型训练方法,涉及计算机技术领域,可以将待检测图像的图像特征和预存的异常行为文本的文本特征,输入基于图像样本和文本样本共同训练的特征融合模型,得到待检测图像对应于异常行为文本的图像语义特征,并可以根据待检测图像对应于异常行为文本的图像语义特征,确定异常行为的检测结果。基于图像样本和文本样本共同训练的特征融合模型,对待检测图像进行检测,可以利用文本特征填补异常行为数据稀少所带来的信息匮乏缺陷,从而提高异常行为检测的准确度。
-
公开(公告)号:CN115937831A
公开(公告)日:2023-04-07
申请号:CN202211575200.0
申请日:2022-12-08
Applicant: 南京领行科技股份有限公司
Inventor: 王昌辉
IPC: G06V20/59 , G06V40/10 , G06V10/22 , G06V10/75 , G06V10/764 , G06V10/766
Abstract: 本公开涉及图像处理技术领域,公开了一种着装检测的方法、装置、智能终端及存储介质,该方法为:基于预设的多个着装位置点对图片进行区域截取,确定多个特征区域,图片是通过驾驶员检测系统DMS获取的包含司机着装的图片,不同的特征区域包括司机不同部位的着装信息,针对任意一个特征区域,将特征区域与标准区域进行比对,基于比对结果确定着装异常信息,将各特征区域对应的特征向量分别输入对应的逻辑回归分类器中,得到多个着装表现信息,基于着装异常信息和各着装表现信息判定着装是否规范,从而能够准确快速的对司机的着装进行检测,进而加强了乘客的乘车体验,增强了用户粘性。
-
-
-
-