一种语种识别模型训练、语种识别的方法和相关装置

    公开(公告)号:CN112133291B

    公开(公告)日:2024-02-13

    申请号:CN201910487339.1

    申请日:2019-06-05

    Abstract: 本申请公开了一种语种识别模型训练、语种识别的方法和相关装置,该方法包括:语种标签和随机噪声输入生成网络获得伪语种向量;训练语音数据的语种特征输入神经网络获得真语种向量;将伪语种向量和真语种向量分别输入判别网络获得判别概率和预测语种标签;基于判别概率和预测语种标签训练生成网络、神经网络和判别网络获得语种识别模型。生成网络与判别网络基于随机噪声辅以语种标签模拟语种特征分布增强语种特征,语种标签降低网络收敛难度;神经网络与判别网络处理训练语音数据的语种特征,降低生成网络的模拟复杂度;时长较短语音数据通过语种识别模型能够得到更加精准、稳定的语种向量,提高短时语音语种识别的精度和准确度。

    声纹表征模型的训练方法及相关装置

    公开(公告)号:CN110491393B

    公开(公告)日:2022-04-22

    申请号:CN201910817491.1

    申请日:2019-08-30

    Inventor: 方昕 刘俊华 柳林

    Abstract: 本申请实施例公开了一种声纹表征模型的训练方法及装置,所述方法包括如下步骤:将语音数据集的多条语音数据执行特征提取操作,得到多个原始语音特征;将所述多个原始语音特征执行声纹表征操作、内容识别操作以及语音合成操作得到多个合成语音特征;依据所述多个合成语音特征和所述多个原始语音特征构建损失函数,依据所述损失函数对初始声纹表征模型的参数进行更新得到训练后的声纹表征模型。本申请提供的技术方案具有成本低的优点。

    一种声纹模型的确定方法、装置、设备及存储介质

    公开(公告)号:CN110517698B

    公开(公告)日:2022-02-01

    申请号:CN201910837580.2

    申请日:2019-09-05

    Abstract: 本申请提供了一种声纹模型的确定方法、装置、设备及存储介质,其中,方法包括:获取目标语音的至少一个语谱片段,通过预先建立的声纹提取模型,确定每个语谱片段的至少一个第一特征图,其中,第一特征图中的各特征点相互独立,通过声纹提取模型,确定每个第一特征图对应的、包含其全局信息的第二特征图,获得每个语谱片段的至少一个第二特征图,其中,一个第一特征图对应的第二特征图为对该第一特征图中能够区分声纹的特征区域进行强化后的特征图;至少利用每个语谱片段的至少一个第二特征图,以及声纹提取模型,确定目标语音的声纹模型。本申请提供的声纹模型确定方法能够针对目标语音确定出稳定且精准的声纹模型。

    目标图像检索方法及系统
    44.
    发明授权

    公开(公告)号:CN109299304B

    公开(公告)日:2021-12-07

    申请号:CN201811250718.0

    申请日:2018-10-25

    Abstract: 本发明公开了一种目标图像检索方法及系统,其中方法包括:提取图像样本库中各图像样本的样本特征点;滤除每幅图像样本中冗余的样本特征点;利用滤除冗余后的样本特征点构建公共特征点集合和私有特征点集合;提取待处理图像的待处理特征点;将所述待处理特征点与所述公共特征点集合和所述私有特征点集合中的样本特征点进行匹配,得到每幅图像样本的匹配得分;选取匹配得分最高的图像样本作为目标图像。本发明通过压缩样本特征点冗余的方式精简图像样本库,在减少匹配次数的同时能够显著加快匹配速度,进而提升匹配的精准度,使得整个检索过程相较现有技术在效率和效果上皆具有明显的改善。

    语音翻译处理方法及装置
    45.
    发明授权

    公开(公告)号:CN107886940B

    公开(公告)日:2021-10-08

    申请号:CN201711107222.3

    申请日:2017-11-10

    Abstract: 本发明实施例提供一种语音翻译处理方法及装置,属于语言处理技术领域。该方法包括:若判断获知上一轮次的第一语音信号与当前轮次待翻译的第二语音信号均对应相同的语种类型,则基于第一语音信号对应的文本数据对第二语音信号对应的文本数据进行调整,得到第二语音信号对应调整后的文本数据;获取调整后的文本数据对应的合成语音信号,并播报合成语音信号。由于上一轮次的第一语音信号与当前轮次待翻译的第二语音信号在内容上可能是有关联的,从而基于第一语音信号对应的文本数据对第二语音信号对应的文本数据进行调整,可使得翻译结果会更加切合场景且更加精准。

    一种视频的情感识别方法、装置、设备及可读存储介质

    公开(公告)号:CN109783684B

    公开(公告)日:2021-07-06

    申请号:CN201910072964.X

    申请日:2019-01-25

    Abstract: 本申请提供了一种视频的情感识别方法、装置、设备及可读存储介质,方法包括:获取待识别视频,并基于指定的边界划分依据对待识别视频进行粗粒度的边界划分,获得粗粒度视频片段;基于粗粒度视频片段的时空语义信息,对粗粒度视频片段进行细粒度的边界划分,获得细粒度视频片段;确定细粒度视频片段的至少一种情感识别结果,并通过细粒度视频片段的至少一种情感识别结果获得待识别视频的情感识别结果。本申请提供的情感识别方法具有较高的识别准确度。

    一种目标检测方法、装置、设备及可读存储介质

    公开(公告)号:CN109784290B

    公开(公告)日:2021-03-05

    申请号:CN201910063147.8

    申请日:2019-01-23

    Abstract: 本申请提供了一种目标检测方法、装置、设备及可读存储介质,目标检测方法包括:获取目标场景下的图像序列中的一待检测图像,获取目标场景下的各类目标在待检测图像各对应位置的出现情况;基于预设的前景检测算法以及目标场景下的各类目标在待检测图像中的出现情况,确定待检测图像对应的目标检测结果。本申请提供的目标检测方法能够大大减少前景检测效果不理想带来的虚警,还能够减少短时间内静止目标的漏警,并且还能够大大降低目标检测的运算量,提高目标检测效率。

    一种语种识别模型训练、语种识别的方法和相关装置

    公开(公告)号:CN112133291A

    公开(公告)日:2020-12-25

    申请号:CN201910487339.1

    申请日:2019-06-05

    Abstract: 本申请公开了一种语种识别模型训练、语种识别的方法和相关装置,该方法包括:语种标签和随机噪声输入生成网络获得伪语种向量;训练语音数据的语种特征输入神经网络获得真语种向量;将伪语种向量和真语种向量分别输入判别网络获得判别概率和预测语种标签;基于判别概率和预测语种标签训练生成网络、神经网络和判别网络获得语种识别模型。生成网络与判别网络基于随机噪声辅以语种标签模拟语种特征分布增强语种特征,语种标签降低网络收敛难度;神经网络与判别网络处理训练语音数据的语种特征,降低生成网络的模拟复杂度;时长较短语音数据通过语种识别模型能够得到更加精准、稳定的语种向量,提高短时语音语种识别的精度和准确度。

    声纹数据重排序方法、装置、电子设备及存储介质

    公开(公告)号:CN111222005A

    公开(公告)日:2020-06-02

    申请号:CN202010018417.6

    申请日:2020-01-08

    Abstract: 本申请提供了一种声纹数据重排序方法、装置、电子设备及存储介质,首先从预设声纹数据库中获取与目标声纹数据对应的相似声纹数据;计算所述相似声纹数据与所述目标声纹数据之间的第一相似度得分;同时,对所述目标声纹数据对应的目标最近邻集合进行优化处理得到目标优化最近邻集合,以及,对所述相似声纹数据对应的相似最近邻集合进行优化处理得到相似优化最近邻集合;再计算所述目标优化最近邻集合与所述相似优化最近邻集合之间的第二相似度得分;最后基于所述第一相似度得分和所述第二相似度得分进行计算,得到所述目标声纹数据和所述相似声纹数据的重排序数据。可以降低声纹数据检索过程的复杂度,且大大提高了声纹数据重排序结果的准确性。

    单通检测方法及装置
    50.
    发明授权

    公开(公告)号:CN107846520B

    公开(公告)日:2020-02-11

    申请号:CN201711015585.4

    申请日:2017-10-26

    Abstract: 本发明实施例提供一种单通检测方法及装置,属于移动通信领域。该方法包括:获取进行语音通话的第一终端和第二终端,所分别对应的第一通话记录和第二通话记录;基于语音通话参数分别对第一通话记录及第二通话记录进行检测,根据检测结果确定第二终端是否发生感知单通。本发明实施例通过获取进行语音通话的第一终端和第二终端,所分别对应的第一通话记录和第二通话记录。基于语音通话参数分别对第一通话记录及第二通话记录进行检测,根据检测结果确定第二终端是否发生感知单通。由于可按照多种类型的语音通话参数,在语音语义层面上对用户行为进行分析,从而在降低单通误判率的同时,提升了单通检测效果。

Patent Agency Ranking