-
-
公开(公告)号:CN111222005B
公开(公告)日:2023-01-13
申请号:CN202010018417.6
申请日:2020-01-08
Applicant: 科大讯飞股份有限公司(CN)
IPC: G06F16/635 , G06F16/638
Abstract: 本申请提供了一种声纹数据重排序方法、装置、电子设备及存储介质,首先从预设声纹数据库中获取与目标声纹数据对应的相似声纹数据;计算所述相似声纹数据与所述目标声纹数据之间的第一相似度得分;同时,对所述目标声纹数据对应的目标最近邻集合进行优化处理得到目标优化最近邻集合,以及,对所述相似声纹数据对应的相似最近邻集合进行优化处理得到相似优化最近邻集合;再计算所述目标优化最近邻集合与所述相似优化最近邻集合之间的第二相似度得分;最后基于所述第一相似度得分和所述第二相似度得分进行计算,得到所述目标声纹数据和所述相似声纹数据的重排序数据。可以降低声纹数据检索过程的复杂度,且大大提高了声纹数据重排序结果的准确性。
-
公开(公告)号:CN109829356B
公开(公告)日:2021-04-06
申请号:CN201811482879.2
申请日:2018-12-05
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供了一种神经网络的训练方法及基于神经网络的行人属性识别方法,该识别方法包括:获取待识别的目标行人图像;对目标行人图像作身体区域分割,获取与不同身体区域对应的多个局部图像;将多个局部图像分别输入至预先经过训练的与不同身体区域相对应的多个属性识别网络,得到与不同身体区域对应的多组目标行人属性;其中,目标属性识别网络用于结合目标行人图像中行人的性别信息,以及目标局部图像中目标身体区域的方向信息,来识别目标行人图像中行人的全身属性,以及专属于目标身体区域的行人属性;对多组目标行人属性进行汇总处理,得到目标行人图像的多个目标行人属性。本发明能够在识别行人属性时,提升泛化能力以及识别准确度。
-
公开(公告)号:CN111968650A
公开(公告)日:2020-11-20
申请号:CN202010826186.1
申请日:2020-08-17
Applicant: 科大讯飞股份有限公司
IPC: G10L17/00 , G10L17/22 , G10L21/0272
Abstract: 本发明实施例提供一种语音匹配方法、装置、电子设备及存储介质,所述方法包括:确定待匹配话单的两个待匹配号码;将待匹配话单中的语音数据的声纹特征分别与两个待匹配号码的声纹特征进行匹配,得到待匹配话单中的语音数据与两个待匹配号码的匹配关系;其中,任一待匹配号码的声纹特征是对该待匹配号码的话单集中每一语音数据的声纹特征进行聚类得到的,该待匹配号码的话单集包括多个以该待匹配号码为一端、不同号码为另一端的话单。本发明实施例提供的方法、装置、电子设备及存储介质,保证了语音数据与其对应主被叫号码的一致性。
-
公开(公告)号:CN111128223A
公开(公告)日:2020-05-08
申请号:CN201911424875.3
申请日:2019-12-30
Applicant: 科大讯飞股份有限公司
IPC: G10L21/0272 , G10L25/03
Abstract: 本申请实施例公开了一种基于文本信息的辅助说话人分离方法及相关装置,方法包括:获取待分离的第一语音信息;对待分离的第一语音信息进行第一分离处理,得到第一分离结果,第一分离处理是指对第一语音信息中的不同说话人进行初步分割和聚类;对第一分离结果进行语音处理,得到第二语音信息,语音处理包括语音识别或语音表征信息采集;将第二语音信息输入预先训练好的说话人转变点识别模型,确定第二语音信息中的说话人的转变点;根据说话人的转变点和第一分离结果得到目标分离结果。可见,本申请通过获取的第一语音信息获取文本信息,融合底层声学特征与文本信息进行说话人分离,提高说话人分离的准确性。
-
公开(公告)号:CN110164417A
公开(公告)日:2019-08-23
申请号:CN201910470489.1
申请日:2019-05-31
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语种向量获得、语种识别的方法和相关装置,该方法包括:将各个长时语音数据切分获得短时语音片段,利用全变量因子分析技术得到各个语音数据和各个语音片段的语种向量;基于各个语音数据和各个语音片段的语种向量进行时长干扰属性投影处理获得时长干扰投影矩阵;利用时长干扰投影矩阵将各个语音数据的语种向量映射为各个语音数据的新语种向量。可见,该方法充分有效挖掘长时语音数据和短时语音片段的相互关联信息。即使短时语音数据利用上述全变量空间和时长干扰投影矩阵进行时长因素补偿也能够得到更加精准、稳定的新语种向量,从而提高短时语音语种识别的准确性。
-
公开(公告)号:CN110084229A
公开(公告)日:2019-08-02
申请号:CN201910228663.1
申请日:2019-03-25
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供了一种印章检测方法、装置、设备及可读存储介质,首先获取待检测图像,然后从待检测图像中检测疑似印章区域,获得疑似印章区域集合,最后基于真实印章的固有特征,从疑似印章区域集合中确定真实印章区域。本申请提供的印章检测方法能够基于印章的固有特征自动对待检测图像进行印章检测,这种检测方式不但节省了人工成本,而且提高了印章检测效率,并且,本申请提供的印章检测方法具有较高的检测准确度。
-
公开(公告)号:CN108228574A
公开(公告)日:2018-06-29
申请号:CN201711288979.7
申请日:2017-12-07
Applicant: 科大讯飞股份有限公司
Abstract: 本发明实施例提供一种文本翻译处理方法及装置,属于语言处理技术领域。该方法包括:若第一识别文本的识别置信度大于第一预设阈值且第一目标语言文本的翻译置信度不大于第二预设阈值,则对第一目标语言文本进行翻译,得到第二识别文本;若第一识别文本与第二识别文本之间语义不等价,获取关键名词及关键名词的类型;基于关键名词的类型对关键名词进行翻译,得到第一翻译结果,对第一识别文本中除关键名词之外的其它内容进行翻译,得到第二翻译结果,将第一翻译结果与第二翻译结果进行合并得到第二目标语言文本。由于可将第一识别文本中的关键名词作为一个整体分词,按照关键名词类型对关键名词进行翻译,从而可使得翻译结果更加准确。
-
公开(公告)号:CN107910004A
公开(公告)日:2018-04-13
申请号:CN201711107221.9
申请日:2017-11-10
Applicant: 科大讯飞股份有限公司
CPC classification number: G10L15/26 , G06F17/289 , G10L13/04 , G10L15/22
Abstract: 本发明实施例提供一种语音翻译处理方法及装置,属于语言处理技术领域。该方法包括:在对第一合成语音信号进行播报的过程中,若接收到包含有部分第一合成语音信号的混合语音信号,则停止播报第一合成语音信号。从混合语音信号过滤掉部分第一合成语音信号,得到当前轮次待翻译的语音信号,并作为目标语音信号。基于目标语音信号,获取第二合成语音信号,并播报第二合成语音信号。本发明实施例在接收到包含有部分第一合成语音信号的混合语音信号时,停止播报第一合成语音信号,并播报第二合成语音信号。由于沟通过程中的任意一方,均可按照全双工模式随时打断播报过程,而不用每次都等到一轮播报过程结束,从而可提高沟通效率。
-
公开(公告)号:CN111524502B
公开(公告)日:2024-04-30
申请号:CN202010460914.1
申请日:2020-05-27
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提出一种语种检测方法、装置、设备及存储介质,该方法包括:获取待检测语音数据的各个语音数据段的声学特征;基于预先构建的正交化投影空间,分别将所述各个语音数据段的声学特征映射为语种表征特征;其中,所述正交化投影空间中的指定语种的投影空间与非指定语种的投影空间不重叠;根据所述各个语音数据段的语种表征特征,确定所述各个语音数据段的语种为指定语种或非指定语种。上述方案通过提取待检测语音数据中的各个语音数据段的语种表征特征,来识别各个语音数据段的语种为指定语种或非指定语种。当待检测语音数据为包含混合语种的语音数据时,通过执行上述方案,可以从待检测语音数据中检测出不同语种的语音数据段。
-
-
-
-
-
-
-
-
-