-
公开(公告)号:CN110517698A
公开(公告)日:2019-11-29
申请号:CN201910837580.2
申请日:2019-09-05
Applicant: 科大讯飞股份有限公司 , 咪咕数字传媒有限公司
Abstract: 本申请提供了一种声纹模型的确定方法、装置、设备及存储介质,其中,方法包括:获取目标语音的至少一个语谱片段,通过预先建立的声纹提取模型,确定每个语谱片段的至少一个第一特征图,其中,第一特征图中的各特征点相互独立,通过声纹提取模型,确定每个第一特征图对应的、包含其全局信息的第二特征图,获得每个语谱片段的至少一个第二特征图,其中,一个第一特征图对应的第二特征图为对该第一特征图中能够区分声纹的特征区域进行强化后的特征图;至少利用每个语谱片段的至少一个第二特征图,以及声纹提取模型,确定目标语音的声纹模型。本申请提供的声纹模型确定方法能够针对目标语音确定出稳定且精准的声纹模型。
-
公开(公告)号:CN106033670B
公开(公告)日:2019-11-15
申请号:CN201510121720.8
申请日:2015-03-19
Applicant: 科大讯飞股份有限公司
Abstract: 本发明公开了一种声纹密码认证方法及系统,该方法包括:接收登录用户的语音数据,并将所述语音数据作为测试语音数据;提取所述测试语音数据的特征,得到测试语音特征;利用所述测试语音特征及注册说话人模型估计测试语音相对于注册语音的特征域偏差,得到第一特征域偏差;根据所述第一特征域偏差对所述测试语音特征进行修正,得到第一修正测试语音特征;利用所述第一修正测试语音特征进行声纹认证。本发明可以提升声纹认证的准确度。
-
公开(公告)号:CN109829356A
公开(公告)日:2019-05-31
申请号:CN201811482879.2
申请日:2018-12-05
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供了一种神经网络的训练方法及基于神经网络的行人属性识别方法,该识别方法包括:获取待识别的目标行人图像;对目标行人图像作身体区域分割,获取与不同身体区域对应的多个局部图像;将多个局部图像分别输入至预先经过训练的与不同身体区域相对应的多个属性识别网络,得到与不同身体区域对应的多组目标行人属性;其中,目标属性识别网络用于结合目标行人图像中行人的性别信息,以及目标局部图像中目标身体区域的方向信息,来识别目标行人图像中行人的全身属性,以及专属于目标身体区域的行人属性;对多组目标行人属性进行汇总处理,得到目标行人图像的多个目标行人属性。本发明能够在识别行人属性时,提升泛化能力以及识别准确度。
-
公开(公告)号:CN108345679A
公开(公告)日:2018-07-31
申请号:CN201810159175.5
申请日:2018-02-26
Applicant: 科大讯飞股份有限公司
IPC: G06F17/30
Abstract: 本申请提供了一种音视频检索方法、装置、设备及可读存储介质,方法包括:获取输入的检索词;在预先构建的文本文档库中确定包含检索词的目标文本文档,文本文档库中的每一文本文档由对应的音视频文件转写得到;对于每篇目标文本文档,从目标文本文档中确定与检索词相关的文本内容,获得每篇目标文本文档对应的文本内容;通过每篇目标文本文档对应的文本内容与检索词的相关度,以及各目标文本文档对应的音视频文件,确定检索结果。本申请去除了与检索词无关的内容对检索结果的影响,大大提高了检索准确度。
-
公开(公告)号:CN106033670A
公开(公告)日:2016-10-19
申请号:CN201510121720.8
申请日:2015-03-19
Applicant: 科大讯飞股份有限公司
Abstract: 本发明公开了一种声纹密码认证方法及系统,该方法包括:接收登录用户的语音数据,并将所述语音数据作为测试语音数据;提取所述测试语音数据的特征,得到测试语音特征;利用所述测试语音特征及注册说话人模型估计测试语音相对于注册语音的特征域偏差,得到第一特征域偏差;根据所述第一特征域偏差对所述测试语音特征进行修正,得到第一修正测试语音特征;利用所述第一修正测试语音特征进行声纹认证。本发明可以提升声纹认证的准确度。
-
公开(公告)号:CN120065170A
公开(公告)日:2025-05-30
申请号:CN202510551685.7
申请日:2025-04-29
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种定位建图方法、装置、机器人、存储介质和程序产品,涉及人工智能技术领域,包括:每采集到一个初始雷达帧,基于机器人的性能指标确定目标帧长度;该目标帧长度大于或等于初始雷达帧的长度,性能指标包括以下至少一种:表征机器人的运动能力的第一类指标,表征机器人的计算能力的第二类指标;获得目标帧长度的目标雷达帧;其中,目标雷达帧为当前采集到的初始雷达帧,或者,目标雷达帧由当前采集到的初始雷达帧,以及前一次采集到的初始雷达帧中的部分点构成;基于目标雷达帧进行定位、建图。本申请提高了机器人的定位精度和建图效果。
-
公开(公告)号:CN115866147B
公开(公告)日:2025-05-20
申请号:CN202211398986.3
申请日:2022-11-09
Applicant: 科大讯飞股份有限公司
IPC: H04N1/00
Abstract: 本申请提供了一种图像处理方法、系统、存储介质和电子设备,用于根据图像确定实际页面摆放位置以判断其是否超出摄影设备的视野范围,解决了在判断页面是否超出摄影设备的视野范围时精度不够,易受页面边缘空白区域干扰的问题。该图像处理方法包括:获取利用摄像设备采集的、目标书籍的当前页的页面图像;在基于页面图像确定当前页疑似超出摄像设备的视野范围的情况下,对页面图像进行文字识别,得到页面图像包含的第一文本内容;获取目标书籍的当前页的第二文本内容;基于第一文本内容和第二文本内容,确定当前页是否超出摄像设备的视野范围。通过本申请的方案,排除了页面边缘空白区域在确定页面摆放位置时造成的干扰,提高了精度。
-
公开(公告)号:CN119992578A
公开(公告)日:2025-05-13
申请号:CN202510056895.9
申请日:2025-01-14
Applicant: 科大讯飞股份有限公司
IPC: G06V30/413 , G06V30/18 , G06V30/414 , G06V10/82
Abstract: 本申请提出一种表格识别方法及相关装置,涉及图像识别技术领域。该表格识别方法可以包括:提取表格图像的视觉特征;其中,所述视觉特征包括:表格行特征和表格列特征;基于所述表格行特征确定行线关键点,以及基于所述表格列特征确定列线关键点;基于所述行线关键点预测行分割线,以及基于所述列线关键点预测列分割线;基于预测得到的所述行分割线与所述列分割线,生成结构化表格。本申请提供的技术方案用于解决现有技术中表格识别准确性低的问题。
-
公开(公告)号:CN119991764A
公开(公告)日:2025-05-13
申请号:CN202510459227.0
申请日:2025-04-14
Applicant: 科大讯飞股份有限公司
Abstract: 本发明涉及计算机视觉技术领域,提供了一种人体深度估计方法、装置、电子设备和存储介质,其中方法包括:获取待估计人员在多个相机视角下的人体图像,并据此进行三维人体建模,得到多个相机视角下的人体图像对应的三维人体模型;基于三维人体模型进行投影,并对投影所得到的待估计人员在多个相机视角下的深度图进行压缩输出,解决了目前对于弱纹理区域无法恢复深度,导致深度图存在空洞的问题,能够有效求解出弱纹理区域的深度信息,从而保证了人体深度估计的准确性和完整性,而通过对深度图进行压缩输出,不仅减少了输出文件数量,提升了传输速度,减少了传输空间占用,还提升了信息的完整性和有序性,实现了对输出结果的有效简化,便于取用。
-
公开(公告)号:CN119943039A
公开(公告)日:2025-05-06
申请号:CN202510423624.2
申请日:2025-04-07
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种语音识别方法、系统、设备、介质及产品,涉及语音处理技术领域,其中方法包括:根据当前语音数据流中各语音片段的时频特征,对各所述语音片段进行下采样,得到待识别语音序列;对所述待识别语音序列中的各数据单元进行编码,并将编码完成的数据单元对应的编码特征缓存至目标缓存区间;通过解码线程异步从所述目标缓存区间中加载多个目标编码特征,并对多个所述目标编码特征进行解码,得到所述当前语音数据流的实时语音识别结果。本发明实现通过动态下采样和多线程异步并发处理的机制进行语音识别,可有效保障在有限资源的条件下,也能有效提升识别精度、实时性和能效。
-
-
-
-
-
-
-
-
-