-
公开(公告)号:CN113852730B
公开(公告)日:2023-12-01
申请号:CN202111144273.X
申请日:2021-09-28
Applicant: 科大讯飞股份有限公司
IPC: H04N1/00
Abstract: 本申请公开了一种倾斜角确定方法及其相关设备,方法包括:在获取到待校正图像之后,初始化投影角度范围和投影角度间隔;根据投影角度范围和投影角度间隔,确定至少一个候选投影角度;将待校正图像按照各个候选投影角度进行投影,得到各个候选投影角度的图像投影结果;根据这些图像投影结果,从这些候选投影角度中选择满足第一条件的目标投影角度;根据目标投影角度和投影角度间隔,更新投影角度范围,更新投影角度间隔,并继续执行“根据投影角度范围和投影角度间隔,确定至少一个候选投影角度”的步骤,直至在达到预设停止条件时,根据目标投影角度,确定待校正图像的倾斜角。如此能够提高图像倾斜角的准确性,从而能够提高结构化信息提取效果。
-
公开(公告)号:CN113852730A
公开(公告)日:2021-12-28
申请号:CN202111144273.X
申请日:2021-09-28
Applicant: 科大讯飞股份有限公司
IPC: H04N1/00
Abstract: 本申请公开了一种倾斜角确定方法及其相关设备,方法包括:在获取到待校正图像之后,初始化投影角度范围和投影角度间隔;根据投影角度范围和投影角度间隔,确定至少一个候选投影角度;将待校正图像按照各个候选投影角度进行投影,得到各个候选投影角度的图像投影结果;根据这些图像投影结果,从这些候选投影角度中选择满足第一条件的目标投影角度;根据目标投影角度和投影角度间隔,更新投影角度范围,更新投影角度间隔,并继续执行“根据投影角度范围和投影角度间隔,确定至少一个候选投影角度”的步骤,直至在达到预设停止条件时,根据目标投影角度,确定待校正图像的倾斜角。如此能够提高图像倾斜角的准确性,从而能够提高结构化信息提取效果。
-
公开(公告)号:CN112733829A
公开(公告)日:2021-04-30
申请号:CN202011627747.1
申请日:2020-12-31
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种特征块识别方法、电子设备及计算机可读存储介质,其中,该方法包括:获取包含特征块的待识别图像;其中,特征块具有预设形状;对待识别图像进行轮廓检测,得到包含待识别图像的前景轮廓信息的最终检测图像;基于最终检测图像中的前景轮廓信息,确定待识别图像中的特征块。通过上述方式,本申请能够提升特征块识别的准确性。
-
公开(公告)号:CN112733829B
公开(公告)日:2024-07-09
申请号:CN202011627747.1
申请日:2020-12-31
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种特征块识别方法、电子设备及计算机可读存储介质,其中,该方法包括:获取包含特征块的待识别图像;其中,特征块具有预设形状;对待识别图像进行轮廓检测,得到包含待识别图像的前景轮廓信息的最终检测图像;基于最终检测图像中的前景轮廓信息,确定待识别图像中的特征块。通过上述方式,本申请能够提升特征块识别的准确性。
-
公开(公告)号:CN119336913A
公开(公告)日:2025-01-21
申请号:CN202411543319.9
申请日:2024-10-31
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种文本审核方法及相关装置,涉及自然语言处理技术领域,文本审核方法包括:获取第一目标文本,第一目标文本为大模型的输入文本;确定第一目标文本的风险类别;若第一目标文本的风险类别为有害,输出预设的兜底回复;若第一目标文本的风险类别为无害,将第一目标文本输入大模型;在第一目标文本的风险类别为无害的情况下,还可获取大模型针对第一目标文本回复的文本,作为第二目标文本;确定第二目标文本的风险类别;若第二目标文本的风险类别为有害,则输出预设的兜底回复;若第二目标文本的风险类别为无害,则输出第二目标文本。本申请公开的文本审核方法能够确保大模型输出无害的文本。
-
公开(公告)号:CN118298830A
公开(公告)日:2024-07-05
申请号:CN202410520839.1
申请日:2024-04-28
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种特定说话人语音识别方法、装置、相关设备及计算机程序产品,采用解耦每个说话人的方式,给语音识别模型一个目标说话人的提示语音及待分离的混合语音,让模型一次只输出混合语音中该目标说话人的说话内容对应的识别文本,模型每次输出仅包含一个目标说话人的说话内容识别文本,可以保证说话人与说话内容识别文本间的对应匹配,且避免传统方案由于分隔符位置预测错误所导致的多个说话人的说话内容预测错误的情况。本申请方案中模型能够以目标说话人的提示语音作为参考,更加准确的从混合语音中分离出目标说话人的说话内容识别文本,提升了目标说话人语音识别结果的准确度。
-
公开(公告)号:CN118116024A
公开(公告)日:2024-05-31
申请号:CN202311868618.5
申请日:2023-12-29
Applicant: 科大讯飞股份有限公司
IPC: G06V30/416 , G06V30/42 , G06V30/244 , G06V30/226
Abstract: 本申请提出一种信息匹配方法、装置、电子设备及存储介质,该方法包括:从待匹配试卷中识别考生信息,得到预识别考生信息;基于字形结构相似度和字符串编辑距离,计算预识别考生信息与预先构建的考生信息库中的考生信息之间的相似度;其中,字形结构包括:笔画数、字符部首和字符笔画中的至少一种;根据预识别考生信息与考生信息库中的考生信息之间的相似度,确定待匹配试卷对应的目标考生信息。采用本申请的技术方案,能够在字形结构相似度和字符串编辑距离两种维度上对预识别考生信息与考生信息库中的各个考生信息进行匹配,确定待匹配试卷对应的目标考生信息,提高了试卷与考生之间的匹配准确度。
-
公开(公告)号:CN118380001A
公开(公告)日:2024-07-23
申请号:CN202410590383.6
申请日:2024-05-13
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种多说话人语音识别方法、装置、相关设备及计算机程序产品,涉及语音识别领域,获取混合语音中每一说话人的说话时间戳信息以及配置的每一说话人的标识向量,生成每一说话人相对于混合语音的嵌入向量表示,融合混合语音的声学特征向量和每一说话人相对于混合语音的嵌入向量表示,得到融合向量表示,通过该融合向量表示可以包含说话人信息及说话人边界信息,基于融合向量表示执行多说话人语音识别任务,可以有效提升对混合语音的识别结果的准确度。
-
公开(公告)号:CN118230715A
公开(公告)日:2024-06-21
申请号:CN202410468801.4
申请日:2024-04-18
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种音频文本强制对齐方法、装置、设备及可读存储介质。本方案中,在确定待对齐音频以及与待对齐音频对应的待对齐文本的音素标签序列之后,基于对齐路径中隶属于两个相邻单字的相邻两个音素标签之间包括预设停顿间隔标签,并且隶属于同一个单字的相邻两个音素标签之间不包括预设停顿间隔标签的规则,根据待对齐音频中各音频帧对应预设停顿间隔标签、预设静音标签、预设各音素标签的概率和待对齐文本的音素标签序列确定最终对齐路径,能够使得最终对齐路径中,不会出现隶属于两个相邻单字的相邻两个音素标签之间丢失停顿间隔的问题,也不会出现隶属于同一个单字的相邻两个音素标签之间包括停顿间隔的问题。
-
公开(公告)号:CN118197287A
公开(公告)日:2024-06-14
申请号:CN202410541327.3
申请日:2024-04-30
Applicant: 科大讯飞股份有限公司
IPC: G10L15/02 , G10L15/06 , G10L15/16 , G10L15/26 , G06N3/0442 , G06N3/0455 , G06N3/0464 , G06N3/088
Abstract: 本申请公开了一种语音识别方法、装置、相关设备及计算机程序产品,提供了一种基于转置的自注意力机制,可以先从第一维度(可以是通道维度或时间维度)对声学特征进行自注意力机制计算,对结果进行转置处理,之后沿第二维度(可以是时间维度或通道维度)对转置结果再次进行自注意力机制计算,从而实现了同时在通道维度和时间维度上通过自注意力机制进行建模,更好地进行多通道信息的融合,提升多通道语音识别效果。进一步地,本申请基于多通道语音信号进行端到端的语音建模,与传统方案对比不需要将多通道语音信号融合成单一通道语音信号,因而不会存在语音信息的丢失,进一步提升了多通道语音识别效果。
-
-
-
-
-
-
-
-
-