-
公开(公告)号:CN112214965B
公开(公告)日:2024-07-09
申请号:CN202011134242.1
申请日:2020-10-21
Applicant: 中国科学技术大学 , 科大讯飞股份有限公司
IPC: G06F40/109 , G06F40/126 , G06F40/151 , G06F40/289 , G06F40/30 , G06F18/22
Abstract: 本发明实施例提供一种大小写规整方法和装置,其中方法包括:将待规整文本输入至大小写规整模型,得到大小写规整模型输出的待规整文本中每一分词的大小写格式类型;基于每一分词的大小写格式类型,对待规整文本进行规整,得到待规整文本对应的已规整文本;其中,大小写规整模型是基于样本待规整文本,以及样本待规整文本中每一样本分词的样本大小写格式类型训练得到的;大小写规整模型用于确定待规整文本中每一分词的上下文语义表示和大小写转换系数,并基于每一分词的上下文语义表示和大小写转换系数,确定每一分词的大小写格式类型。本发明实施例提供的大小写规整方法和装置,扩大了大小写规整方法的适用范围,并且提高了大小写规整的准确性。
-
公开(公告)号:CN117743636A
公开(公告)日:2024-03-22
申请号:CN202311378717.5
申请日:2023-10-23
Applicant: 科大讯飞股份有限公司
IPC: G06F16/735 , G06F16/75 , G06F16/783 , G06Q30/02 , G06F40/30 , G10L13/08 , G10L15/26
Abstract: 本申请公开了一种视频分析方法及相关装置、设备和存储介质,其中,视频分析方法包括:基于表征待分析目标的关键词,检索得到关于营销待分析目标的候选视频;其中,待分析目标包括目标产品、目标品牌中至少一者;响应于对候选视频的选择指令,确定被选择的候选视频作为目标视频,并确定目标视频中待分析的视频片段;基于视频片段进行分析,得到待分析目标的营销总结。上述方案,能够在尽可能地确保营销总结的针对性前提下,提升生成营销总结的自动化程度,以提升营销总结的生成效率。
-
公开(公告)号:CN109446508A
公开(公告)日:2019-03-08
申请号:CN201811220743.4
申请日:2018-10-19
Applicant: 科大讯飞股份有限公司
IPC: G06F17/25
Abstract: 本申请提供了一种文本规整方法、装置、设备及可读存储介质,方法包括:获取待规整文本;将待规整文本的文本内容处理成多个文本单元,获得预处理文本,预处理文本中的一个文本单元为一个词或字;基于预处理文本中每个文本单元对应的规整类别信息,对待规整文本中的待规整文本单元进行规整,获得规整后的文本。本申请提供的文本规整方法可将与数字相关的汉字规整为阿拉伯数字或特殊符号,从而得到便于用户阅读和理解的文本数据,本申请提供的文本规整方法易于实现,且规整效果较好。
-
公开(公告)号:CN109858038B
公开(公告)日:2023-04-18
申请号:CN201910157032.5
申请日:2019-03-01
Applicant: 科大讯飞股份有限公司
IPC: G06F40/279 , G06F40/166 , G06N3/08
Abstract: 本申请公开了一种文本标点确定方法及装置,该方法包括:首先获取到目标文本的至少两种标点添加结果,然后,根据这至少两种标点添加结果,判断出目标文本中是否存在标点槽位,即,判断出这至少两种标点添加结果中是否存在标点添加不一致的位置,若存在,则进一步可以确定出该位置处唯一的标点添加结果。可见,本申请通过对目标文本中标点添加不一致的位置进行标点再确定的方式,能够提升标点断句结果的正确性。
-
公开(公告)号:CN114254637A
公开(公告)日:2022-03-29
申请号:CN202111574800.0
申请日:2021-12-21
Applicant: 科大讯飞股份有限公司
IPC: G06F40/289 , G06F40/211 , G06F16/34
Abstract: 本申请提供了一种纪要生成方法、装置、设备及存储介质,其中,方法包括:获取待生成纪要的文本,作为目标文本;获取目标文本的词级信息、句级信息和话题级信息,其中,词级信息包括目标文本中词的上下文信息和目标文本的关键词信息,句级信息包括目标文本中句子的上下文信息和目标文本的重点句信息,话题级信息包括目标文本的话题分割信息;根据目标文本的词级信息、句级信息和话题级信息,生成目标文本对应的纪要。本申请提供的纪要生成方法可自动生成目标文本对应的纪要。
-
公开(公告)号:CN114155843A
公开(公告)日:2022-03-08
申请号:CN202111422785.8
申请日:2021-11-26
Applicant: 科大讯飞股份有限公司
IPC: G10L15/06 , G10L15/08 , G10L15/26 , G06F16/35 , G06F40/216 , G06F40/232 , G06F40/284
Abstract: 本申请提供了一种语音识别结果的确定方法、装置、设备及存储介质,其中,方法包括:在获得目标语音的若干候选识别结果后,将若干候选识别结果分别处理成文本单元序列,以得到若干文本单元序列;通过将若干文本单元序列对齐成等长序列,确定识别易错位置,并将任一对齐后的文本单元序列中的识别易错位置处的文本单元用指定符号替换,得到待预测文本单元序列;预测待预测文本单元序列中指定符号处的文本单元,并用预测出的文本单元替换指定符号,得到目标语音的最终识别结果。经由本申请提供的语音识别结果的确定方法能够确定出准确度较高的语音识别结果。
-
公开(公告)号:CN109858038A
公开(公告)日:2019-06-07
申请号:CN201910157032.5
申请日:2019-03-01
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种文本标点确定方法及装置,该方法包括:首先获取到目标文本的至少两种标点添加结果,然后,根据这至少两种标点添加结果,判断出目标文本中是否存在标点槽位,即,判断出这至少两种标点添加结果中是否存在标点添加不一致的位置,若存在,则进一步可以确定出该位置处唯一的标点添加结果。可见,本申请通过对目标文本中标点添加不一致的位置进行标点再确定的方式,能够提升标点断句结果的正确性。
-
公开(公告)号:CN120015036A
公开(公告)日:2025-05-16
申请号:CN202510312047.X
申请日:2025-03-17
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音意图识别方法及相关装置,涉及语音处理技术领域,本方案中,利用多通道语音识别模型可以提升多通道语音信号的识别效果。另外,一方面基于预设高频交互文本库对各个通道的语音识别文本进行意图识别能保证高频意图被快速识别出来,另一方面基于训练后的意图识别模型对各个通道的语音识别文本进行意图识别又能保证非高频意图的识别效率和准确率。因此,本方案能够准确地、快速地实现对多通道语音信号的意图识别。
-
公开(公告)号:CN117609214A
公开(公告)日:2024-02-27
申请号:CN202311693991.1
申请日:2023-12-08
Applicant: 科大讯飞股份有限公司
IPC: G06F16/215 , G06F16/33 , G06F16/35 , G06F40/232 , G06F40/242 , G06F40/284 , G06F21/62
Abstract: 本申请公开了一种英文文本数据清洗方法、装置、存储介质及设备,该方法包括:首先获取待清洗的目标英文文本数据;并对其进行脱敏处理,得到脱敏后的目标英文文本数据,然后通过串并联的N个不同路径,对脱敏后的目标英文文本数据分别进行不同维度的错误信息挖掘及纠错处理,得到N个不同路径各自对应的纠错后的目标英文文本数据;接着利用预训练语言模型对目标英文文本数据和N个不同路径各自对应的纠错后的目标英文文本数据进行评分,并根据评分结果对目标英文文本数据进行清洗,得到清洗结果。从而能够在利用串并联的N个不同路径实现对于错误信息的深度挖掘和顺序多样化的多路径纠错后,准确清洗出高质量英文文本数据,提高了数据清洗效果。
-
公开(公告)号:CN116775856A
公开(公告)日:2023-09-19
申请号:CN202310506178.2
申请日:2023-05-05
Applicant: 科大讯飞股份有限公司
IPC: G06F16/34 , G06F9/451 , G06F3/0482 , G06F3/0484
Abstract: 本发明提供一种摘要生成方法、装置、电子设备和存储介质,其中方法包括:展示目标文档,以及所述目标文档的初始摘要文本;接收用户输入;响应于所述用户输入,确定所述目标文档中的关键内容;基于所述关键内容,对所述初始摘要文本进行调整,得到所述目标文档的目标摘要文本。本发明提供的方法、装置、电子设备和存储介质,基于展示目标文档,以及目标文档的初始摘要文本;接收并响应于用户输入,确定目标文档中的关键内容;基于关键内容,对初始摘要文本进行调整,得到目标文档的目标摘要文本,实现了贴合用户实际关注点的摘要生成,使得摘要文本更加简明扼要。并且,能够实现针对同一目标文档和不同用户,生成各用户对应的个性化的摘要文本。
-
-
-
-
-
-
-
-
-