-
公开(公告)号:CN113158648B
公开(公告)日:2024-11-05
申请号:CN202011449650.6
申请日:2020-12-09
申请人: 科大讯飞(北京)有限公司 , 河北省讯飞人工智能研究院 , 科大讯飞股份有限公司
IPC分类号: G06F40/232 , G06F40/289
摘要: 本申请公开了一种文本补全方法以及电子设备、存储装置,其中文本补全方法包括:获取待补全文本,并确定待补全文本的缺失内容所源自的文本库;其中,待补全文本包括至少一个缺失位置;利用文本库对待补全文本进行补全预测,得到缺失位置的至少一个候选词语;利用各个缺失位置的候选词语,得到待补全文本的完整文本。上述方案,能够提高文本补全的效率并降低文本补全的成本。
-
公开(公告)号:CN112560476B
公开(公告)日:2024-10-15
申请号:CN202011452078.9
申请日:2020-12-09
申请人: 科大讯飞(北京)有限公司 , 河北省讯飞人工智能研究院 , 科大讯飞股份有限公司
IPC分类号: G06F40/289 , G06F40/232 , G06F16/33
摘要: 本申请公开了一种文本补全方法以及电子设备、存储装置,其中文本补全方法包括:获取待补全文本;其中,待补全文本包括至少一个缺失位置;确定待补全文本所缺失内容的来源情况;其中,来源情况包括以下任意一者:来源未知、源自第一文本库、源自涉及预设知识领域的第二文本库;采用与来源情况匹配的文本预测方式对待补全文本进行补全预测,得到缺失位置的至少一个候选词语;利用各个缺失位置的候选词语,得到待补全文本的完整文本。上述方案,能够提高文本补全的效率并降低文本补全的成本。
-
公开(公告)号:CN112686020B
公开(公告)日:2024-06-04
申请号:CN202011588731.4
申请日:2020-12-29
申请人: 科大讯飞股份有限公司 , 科大讯飞(北京)有限公司 , 河北省讯飞人工智能研究院
IPC分类号: G06F40/205 , G06F40/30 , G06F18/214 , G06F18/25
摘要: 本发明提供一种作文评分方法、装置、电子设备及存储介质,由于引入分差预测模型,可以预测出待评分作文与作文参考样本之间的分差,只需要通过该分差并结合作文参考样本的分数即可实现对待评分作文的评分结果的准确确定,既可以保证同场考试的评分尺度相同,也可以使用不同场考试的大规模数据进行训练。对于无定标的小规模考试/作业评分场景的应用,可以通过调整作文参考样本来拟合阅卷老师的评分尺度,从而使用分差预测模型对待评分作文进行评分。不仅可以提高大规模考试评分场景下评分结果的稳定性,还可以避免小规模考试/作业评分场景下因评分尺度不同导致的评分人机一致性不高的问题出现,使得评分结果更准确,且适用性更广泛。
-
公开(公告)号:CN112560477B
公开(公告)日:2024-04-16
申请号:CN202011452090.X
申请日:2020-12-09
申请人: 科大讯飞(北京)有限公司 , 河北省讯飞人工智能研究院 , 科大讯飞股份有限公司
IPC分类号: G06F40/289 , G06F40/232 , G06F16/33
摘要: 本申请公开了一种文本补全方法以及电子设备、存储装置,其中,文本补全方法包括:获取待补全文本,并确定待补全文本的缺失内容所源自的文本库;其中,待补全文本包括至少一个缺失位置,且文本库涉及预设知识领域;利用与预设知识领域对应的知识图谱和文本库,对待补全文本进行补全预测,得到缺失位置的至少一个候选词语;利用各个缺失位置的候选词语,得到待补全文本的完整文本。上述方案,能够提高文本补全的效率并降低文本补全的成本。
-
公开(公告)号:CN111310457B
公开(公告)日:2024-02-02
申请号:CN202010125461.7
申请日:2020-02-27
申请人: 河北省讯飞人工智能研究院 , 科大讯飞(北京)有限公司 , 科大讯飞股份有限公司
IPC分类号: G06F40/284 , G06F40/289 , G06F40/216 , G06F40/211
摘要: 本发明实施例提供一种词语搭配不当识别方法、装置、电子设备和存储介质,其中方法包括:确定待识别文本中的存在搭配关系的两个待识别词;将待识别文本中的任一待识别词替换为遮盖标记,得到任一待识别词对应的输入文本;将任一待识别词对应的输入文本输入至词语预测模型,得到词语预测模型输出的任一待识别词的预测结果;其中,词语预测模型是基于样本文本训练得到的;基于两个待识别词的预测结果,确定词语搭配不当识别结果。本发明实施例提供的词语搭配不当识别方法、装置、电子设备和存储介质,能够基于待识别文本的语境,识别出语义层面上搭配不当的词语,提高了词语搭配不当识别的准确率。
-
公开(公告)号:CN117435708A
公开(公告)日:2024-01-23
申请号:CN202311385924.3
申请日:2023-10-23
申请人: 科大讯飞股份有限公司 , 河北省讯飞人工智能研究院 , 科大讯飞(北京)有限公司
IPC分类号: G06F16/332 , G06F16/33 , G06V30/10 , G09B7/02
摘要: 本发明涉及智能教学技术领域,提供一种答题方法、装置、电子设备及存储介质,该答题方法首先获取题目图像,然后识别题目图像中的题目信息,对题目图像中的题目信息进行语义识别和意图识别,得到语义特征和意图特征,并将意图特征与各知识库插件的知识库技能进行匹配,得到匹配结果,基于语义特征和匹配结果,对题目信息进行作答。该答题方法引入各知识库插件,可以利用各知识库插件的专业解答能力,实现准确、高效的题目解答过程,为用户提供更好的学习体验和服务。而且,通过题目信息的意图特征与各知识库插件的知识库技能进行匹配,可以实现对各知识库插件的快速应用,进一步提升题目解答效率。
-
公开(公告)号:CN112528109B
公开(公告)日:2023-10-27
申请号:CN202011389567.4
申请日:2020-12-01
申请人: 科大讯飞(北京)有限公司 , 河北省讯飞人工智能研究院 , 科大讯飞股份有限公司
IPC分类号: G06F16/906 , G06F18/214 , G06F18/25
摘要: 本申请提供了一种数据分类方法、装置、设备及存储介质,其中,方法包括:获取待分类数据;将待分类数据输入预先建立的第一分类模型,得到分类结果,其中,第一分类模型采用训练集中的训练数据训练得到,第一分类模型的训练目标为,使其针对训练数据预测的分类结果趋于预先建立的多个第二分类模型分别针对训练数据预测的分类结果的融合结果;根据第一分类模型针对待分类数据预测的分类结果,确定待分类数据所属的类别。本申请提供的数据分类方法通过一个第一分类模型即可实现对待分类数据的准确分类,实现数据分类所消耗的计算资源和时间资源较少。
-
公开(公告)号:CN115858818A
公开(公告)日:2023-03-28
申请号:CN202211699368.2
申请日:2022-12-28
申请人: 科大讯飞股份有限公司 , 河北省讯飞人工智能研究院 , 科大讯飞(北京)有限公司
IPC分类号: G06F16/36 , G06F16/335 , G06F16/35 , G06F40/30 , G06F40/205
摘要: 本发明提供一种素材推荐、知识图谱构建方法、装置、电子设备及介质,其中方法包括:获取目标搜索词;从素材知识图谱中,确定与所述目标搜索词对应的推荐素材信息;所述素材知识图谱基于技法对应的三元组构建,所述三元组中的头实体是对素材文本进行所述技法下的头实体抽取得到,所述三元组中的尾实体是基于所述素材文本中各字分别与所述头实体之间的语义相关度确定。本发明提供的方法、装置、电子设备及存储介质,将头实体抽取和尾实体抽取进行了结合,保证了得到的推荐素材信息的准确性和可靠性,并且,素材知识图谱基于技法对应的三元组构建,从而使得推荐素材信息中具体技法和描写对象可以外显,提高了素材推荐的便捷性。
-
公开(公告)号:CN115374768A
公开(公告)日:2022-11-22
申请号:CN202211021117.9
申请日:2022-08-24
申请人: 河北省讯飞人工智能研究院 , 科大讯飞股份有限公司 , 科大讯飞(北京)有限公司
IPC分类号: G06F40/216 , G06F40/284 , G06F40/154 , G06F16/31 , G06F16/33 , G06F16/35
摘要: 本申请提供了一种新词发现方法和装置、计算机设备、存储介质,解决了现有技术中新词发现过程数据查找速度较慢的问题。其中,新词发现方法包括:采用树形存储结构对获取到的多个n元词语进行存储,多个n元词语是对预定文本序列进行n‑gram词频统计得到的,n值取从1开始的多个连续自然数,每个n元词语携带有词频和上下文信息,上下文信息包括至少一个相邻一元词语和至少一个相邻一元词语各自与n元词语的位置关系,树形存储结构的n级节点存储n元词语,同一路径中n+1级节点存储的n+1元词语取决于n级节点存储的n元词语的上下文信息;基于树形存储结构确定多个n元词语中的候选词;基于词性对候选词进行过滤,得到新词。
-
公开(公告)号:CN117150332A
公开(公告)日:2023-12-01
申请号:CN202311139259.X
申请日:2023-09-05
申请人: 河北省讯飞人工智能研究院 , 科大讯飞股份有限公司 , 科大讯飞(北京)有限公司
IPC分类号: G06F18/23213 , G06F18/231 , G06F18/24
摘要: 本申请实施例公开了一种文本处理方法、装置、设备及存储介质,获得n个文本中各个文本的主题信息;对应获得的n个主题信息的n个可能的分类数中的任一大于1且小于n的分类数k,对n个主题信息进行1次或多次聚类处理,得到分类数k对应的1个或多个聚类结果;其中,多次聚类处理采用了至少两种相似度度量方法和/或采用了从n个主题信息中选择k个主题信息作为k个初始聚类中心的多个可能结果,不同次聚类使用不同的相似度度量方法衡量主题信息间的相似度和/或不同次聚类作为k个初始聚类中心的主题信息不同;基于得到的n个分类数对应的所有聚类结果确定n个主题信息的目标聚类结果。本申请提高了文本数量较小情况下的聚类效果。
-
-
-
-
-
-
-
-
-