-
公开(公告)号:CN114330320A
公开(公告)日:2022-04-12
申请号:CN202111626958.8
申请日:2021-12-28
Applicant: 合肥讯飞数码科技有限公司
IPC: G06F40/279 , G06F40/30 , G06F40/205 , G06N20/00
Abstract: 本申请公开了一种实体抽取方法、第一实体抽取模型的训练方法及相关装置,该实体抽取方法包括:获取待抽取文本;将待抽取文本输入至训练后的第一实体抽取模型中以获得待抽取文本中的实体以及实体的类型;其中,训练第一实体抽取模型时利用噪声数据集;且噪声数据集预先经过第二实体抽取模型获得漏标注片段集合、错误标注片段集合、正确标注片段集合和无意义标注片段集合,且利用错误标注片段集合、正确标注片段集合和无意义标注片段集合训练第一实体抽取模型,而禁止漏标注片段集合加入训练过程。这样不仅提升了模型对带噪声数据的泛化性能,而且无需人工参与便可训练得到高泛化性的实体抽取方法。
-
公开(公告)号:CN112861527A
公开(公告)日:2021-05-28
申请号:CN202110286434.2
申请日:2021-03-17
Applicant: 合肥讯飞数码科技有限公司
IPC: G06F40/279 , G06F40/216
Abstract: 本申请提出一种事件抽取方法、装置、设备及存储介质,该方法包括:将待抽取文本输入预先训练的事件抽取模型,得到所述待抽取文本中的各个文本单元的类别标签,作为事件抽取结果;所述事件抽取模型,以文本序列作为训练样本,以所述文本序列的事件触发词位置标签,以及所述文本序列的每一文本单元的类别标签作为第一类型样本标签,训练得到,其中,文本单元的类别标签包括文本单元所属的事件触发词类型和事件论元类型的标签。上述方法能够实现事件抽取,并且能够全面地识别文本在事件中的多重角色,从而保证事件抽取的完整性。
-
公开(公告)号:CN110968697A
公开(公告)日:2020-04-07
申请号:CN201911328004.1
申请日:2019-12-20
Applicant: 合肥讯飞数码科技有限公司
IPC: G06F16/35
Abstract: 本申请实施例公开了一种文本分类方法、装置、设备及可读存储介质,对待分类文本进行字、词、句三个层级的编码,得到待分类文本的字级向量表达、词级向量表达和句级向量表达;将由字级向量表达、词级向量表达和句级向量表达构成的纯四元数空间向量表达在四元数空间进行处理,得到待分类文本在四元数空间的特征;至少根据待分类文本在四元数空间的特征确定待分类文本的类别。本申请实施例提供的文本分类方案,将待分类文本表示为一个纯四元数空间向量在四元数空间进行特征提取,所提取的特征保持了待分类文本的字、词、句的相关性和整体性,从而提高短文本的分类准确度。
-
公开(公告)号:CN114330320B
公开(公告)日:2025-05-02
申请号:CN202111626958.8
申请日:2021-12-28
Applicant: 合肥讯飞数码科技有限公司
IPC: G06F40/279 , G06F40/30 , G06F40/205 , G06N20/00
Abstract: 本申请公开了一种实体抽取方法、第一实体抽取模型的训练方法及相关装置,该实体抽取方法包括:获取待抽取文本;将待抽取文本输入至训练后的第一实体抽取模型中以获得待抽取文本中的实体以及实体的类型;其中,训练第一实体抽取模型时利用噪声数据集;且噪声数据集预先经过第二实体抽取模型获得漏标注片段集合、错误标注片段集合、正确标注片段集合和无意义标注片段集合,且利用错误标注片段集合、正确标注片段集合和无意义标注片段集合训练第一实体抽取模型,而禁止漏标注片段集合加入训练过程。这样不仅提升了模型对带噪声数据的泛化性能,而且无需人工参与便可训练得到高泛化性的实体抽取方法。
-
公开(公告)号:CN112861527B
公开(公告)日:2024-08-30
申请号:CN202110286434.2
申请日:2021-03-17
Applicant: 合肥讯飞数码科技有限公司
IPC: G06F40/279 , G06F40/216
Abstract: 本申请提出一种事件抽取方法、装置、设备及存储介质,该方法包括:将待抽取文本输入预先训练的事件抽取模型,得到所述待抽取文本中的各个文本单元的类别标签,作为事件抽取结果;所述事件抽取模型,以文本序列作为训练样本,以所述文本序列的事件触发词位置标签,以及所述文本序列的每一文本单元的类别标签作为第一类型样本标签,训练得到,其中,文本单元的类别标签包括文本单元所属的事件触发词类型和事件论元类型的标签。上述方法能够实现事件抽取,并且能够全面地识别文本在事件中的多重角色,从而保证事件抽取的完整性。
-
公开(公告)号:CN118349677A
公开(公告)日:2024-07-16
申请号:CN202410474963.9
申请日:2024-04-19
Applicant: 合肥讯飞数码科技有限公司
IPC: G06F16/35 , G06F18/214 , G06F18/241 , G06F18/25
Abstract: 本申请公开了一种垃圾信息文本分类方法、装置、相关设备及计算机程序产品,本申请分别提取待分类文本的文本向量特征及对应字符图像序列的图像向量特征,融合两种模态特征,基于融合后多模态特征预测待分类文本是否属于垃圾信息文本。在文本模态特征的基础上进一步结合了图像模态特征,可以有效地提高对异形字、生僻字等特殊文字的表示能力,规避单独使用文本特征的不利影响,可以有效提升垃圾信息文本的分类准确度。
-
公开(公告)号:CN112488316B
公开(公告)日:2022-12-02
申请号:CN202011460065.6
申请日:2020-12-11
Applicant: 合肥讯飞数码科技有限公司
Abstract: 本申请公开了一种事件意图推理方法、装置、设备及存储介质,本申请获取当前发生事件的事件信息,以预先训练的分类神经网络模型对事件信息进行模糊化处理,得到模糊化结果,采用模糊规则对模糊化结果进行组合及推理,得到模糊推理结果,对模糊推理结果进行去模糊化处理,得到当前发生事件的事件意图。本申请通过模糊理论来解决含义模糊信息的事件意图推理问题,同时将模糊理论与神经网络模型结合,使用分类神经网络模型进行模糊化处理,既能够学习到深度神经模型强大的特征表达能力,又继承了模糊理论的模糊推理能力,从而更加适用于对模糊性的事件意图进行推理,提高了事件意图的推理准确性。
-
公开(公告)号:CN111310472A
公开(公告)日:2020-06-19
申请号:CN202010059841.5
申请日:2020-01-19
Applicant: 合肥讯飞数码科技有限公司
IPC: G06F40/295 , G06F40/247
Abstract: 本发明公开了一种别名生成方法、装置和设备。本发明的核心构思在于提出一种从命名实体的原始名称中向内挖掘信息并扩展输出结果的别名生成方案,具体是对原始名称及其构词成分进行融合,输入别名生成模型以获得别名结果,并在模型的解码过程进行多种可能性的扩展。由于融合了命名实体的构词成分,这样便可以充分利用原始名称所蕴含的信息,一方面可以提升别名生成模型的学习能力,另一方面不必受限于相关文本信息的规模,更无需仅从外部数据挖掘相关信息,由此可以提高所生成别名的针对性及准确性,也使别名生成模型的可靠性得到善;同时,本发明提出对别名生成模型进行多输出扩展,这样更加符合实际场景中命名实体包含多个别名的现实需求。
-
公开(公告)号:CN112906391B
公开(公告)日:2024-05-31
申请号:CN202110282621.3
申请日:2021-03-16
Applicant: 合肥讯飞数码科技有限公司
IPC: G06F40/289 , G06F40/30
Abstract: 本发明提供一种元事件抽取方法、装置、电子设备和存储介质,其中方法包括:确定待处理文本包含的触发词及其对应的各参数词;抽取触发词对应的每两个参数词在待处理文本中的关系;基于触发词对应的各参数词,以及每两个参数词之间的关系类型,构建触发词的参数关系图;遍历触发词的参数关系图,得到触发词的各元事件。本发明提供的方法、装置、电子设备和存储介质,完成了同一触发词下多元事件的事件拆分,从而实现细粒度的元事件抽取,有助于提高元事件抽取的可靠性和准确性。
-
公开(公告)号:CN111310472B
公开(公告)日:2024-02-09
申请号:CN202010059841.5
申请日:2020-01-19
Applicant: 合肥讯飞数码科技有限公司
IPC: G06F40/295 , G06F40/247
Abstract: 本发明公开了一种别名生成方法、装置和设备。本发明的核心构思在于提出一种从命名实体的原始名称中向内挖掘信息并扩展输出结果的别名生成方案,具体是对原始名称及其构词成分进行融合,输入别名生成模型以获得别名结果,并在模型的解码过程进行多种可能性的扩展。由于融合了命名实体的构词成分,这样便可以充分利用原始名称所蕴含的信息,一方面可以提升别名生成模型的学习能力,另一方面不必受限于相关文本信息的规模,更无需仅从外部数据挖掘相关信息,由此可以提高所生成别名的针对性及准确性,也使别名生成模型的可靠性得到善;同时,本发明提出对别名生成模型进行多输出扩展,这样更加符合实际场景中命名实体包含多个别名的现实需求。
-
-
-
-
-
-
-
-
-