一种文本语料库的关系抽取方法

    公开(公告)号:CN112836062B

    公开(公告)日:2022-05-13

    申请号:CN202110039879.0

    申请日:2021-01-13

    Abstract: 本发明属于关系抽取技术领域,具体涉及一种文本语料库的关系抽取方法。本发明解决了传统关系分类模型不能很好的利用句子中重要的信息对关系进行建模,并且一些神经网络模型往往需要使用NLP工具来提取额外的特征的问题,提出了基于注意力机制的分段循环神经网络。本发明所提出模型可以突出考虑句子中的关键部分,而且能够利用句子的其他部分对关键部分进行补充,然后利用潜在关系向量和注意力机制得到句子的关系表示向量,在这个过程中不需要任何手工设计的特征或者NLP工具。本发明通过依存句法分析发现关系类型,并提出了一种用来构建训练语料的弱监督方法。实验结果显示提出的关系抽取模型在弱监督获取的训练数据集上达到了较高的性能。

    一种四险一金领域知识图谱中实体对齐方法

    公开(公告)号:CN112131404A

    公开(公告)日:2020-12-25

    申请号:CN202010990634.1

    申请日:2020-09-19

    Abstract: 本发明属于知识图谱技术领域,具体涉及一种四险一金领域知识图谱中实体对齐方法。本发明提出了在TransE模型中根据关系类型动态调整嵌入损失函数的策略,通过增加嵌入层优化不同属性和关系条件下的TransE损失函数,将LSTM网络和Bert对属性值的嵌入结果进行融合,在属性值的嵌入中考虑了属性值的语义信息,并将结构嵌入和属性嵌入联合训练,最终获得知识图谱的联合嵌入表示。本发明将实体嵌入的语义信息与字符信息进行组合,将实体嵌入距离与LCS相似度进行组合,并在考虑两种相似度的条件下选择候选实体对。本发明可以有效的解决由于中文知识图谱中链接数量不足、实体在不同知识图谱中名称不一致导致对齐困难的问题。

    一种基于机器学习的从半结构化文档中提取问答对的方法

    公开(公告)号:CN111078875B

    公开(公告)日:2022-12-13

    申请号:CN201911222877.4

    申请日:2019-12-03

    Abstract: 本发明属于自然语言处理技术领域,具体涉及一种基于机器学习的从半结构化文档中提取问答对的方法。本发明应用机器学习的方法,通过应用Apriori进行特征选择和朴素贝叶斯分类方法进行分类,得到半结构化文本中的答案句。本发明结合命名实体识别和依存句法分析理论,将答案句转为对应的问句。命名实体识别采用crf+BiLstm神经网络模型,识别答案句中的实体,补充到网络爬取的实体中。句法分析通过揭示句子中各个词之间的依存关系,从而在问句生成时替换依存于实体的词,得到合理的问句。本发明通过从半结构化文档中提取高质量的问答对,为以后构建问答系统奠定了良好的基础。

    一种面向特定领域开放网络问句的文本分类方法

    公开(公告)号:CN111046179B

    公开(公告)日:2022-07-15

    申请号:CN201911222868.5

    申请日:2019-12-03

    Abstract: 本发明属于文本分类处理技术领域,具体涉及一种面向特定领域开放网络问句的文本分类方法。本发明克服了在执行一些特定领域的网络开放文本分类任务的情况下,缺乏足够可用的带类别标记的语料集,且网络文本信息量低、噪音大的问题,并为该领域的开放网络问句的层次分类提供了新方法。本发明利用了特定领域的开放网络问句及书面文本使领域的词嵌入表示更符合领域知识特征,同时,使用半监督方法加速分类模型训练并减少所需的标记样本。此外,还结合了条件概率实现了在多粒度层级的类别划分。本发明可以在问答系统、情感分析、领域知识库等领域辅助数据的提取、判别和构建。

    一种领域文本主题抽取方法

    公开(公告)号:CN112836507A

    公开(公告)日:2021-05-25

    申请号:CN202110039892.6

    申请日:2021-01-13

    Abstract: 本发明属于文本主题抽取技术领域,具体涉及一种领域文本主题抽取方法。本发明应用了统计学习方法中的LDA主题模型,并在LDA主题模型三层贝叶斯网络基础上提出增加审计方法层,形成四层贝叶斯网络。该模型认为文本由审计方法的多项分布构成,审计方法由主题的多项分布构成。首先分别生成审计方法、文本主题和词语的多项分布,然后由狄利克雷分布为主题的多项分布,审计方法的多项分布和词语的多项分布分配参数,利用吉布斯抽样计算得到真实的包含审计方法的主题分布参数。该方法相较于LDA主题模型,在提取出的主题中加入了审计方法的信息,降低了主题间重叠度过高的问题,同时也可以为四险一金领域知识图谱的审计工具集提供支持。

    一种基于机器学习的从半结构化文档中提取问答对的方法

    公开(公告)号:CN111078875A

    公开(公告)日:2020-04-28

    申请号:CN201911222877.4

    申请日:2019-12-03

    Abstract: 本发明属于自然语言处理技术领域,具体涉及一种基于机器学习的从半结构化文档中提取问答对的方法。本发明应用机器学习的方法,通过应用Apriori进行特征选择和朴素贝叶斯分类方法进行分类,得到半结构化文本中的答案句。本发明结合命名实体识别和依存句法分析理论,将答案句转为对应的问句。命名实体识别采用crf+BiLstm神经网络模型,识别答案句中的实体,补充到网络爬取的实体中。句法分析通过揭示句子中各个词之间的依存关系,从而在问句生成时替换依存于实体的词,得到合理的问句。本发明通过从半结构化文档中提取高质量的问答对,为以后构建问答系统奠定了良好的基础。

    一种基于增量学习的生成图像检测模型的构建方法及检测方法

    公开(公告)号:CN119445154A

    公开(公告)日:2025-02-14

    申请号:CN202411489400.3

    申请日:2024-10-24

    Inventor: 李熔盛 于啸 刘野

    Abstract: 本发明公开了一种基于增量学习的生成图像检测模型的构建方法及检测方法,模型构建方法包括:构建图像数据集,数据集包括若干子集,子集包括生成图像和真实图像;选取图像数据集中的指定真实生成图像对数量最多的子集,输入基础特征提取器进行预训练处理,获得损失函数,基于损失函数对基础特征提取器进行优化,获得预训练特征提取器;以预训练特征提取器作为增量阶段特征提取器,在此基础上进行增量训练,设计增量阶段的损失函数,并通过增量阶段的损失函数训练第t阶段的所述预训练特征提取器,直至训练完图像数据集中剩余的子集,获得生成图像检测模型。本发明不仅提高了生成图像检测的准确率,还具备持续学习的能力。

Patent Agency Ranking