一种从社区问答网站自动获取知识领域短文本的方法

    公开(公告)号:CN105760514A

    公开(公告)日:2016-07-13

    申请号:CN201610101431.6

    申请日:2016-02-24

    CPC classification number: G06F17/30864 G06F17/30876

    Abstract: 本发明提供一种从社区问答网站自动获取知识领域短文本的方法,能够爬取社区问答网站知识领域相应领域下每个主题的问题网页和作者网页,获取数据全面系统,方便用户学习和使用。其包括如下步骤:步骤1,爬取社区问答网站中知识领域的Web页面;步骤2,抽取网页数据集中的知识领域短文本;步骤3,构建领域主题树;步骤4,领域主题树的存储。其能够从社区问答网站半结构化数据中自动抽取知识领域短文本,通过爬取社区问答网站知识领域相应领域下每个主题的问题网页和作者网页,构建了知识领域的网页数据集,然后自动抽取其中的知识领域短文本并发现其中的父子关系,从而构建了领域主题树并实现了领域主题树的存储,最终方便用户学习和使用。

    一种基于特定行为共现网络的人物共现关系图谱构建方法

    公开(公告)号:CN105760439A

    公开(公告)日:2016-07-13

    申请号:CN201610073885.7

    申请日:2016-02-02

    CPC classification number: G06F17/30864 G06F17/2705 G06K9/6269

    Abstract: 本发明公开了一种基于特定行为共现网络的人物共现关系图谱构建方法。首先构建标准训练数据集和触发词表,用字符串匹配的方法,对所有待测试句子进行过滤得到候选特定行为句的集合;然后抽取标准训练数据集中所有句子的全词特征向量,用于训练SVM分类器识别特定行为,用训练好的SVM分类器对候选特定行为句进行分类,识别出特定行为句;最后构建出包含命名实体及其共现关系的特定行为共现网,在特定行为共现网的基础上构建人物共现关系图谱。本发明能在大量真实网络舆情数据上有效识别特定行为句,并在此基础上构建出特定行为共现网和人物共现关系图谱,为舆情分析提供新的可视化分析方法。

    基于大语言模型的迭代背景知识抽取方法、系统及介质

    公开(公告)号:CN120012899A

    公开(公告)日:2025-05-16

    申请号:CN202411991455.4

    申请日:2024-12-31

    Abstract: 一种基于大语言模型的迭代背景知识抽取方法、系统及介质,方法包括在课程文本中查找出与问题及选项最相关的若干段落作为候选知识集,将候选知识集与对应关系描述拼接成为背景知识候选集合;对背景知识候选集合中的某一个句子,通过大语言模型将问题及候选答案转化为一个陈述句的命题,获取句子与问题的某个候选答案的置信度评分;利用证据理论对所有候选答案置信度评分进行合成,判断总信念函数得分最高的答案与模型推理得到的答案是否一致,若不一致,则修改大语言模型对候选答案的置信度评分或修改推理得到的答案;迭代循环,直到大语言模型推理得到的答案与总信念函数得分最高的答案一致。本发明能够在教科书问答任务中提供更准确的答案。

    文本自动生成问题的可回答性评估方法、系统及存储介质

    公开(公告)号:CN117112743A

    公开(公告)日:2023-11-24

    申请号:CN202310918499.3

    申请日:2023-07-25

    Abstract: 一种文本自动生成问题的可回答性评估方法、系统及存储介质,评估方法包括以下步骤:获取数据集并进行数据集扩充,得到增强数据;通过使用多个问答模型对所述增强数据进行标注并投票,得到标注数据集;对所述标注数据集中的上下文与问题进行编码,并将上下文特征与问题特征进行融合,得到问题融合上下文后的嵌入表示;利用问题融合上下文后的嵌入表示,基于对比学习模型对问题进行可回答性的评估。同时还公开了一种文本自动生成问题的可回答性评估系统及存储介质。本发明通过引入上下文信息,以及对比学习模型,解决了现有评估问题可回答性的方法与人类评估的相关性不高,且评估时未引入上下文信息的问题,实现了对问题的可回答性进行充分评估。

    基于句法依存图联合嵌入的多样性问题生成方法及系统

    公开(公告)号:CN116955565A

    公开(公告)日:2023-10-27

    申请号:CN202310933649.8

    申请日:2023-07-27

    Abstract: 一种基于句法依存图联合嵌入的多样性问题生成方法及系统,多样性问题生成方法包括以下步骤:使用答案选择器选取上下文中的答案;使用基于共注意力机制的编码器对上下文和答案进行编码得到感知答案的上下文表示;以邻接矩阵的形式构建上下文的句法依存图,使用图神经网络对上下文的句法依存图进行编码得到感知结构的上下文表示;将感知结构的上下文表示与感知答案的上下文表示拼接,得到上下文的联合嵌入表示;对上下文的联合嵌入表示进行解码,得到生成的问题。本发明解决了以往问题生成单一的问题,提高了问题生成的多样性,使得模型可以对一个段落上下文生成多个与上下文相关但内容不同的问题,以两阶段的形式实现一对多的输入输出模式。

    面向文本阅读理解的选择题生成方法、系统及存储介质

    公开(公告)号:CN116860947A

    公开(公告)日:2023-10-10

    申请号:CN202310951348.8

    申请日:2023-07-31

    Abstract: 一种面向文本阅读理解的选择题生成方法、系统及存储介质,方法包括通过全文主旨级别的表征学习、词句间关系的表征学习以及答案级别的表征学习,从文本中生成问题;通过上下文‑问题稀疏化过滤,在融合上下文以及问题信息的同时过滤掉上下文中与问题不相关的信息;通过答案‑问题稀疏化过滤,在生成干扰项的过程中过滤掉正确答案相关的信息,从而避免生成与答案语义一致的干扰项。本发明采用多尺度表征及稀疏化过滤的方法,解决了现有面向文本阅读理解的选择题生成方法对于中学阅读理解数据集的文本偏长导致模型理解困难的问题,以及由于文本信息丰富而导致存在大量问句无关句的问题,本发明方法能够生成更优质的选择题。

    一种基于图匹配网络的可对比学习对象生成方法及系统

    公开(公告)号:CN113095361B

    公开(公告)日:2023-05-12

    申请号:CN202110249307.5

    申请日:2021-03-08

    Abstract: 本发明公开了一种基于图匹配网络的可对比学习对象生成方法及系统,通过解析半结构化数据获得两个学习对象间的关系和学习对象的初始属性集合,将初始属性集合中所有属性的概率值进行迭代传播,利用学习对象所对应的属性词进行相关性操作得到两个属性词的注意力权重,解决远程监督带来的噪声问题,用图神经网络来捕获学习对象属性间关联的整体和局部结构,基于图匹配网络进行学习对象的结构间对齐,将学习对象的属性重要性计算转化为在属性关联上的中心度计算问题,采用属性节点中心度来实现可对比学习对象识别方法,实现非结构化的文本进行知识点和属性抽取,提高非结构化的文本学习对象的快速识别,为学习者提供一种可对比的学习对象生成结果。

    一种基于一阶曲线的主题分面树可视化方法

    公开(公告)号:CN113254739A

    公开(公告)日:2021-08-13

    申请号:CN202110464783.9

    申请日:2021-04-28

    Abstract: 本发明公开了一种基于一阶曲线的主题分面树可视化方法,属于可视化课程领域,根据需要可视化主题分面树数据,绘制主题分面树主干;然后在主题分面树主干的两侧绘制一级分面;当二级分面数目大于9时,取其中8个二级分面,其余二级分面采用“其它”折叠;当二级分面的数目小于9时,无需进行折叠;二级分面通过计算相邻二级分支的字体大小的高度与其偏移量的正切值作为最小偏移角度建立二级分支,从而避免字体重叠的现象,保证了学习者可以快速整合主题资源的同时,也缓解了由于分面重叠现象带来的学习者认知负载的问题。并通过计算字体和开始节点的偏移量避免字体聚集紧密的现象,降低了学习者由于字体聚集紧密导致的注意力分散现象,提高了学习者的学习效率。本发明通过以上步骤,保证了主题分面树的可视化结果更贴近植物学树的同时,也满足了学习者快速整合主题学习资源的需求,提高了学习者的学习效率。

Patent Agency Ranking