-
公开(公告)号:CN106649259A
公开(公告)日:2017-05-10
申请号:CN201610874480.3
申请日:2016-09-30
Applicant: 西安交通大学
CPC classification number: G06F17/277 , G06F16/36 , G06F16/374 , G06F17/2264 , G06F17/2715 , G06F17/2795
Abstract: 本发明公开了一种从课件文本自动抽取知识单元间学习依赖关系的方法,通过处理知识单元对应课件中的文本,得到候选术语集合,然后处理候选术语集合中的同义术语,并计算每个术语对知识单元的关键程度,构建出最优化模型,通过求解得到最优化的学习依赖关系抽取模型,能够对课件文本进行自动分析,识别出文本中的术语并计算出术语对知识单元的关键程度,并通过最优化术语之间的关系得到学习依赖关系挖掘的模型,该过程不依赖于学习依赖关系的局部性,能够用来挖掘主题关联较远的知识单元之间的学习依赖关系,为学习者提供更为完整的知识导航服务。
-
公开(公告)号:CN105760514A
公开(公告)日:2016-07-13
申请号:CN201610101431.6
申请日:2016-02-24
Applicant: 西安交通大学
IPC: G06F17/30
CPC classification number: G06F17/30864 , G06F17/30876
Abstract: 本发明提供一种从社区问答网站自动获取知识领域短文本的方法,能够爬取社区问答网站知识领域相应领域下每个主题的问题网页和作者网页,获取数据全面系统,方便用户学习和使用。其包括如下步骤:步骤1,爬取社区问答网站中知识领域的Web页面;步骤2,抽取网页数据集中的知识领域短文本;步骤3,构建领域主题树;步骤4,领域主题树的存储。其能够从社区问答网站半结构化数据中自动抽取知识领域短文本,通过爬取社区问答网站知识领域相应领域下每个主题的问题网页和作者网页,构建了知识领域的网页数据集,然后自动抽取其中的知识领域短文本并发现其中的父子关系,从而构建了领域主题树并实现了领域主题树的存储,最终方便用户学习和使用。
-
公开(公告)号:CN105760439A
公开(公告)日:2016-07-13
申请号:CN201610073885.7
申请日:2016-02-02
Applicant: 西安交通大学
CPC classification number: G06F17/30864 , G06F17/2705 , G06K9/6269
Abstract: 本发明公开了一种基于特定行为共现网络的人物共现关系图谱构建方法。首先构建标准训练数据集和触发词表,用字符串匹配的方法,对所有待测试句子进行过滤得到候选特定行为句的集合;然后抽取标准训练数据集中所有句子的全词特征向量,用于训练SVM分类器识别特定行为,用训练好的SVM分类器对候选特定行为句进行分类,识别出特定行为句;最后构建出包含命名实体及其共现关系的特定行为共现网,在特定行为共现网的基础上构建人物共现关系图谱。本发明能在大量真实网络舆情数据上有效识别特定行为句,并在此基础上构建出特定行为共现网和人物共现关系图谱,为舆情分析提供新的可视化分析方法。
-
公开(公告)号:CN120012899A
公开(公告)日:2025-05-16
申请号:CN202411991455.4
申请日:2024-12-31
Abstract: 一种基于大语言模型的迭代背景知识抽取方法、系统及介质,方法包括在课程文本中查找出与问题及选项最相关的若干段落作为候选知识集,将候选知识集与对应关系描述拼接成为背景知识候选集合;对背景知识候选集合中的某一个句子,通过大语言模型将问题及候选答案转化为一个陈述句的命题,获取句子与问题的某个候选答案的置信度评分;利用证据理论对所有候选答案置信度评分进行合成,判断总信念函数得分最高的答案与模型推理得到的答案是否一致,若不一致,则修改大语言模型对候选答案的置信度评分或修改推理得到的答案;迭代循环,直到大语言模型推理得到的答案与总信念函数得分最高的答案一致。本发明能够在教科书问答任务中提供更准确的答案。
-
公开(公告)号:CN117112743A
公开(公告)日:2023-11-24
申请号:CN202310918499.3
申请日:2023-07-25
Applicant: 西安交通大学
IPC: G06F16/332 , G06F16/35 , G06F40/211 , G06F40/247 , G06F40/30 , G06F18/25 , G06N3/0455 , G06N3/048 , G06N3/08
Abstract: 一种文本自动生成问题的可回答性评估方法、系统及存储介质,评估方法包括以下步骤:获取数据集并进行数据集扩充,得到增强数据;通过使用多个问答模型对所述增强数据进行标注并投票,得到标注数据集;对所述标注数据集中的上下文与问题进行编码,并将上下文特征与问题特征进行融合,得到问题融合上下文后的嵌入表示;利用问题融合上下文后的嵌入表示,基于对比学习模型对问题进行可回答性的评估。同时还公开了一种文本自动生成问题的可回答性评估系统及存储介质。本发明通过引入上下文信息,以及对比学习模型,解决了现有评估问题可回答性的方法与人类评估的相关性不高,且评估时未引入上下文信息的问题,实现了对问题的可回答性进行充分评估。
-
公开(公告)号:CN116955565A
公开(公告)日:2023-10-27
申请号:CN202310933649.8
申请日:2023-07-27
Applicant: 西安交通大学
IPC: G06F16/332 , G06F16/33 , G06F40/211 , G06F40/295 , G06F17/16 , G06N3/04 , G06N3/08
Abstract: 一种基于句法依存图联合嵌入的多样性问题生成方法及系统,多样性问题生成方法包括以下步骤:使用答案选择器选取上下文中的答案;使用基于共注意力机制的编码器对上下文和答案进行编码得到感知答案的上下文表示;以邻接矩阵的形式构建上下文的句法依存图,使用图神经网络对上下文的句法依存图进行编码得到感知结构的上下文表示;将感知结构的上下文表示与感知答案的上下文表示拼接,得到上下文的联合嵌入表示;对上下文的联合嵌入表示进行解码,得到生成的问题。本发明解决了以往问题生成单一的问题,提高了问题生成的多样性,使得模型可以对一个段落上下文生成多个与上下文相关但内容不同的问题,以两阶段的形式实现一对多的输入输出模式。
-
公开(公告)号:CN116860947A
公开(公告)日:2023-10-10
申请号:CN202310951348.8
申请日:2023-07-31
Applicant: 西安交通大学
IPC: G06F16/332 , G06F16/335 , G06F40/194 , G06F40/30 , G06N3/0442 , G06N3/0455 , G06N3/08
Abstract: 一种面向文本阅读理解的选择题生成方法、系统及存储介质,方法包括通过全文主旨级别的表征学习、词句间关系的表征学习以及答案级别的表征学习,从文本中生成问题;通过上下文‑问题稀疏化过滤,在融合上下文以及问题信息的同时过滤掉上下文中与问题不相关的信息;通过答案‑问题稀疏化过滤,在生成干扰项的过程中过滤掉正确答案相关的信息,从而避免生成与答案语义一致的干扰项。本发明采用多尺度表征及稀疏化过滤的方法,解决了现有面向文本阅读理解的选择题生成方法对于中学阅读理解数据集的文本偏长导致模型理解困难的问题,以及由于文本信息丰富而导致存在大量问句无关句的问题,本发明方法能够生成更优质的选择题。
-
公开(公告)号:CN113095361B
公开(公告)日:2023-05-12
申请号:CN202110249307.5
申请日:2021-03-08
Applicant: 西安交通大学
IPC: G06F18/2415 , G06F18/22 , G06N3/0499 , G06N3/042
Abstract: 本发明公开了一种基于图匹配网络的可对比学习对象生成方法及系统,通过解析半结构化数据获得两个学习对象间的关系和学习对象的初始属性集合,将初始属性集合中所有属性的概率值进行迭代传播,利用学习对象所对应的属性词进行相关性操作得到两个属性词的注意力权重,解决远程监督带来的噪声问题,用图神经网络来捕获学习对象属性间关联的整体和局部结构,基于图匹配网络进行学习对象的结构间对齐,将学习对象的属性重要性计算转化为在属性关联上的中心度计算问题,采用属性节点中心度来实现可对比学习对象识别方法,实现非结构化的文本进行知识点和属性抽取,提高非结构化的文本学习对象的快速识别,为学习者提供一种可对比的学习对象生成结果。
-
公开(公告)号:CN113254739A
公开(公告)日:2021-08-13
申请号:CN202110464783.9
申请日:2021-04-28
Applicant: 西安交通大学
IPC: G06F16/904 , G06F16/906 , G06F3/0483 , G06Q50/20
Abstract: 本发明公开了一种基于一阶曲线的主题分面树可视化方法,属于可视化课程领域,根据需要可视化主题分面树数据,绘制主题分面树主干;然后在主题分面树主干的两侧绘制一级分面;当二级分面数目大于9时,取其中8个二级分面,其余二级分面采用“其它”折叠;当二级分面的数目小于9时,无需进行折叠;二级分面通过计算相邻二级分支的字体大小的高度与其偏移量的正切值作为最小偏移角度建立二级分支,从而避免字体重叠的现象,保证了学习者可以快速整合主题资源的同时,也缓解了由于分面重叠现象带来的学习者认知负载的问题。并通过计算字体和开始节点的偏移量避免字体聚集紧密的现象,降低了学习者由于字体聚集紧密导致的注意力分散现象,提高了学习者的学习效率。本发明通过以上步骤,保证了主题分面树的可视化结果更贴近植物学树的同时,也满足了学习者快速整合主题学习资源的需求,提高了学习者的学习效率。
-
公开(公告)号:CN113204649A
公开(公告)日:2021-08-03
申请号:CN202110513432.2
申请日:2021-05-11
Applicant: 西安交通大学
IPC: G06F16/36 , G06F40/211 , G06F40/295 , G06F40/30 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 一种基于实体关系联合抽取的法律知识图谱构建方法及设备,构建方法包括:三元组数据集的构建;模型架构的设计和模型的训练;模型架构包括模型编码层、头实体抽取层以及关系‑尾实体抽取层;文本句间关系判断;以及三元组复合与图谱可视化;本发明模型架构的设计采用了中文bert预训练模型作为编码器,对中文的文本编码效果好。实体抽取部分采用两个BiLSTM二分类器来判别实体的起始位置和结束位置,可以有效地抽取出文本中短语形式的实体。本发明先抽取头实体,再由抽取到的头实体抽取对应实体关系的尾实体,抽取实体关系和尾实体时不仅用到了句子的编码信息,还融入了头实体的编码信息。本发明能够得到准确率较高的法律知识图谱。
-
-
-
-
-
-
-
-
-