-
公开(公告)号:CN112016293B
公开(公告)日:2021-01-19
申请号:CN202011137036.6
申请日:2020-10-22
Applicant: 浙江大学
IPC: G06F40/20 , G06F40/295 , G06N3/08
Abstract: 本发明公开了一种基于多实例协同对抗训练的远程监督关系抽取方法,以解决远程监督关系抽取任务中传统多实例学习框架存在的较低的数据使用效率的问题。数据使用率较低的问题是由多实例学习框架倾向于只关注包内的高质量语句,而忽视大量的潜在噪声语句造成的。而本发明的方法协同虚拟对抗训练和对抗训练,分别约束包内的噪声样本和包级的准确特征,在解决数据利用率问题的同时进一步强化模型性能。该方法在效果上优于近些年来一些主流的相关算法。
-
公开(公告)号:CN108304552B
公开(公告)日:2021-01-08
申请号:CN201810102597.9
申请日:2018-02-01
Applicant: 浙江大学
IPC: G06F16/2458 , G06F16/28 , G06F40/194
Abstract: 本发明公开了一种基于知识库特征抽取的命名实体链接方法。该方法包括如下步骤:(1)从Freebase data dump中抽取具有指定特征的三元组条目,形成关系数据表,存入知识库;(2)设计复杂的规则,在知识库中搜寻若干个与实体提及关系紧密的Freebase Object作为候选实体;(3)采用基于统计的方法,设计并抽取实体提及与其候选实体的特征,并对上述特征进行Embedding化;(4)将抽取特征的Embedding作为一个多层的神经网络的输入,获取每个候选实体为目标实体的概率,并返回概率最高的候选实体的Freebase MID。本发明结合了基于复杂规则的候选生成技术和基于统计学习的候选排序技术,针对特定类型的命名实体,建立了一套适用于实体链接的处理框架,方便用户使用批处理的方式获取实体链接的结果。
-
公开(公告)号:CN111741236A
公开(公告)日:2020-10-02
申请号:CN202010857184.9
申请日:2020-08-24
Applicant: 浙江大学
IPC: H04N5/278 , H04N21/488 , H04N21/81 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于共识图表征推理的定位自然图像字幕生成方法和装置。该方法包括如下步骤:S1:以预先提取的视觉场景图及文本场景图作为先验知识,通过结构对抗学习方法从图先验中进行演绎与推理,生成作为共识知识的共识图表征;S2:基于视觉空间图与共识图表征,结合软注意力机制动态选取与上下文环境匹配程度最高的语义信息生成字幕的文本描述;S3:在S2中生成文本描述的同时,根据当前语义环境在视觉空间中实时定位文本中对象单词的空间区域。本发明可利用视觉模态先验与语言模态先验所推理得到的共识表征来维护多模态之间的语义一致性,从而大幅度减少当前自然图像字幕生成模型中存在的对象幻觉问题,并获取更优的字幕生成与对象定位性能。
-
公开(公告)号:CN111241807A
公开(公告)日:2020-06-05
申请号:CN201911423787.1
申请日:2019-12-31
Applicant: 浙江大学
IPC: G06F40/205 , G06F40/289 , G06F40/30 , G06N3/04
Abstract: 本发明公开了一种基于知识引导注意力的机器阅读理解方法。该方法包括如下步骤:(1)利用预训练的词嵌入矩阵得到本文序列的词向量;(2)利用双向GRU网络来对文本中每个单词的上下文信息进行建模;(3)将问题的上下文表示作为初始隐藏层状态输入到单向GRU网络,GRU网络使用基于注意力的回看机制迭代地执行搜索步骤以收集文章中可能用于预测答案的信息;(4)将外部知识作为长期记忆加入回看机制,在回看过程中来引导注意力的焦点,模型会重新分配注意力分数;(5)在单向GRU网络的输出端经过指针网络得到预测的答案。本发明是一个端到端的模型,不需要未标注语料集中除预训练好的词向量之外的数据预处理,因此本发明能在不同的语言和领域的阅读理解中有广泛应用。
-
公开(公告)号:CN111209738A
公开(公告)日:2020-05-29
申请号:CN201911417834.1
申请日:2019-12-31
Applicant: 浙江大学
IPC: G06F40/216 , G06F40/289 , G06F40/295 , G06N3/04 , G06N3/08 , G06K9/62
Abstract: 本发明公开了一种联合文本分类的多任务命名实体识别方法。该方法包括如下步骤:(1)利用卷积神经网络构造文本分类器,度量文本的相似度;(2)选取合适的阈值,对于辅助任务的数据集,根据文本分类结果与阈值的比较来决定其是否参与共享层参数的更新;(3)将文本的字符向量与预训练好的词向量级联作为输入特征向量;(4)在共享层,利用双向LSTM对句子中每个单词的输入特征向量进行建模,学习各任务的公共特征;(5)在任务层依次训练每个任务,将共享层的输出传入主任务私有层或辅助任务私有层中的双向LSTM神经网络,再利用线性链条件随机场来对整个句子进行标签解码,并标注句子中的实体。本发明在多个生物医学领域的数据集上进行实验,可以有效提升语料难获取、标注成本高的特定领域的命名实体识别效果。
-
公开(公告)号:CN106570132B
公开(公告)日:2020-01-14
申请号:CN201610956758.1
申请日:2016-10-27
Applicant: 浙江大学
IPC: G06F16/36
Abstract: 本发明公开了一种融合提及实体信息的文档向量学习方法,使用机器学习的方法学习一个文档集合中所有文档的向量表达。其步骤包括:预处理文档集合,找出每篇文档提及的实体,计算不同实体间关联程度;为文档集合中的每一个文档初始化一个向量,并初始化其他训练所需的参数;根据预处理结果,重复地抽取文档-词对、文档-实体对或实体-实体对来更新文档向量和其他参数,直至收敛。使用该方法学习得到的文档向量不仅包含了文档中词的信息,还包含了文档中提到的实体的信息,且利用了实体与实体间的关联信息。学到的文档向量如果运用到文档分类、文档聚类、实体链接等应用中,可以有效提高性能,并且节省存储空间。
-
公开(公告)号:CN108287911A
公开(公告)日:2018-07-17
申请号:CN201810103633.3
申请日:2018-02-01
Applicant: 浙江大学
Abstract: 本发明公开了一种基于约束化远程监督的关系抽取方法,包括如下步骤:(1)构建外部知识库;(2)获取文本数据;(3)使用远程监督方法获取包含属性的句子;(4)使用预训练的模型获取句子的置信度信息;(5)用置信度信息规则化网络,计算规范化后验概率,得到关系标签。本发明提出了一种基于约束化远程监督的关系抽取方法,使用远程监督的方法利用现有的知识库,自动生成训练数据,并采用一些优化方法清洗训练数据,从而省去人工标注的部分繁琐工作。本发明还使用规则化后验概率的方法来自动提取文本句子的特征,省去人工工作的同时,提取到更为抽象和更具表达力的特征。该方法在效果上优于传统的关系抽取算法和近年来的一些主流的方算法。
-
公开(公告)号:CN104484346B
公开(公告)日:2018-02-09
申请号:CN201410706246.0
申请日:2014-11-28
Applicant: 浙江大学
IPC: G06F17/30
Abstract: 本发明公开了一种基于混合距离依赖中餐馆过程的层次化主题建模方法,包括如下步骤:首先用自然语言处理(NLP)工具从新闻文档中提取出事件要素;然后利用这些要素和文档内容作为产生文档之间链接的依据;在模型的估计过程中这些链接和他们相连的点(即文档)构成一个有向无环图(DAG),亦即事件发展结构图;最后将类似的事件聚集到一起,形成主题。本发明具有的有益效果有:能够在保证模型简单灵活的前提下涵盖多个事件要素;模型的输出既是层级的又是结构化的,这保证了既能找出事件,又能够发掘出其主题;对于一个特定的事件,可以描述出它的发展过程;具有良好的可扩展性,可作为多种应用的算法基础。
-
公开(公告)号:CN104317838B
公开(公告)日:2017-05-17
申请号:CN201410532084.3
申请日:2014-10-10
Applicant: 浙江大学
IPC: G06F17/30
Abstract: 本发明公开了一种基于耦合鉴别性字典的跨媒体哈希索引方法。包括如下步骤:1)基于图结构对多个模态数据之间的关联关系进行建模;通过数据底层特征之间的欧氏距离确定同一模态内部的相似性,利用不同模态数据已知关联关系确定模态间的关联,利用数据所具有类别标签信息增强图结构上数据的鉴别性;2)在步骤1)中得到的图结构上数据的关联关系学习鉴别性的耦合字典;3)利用步骤2)中学习得到的耦合字典对不同模态的数据进行稀疏编码,并映射到统一的字典空间内;4)学习从字典空间到二值海明空间的哈希映射函数。本发明可以实现基于内容的海量数据的高效跨媒体检索,用户可以通过提交一种模态的检索例子去检索另外一种模态的媒体对象。
-
公开(公告)号:CN103473308B
公开(公告)日:2017-02-01
申请号:CN201310410604.9
申请日:2013-09-10
Applicant: 浙江大学
IPC: G06F17/30
Abstract: 本发明公开了一种基于最大间隔张量学习的高维多媒体数据分类方法。它包括如下步骤:1)建立多媒体数据的训练数据集;2)对训练数据集建模,进行分析,得到分类模型;3)根据用户查询数据集及分类模型,对查询数据集分类。本发明针对多媒体的高维性和结构性,利用张量来表达多媒体数据,并通过最大间隔分类器的方法,对高维的多媒体数据进行分类。在对多媒体数据进行分解分析的同时完成分类,不仅保留了多媒体数据中的结构信息,而且避免了传统的通过拼合的方法产生的高维数据所引发的“维数灾难”,因此比传统的多媒体数据分类方法更加准确,并易于计算。
-
-
-
-
-
-
-
-
-