一种层次化新闻热点及其演化的挖掘与可视化方法

    公开(公告)号:CN106951554B

    公开(公告)日:2021-04-20

    申请号:CN201710198955.6

    申请日:2017-03-29

    Applicant: 浙江大学

    Abstract: 本发明公开了一种层次化新闻热点及其演化的挖掘与可视化方法。包括如下步骤:1).利用概率主题建模技术挖掘由抽象到具体的具有层次化结构的新闻热点。2).提出全新的“Nested‑circle”可视化布局对层次化的新闻热点进行可视化。3).利用相对熵方法挖掘相邻时间片同一粒度的层次化新闻热点的关联性,即新闻热点在时序上的演化行为。4).采用动态可视化技术呈现新闻热点在时序上的演化行为。5).结合上述层次化新闻热点及其演化的挖掘与可视化技术,集成了“层次化新闻热点及其演化的分析系统”,方便读者分析层次化新闻热点及其演化。

    一种联合文本分类的多任务命名实体识别方法

    公开(公告)号:CN111209738B

    公开(公告)日:2021-03-26

    申请号:CN201911417834.1

    申请日:2019-12-31

    Applicant: 浙江大学

    Abstract: 本发明公开了一种联合文本分类的多任务命名实体识别方法。该方法包括如下步骤:(1)利用卷积神经网络构造文本分类器,度量文本的相似度;(2)选取合适的阈值,对于辅助任务的数据集,根据文本分类结果与阈值的比较来决定其是否参与共享层参数的更新;(3)将文本的字符向量与预训练好的词向量级联作为输入特征向量;(4)在共享层,利用双向LSTM对句子中每个单词的输入特征向量进行建模,学习各任务的公共特征;(5)在任务层依次训练每个任务,将共享层的输出传入主任务私有层或辅助任务私有层中的双向LSTM神经网络,再利用线性链条件随机场来对整个句子进行标签解码,并标注句子中的实体。本发明在多个生物医学领域的数据集上进行实验,可以有效提升语料难获取、标注成本高的特定领域的命名实体识别效果。

    一种融合先验信息的命名实体链接方法

    公开(公告)号:CN108363688A

    公开(公告)日:2018-08-03

    申请号:CN201810103629.7

    申请日:2018-02-01

    Applicant: 浙江大学

    Abstract: 本发明公开了一种融合先验信息的命名实体链接方法。该方法包括如下步骤:(1)从Wikipedia data dump,Freebase data dump提取字符串-候选实体表、人名列表、地名列表;(2)将Wikipedia data dump中的每篇文章表示为词频/逆文档频率tf-idf特征,并提取每个字符串相对于候选实体的通用性特征;(3)对实体提及进行问询拓展,使用(1)中的字符串-候选实体表,为实体提及生成候选实体;(4)抽取实体提及所在文章的特征,得到文章的逆文档频率以及重要词碰撞率;(5)使用(2)、(4)所提取的特征,计算实体提及与其各个候选实体之间的关联程度,并将关联程度最高的作为实体链接结果。本发明突破了语料缺乏的限制,为用户提供了可靠的实体链接推荐结果,其中实体通用性特征加入了先验信息。

    一种利用刻画因果依赖关系和时序影响机制增强答案质量排序的评判方法

    公开(公告)号:CN107203600A

    公开(公告)日:2017-09-26

    申请号:CN201710334063.4

    申请日:2017-05-12

    Applicant: 浙江大学

    Abstract: 本发明公开了一种利用刻画因果依赖关系和时序影响机制来提高答案质量排序的评判方法。包括如下步骤:1)把每个问题及其按照时间先后顺序排序的答案作为训练数据集;2)对训练集中的文本通过Paragraph2Vec模型进行无监督学习,得到文本表达模型,并分别构建问题和答案的隐性表达;3)将问题与答案之间的因果依赖关系和答案与答案之间的时序影响机制引入传统的长短时记忆模型;4)基于问题与答案的隐性表达,使用学习后所得到的问答排序模型对问题的候选答案进行排序。相比一般的答案质量评判方法,本发明进一步发掘答案与答案之间基于时序的相互影响,揭示高质量答案的形成规律。本发明在答案质量排序中所取得的性能较传统的基于文本和语义关联性的评判方法更好。

    一种基于主题建模的多粒度情感分析方法

    公开(公告)号:CN104462408B

    公开(公告)日:2017-09-01

    申请号:CN201410766559.5

    申请日:2014-12-12

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于主题建模的多粒度情感分析方法,包括如下步骤:提取社交媒体文本数据库中所有数据的单词和单词特征;训练得到核心模型;根据用户的查询请求从社交媒体文本数据库中得到搜索结果;根据系统自动设定或用户指定的参数,确定主题建模中需要的主题数目和细粒度情感数目;随机地将某个主题和某个细粒度情感分配给每一个单词;计算所有单词所属主题和细粒度情感以及所查询文档表达粗粒度情感,并将结果反馈给用户。本发明具有的有益效果有:可对社交网络文本数据同时进行主题建模与多粒度情感分析;可在单词特征与单词所表达细粒度情感之间建立起关联度,为用户理解数据提供帮助。

    一种结合稀疏编码和结构感知机的文本事件抽取方法

    公开(公告)号:CN106599032A

    公开(公告)日:2017-04-26

    申请号:CN201610955220.9

    申请日:2016-10-27

    Applicant: 浙江大学

    Abstract: 本发明公开了一种结合稀疏编码和结构感知机的文本事件抽取方法。包括如下步骤:1)将文本数据依照ACE或RichERE规范标注构建为训练样本;2)将提取得到的实体作为事件触发词和事件参数的候选实体,抽取文本特征;3)进一步抽取文本分布式词向量特征,学习稀疏编码特征;4)利用训练样本和提取的文本特征,训练结构感知机分类器,同时识别文本中与关于事件的触发词和参数;5)对于新的文本数据,经过步骤1后输入结构感知机分类器,抽取文本事件信息。本发明利用了基于神经网络的分布式词向量特征的稀疏编码表达,强化了文本特征,另一方面使用结构感知机模型同时来学习事件触发词和事件参与者的识别,据此获得了更好的事件抽取效果。

    一种融合提及实体信息的文档向量学习方法

    公开(公告)号:CN106570132A

    公开(公告)日:2017-04-19

    申请号:CN201610956758.1

    申请日:2016-10-27

    Applicant: 浙江大学

    Abstract: 本发明公开了一种融合提及实体信息的文档向量学习方法,使用机器学习的方法学习一个文档集合中所有文档的向量表达。其步骤包括:预处理文档集合,找出每篇文档提及的实体,计算不同实体间关联程度;为文档集合中的每一个文档初始化一个向量,并初始化其他训练所需的参数;根据预处理结果,重复地抽取文档-词对、文档-实体对或实体-实体对来更新文档向量和其他参数,直至收敛。使用该方法学习得到的文档向量不仅包含了文档中词的信息,还包含了文档中提到的实体的信息,且利用了实体与实体间的关联信息。学到的文档向量如果运用到文档分类、文档聚类、实体链接等应用中,可以有效提高性能,并且节省存储空间。

    一种基于选择单元的主题建模方法

    公开(公告)号:CN103559193B

    公开(公告)日:2016-08-31

    申请号:CN201310410816.7

    申请日:2013-09-10

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于选择单元的主题建模方法,包括如下步骤:根据查询请求提取数据库中的搜索结果包含的单词、片段结构和单词特征;确定建模采用的主题数;随机分配产生各个片段结构主题、单词主题及二元选择子;通过Gibbs采样过程迭代地确定上述变量;根据上述变量的最终分配结果向用户反馈各个主题中的显著文档和单词,以及具有各种特征的单词表达其所在片段结构的主题的能力。本发明具有的有益效果有:可同时在多种模态数据上进行主题建模;充分利用了数据隐含的结构信息,并消除了结构限制过强的不利效果;可提供文档中单词特征与片段结构限制之间的关联度等信息,为用户在理解数据上提供帮助;具有良好的可扩展性,可作为多种应用的算法基础。

    一种基于混合距离依赖中餐馆过程的层次化主题建模方法

    公开(公告)号:CN104484346A

    公开(公告)日:2015-04-01

    申请号:CN201410706246.0

    申请日:2014-11-28

    Applicant: 浙江大学

    CPC classification number: G06F17/30867

    Abstract: 本发明公开了一种基于混合距离依赖中餐馆过程的层次化主题建模方法,包括如下步骤:首先用自然语言处理(NLP)工具从新闻文档中提取出事件要素;然后利用这些要素和文档内容作为产生文档之间链接的依据;在模型的估计过程中这些链接和他们相连的点(即文档)构成一个有向无环图(DAG),亦即事件发展结构图;最后将类似的事件聚集到一起,形成主题。本发明具有的有益效果有:能够在保证模型简单灵活的前提下涵盖多个事件要素;模型的输出既是层级的又是结构化的,这保证了既能找出事件,又能够发掘出其主题;对于一个特定的事件,可以描述出它的发展过程;具有良好的可扩展性,可作为多种应用的算法基础。

Patent Agency Ranking