一种推荐架构下的基于对比学习调优的论文作者消歧方法

    公开(公告)号:CN114519108B

    公开(公告)日:2024-10-11

    申请号:CN202210060374.7

    申请日:2022-01-19

    申请人: 浙江大学

    摘要: 本发明公开了一种推荐架构下的基于对比学习调优的论文作者消歧方法。本发明将论文作者消歧任务抽象为单塔推荐架构下的推荐排序问题。提出基于Wide&Deep推荐架构的排序算法解决基于表示的深度学习模型的语义漂移问题,实现基于多字段多实例注意力机制的深度模型与基于特征工程的线性模型相结合,使模型同时具备较强的泛化能力与记忆能力。此外,注意到真实匹配对之间应存在一定潜在模式的数据特点,针对性提出一种对比学习调优算法,引入对比学习损失,构建对比学习的正负样本,促使模型学习区分真实匹配对的高层次特征。

    基于论据生成的刑事案件判决预测方法、介质及设备

    公开(公告)号:CN116258375A

    公开(公告)日:2023-06-13

    申请号:CN202211536711.1

    申请日:2022-12-01

    申请人: 浙江大学

    IPC分类号: G06Q10/0637 G06Q50/18

    摘要: 本发明提供了一种基于论据生成的刑事案件判决预测方法、介质及设备。该方法包括:S1:构建包含事实描述、定罪论据、量刑论据、判决结果(包含法条、罪名、刑期)的训练样本数据集;S2:通过训练得到从事实描述中生成定罪论据和量刑论据的论据生成模块作为整个框架的第一部分;S3:利用层次化序列模型提取事实描述和生成的论据中的特征,并根据预测任务之间逻辑上的拓扑关系进行对应的案件信息加权聚合;S4:利用聚合后的信息,对对应的任务进行预测。相比一般判决预测方法,本发明创新性地对真实裁判场景进行了建模,加入了论据生成模块,提升了预测效果的同时,保证了模型的可交互性与可解释性。

    基于模式学习的中文同义词迭代抽取方法

    公开(公告)号:CN109522547B

    公开(公告)日:2020-09-18

    申请号:CN201811245894.5

    申请日:2018-10-23

    申请人: 浙江大学

    摘要: 本发明公开了一种基于模式学习的中文同义词迭代抽取方法:以百科词条的非结构化数据作为语料库,利用重定向获得的种子同义词对与语料文本进行匹配,获得词对间的文本作为候选模式;通过候选模式匹配,抽取出文本语句中模式前后的实体对作为候选同义词对;利用word2vec计算实体对间的语义相似度,评估词对相近程度;统计候选模式支持的种子数,并通过其抽取的词对质量计算候选模式的评分;接着利用模式评分、实体置信度、词对相似度对候选同义词进行评分,筛选出有效同义词实体对;利用抽取的高质量同义词作为新种子不断迭代,获得更多中文同义词对。本发明提出的方法成功从千万百科词条文本中抽取出了大量精确度较高的中文同义词实体,对于利用海量非结构化文本提取同义信息具有较大的应用意义。

    基于图的主题描述词预测及排序方法

    公开(公告)号:CN106682095B

    公开(公告)日:2019-11-08

    申请号:CN201611089639.7

    申请日:2016-12-01

    申请人: 浙江大学

    IPC分类号: G06F16/35 G06K9/46 G06K9/62

    摘要: 本发明公开了一种基于图的主题描述词预测及排序方法。首先,将主题描述词的预测问题转化为一个二部图的预测问题,主题词与描述词为图的两个互不相交的子集,不同集合的顶点之间边的关系即为主题词和描述词之间的关系。再利用图的张量积方法将二部图的预测问题转化为顶点标签的传播问题。然后利用矩阵的分解、特征值矩阵等方法降低矩阵的秩,解决预测过程中的计算瓶颈,同时需要对主题词及描述词数据进行聚类及过滤,再构造训练集对主题词进行描述词预测,接着,利用SVM‐rank的排序方法对预测结果进行排序,最后对排序结果进行二次层次聚类,类簇中所有描述词的平均得分作为该类簇的排序得分,从而得到最后的关于这个主题的描述词序列。

    一种结合属性信息的实体多分类方法

    公开(公告)号:CN109919175A

    公开(公告)日:2019-06-21

    申请号:CN201910041484.7

    申请日:2019-01-16

    申请人: 浙江大学

    摘要: 本发明公开了一种结合属性信息的实体多分类方法。实体分类任务的目的是对一个实体结合其上下文信息赋予合适的类别标签。在实体多分类任务中,实体的类别标签仅有一个,通过分类模型预测类别标签概率,将概率最大的标签作为实体的类别。本发明基于传统的实体分类方法,结合知识库实体的属性信息,利用深度学习方法分别对实体、属性以及上下文进行特征表示,其中实体表示包括词汇和字符级别两种特征,上下文特征表示引入了实体感知的注意力机制。此外,通过实体和属性特征的联合训练,避免预测阶段需要引入属性信息。最后,综合利用实体和上下文特征实现实体多分类。本方法通过引入属性信息作为额外特征,提高的实体多分类的效果。

    一种基于图书目录的专题自动生成方法

    公开(公告)号:CN105893485B

    公开(公告)日:2019-02-12

    申请号:CN201610188009.9

    申请日:2016-03-29

    申请人: 浙江大学

    IPC分类号: G06F16/38 G06K9/62

    摘要: 本发明公开了一种基于图书目录的专题自动生成方法。对每一本书,把目录中每个章节当作一个词语,提取出词语的特征,训练出一个分类器识别出书目录中的实体,对于书目录中每一对属于实体的上下级章节词抽取出符合上下位关系的章节对。根据上下位关系构建每个词的概念层次结构,对所有图书中相同的或相似的概念层次进行融合。对概念层次中的每一个概念词语,检索其在网页中和图书中的内容作为该词语的描述内容。最后,把概念层次及概念词内容组织成专题形式。本发明利用图书目录的结构化信息和机器学习相关算法实现了知识的抽取和重组,在编写专题时可以借鉴,可以大大减少相关工作的人力成本,具有较高的实用性。

    基于深度学习的实体链接方法

    公开(公告)号:CN106295796B

    公开(公告)日:2018-12-25

    申请号:CN201610592067.8

    申请日:2016-07-22

    申请人: 浙江大学

    IPC分类号: G06N3/04 G06N3/08 G06N5/02

    摘要: 本发明公开了一种基于深度学习的实体链接方法。设计了一种神经网络来计算实体指称与所有候选实体概念之间的相似度,把文本构建成有向图,利用随机游走算法计算文本中每一实体指称到其对应的候选实体的相似度排序,选择相似度最高的实体作为实体指称链接的目标。本发明通过对实体指称的上下文分词结果、候选实体分类标签做词向量表达,对实体指称上下文、候选实体的百科文档做文档向量表达,来作为神经网络的特征输入。利用双向长短时记忆递归神经网络结合上下文文档向量来表达实体指称,卷积神经网络结合候选实体文档向量来表达候选实体,并用三元组损失函数来训练。本发明实现了文本中的实体指称链接,消除实体歧义,帮助理解文本和构建知识库。

    图书交叉阅读方法
    10.
    发明授权

    公开(公告)号:CN103714118B

    公开(公告)日:2017-02-08

    申请号:CN201310601627.8

    申请日:2013-11-22

    申请人: 浙江大学

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种图书交叉阅读方法。图书交叉阅读推荐技术本质上是一种基于文档的检索,即将一个文档作为查询,去检索语义相似的其他文档,图书交叉阅读推荐技术首先将每个图书章节通过语义相似敏感哈希算法生成文档指纹,并保证两个语义相似的图书章节的文档指纹其海明距离也相近,然后将文档指纹和图书元数据、章节标题等异构信息统一建立索引,最后基于用户的访问日志和图书元数据信息,重排序候选推荐文档。本发明将图书章节投影到语义相关的文档指纹中,并将文档指纹、元数据信息、章节标题、用户点击等异构信息融入到统一索引中,基于用户的阅读章节,快速有效地推荐语义相关的其他章节,辅助用户对图书内容的理解、实现交叉阅读。