-
公开(公告)号:CN113420215A
公开(公告)日:2021-09-21
申请号:CN202110698835.9
申请日:2021-06-23
Applicant: 东北大学
IPC: G06F16/9535 , G06F16/9536 , G06Q50/00
Abstract: 本发明提供一种面向兴趣点推荐的可解释生成方法,涉及社交网络以及兴趣点推荐技术领域。首先根据兴趣点推荐模型获取用户ID及推荐的兴趣点,以及兴趣点对应的影响因素;再根据兴趣点影响因素之间的标量投影,进行兴趣点影响因素之间的融合;将多个融合后的影响因素与推荐的兴趣点将多个融合后的影响因素与推荐的兴趣点进行相似性学习,得到融合后的影响因素与推荐的兴趣点间的相似性权重;根据相似性权重值,确定影响兴趣点推荐的主要影响因素;最后采用设定好的句子模板,基于主要影响因素对推荐的兴趣点进行句子解释;该方法对推荐的兴趣点的不同影响因素进行分析,在既保证推荐模型的准确率的同时,又保证了解释的合理性。
-
公开(公告)号:CN113033207A
公开(公告)日:2021-06-25
申请号:CN202110373760.7
申请日:2021-04-07
Applicant: 东北大学
IPC: G06F40/295 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明提供一种基于逐层感知机制的生物医学嵌套类型实体识别方法,涉及数据挖掘和自然语言处理技术领域。该方法包括基于向量模式的生物医学文本表示、基于循环神经网络的隐藏特征编码与解码、基于多任务逐层感知机制的嵌套类型实体识别。步骤1为生物医学文本表示步骤,利用一位编码法和预训练特征向量对文本单词构建字符特征和语义特征。步骤2为隐藏特征提取,利用循环神经网络和RELU激活函数对初始特征进行隐藏信息发现、编码与解码。步骤3为多任务逐层感知机制,利用归一化函数在步骤2基础上,识别简单实体,通过迭代组合方法,逐层感知识别嵌套类型实体。本发明可以对生物医学文本中的嵌套类型实体进行识别提取,并取得较好的效果。
-
公开(公告)号:CN106909679B
公开(公告)日:2020-02-07
申请号:CN201710122912.X
申请日:2017-03-03
Applicant: 东北大学
IPC: G06F16/215 , G06F16/245
Abstract: 本发明是一种基于多路分块的渐近式实体识别方法,该方法为:多路分块生成相交的块,通过构建分块图消除块冗余,初始化块信用度和候选对信用度,将候选对按照信用度排序,并依次插入到候选队列;接着,迭代地进行以下三个步骤,(1)处理候选队列的候选对,(2)根据识别结果来更新一部分候选对的信用度,(3)根据更新的候选对的信用度来调整候选队列的顺序,并逐渐输出识别出的重复的数据对象对,不断重复这三步直到候选队列为空。采用本发明的渐近式实体识别方法,给定较短时间预算,可以识别出更多的重复的数据对象;通过动态地估计块的冗余度来更新候选对的信用度,实时地选择最可能匹配的候选对来进行识别,保证了高渐近性。
-
公开(公告)号:CN108924246A
公开(公告)日:2018-11-30
申请号:CN201810826981.3
申请日:2018-07-25
Applicant: 东北大学
CPC classification number: H04L67/02 , G06K9/6215 , G06K9/6218 , G06K9/6259
Abstract: 本发明提供一种支持用户私有IP发现的跨屏追踪方法,涉及数据质量和数据集成技术领域。该方法首先基于半监督学习的迭代式方法计算数据集中所有IP的用户私有IP概率;并基于用户私有IP概率生成候选集;计算候选集中候选对上的各属性的TF-IDF相似度和关联相似度以及IP属性上的PIPSim相似度,得到候选对的属性相似度向量;利用GBRT模型预测候选对的相似度;最后基于得到的相似度生成相似度图,使用图聚类算法进行用户聚类。本发明提供的支持用户私有IP发现的跨屏追踪方法,综合考虑了设备、Cookie和已知用户之间的用户识别,相比于其他的跨屏追踪方法,在准确率、召回率以及F-0.5值上都有较大幅度的提升。
-
公开(公告)号:CN104158840B
公开(公告)日:2017-07-07
申请号:CN201410323742.8
申请日:2014-07-09
Applicant: 东北大学
Abstract: 一种分布式计算图节点相似度的方法,属于计算机数据挖掘领域,包括:采用主从模式搭建分布式计算平台;主计算机读入对象数据,建立图模型并发送给各子计算机;主计算机进行任务划分,并将各子任务分配给各子计算机;各子计算机计算其各任务节点分别传递给图模型中节点对的相似度增量计算值;主计算机计算偏移系数并分别发送给对应的各子计算机;子计算机对本地各任务节点的相似度增量计算值进行修正,并将修正后的本地各任务节点的相似度增量进行求和后传送给主计算机;主计算机对图模型中各节点对的相似度进行整合,最终得到图模型中各个节点对的相似度;该方法相比于传统SimRank计算方法,传输代价低,计算时间短,效率明显提高。
-
公开(公告)号:CN102033954B
公开(公告)日:2012-10-17
申请号:CN201010605202.0
申请日:2010-12-24
Applicant: 东北大学
IPC: G06F17/30
Abstract: 一种关系数据库中可扩展标记语言文档全文检索查询索引方法,包括:采用基于标签序列的二维关系表方式存储XML文档数据;构建文档结构基本信息表;在文档结构基本信息表的节点文本列上创建基于单词的倒排索引;进行基于索引的全文检索查询四个步骤,本发明的索引方法能够有效提高对可扩展标记语言文档的管理效率和可扩展标记语言文档进行全文检索操作时的执行效率,减少查询执行时间;也具有较高的通用性,通过使用关系模式对XML文档数据和索引数据进行存储,能够与已有的关系数据库无缝融合;同时能够应用于对XML文档数据的关键字检索的查询中,提高查询的执行效率。
-
公开(公告)号:CN102323947A
公开(公告)日:2012-01-18
申请号:CN201110260847.X
申请日:2011-09-05
Applicant: 东北大学
IPC: G06F17/30
Abstract: 一种环形架构数据库上预连接表的生成方法,属于分布式数据存储领域,方法为:建立Key-Value数据库;构建关键列的列值索引并将其存储到数据库中;生成预连接表;若原数据表进行更新,则对相应预连接表进行更新;进行数据查询,输出查询结果;采用本发明的预连接表生成方法,可以在环形架构的Key-Value数据库中高效的生成预连接表,提供快速的连接查询功能;通过优化计算过程,降低了生成连接表的时间空间代价,加快了计算速度;同时根据更新维护方法,降低了查询延迟,可以提供实时的连接查询结果。
-
-
公开(公告)号:CN101582074A
公开(公告)日:2009-11-18
申请号:CN200910010201.9
申请日:2009-01-21
Applicant: 东北大学
IPC: G06F17/30
Abstract: 一种DeepWeb响应页面数据抽取方法,属于深层网络数据管理领域,该方法包括以下步骤:(1)选取DeepWeb响应页面Page;在查询页面输入关键字Key,查询得到响应页面Page;(2)抽取页面模板信息;对于响应页面的DOM树结构,找到包含关键字的孩子结点个数Wn最多的双亲结点P,将带标记的token块序列转化为带标记的token字符序列;用LCS算法处理以上两个记录的带标记的token字符序列,分隔并过滤公共token字符序列得到模板信息;(3)数据抽取;(4)token块合并;(5)数据表格聚类;本发明的有益效果:采用本发明的数据抽取方法,适用性强,精度高,效率得到大大提高。
-
公开(公告)号:CN101561813A
公开(公告)日:2009-10-21
申请号:CN200910011738.7
申请日:2009-05-27
Applicant: 东北大学
Abstract: 一种Web环境下的字符串相似度分析方法,首先定义基本操作代价;对字符串预处理,识别它的词首字符和去除非实意字符;创建距离矩阵,通过创建匹配索引实现编辑距离的优化;然后,判断缩写词,先判断两个字符串是否是缩写关系,如果是缩写关系则进行距离优化;其中,缩写关系由2个因素决定:①判断两者是否有相似度;②判断两者的词首字符是否被匹配;之后对缩写词距离优化,通过减少连续插入字符和连续删除字符的代价实现。本发明的字符串相似度分析方法能很好地处理web中经常出现的省略、缩写和字符顺序颠倒情况,具有较高适用性,在Web未知环境下,具有较高的匹配精度。
-
-
-
-
-
-
-
-
-