-
公开(公告)号:CN112132633A
公开(公告)日:2020-12-25
申请号:CN202011069677.2
申请日:2020-09-30
Applicant: 哈尔滨工业大学
IPC: G06Q30/02 , G06F16/951
Abstract: 一种基于消费事理图谱的消费意图识别和预测方法,它属于消费意图识别与预测技术领域。本发明解决了现有技术对消费意图识别和预测的准确率低的问题。本发明所采用的主要技术方案为:步骤一、基于预训练模型进行事件抽取;步骤二、基于预训练模型进行事件间关系抽取;步骤三、基于评论语料,采用无监督方法构建二分图作为弱监督信息;步骤四、基于二分图弱监督信息和标注数据,构建消费事理图谱;步骤五、使用训练数据训练同异质关系注意力模型,使用同异质关系注意力模型判断事件和消费意图的对应关系。本发明可以应用于消费意图识别与预测。
-
公开(公告)号:CN111310927A
公开(公告)日:2020-06-19
申请号:CN202010061962.3
申请日:2020-01-19
Applicant: 哈尔滨工业大学
Abstract: 一种引入推理机制的文本生成方法,本发明涉及文本生成方法。本发明的目的是为了解决现有数据生成文本中数据信息推理表格信息中隐含信息准确率低的问题。过程为:一、用#号替换表格数据信息对应的新闻报告中能推理的数字;二、得到同一实体的总体表示;三、采用解码器LSTM对得到的同一实体的总体表示进行解码,生成每个三元组的权重;解码器根据三元组权重生成具体的文字;若生成的文字是#号,触发推理按钮,生成计算序列,将计算序列得到的结果返回触发推理按钮位置,替换#号,解码器继续依次生成文字,直到文字生成了EOS结束标识,文字生成结束;得到神经网络网格推理模型。本发明用于NLP领域数据到文本领域。
-
公开(公告)号:CN110929024A
公开(公告)日:2020-03-27
申请号:CN201911262119.5
申请日:2019-12-10
Applicant: 哈尔滨工业大学
IPC: G06F16/34 , G06F40/211 , G06F40/289 , G06N3/04 , G06N3/08
Abstract: 一种基于多模型融合的抽取式文本摘要生成方法,本发明涉及抽取式文本摘要生成方法。本发明的目的是为了解决现有的单一的抽取式模型无法学习到摘要文本的全部重要信息,导致摘要抽取准确率及召回率低的问题。过程为:一、将每个句子的词向量输入双向双层LSTM,输出全文中的每一个句子的特征表示;二、将句子的特征表示按文章顺序输入双向双层LSTM,输出隐层序列,并利用最大池化层得到池化后的向量作为全文的特征表示;三、构建序列预测模型架构;四、构建分段联合序列预测摘要模型;五、构建编码器解码器模型;六、构建加入强化学习机制的编码器解码器联合训练模型;七、使用模型融合方法生成文本摘要。本发明用于抽取式文本摘要领域。
-
公开(公告)号:CN105260488B
公开(公告)日:2018-10-02
申请号:CN201510861689.1
申请日:2015-11-30
Applicant: 哈尔滨工业大学
IPC: G06F17/30
Abstract: 一种用于语义理解的文本序列迭代方法,本发明涉及语义理解的文本序列迭代方法。本发明的目的是为了解决现有技术在语义相似度计算方面采用爬取搜索引擎检索数的方法,导致效率较低和重现代价过大,以及依赖于本体库和语义资源,需要人工校对或者纯人工构建,可扩展性方面有待提高,一定程度上限制了实际应用的问题。通过以下技术方案实现的:一、抽取原文三元组和背景知识库三元组;二、计算原文三元组的实数向量和背景知识库三元组的实数向量;三、计算语义相似度;四、计算背景知识库三元组的实数向量的权重值;五、构成序列迭代模型;六、采用支持向量机对原文进行文本分类,并对分类性能进行评估。本发明应用于计算机领域。
-
公开(公告)号:CN107515856A
公开(公告)日:2017-12-26
申请号:CN201710763500.4
申请日:2017-08-30
Applicant: 哈尔滨工业大学
CPC classification number: G06F17/277 , G06F17/2775 , G06F17/30705 , G06N3/084
Abstract: 本发明为了解决现有的细粒度情感元素抽取方法当抽取评价对象时,不能很好地利用紧随其后的单词,导致短语词性判断错误、抽取结果缺漏较多,并且难以判断当前词是否是评价对象一部分的缺点,而提出一种基于局部信息表示的细粒度情感元素抽取方法,包括:将预设窗口大小中的每一个单词通过Lookup Table查找词特征的向量表示,将得到的词向量分别输入至LSTM模型中;并将得到的词向量组合为一个向量输入至前馈神经网络模型中;将LSTM模型隐层特征表示以及前馈神经网络模型的局部上下文特征表示进行拼接,得到拼接后的结果;将送入输出层使用softmax函数作标签分类。本发明适用于细粒度情感元素抽取工具。
-
公开(公告)号:CN105260488A
公开(公告)日:2016-01-20
申请号:CN201510861689.1
申请日:2015-11-30
Applicant: 哈尔滨工业大学
IPC: G06F17/30
CPC classification number: G06F17/30666 , G06F17/30663 , G06F17/30684 , G06F17/30705
Abstract: 一种用于语义理解的文本序列迭代方法,本发明涉及语义理解的文本序列迭代方法。本发明的目的是为了解决现有技术在语义相似度计算方面采用爬取搜索引擎检索数的方法,导致效率较低和重现代价过大,以及依赖于本体库和语义资源,需要人工校对或者纯人工构建,可扩展性方面有待提高,一定程度上限制了实际应用的问题。通过以下技术方案实现的:一、抽取原文三元组和背景知识库三元组;二、计算原文三元组的实数向量和背景知识库三元组的实数向量;三、计算语义相似度;四、计算背景知识库三元组的实数向量的权重值;五、构成序列迭代模型;六、采用支持向量机对原文进行文本分类,并对分类性能进行评估。本发明应用于计算机领域。
-
公开(公告)号:CN105068996A
公开(公告)日:2015-11-18
申请号:CN201510604035.0
申请日:2015-09-21
Applicant: 哈尔滨工业大学
IPC: G06F17/27
Abstract: 一种中文分词增量学习方法,涉及中文分词领域。本发明为了解决现有的在源领域切分数据的基础上加入目标领域数据混合训练数据的方法存在的每次数据混合都需要重新训练模型和数据处理量非常大时导致的运算时间长、对硬件要求高的问题。本发明首先对中文语句集合中的语句xn进行人工标注标记,将已进行人工标记的语句(xn,yn)记为训练集;对中文语句集合中特征的权重向量W进行初始化,针对中文语句集合中的N个语句,计算每个语句权重向量Wn;然后进行T次迭代操作,然后计算权重向量平均值当中文语句集合中引入增量中文语句集合时,计算出增量中文语句集合的权重向量平均值求得中文分词增量权重参数完成中文分词增量的学习。本发明适用中文分词领域。
-
公开(公告)号:CN103778260A
公开(公告)日:2014-05-07
申请号:CN201410074943.9
申请日:2014-03-03
Applicant: 哈尔滨工业大学
IPC: G06F17/30
CPC classification number: G06F17/30867 , G06F17/30702
Abstract: 一种个性化微博信息推荐系统和方法,它涉及个性化信息推荐系统和方法,属于社交媒体信息服务技术领域。本发明要解决现有微博平台存在用户获取信息的质量与效率低、信息的有效传播速度较低的问题。本发明中一种个性化微博信息推荐系统,包括:微博特征抽取模块、用户兴趣模型模块、微博信息推荐模块、微博信息展示模块及数据模块。本发明中一种个性化微博信息推荐方法,主要包括以下几个步骤:a、用户访问系统时,获取当前实时的微博列表、用户的偏好及相关设置信息;b、抽取当前微博列表中每一条微博的统计、文本特征;c、按照微博信息推荐模块所述技术对用户获取的微博进行排序,将相关度大的微博优先排序。本发明适用于互联网交互与共享平台。
-
公开(公告)号:CN103034693A
公开(公告)日:2013-04-10
申请号:CN201210509993.6
申请日:2012-12-03
Applicant: 哈尔滨工业大学
Abstract: 开放式实体及其类型识别方法,涉及一种实体及其类型识别方法,为了解决目前采用弱指导方法的实体识别方法存在一些缺陷的问题。它包括:一:通过依存句法关系信息和汉语依存关系树库,自动构建训练语料;二:利用训练语料的有效特征训练条件随机域模型形成统计模型,所述统计模型自动识别出实体的边界;三:查询实例集中是否存在步骤二中所述实体,若存在,输出所述实体及对应的类型,结束;若不存在,则转入步骤四;四:基于模式匹配的方法进行实体的语义类抽取,扩充实例集,转入步骤三。它用于教学实验中。它用于识别开放式实体及其类型。
-
公开(公告)号:CN101131706B
公开(公告)日:2010-10-13
申请号:CN200710175326.8
申请日:2007-09-28
Applicant: 北京金山软件有限公司 , 北京金山数字娱乐科技有限公司 , 哈尔滨工业大学
IPC: G06F17/30
Abstract: 本发明公开了一种查询修正方法及系统,解决目前的搜索引擎无法对用户输入的多种错误查询进行正确分析,从而导致检索失败的问题。所述方法包括:利用检索资源预置语言模型;调用相应的修正操作,对原始输入的每个查询词进行修正,得到对应每个查询词的多种表示,其中包括原始输入的表示;根据每个查询词的多种表示,得到多种组合形式的词序列;调用所述语言模型计算词序列出现的概率,并将出现概率高的词序列确定为查询建议结果。本发明能够统一地处理查询中多种输入错误或输入不完整的问题,如拼写错误、词形不全等,达到对查询自动修正、帮助用户有效地利用搜索引擎的目的。
-
-
-
-
-
-
-
-
-