-
公开(公告)号:CN102004560B
公开(公告)日:2013-07-24
申请号:CN201010567997.0
申请日:2010-12-01
Applicant: 哈尔滨工业大学
IPC: G06F3/023
Abstract: 语句级汉字输入方法中的用户词识别方法与机器学习系统,涉及汉字输入的机器学习技术领域。本发明解决了现有机器学习方法中存在的经常需要用户干预才能够获得最终结果的问题。用户词识别方法是采用相对位置成词能力作为评价标准来识别用户词。学习方法仅在输入法输出的最优路径与最终输出路径不一致时才启动,该方法采用基于N元文法的概率计算方法获得概率值后,采用最大后验MAP获得用户调节值CA,该调节值CA和相应的词存入用户语言模型库。机器学习系统是应用上述用户词识别方法和学习方法实现的学习系统。采用本发明技术,能减少用户输入时的干预次数,让用户更轻松地得到需要的输出结果。
-
公开(公告)号:CN101833560A
公开(公告)日:2010-09-15
申请号:CN201010103806.5
申请日:2010-02-02
Applicant: 哈尔滨工业大学
Abstract: 基于互联网的厂商口碑自动排序系统,本发明涉及一种厂商口碑自动排序系统。它解决了消费者无从检索到对相关商品评价信息的缺陷。本发明用于厂商口碑的排序工作。它包括:一号服务器,接受网上访问者的请求,从互联网上识别和收集对相关商品的评价信息;二号服务器,对收集到的相关商品评价信息进行结构化和规范化处理,从而得出对同一商品各个生产厂家的口碑排序;三号服务器,向网上访问者发布相关商品的不同生产厂家的口碑排序结果。
-
公开(公告)号:CN113987179B
公开(公告)日:2024-03-22
申请号:CN202111255353.2
申请日:2021-10-27
Applicant: 哈尔滨工业大学
IPC: G06F16/35 , G06F18/214 , G06N3/0455 , G06N3/0985 , G06F18/24
Abstract: 本申请公开了一种基于知识增强和回溯损失的对话情绪识别网络模型、构建方法、电子设备及存储介质,属于自然语言处理技术领域。本申请首先利用编码器,通过设计不同的掩码矩阵以实现对话中各方的交互,同时引入对话历史信息,仅在词编码阶段就考虑了情感动力学的影响。然后,本申请通过利用图注意力网络实现对外部结构化情感知识的利用,从而扩充了话语的语义信息,弥补了词编码器模块在某些特定维度上知识的缺失。最终,在任务损失函数的基础上又加入了一个回溯损失以达到在训练过程中利用过去模型状态的先验经验的效果。旨在利用先前的训练经验来指导权重更新,确保模型决策更接近真实值,而不是前一个训练步骤中表现相对较差的预测。
-
公开(公告)号:CN116738053A
公开(公告)日:2023-09-12
申请号:CN202310718242.3
申请日:2023-06-16
IPC: G06F16/9535 , G06N3/045
Abstract: 一种基于文本蕴含的跨域新闻推荐系统及推荐方法,属于信息推荐技术领域。为解决跨域新闻的推荐的问题。本发明包括包括用户领域兴趣生成模块、基于BERT的新闻嵌入模块、基于注意力机制的用户情景兴趣生成模块、基于文本蕴含思想的兴趣融合模块、点击率预测模块、损失函数计算模块;所述基于BERT的新闻嵌入模块分别连接基于注意力机制的用户情景兴趣生成模块、点击率预测模块,所述用户领域兴趣生成模块、基于注意力机制的用户情景兴趣生成模块连接基于文本蕴含思想的兴趣融合模块、所述基于文本蕴含思想的兴趣融合模块连接点击率预测模块,所述点击率预测模块连接损失函数计算模块。本发明在新闻推荐任务中效果更明显的提升。
-
公开(公告)号:CN113344060B
公开(公告)日:2022-07-08
申请号:CN202110600977.7
申请日:2021-05-31
Applicant: 哈尔滨工业大学
Abstract: 本发明提供了一种文本分类模型训练方法、诉讼状分类方法及装置,训练方法包括:获取预先根据文本信息建立的多个人物事件关系图和文本信息的标签;将各个所述人物事件关系图输入预先建立的文本分类模型,分别对各个所述人物事件关系图进行编码,获得各个所述人物事件关系图的编码结果;基于注意力机制,分别确定各个所述编码结果的权重值,根据所述权重值对各个所述编码结果进行加权求和,获得文本表征结果;根据所述文本表征结果进行分类预测,获得预测结果;根据所述文本表征结果、所述预测结果和所述标签迭代优化所述文本分类模型至收敛。本发明的技术方案能够提高文本分类准确率,获得更好的分类效果。
-
公开(公告)号:CN114201621A
公开(公告)日:2022-03-18
申请号:CN202111406136.9
申请日:2021-11-24
IPC: G06F16/43 , G06F16/583 , G06V10/25 , G06V10/774 , G06K9/62 , G06N3/04
Abstract: 本发明公开了一种基于图文协同注意力的跨模态检索模型构建及检索方法,所述方法包括:获取训练图像和训练文本,分别提取图像样本和文本样本的局部特征;将图像样本所有的局部图像特征和文本样本所有的局部文本特征分别映射为特征向量,并将图像样本和文本样本的特征向量分别表示成矩阵,再得到各自的Key矩阵、Query矩阵和Value矩阵;基于该多个矩阵,计算出图像样本和文本样本的跨模态注意力特征、模态内注意力特征;将跨模态注意力特征和模态内注意力特征进行融合,得到图像样本的全局特征表示和文本样本的全局特征表示;基于所述全局特征表示,训练得到跨模态检索模型。本发明可直接对不同模态的数据进行相似度匹配,具有较高的匹配准确性。
-
公开(公告)号:CN113987179A
公开(公告)日:2022-01-28
申请号:CN202111255353.2
申请日:2021-10-27
Applicant: 哈尔滨工业大学
IPC: G06F16/35 , G06V10/764 , G06V10/774 , G06K9/62 , G06N3/08
Abstract: 本申请公开了一种基于知识增强和回溯损失的对话情绪识别网络模型、构建方法、电子设备及存储介质,属于自然语言处理技术领域。本申请首先利用编码器,通过设计不同的掩码矩阵以实现对话中各方的交互,同时引入对话历史信息,仅在词编码阶段就考虑了情感动力学的影响。然后,本申请通过利用图注意力网络实现对外部结构化情感知识的利用,从而扩充了话语的语义信息,弥补了词编码器模块在某些特定维度上知识的缺失。最终,在任务损失函数的基础上又加入了一个回溯损失以达到在训练过程中利用过去模型状态的先验经验的效果。旨在利用先前的训练经验来指导权重更新,确保模型决策更接近真实值,而不是前一个训练步骤中表现相对较差的预测。
-
公开(公告)号:CN113344060A
公开(公告)日:2021-09-03
申请号:CN202110600977.7
申请日:2021-05-31
Applicant: 哈尔滨工业大学
Abstract: 本发明提供了一种文本分类模型训练方法、诉讼状分类方法及装置,训练方法包括:获取预先根据文本信息建立的多个人物事件关系图和文本信息的标签;将各个所述人物事件关系图输入预先建立的文本分类模型,分别对各个所述人物事件关系图进行编码,获得各个所述人物事件关系图的编码结果;基于注意力机制,分别确定各个所述编码结果的权重值,根据所述权重值对各个所述编码结果进行加权求和,获得文本表征结果;根据所述文本表征结果进行分类预测,获得预测结果;根据所述文本表征结果、所述预测结果和所述标签迭代优化所述文本分类模型至收敛。本发明的技术方案能够提高文本分类准确率,获得更好的分类效果。
-
公开(公告)号:CN113051903A
公开(公告)日:2021-06-29
申请号:CN202110427582.1
申请日:2021-04-21
Applicant: 哈尔滨工业大学
IPC: G06F40/279 , G06F40/216 , G06N3/04 , G06N3/08 , G06Q50/18
Abstract: 本发明提供了语句、案件经过、量刑情节和司法文书一致性比对方法,语句一致性比对方法包括:获取待比较语句,并确定所述待比较语句的句向量;根据所述句向量计算两个待比较语句的余弦相似度;根据所述余弦相似度确定对应的两个所述待比较语句的一致性。这样,在需要进行待比较语句的一致性比对时,先获取待比较语句的句向量,然后获取句向量的余弦相似度,从而确定两个待比较语句的一致性。这样,可以直接对语句的一致性进行准确比对;且比对过程简单方便,便于计算机实现;这样无需通过校对人员,节约了大量的人力和财力。
-
公开(公告)号:CN102033922A
公开(公告)日:2011-04-27
申请号:CN201010587346.8
申请日:2010-12-14
Applicant: 哈尔滨工业大学
IPC: G06F17/30
Abstract: 一种基于词汇链的关键短语抽取方法,涉及一种关键短语抽取方法。本发明为了解决现有的关键词抽取方法无法确切反映文章叙述的主题信息,现有的基于词汇链的关键短语抽取方法中关键短语抽取的准确性及对文档主题信息的覆盖性较低的问题。具体步骤:一、获取词义;二、使用词典《知网》对词语进行消歧;三、对消歧后的词语构建词汇链,并获得多个强链;四、从多个强链中选择中心词,构成中心词集合;五、计算中心词集合中不同中心词间的同现率,选择同现率大于用户设定的抽取阈值的中心词作为关键短语。本发明能够有效的反应文档的主题信息,提高关键短语抽取的准确性,仅需要少量的关键短语就可以有效覆盖文档的主题信息。应用于关键词抽取领域。
-
-
-
-
-
-
-
-
-