-
公开(公告)号:CN102054029A
公开(公告)日:2011-05-11
申请号:CN201010593747.4
申请日:2010-12-17
Applicant: 哈尔滨工业大学
Abstract: 一种基于社会网络和人名上下文的人物信息消歧处理方法,本发明涉及一种互联网人物信息的消歧处理方法。它解决了现有技术的搜索引擎对某一特定人名的检索结果往往是共享这一人名的不同人物相关网页的混合的问题。用于网络人物信息检索。它包括下述步骤:一、用户输入一个要检索的人名,利用搜索引擎完成检索,利用下载软件把检索到的网页下载到本地计算机;二、对上述网页分别进行正文提取处理、分词处理和词性标注的处理,形成文档;三、利用人物领域信息先对文档进行分类,再利用社会网络和上下文信息对人物领域信息进行聚类处理,最终显示出每个人物领域信息与实体人物之间的对应关系,并且显示出每个实体人物存在的社会网络。
-
公开(公告)号:CN102004724A
公开(公告)日:2011-04-06
申请号:CN201010602030.1
申请日:2010-12-23
Applicant: 哈尔滨工业大学
IPC: G06F17/27
Abstract: 文档段落分割方法,本发明涉及文档的分割方法。用于文本分割。它解决现有技术引入与文档描述的主题无关的噪声词而增大或缩小描述不同或相同子主题的片段间的相似度,使得片段划分的结果不准确的缺陷。它通过下述步骤实现:一、对文档进行分词的操作及停用词过滤的操作;二、采用词典《知网》对文档的多义词进行消歧;三、对消歧后的词语通过词语之间的相似度构造词汇链;四、对文档构造全文词汇链;五、对文档进行划分,将其划分为多个长度相等的片段,对片段构造词汇链;六、根据片段词汇链和全文词汇链相互覆盖的程度确定片段之间的相似度;七、根据片段之间的相似度构造片段相似图,根据片段相似度图对片段进行分割。
-
公开(公告)号:CN102004560A
公开(公告)日:2011-04-06
申请号:CN201010567997.0
申请日:2010-12-01
Applicant: 哈尔滨工业大学
IPC: G06F3/023
Abstract: 语句级汉字输入方法中的用户词识别方法与在线一次性学习方法及机器学习系统,涉及汉字输入的机器学习技术领域。本发明解决了现有机器学习方法中存在的经常需要用户干预才能够获得最终结果的问题。用户词识别方法是采用相对位置成词能力作为评价标准来识别用户词。学习方法仅在输入法输出的最优路径与最终输出路径不一致时才启动,该方法采用基于N元文法的概率计算方法获得概率值后,采用最大后验MAP获得用户调节值CA,该调节值CA和相应的词存入用户语言模型库。机器学习系统是应用上述用户词识别方法和学习方法实现的学习系统。采用本发明技术,能减少用户输入时的干预次数,让用户更轻松地得到需要的输出结果。
-
公开(公告)号:CN113987179B
公开(公告)日:2024-03-22
申请号:CN202111255353.2
申请日:2021-10-27
Applicant: 哈尔滨工业大学
IPC: G06F16/35 , G06F18/214 , G06N3/0455 , G06N3/0985 , G06F18/24
Abstract: 本申请公开了一种基于知识增强和回溯损失的对话情绪识别网络模型、构建方法、电子设备及存储介质,属于自然语言处理技术领域。本申请首先利用编码器,通过设计不同的掩码矩阵以实现对话中各方的交互,同时引入对话历史信息,仅在词编码阶段就考虑了情感动力学的影响。然后,本申请通过利用图注意力网络实现对外部结构化情感知识的利用,从而扩充了话语的语义信息,弥补了词编码器模块在某些特定维度上知识的缺失。最终,在任务损失函数的基础上又加入了一个回溯损失以达到在训练过程中利用过去模型状态的先验经验的效果。旨在利用先前的训练经验来指导权重更新,确保模型决策更接近真实值,而不是前一个训练步骤中表现相对较差的预测。
-
公开(公告)号:CN113344060B
公开(公告)日:2022-07-08
申请号:CN202110600977.7
申请日:2021-05-31
Applicant: 哈尔滨工业大学
Abstract: 本发明提供了一种文本分类模型训练方法、诉讼状分类方法及装置,训练方法包括:获取预先根据文本信息建立的多个人物事件关系图和文本信息的标签;将各个所述人物事件关系图输入预先建立的文本分类模型,分别对各个所述人物事件关系图进行编码,获得各个所述人物事件关系图的编码结果;基于注意力机制,分别确定各个所述编码结果的权重值,根据所述权重值对各个所述编码结果进行加权求和,获得文本表征结果;根据所述文本表征结果进行分类预测,获得预测结果;根据所述文本表征结果、所述预测结果和所述标签迭代优化所述文本分类模型至收敛。本发明的技术方案能够提高文本分类准确率,获得更好的分类效果。
-
公开(公告)号:CN113987179A
公开(公告)日:2022-01-28
申请号:CN202111255353.2
申请日:2021-10-27
Applicant: 哈尔滨工业大学
IPC: G06F16/35 , G06V10/764 , G06V10/774 , G06K9/62 , G06N3/08
Abstract: 本申请公开了一种基于知识增强和回溯损失的对话情绪识别网络模型、构建方法、电子设备及存储介质,属于自然语言处理技术领域。本申请首先利用编码器,通过设计不同的掩码矩阵以实现对话中各方的交互,同时引入对话历史信息,仅在词编码阶段就考虑了情感动力学的影响。然后,本申请通过利用图注意力网络实现对外部结构化情感知识的利用,从而扩充了话语的语义信息,弥补了词编码器模块在某些特定维度上知识的缺失。最终,在任务损失函数的基础上又加入了一个回溯损失以达到在训练过程中利用过去模型状态的先验经验的效果。旨在利用先前的训练经验来指导权重更新,确保模型决策更接近真实值,而不是前一个训练步骤中表现相对较差的预测。
-
公开(公告)号:CN113344060A
公开(公告)日:2021-09-03
申请号:CN202110600977.7
申请日:2021-05-31
Applicant: 哈尔滨工业大学
Abstract: 本发明提供了一种文本分类模型训练方法、诉讼状分类方法及装置,训练方法包括:获取预先根据文本信息建立的多个人物事件关系图和文本信息的标签;将各个所述人物事件关系图输入预先建立的文本分类模型,分别对各个所述人物事件关系图进行编码,获得各个所述人物事件关系图的编码结果;基于注意力机制,分别确定各个所述编码结果的权重值,根据所述权重值对各个所述编码结果进行加权求和,获得文本表征结果;根据所述文本表征结果进行分类预测,获得预测结果;根据所述文本表征结果、所述预测结果和所述标签迭代优化所述文本分类模型至收敛。本发明的技术方案能够提高文本分类准确率,获得更好的分类效果。
-
公开(公告)号:CN113051903A
公开(公告)日:2021-06-29
申请号:CN202110427582.1
申请日:2021-04-21
Applicant: 哈尔滨工业大学
IPC: G06F40/279 , G06F40/216 , G06N3/04 , G06N3/08 , G06Q50/18
Abstract: 本发明提供了语句、案件经过、量刑情节和司法文书一致性比对方法,语句一致性比对方法包括:获取待比较语句,并确定所述待比较语句的句向量;根据所述句向量计算两个待比较语句的余弦相似度;根据所述余弦相似度确定对应的两个所述待比较语句的一致性。这样,在需要进行待比较语句的一致性比对时,先获取待比较语句的句向量,然后获取句向量的余弦相似度,从而确定两个待比较语句的一致性。这样,可以直接对语句的一致性进行准确比对;且比对过程简单方便,便于计算机实现;这样无需通过校对人员,节约了大量的人力和财力。
-
公开(公告)号:CN103400054A
公开(公告)日:2013-11-20
申请号:CN201310378538.1
申请日:2013-08-27
Applicant: 哈尔滨工业大学
IPC: G06F19/00
Abstract: 一种计算机辅助心理咨询自动问答机器人系统,涉及一种用于心理咨询的机器人系统。为了解决现有的心理咨询师辅助治疗设备,存在不能独立工作、无法实时反馈咨询和和监控、并且不能适时反馈咨询结果、不能建立咨询治疗全过程的心理咨询档案、扩展性不强的问题。心理咨询问题特征提取模块用于对用户输入的心理咨询问题提取关键特征;对话控制逻辑模块用于读取并处理提取的关键特征并给出候选解答集合;机器人系统的知识库,用于存储心理咨询问题答案;对话历史分析模块,用于分析与心理咨询用户的对话历史;解答管理模块,用于根据对话历史给出一个最佳的心理咨询回答;解答生成模块,用于将该最佳回答输出并存入对话日志。本发明用于辅助心理咨询。
-
公开(公告)号:CN102033922A
公开(公告)日:2011-04-27
申请号:CN201010587346.8
申请日:2010-12-14
Applicant: 哈尔滨工业大学
IPC: G06F17/30
Abstract: 一种基于词汇链的关键短语抽取方法,涉及一种关键短语抽取方法。本发明为了解决现有的关键词抽取方法无法确切反映文章叙述的主题信息,现有的基于词汇链的关键短语抽取方法中关键短语抽取的准确性及对文档主题信息的覆盖性较低的问题。具体步骤:一、获取词义;二、使用词典《知网》对词语进行消歧;三、对消歧后的词语构建词汇链,并获得多个强链;四、从多个强链中选择中心词,构成中心词集合;五、计算中心词集合中不同中心词间的同现率,选择同现率大于用户设定的抽取阈值的中心词作为关键短语。本发明能够有效的反应文档的主题信息,提高关键短语抽取的准确性,仅需要少量的关键短语就可以有效覆盖文档的主题信息。应用于关键词抽取领域。
-
-
-
-
-
-
-
-
-