-
公开(公告)号:CN108563729B
公开(公告)日:2022-04-01
申请号:CN201810301630.0
申请日:2018-04-04
Applicant: 福州大学
IPC: G06F16/958 , G06F40/14
Abstract: 本发明的目的是挺一种基于DOM树的招标网站中标信息抽取方法,包括以下步骤:首先通过对招标网站的中标信息列表页的采集,得到每一个中标项目在列表页中显示的标题以及中标项目详情页的链接,并通过链接得到中标项目详情页的HTML代码,上述数据构成一项中标项目数据,N项中标项目数据构成用数据集;对数据集中的每一项中标项目数据,利用该中标项目在列表页中的标题以及对应的HTML代码,创建一棵DOM树;遍历数据集,生成N棵DOM树;再根据N棵DOM树生成包装器;最后使用包装器抽取中标项目详情页面中的正文内容,即中标项目信息。该方法能够在提高中标信息抽取准确率的同时减少任务总执行时间。
-
公开(公告)号:CN108984745B
公开(公告)日:2021-11-02
申请号:CN201810780502.9
申请日:2018-07-16
Applicant: 福州大学
Abstract: 本发明涉及一种融合多知识图谱的神经网络文本分类方法,包括以下步骤:将训练集中文本输入至长短期记忆网络中,得到文本的上下文向量;对训练集中各文本抽取实体,在知识图谱中进行实体匹配;分别计算匹配到的各实体、知识图谱中各关系在上下文向量下的注意力权重,得到文本的总体实体向量、总体关系向量,进而得到事实三元组向量;计算不同知识图谱下的事实三元组向量,计算这些事实三元组的注意力权重,得到文本表征向量并输入到神经网络的全连接层,使用分类器计算各文本属于各类别的概率来训练网络;利用训练好的深度神经网络模型预测待预测文本所属类别。该方法提升了模型对文本语义的理解,可以更可靠、准确且鲁棒地对文本内容进行分类。
-
公开(公告)号:CN108595632B
公开(公告)日:2022-05-24
申请号:CN201810375856.5
申请日:2018-04-24
Applicant: 福州大学
Abstract: 本发明涉及一种融合摘要与主体特征的混合神经网络文本分类方法,包括以下步骤:步骤A:对训练集中各文本抽取摘要;步骤B:使用卷积神经网络学习步骤A得到的摘要的关键局部特征;步骤C:使用长短期记忆网络学习训练集中各文本主体内容上的上下文时序特征;步骤D:将步骤B和步骤C得到的两种特征级联,得到文本整体特征,将训练集中各文本的文本整体特征输入到全连接层,使用分类器计算各文本属于各类别的概率来训练网络,得到深度神经网络模型;步骤E:利用训练好的深度神经网络模型预测待预测文本所属类别,取概率最大的类别作为预测的类别输出。该方法有利于提高基于深度神经网络的文本分类的准确率。
-
公开(公告)号:CN108984745A
公开(公告)日:2018-12-11
申请号:CN201810780502.9
申请日:2018-07-16
Applicant: 福州大学
Abstract: 本发明涉及一种融合多知识图谱的神经网络文本分类方法,包括以下步骤:将训练集中文本输入至长短期记忆网络中,得到文本的上下文向量;对训练集中各文本抽取实体,在知识图谱中进行实体匹配;分别计算匹配到的各实体、知识图谱中各关系在上下文向量下的注意力权重,得到文本的总体实体向量、总体关系向量,进而得到事实三元组向量;计算不同知识图谱下的事实三元组向量,计算这些事实三元组的注意力权重,得到文本表征向量并输入到神经网络的全连接层,使用分类器计算各文本属于各类别的概率来训练网络;利用训练好的深度神经网络模型预测待预测文本所属类别。该方法提升了模型对文本语义的理解,可以更可靠、准确且鲁棒地对文本内容进行分类。
-
公开(公告)号:CN108563729A
公开(公告)日:2018-09-21
申请号:CN201810301630.0
申请日:2018-04-04
Applicant: 福州大学
Abstract: 本发明的目的是挺一种基于DOM树的招标网站中标信息抽取方法,包括以下步骤:首先通过对招标网站的中标信息列表页的采集,得到每一个中标项目在列表页中显示的标题以及中标项目详情页的链接,并通过链接得到中标项目详情页的HTML代码,上述数据构成一项中标项目数据,N项中标项目数据构成用数据集;对数据集中的每一项中标项目数据,利用该中标项目在列表页中的标题以及对应的HTML代码,创建一棵DOM树;遍历数据集,生成N棵DOM树;再根据N棵DOM树生成包装器;最后使用包装器抽取中标项目详情页面中的正文内容,即中标项目信息。该方法能够在提高中标信息抽取准确率的同时减少任务总执行时间。
-
公开(公告)号:CN108595632A
公开(公告)日:2018-09-28
申请号:CN201810375856.5
申请日:2018-04-24
Applicant: 福州大学
Abstract: 本发明涉及一种融合摘要与主体特征的混合神经网络文本分类方法,包括以下步骤:步骤A:对训练集中各文本抽取摘要;步骤B:使用卷积神经网络学习步骤A得到的摘要的关键局部特征;步骤C:使用长短期记忆网络学习训练集中各文本主体内容上的上下文时序特征;步骤D:将步骤B和步骤C得到的两种特征级联,得到文本整体特征,将训练集中各文本的文本整体特征输入到全连接层,使用分类器计算各文本属于各类别的概率来训练网络,得到深度神经网络模型;步骤E:利用训练好的深度神经网络模型预测待预测文本所属类别,取概率最大的类别作为预测的类别输出。该方法有利于提高基于深度神经网络的文本分类的准确率。
-
公开(公告)号:CN108509423A
公开(公告)日:2018-09-07
申请号:CN201810300522.1
申请日:2018-04-04
Applicant: 福州大学
IPC: G06F17/27
Abstract: 本发明涉及一种基于二阶HMM的中标网页命名实体抽取方法,包括如下步骤:将中标网页的HTML代码转换为规范化的文本数据,并记录每个网页对应的标题;对规范化后的文本数据进行分词和词性标注;基于二阶HMM模型,对中标数据进行命名实体的上下文识别并将识别结果加入到候选命名实体集合中;基于二阶HMM模型和规则,对候选命名实体集合中的命名实体进行识别。本发明能够精确提取招标网站中的中标项目信息。
-
-
-
-
-
-