-
公开(公告)号:CN110532378A
公开(公告)日:2019-12-03
申请号:CN201910395663.0
申请日:2019-05-13
Applicant: 南京大学
Abstract: 本发明公开了一种基于主题模型的短文本方面提取方法,包括如下步骤:1)伪文档构建阶段:根据数据集构建词汇共现网络,生成词汇的伪文档;2)主题嵌入模块设置阶段:基于伪文档将词嵌入与主题嵌入联合训练,丰富词汇的潜在语义信息;3)注意力机制构建阶段:基于词向量信息重构句嵌入,最小化目标函数生成词汇权重参数;4)方面词汇聚类阶段:在词嵌入高维空间应用k-means聚类算法,输出最终方面词汇簇。本发明将主题嵌入与词嵌入联合训练,丰富了词汇的潜在语义信息,并通过注意力机制提高方面词汇权重,降低非方面词汇的权重,从而极大的提高了短文本方面提取模型的性能。
-
公开(公告)号:CN110532378B
公开(公告)日:2021-10-26
申请号:CN201910395663.0
申请日:2019-05-13
Applicant: 南京大学
IPC: G06F16/35 , G06F16/33 , G06F40/216 , G06F40/284 , G06F40/30
Abstract: 本发明公开了一种基于主题模型的短文本方面提取方法,包括如下步骤:1)伪文档构建阶段:根据数据集构建词汇共现网络,生成词汇的伪文档;2)主题嵌入模块设置阶段:基于伪文档将词嵌入与主题嵌入联合训练,丰富词汇的潜在语义信息;3)注意力机制构建阶段:基于词向量信息重构句嵌入,最小化目标函数生成词汇权重参数;4)方面词汇聚类阶段:在词嵌入高维空间应用k‑means聚类算法,输出最终方面词汇簇。本发明将主题嵌入与词嵌入联合训练,丰富了词汇的潜在语义信息,并通过注意力机制提高方面词汇权重,降低非方面词汇的权重,从而极大的提高了短文本方面提取模型的性能。
-
公开(公告)号:CN110110335B
公开(公告)日:2023-01-06
申请号:CN201910384659.4
申请日:2019-05-09
Applicant: 南京大学
IPC: G06F40/295 , G06N3/04 , G06N3/08
Abstract: 基于层叠模型的复杂中文命名实体识别方法,1)模型训练阶段:a通过有标注的命名实体语料集在改进的损失函数计算下训练低层BiLSTM‑CRF模型并保存;b通过有标注的命名实体识别语料训练高层BiLSTM‑CRF模型并保存;2)模型预测阶段:将带预测语料送入低层模型,识别出粗粒度的命名实体作为初步结果传入高层模型。高层模型对初步结果继续识别,若识别结果不为单个命名实体则将结果重新输入高层模型,知道所有结果为单个命名实体;3)输出结果:收集语料经过层叠模型得到的所有命名实体即高层网络所有输出的命名实体,作为整个识别过程中识别出的最终结果。
-
公开(公告)号:CN110110335A
公开(公告)日:2019-08-09
申请号:CN201910384659.4
申请日:2019-05-09
Applicant: 南京大学
Abstract: 基于层叠模型的复杂中文命名实体识别方法,1)模型训练阶段:a通过有标注的命名实体语料集在改进的损失函数计算下训练低层BiLSTM-CRF模型并保存;b通过有标注的命名实体识别语料训练高层BiLSTM-CRF模型并保存;2)模型预测阶段:将带预测语料送入低层模型,识别出粗粒度的命名实体作为初步结果传入高层模型。高层模型对初步结果继续识别,若识别结果不为单个命名实体则将结果重新输入高层模型,知道所有结果为单个命名实体;3)输出结果:收集语料经过层叠模型得到的所有命名实体即高层网络所有输出的命名实体,作为整个识别过程中识别出的最终结果。
-
公开(公告)号:CN110532450B
公开(公告)日:2021-05-04
申请号:CN201910395283.7
申请日:2019-05-13
Applicant: 南京大学
IPC: G06F16/951
Abstract: 本发明公开了一种基于改进鲨鱼搜索的主题爬虫方法,包括如下步骤1)种子url配置以及主题词配置阶段;2)网页下载阶段;3)主题判别阶段;4)爬虫搜索阶段:a计算链接的内容得分以及url聚类得分;b对父网页进行hub型页面判定;c计算链接的搜索深度;d将链接加入url优先级队列,并根据链接得分与搜索深度调整队列中顺序。本发明利用主题词向量、url聚类算法以及hub型页面判别解决了主题爬虫中主题判别不准确、爬取覆盖面积不足的问题。
-
公开(公告)号:CN110532450A
公开(公告)日:2019-12-03
申请号:CN201910395283.7
申请日:2019-05-13
Applicant: 南京大学
IPC: G06F16/951
Abstract: 本发明公开了一种基于改进鲨鱼搜索的主题爬虫方法,包括如下步骤1)种子url配置以及主题词配置阶段;2)网页下载阶段;3)主题判别阶段;4)爬虫搜索阶段:a计算链接的内容得分以及url聚类得分;b对父网页进行hub型页面判定;c计算链接的搜索深度;d将链接加入url优先级队列,并根据链接得分与搜索深度调整队列中顺序。本发明利用主题词向量、url聚类算法以及hub型页面判别解决了主题爬虫中主题判别不准确、爬取覆盖面积不足的问题。
-
-
-
-
-