一种基于层叠模型的命名实体识别方法

    公开(公告)号:CN110110335B

    公开(公告)日:2023-01-06

    申请号:CN201910384659.4

    申请日:2019-05-09

    Applicant: 南京大学

    Abstract: 基于层叠模型的复杂中文命名实体识别方法,1)模型训练阶段:a通过有标注的命名实体语料集在改进的损失函数计算下训练低层BiLSTM‑CRF模型并保存;b通过有标注的命名实体识别语料训练高层BiLSTM‑CRF模型并保存;2)模型预测阶段:将带预测语料送入低层模型,识别出粗粒度的命名实体作为初步结果传入高层模型。高层模型对初步结果继续识别,若识别结果不为单个命名实体则将结果重新输入高层模型,知道所有结果为单个命名实体;3)输出结果:收集语料经过层叠模型得到的所有命名实体即高层网络所有输出的命名实体,作为整个识别过程中识别出的最终结果。

    一种基于层叠模型的命名实体识别方法

    公开(公告)号:CN110110335A

    公开(公告)日:2019-08-09

    申请号:CN201910384659.4

    申请日:2019-05-09

    Applicant: 南京大学

    Abstract: 基于层叠模型的复杂中文命名实体识别方法,1)模型训练阶段:a通过有标注的命名实体语料集在改进的损失函数计算下训练低层BiLSTM-CRF模型并保存;b通过有标注的命名实体识别语料训练高层BiLSTM-CRF模型并保存;2)模型预测阶段:将带预测语料送入低层模型,识别出粗粒度的命名实体作为初步结果传入高层模型。高层模型对初步结果继续识别,若识别结果不为单个命名实体则将结果重新输入高层模型,知道所有结果为单个命名实体;3)输出结果:收集语料经过层叠模型得到的所有命名实体即高层网络所有输出的命名实体,作为整个识别过程中识别出的最终结果。

    一种基于改进鲨鱼搜索的主题爬虫方法

    公开(公告)号:CN110532450B

    公开(公告)日:2021-05-04

    申请号:CN201910395283.7

    申请日:2019-05-13

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于改进鲨鱼搜索的主题爬虫方法,包括如下步骤1)种子url配置以及主题词配置阶段;2)网页下载阶段;3)主题判别阶段;4)爬虫搜索阶段:a计算链接的内容得分以及url聚类得分;b对父网页进行hub型页面判定;c计算链接的搜索深度;d将链接加入url优先级队列,并根据链接得分与搜索深度调整队列中顺序。本发明利用主题词向量、url聚类算法以及hub型页面判别解决了主题爬虫中主题判别不准确、爬取覆盖面积不足的问题。

    一种基于改进鲨鱼搜索的主题爬虫方法

    公开(公告)号:CN110532450A

    公开(公告)日:2019-12-03

    申请号:CN201910395283.7

    申请日:2019-05-13

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于改进鲨鱼搜索的主题爬虫方法,包括如下步骤1)种子url配置以及主题词配置阶段;2)网页下载阶段;3)主题判别阶段;4)爬虫搜索阶段:a计算链接的内容得分以及url聚类得分;b对父网页进行hub型页面判定;c计算链接的搜索深度;d将链接加入url优先级队列,并根据链接得分与搜索深度调整队列中顺序。本发明利用主题词向量、url聚类算法以及hub型页面判别解决了主题爬虫中主题判别不准确、爬取覆盖面积不足的问题。

Patent Agency Ranking