一种基于频率属性和PCA的时空索引建立方法

    公开(公告)号:CN110134692B

    公开(公告)日:2023-04-07

    申请号:CN201910413012.X

    申请日:2019-05-17

    Applicant: 南京大学

    Abstract: 一种基于频率属性和PCA的时空索引建立方法,1)数据采集,采集并获取足够多的真实应用场景中的对象产生的具有经度、纬度、时间以及查询频率四个特征(称为基于频率属性的时空特征)的数据,数据的这四个特征字段不能存在任何缺失;2)数据预处理,将获取的当前划分的数据块中所有数据看作时空三维坐标系中的点,选取前K个(默认为4)频率最大的数据点,根据PCA算法得到这四个点对应的投影平面;3),索引计算,根据在投影面上的四个点,连接这四个点构成一个凸四边形,选取四条边的中点并连接对边的中点以此构建两个划分平面;4)索引建立,递归的进行步骤2和步骤3的划分操作,每一个划分的空间块即可对应为树中的一个结点。

    一种基于主题词向量与卷积神经网络的短文本分类方法

    公开(公告)号:CN110134786B

    公开(公告)日:2021-09-10

    申请号:CN201910397064.2

    申请日:2019-05-14

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于主题词向量与卷积神经网络的短文本分类方法,包括如下步骤:1)数据采集阶段:根据需求采集短文本数据,对其进行标签标注,作为训练集;2)数据预处理阶段:对文本进行分词,去停用词,无用文本过滤等;3)短文本特征表示,主题层面与词向量层面分别进行表征;4)主题词向量联合训练;5)卷积神经网络分类模型参数优化,迭代;6)新样本进行类别预测。本发明结合短文本数据特点,在特征表示阶段利用主题向量与词向量结合表示,对短文本自身数据特点进行语义特征扩展,在分类模型训练阶段利用卷积神经网络对局部敏感信息抽取能力进一步对文本语义信息进行挖掘,能够对短文本分类任务类别预测准确率等指标进行提高。

    一种基于三维R树的时空数据的存储及检索和更新方法

    公开(公告)号:CN110532255A

    公开(公告)日:2019-12-03

    申请号:CN201910420403.4

    申请日:2019-05-20

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于三维R树的时空数据的存储及检索和更新方法,根据时空数据在空间中的位置关系,通过聚类的方式将相似的样本划分到同一个类别中,每个类别作为接下来建立R树的一个基本单元。使用三维R树来存储由二维空间数据和时间数据组成的时空数据,且在R树中的每个结点存储该条数据在原始数据库中的主键id。在数据检索阶段,获得包含该数据的最小立方体块,接下来在此立方体块中对数据进行精确查找。在数据更新阶段,原始数据被插入到外部数据库中,同时向R树中增加其对应的新的索引。本发明将R树用于时空数据的存储与检索优化,利用R树具有高平衡性的特点,可以显著地提高数据检索、更新时的效率。

    一种基于主题词向量与卷积神经网络的短文本分类方法

    公开(公告)号:CN110134786A

    公开(公告)日:2019-08-16

    申请号:CN201910397064.2

    申请日:2019-05-14

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于主题词向量与卷积神经网络的短文本分类方法,包括如下步骤:1)数据采集阶段:根据需求采集短文本数据,对其进行标签标注,作为训练集;2)数据预处理阶段:对文本进行分词,去停用词,无用文本过滤等;3)短文本特征表示,主题层面与词向量层面分别进行表征;4)主题词向量联合训练;5)卷积神经网络分类模型参数优化,迭代;6)新样本进行类别预测。本发明结合短文本数据特点,在特征表示阶段利用主题向量与词向量结合表示,对短文本自身数据特点进行语义特征扩展,在分类模型训练阶段利用卷积神经网络对局部敏感信息抽取能力进一步对文本语义信息进行挖掘,能够对短文本分类任务类别预测准确率等指标进行提高。

    一种基于频率属性和PCA的时空索引建立方法

    公开(公告)号:CN110134692A

    公开(公告)日:2019-08-16

    申请号:CN201910413012.X

    申请日:2019-05-17

    Applicant: 南京大学

    Abstract: 一种基于频率属性和PCA的时空索引建立方法,1)数据采集,采集并获取足够多的真实应用场景中的对象产生的具有经度、纬度、时间以及查询频率四个特征(称为基于频率属性的时空特征)的数据,数据的这四个特征字段不能存在任何缺失;2)数据预处理,将获取的当前划分的数据块中所有数据看作时空三维坐标系中的点,选取前K个(默认为4)频率最大的数据点,根据PCA算法得到这四个点对应的投影平面;3),索引计算,根据在投影面上的四个点,连接这四个点构成一个凸四边形,选取四条边的中点并连接对边的中点以此构建两个划分平面;4)索引建立,递归的进行步骤2和步骤3的划分操作,每一个划分的空间块即可对应为树中的一个结点。

    一种基于增量贝叶斯算法的主题爬虫方法

    公开(公告)号:CN108710672B

    公开(公告)日:2020-04-14

    申请号:CN201810472102.1

    申请日:2018-05-17

    Applicant: 南京大学

    Abstract: 一种基于增量贝叶斯算法的主题爬虫方法,使用增量学习思想训练贝叶斯分类器的步骤,基于增量贝叶斯算法进行在线主题爬虫的步骤:输入初始训练集和增量训练集;对初始训练集和增量训练集进行分词等预处理;根据初始训练集和朴素贝叶斯原理训练出初始分类器,针对增量训练集中的数据,使用初始分类器对样本进行分类,根据分类结果进行分类模型的更新;初始化优先级队列、已访问链接集合、增量贝叶斯分类器,并将初始网页链接加入到优先级队列中;根据网页链接是否含有主题关键词,如果含有,则对增量贝叶斯分类模型进行更新。每次选择优先级队列中优先级最高的网页进行网页下载,重复上述步骤直到满足条件。

    一种基于增量贝叶斯算法的主题爬虫方法

    公开(公告)号:CN108710672A

    公开(公告)日:2018-10-26

    申请号:CN201810472102.1

    申请日:2018-05-17

    Applicant: 南京大学

    Abstract: 一种基于增量贝叶斯算法的主题爬虫方法,使用增量学习思想训练贝叶斯分类器的步骤,基于增量贝叶斯算法进行在线主题爬虫的步骤:输入初始训练集和增量训练集;对初始训练集和增量训练集进行分词等预处理;根据初始训练集和朴素贝叶斯原理训练出初始分类器,针对增量训练集中的数据,使用初始分类器对样本进行分类,根据分类结果进行分类模型的更新;初始化优先级队列、已访问链接集合、增量贝叶斯分类器,并将初始网页链接加入到优先级队列中;根据网页链接是否含有主题关键词,如果含有,则对增量贝叶斯分类模型进行更新。每次选择优先级队列中优先级最高的网页进行网页下载,重复上述步骤直到满足条件。

Patent Agency Ranking