一种人物属性抽取训练数据集构建方法

    公开(公告)号:CN109033166B

    公开(公告)日:2022-01-07

    申请号:CN201810636331.2

    申请日:2018-06-20

    Abstract: 本发明公开了一种人物属性抽取训练数据集构建方法。首先,下载HTML页面中的文本数据内容,提取描述人物正文内容和属性信息的信息框数据,并进行编码存储和语句切分;然后,对切分后的语句,选取既包含人物名称、人物属性值内容的语句构建人物属性抽取语料数据集;最后,提取人物属性抽取语料数据集中的所有动词,基于信息熵的方法对所有动词进行排序,提取排名靠前的动词作为属性触发词,把人物属性抽取语料数据集中不包含属性触发词的语句删除掉,剩下的语句就组成了人物属性抽取训练数据集。本发明综合利用的网页数据采集、词性分析、词语信息熵计算等技术自动构建人物属性抽取训练数据集,对提高训练数据集构建的效率具有重要意义。

    基于分层图池化的多视角聚类方法及系统

    公开(公告)号:CN113255720A

    公开(公告)日:2021-08-13

    申请号:CN202110393842.8

    申请日:2021-04-13

    Abstract: 本发明公开了一种基于分层图池化的多视角聚类方法,包括以下步骤:将待处理数据划分成多视角数据集,然后将多视角数据集按各视角构建对应的图表示,得到对应的视图;采用分层图池化层迭代计算方法提取每个视图的聚类信息,每个视图的聚类信息包括对应该视图的粗化图和分配矩阵,该粗化图包括迭代后的邻接矩阵、特征矩阵、图拉普拉斯矩阵;采用多视角谱聚类融合方法融合所有视图的聚类信息,得到每一类特征向量所对应的类别。具有充分利用待处理数据本身的多视图特征,可以综合包含原各个视图的聚类信息。公开了一种基于分层图池化的多视角聚类系统,包括:图构建模块、聚类信息计算提取模块、多视角融合模块。本发明具有提升聚类效果的有益效果。

    基于大语言模型的特定信息研判方法及系统

    公开(公告)号:CN120045763A

    公开(公告)日:2025-05-27

    申请号:CN202411949680.1

    申请日:2024-12-27

    Abstract: 本发明提供了基于大语言模型的特定信息研判方法及系统,通过基于API接入、逆向分析APP和网络爬虫相结合的方式获取信息数据,并对所述信息数据进行清洗和规范化处理后存入分布式数据库中进行统一管理;基于大语言模型对信息数据进行预处理后,采用预训练和微调相结合的方式提取信息数据中待分析对象的基础属性信息,基于基础属性信息构建关系知识库;通过线上维度获取待分析对象的线上特征,通过线下维度获取待分析对象的线下特征,对线上特征和线下特征进行特征融合,得到立体属性描述;基于滑动窗口技术,对关系知识库和立体属性描述确定的文本进行信息研判分析,根据研判分析结果对异常信息进行实时提示。

Patent Agency Ranking