-
公开(公告)号:CN114861641A
公开(公告)日:2022-08-05
申请号:CN202210780916.8
申请日:2022-07-05
IPC分类号: G06F40/258 , G06F40/289 , G06F16/35
摘要: 本申请提供了一种数据提取方法、装置、电子设备和存储介质,包括:依次对接收到待解析文章中的每个自然段进行第一排序;针对标题自然段在待解析文章中的位置、标题内容,确定各标题自然段之间的第一层级关系,并确定标题自然段与内容自然段之间的第二层级关系;根据标点符号将每个内容自然段中拆解为短语,并分别对短语、由短语组成的句子进行第二排序和第三排序;基于第一排序、第二排序、第三排序、第一层级关系、第二层级关系,构建结构化解析内容;根据为待解析文章的文章类别预设的提取格式,从结构化解析内容中提取出目标数据,以在显示终端展示目标数据或导出为目标文件格式。通过上述方法,有助于提高特殊领域文章的内容提取精度。
-
公开(公告)号:CN114861641B
公开(公告)日:2022-09-20
申请号:CN202210780916.8
申请日:2022-07-05
IPC分类号: G06F40/258 , G06F40/289 , G06F16/35
摘要: 本申请提供了一种数据提取方法、装置、电子设备和存储介质,包括:依次对接收到待解析文章中的每个自然段进行第一排序;针对标题自然段在待解析文章中的位置、标题内容,确定各标题自然段之间的第一层级关系,并确定标题自然段与内容自然段之间的第二层级关系;根据标点符号将每个内容自然段中拆解为短语,并分别对短语、由短语组成的句子进行第二排序和第三排序;基于第一排序、第二排序、第三排序、第一层级关系、第二层级关系,构建结构化解析内容;根据为待解析文章的文章类别预设的提取格式,从结构化解析内容中提取出目标数据,以在显示终端展示目标数据或导出为目标文件格式。通过上述方法,有助于提高特殊领域文章的内容提取精度。
-
公开(公告)号:CN111178969A
公开(公告)日:2020-05-19
申请号:CN201911391128.4
申请日:2019-12-30
申请人: 河南拓普计算机网络工程有限公司
摘要: 本发明涉及市场主体迁移分析技术领域,具体涉及一种市场主体迁移特征分析方法、装置、电子设备及存储介质。该检测方法包括以下步骤:获取市场主体的基本信息,基本信息包括市场主体名称、变更前地址、变更后地址和相应的地址变更时间;将变更前地址和变更后地址相应的转化为变更前经纬度和变更后经纬度;以变更前经纬度为起点坐标、变更后经纬度为终点坐标绘制以预设地图为背景的飞线图;利用前端数据可视化插件根据起点坐标绘制散点图;根据所述地址变更时间来设置页面的轮播时间。本发明实施例利用变更前后的地址绘制飞线图和散点图,以实现市场主体迁移前后的可视化展示,对市场主体的地址转换为精确的经纬度,提高了可视化图形的精确性。
-
公开(公告)号:CN111191103B
公开(公告)日:2021-08-24
申请号:CN201911391120.8
申请日:2019-12-30
申请人: 河南拓普计算机网络工程有限公司
IPC分类号: G06F16/953 , G06F9/54
摘要: 本发明涉及企业主体信息的识别和分析技术领域,具体涉及一种从互联网中识别分析企业主体信息方法、装置及存储介质,该方法包括以下步骤:将N个企业主体信息划分为M个不同的区域,利用字典树算法对每个所述区域中的所有所述企业主体信息构建字典树,得到M个字典树;以I个所述字典树为一个小组,将M个字典树分为J个小组;将所述J个小组聚合为一个企业主体信息识别服务;将所述企业主体信息识别服务封装为统一的远程过程调用接口;调用所述远程过程调用接口,同时使用多线程对所述J个小组进行并行查询;存储所识别的企业主体信息及相应的查询结果,实现了快速的从互联网信息中快速识别企业主体信息并进行分析的目的。
-
公开(公告)号:CN111222769A
公开(公告)日:2020-06-02
申请号:CN201911392798.8
申请日:2019-12-30
申请人: 河南拓普计算机网络工程有限公司
摘要: 本发明涉及数据质量评价技术领域,具体涉及一种年报数据质量评价方法、装置、电子设备及存储介质,该方法包括以下步骤:对获取的企业年报数据进行标准化处理,得到标准化数据;将标准化数据输入由多种异常值检测算法构成的机器学习模型中识别相应的异常值;根据异常值对企业年报数据中相应的数据指标进行投票,若某一数据指标被两个及两个以上的异常值检测算法识别出异常而进行投票,则记录数据指标所关联的企业的异常得分,汇总企业所有数据指标的异常得分,得到企业的总异常得分,本发明实施例采用由多种异常值检测算法构成的机器学习模型集中投票的方式判定,不存在人的主观因素的影响,评价结果准确。
-
公开(公告)号:CN111191103A
公开(公告)日:2020-05-22
申请号:CN201911391120.8
申请日:2019-12-30
申请人: 河南拓普计算机网络工程有限公司
IPC分类号: G06F16/953 , G06F9/54
摘要: 本发明涉及企业主体信息的识别和分析技术领域,具体涉及一种从互联网中识别分析企业主体信息方法、装置及存储介质,该方法包括以下步骤:将N个企业主体信息划分为M个不同的区域,利用字典树算法对每个所述区域中的所有所述企业主体信息构建字典树,得到M个字典树;以I个所述字典树为一个小组,将M个字典树分为J个小组;将所述J个小组聚合为一个企业主体信息识别服务;将所述企业主体信息识别服务封装为统一的远程过程调用接口;调用所述远程过程调用接口,同时使用多线程对所述J个小组进行并行查询;存储所识别的企业主体信息及相应的查询结果,实现了快速的从互联网信息中快速识别企业主体信息并进行分析的目的。
-
-
-
-
-