-
公开(公告)号:CN110287379B
公开(公告)日:2022-12-06
申请号:CN201910523223.9
申请日:2019-06-17
Applicant: 中电科大数据研究院有限公司
IPC: G06F16/901 , G06F16/903
Abstract: 本发明提供一种基于逻辑树的表格拆分与数据提取方法,通构建表格逻辑树方式对表格进行按逻辑行和逻辑列的拆分,并通过对应到逻辑树的位置进行编码。通过逻辑树的表格拆分方式,实现了灵活地对表格进行搜索查询、拆分和数据提取,便于在政务数据表格处理的过程中,将不同部门的表格汇总到上级部门,同时也可以快速为下级部门提取所需的数据信息,实现了表格的智能关联。
-
公开(公告)号:CN117556363B
公开(公告)日:2024-04-09
申请号:CN202410038183.X
申请日:2024-01-11
Applicant: 中电科大数据研究院有限公司
IPC: G06F18/2433 , G06F40/289 , G06F40/216
Abstract: 本发明涉及数据质量技术领域,具体涉及了一种基于多源数据联合检测的数据集异常识别方法。包括以下步骤:S100:分别获取来自不同参与方的文本类数据的数据集;S200:识别并提取出不同参与方的数据集中具有交集的部分,作为识别数据集,分别对不同参与方的识别数据集进行预处理后,将识别数据集中的各项文本数据均转换为特征向量300:将不同参与方的识别数据集中的特征向量进行比对,各个参与方的识别数据中文本数据不一致的部分,作为异常数据,并对异常数据进行定位;S400:分别识别异常数据在其所述识别数据集中的数据归属中的数据属性,根据数据属性选择检测方式,检测各参与方的异常数据在其所述数据集的数据归属中是否为正常数据或是异常数据。
-
公开(公告)号:CN117313748A
公开(公告)日:2023-12-29
申请号:CN202311582287.9
申请日:2023-11-24
Applicant: 中电科大数据研究院有限公司
IPC: G06F40/35 , G06F40/232 , G06F16/332 , G06F16/33 , G06F16/335 , G06N20/20 , G06F18/243
Abstract: 本发明公开了一种面向政务问答的多特征融合语义理解方法及装置,该方法包括:获取用户输入的咨询问题;对用户输入的咨询问题进行语法纠错和方言纠错,得到纠错后的文本;将所述文本分别输入一个或多个不同的特征匹配模型,根据各特征匹配模型输出的候选问题构建信息融合三元组;根据所述候选问题查询用户历史咨询问题列表和/或热点问题列表,得到所述候选问题在所述用户最近一段时间是否咨询该问题的历史咨询特征、和/或所述候选问题在最近一段时间是否被访问的热点事项特征;将多维特征输入随机森林模型,得到对应咨询问题的语义理解结果。利用本发明方案,可以准确理解用户输入信息,精准定位用户咨询事项。
-
公开(公告)号:CN110287379A
公开(公告)日:2019-09-27
申请号:CN201910523223.9
申请日:2019-06-17
Applicant: 中电科大数据研究院有限公司
IPC: G06F16/901 , G06F16/903
Abstract: 本发明提供一种基于逻辑树的表格拆分与数据提取方法,通构建表格逻辑树方式对表格进行按逻辑行和逻辑列的拆分,并通过对应到逻辑树的位置进行编码。通过逻辑树的表格拆分方式,实现了灵活地对表格进行搜索查询、拆分和数据提取,便于在政务数据表格处理的过程中,将不同部门的表格汇总到上级部门,同时也可以快速为下级部门提取所需的数据信息,实现了表格的智能关联。
-
-
-