一种JSON数据的语法树提取方法

    公开(公告)号:CN111046630A

    公开(公告)日:2020-04-21

    申请号:CN201911240324.1

    申请日:2019-12-06

    Abstract: 本发明提供一种JSON数据的语法树提取方法,包括:对给定的数据集中的JSON数据进行采样,记录JSON记录结构树;遍历所有的JSON记录结构树以累加生成一个统计结构树;遍历统计结构树中每个节点的计数器,将JSON记录中的域划分为稀疏域和非稀疏域;将特征相同的稀疏域归类到一起,形成相同特征的域的归类;基于非稀疏域、相同特征的域的归类生成语法树的初始状态:根据语法树的初始状态,对给定的数据集中的所有JSON记录逐条进行解析,动态构建数据集对应的语法树。本发明通过对JSON数据记录(Record)中的稀疏的域按照特征进行归类,提高了语法树的组织效率;通过对具有相同特征的域进行归类,减少了解析后的数据的列式文件数量,从而提高了在后续查询过程中的效率。

    一种JSON数据的语法树提取方法

    公开(公告)号:CN111046630B

    公开(公告)日:2021-07-20

    申请号:CN201911240324.1

    申请日:2019-12-06

    Abstract: 本发明提供一种JSON数据的语法树提取方法,包括:对给定的数据集中的JSON数据进行采样,记录JSON记录结构树;遍历所有的JSON记录结构树以累加生成一个统计结构树;遍历统计结构树中每个节点的计数器,将JSON记录中的域划分为稀疏域和非稀疏域;将特征相同的稀疏域归类到一起,形成相同特征的域的归类;基于非稀疏域、相同特征的域的归类生成语法树的初始状态:根据语法树的初始状态,对给定的数据集中的所有JSON记录逐条进行解析,动态构建数据集对应的语法树。本发明通过对JSON数据记录(Record)中的稀疏的域按照特征进行归类,提高了语法树的组织效率;通过对具有相同特征的域进行归类,减少了解析后的数据的列式文件数量,从而提高了在后续查询过程中的效率。

Patent Agency Ranking