-
公开(公告)号:CN109101468B
公开(公告)日:2020-07-03
申请号:CN201810873554.0
申请日:2018-08-02
Applicant: 浙江大学
IPC: G06F40/103
Abstract: 本发明公开了一种文本数据转换脚本的执行优化方法。针对通过网络分布式处理执行的文本数据转换脚本,对文本数据转换脚本进行解析,生成执行计划树;使用基于元组的多重集作为文本数据的数据模型,文本数据转换脚本包含了对多重集的结构和内容进行修改和转换的数据操作;根据转换脚本执行场景的不同,采用对应的执行优化方法;根据优化后得到的执行计划结果,生成逻辑程序处理并运行,从而对大数据平台上的数据进行高效地转换和处理。本发明方法能够应用于数据准备阶段对海量文本数据的处理,通过应用面向文本数据转换脚本的执行优化方法,能够有效地减少文本数据转换脚本在执行时的时空代价,提高数据准备阶段的效率。
-
公开(公告)号:CN109101468A
公开(公告)日:2018-12-28
申请号:CN201810873554.0
申请日:2018-08-02
Applicant: 浙江大学
IPC: G06F17/21
Abstract: 本发明公开了一种文本数据转换脚本的执行优化方法。针对通过网络分布式处理执行的文本数据转换脚本,对文本数据转换脚本进行解析,生成执行计划树;使用基于元组的多重集作为文本数据的数据模型,文本数据转换脚本包含了对多重集的结构和内容进行修改和转换的数据操作;根据转换脚本执行场景的不同,采用对应的执行优化方法;根据优化后得到的执行计划结果,生成逻辑程序处理并运行,从而对大数据平台上的数据进行高效地转换和处理。本发明方法能够应用于数据准备阶段对海量文本数据的处理,通过应用面向文本数据转换脚本的执行优化方法,能够有效地减少文本数据转换脚本在执行时的时空代价,提高数据准备阶段的效率。
-