一种基于单向翻译与有效性自验证的等价代码数据增强方法

    公开(公告)号:CN120010853A

    公开(公告)日:2025-05-16

    申请号:CN202510077737.1

    申请日:2025-01-17

    Abstract: 本发明属于智能软件工程的数据增强方法领域,涉及一种基于单向翻译与有效性自验证的等价代码数据增强方法。首先获取待数据增强项目内容,提取出所含各个函数,依次利用大语言模型进行功能需求单向翻译,获取自然语言描述;进而填充提示模板,输入大语言模型生成候选代码。为了确保被增强数据的语法有效性,使用静态语法分析工具检验候选代码;为了确保语义等价性,从断言知识增强与焦点方法‑测试用例关系学习角度依次预训练Func2Test模型并进行微调,为每个候选代码生成m个测试用例用于测试,最终仅保留通过率最高的候选代码作为新生成代码。最后对原始代码和新生成代码进行mixup处理,获得最终增强结果,即混合数据集Dmix。

Patent Agency Ranking