-
公开(公告)号:CN120010853A
公开(公告)日:2025-05-16
申请号:CN202510077737.1
申请日:2025-01-17
Applicant: 大连理工大学 , 信华信技术股份有限公司
Abstract: 本发明属于智能软件工程的数据增强方法领域,涉及一种基于单向翻译与有效性自验证的等价代码数据增强方法。首先获取待数据增强项目内容,提取出所含各个函数,依次利用大语言模型进行功能需求单向翻译,获取自然语言描述;进而填充提示模板,输入大语言模型生成候选代码。为了确保被增强数据的语法有效性,使用静态语法分析工具检验候选代码;为了确保语义等价性,从断言知识增强与焦点方法‑测试用例关系学习角度依次预训练Func2Test模型并进行微调,为每个候选代码生成m个测试用例用于测试,最终仅保留通过率最高的候选代码作为新生成代码。最后对原始代码和新生成代码进行mixup处理,获得最终增强结果,即混合数据集Dmix。
-
公开(公告)号:CN120010852A
公开(公告)日:2025-05-16
申请号:CN202510077454.7
申请日:2025-01-17
Applicant: 大连理工大学 , 信华信技术股份有限公司
Abstract: 本发明属于智能软件工程的数据增强方法领域,尤其涉及一种基于AST抽象语法树同义替换的代码大模型等价数据增强方法。首先进行数据筛选和静态语法分析检查,之后通过AST抽象语法树提取其代码所含变量名、函数名、类名建立词库进行筛选,在此基础上采用四种等价替换方法进行数据增强,最终将其与原始数据合并,获得最后的增强代码数据集。本发明可用于自动增强代码大模型训练语料,以微调提升大语言模型在垂直领域的性能。
-
公开(公告)号:CN120010854A
公开(公告)日:2025-05-16
申请号:CN202510078021.3
申请日:2025-01-17
Applicant: 大连理工大学 , 信华信技术股份有限公司
IPC: G06F8/41 , G06F18/22 , G06N3/0455
Abstract: 本发明属于软件工程领域,尤其涉及一种基于树指令大语言模型的代码翻译方法,可用于将源编程语言转换为目标编程语言。本发明通过从线性化AST中提取关键的树结构信息,并训练了一个相似度模型使树结构与代码结构对齐,从而构造更精确的指令数据集,增加了大语言模型对AST结构的理解能力;通过与大语言模型相结合,大大减少了人力干预,极大降低了代码翻译的成本;通过增加额外的功能评估方案,提升了了翻译结果对用户结果的友好度;此外,本发明方法还具有高度可扩展性,可以很容易地切换使用不同的大语言模型,有利于改善用户体验,降低使用所需的专业技能门槛。
-
-