-
公开(公告)号:CN120010853A
公开(公告)日:2025-05-16
申请号:CN202510077737.1
申请日:2025-01-17
Applicant: 大连理工大学 , 信华信技术股份有限公司
Abstract: 本发明属于智能软件工程的数据增强方法领域,涉及一种基于单向翻译与有效性自验证的等价代码数据增强方法。首先获取待数据增强项目内容,提取出所含各个函数,依次利用大语言模型进行功能需求单向翻译,获取自然语言描述;进而填充提示模板,输入大语言模型生成候选代码。为了确保被增强数据的语法有效性,使用静态语法分析工具检验候选代码;为了确保语义等价性,从断言知识增强与焦点方法‑测试用例关系学习角度依次预训练Func2Test模型并进行微调,为每个候选代码生成m个测试用例用于测试,最终仅保留通过率最高的候选代码作为新生成代码。最后对原始代码和新生成代码进行mixup处理,获得最终增强结果,即混合数据集Dmix。
-
公开(公告)号:CN120010854A
公开(公告)日:2025-05-16
申请号:CN202510078021.3
申请日:2025-01-17
Applicant: 大连理工大学 , 信华信技术股份有限公司
IPC: G06F8/41 , G06F18/22 , G06N3/0455
Abstract: 本发明属于软件工程领域,尤其涉及一种基于树指令大语言模型的代码翻译方法,可用于将源编程语言转换为目标编程语言。本发明通过从线性化AST中提取关键的树结构信息,并训练了一个相似度模型使树结构与代码结构对齐,从而构造更精确的指令数据集,增加了大语言模型对AST结构的理解能力;通过与大语言模型相结合,大大减少了人力干预,极大降低了代码翻译的成本;通过增加额外的功能评估方案,提升了了翻译结果对用户结果的友好度;此外,本发明方法还具有高度可扩展性,可以很容易地切换使用不同的大语言模型,有利于改善用户体验,降低使用所需的专业技能门槛。
-
公开(公告)号:CN120010852A
公开(公告)日:2025-05-16
申请号:CN202510077454.7
申请日:2025-01-17
Applicant: 大连理工大学 , 信华信技术股份有限公司
Abstract: 本发明属于智能软件工程的数据增强方法领域,尤其涉及一种基于AST抽象语法树同义替换的代码大模型等价数据增强方法。首先进行数据筛选和静态语法分析检查,之后通过AST抽象语法树提取其代码所含变量名、函数名、类名建立词库进行筛选,在此基础上采用四种等价替换方法进行数据增强,最终将其与原始数据合并,获得最后的增强代码数据集。本发明可用于自动增强代码大模型训练语料,以微调提升大语言模型在垂直领域的性能。
-
公开(公告)号:CN118642957A
公开(公告)日:2024-09-13
申请号:CN202410776410.9
申请日:2024-06-17
Applicant: 大连理工大学
Abstract: 本发明属于软件测试领域,涉及一种基于消息传递神经网络的深度学习编译器测试加速方法,可用于优化深度学习编译器测试用例的执行顺序,从而提高测试效率。本方法由数据预处理、数据集构建、预测器和调度器四个模块组成。数据预处理模块负责从深度学习模型中提取算子特征、边特征及结构特征,并转换为消息传递神经网络的输入;数据集构建模块利用NNSmith等模型生成工具,生成大量的深度学习模型,使用数据预处理模块提取每个模型的特征,并判断每个模型是否触发了目标编译器的错误;预测器负责利用模型的特征信息预测一个模型是否会引发目标编译器的错误;调度器模块负责对测试用例集合中的模型进行排序,决定将哪些模型输入给目标编译器。
-
公开(公告)号:CN114153721B
公开(公告)日:2024-06-14
申请号:CN202111352689.0
申请日:2021-11-16
Applicant: 大连理工大学
IPC: G06F11/36
Abstract: 本发明提供一种基于决策树算法的API误用检测方法,属于软件工程技术领域。API复用已有的软件框架或类库,可有效地提高软件开发效率。若违反了这些规约就会造成API误用,目前检测技术面临两个方面挑战:1)难以获取API使用规约;2)难以同时检测多种不同类型的API误用。该方法首先从代码托管工具上收集开源项目,从中提取出API使用示例。将API使用示例转换为AUG图,从图中挖掘API使用规约,有效解决第一个挑战。基于API使用规约信息构建API使用决策树,通过融入剪枝策略提高API使用决策树的泛化能力。在误用检测阶段,采用粗粒度和细粒度相结合的方式,提高API使用决策树的检测能力有效解决第二个挑战。
-
公开(公告)号:CN117093338A
公开(公告)日:2023-11-21
申请号:CN202310727571.4
申请日:2023-06-19
Applicant: 大连理工大学
IPC: G06F9/48 , G06N3/0464 , G06N3/086 , G06N3/126 , G06N5/04
Abstract: 本发明提供一种基于代理模型和遗传算法的CNN算子间调度方法,属于深度学习模型推理优化领域。本发明首先根据被调度的CNN模型,获得CNN中的算子和数据依赖关系等信息;为遗传算法设计适应度函数并使用代理模型,以避免在遗传算法运行过程中,测量解的适应度时,对CNN推理时延在硬件上的实际测量,从而极大缩短了遗传算法的运行时间开销;使用基于代理模型的遗传算法,搜索出一系列能减少CNN推理时延的调度。本方法搜索得到的调度可在GPU上实际部署运行,并获得其真实推理时延。
-
-
公开(公告)号:CN113064821B
公开(公告)日:2025-01-17
申请号:CN202110331114.4
申请日:2021-03-29
Applicant: 大连理工大学
IPC: G06F11/362 , G06F8/41 , G06N3/126
Abstract: 本发明提供了一种基于搜索的编译器优化序列故障定位方法,可用于C/C++语言的编译器优化序列故障定位,如开源编译器LLVM等;亦可根据特定编程语言的编译器特性,对本发明的相关步骤进行适配,从而定位该特定编程语言的编译器优化序列故障。本发明能够有效地对编译器优化序列故障进行分析定位,从而帮助编译器开发者更好、更快地理解与修复编译器优化序列相关的故障,提高编译器的质量。
-
公开(公告)号:CN114385492B
公开(公告)日:2024-07-12
申请号:CN202111651762.4
申请日:2021-12-30
Applicant: 大连理工大学
IPC: G06F11/36 , G06F8/41 , G06F30/3308
Abstract: 本发明属于软件测试技术领域,尤其涉及一种基于差分测试的高级综合工具优化选项缺陷检测方法。本发明通过对随机生成的测试用例代码进行基于代码特征向量余弦相似度的筛选,得到优化空间差异性较大的测试用例代码,对每个通过筛选的测试用例代码进行基于组合覆盖测试的优化选项选择,得到一系列优化选项组合,将得到优化选项插入到测试用例代码中,使用待检测高级综合工具对测试用例代码进行综合,即可对高级综合工具优化选项缺陷进行检测;本发明解决了高级综合工具优化选项缺陷检测过程中,测试用例产生以及优化选项选择等问题,提高了测试用例多样性,扩大了测试空间,避免了冗余的测试,从而提高高级综合工具优化选项缺陷检测效率。
-
公开(公告)号:CN116775243A
公开(公告)日:2023-09-19
申请号:CN202310730568.8
申请日:2023-06-19
Applicant: 大连理工大学
IPC: G06F9/48 , G06N3/0464 , G06N3/126 , G06N5/04
Abstract: 本发明提供一种基于遗传算法的多目标CNN算子间调度方法,属于深度学习模型推理优化领域。本发明首先根据被调度的CNN模型,获得CNN计算图;为遗传算法设计适应度函数、帕累托支配关系定义并设定各项超参数;然后使用遗传算法对调度空间中的解进行多目标的优化,最终得到若干个帕累托解集;最后,本方法搜索得到的调度可在GPU上实际部署运行。本发明能够对CNN进行多目标的算子间调度,即同时考虑对PMF和推理时延的优化,最终给出搜索到的帕累托解集。
-
-
-
-
-
-
-
-
-