一种用于自动重命名重构的两阶段预训练框架

    公开(公告)号:CN117473307A

    公开(公告)日:2024-01-30

    申请号:CN202311149132.6

    申请日:2023-09-07

    Applicant: 厦门大学

    Inventor: 纪荣嵘 李辉 刘好

    Abstract: 一种用于自动重命名重构的两阶段预训练框架。第一阶段,基于RoBERTa模型架构在公开代码数据集CodeSearchNet进行预训练,更快达到收敛条件。第二阶段,为解决变量名重命名重构问题,收集大型官方数据库里的变量重命名重构数据作为实验数据,再利用上游训练好的预训练模型在其上进行微调。为使重构更智能化,设两个子任务:首先预测新名称中子标记的数量,然后相再应地生成子标记。利用约束掩码语言建模进行变量的生成,采用对比学习以生成更加有意义、可读性高的变量标记,还引入一种新的令牌袋损失函数避免生成重复的子标记,对其进行定制以进行自动重命名重构。

Patent Agency Ranking