一种增强词典知识融入的中文命名实体识别方法

    公开(公告)号:CN117113997A

    公开(公告)日:2023-11-24

    申请号:CN202310914876.6

    申请日:2023-07-25

    申请人: 四川大学

    摘要: 本发明公开了一种增强词典知识融入的中文命名实体识别方法,涉及自然语言处理技术领域,在输入表示层中,汉字、词语以及字词间的关系通过3个嵌入查找表编码为稠密向量。在整合层中,利用交叉注意力网络来获取每一个汉字的词典表示,并且构造门控网络自适应的融合每一个汉字的上下文信息和其词典表示。最后,在解码层中使用双向门控循环单元(BiGRU)结合条件随机场的方式为每一个句子中的汉字分配实体标签。本发明的中文命名实体识别任务有巨大优势并且也能够很容易地与BERT等其他自然语言处理的预训练模型相结合来获得更强大的性能表现。

    一种增强词典知识融入的中文命名实体识别方法

    公开(公告)号:CN117113997B

    公开(公告)日:2024-07-09

    申请号:CN202310914876.6

    申请日:2023-07-25

    申请人: 四川大学

    摘要: 本发明公开了一种增强词典知识融入的中文命名实体识别方法,涉及自然语言处理技术领域,在输入表示层中,汉字、词语以及字词间的关系通过3个嵌入查找表编码为稠密向量。在整合层中,利用交叉注意力网络来获取每一个汉字的词典表示,并且构造门控网络自适应的融合每一个汉字的上下文信息和其词典表示。最后,在解码层中使用双向门控循环单元(BiGRU)结合条件随机场的方式为每一个句子中的汉字分配实体标签。本发明的中文命名实体识别任务有巨大优势并且也能够很容易地与BERT等其他自然语言处理的预训练模型相结合来获得更强大的性能表现。

    一种代码注释生成方法、装置、电子设备及存储介质

    公开(公告)号:CN117850870B

    公开(公告)日:2024-05-07

    申请号:CN202410264360.6

    申请日:2024-03-08

    申请人: 四川大学

    摘要: 本申请提供了一种代码注释生成方法、装置、电子设备及存储介质,重命名原代码函数名并随机替换标识符信息构建相似代码;以原代码与对应相似代码为正样本对,以原代码与同一批次下其他相似代码为负样本对,通过预设对比学习辅助模型进行对比学习,生成原代码对应的代码向量表征;加载上述模型得到的参数信息,将目标原代码与相应注释信息输入至以代码预训练模型为基础构建的端到端神经网络模型进一步优化代码向量表征;将优化代码向量表征输入解码器输出代码注释。通过保留关键词的数据增强方式构造高质量代码,采用对比学习辅助任务得到高质量代码表征,同时使用两阶段训练策略防止数据增强带来偏差问题,并进一步学习代码高质量表征。

    一种代码注释生成方法、装置、电子设备及存储介质

    公开(公告)号:CN117850870A

    公开(公告)日:2024-04-09

    申请号:CN202410264360.6

    申请日:2024-03-08

    申请人: 四川大学

    摘要: 本申请提供了一种代码注释生成方法、装置、电子设备及存储介质,重命名原代码函数名并随机替换标识符信息构建相似代码;以原代码与对应相似代码为正样本对,以原代码与同一批次下其他相似代码为负样本对,通过预设对比学习辅助模型进行对比学习,生成原代码对应的代码向量表征;加载上述模型得到的参数信息,将目标原代码与相应注释信息输入至以代码预训练模型为基础构建的端到端神经网络模型进一步优化代码向量表征;将优化代码向量表征输入解码器输出代码注释。通过保留关键词的数据增强方式构造高质量代码,采用对比学习辅助任务得到高质量代码表征,同时使用两阶段训练策略防止数据增强带来偏差问题,并进一步学习代码高质量表征。