一种代码预训练模型未授权数据的检测方法

    公开(公告)号:CN119357926A

    公开(公告)日:2025-01-24

    申请号:CN202411469721.7

    申请日:2024-10-21

    Applicant: 厦门大学

    Inventor: 李辉 张晟 纪荣嵘

    Abstract: 本发明公开了一种代码预训练模型未授权数据的检测方法,包括以下步骤:S1、对代码数据进行采样及预处理;S2、针对代码的目标模型,训练一个影子模型来模拟目标模型的行为;S3、采用信号抽取器,提取代码的目标模型和影子模型的预训练任务的信号,针对不同预训练任务的损失,作为后续加权分类模型的特征输入,用于后续的推理;S4、采用难易度矫正模型,对信号抽取器输出的信号进行难易度矫正,用于使信号抽取器输出的信号不受样本难易度的干扰;S5、采用加权分类模型学习信号抽取器的输出信号及难易度矫正模型矫正后的多种信号,并给出预训练模型是否使用过某条未授权数据的判断。

    基于文本图像的产品摘要生成方法、系统和存储介质

    公开(公告)号:CN117975486B

    公开(公告)日:2024-08-16

    申请号:CN202410372214.5

    申请日:2024-03-29

    Applicant: 厦门大学

    Inventor: 李辉 陈涛 纪荣嵘

    Abstract: 本发明基于文本图像的产品摘要生成方法、系统和存储介质,通过多模态多任务学习方法训练好产品摘要生成模型后,在应用部署时,该产品摘要生成模型仅保留多模态编码器和视觉引导解码器,将产品图像和产品文本描述输入到多模态编码器中分别得到图像表征#imgabs0#和文本表征#imgabs1#,然后将图像表征#imgabs2#和文本表征#imgabs3#输入到视觉引导解码器中并生成产品摘要#imgabs4#。本发明扩展了单模态BART,将其改进为多模态BART,并改善了多模态特征的交互和融合,同时引入了交互信息增强,以获取文本输入中语义丰富的表征。在中国电子商务产品摘要数据集CEPSUM上进行的大量实验证实了本发明相对于现有方法的优越性,能够生成简洁而连贯的产品摘要。

    一种基于重排序的代码搜索去偏差方法及系统

    公开(公告)号:CN117725087B

    公开(公告)日:2024-06-04

    申请号:CN202410176550.2

    申请日:2024-02-08

    Applicant: 厦门大学

    Inventor: 纪荣嵘 李辉 张晟

    Abstract: 本发明提供了代码搜索技术领域的一种基于重排序的代码搜索去偏差方法及系统,方法包括:步骤S1、基于历史搜索语句、历史搜索结果组成的搜索数据构建数据集;步骤S2、计算各搜索数据的MRR分数,基于偏差项对搜索数据分组;步骤S3、通过历史搜索结果计算各历史搜索语句的重排序分数项;步骤S4、计算当前搜索语句在候选代码库搜索候选代码的MRR分数;步骤S5、计算与当前搜索语句最相似的n条搜索数据;步骤S6、基于MRR分数对搜索数据进行聚类得到低MRR分数代码区间;步骤S7、通过低MRR分数代码区间中代码的先验偏差项特征,为候选代码库具有相同偏差项的候选代码的MRR分数加上重排序分数项以进行去偏。本发明的优点在于:极大的提升了代码搜索的准确性。

    基于文本图像的产品摘要生成方法、系统和存储介质

    公开(公告)号:CN117975486A

    公开(公告)日:2024-05-03

    申请号:CN202410372214.5

    申请日:2024-03-29

    Applicant: 厦门大学

    Inventor: 李辉 陈涛 纪荣嵘

    Abstract: 本发明基于文本图像的产品摘要生成方法、系统和存储介质,通过多模态多任务学习方法训练好产品摘要生成模型后,在应用部署时,该产品摘要生成模型仅保留多模态编码器和视觉引导解码器,将产品图像和产品文本描述输入到多模态编码器中分别得到图像表征#imgabs0#和文本表征#imgabs1#,然后将图像表征#imgabs2#和文本表征#imgabs3#输入到视觉引导解码器中并生成产品摘要#imgabs4#。本发明扩展了单模态BART,将其改进为多模态BART,并改善了多模态特征的交互和融合,同时引入了交互信息增强,以获取文本输入中语义丰富的表征。在中国电子商务产品摘要数据集CEPSUM上进行的大量实验证实了本发明相对于现有方法的优越性,能够生成简洁而连贯的产品摘要。

    一种基于重排序的代码搜索去偏差方法及系统

    公开(公告)号:CN117725087A

    公开(公告)日:2024-03-19

    申请号:CN202410176550.2

    申请日:2024-02-08

    Applicant: 厦门大学

    Inventor: 纪荣嵘 李辉 张晟

    Abstract: 本发明提供了代码搜索技术领域的一种基于重排序的代码搜索去偏差方法及系统,方法包括:步骤S1、基于历史搜索语句、历史搜索结果组成的搜索数据构建数据集;步骤S2、计算各搜索数据的MRR分数,基于偏差项对搜索数据分组;步骤S3、通过历史搜索结果计算各历史搜索语句的重排序分数项;步骤S4、计算当前搜索语句在候选代码库搜索候选代码的MRR分数;步骤S5、计算与当前搜索语句最相似的n条搜索数据;步骤S6、基于MRR分数对搜索数据进行聚类得到低MRR分数代码区间;步骤S7、通过低MRR分数代码区间中代码的先验偏差项特征,为候选代码库具有相同偏差项的候选代码的MRR分数加上重排序分数项以进行去偏。本发明的优点在于:极大的提升了代码搜索的准确性。

    用金纳米粒子检测单链DNA碱基突变的方法

    公开(公告)号:CN101261220A

    公开(公告)日:2008-09-10

    申请号:CN200810070946.X

    申请日:2008-04-18

    Applicant: 厦门大学

    Abstract: 用金纳米粒子检测单链DNA碱基突变的方法,涉及一种基因突变的检测。提供一种用金纳米粒子检测单链DNA碱基突变的方法。制备胶体金,与单链DNA作用形成胶体金与单链DNA复合体系,加入盐酸,复合体系颜色由红变为紫或蓝。利用野生型单链DNA和突变型单链DNA的序列差异,通过复合体系最终颜色的变化或紫外可见吸收光谱最大吸收峰红移位置的不同判定单链DNA是否发生突变。单链DNA和金纳米粒子均无需作任何修饰,不需特殊仪器,可对单碱基突变检测,最低检测限为10fmol,能在30min内提供检测结果,具有简便、快速、低成本、高灵敏度、高特异性等特点,实用性强,临床上具有较大的应用潜力。

    一种基于一致性监测的实时事件摘要方法

    公开(公告)号:CN111639176A

    公开(公告)日:2020-09-08

    申请号:CN202010477088.1

    申请日:2020-05-29

    Applicant: 厦门大学

    Abstract: 一种基于一致性监测的实时事件摘要方法,涉及深度学习,依次使用以下步骤:对监控的文本数据流进行分割和预处理;训练一个分层循环神经网络以检测历史与实时文本片段之间信息不一致的概率;训练一个基于深度学习抽取式摘要生成模型;训练一个基于强化学习和深度学习的生成式摘要模型;将预训练好的抽取式摘要生成模型和生成式摘要模型结合起来,训练一个端到端的神经摘要模型;通过训练好的端到端的神经摘要模型对每个分割时间段的监控文本数据进行解码,得到信息一致,内容易于理解的实时事件摘要。

    一种用纳米金检测DNA突变的方法

    公开(公告)号:CN101344481B

    公开(公告)日:2010-08-04

    申请号:CN200810071605.4

    申请日:2008-08-18

    Applicant: 厦门大学

    Abstract: 一种用纳米金检测DNA突变的方法,涉及一种检测DNA突变的方法。提供一种用纳米金探针检测DNA突变的方法。将野生型单链DNA、与野生型单链DNA序列完全互补的探针和纳米金混匀,静置后加入氯化钠溶液后静置得体系1;将突变型单链DNA、与野生型单链DNA序列完全互补的探针和纳米金混匀,静置后加入氯化钠溶液后静置得体系2;往体系1加入氯化钠溶液,混匀后作紫外可见吸收光谱检测,所得的520nm处的吸光值称为吸光值1;往体系2加入氯化钠溶液,混匀后作紫外可见吸收光谱检测,所得的520nm处的吸光值称为吸光值2;当吸光值2与1有明显差异时,可判断有突变存在。DNA和纳米金无需作任何修饰,简化样品的处理。

    一种用纳米金检测DNA突变的方法

    公开(公告)号:CN101344481A

    公开(公告)日:2009-01-14

    申请号:CN200810071605.4

    申请日:2008-08-18

    Applicant: 厦门大学

    Abstract: 一种用纳米金检测DNA突变的方法,涉及一种检测DNA突变的方法。提供一种用纳米金探针检测DNA突变的方法。将野生型单链DNA、与野生型单链DNA序列完全互补的探针和纳米金混匀,静置后加入氯化钠溶液后静置得体系1;将突变型单链DNA、与野生型单链DNA序列完全互补的探针和纳米金混匀,静置后加入氯化钠溶液后静置得体系2;往体系1加入氯化钠溶液,混匀后作紫外可见吸收光谱检测,所得的520nm处的吸光值称为吸光值1;往体系2加入氯化钠溶液,混匀后作紫外可见吸收光谱检测,所得的520nm处的吸光值称为吸光值2;当吸光值2与1有明显差异时,可判断有突变存在。DNA和纳米金无需作任何修饰,简化样品的处理。

    issue-commit链接恢复预训练模型
    10.
    发明公开

    公开(公告)号:CN116700770A

    公开(公告)日:2023-09-05

    申请号:CN202310669795.4

    申请日:2023-06-07

    Applicant: 厦门大学

    Abstract: issue‑commit链接恢复预训练模型,属于软件可追溯性链接技术领域。提出一个高效和准确的模型,称为EALink,用于实际的issue‑commit链路恢复。EALink需要更少的模型参数,从而带来有效的训练和恢复。此外,还设计对比学习以及多任务学习等技术提高EALink的链接恢复精度。构建一个大规模的数据集,进行广泛的实验来证明EALink的能力,实验结果表明,不仅能有效捕获issue与commit文本和代码信息的语义一致性,提高链接恢复的准确性,而且其训练和推理开销比现有的方法要低几个数量级,更适合实际场景的应用。

Patent Agency Ranking