基于抽象语法树结构信息增强的代码生成方法

    公开(公告)号:CN114385178B

    公开(公告)日:2024-07-23

    申请号:CN202111531597.9

    申请日:2021-12-14

    Applicant: 厦门大学

    Abstract: 本发明公开了一种基于抽象语法树结构信息增强的代码生成方法和介质,其中方法包括:获取人工标注的代码生成数据,其中,代码生成数据包括自然语言句子和对应的目标代码;采用解析器对目标代码进行解析,以得到目标代码对应的抽象语法树,以便根据抽象语法树得到抽象语法树的预测序列,并将自然语言句子和抽象语法树的预测序列作为训练数据;建立代码生成模型,并使用训练数据对代码生成模型进行训练,其中,代码生成模型包括编码器、解码器、历史信息增强模块和未来信息增强模块;将获取的待处理的自然语言句子输入到训练好的代码生成模型进行转换,以生成待处理的自然语言句子对应的目标代码和抽象语法树,从而减小模型的预测误差。

    基于跨模态检索模型的检索方法及装置

    公开(公告)号:CN118260592A

    公开(公告)日:2024-06-28

    申请号:CN202410342673.9

    申请日:2024-03-25

    Applicant: 厦门大学

    Abstract: 本发明提出了一种基于跨模态检索模型的检索方法及装置,该方法包括获取第一跨模数据和对应的第二跨模数据,以便得到成对的训练数据集;建立跨模态检索模型,并采用训练数据集对跨模态检索模型进行训练,其中,跨模态检索模型包括多模态编码器、判别器和基于记忆向量的模态共享特征提取器,以便采用基于记忆向量的模态共享特征提取器增强模态交互,并在训练过程中利用二阶相似度损失增强模态对齐;基于训练好的跨模态检索模型对待检索的第一跨模数据进行检索,以生成待检索的第一跨模数据对应的第二跨模数据;由此,通过在模型结构上加强了模态交互,而且在训练目标上利用二阶相似度增强模态对齐,从而有效提升了跨模态检索模型的检索效果。

    基于检索增强模型的对话查询生成模型的训练方法及装置

    公开(公告)号:CN117764140A

    公开(公告)日:2024-03-26

    申请号:CN202311537070.6

    申请日:2023-11-17

    Applicant: 厦门大学

    Abstract: 本申请公开了一种基于检索增强模型的对话查询生成模型的训练方法及装置,该方法包括获取候选查询集,并将其中每个候选查询依次输入到搜索引擎,以便得到每个候选查询对应的知识文档;构建检索增强对话回复生成模型,并根据对话上下文和每个候选查询对应的知识文档对构建检索增强对话回复生成模型进行训练;采用训练好的检索增强对话回复生成模型中的检索器对每个候选查询对应的知识文档进行打分,以得到每个候选查询对应的分数值;构建对话查询生成模型,并根据对话上下文、每个候选查询和每个候选查询对应的分数值对对话查询生成模型进行训练,以得到训练好的对话查询生成模型;从而能够考虑深度语义信息,降低噪声影响,以便提高模型性能。

    基于残差连接的缓解数据偏置模型的训练方法及装置

    公开(公告)号:CN117150011A

    公开(公告)日:2023-12-01

    申请号:CN202311067350.5

    申请日:2023-08-23

    Applicant: 厦门大学

    Abstract: 本发明公开了一种基于残差连接的缓解数据偏置模型的训练方法及装置,其中,该方法包括以下步骤:获取文本数据集;构建文本分类模型,其中,文本分类模型包括多个transformer堆叠而成,且在多个transformer中的底层接入第一分类器,顶层接入第二分类器;根据文本数据集对文本分类模型进行训练,得到训练好的缓解数据偏置模型,以便根据缓解数据偏置模型进行文本分类预测,其中,在训练过程中,将底层得到的文本表示和顶层得到的文本表示相加后输入到第二分类器进行分类,以得到预测概率;由此,通过构建训练缓解数据偏置模型,从而在达到在缓解数据偏置的同时,还避免了额外的计算资源消耗。

    基于渐进式对比学习的多模态机器翻译模型的训练方法

    公开(公告)号:CN116562308A

    公开(公告)日:2023-08-08

    申请号:CN202310213158.6

    申请日:2023-03-07

    Applicant: 厦门大学

    Abstract: 本申请提出了一种基于渐进式对比学习的多模态机器翻译模型的训练方法,包括首先,获取源端句子和对应图像;接着,根据源端句子和对应图像进行多模态图的构建,其中,多模态图包括节点集合和节点集合中各个节点之间的边构成的边集合;最后,建立多模态机器翻译模型,并根据多模态图对多模态机器翻译模型进行对比学习训练,其中,在训练过程中,先采用随机负样本进行训练,并根据当前训练步数和训练总步数逐步提高难负样本的数量,直至训练完成;由此,通过在训练过程中逐渐增加难负样本的数量,从而使得多模态机器翻译模型得以在更平滑的学习过程中区分不同类型的样本,提高训练效果。

    基于序列到集合生成的表格生成方法及装置

    公开(公告)号:CN116384357A

    公开(公告)日:2023-07-04

    申请号:CN202310206235.5

    申请日:2023-03-06

    Applicant: 厦门大学

    Abstract: 本申请提出了一种基于序列到集合生成的表格生成方法及装置,该方法包括获取文本,并对文本进行分词处理;将分词处理后的文本输入到文本编码器进行编码,以得到编码后的文本特征向量表示;将文本特征向量表示输入到表头生成器进行解码,以得到表头和表头特征向量表示;将文本特征向量表示和表头特征向量表示输入到表体生成器进行解码,以并行的生成表体行;构建表格生成模型,并根据文本、表头和表体行进行训练,其中,训练过程中对预生成的表体行首列和训练目标首列进行一对一匹配;通过训练好的表格生成模型对预测文本进行预测,以生成对应的完整表格;由此,无需考虑行之间的顺序依赖关系,从而有效提高生成的效率和准确度。

    基于抽象语法树结构信息增强的代码生成方法

    公开(公告)号:CN114385178A

    公开(公告)日:2022-04-22

    申请号:CN202111531597.9

    申请日:2021-12-14

    Applicant: 厦门大学

    Abstract: 本发明公开了一种基于抽象语法树结构信息增强的代码生成方法和介质,其中方法包括:获取人工标注的代码生成数据,其中,代码生成数据包括自然语言句子和对应的目标代码;采用解析器对目标代码进行解析,以得到目标代码对应的抽象语法树,以便根据抽象语法树得到抽象语法树的预测序列,并将自然语言句子和抽象语法树的预测序列作为训练数据;建立代码生成模型,并使用训练数据对代码生成模型进行训练,其中,代码生成模型包括编码器、解码器、历史信息增强模块和未来信息增强模块;将获取的待处理的自然语言句子输入到训练好的代码生成模型进行转换,以生成待处理的自然语言句子对应的目标代码和抽象语法树,从而减小模型的预测误差。

    融入迭代式句对关系预测的图神经网络句子排序方法

    公开(公告)号:CN113869033A

    公开(公告)日:2021-12-31

    申请号:CN202111123744.9

    申请日:2021-09-24

    Applicant: 厦门大学

    Abstract: 本发明公开了一种融入迭代式句对关系预测的图神经网络句子排序方法和介质,其中方法包括:构建句子实体图;通过初始句对顺序分类器对所述句子实体图进行分析,以预测所述句子实体图中相连句对的顺序;根据所述句子实体图中相连句对的顺序进行训练,以得到迭代句对顺序分类器,并通过所述迭代句对顺序分类器对所述句子实体图中连边的权重进行迭代更新;根据迭代更新后的句子实体图进行训练,以得到句子排序模型;获取待排序句子信息,并将所述待排序句子信息输入到所述句子排序模型,以通过所述句子排序模型输出待排序句子信息对应的句子排序方式;能够有效提高句子排序的准确性。

    基于多模态机器翻译模型的翻译方法

    公开(公告)号:CN111967277A

    公开(公告)日:2020-11-20

    申请号:CN202010816635.4

    申请日:2020-08-14

    Applicant: 厦门大学

    Abstract: 本发明提出了一种基于多模态机器翻译模型的翻译方法,包括获取源端句子和对应的翻译图像,并对源端句子和翻译图像进行预处理,以获得处理后的源端句子、翻译图像的全局特征和翻译图像的局部特征;建立多模态机器翻译模型,并根据对多模态机器翻译模型进行训练,其中,多模态机器翻译模型包括编码器和解码器,解码器包括上下文指导的胶囊网络;基于训练好的多模态机器翻译模型对处理后的待翻译的源端句子和对应的翻译图像进行翻译,以生成待翻译的源端句子对应的目标端句子;由此,通过在多模态机器翻译模型的解码器引入上下文指导胶囊网络进行翻译,能够在动态生成丰富的多模态表示的同时,避免引入大量参数,从而有效提升多模态机器翻译的性能。

    基于图的双语递归自编码器

    公开(公告)号:CN107092594A

    公开(公告)日:2017-08-25

    申请号:CN201710257714.4

    申请日:2017-04-19

    Applicant: 厦门大学

    CPC classification number: G06F17/2785 G06F17/2818

    Abstract: 基于图的双语递归自编码器,涉及基于深度学习的自然语言处理。从平行语料中抽取双语短语作为训练数据,计算双语短语之间的翻译概率;基于枢轴语言的方法,计算复述概率;构造双语短语的语义关系图;基于双语短语的语义关系图;量化模型目标函数,进行模型参数训练。以更好地学习双语短语嵌入表示为目标,针对传统方法缺乏考虑自然语言中更加充分的语义约束关系,提出一种基于图的双语递归自编码器。算法明确、思路清晰,可以提高学到的双语短语嵌入表示,更好地作用于自然语言处理任务。首先构造双语短语的语义关系图,通过图结构定义两个隐式语义约束,用于学习更加精确的双语短语嵌入表示,进而更好地应用于自然语言处理任务中,如机器翻译。

Patent Agency Ranking