多粒度对齐的文本分子检索模型的训练、检索方法及装置

    公开(公告)号:CN119474396A

    公开(公告)日:2025-02-18

    申请号:CN202411278245.0

    申请日:2024-09-12

    Applicant: 厦门大学

    Abstract: 本发明提出了一种多粒度对齐的文本分子检索模型的训练、检索方法及装置,该训练方法包括获取分子异构图和对应的文本描述,分子异构图包括原子节点、子结构节点和分子节点,分子节点与全部子结构节点相连,每个子结构节点与其包括的原子节点相连;构建文本分子检索模型,并将文本描述输入到文本分子检索模型以得到词元表示和句子表示;将分子异构图输入到文本分子检索模型以得到原子表示、子结构表示和分子表示;将词元表示和子结构表示之间的对齐关系建模成最优传输问题,并聚合与每个子结构表示对齐的词元表示,以得到多词元表示;采用对比学习损失函数优化多粒度之间的对齐,以得到训练好的文本分子检索模型;从而提高检索结果的准确性。

    基于二维分子图的分子类药性无监督预测方法及装置

    公开(公告)号:CN118866166A

    公开(公告)日:2024-10-29

    申请号:CN202411372121.9

    申请日:2024-09-29

    Applicant: 厦门大学

    Abstract: 本申请提出了一种基于二维分子图的分子类药性无监督预测方法及装置,其中,该方法包括:首先,在大量包括类药和非类药分子的数据库ChEMBL上,通过原子掩码预测和化学键掩码预测的预训练任务训练教师模型,使其学到了和类药性高度相关的分子拓扑结构的特征;然后,仅在药物数据上蒸馏出一个与教师模型结构相同的学生模型;接着,将一个任意分子分别输入到教师模型和学生模型,并将两个模型输出的特征表示的差距作为这个任意分子的类药性分数;最后,根据类药性分数对这个任意分子的类药性进行预测,以得到预测结果;由此,通过训练好的教师模型和学生模型能够直接捕捉和类药性高度相关的分子特征,同时极大地缓解了一维序列模型的长度偏差问题。

    基于动态检索的k近邻神经机器翻译方法及装置

    公开(公告)号:CN118261168A

    公开(公告)日:2024-06-28

    申请号:CN202410352216.8

    申请日:2024-03-26

    Applicant: 厦门大学

    Abstract: 本发明提出了一种基于动态检索的k近邻神经机器翻译方法及装置,其中,该方法包括获取平行语对数据,并对平行语对数据进行划分以得到第一平行语对数据和第二平行语对数据;对第一平行语对数据进行预处理、特征提取和类别标签标注,以得到训练数据;根据第二平行语对数据构造数据库;采用训练数据对分类器进行训练,以便在翻译过程中采用训练好的分类器输出对应的分类值;根据分类值和时间步感知的动态阈值判断是否需要进行k近邻检索,如果需要,则在数据库中进行k近邻检索,并将检索结果转化为预测概率,与神经机器翻译模型的预测概率插值,以得到翻译结果。本方法可以摆脱进行不必要k近邻检索带来的额外时间开销,使得k近邻机器翻译更高效。

    基于回复增强的对话查询生成模型的训练方法及装置

    公开(公告)号:CN117591871A

    公开(公告)日:2024-02-23

    申请号:CN202311363517.2

    申请日:2023-10-20

    Applicant: 厦门大学

    Abstract: 本申请公开了一种基于回复增强的对话查询生成模型的训练方法及装置,该方法包括,获取训练集;构建第一语言模型和第二语言模型,采用训练集训练第一语言模型和第二语言模型以得到查询生成模型和回复增强查询生成模型;通过查询生成模型生成查询集,回复增强查询生成模型生成伪查询;根据查询集和伪查询得到对应的相似度分数,根据相似度分数构造伪实例,根据伪实例对查询生成模型和回复增强查询生成模型进行第二阶段训练;接着利用回复增强查询生成模型为查询生成模型采样得到的候选查询打分以得到奖励分数,以便根据奖励分数对查询生成模型进行第三阶段的强化学习训练;由此,训练完成的查询生成模型可以得到更准确的对话查询。

    模型去偏的数据集增强方法
    25.
    发明公开

    公开(公告)号:CN117093870A

    公开(公告)日:2023-11-21

    申请号:CN202311099815.5

    申请日:2023-08-29

    Applicant: 厦门大学

    Abstract: 本发明公开了一种模型去偏的数据集增强方法,包括以下步骤:获取数据集;构建偏置模型,并采用数据集中的部分数据对偏置模型进行训练,以便采用训练好的偏置模型得到数据集中的每个样本对应的偏置程度;根据偏置程度对数据集中的每个样本进行排列,并将排序好的每个样本等分为多个组,每个组对应拼接一个偏置指示器,以得到具有偏差指标的数据集;构建生成器,并采用具有偏差指标的数据集对生成器进行训练,以便通过训练好的生成器生成偏置程度低的伪样本;采用偏置程度低的伪样本对原始数据集进行扩增,以得到扩增后的数据集;迭代进行伪样本生成,从而得到最终的数据集;由此,达到了缓解数据偏置的目的,避免了人工资源耗费。

    基于多模态机器翻译模型的翻译方法

    公开(公告)号:CN111967277B

    公开(公告)日:2022-07-19

    申请号:CN202010816635.4

    申请日:2020-08-14

    Applicant: 厦门大学

    Abstract: 本发明提出了一种基于多模态机器翻译模型的翻译方法,包括获取源端句子和对应的翻译图像,并对源端句子和翻译图像进行预处理,以获得处理后的源端句子、翻译图像的全局特征和翻译图像的局部特征;建立多模态机器翻译模型,并根据对多模态机器翻译模型进行训练,其中,多模态机器翻译模型包括编码器和解码器,解码器包括上下文指导的胶囊网络;基于训练好的多模态机器翻译模型对处理后的待翻译的源端句子和对应的翻译图像进行翻译,以生成待翻译的源端句子对应的目标端句子;由此,通过在多模态机器翻译模型的解码器引入上下文指导胶囊网络进行翻译,能够在动态生成丰富的多模态表示的同时,避免引入大量参数,从而有效提升多模态机器翻译的性能。

    基于迭代式双向迁移的神经网络机器翻译模型

    公开(公告)号:CN110674648B

    公开(公告)日:2021-04-27

    申请号:CN201910933203.9

    申请日:2019-09-29

    Applicant: 厦门大学

    Abstract: 基于迭代式双向迁移的神经网络机器翻译模型,涉及自然语言处理。通过建立源领域和目标领域之间的多次双向迁移,利用双方的有效交互和相关知识的有益流动,不断完善不同领域的模型能力,从而达到更佳的翻译效果。由一对一的领域迁移推广到多对一的领域迁移,并提出了多对一的领域迁移中,不同源领域到目标领域的迁移顺序问题的有效解决方案,使模型能够更充分地利用多领域的语料资源。训练过程利用知识蒸馏的方法来更有效地指导模型的收敛,避免了灾难性遗忘和知识稀疏问题,实现两个领域翻译模型的“双赢”。

    一种基于层次结构的神经网络机器翻译模型

    公开(公告)号:CN107423290A

    公开(公告)日:2017-12-01

    申请号:CN201710257328.5

    申请日:2017-04-19

    Applicant: 厦门大学

    Abstract: 一种基于层次结构的神经网络机器翻译模型,涉及基于深度学习的自然语言处理。使用词语对齐工具GIZA++对训练平行句对进行词对齐,然后根据标点符号和词语对齐信息将源语言句子分为单调翻译的子句;使用上述得到的子句数据来训练子句分类器;对平行句对的源语言句子进行层次结构建模;对平行句对的目标语言句子进行层次结构解码。将句子分成单调翻译的子句,然后进行词-子句-句子的层次建模,注意机制和解码:底层循环神经网络编码子句的语义表示,上层循环神经网络编码句子的信息,底层注意致力于子句内部的词级别对齐,上层注意机制则致力于子句级别的对齐。

    基于快速自动密度聚类的可变尺度红外小目标的检测方法

    公开(公告)号:CN106407989A

    公开(公告)日:2017-02-15

    申请号:CN201610805463.4

    申请日:2016-09-07

    Applicant: 厦门大学

    CPC classification number: G06K9/6218 G06K9/4671

    Abstract: 基于快速自动密度聚类的可变尺度红外小目标的检测方法,涉及图像分析与图像理解。利用SURF算子解决尺度可变小目标的特征提取。解决特征对于环境的敏感问题;快速自动化密度聚类算法,针对问题域,直接从空域完成轨迹的分割、提取,克服了原有序列检测问题中数据融合带来的指数级复杂度问题。解决了聚类过程中产生的过分割以及欠分割问题,保证了轨迹提取的完整性和独立性以及聚类中心的自动选择。在后期的轨迹提取中,利用回溯算法寻找最优解,将轨迹具有的平滑不变约束融入剪枝函数的设计,快速剪掉无关的杂波分支,加快了搜索解的速度。结合鲁棒的特征检测算子和回溯策略,解决可变尺度红外小目标的检测问题,提高算法的实时性和鲁棒性。

    一种面向智慧课堂的板书自动提取方法

    公开(公告)号:CN114821399B

    公开(公告)日:2024-06-04

    申请号:CN202210358735.6

    申请日:2022-04-07

    Applicant: 厦门大学

    Abstract: 本发明涉及视频教学领域,具体是一种面向智慧课堂的板书自动提取方法,包括S1:以视频流输入的第一帧作为初始化背景进行缓存;S2:从视频第二帧开始,将每个输入帧输入已训练好的人物分割网络,以获取人物遮罩的输出;S3:根据输出的人物遮罩,分别对视频输入帧和背景缓存进行抠像处理,分离出前景、后景图像;S4:将得到的视频输入帧的背景图像与背景缓存的前景图像进行叠加,并将叠加后的图像作为背景缓存,对背景缓存进行逐帧更新;S5:将视频输入帧的前景图像与背景缓存进行线性结合,以获得手写内容强化后的输出图像。

Patent Agency Ranking