一种融合双语言模型和句子检测的文本生成方法

    公开(公告)号:CN114298010B

    公开(公告)日:2024-11-08

    申请号:CN202111499830.X

    申请日:2021-12-09

    Applicant: 广州大学

    Abstract: 本发明公开了一种融合双语言模型和句子检测的文本生成方法,该方法步骤包括:语言模型M1和语言模型M2同步扩展关键词前后的单词;语言模型M1正向预测下一字符得到新文本S1,语言模型M2反向预测下一个字符得到新文本S2,拼接新文本S1和新文本S2得到句子;句子满足输出条件则输出句子,否则作为新的输入;基于规约的句法分析方法对句子进行结构分析,句子能规约至文法起始符则符合句法规则;使用N‑Gram统计模型对符合句法规则的候选句子计算语言得分,若候选句子的语言得分超过设定阈值则作为最终文本输出。本发明可应用于句子构造、文章生成等创造性的文本生成任务中,有效解决以往生成技术中句子丰富度低、可读性差的问题。

    基于自监督图注意力网络的人员群体预测方法及装置

    公开(公告)号:CN117435935B

    公开(公告)日:2024-08-02

    申请号:CN202311176803.8

    申请日:2023-09-13

    Applicant: 广州大学

    Abstract: 本发明公开了一种基于自监督图注意力网络的人员群体预测方法及装置,包括:构建属性图,将属性图输入到改进的GAT模型,得到人员嵌入;将所述属性图中的属性经过拉普拉斯平滑滤波器过滤,对齐改进的GAT模型输出的嵌入特征维度,由此作为改进的GAT模型输出嵌入的监督嵌入;随机遮盖人员嵌入,预测结果计算损失并通过自监督训练模型;利用新的数据得到新人员的嵌入并利用训练好的GAT模型聚类划分人员群体,计算、聚合相似度获得人员群体预测结果。本发明以改进的GAT模型构建人员群体预测模型获得新节点的嵌入,使用拉普拉斯滤波器过滤后的属性矩阵作为监督嵌入,通过随机遮盖已有嵌入来训练改进的GAT模型,从而提高了人员群体预测方法的通用性和泛化性。

    改进的CVAE-GAN生成流量对抗样本的方法及设备

    公开(公告)号:CN116668113A

    公开(公告)日:2023-08-29

    申请号:CN202310624717.2

    申请日:2023-05-29

    Applicant: 广州大学

    Abstract: 本说明书实施例提供了一种改进的CVAE‑GAN生成流量对抗样本的方法及设备,该方法包括获取原始的流量特征数据集;将可微特征数据样本输入至编码器E,通过编码器E学习分布将数据样本映射到第一潜变量;添加噪音获得第二潜变量,并与噪音同时输入至生成器G,生成器G通过从分布中采样生成第一流量数据;第一流量数据集与不可微特征数据样本组合为第二流量数据集;第二流量数据与正常流量数据集分别输入至鉴别器D和训练好的黑盒IDS;黑盒IDS对数据进行分类输出带标签的分类结果并输入至鉴别器D;鉴别器D根据第二流量数据与正常流量数据进行数据分类,并将判别结果与带标签的分类结果进行对比确定流量属性是否获得样本。

    一种重构联邦学习中输入数据的方法

    公开(公告)号:CN115527081A

    公开(公告)日:2022-12-27

    申请号:CN202211115836.7

    申请日:2022-09-14

    Applicant: 广州大学

    Abstract: 本发明涉及人工智能技术领域,公开了一种重构联邦学习中输入数据的方法,其包括如下步骤:S1:随机初始化N组伪样本,初始化梯度反演的超参;S2:执行动超参探索模块,获得合适的超参;S3:运行分布式梯度反演算法模块;S4:执行伪样本组的初始梯度反演模块,在指定的初始迭代次数Tinit后停止;S5:执行最小损失组合优化模块,构成群一致正则项,反复次数Ttotal‑in后,最终选择一组最小损失组合样本;S6:执行最小损失组合最终梯度反演,最小损失组合样本迭代次数Tend后结束,形成最终的重构目标样本。本发明采用端对端梯度反演E2EGI方法,可实现分布式模型梯度重构输入,重构出批大小不低于256的样本。

    一种基于轴心词加权检索标准的双语词汇映射学习方法

    公开(公告)号:CN115496059A

    公开(公告)日:2022-12-20

    申请号:CN202210918041.3

    申请日:2022-08-01

    Applicant: 广州大学

    Abstract: 本发明涉及无监督词翻译技术领域,公开了一种基于轴心词加权检索标准的双语词汇映射学习方法,包括以下步骤:初始化t=0,设置迭代次数T,设置超参数μ和k,设置成绩数组R={},对于所有来自词典Lx和Ly的候选词对lx和ly,根据词典获得对应的词向量x和y。该基于轴心词加权检索标准的双语词汇映射学习方法,将加权移动平均的思路结合到对齐的迭代过程中,使得优化的效果更加稳定。相比现有双语词典检索技术,本发明生成的双语词典以及优化后的多语言词向量更适用于特定领域的下游任务,同时,本发明结合了加权移动平均思路,有利于缓解新旧词典差别太大导致剧烈波动的问题。

    一种结合依存句法的无监督机器翻译提升方法

    公开(公告)号:CN115270822A

    公开(公告)日:2022-11-01

    申请号:CN202210664732.5

    申请日:2022-06-14

    Applicant: 广州大学

    Abstract: 本发明涉及机器翻译技术领域,公开了一种结合依存句法的无监督机器翻译提升方法,句法编码解码阶段;结合依存句法规则的去噪阶段;词法以及句法的回译阶段,提出了一种基于一定的依存句法规范下的加噪方法,对比当前的加噪方法,更好地维持了语句的句法性。该结合依存句法的无监督机器翻译提升方法,学习到语句内部的依存句法结构,提升训练时间效率,仅需要少量的手工标注,即可通过约束加噪中的增加、删除以及替换过程使得句子依旧符合一定的句法规范,采用独立的词法编码器、词法解码器与句法解码器的模型设计方案;提出了结合依存句法结构进行回译的优化方法,通过在回译过程中加入了依存句法上的回译损失,维持一定的句法准确性。

    一种结合词向量多特征融合的新词发现方法

    公开(公告)号:CN114298029A

    公开(公告)日:2022-04-08

    申请号:CN202111523723.6

    申请日:2021-12-14

    Applicant: 广州大学

    Abstract: 本发明公开了一种结合词向量多特征融合的新词发现方法,该方法步骤包括:对语料进行特征标注,计算属性对互信息矩阵和自信息矩阵,计算候选特征属性对得分;聚类词向量,找到对应的最近邻类中心向量,并找出该类中心向量对应的词作为词向量特征属性,遍历所有词向量特征属性对,计算词向量特征属性对自信息矩阵和互信息矩阵,计算所有词向量特征属性对得分;对所有候选特征属性对得分配置优化权重系数后求和计算总得分;总得分超过新词阈值时提取候选词对对应得分向量到样本集合;更新权重系数并迭代训练至损失函数收敛获得最终的权重系数;重新计算候选词对总得分,输出超过新词阈值的新词。本发明实现更合理的新词评价方法,更加有效地挖掘潜在的新词。

Patent Agency Ranking