-
公开(公告)号:CN113901205B
公开(公告)日:2024-09-27
申请号:CN202111043204.X
申请日:2021-09-07
申请人: 昆明理工大学
IPC分类号: G06F16/35 , G06F16/33 , G06F16/951 , G06F40/30 , G06N3/0464 , G06N3/045 , G06N3/08
摘要: 本发明涉及基于情感语义对抗的跨语言情感分类方法,属自然语言处理领域。本发明包括:构建汉越疫情相关社交媒体评论的数据集;将句子以及句子中情感词拼接,用卷积神经网络对拼接后的句子分别进行联合表征,分别获得单语语义空间下的情感语义表征;其次,通过对抗网络,在双语情感语义空间将带标签数据与无标记数据的情感语义表征进行对齐;最后将句子与情感词最显著的表征进行拼接,得到情感倾向性分析结果。本发明通过融合情感信息信作为背景信息实现了跨语言情感倾向性分析,从获取的舆情数据中为低资源数据获得情感分类结果,为后续的文本分类及低资源语言细粒度情感分析提供了支撑。
-
公开(公告)号:CN113901847B
公开(公告)日:2024-05-24
申请号:CN202111084535.8
申请日:2021-09-16
申请人: 昆明理工大学
IPC分类号: G06F40/58 , G06F40/211 , G06N3/0455 , G06N3/08
摘要: 本发明涉及源语言句法增强解码的神经机器翻译方法,属于自然语言处理领域。本发明包括:解析源语言句子得到句法关系;使用句法感知的自注意力机制获取源语言句子和其句法相关部分的特征;通过交叉注意力网络提取源语言句子表征和句法相关表征中的信息,共同指导目标语言的生成;最后使用线性变换和softmax函数预测当前序列位置的词汇。本发明在有效利用人工标注的双语平行语料资源的同时,还能显式利用单语语料的句法信息;单语句法知识是理解语义和构建语言的重要依据,解决了神经网络机器翻译模型不能充分挖掘双语平行语料中有效信息这一难题。
-
公开(公告)号:CN114742071B
公开(公告)日:2024-04-23
申请号:CN202210532418.1
申请日:2022-05-12
申请人: 昆明理工大学
IPC分类号: G06F40/30 , G06F40/284 , G06F18/22 , G06F18/241 , G06N3/042 , G06N3/0464 , G06N3/045 , G06N3/08
摘要: 本发明涉及基于图神经网络的汉越跨语言观点对象识别分析方法,属于自然语言处理领域。本发明包括:构建汉越观点对象数据集;利用异构图对中文和越南语评论之间的信息进行关联关系构建,之后利用图卷积神经网络编码观点对象特征;最后基于中文的观点对象标签作为输入训练分类器,最终完成在越南语数据集上的观点对象识别任务。本发明具体研究跨语言事件评论的关联异构图网络构建方法,研究跨语言评论的观点对象表征方法,研究双语评论关联异构图网络的传递和学习方法,实现跨语言观点对象识别与对齐,为把握越南民众对公共事件等对象的观点看法提供支撑。
-
公开(公告)号:CN117034933A
公开(公告)日:2023-11-10
申请号:CN202310977792.7
申请日:2023-08-04
申请人: 昆明理工大学
IPC分类号: G06F40/295 , G06V30/148 , G06V30/416 , G06V10/82
摘要: 本发明涉及基于网格标记和语义分割的统一中文命名实体识别方法,属于中文命名实体识别技术领域。本发明包括步骤:首先,输入句子经过编码器模块后获得含有上下文信息的中文字符表示;进一步地,获得蕴含实体边界信息和字符对间关系信息的字符对网格表示;接着,将字符对网格表示视为多通道的图像,通过U型分割模块以获得图像风格的特征矩阵中的局部和全局特征;随后,经过协预测器层推理字符对间的关系;最后解码得到所有可能的实体。本发明在两个包含扁平实体和嵌套实体的中文医学命名实体识别数据集(CMeEE‑V2,MMC)上进行了实验,结果显示本发明的方法实现了扁平实体和嵌套实体的统一识别,且在性能上优于其他的竞争方法。
-
公开(公告)号:CN116757159B
公开(公告)日:2023-10-13
申请号:CN202311021717.X
申请日:2023-08-15
申请人: 昆明理工大学
IPC分类号: G06F40/126 , G06F40/295 , G06N3/098 , G06F16/35
摘要: 本发明涉及端到端的多任务联合篇章级事件抽取方法及系统,属自然语言处理领域;方法包括:筛选出对某种事件类型来说贡献最大的词作为伪触发词,来完成无触发词的事件检测;通过回归的方式对每种类型的事件数量做出预测;对于多个事件来说,针对每个事件及每种事件类型选出得分最高的词作为伪触发词,作为论元识别的最终的伪触发词特征;利用片段打分方式识别文档中的实体作为候选论元;将候选论元特征与最终的伪触发词特征融合,采用多标签分类方法,预测事件论元及论元角色的关系;通过多任务联合学习方式,实现端到端的篇章级事件抽取;根据上述功能模块化制成系统,对事件进行抽取,本发明预测了事件论元及论元角色的关系,缓解论元重叠问题。
-
公开(公告)号:CN116151243B
公开(公告)日:2023-06-23
申请号:CN202310440409.4
申请日:2023-04-23
申请人: 昆明理工大学
IPC分类号: G06F40/279 , G06F40/30 , G06N3/08 , G06N3/0464
摘要: 本发明提供一种基于类型相关性表征的实体关系抽取方法,属于人工智能语言处理领域。实体关系抽取通常采用深度学习的方法选取特征,在不同领域进行实体关系抽取时,通常没能考虑到主体和客体实体的类型相关性对关系抽取的帮助。在此提出了一种基于类型相关性表征的实体关系抽取方法,该方法使用实体标签和位置嵌入来增强字符的信息,使用注意力控机制来融合实体局部上下文表征,并通过实体类型-类型关系指导关系抽取的方法。医学领域数据集CMeIE和文学领域SanWen数据集实验结果表明,本发明提出的基于类型相关性表征的实体关系抽取方法是有效的。
-
公开(公告)号:CN112800229B
公开(公告)日:2022-12-20
申请号:CN202110163044.6
申请日:2021-02-05
申请人: 昆明理工大学
IPC分类号: G06F16/35 , G06F40/247 , G06N3/04 , G06N3/08
摘要: 本发明涉及基于知识图嵌入的涉案领域的半监督方面级情感分析方法,属于自然语言处理技术领域。本发明包括步骤:从涉案微博事件中爬取了包含8个案例、276个涉案热点话题的涉案领域的微博评论5W+,首先利用少量标记数据进行数据增强,通过预训练得到涉案领域的BERT词嵌入和涉案领域的知识图词嵌入,然后将两种词嵌入按照比例拼接放入下游任务中,从而对特定方面的涉案微博评论进行极性的分类。本发明是实验过程中获得的一个最优的技术方案,构建的分类模型取得了较好的效果,在典型的涉案微博评论数据集上比基线模型分别提高了3.1%。
-
公开(公告)号:CN113901791B
公开(公告)日:2022-09-23
申请号:CN202111078682.4
申请日:2021-09-15
申请人: 昆明理工大学
IPC分类号: G06F40/211 , G06F40/242 , G06F40/247 , G06N3/04 , G06N3/08
摘要: 本发明涉及低资源条件下融合多策略数据增强的依存句法分析方法,属于自然语言处理领域。本发明包括:构造泰语、越南语和英语的同词性同义词典;利用同义词典对三种语言的小规模UD(Universal Dependencies treebanks)数据集进行同义词替换扩充训练数据;利用多种mixup数据增强策略在模型训练不同阶段对训练数据中原词与同义词进行mixup产生虚拟新词进行后续训练。本发明针对低资源依存句法分析问题提出多种数据增强策略。提出的方法通过同义词替换有效扩充了训练数据,缓解了未知词问题。通过多种mixup的数据增强策略,有效缓解了模型过拟合问题,提高模型的泛化能力。
-
公开(公告)号:CN115080761A
公开(公告)日:2022-09-20
申请号:CN202210639007.2
申请日:2022-06-08
申请人: 昆明理工大学
IPC分类号: G06F16/36 , G06F40/295
摘要: 本发明涉及一种基于语义感知的低资源知识图谱实体对齐方法,属于自然语言处理技术领域。本发明首先使用预训练模型初始化实体和关系特征,采用伪语句使得预训练模型可以充分利用上下文信息。然后,建立一个对偶关系子图用以挖掘知识图谱关系中的语义信息,该图使用原始知识图谱中的关系作为节点构建。最后使用GAT聚合对偶关系子图并将所得的关系特征与实体特征融合作为实体聚合中实体特征的初始向量,并计算来自两个知识图谱实体间的相似度。本发明在知识图谱实体对齐任务上取得了较好的效果。
-
公开(公告)号:CN113076398B
公开(公告)日:2022-07-29
申请号:CN202110344892.7
申请日:2021-03-30
申请人: 昆明理工大学
摘要: 本发明涉及基于双语词典映射指导的跨语言信息检索方法。包括:构建并预处理汉越CLIR数据集;预处理英法、英菲、英斯三种CLIR公共数据集;构建的双语映射词典并基于词级映射分别构造查询辅助句;利用共享Transformer分别获取查询、辅助句及文档的上下文表示,同时借助查询与辅助句之间的双语交互注意力机制获得查询的跨语言特征表示;最后利用双语交互排序模型获得查询和文档的匹配分数实现跨语言信息检索。本发明利用双语映射词典实现跨语言沟通,缓解了缺乏查询‑文档对齐语料及语言差异性给信息检索带来的影响。本发明相比跨语言信息检索主流方法,MAP指标明显提升。且本方法在差异性不同的语言对上都具有明显的优势。
-
-
-
-
-
-
-
-
-