-
公开(公告)号:CN115526185A
公开(公告)日:2022-12-27
申请号:CN202211243691.9
申请日:2022-10-11
Applicant: 新疆大学
Inventor: 郑媛 , 殷俊 , 买合木提·买买提 , 卡哈尔江·阿比的热西提
IPC: G06F40/30 , G06F40/211 , G06F40/216 , G06F40/289
Abstract: 本发明提供一种基于长篇科学文献的关键词抽取方法。对科学文献的单词进行统计,统计字数长度在8000‑40000字,人工统计时间在10‑60分钟,将长篇科学文献进行分块处理,再对文档进行标记并用词性Part‑Of‑Speech(POS)标签标记文档。本发明提供的基于长篇科学文献的关键词抽取方法,通过引入“分块”的概念,极大的完善了BERT模型固有的对输入端长度的限制,提出了Block‑BERT模型进行处理,联合全局和局部信息,保留全面的语义信息,有效的对长篇科学文献进行关键词的提取,与现有的模型相比,性能得到了极大的提升,尽量避免了关键词语义信息的缺失,提出新的节点中心性的计算排名方法Block‑Rank,局部信息采用基于图结构模型来衡量节点的重要程度。
-
公开(公告)号:CN108153835A
公开(公告)日:2018-06-12
申请号:CN201711342028.3
申请日:2017-12-14
Applicant: 新疆大学
Inventor: 米尔夏提·力提甫 , 吐尔根·依布拉音 , 卡哈尔江·阿布都热西提 , 艾山·吾买尔 , 买合木提·买买提 , 瓦热斯·帕尔哈提 , 王路路 , 古丽尼格尔·阿不都外力
CPC classification number: G06F16/36 , G06F16/35 , G06K9/6256 , G06K9/6267
Abstract: 本发明公开了一种维-汉文可比语料自动获取方法,包括如下步骤:获取多个维-汉文可比语料,采用Adaboost方法对BP神经网络进行离线训练,得到一个分类器;通过分类器完成待检测文本内维-汉文可比语料的获取。本发明实现了维-汉文可比语料的自动获取,在语料覆盖面,实时性和扩展性方面都有较好的表现,且准确率较高。
-
公开(公告)号:CN113077010A
公开(公告)日:2021-07-06
申请号:CN202110432894.1
申请日:2021-04-21
Applicant: 新疆大学
Abstract: 本发明公开了一种多语言图像标题生成模型,涉及信息技术领域,该多语言图像标题生成模型基于完全自注意力结构先将图像分割成固定大小的小块,然后将这些小块的线性投影连同它们的图像位置一起输入变压器的。然后剩下的步骤就是一个干净的和标准的Transformer编码器和解码器。在图像patch的嵌入中加入位置嵌入,通过不同的策略在全局范围内保留空间/位置信息。尝试了不同的空间信息编码方法,包括无位置信息编码、1D/2D位置嵌入编码和相对位置嵌入编码。
-
公开(公告)号:CN113051939A
公开(公告)日:2021-06-29
申请号:CN202110421837.3
申请日:2021-04-20
Applicant: 新疆大学
IPC: G06F40/58 , G06F40/126 , G06N3/04
Abstract: 本发明公开了一种基于G‑Transformer的机器翻译方法研究,涉及神经机器翻译领域,该基于G‑Transformer的机器翻译方法研究借助循环神经网络GRU和完全的自注意力网络Tranformer进行设计,循环神经网络GRU负责对用于机器翻译的词向量进行重编码,利用循环神经网络的特性输出考虑了句子上下文信息的向量,完全的自注意力网络Tranformer负责对前者生成的词向量进行再编码,从而实现后续翻译。
-
公开(公告)号:CN111259672A
公开(公告)日:2020-06-09
申请号:CN202010087875.5
申请日:2020-02-12
Applicant: 新疆大学
IPC: G06F40/295 , G06N3/04 , G06N3/08
Abstract: 基于图卷积神经网络的中文旅游领域命名实体识别方法,图卷积神经网络包括输入层、嵌入层、图卷积层和层级结构,其中输入体包括命名实体和非实体;S1:以旅游领域文本的任意非实体为中心同时向两边扩展,直至遍历完整个句子中的单个字;S2:字符特征的提取;S3:提取字符特征;S4:输入和训练;S5:图卷积层优化;S6:旅游领域文本数据中全部的命名实体进行标注;在图卷积层中引入拉普拉斯正则化损失函数,以进行节点内部结构信息的挖掘和字符特征的提取;S7:获得命名实体和非实体之间的层级关系。本发明,利用图卷积神经网络构建字符特征提取方法,并对字符特征进行语义建模,以实现文本中命名实体的正确识别。
-
公开(公告)号:CN111241831A
公开(公告)日:2020-06-05
申请号:CN202010041252.4
申请日:2020-01-15
Applicant: 新疆大学
Inventor: 吾买尔江·买买提明 , 古丽尼格尔·阿不都外力 , 西尔艾力·色提 , 吐尔根·依布拉音卡哈尔江·阿比的热西提 , 买合木提·买买提
IPC: G06F40/289 , G06N3/04
Abstract: 一种基于双向门控神经网络的乌兹别克语词干提取方法,对现有Lovins算法进行改进,改进步骤包括:S1:Lovins算法内增加去除前缀的步骤;S2:保留Lovins算法中去除后缀的步骤;S3:删除转换剩余部分的步骤;改进后的Lovins算法流程包括以下步骤:S11:开始;S12:输入单词;S13:去除前缀;S14:去除后缀;S15:输出词干;S16:结束。本发明,避免人工制定语言规则和语言本身的二义性,用数据驱动的形式完成乌兹别克语词干提取任务。
-
公开(公告)号:CN109508365A
公开(公告)日:2019-03-22
申请号:CN201811297834.8
申请日:2018-11-01
Applicant: 新疆大学
IPC: G06F16/31 , G06F16/332 , G06F17/28 , G06F21/60
Abstract: 本发明公开了一种用于术语管理及抽取的分析方法,该方法包括如下步骤:S1.创建维吾尔语倒排索引;S2.输出创建好的维吾尔语倒排索引文件;S3.检查创建的维吾尔语倒排索引文件的准确性;S4.加密维吾尔语倒排索引;S5.检查加密的维吾尔语倒排索引;本发明解决了通用工具以及方法对维吾尔语不有效,甚至导致维吾尔语倒排索引存储空间的无限扩大问题,为实现维吾尔语检索系统、基于实例的维吾尔语机器翻译系统打下了良好的基础。
-
公开(公告)号:CN113051940A
公开(公告)日:2021-06-29
申请号:CN202110422247.2
申请日:2021-04-20
Applicant: 新疆大学
IPC: G06F40/58 , G06F40/53 , G06F40/289 , G06N3/04
Abstract: 本发明公开了一种多向循环神经网络机器翻译模型训练方法与装置,涉及机器翻译领域,该多向循环神经网络机器翻译模型包括初始翻译、循环源端翻译和循环目标端翻译三部分组成,在训练时,利用平行数据的特点,在训练阶段通过翻译模型重新生成源端句子序列和目标端句子序列并通过计算重构生成的句子序列的损失来优化初始翻译模型的部分参数来提升初始翻译模型中的性能,针对不同重构得到的句子序列的上下文向量与初始翻译模型输出的源端句子上下文向量或者目标端句子上下文向量计算相似度。
-
公开(公告)号:CN111368563A
公开(公告)日:2020-07-03
申请号:CN202010140937.4
申请日:2020-03-03
Applicant: 新疆大学
IPC: G06F40/58 , G06F16/35 , G06K9/62 , G06F40/284 , G06F40/289
Abstract: 本发明公开了一种融合聚类算法的维汉机器翻译系统,由使用gensim中的Doc2vec训练维吾尔语句子向量模型;使用k-means方法实现维吾尔语的文本聚类;使用transformer结构训练维汉机器翻译模型;使用微调的方法将聚类后的每一类数据分别微调机器翻译模型得到k个子翻译模型,融合以上方法实现了对维吾尔语的向量化,聚类并训练维汉翻译模型,其特征在于:由于长度较短的句子很难有丰富的语义信息。该发明根据句子长度和k-means聚类的方法更加细分了语料中的各种特征,从而提高了维汉机器翻译的翻译质量。
-
公开(公告)号:CN120020816A
公开(公告)日:2025-05-20
申请号:CN202311561003.8
申请日:2023-11-20
Applicant: 新疆大学
IPC: G06F40/30 , G06F18/25 , G06F18/213 , G06F18/241 , G06N3/0464 , G06N3/045 , G06N3/0442
Abstract: 本发明基于深度学习方法,公开了一种基于双通道语义增强的弹幕情感分析模型构建方法。该方法首先获取弹幕文本并完成数据标注,形成弹幕数据集;然后,进行去除停用词、删除无意义标点符号等数据预处理操作;随后,通过BERT进行词嵌入;继而,使用GCN模块和Bi‑LSTM模块组成双通道分别提取全局语义特征和语序特征,并将两个通道提取到的特征进行融合;紧接着,使用句向量增强机制对融合后特征进行增强;接下来,利用DPCNN模型提取增强后特征中的高层次特征并降低维度;最后,使用多层感知机对DPCNN提取的低维高层次特征进行情感分类。该方法能够解决现有弹幕情感分析模型构建方法中的语义信息提取不足、语义丢失和分类维度过高问题。
-
-
-
-
-
-
-
-
-