-
公开(公告)号:CN112613326B
公开(公告)日:2022-11-08
申请号:CN202011500300.8
申请日:2020-12-18
Applicant: 北京理工大学
IPC: G06F40/58 , G06F40/211 , G06N3/04
Abstract: 本发明涉及一种融合句法结构的藏汉语言神经机器翻译方法,属于机器翻译及特征融合应用技术领域。本方法旨在在神经机器翻译的框架中,引入更多语言本身的句法结构,从而帮助提升机器翻译质量,通过优化transformer的位置编码技术问题,提出相对位置编码的方法,进行句法结构信息的融入。本方法通过提取基于依存关系的结构位置编码方法优化transformer,最终达到提升藏语‑汉语神经机器翻译质量的目的。本方法能有效提高自注意力神经网络在学习两种语言之间的关联的效率,缓解两种语言由于句法结构不同带来的问题,降低算法的时间复杂度,解决了传统模型采用绝对位置编码造成的上下文信息丢失问题,减少了低资源神经机器翻译的误翻译、漏翻译的发生。
-
公开(公告)号:CN112528003B
公开(公告)日:2022-10-04
申请号:CN202011548750.4
申请日:2020-12-24
Applicant: 北京理工大学
IPC: G06F16/332 , G06F16/33 , G06F40/30 , G06N3/04
Abstract: 本发明公开了一种基于语义排序和知识修正的多项选择问答方法,属于计算机自然语言处理技术领域。本发明从外部语料库中检索与问题相关的知识,辅助模型进行理解和推理,通过知识修正和语义排序的技术,进一步提升检索获得的知识的质量和精度,从而引导系统进行正确的推理。在相同的数据集下,本发明与传统技术相比,在准确率评测指标上有显著提升。
-
公开(公告)号:CN115114930A
公开(公告)日:2022-09-27
申请号:CN202210554500.4
申请日:2022-05-19
Applicant: 北京理工大学 , 中国科学院信息工程研究所
Abstract: 本发明提出了一种基于序列到森林的非连续实体识别方法,为了更好地刻画实体内部组块之间的依赖性,使用森林结构建模文本中实体集;采用基于神经网络的“编码器‑解码器”生成框架,实现序列到森林的生成过程;在编码器端,首先采用基于Transformer的编码器捕获文本中每个词的全局依赖特征,然后再使用卷积神经网络进一步捕获词的局部依赖特征;在解码器端,设计了基于“便签”机制的注意力模块,可捕获每个解码时刻的输出与输入之间的语义关联性。本发明的有益效果是:可保证实体间的无序性以及实体内部的有效性,可有效捕获实体组块之间的关联性,可有效提高模型对非连续实体的识别能力,可适应于连续实体识别的场景。
-
公开(公告)号:CN114638227A
公开(公告)日:2022-06-17
申请号:CN202011477961.3
申请日:2020-12-15
Applicant: 中国移动通信有限公司研究院 , 中国移动通信集团有限公司 , 北京理工大学
IPC: G06F40/295 , G06F16/35 , G06K9/62
Abstract: 本发明公开了一种命名实体识别方法、装置及存储介质,包括:以token分别使用字和分词后的词两种方式使用BERT模型进行预训练;预训练完成后,分别利用输出部分Transformer最后一层,被隐层的token在最后一个隐藏层拼接token补充信息;在Transformer最后一层位置上面串接一个softmax分类层;分别获取基于字和基于词的每个token的分类概率之后,将基于词的每个token的分类概率转化为基于字的标签概率;根据基于字和基于词的分类概率,每个token取最高值作为该token的标签值。采用本发明,能够提高模型性能;捕捉到的是真正意义上的双向上下文信息;对实体槽位进行补充进行编码,合理利用。
-
公开(公告)号:CN113239694B
公开(公告)日:2022-06-14
申请号:CN202110622945.7
申请日:2021-06-04
Applicant: 北京理工大学
IPC: G06F40/289 , G06F40/30 , G06F40/211 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明提出一种基于论元短语的论元角色识别方法,包括S1、输入的语句S和事件类型C,通过第一模型构建所述语句中每个论元的论元短语表示Spani和所述事件类型的向量表示Eevent;S2、将所述语句的论元短语表示Spani和所述事件类型的向量表示Eevent输入第二模型,获取所述语句中所有论元的角色类别。本发明充分考虑了在进行论元角色识别过程中单个单词的向量表示不具有很好的分类特征、没有利用短语信息等问题,利用事件论元的短语信息,从而有效地学习到论元的分类特征,进一步提升论元角色识别的效果。
-
公开(公告)号:CN114328856A
公开(公告)日:2022-04-12
申请号:CN202111409606.7
申请日:2021-11-25
Applicant: 北京理工大学
IPC: G06F16/332 , G06F40/58
Abstract: 本发明涉及一种面向文本翻译人员的关键词提示方法,属于计算机应用和计算机辅助翻译技术领域。本发明首先将输入序列转换为词向量序列,再将词向量序列通过自注意力神经网络编码器计算,得到输入的源语言句子中每个单词的重要性得分。将得分经过最大最小值缩放后,作为最终得分。最终标注出输入源语言句子各个单词的重要性,用于提示翻译人员重点关注重要词汇。本方法通过事先对输入源语言单词进行重要性标注,以提示翻译人员重点关注这些词汇,避免错译、漏译情况发生,提升翻译准确度。同时,翻译校对人员也可以利用本方法提升校对工作的效率。
-
公开(公告)号:CN114154515A
公开(公告)日:2022-03-08
申请号:CN202111335948.9
申请日:2021-11-12
Applicant: 北京理工大学
Abstract: 本发明涉及一种基于重复跨度预测的机器阅读理解方法,属于自然语言处理机器阅读理解领域。所述方法包括:针对跨度预测形式的阅读理解任务,增加预测重复跨度的任务。该任务首先在文本段落中基于贪心算法找到所有的重复跨度,然后对包含在长跨度中的短跨度进行过滤,得到重复跨度集合之后,对每组重复的跨度,随机选择一个作为答案跨度,组内其他跨度用掩码代替。将处理过的文本输入到预训练模型中,得到表示向量,基于softmax预测掩码位置应该指向段落中的哪个跨度。在该任务上训练之后,将得到的模型在目标任务上做进一步的微调。该方法考虑到预训练模型欠缺跨度知识的问题,并利用无监督的方式构建数据,使模型可以更好地学习跨度表示,提升模型在跨度预测方面的表现。
-
公开(公告)号:CN113836408A
公开(公告)日:2021-12-24
申请号:CN202111074829.2
申请日:2021-09-14
Applicant: 北京理工大学
IPC: G06F16/9535 , G06N3/04 , G06N3/08
Abstract: 本发明提出了一种基于网页正文内容的问题式查询推荐方法,属于计算机网络信息检索查询推荐技术领域。所述基于网页正文内容的问题式查询推荐方法依托的查询推荐系统包括问题式查询生成模块和问题式查询推荐模块,包括以下步骤:S1,生成问题式查询,具体为:以网页正文文本段和关键字作为输入,使用神经网络模型生成一个基于网页正文文本段与关键字相关的问题式查询,重复该过程,得到N个问题式查询。S2,以问题式查询之间的相似度作为衡量标准筛选由S1得到的N个问题式查询,作为查询推荐的最终结果。所述方法在摆脱了对用户检索日志的依赖的同时,能更好的帮助用户表达信息需求。
-
公开(公告)号:CN113657095A
公开(公告)日:2021-11-16
申请号:CN202110966806.6
申请日:2021-08-23
Applicant: 北京理工大学
IPC: G06F40/211 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明涉及自然语言处理和深度学习技术领域,特别涉及一种关系抽取系统,包括接收模块、词向量序列生成模块和关系抽取模型,其中,接收模块,用于接收句包和目标实体对(eh,et);词向量序列生成模块,用于对句包中每个句子的词语进行位置和符号的结合嵌入,将句子转化为词向量序列;关系抽取模型,用于预测句包中所包含的关系集合。本发明提供的关系抽取系统能够有效地捕捉关系模式的信息,生成模式捕捉矩阵,使GPT模型能够有捕捉局部依赖的能力,进而提升关系抽取的效率和准确率。
-
公开(公告)号:CN110210988B
公开(公告)日:2021-04-27
申请号:CN201910468680.2
申请日:2019-05-31
Applicant: 北京理工大学 , 中电科大数据研究院有限公司
IPC: G06Q50/00
Abstract: 本发明提出了一种基于深度哈希的符号社交网络嵌入方法,属于网络社交媒体技术领域。本方法利用三元组,同时保存网络中的正边和负边信息,并设计了端到端的深度哈希模型对三元组数据进行训练,最终得到标记社交网络中每个节点在汉明空间中的哈希码表示。通过对应哈希码在链接预测任务中的AUC值,评价网络嵌入方法的好坏。本发明方法对比现有技术,首次将深度哈希应用于网络嵌入任务当中,可以同时考虑标记网络中正边和负边信息,在两个真实标记社交网络中进行连接预测任务,显著提高了标记社交网络分析任务的效果。
-
-
-
-
-
-
-
-
-