一种基于管道模式的端到端英文篇章结构自动分析方法

    公开(公告)号:CN107273358B

    公开(公告)日:2020-06-05

    申请号:CN201710460810.9

    申请日:2017-06-18

    Abstract: 本发明涉及一种基于管道模式的端到端英文篇章结构自动分析方法,属于自然语言处理应用技术领域;本发明首先,对于显式篇章关系识别,针对传统方法采用词袋模型进行特征向量化的不足,提出了基于混合卷积树核和多项式核相结合的特征表示和计算方法,对句法特征和扁平特征分而治之;不仅可以大大降低特征向量维度,而且可以充分表达特征中的细节信息;其次,对于非显式篇章关系识别,针对语言学特征不能挖掘更深层次的语义以及传统方法带来的数据稀疏以及语义鸿沟的问题,通过仔细分析非显式篇章关系识别的特点,运用词对特征的优势,提出了基于深度学习的非显式篇章关系识别模型。对比现有技术,本发明提升了整个端到端系统的精度。

    一种基于管道的中文篇章结构分析方法及系统

    公开(公告)号:CN107168956B

    公开(公告)日:2020-06-02

    申请号:CN201710385741.X

    申请日:2017-05-26

    Abstract: 本发明涉及一种基于管道的中文篇章结构分析方法及系统,属于自然语言处理应用技术领域;本发明根据中文篇章结构的特点,自下而上地处理句内和句间关系,使得预测句间或更高层次篇章关系时可以动态地利用已识别的句内关系,实现对动态特征的建模。本发明针对管道形式中存在的错误传递问题,将传统端到端模型中的显式篇章关系分析中的三个子任务整合为一个任务,转化为一个序列标注问题并加以实现;本发明利用排序学习的思想缓解了隐式篇章关系判别中存在的篇章关系分布不平衡的问题。

    一种多源神经机器翻译模型的融合和压缩方法

    公开(公告)号:CN110781690A

    公开(公告)日:2020-02-11

    申请号:CN201911049943.2

    申请日:2019-10-31

    Abstract: 本发明涉及一种多源神经机器翻译模型的融合和压缩方法,属于自然语言处理应用技术领域。首先,构建基于Transformer的多源机器翻译模型;其次,使用CNN融合多个源的编码信息;再次,使用门控机制使模型可以自主选择是否使用辅助源语言;最后,根据矩阵间的距离不同,对矩阵进行不同方式的量化压缩;其中,多源机器翻译模型又包括编码器和解码器,所述模型的压缩包括计算矩阵距离和量化压缩。本发明所述方法针对多源模型结构复杂、参数多带来的存储空间过大问题,又探究了对模型进行量化压缩的方法,获得了更大的压缩率和更高的精准度。

    一种基于微信公众平台的汉蒙语料库众包构建方法

    公开(公告)号:CN110472948A

    公开(公告)日:2019-11-19

    申请号:CN201910859135.6

    申请日:2019-09-11

    Abstract: 一种基于微信公众平台的汉蒙语料库众包构建方法,属于语料资源构建领域。具体操作步骤包含:1)获取多体裁开放域原始语料;2)通过蒙古语水平测试问卷,对参与翻译任务的用户进行筛选过滤;3)用订阅号推送的方式给关注微信公众号的用户发送众包翻译任务;4)每个微信客户端将一个或多个源句翻译成蒙古语以语音形式反馈给后台;5)通过后台管理员审核与众包质量评估相结合的方式评估所述语料质量,实现语料的质量控制;所述基于微信公众平台的汉蒙语料库众包构建方法在线上完成语料收集,交互简单、用户体验好、用户参与度高、有效解决了在真实蒙语语言环境下收集开放域自然口语语料的问题,在互联网移动平台下展现了极高的实用前景。

    一种基于拼接再混合方式的多源神经网络自动译后编辑系统及方法

    公开(公告)号:CN107301173B

    公开(公告)日:2019-10-25

    申请号:CN201710491848.2

    申请日:2017-06-26

    Abstract: 本发明公开了一种基于拼接再混合方式的多源神经网络自动译后编辑系统及方法,属于计算机自然语言处理及机器翻译技术领域。包括本系统,又包括训练模块与解码模块;本方法分为训练过程与解码过程。训练系统过程建立在传统的神经网络机器翻译模型基础之上,源语料用将翻译原文与初步翻译结果经过简单的语句拼接及再混合后生成的新语料做替换,目标语料用经过翻倍的参考译文做替换,使初步翻译结果与翻译原文在训练过程中互相辅助,交叉验证。翻译解码过程可直接使用已训练得到的系统,对翻译原文与初步翻译结果经过相应拼接的源语料解码,得到译文在流畅度、准确度以及质量整体上均于未经过此译后编辑方法作用的初步翻译结果。

    一种基于层次深度语义的隐式篇章关系分析方法

    公开(公告)号:CN106326212B

    公开(公告)日:2019-04-16

    申请号:CN201610739516.7

    申请日:2016-08-26

    Abstract: 本发明涉及一种基于层次深度语义的隐式篇章关系分析方法,属于自然语言处理应用技术领域。包括以下步骤:首先结合已标注和未标注语料,扩充训练语料规模,避免训练语料规模过小带来欠学习问题;然后基于一定规则初始化训练语料各层次的深度语义向量,通过信息增益值的大小筛选出有助于分类的词对,将其作为后续特征选取依据;最后设计一种打分函数,将待分类篇章关系论元对的多层次的深度语义信息相结合,利用神经网络训练模型参数并拟合隐式篇章关系类别标签,找到使性能达到最优的模型完成隐式篇章关系分析。弥补了基于离散特征的传统方法导致的错判;提升隐式篇章关系类别标签的分析精度;使用户能更快速而准确地获得隐式篇章关系的分析结果。

    一种基于深度学习的文档主题向量抽取方法

    公开(公告)号:CN108984526A

    公开(公告)日:2018-12-11

    申请号:CN201810748564.1

    申请日:2018-07-10

    Inventor: 高扬 黄河燕 陆池

    Abstract: 本发明涉及一种基于深度学习的文档主题向量抽取方法,属于自然语言处理技术领域。本发明方法利用卷积神经网络抽取出具有局部的深层的语义信息,利用LSTM模型将时序信息学习出来,使得向量的语义更加全面,选用上下文短语和文档主题的隐含的共现关系,避免了一些基于句子的主题向量模型对于短文本的缺点,利用注意力机制将CNN和LSTM模型有机的结合起来,学习了上下文的深层语义、时序信息和显著信息,更有效的构建了档主题向量抽取的模型。

    一种几何图形到盲文点阵图形的转换方法及装置

    公开(公告)号:CN105550987B

    公开(公告)日:2018-09-28

    申请号:CN201610046116.8

    申请日:2016-01-22

    Inventor: 黄河燕 周强 叶宇

    Abstract: 本发明公开了一种用于盲文图形编辑中几何图形转换盲文点阵图形的方法及装置,属于基于计算机科学的图形处理与分析技术领域;它包括:确定所画几何图形的始末位置并计算该图形方程,将始末位置间背景格横坐标带入方程求纵坐标,得交点;相邻两交点纵坐标差值大于背景格宽度的,计算中间与多条横线的交点;相邻两交点纵坐标差值小于背景格宽度且不在一个背景格内的,计算与中间横线的交点;这样计算出与所有背景格的交点后,再计算相邻交点的中点,中点所在的方格为需要绘制的盲文点。对比现有技术,本发明有效的结合画图功能,将所画几何图形以一种所见即所得的方式进行呈现,方便用户判断和观察图形走向,解决之前画图中效率低、正确率低的问题。

    一种基于统计短语表的神经网络机器翻译语料扩展方法

    公开(公告)号:CN108363704A

    公开(公告)日:2018-08-03

    申请号:CN201810175915.4

    申请日:2018-03-02

    Abstract: 一种基于统计短语表的神经网络机器翻译语料扩展方法,属于机器翻译技术领域。本发明针对神经网络机器翻译技术提出了一种基于统计短语表的机器翻译语料扩展方法,可以在机器翻译原始训练集的基础上有效扩展语料规模;本方法主要包含:训练集扩展阶段和模型训练阶段;阶段一通过统计机器学习方法从原始训练集中学习短语表并将其按照一定的过滤规则与原始训练集融合成新的扩展后的训练集,阶段二对神经机器翻译模型进行训练,先通过扩展后的训练集进行预训练,再由原始训练集进行训练以调优,得到最终模型;实验结果表明,本发明与不使用语料扩展方法的机器翻译模型相比,BLEU测评指标明显提升。

    一种基于局部敏感哈希的主题标签快速赋予方法

    公开(公告)号:CN105354264B

    公开(公告)日:2018-08-03

    申请号:CN201510697460.9

    申请日:2015-10-23

    Abstract: 本发明提出了种基于局部敏感哈希的主题标签快速赋予方法,属于文本挖掘技术领域。此方法将主题标签赋予问题转换成求K近邻的问题,包含离线数据库构建和在线查询两个部分。其中,离线部分利用标签主题模型对带标签的文档进行处理,得到个“主题‑标签”数据库。在线部分通过局部敏感哈希在已经构建好的“主题‑标签”数据库中快速查找与待查主题最相似的主题,并把该主题的标签赋给待查主题,并进步通过2种哈希采用序列融合技术优化结果。本发明能够实现主题标签的自动赋予,使得传统主题模型的结果变得可理解;对比现有技术,使用局部敏感哈希进行查找的方法使得效率大大提高,能够在大数据上获得较快较好的主题标签赋予效果。

Patent Agency Ranking