一种结构化文本翻译方法及装置

    公开(公告)号:CN110232193A

    公开(公告)日:2019-09-13

    申请号:CN201910349677.9

    申请日:2019-04-28

    Abstract: 本发明实施例提供一种结构化文本翻译方法及装置,包括:将待翻译的目标结构化文本的结构化标记去除,得到目标文本;将所述目标文本输入到训练好的文本翻译神经网络模型中,根据短语搜索空间对所述目标文本的翻译候选词进行搜索翻译,得到目标翻译文本和对齐信息;根据所述对齐信息,对所述目标翻译文本进行结构化标记恢复处理,得到目标结构化翻译文本。本发明实施例通过将结构化文本的结构化标记去除,从而通过基于短语搜索空间的神经网络模型对去除结构化标记的文本进行翻译,并将翻译后的文本恢复结构化标记,得到结构化翻译文本,实现了通过神经网络模型对结构化文本进行翻译。

    机器翻译方法及装置
    42.
    发明公开

    公开(公告)号:CN109446534A

    公开(公告)日:2019-03-08

    申请号:CN201811109824.7

    申请日:2018-09-21

    Abstract: 本发明实施例提供一种机器翻译方法及装置,其中方法包括:将源语句前文的词向量输入至预先训练的上下文编码器,输出所述源语句前文的编码标识;将源语句的词向量以及所述源语句前文的编码标识输入至预先训练的源语言编码器,获得所述源语句的编码标识;将目标语句中已翻译的词向量、源语句前文的编码标识和源语句的编码标识输入至预先训练的解码器,获得目标语句中新翻译的词向量;根据所述目标语句中新翻译的词向量获得对应的翻译结果。本发明实施例能够解决机器翻译对上下文的依赖,显著提高翻译质量。

    基于计算鬼成像的傅里叶重叠关联成像系统及方法

    公开(公告)号:CN106371201B

    公开(公告)日:2018-11-09

    申请号:CN201610960008.1

    申请日:2016-11-03

    Applicant: 清华大学

    Abstract: 本发明提出一种基于计算鬼成像的傅里叶重叠关联成像系统及方法,系统包括:空间滤波器;空间光调制器;成像模块;高速感光阵列;处理模块,计算每个单像素探测器对应位置的图像,并作为以该单像素探测器为光源的倾斜平面波照明的低分辨率图像;计算模块,用于对低分辨率图像进行傅里叶变换,得到对应于目标高分辨图像的频谱在该入射角度和物镜的数值孔径的搬移和低通滤波,将低分辨率图像的频谱重叠相关的部分进行拼接,得到目标高分辨率图像的频谱,并利用相位恢复算法得到目标高分辨率图像。本发明能够提高整个成像系统的图像采集效率,并实现比通常阵列式传感器更宽谱段的测量,以及实现图像的压缩重建,提高单次成像的速率。

    一种神经网络中向量相关性计算方法及系统

    公开(公告)号:CN108596337A

    公开(公告)日:2018-09-28

    申请号:CN201810416509.2

    申请日:2018-05-03

    Applicant: 清华大学

    CPC classification number: G06N3/08 G06N3/04

    Abstract: 本发明提供一种神经网络中向量相关性计算方法及系统,所述方法包括:S1,根据目标神经网络的拓扑结构,获取所述目标神经网络中各输入层神经元到所述目标神经网络中各输出层神经元之间的路径;其中,所述输入层神经元用于输入端向量的输入,所述输出层神经元用于输出端向量的输出;S2,计算从各所述输入层神经元到各所述输出层神经元的路径总得分,根据所述路径总得分获取所述输入端向量与所述输出端向量之间的相关性。本发明可以正向传播相关性,并在前向计算中使用得到的相关性,应用范围广。

    双语词典构建方法和设备
    45.
    发明公开

    公开(公告)号:CN107315741A

    公开(公告)日:2017-11-03

    申请号:CN201710374136.2

    申请日:2017-05-24

    Applicant: 清华大学

    Abstract: 本发明提供双语词典构建方法和设备用于解决如何不依赖于种子双语词典的自动构建双语词典的问题。其中双语词典构建方法,包括步骤:S101、输入语言a的单语语料A,和输入语言b的单语语料B,分别将单语语料A和单语语料B中的词表示为词向量;S102、训练获得单语语料A的词向量与单语语料B的词向量的映射关系;S103、根据映射关系构建双语词典。本发明从单语语料上训练得到的单语词向量出发,构建生成器和鉴别器组成的神经网络模型,通过设计合适的损失函数和训练技术,直接得到两种语言词向量之间的映射关系,从而构建双语词典,从而不依赖于种子双语词典即可完成。

    一种基于无监督领域自适应的神经网络机器翻译方法

    公开(公告)号:CN107038159A

    公开(公告)日:2017-08-11

    申请号:CN201710139214.0

    申请日:2017-03-09

    Applicant: 清华大学

    CPC classification number: G06F17/289 G06N3/08

    Abstract: 本发明提供一种基于无监督领域自适应的神经网络机器翻译方法,包括:将双语语料训练样本中源端句最后一个词和第一个词的向量表示作为Softmax分类器和翻译模块的输入进行训练;根据Softmax分类器生成的领域数目,生成翻译网络解码器的数目,基于目标端的解码器生成目标端以及所对应的领域。本发明克服了现有技术中缺乏已标注领域数据的问题,节省时间和成本,能够高效准确地完成翻译和领域之间的自适应,具有较好的实用性,具备良好的适用范围以及可扩展性。

    平行短语学习方法及装置
    48.
    发明公开

    公开(公告)号:CN106126505A

    公开(公告)日:2016-11-16

    申请号:CN201610446994.9

    申请日:2016-06-20

    Applicant: 清华大学

    Abstract: 本发明涉及一种平行短语学习方法及装置,其中,该方法包括:根据句子级的单语语料库构建短语级的单语语料库;通过种子词典分别对源语言到目标语言的短语翻译模型以及目标语言到源语言的短语翻译模型进行初始化;使用两个短语翻译模型,在模型一致性约束下分别从两个单语语料库中抽取平行短语对,以在模型一致性约束下进一步优化两个短语翻译模型。本发明的平行短语学习方法及装置,可以实现从非平行的单语语料中,抽取平行语料,相比于平行语料而言,单语语料的获取更廉价、覆盖语言领域更全面,能补充当前平行语料库不足的情况,并很好地解决噪音的问题,提升抽取出的平行语料的精度和质量。

    平行语料的构建方法及装置

    公开(公告)号:CN105068997A

    公开(公告)日:2015-11-18

    申请号:CN201510415139.7

    申请日:2015-07-15

    Applicant: 清华大学

    Abstract: 本发明公开了平行语料的构建方法及装置,其中,该方法包括:确定平行语料库中各翻译词对的翻译概率,所述翻译词对包含源语言词及相应的目标语言词;将翻译词对及相应的翻译概率添加到翻译概率表中;根据翻译概率表对非平行语料库中的短语进行匹配,确定出匹配的短语对,作为新的平行短语对;将新的平行短语对添加到平行语料库中。本发明方案能够基于非平行语料训练出平行短语对,扩大平行语料的规模。

Patent Agency Ranking