-
公开(公告)号:CN116663572A
公开(公告)日:2023-08-29
申请号:CN202210143195.X
申请日:2022-02-16
Applicant: 腾讯科技(深圳)有限公司 , 北京交通大学
IPC: G06F40/49 , G06F40/45 , G06F40/58 , G06N3/0499 , G06N3/08
Abstract: 本申请公开了数据处理方法、装置、计算机设备及计算机可读存储介质,应用于计算机技术领域。该方法包括:获取待处理数据序列;调用数据转换模型对待处理数据序列进行处理,得到待处理数据序列中各个待处理数据对应的目标数据,该数据转换模型对应的训练样本包括源词序列以及对应的目标词序列,该数据转换模型是基于训练样本以及目标词序列中的每个目标词的对齐偏置进行训练得到的,该对齐偏置为每个目标词相对于源词序列中对应源词的偏移数据;输出各个待处理数据对应的目标数据。本申请可以应用于同步机器翻译等各种数据转换场景,能够提高数据转换的准确性。
-
公开(公告)号:CN116644762A
公开(公告)日:2023-08-25
申请号:CN202210138704.X
申请日:2022-02-15
Applicant: 腾讯科技(深圳)有限公司 , 北京交通大学
IPC: G06F40/42 , G06F18/25 , G06F18/2413 , G06F18/2415 , G06N3/047 , G06N3/08
Abstract: 本申请实施例公开了一种翻译模型训练方法、装置、计算机设备及存储介质,属于计算机技术领域。该方法包括:获取样本数据集合;调用待训练的翻译模型,基于第一历史语句,对第一样本语句进行翻译,得到第一样本语句对应的第一翻译语句,基于翻译模型的第一损失函数和第一翻译语句,确定第一梯度参数;调用辅助模型,基于样本数据集合中的辅助历史语句进行处理,得到辅助模型的输出结果,基于辅助模型的第二损失函数和辅助模型的输出结果,确定第二梯度参数;基于第一梯度参数和第二梯度参数,更新翻译模型对应的模型参数。该方法能够增强翻译模型所翻译出的翻译语句与位于该翻译语句之前的语句之间的连贯性,从而提高了翻译模型的准确性。
-
公开(公告)号:CN113761952A
公开(公告)日:2021-12-07
申请号:CN202110558951.0
申请日:2021-05-21
Applicant: 腾讯科技(深圳)有限公司 , 北京交通大学
IPC: G06F40/58 , G06F40/279 , G06N20/00
Abstract: 本申请实施例公开了一种文本翻译方法和相关装置,为了提高翻译质量,处理设备可以结合源语种和目标语种所对应词语片段之间的翻译映射关系,调节用于训练初始翻译模型的相关参数,并基于调节后的相关参数,通过AI技术训练初始翻译模型,从而使训练得到翻译模型能够基于该翻译映射关系对源语种文本进行翻译,使翻译得到的目标语种下的翻译文本更加贴合源语种文本的文本含义,提高翻译效果。同时,训练得到的翻译模型以及过程中所确定出的关联参数可以通过区块链技术进行上链存储,以便于后续过程中对其它模型进行训练以及翻译应用。
-
公开(公告)号:CN111368078A
公开(公告)日:2020-07-03
申请号:CN202010129552.8
申请日:2020-02-28
Applicant: 腾讯科技(深圳)有限公司 , 北京交通大学
IPC: G06F16/35 , G06F40/279 , G06N3/04
Abstract: 本申请公开了一种模型训练的方法,包括:获取待训练文本;获取待训练文本中每个词语所对应的第一深度标签;基于每个词语的词嵌入,通过文本分类模型中的深度值分类器获取每个词语所对应的深度概率分布向量;基于每个词语所对应的第二深度标签以及每个词语所对应的词嵌入,通过文本分类模型获取类别概率分布向量;根据待训练文本所对应的真实分类标签、类别概率分布向量、第一深度标签以及深度概率分布向量,采用目标损失函数对文本分类模型的模型参数进行更新。本申请还公开了一种基于人工智能的文本分类方法。本申请可以独立预测每个词语对应的深度值,而不会受到下游任务类型和数据集的干扰,从而提升模型的鲁棒性。
-
公开(公告)号:CN103314369A
公开(公告)日:2013-09-18
申请号:CN201080070253.6
申请日:2010-12-17
Applicant: 北京交通大学
IPC: G06F17/28
CPC classification number: G06F17/2872
Abstract: 本发明公开了一种机器翻译装置和方法,涉及自然语言处理领域。装置包括:源语言输入单元,输入源语言语句;源语言分析单元,进行词法分析和句法分析得到句法结构,并为句法结构中的节点赋予属性特征;任意格判定模型存储单元,存储任意格判定模型;任意格判定单元,判断是否含有任意格;任意格短语提取单元,获取任意格短语;任意格短语翻译单元,翻译任意格短语;第一提取单元,获取源语言剩余语句;机器翻译单元,翻译源语言剩余语句;翻译结果整合单元,整合得到目标语言;目标语言输出单元,输出目标语言。本发明可以降低源语言的句法结构的复杂程度,提高目标语言生成效率,达到提高翻译精度,使机器翻译解码的运算量得到适当降低。
-
公开(公告)号:CN103119585A
公开(公告)日:2013-05-22
申请号:CN201080069243.0
申请日:2010-12-17
Applicant: 北京交通大学
IPC: G06F17/28
CPC classification number: G06F17/27
Abstract: 本发明提供了一种知识获取装置及方法,其中,该装置包括:格位框架特征抽取单元,用于抽取输入语句中谓语成分的格位框架要素及其属性信息;模型库,用于存储任意格模型;任意格判定单元,用于对所述格位框架特征抽取单元的抽取结果及所述任意格模型进行模式匹配,确定所述谓语成分的格位框架中的任意格信息。本发明实现对该谓语成分的格位框架进行必须格和任意格的自动获取和有效区分,提高自然语言处理的结构消歧和语义消歧的能力。
-
公开(公告)号:CN117688168A
公开(公告)日:2024-03-12
申请号:CN202211043064.0
申请日:2022-08-29
Applicant: 腾讯科技(深圳)有限公司 , 北京交通大学
Abstract: 本申请实施例公开了一种摘要生成的方法以及相关装置,至少涉及人工智能中的自然语言处理、机器学习、计算机视觉等技术。该方法包括对待处理文档中的文本信息进行特征提取处理,得到文本信息对应的文本特征向量,以及对待处理文档中的图片进行特征提取处理,得到图片对应的图片特征向量;对文本特征向量进行自注意力处理,得到第一文本特征向量;对第一文本特征向量与图片特征向量进行自注意力处理,得到目标特征向量;基于摘要生成模型对目标特征向量和第一摘要词进行预测处理,生成待处理文档的目标摘要信息。通过上述方式,能够准确地生成待处理文档的目标摘要信息,使得目标摘要信息精准地表达文档所需表达的主要内容,提高摘要的准确性。
-
-
-
-
-
-