-
公开(公告)号:CN116663575A
公开(公告)日:2023-08-29
申请号:CN202210141490.1
申请日:2022-02-16
Applicant: 腾讯科技(深圳)有限公司 , 北京交通大学
IPC: G06F40/58 , G06F40/44 , G06F40/211 , G06F40/284 , G06N3/045 , G06N3/0464 , G06N3/08
Abstract: 本申请提供了一种视频对话的翻译方法、装置、设备、存储介质及程序产品;方法包括:获取视频的对话文本,从对话文本中获取待翻译语句;从视频中提取与待翻译语句同步的图像;对图像和待翻译语句进行第一编码处理,得到与待翻译语句对应的多模态上下文,其中,多模态上下文包括待翻译语句中的每个词分别对应的多模态词向量;基于多模态上下文进行解码处理,得到待翻译语句中每个词的翻译结果;其中,待翻译语句中的后序词是根据前序词的翻译结果、以及多模态上下文中后序词对应的多模态词向量进行解码处理得到。通过本申请能够有效提高视频对话翻译的准确性。
-
公开(公告)号:CN116663574A
公开(公告)日:2023-08-29
申请号:CN202210141138.8
申请日:2022-02-16
Applicant: 腾讯科技(深圳)有限公司 , 北京交通大学
IPC: G06F40/58 , G06F40/205 , G06F40/284 , G06V20/50 , G06V10/40 , G06V10/80
Abstract: 本申请提供一种多模态对话翻译方法、装置、电子设备及存储介质,涉及计算机技术领域。在基于源语言获取到待翻译对话文本和历史对话文本后,可以确定待翻译对话文本和历史对话文本之间的上下文关系,以及发言对象的对话表达特征,并分别对待翻译对话文本对应的至少一个场景图像进行特征提取,得到相应的图像特征集合,将上下文关系、对话表达特征和图像特征集合进行融合,得到多模态对话特征,并基于目标语言对多模态对话特征进行翻译,获得目标翻译对话文本。由于引入了相应的场景图像,并从场景图像中提取出有效的图像信息,从而可以得到更加准确的目标翻译文本,且得到的目标翻译文本能更好地切合当前的对话场景。
-
公开(公告)号:CN116663571A
公开(公告)日:2023-08-29
申请号:CN202210142644.9
申请日:2022-02-16
Applicant: 腾讯科技(深圳)有限公司 , 北京交通大学
Abstract: 本申请实施例提供了一种翻译方法、装置、电子设备以及计算机可读存储介质,涉及人工智能、自然语言处理、多媒体及云技术领域。该方法包括:获取源语言的待翻译文本,通过训练好的翻译模型对待翻译文本进行翻译,得到待翻译文本对应于目标语言的目标文本;该翻译模型是通过以下方式训练得到的:获取包括源语言的第一文本和第一文本对应于目标语言的第二文本的多个训练样本;根据每个样本的第一文本和第二文本中相匹配的各单词对在两个文本中的位置偏置,确定每个样本对应的训练损失权重;基于多个样本及其对应的训练损失权重对初始神经网络模型进行迭代训练得到翻译模型。基于该方法,能够有效提升翻译效果。
-
公开(公告)号:CN112347795A
公开(公告)日:2021-02-09
申请号:CN202011066983.0
申请日:2020-10-04
Applicant: 北京交通大学
Abstract: 本申请公开了一种机器翻译质量评估方法、装置、设备及介质,涉及机器学习网络。上述方法应用于机器翻译自动评估系统中,所述机器翻译自动评估系统运行有特征提取网络和分类预测网络,所述方法包括:获取源语句和机器译文,所述机器译文是待评估的机器翻译系统对所述源语句翻译生成的;调用所述特征提取网络对所述源语句和机器译文生成分布式特征表示,所述特征提取网络是基于双语平行语料库采用无监督方式训练的语言编码模型;调用所述分类预测网络对所述分布式特征表示进行分类预测,得到所述机器译文的质量评估结果,所述质量评估结果包含词汇级别和句子级别中的至少一种。
-
公开(公告)号:CN111444338A
公开(公告)日:2020-07-24
申请号:CN202010129518.0
申请日:2020-02-28
Applicant: 腾讯科技(深圳)有限公司 , 北京交通大学
IPC: G06F16/35 , G06F40/126 , G06F40/289 , G06F40/30
Abstract: 本申请公开了一种文本处理、装置、存储介质及设备,属于人工智能技术领域。方法包括:获取待处理文本,对待处理文本执行向量化处理得到共享特征向量;分别对共享特征向量执行与方面词抽取任务对应的第一编码处理、与观点词抽取任务对应的第二编码处理和与方面级别情感分类任务对应的第三编码处理,依次得到第一特征向量、第二特征向量和第三特征向量;基于第一特征向量、第二特征向量和第三特征向量执行信息传递处理,信息传递处理是指在任意上述两两任务间进行双向特征信息传递;基于信息传递处理后得到的特征向量,对待处理文本进行方面词抽取和方面级别的情感极性分类。本申请显著提升了情感分析效果。
-
公开(公告)号:CN104699662B
公开(公告)日:2017-12-22
申请号:CN201510120020.7
申请日:2015-03-18
Applicant: 北京交通大学
Abstract: 本发明公开了一种识别整体符号串的方法和装置,属于自然语言处理研究领域。所述方法包括:提取文本信息中包含的符号串;从所述符号串中获取具有对称性的符号对;根据所述获取的符号对计算所述符号串的对称度;如果所述符号串的对称度满足预设条件,则确定所述符号串为整体符号串。所述装置包括:提取模块,获取模块,计算模块和确定模块。由于本发明能够计算符号串的对称度,根据符号串的对称度确定符号串是否是整体符号串,不需要依赖表情符号字典,即使不在表情符号字典内的符号串,也能够确定出该符号串是否是整体符号串,从而解决了表情符号等符号串信息识别精度低下、容易造成文本信息缺失等问题,达到了提高文本信息处理系统的性能的效果。
-
公开(公告)号:CN103314369B
公开(公告)日:2015-08-12
申请号:CN201080070253.6
申请日:2010-12-17
Applicant: 北京交通大学
IPC: G06F17/28
CPC classification number: G06F17/2872
Abstract: 本发明公开了一种机器翻译装置和方法,涉及自然语言处理领域。装置包括:源语言输入单元,输入源语言语句;源语言分析单元,进行词法分析和句法分析得到句法结构,并为句法结构中的节点赋予属性特征;任意格判定模型存储单元,存储任意格判定模型;任意格判定单元,判断是否含有任意格;任意格短语提取单元,获取任意格短语;任意格短语翻译单元,翻译任意格短语;第一提取单元,获取源语言剩余语句;机器翻译单元,翻译源语言剩余语句;翻译结果整合单元,整合得到目标语言;目标语言输出单元,输出目标语言。本发明可以降低源语言的句法结构的复杂程度,提高目标语言生成效率,达到提高翻译精度,使机器翻译解码的运算量得到适当降低。
-
公开(公告)号:CN119131816A
公开(公告)日:2024-12-13
申请号:CN202411060030.1
申请日:2024-08-02
Applicant: 北京交通大学
IPC: G06V30/41 , G06V30/19 , G06V30/164 , G06V30/18 , G06V30/413 , G06V20/62 , G06F40/30 , G06F40/258 , G06F40/289 , G06V30/414
Abstract: 本发明涉及人工智能技术领域,且公开了一种基于人工智能的多模态文档解析系统,所述解析系统由图像预处理模块、多模态特征提取模块、自然语言处理模块、模态融合与解析模块和文档结构识别模块组成。本发明通过清晰化图像,去除噪声和模糊,使图像质量得到提升,使用掩模来分别提取文本、表格和图像区域,从而精准分离不同的文档内容,将视觉特征与提取的区域信息组合在一起,生成一个综合的特征向量,这样更全面地理解文档的内容,对从图像中提取的文本进行解析,进行语义分析和关键词提取,从而理解文本内容,从解析后的文本中提取出关键词,帮助识别文档的主要主题和关键点,达到了多模态解析文档使解析的结果更精准的有益效果。
-
公开(公告)号:CN117763135A
公开(公告)日:2024-03-26
申请号:CN202211122113.X
申请日:2022-09-15
Applicant: 腾讯科技(深圳)有限公司 , 北京交通大学
IPC: G06F16/34 , G06F16/54 , G06F16/957 , G06N3/0464 , G06N3/047 , G06N3/08 , G06V10/40 , G06V10/82
Abstract: 提供了摘要模型训练方法、摘要生成方法、计算设备和介质。摘要模型用于生成文本摘要,所述训练方法包括:获取训练数据集,所述训练数据集包括的每个训练数据包括文本样本、图片样本以及对应的摘要样本,对于每个训练数据,基于所述训练数据包括的文本样本和图片样本得到第一预测输出,并且基于所述训练数据包括的图片样本得到第二预测输出;以及基于每个训练数据对应的第一预测输出和第二预测输出,对所述摘要模型进行训练。经该训练方法训练后的摘要模型可以结合文本和图片比较精准地生成摘要。
-
公开(公告)号:CN117271759A
公开(公告)日:2023-12-22
申请号:CN202211024211.X
申请日:2022-08-24
Applicant: 腾讯科技(深圳)有限公司 , 北京交通大学
IPC: G06F16/34 , G06F40/126 , G06F40/194 , G06F18/25 , G06N3/0499 , G06N3/0455 , G06N3/084
Abstract: 本申请涉及一种文本摘要生成模型训练方法、文本摘要生成方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:将训练文本和对应的训练图像集合输入初始文本摘要生成模型,得到预测文本摘要,基于预测文本摘要和标签文本摘要之间的差异生成目标损失;将训练文本对应的掩码训练数据和第一训练数据输入初始文本摘要生成模型,得到掩码预测数据,基于掩码标签数据和掩码预测数据之间的差异生成重构损失;基于目标损失和重构损失调整初始文本摘要生成模型的模型参数,直至满足收敛条件,得到目标文本摘要生成模型;目标文本摘要生成模型用于生成文本的文本摘要。采用本方法能够提高模型的预测准确性,提高生成的文本摘要的质量。
-
-
-
-
-
-
-
-
-