-
公开(公告)号:CN116992112A
公开(公告)日:2023-11-03
申请号:CN202310804597.4
申请日:2023-06-30
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F16/953 , G06F16/958
Abstract: 本公开提供了一种数据生成方法、装置、电子设备、计算机可读存储介质和计算机程序产品,涉及人工智能领域,尤其涉及深度学习、自然语言处理技术领域。实现方案为:获取与第一文档类型相对应的多个网页内容,第一文档类型与目标生成任务相对应;获取多个网页内容中每个网页内容的得分,以用于评价相应的网页内容的内容质量、时效性、权威性中的至少一者;基于得分对多个网页内容进行过滤,以获得得分超过预设阈值的至少一个网页内容;对于至少一个网页内容中的每一个:确定该网页内容对应的第二文档类型,第二文档类型为第一文档类型的子类型;以及基于第二文档类型,生成与该网页内容相对应的问题指令,该网页内容作为问题指令所对应的回答信息。
-
公开(公告)号:CN110276082B
公开(公告)日:2023-06-30
申请号:CN201910490402.7
申请日:2019-06-06
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F40/58 , G06F3/0485
Abstract: 本发明提出了一种基于动态窗口的翻译处理方法和装置,其中,方法包括:按照预设的窗口滑动参数控制目标窗口在输入的源端词语中滑动;将翻译后的目标词与目标窗口当前范围内的目标词进行相似度计算;根据相似度计算结果进行语音合成输出目标译文。由此,降低了同声传译的翻译延时,提高了翻译效率。
-
公开(公告)号:CN111310481A
公开(公告)日:2020-06-19
申请号:CN202010062844.4
申请日:2020-01-19
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请公开了一种语音翻译方法、装置、计算机设备和存储介质,涉及计算机技术领域的语音技术领域。具体实现方案为:通过获取源语音的第i字符串,其中,i为正整数;将第i字符串输入经过训练的切分模型,判断第i字符串是否为无歧义语义单元;确定第i字符串为无歧义语义单元,则对第i字符串进行翻译以生成第i目标字符串;以及确定第i字符串不为无歧义语义单元,则不对第i字符串进行翻译,直至第i字符串至第i+n字符串的之和为无歧义语义单元时,对第i字符串至第i+n字符串的之和进行翻译,其中,n为正整数。由此,避免了源语音中存在多种释义的字符串翻译错误,从而影响整句翻译的准确度的问题,有利于提高语音翻译的准确度。
-
公开(公告)号:CN110059313B
公开(公告)日:2021-02-12
申请号:CN201910266420.7
申请日:2019-04-03
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请提出一种翻译处理方法和装置,其中,方法包括:通过根据第二用户使用的目标语言对第一用户的原始语言文档进行翻译生成目标文档,并将目标文档显示给第二用户;在第一用户对原始语言文档进行讲解的过程中,获取已讲解文档片段的语音信息,并对语音信息进行语义解析,获取已讲解文档片段的语义信息;根据已讲解文档片段的语义信息确定是否对目标文档中未讲解文档片段的翻译内容进行调整。由此,通过实时对已讲解文档片段的语音信息进行解析,获取已讲解文档片段的语义信息来更新未讲解文档片段的翻译内容,提升用户使用体验。
-
公开(公告)号:CN111027331A
公开(公告)日:2020-04-17
申请号:CN201911256622.X
申请日:2019-12-05
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F40/51
Abstract: 本公开的实施例公开了用于评估翻译质量的方法和装置。该方法的一具体实施方式包括:获取待评估译文和参考译文;将待评估译文和参考译文输入预先训练的复述编码模型,得到待评估译文和参考译文的语义相似度,其中,复述编码模型是用于计算一对句子是复述句的概率的神经网络;通过句法分析器将待评估译文和参考译文分别分析成两棵句法树;计算两棵句法树的相似度作为待评估译文和参考译文的文本相似度;将语义相似度和文本相似度的加权和作为翻译质量得分。该实施方式通过组合几个指标的得分,能够反映当前译文在语义、句法、词法和整体信息可懂度方面进行综合评估,避免自动评价得分高,但是可懂度较低的情况。
-
公开(公告)号:CN110059313A
公开(公告)日:2019-07-26
申请号:CN201910266420.7
申请日:2019-04-03
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请提出一种翻译处理方法和装置,其中,方法包括:通过根据第二用户使用的目标语言对第一用户的原始语言文档进行翻译生成目标文档,并将目标文档显示给第二用户;在第一用户对原始语言文档进行讲解的过程中,获取已讲解文档片段的语音信息,并对语音信息进行语义解析,获取已讲解文档片段的语义信息;根据已讲解文档片段的语义信息确定是否对目标文档中未讲解文档片段的翻译内容进行调整。由此,通过实时对已讲解文档片段的语音信息进行解析,获取已讲解文档片段的语义信息来更新未讲解文档片段的翻译内容,提升用户使用体验。
-
公开(公告)号:CN116912616B
公开(公告)日:2024-11-01
申请号:CN202310673660.5
申请日:2023-06-07
Applicant: 中国科学院自动化研究所 , 百度在线网络技术(北京)有限公司
IPC: G06V10/774 , G06V10/764 , G06V10/80 , G06V10/82 , G06N3/0455 , G06F40/126
Abstract: 本发明提供一种图文预训练模型的训练方法、训练装置及电子设备,涉及深度学习技术领域,该方法包括:构建初始图文预训练模型,初始图文预训练模型包含生成器模块和判别器模块,生成器模块和判别器模块均包含图像编码器、文本编码器和跨模态融合编码器,跨模态融合编码器用于融合图像编码器和文本编码器输出的特征;针对每种预训练任务,基于生成器模块的生成结果对判别器模块进行训练,并基于训练后的判别器模块,得到目标图文预训练模型。使得最终得到的目标图文预训练模型能够与下游任务完全匹配,从而能够在各种图文下游任务中取得更好的效果。
-
公开(公告)号:CN111027331B
公开(公告)日:2022-04-05
申请号:CN201911256622.X
申请日:2019-12-05
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F40/51
Abstract: 本公开的实施例公开了用于评估翻译质量的方法和装置。该方法的一具体实施方式包括:获取待评估译文和参考译文;将待评估译文和参考译文输入预先训练的复述编码模型,得到待评估译文和参考译文的语义相似度,其中,复述编码模型是用于计算一对句子是复述句的概率的神经网络;通过句法分析器将待评估译文和参考译文分别分析成两棵句法树;计算两棵句法树的相似度作为待评估译文和参考译文的文本相似度;将语义相似度和文本相似度的加权和作为翻译质量得分。该实施方式通过组合几个指标的得分,能够反映当前译文在语义、句法、词法和整体信息可懂度方面进行综合评估,避免自动评价得分高,但是可懂度较低的情况。
-
公开(公告)号:CN111310481B
公开(公告)日:2021-05-18
申请号:CN202010062844.4
申请日:2020-01-19
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请公开了一种语音翻译方法、装置、计算机设备和存储介质,涉及计算机技术领域的语音技术领域。具体实现方案为:通过获取源语音的第i字符串,其中,i为正整数;将第i字符串输入经过训练的切分模型,判断第i字符串是否为无歧义语义单元;确定第i字符串为无歧义语义单元,则对第i字符串进行翻译以生成第i目标字符串;以及确定第i字符串不为无歧义语义单元,则不对第i字符串进行翻译,直至第i字符串至第i+n字符串的之和为无歧义语义单元时,对第i字符串至第i+n字符串的之和进行翻译,其中,n为正整数。由此,避免了源语音中存在多种释义的字符串翻译错误,从而影响整句翻译的准确度的问题,有利于提高语音翻译的准确度。
-
公开(公告)号:CN116912616A
公开(公告)日:2023-10-20
申请号:CN202310673660.5
申请日:2023-06-07
Applicant: 中国科学院自动化研究所 , 百度在线网络技术(北京)有限公司
IPC: G06V10/774 , G06V10/764 , G06V10/80 , G06V10/82 , G06N3/0455 , G06F40/126
Abstract: 本发明提供一种图文预训练模型的训练方法、训练装置及电子设备,涉及深度学习技术领域,该方法包括:构建初始图文预训练模型,初始图文预训练模型包含生成器模块和判别器模块,生成器模块和判别器模块均包含图像编码器、文本编码器和跨模态融合编码器,跨模态融合编码器用于融合图像编码器和文本编码器输出的特征;针对每种预训练任务,基于生成器模块的生成结果对判别器模块进行训练,并基于训练后的判别器模块,得到目标图文预训练模型。使得最终得到的目标图文预训练模型能够与下游任务完全匹配,从而能够在各种图文下游任务中取得更好的效果。
-
-
-
-
-
-
-
-
-