-
公开(公告)号:CN110096567A
公开(公告)日:2019-08-06
申请号:CN201910192600.5
申请日:2019-03-14
Applicant: 中国科学院自动化研究所
IPC: G06F16/31 , G06F16/33 , G06F16/332
Abstract: 本发明属于自然语言处理领域,具体涉及一种基于QA知识库推理的多轮多话回复选择方法、系统,旨在解决人机多轮对话交互系统中回复选择的问题。本发明方法包括:以当前多轮对话提取的关键词、当前输入作为问题从QA知识库中检索出候选问题集合,并获取相应的上下文,构建候选多轮对话集合;计算当前输入与候选问题的语义相似度为第一相似度;计算当前输入的上下文与各候选问题上下文的语义相似度为第二相似度;计算当前多轮对话与各候选多轮对话的摘要信息的相似度为第三相似度;三个相似度加权求和得到各候选问题与当前输入的相似度,将相似度最大的候选问题对应的回复作为输出回复。本发明可以有效提高回复语句的质量,增强用户体验。
-
公开(公告)号:CN109508400A
公开(公告)日:2019-03-22
申请号:CN201811172666.X
申请日:2018-10-09
Applicant: 中国科学院自动化研究所
IPC: G06F16/583 , G06F16/36 , G06K9/62 , G06N3/04
Abstract: 本发明属于自然语言技术领域,具体提供了一种图文摘要生成方法,旨在解决现有技术图片和文本不对齐导致摘要信息不准确的问题。为此目的,本发明提供了一种图文摘要生成方法,包括获取多媒体信息中文本和图片对应的特征向量;根据文本和图片对应的特征向量获取多模态信息向量;基于预先构建的摘要生成模型并根据多模态信息向量获取多媒体信息的文本摘要;根据图片对应的特征向量获取图片对应的覆盖度向量;基于摘要生成模型并根据图片对应的覆盖度向量获取多媒体信息的图片摘要;将文本摘要和图片摘要结合作为多媒体信息的图文摘要。基于上述步骤,本发明提供的方法可以得到更准确表现多媒体信息内容的图文摘要。
-
公开(公告)号:CN109241993A
公开(公告)日:2019-01-18
申请号:CN201810832903.4
申请日:2018-07-26
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于情感分类技术领域,具体提供了一种融合用户和整体标签信息的评价对象情感分类方法及装置。旨在解决现有技术不考虑不同用户的差异性和忽略整体评价信息导致对评价对象情感极性评价不准确的问题。本发明提供了一种融合用户和整体评价信息的评价对象情感分类方法,包括基于预先获取的评论信息以及相应的用户信息和整体评价信息得到评论向量;基于预先构建的评价对象情感分类模型并根据预设的评价对象,对评论向量进行情感预测,得到每个评价对象对应的情感极性。本发明的方法全面考虑了用户信息和整体评价信息对评价对象情感分类的影响,相对于其他方法提升了预测的准确率。本发明的装置同样具有上述有益效果。
-
公开(公告)号:CN118552965A
公开(公告)日:2024-08-27
申请号:CN202410624083.5
申请日:2024-05-20
Applicant: 中国科学院自动化研究所
IPC: G06V30/19 , G06V30/18 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/084
Abstract: 本发明提供一种文本图像翻译模型训练方法、装置、电子设备和存储介质,其中方法包括:获取预训练模型和训练数据,分别对训练数据中的文本图像和源端语言文本字符串进行特征编码,得到文本图像特征和文本特征;分别对文本图像特征和文本特征进行特征解码,得到文本图像翻译结果和文本翻译结果;基于文本图像翻译结果和训练数据中的目标端语言文本字符串,确定文本图像翻译损失;基于文本图像特征、文本特征、文本图像翻译结果和文本翻译结果,确定多层次知识迁移损失;将文本图像翻译损失和多层次知识迁移损失进行融合,得到训练损失,并基于训练损失对预训练模型进行参数更新,得到文本图像翻译模型。本发明能够提升文本图像翻译模型的性能。
-
公开(公告)号:CN117034965B
公开(公告)日:2024-03-22
申请号:CN202310996132.3
申请日:2023-08-08
Applicant: 中国科学院自动化研究所
IPC: G06F40/58 , G06F40/289 , G06V30/41 , G06N3/045
Abstract: 本发明提供一种基于视觉语言预训练的图像文本翻译方法及装置,方法包括:确定源语言图像;将源语言图像输入至图像文本翻译模型,得到图像文本翻译模型输出的源语言图像对应的目标语言文本;其中,图像文本翻译模型的损失值基于样本预测源语言文本与样本源语言图像对应的样本源语言标签之间的差异,以及样本预测目标语言文本与样本目标语言标签之间的差异确定。本发明的图像文本翻译模型基于样本图像特征向量以及样本预测源语言文本对样本源语言图像进行图像文本翻译时,样本图像特征向量能够补充提供相应的视觉信息,对文本识别错误进行校正,以增强图像文本翻译,准确得到样本预测目标语言文本,进而提高图像文本翻译模型的图像文本翻译精度。
-
公开(公告)号:CN117540753A
公开(公告)日:2024-02-09
申请号:CN202311260795.5
申请日:2023-09-27
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种同声传译模型训练方法、装置、电子设备及存储介质,应用于自然语言处理技术领域。该方法包括:获取第一样本,所述第一样本包括第一待译文本;将所述第一待译文本中的固定短语替换为目标语言序列,得到第二样本;将所述第二样本输入同声传译模型进行模型训练;其中,所述目标语言序列包括与所述固定短语对应的译文。
-
公开(公告)号:CN117521678A
公开(公告)日:2024-02-06
申请号:CN202311225136.8
申请日:2023-09-21
Applicant: 中国科学院自动化研究所
IPC: G06F40/58 , G06F40/42 , G06N3/0455 , G06N3/096
Abstract: 本发明提供一种同声传译模型训练方法、装置、电子设备及存储介质,应用于自然语言处理技术领域。该方法包括:获取训练样本,所述训练样本包括待翻译文本;将所述待翻译文本输入离线翻译模型和同步翻译模型,得到中间变量层损失函数和输出变量层损失函数;根据所述中间变量层损失函数和输出变量层损失函数确定同声传译模型的目标损失函数;其中,所述同声传译模型包括所述离线翻译模型和所述同步翻译模型。
-
公开(公告)号:CN116805004A
公开(公告)日:2023-09-26
申请号:CN202311058414.5
申请日:2023-08-22
Applicant: 中国科学院自动化研究所
IPC: G06F16/332 , G06N3/042 , G06N3/045 , G06N3/096 , G06F40/40
Abstract: 本发明涉及自然语言处理技术领域,提供一种零资源跨语言对话模型训练方法、装置、设备和介质,所述方法包括:基于初始样本源语言对话数据,构建扩充样本源语言对话数据、第一跨语言对话数据、第二跨语言对话数据、双语平行数据以及样本目标语言对话数据;基于扩充样本源语言对话数据、第一跨语言对话数据以及第二跨语言对话数据中的至少一种,和双语平行数据,训练得到教师模型;将样本目标语言对话数据的对话输入数据输入至教师模型,得到蒸馏对话回复数据;基于样本目标语言对话数据的对话输入数据以及蒸馏对话回复数据进行蒸馏训练,得到零资源跨语言对话模型。本发明快速且低成本为零资源目标语言构建零资源跨语言对话模型。
-
公开(公告)号:CN112800785B
公开(公告)日:2021-07-27
申请号:CN202110392717.5
申请日:2021-04-13
Applicant: 中国科学院自动化研究所
IPC: G06F40/58 , G06F40/295 , G06F40/126 , G06K9/00
Abstract: 本发明提供一种多模态机器翻译方法、装置、电子设备和存储介质,所述方法包括:确定待翻译的源语言文本;将源语言文本输入至翻译模型中,得到翻译模型输出的目标语言文本;翻译模型是基于样本源语言文本和样本目标语言文本,以及与样本源语言文本匹配的样本图像,联合重建模型训练得到的;翻译模型与重建模型共用特征编码层,模型训练过程中特征编码层用于编码第一序列和第二序列,翻译模型基于第一序列的编码进行翻译,重建模型基于第二序列的编码进行重建,第一序列基于样本源语言文本确定,第二序列基于样本源语言文本中的各实体在样本图像中的区域图像和样本源语言文本的非实体确定,提高了质量提升的可解释性并且降低了翻译的复杂度。
-
公开(公告)号:CN112131861B
公开(公告)日:2021-03-16
申请号:CN202011341577.0
申请日:2020-11-25
Applicant: 中国科学院自动化研究所
IPC: G06F40/205 , G06F40/284 , G06F40/242 , G06N3/04 , G06N3/08 , G06F16/332
Abstract: 本发明属于任务型对话技术领域,具体涉及了一种基于层次化多头交互注意力的对话状态生成方法,旨在解决现有技术精度和准确度低以及成本高、效率低的问题。本发明包括:基于文本词典进行对话文本预处理;通过编码器进行各句子的独立编码,获得对话文本的上下文表示;对解码器输入应用自我注意力机制,获得当前时刻的解码器输入向量;应用多头交互式注意力机制,融合字级别和句子级别的上下文表示,获得对话文本当前时刻的上下文向量表示;结合当前时刻的解码器输入向量,通过非线性映射获得实体和状态作为对话文本的对话状态。本发明可以在无字级别标注信息的情况下取得非常好的效果,不仅节约了数据标注的成本,也提高了模型的精确性与精度。
-
-
-
-
-
-
-
-
-