-
公开(公告)号:CN115358233A
公开(公告)日:2022-11-18
申请号:CN202210798992.1
申请日:2022-07-06
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F40/295 , G06N20/00
Abstract: 本发明提供一种语言命名实体识别方法、语言识别装置、电子设备及介质,该方法包括:获取目标语言对应的待标注数据集;根据所述待标注数据集,基于语言预测模型,得到目标预测数据;根据预设的已标注数据集及所述目标预测数据,得到目标数据集;根据所述目标数据集,基于语言识别模型,得到所述目标语言对应的实体识别结果。该方法用以解决现有技术中由于一些目标语言及这些目标语言对应的样本数据集具有一定的局限性,易导致电子设备无法对上述这些目标语言进行准确识别的缺陷,实现电子设备可对这些目标语言进行准确识别,得到准确性较高的实体识别结果。
-
公开(公告)号:CN115345181A
公开(公告)日:2022-11-15
申请号:CN202210786892.7
申请日:2022-07-04
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F40/58 , G06F16/36 , G06F40/211 , G06F40/295 , G06N3/04 , G06N3/08
Abstract: 本发明提供一种神经机器翻译模型的训练方法、翻译方法及装置,所述训练方法包括:构建神经机器翻译模型;将双语平行句对中的源语言句子和目标语言句子,以及知识图谱中每个三元组中的头实体和尾实体进行细粒度切分,得到标准源语言句子序列、标准目标语言句子序列以及知识图谱中每个三元组中的标准头实体‑关系序列和标准尾实体序列;将其输入编解码模块中预测得到目标语言句子序列以及尾实体序列;基于标准目标语言句子序列和预测的目标语言句子序列之间的交叉熵,以及知识图谱中每个三元组中的标准尾实体序列与预测的尾实体序列之间的交叉熵,共同训练该模型。本发明能够有效融合细粒度知识推断,提升神经机器翻译对于实体的翻译质量。
-
公开(公告)号:CN117973337B
公开(公告)日:2024-10-11
申请号:CN202410102694.3
申请日:2024-01-24
Applicant: 中国科学院自动化研究所
IPC: G06F40/18 , G06V30/413 , G06V30/414
Abstract: 本发明提供一种表格重建方法、装置、电子设备及存储介质,应用于图像处理技术领域。该方法包括:获取表格图像;提取所述表格图像的图像特征,并根据所述图像特征确定所述表格图像的单元格类别、单元格坐标以及单元格像素掩码;根据所述单元格坐标和所述单元格像素掩码进行网格线重建得到第一表格,根据所述单元格类别对所述第一表格进行单元格合并得到第二表格;其中,所述单元格类别包括空白单元格、基础单元格以及合并单元格。
-
公开(公告)号:CN117332273A
公开(公告)日:2024-01-02
申请号:CN202311324549.1
申请日:2023-10-13
Applicant: 中国科学院自动化研究所
IPC: G06F18/214 , G06F18/23213 , G06F18/25 , G06N3/0464 , G06N3/0455 , G06N3/0442 , G06N3/084 , G06F40/30 , G06F40/58 , G10L15/26 , G06N3/048
Abstract: 本发明提供一种语音翻译模型训练方法、装置、电子设备及存储介质,应用于自然语言处理技术领域。该方法包括:获取源语言语音数据;确定所述源语言语音数据的语义表征信息和声学表征信息,并将所述语义表征信息和所述声学表征信息进行融合处理,得到语音表征序列;基于所述语音表征序列对语音翻译模型进行训练;其中,所述语义表征信息用于指示所述源语言语音数据的语义特征,所述声学表征信息用于指示所述源语言语音数据的声学特征。
-
公开(公告)号:CN117149987A
公开(公告)日:2023-12-01
申请号:CN202311426764.2
申请日:2023-10-31
Applicant: 中国科学院自动化研究所
IPC: G06F16/332 , G06F18/22 , G06F18/214 , G06F40/35 , G06F40/211 , G06F40/242
Abstract: 本发明属于自然语言处理技术领域,提供了一种多语言对话状态追踪模型的训练方法及装置,该多语言对话状态追踪模型的训练方法包括:获取源语言数据;基于多语词典对多个对话上下文信息进行语码转换,得到语码转换对话上下文信息;以语码转换对话上下文信息为训练样本,以第一函数为训练损失函数,对多语言训练模型进行多任务联合训练,得到多语言对话状态追踪模型。本发明所述方法通过设计多种微调任务,能够构建有效的多语言生成式对话状态追踪模型,使得模型具备对不同语言对话上下文的理解能力,提高了多语言对话状态追踪性能。
-
公开(公告)号:CN112800782B
公开(公告)日:2023-10-03
申请号:CN202110127939.4
申请日:2021-01-29
Applicant: 中国科学院自动化研究所
IPC: G06F40/58 , G06F40/30 , G06F40/126 , G06N3/0499 , G06N3/084
Abstract: 本发明属于机器翻译领域,具体涉及一种融合文本语义特征的语音翻译方法、系统、设备,旨在解决现有语音翻译方法难以融合不同模态之间的信息,无法充分利用语音识别和机器翻译领域的数据,导致翻译性能较差的问题。本发明方法包括获取待翻译的源语言语音数据;提取源语言语音数据对应的语音特征序列;并获取各语音特征对应的声学表征;将声学表征的隐向量映射到源语言词表,并通过softmax函数得到语音特征序列每个时刻被识别为源语言词表中的词语的概率;对声学表征进行过滤处理,并通过第二编码器得到过滤后的声学特征对应的语义表征;基于语义表征,通过解码器得到源语言语音数据对应的目标语言翻译文本。本发明提高了语音翻译的性能。
-
公开(公告)号:CN113011202B
公开(公告)日:2023-07-25
申请号:CN202110306816.7
申请日:2021-03-23
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于自然语言处理技术领域,具体涉及一种基于多任务训练的端到端图像文本翻译方法,旨在解决现有的图像文本翻译模型因缺乏训练数据、模型结构设计,导致翻译性能较差的问题。本发明方法包括:获取待翻译的数据,作为输入数据;对输入数据进行预处理,预处理后,输入预构建的图像文本翻译模型,得到所述输入数据对应的翻译结果;图像文本翻译模型包括特征提取器、编码器‑解码器。本发明提高了图像文本翻译性能。
-
公开(公告)号:CN114118104A
公开(公告)日:2022-03-01
申请号:CN202111199951.2
申请日:2021-10-14
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种基于知识图谱的神经机器翻译方法、装置、设备及介质,该方法包括:获取原始双语平行语句对,根据原始双语平行语句对提取单词和短语翻译对,得到对应的种子实体翻译对;获取源语言知识图谱和目标语言知识图谱,根据种子实体翻译对、源语言知识图谱和目标语言知识图谱,构建对应的向量空间;获取到待翻译实体集合时,根据向量空间对待翻译实体集合进行推断,得到对应的待翻译实体翻译对;计算种子实体翻译对和待翻译实体翻译对的距离,根据距离得到包含待翻译实体翻译对的伪双语平行句对。本发明通过将知识图谱融合到神经机器翻译中,利用知识图谱中丰富的实体知识提升了神经机器翻译的实体翻译准确率。
-
公开(公告)号:CN112800782A
公开(公告)日:2021-05-14
申请号:CN202110127939.4
申请日:2021-01-29
Applicant: 中国科学院自动化研究所
IPC: G06F40/58 , G06F40/30 , G06F40/126 , G06N3/08
Abstract: 本发明属于机器翻译领域,具体涉及一种融合文本语义特征的语音翻译方法、系统、设备,旨在解决现有语音翻译方法难以融合不同模态之间的信息,无法充分利用语音识别和机器翻译领域的数据,导致翻译性能较差的问题。本发明方法包括获取待翻译的源语言语音数据;提取源语言语音数据对应的语音特征序列;并获取各语音特征对应的声学表征;将声学表征的隐向量映射到源语言词表,并通过softmax函数得到语音特征序列每个时刻被识别为源语言词表中的词语的概率;对声学表征进行过滤处理,并通过第二编码器得到过滤后的声学特征对应的语义表征;基于语义表征,通过解码器得到源语言语音数据对应的目标语言翻译文本。本发明提高了语音翻译的性能。
-
公开(公告)号:CN110096567B
公开(公告)日:2020-12-25
申请号:CN201910192600.5
申请日:2019-03-14
Applicant: 中国科学院自动化研究所
IPC: G06F16/31 , G06F16/33 , G06F16/332
Abstract: 本发明属于自然语言处理领域,具体涉及一种基于QA知识库推理的多轮多话回复选择方法、系统,旨在解决人机多轮对话交互系统中回复选择的问题。本发明方法包括:以当前多轮对话提取的关键词、当前输入作为问题从QA知识库中检索出候选问题集合,并获取相应的上下文,构建候选多轮对话集合;计算当前输入与候选问题的语义相似度为第一相似度;计算当前输入的上下文与各候选问题上下文的语义相似度为第二相似度;计算当前多轮对话与各候选多轮对话的摘要信息的相似度为第三相似度;三个相似度加权求和得到各候选问题与当前输入的相似度,将相似度最大的候选问题对应的回复作为输出回复。本发明可以有效提高回复语句的质量,增强用户体验。
-
-
-
-
-
-
-
-
-