-
公开(公告)号:CN116720008A
公开(公告)日:2023-09-08
申请号:CN202311010113.5
申请日:2023-08-11
Applicant: 之江实验室
IPC: G06F16/9535 , G06F18/22 , G06F18/214 , G06F40/289 , G06F16/33
Abstract: 本说明书公开了一种机器阅读方法、装置、存储介质及电子设备。在采用本说明书提供的机器阅读方法,确定目标问题的目标答案时,可通过搜索引擎获取目标问题的候选文本,并以匹配度计算的方式确定出与目标问题匹配的匹配文本;通过预先训练的阅读模型以及生成式模型,根据目标问题与匹配文本,分别得到第一候选答案和第二候选答案;最终根据目标问题与各候选答案之间的相似度确定出最终的候选答案并回复给用户。在采用本方法时可无需预先设置具有庞大数据量的问答模板以及知识库等内容,实施成本较低,且能够适用于多种不同的场景,灵活性较强。
-
公开(公告)号:CN116127953B
公开(公告)日:2023-07-25
申请号:CN202310410135.4
申请日:2023-04-18
Applicant: 之江实验室
IPC: G06F40/232 , G06N3/0455 , G06N3/0895
Abstract: 本发明公开了一种基于对比学习的中文拼写纠错方法、装置和介质,该方法首先收集原始纠错数据并进行预处理;然后根据预处理后的纠错数据构建中文拼写纠错模型的数据集;再构建包括embedding模块、编码器、错误检测网络和错误纠正网络的中文拼写纠错模型,将待纠错文本输入中文拼写纠错模型输出字符编码向量序列、字符错误概率序列和正确字符概率分布;其次基于对比学习使用数据集对中文拼写纠错模型进行训练,根据损失函数值更新参数,并保存训练好的中文拼写纠错模型;最后将待纠错文本输入训练好的中文拼写纠错模型进行纠错,以获取纠错后的文本。本发明可以有效地提升中文拼写纠错模型的鲁棒性和纠错准确率,具有很强的实用性。
-
公开(公告)号:CN115858811A
公开(公告)日:2023-03-28
申请号:CN202211609449.9
申请日:2022-12-14
Applicant: 之江实验室
IPC: G06F16/36 , G06F18/22 , G06F18/214 , G06F40/295 , G06F40/30 , G06F16/35 , G06F18/25 , G06F16/31 , G06N3/0455 , G06N3/0464
Abstract: 本发明公开了一种基于知识图谱的中文易混词生成方法。该方法包括中文词知识图谱的本体设计、中文文本数据的预处理过程、中文词对在语义/字音/字形等方面的相似性计算过程、知识图谱实例化过程、用户输入文本的预处理过程、与用户输入文本相对应的知识图谱子图抽取过程以及以多源异构数据为输入的中文易混词生成过程等。本发明可从发音、字形、语义等多方面刻画中文词对的相似性,并能结合文本的领域和主题信息,实现跨领域中文易混淆词的准确生成。
-
公开(公告)号:CN115292469A
公开(公告)日:2022-11-04
申请号:CN202211186444.X
申请日:2022-09-28
Applicant: 之江实验室
IPC: G06F16/332 , G06F16/33 , G06F16/31 , G06F40/247 , G06F40/284 , G06F40/289
Abstract: 本发明属于自然语言处理领域,涉及一种结合段落搜索和机器阅读理解的问答方法,包括:步骤一,收集作为答案来源的文章,对文章进行文本段落切分,对切分后的文本段落做分词操作后再进行词扩展,得到新的文本段落,再对新的文本段落进行倒排索引的构建;步骤二,收集阅读理解模型的训练数据,训练阅读理解模型;步骤三,采用训练好的阅读理解模型接受用户输入的问句,将问句转换为倒排索引检索语句,并检索出候选段落,在每一个候选段落中找出若干小段文本作为候选答案,再通过判断所有候选答案和输入问句的相关性,选择最优答案。本发明可有效的提升在限定域中问句的回复率,同时提升回答所需数据集构建的效率,具有较好的实用性。
-
-
公开(公告)号:CN116227466B
公开(公告)日:2023-08-18
申请号:CN202310501928.7
申请日:2023-05-06
Applicant: 之江实验室
IPC: G06F40/211 , G06F40/30 , G06F40/284 , G06F40/295 , G06F18/22
Abstract: 本发明公开了一种语义不同措辞相似的句子生成方法、装置及设备,包括生成、筛选与输入句子语义不同措辞相似的句子;生成句子包括关键词替换和模型生成,关键词替换是选择原句中的关键词进行替换生成结果,模型生成是利用生成模型生成结果;再通过通顺判断、语义不同判断、措辞相似判断和质量评分对过滤得到的句子进行筛选。本发明提出了一种新的自然语言处理任务,可以计算句子间措辞相似度、计算句子间结构差异和筛选优质的生成结果;丰富了自然语言处理研究的任务,有利于问答系统的测试、高质量负例数据的生成和增强模型对语言的理解。
-
公开(公告)号:CN116227466A
公开(公告)日:2023-06-06
申请号:CN202310501928.7
申请日:2023-05-06
Applicant: 之江实验室
IPC: G06F40/211 , G06F40/30 , G06F40/284 , G06F40/295 , G06F18/22
Abstract: 本发明公开了一种语义不同措辞相似的句子生成方法、装置及设备,包括生成、筛选与输入句子语义不同措辞相似的句子;生成句子包括关键词替换和模型生成,关键词替换是选择原句中的关键词进行替换生成结果,模型生成是利用生成模型生成结果;再通过通顺判断、语义不同判断、措辞相似判断和质量评分对过滤得到的句子进行筛选。本发明提出了一种新的自然语言处理任务,可以计算句子间措辞相似度、计算句子间结构差异和筛选优质的生成结果;丰富了自然语言处理研究的任务,有利于问答系统的测试、高质量负例数据的生成和增强模型对语言的理解。
-
公开(公告)号:CN116795972B
公开(公告)日:2024-01-09
申请号:CN202311010097.X
申请日:2023-08-11
Applicant: 之江实验室
IPC: G06F16/332 , G06F40/211 , G06F40/289 , G06F18/214 , G06F40/30 , G06F18/25 , G06N3/0499 , G06N3/084
Abstract: 本说明书公开了一种模型训练的方法、装置、存储介质及电子设备,将若干个独立表达句输入该模型的生成器,以得到融合句,并将该融合句加入训练数据集,将该训练数据集中的待判别句输入该模型的来源判别器,以确定待判别句是否为原始句的判别结果,根据该判别结果分别确定该来源判别器的来源判别损失及生成器的来源生成损失,根据该来源生成损失及该来源判别损失,对该模型进行训练,其中,该模型的生成器用于将回复用户的若干独立表达句进行融合。本方法通过对模型中的生成器和来源判别器进行对抗训练,以使生成器生成接近原始句的融合句,获得语序正常、内容衔接自然不生硬的句子,(56)对比文件Jiaxian Guo.Long Text Generation viaAdversarial Training with LeakedInformation.arXiv.2017,第1-14页.
-
公开(公告)号:CN115879421B
公开(公告)日:2024-01-09
申请号:CN202310120728.7
申请日:2023-02-16
Applicant: 之江实验室
IPC: G06F40/166 , G06F40/284 , G06F40/117 , G06N3/0499 , G06N3/08
Abstract: 本发明公开了一种增强BART预训练任务的句子排序方法及装置,包括如下步骤:步骤1、从文本资源中提取有序的句子作为原始训练数据;步骤2、对原始训练数据进行预处理;步骤3、用预处理后的训练数据训练BART模型;步骤4、将待排序的句子输入到训练完成的模型中进行预测排序。设计词性标注预训练任务、句子掩盖预训练任务、句子删除预训练任务、句子填充预训练任务和句子旋转预训练任务进一步增强BART模型对句子语义和句间关系的特征提取能力。设计的预训练任务是一种多任务学习的训练方法,也是一种位置可控的句子排序方法,将排序控制信息通过句子标签序列的形式加到输入字符串中,模
-
公开(公告)号:CN116561339A
公开(公告)日:2023-08-08
申请号:CN202310522687.4
申请日:2023-05-10
Applicant: 之江实验室
IPC: G06F16/36 , G06F16/332 , G06F40/295 , G06N3/042 , G06N3/045 , G06N3/0464 , G06N3/08
Abstract: 本申请涉及一种知识图谱实体链接方法、装置、计算机设备及存储介质,该方法包括:基于问题样本、实体提及样本、知识图谱实体正样本和知识图谱实体邻接子图样本,获取训练数据正样本;基于问题样本、实体提及样本、知识图谱实体负样本和对应的知识图谱实体邻接子图样本,获取训练数据负样本;基于训练数据正样本、训练数据负样本对实体链接初始模型进行训练,得到实体链接模型;将用户问题、实体提及、候选知识图谱实体和对应的知识图谱实体邻接子图输入训练完成的实体链接模型,确定与实体提及链接的目标知识图谱实体,解决了相关技术中存在的问答场景中实体一致性模型效果不佳,实体链接准确性较低的问题。
-
-
-
-
-
-
-
-
-