-
公开(公告)号:CN117291175B
公开(公告)日:2024-03-29
申请号:CN202311584926.5
申请日:2023-11-27
Applicant: 中国科学技术大学
IPC: G06F40/216 , G06F40/284 , G06N3/045 , G06F18/2415 , G06F18/2431 , G06F18/25
Abstract: 本发明涉及自然语言理解技术领域,公开了一种基于多个大语言模型统计特征融合的生成文本检测方法,通过由统计特征融合模型和分类模型组成的检测模型,检测生成的文本的类别标签;检测模型的构建方法包括:构建基于多个大语言模型的统计特征融合模型;构建分类模型;通过计算预测类别标签和真实标签的交叉熵损失函数来训练检测模型。本发明基于多个大语言模型的统计特征融合模型有效缓解了在多种类型语言模型生成不同的文本的情况下,模型拟合能力差和缺乏鲁棒性的问题。多统计特征融合降低了检测模型的不准确性和脆弱性。
-
公开(公告)号:CN117313709A
公开(公告)日:2023-12-29
申请号:CN202311614320.1
申请日:2023-11-29
Applicant: 中国科学技术大学
IPC: G06F40/216 , G06N3/045 , G06N3/0455 , G06N3/096 , G06F18/213 , G06F18/2415 , G06F18/2431 , G06F18/25 , G06F18/27
Abstract: 本发明涉及生成文本检测技术领域,公开了一种基于统计信息和预训练语言模型的生成文本检测方法,通过由统计学习模型、深度学习模型和动态融合框架组成的检测模型,检测生成的文本的类别标签;检测模型的构建方法包括:构建统计学习模型;构建深度学习模型;构建动态融合框架;基于训练数据集,通过计算关于动态融合得到的类别标签概率分布和真实的类别标签的交叉熵损失函数来训练检测模型。统计学习模型有效缓解了在多领域标注数据有限的情况下模型迁移性差的问题,深度学习模型摆脱了手工设计特征的问题,可以提取更加隐式的特征,动态融合框架在损失较少检测效果的前提下提高了模型的迁移能力。
-
公开(公告)号:CN116227428A
公开(公告)日:2023-06-06
申请号:CN202310510077.2
申请日:2023-05-08
Applicant: 中国科学技术大学
IPC: G06F40/10 , G06N3/0455 , G06N3/09
Abstract: 本发明涉及自然语言生成领域。本发明提供了一种基于迁移模式感知的文本风格迁移方法,对输入的文本,输出对应的迁移模式分类,基于迁移模式分类和句子表示集合,定义类内对比学习损失,基于风格和句子表示集合定义类间对比学习损,并基于类内对比学习损失、类间对比学习损失、文本风格迁移模型的损失一起计算总体损失来训练文本风格迁移模型。使用训练后的文本风格迁移模型对目标文本进行文本风格迁移。本发明增加了句子表示的准确性和区分度,进而提高文本风格迁移任务的性能。本发明将迁移模式分类提取模型与文本风格迁移模型结合使用,提高了文本风格迁移模型的性能。
-
公开(公告)号:CN114444488B
公开(公告)日:2023-03-24
申请号:CN202210093014.7
申请日:2022-01-26
Applicant: 中国科学技术大学
IPC: G06F40/279 , G06F40/30 , G06N20/00
Abstract: 本发明公开了一种少样本机器阅读理解方法、系统、设备及存储介质,提示模板的构建使得训练任务和预训练任务贴近,更好地挖掘了预训练语言模型的知识,减少了训练量,少样本场景下防止了过拟合,提示模板为训练任务提供了指导,在不同数据集上的迁移性更佳;本发明提供的方案更贴合真实场景中的少样本情况,能够更有效地利用现有的预训练语言模型,发掘其潜力,应用前景非常广阔。
-
公开(公告)号:CN114386371B
公开(公告)日:2022-09-23
申请号:CN202210298135.5
申请日:2022-03-25
Applicant: 中国科学技术大学
IPC: G06F40/126 , G06F40/232 , G06F16/35
Abstract: 本发明公开了一种中文拼写纠错方法、系统、设备及存储介质,对输入的文本进行错误字符的预测后并映射至中文拼音上,将错误文本替换为拼音这个语音辅助信息来帮助生成,在中国人学习汉字的过程中是用拼音代替难字或易错字,因此不仅解决了错误文本对语言建模的影响,而且纠错文本生成过程有了拼音的辅助特征更容易生成正确文本,相较于技术而言,本发明极大的提升了拼写纠错性能。
-
公开(公告)号:CN114386371A
公开(公告)日:2022-04-22
申请号:CN202210298135.5
申请日:2022-03-25
Applicant: 中国科学技术大学
IPC: G06F40/126 , G06F40/232 , G06F16/35
Abstract: 本发明公开了一种中文拼写纠错方法、系统、设备及存储介质,对输入的文本进行错误字符的预测后并映射至中文拼音上,将错误文本替换为拼音这个语音辅助信息来帮助生成,在中国人学习汉字的过程中是用拼音代替难字或易错字,因此不仅解决了错误文本对语言建模的影响,而且纠错文本生成过程有了拼音的辅助特征更容易生成正确文本,相较于技术而言,本发明极大的提升了拼写纠错性能。
-
公开(公告)号:CN118428359B
公开(公告)日:2024-09-27
申请号:CN202410885707.9
申请日:2024-07-03
Applicant: 中国科学技术大学
IPC: G06F40/284 , G06F18/214 , G06N3/0499 , G06N3/0895 , G06N3/098
Abstract: 本发明涉及自然语言生成技术领域,公开了一种基于组合采样与联合优化的多属性可控文本生成方法,将属性组合输入不同的可控文本生成方法的生成式语言模型中,生成满足给定的属性的文本;训练过程包括:随机采样训练数据一,计算在生成式语言模型上的损失,得到中间模型;再从训练数据集中采样训练数据二,训练数据二中任意一个属性均在训练数据一中出现,且训练数据二中的属性组合与训练数据一的任意一个属性组合均不相同;计算训练数据二在中间模型上的损失:基于总损失对中间模型进行一步优化,得到最终输出的生成式语言模型。提升了模型面对新属性组合作为控制条件时的泛化能力,进而实现提升多属性可控文本生成方法的组合泛化能力。
-
公开(公告)号:CN118296414B
公开(公告)日:2024-09-27
申请号:CN202410729803.4
申请日:2024-06-06
Applicant: 中国科学技术大学
IPC: G06F18/231 , G06F18/20 , G06F40/284 , G06F40/216 , G06N3/0455 , G06N3/0895 , G06F18/23213 , G06F40/295
Abstract: 本发明涉及自然语言理解技术技术领域,公开了一种基于层级聚类和属性挖掘的可计算价值体系构建方法,包括:层级节点挖掘,将语料数据聚类为四个类别的语料,提取关键词,将所有关键词汇总并去重后得到的关键词作为词节点;基于软硬权重融合的节点关系属性构建;多层级综合知识匹配计算,初始化测试文本的价值分数,提取测试文本中的实体,根据实体对应的词节点的相邻词节点的层级属性,以及词节点间的边对应的权值,计算实体的价值分数,将测试文本中所有实体的价值分数求和,得到测试文本的价值分数。本发明从多层次知识判别的角度提出了基于层级聚类和属性挖掘的可计算价值体系构建方法,按照由粗到细的粒度对输入文本进行价值计算。
-
公开(公告)号:CN116227428B
公开(公告)日:2023-07-18
申请号:CN202310510077.2
申请日:2023-05-08
Applicant: 中国科学技术大学
IPC: G06F40/10 , G06N3/0455 , G06N3/09
Abstract: 本发明涉及自然语言生成领域。本发明提供了一种基于迁移模式感知的文本风格迁移方法,对输入的文本,输出对应的迁移模式分类,基于迁移模式分类和句子表示集合,定义类内对比学习损失,基于风格和句子表示集合定义类间对比学习损,并基于类内对比学习损失、类间对比学习损失、文本风格迁移模型的损失一起计算总体损失来训练文本风格迁移模型。使用训练后的文本风格迁移模型对目标文本进行文本风格迁移。本发明增加了句子表示的准确性和区分度,进而提高文本风格迁移任务的性能。本发明将迁移模式分类提取模型与文本风格迁移模型结合使用,提高了文本风格迁移模型的性能。
-
公开(公告)号:CN114444488A
公开(公告)日:2022-05-06
申请号:CN202210093014.7
申请日:2022-01-26
Applicant: 中国科学技术大学
IPC: G06F40/279 , G06F40/30 , G06N20/00
Abstract: 本发明公开了一种少样本机器阅读理解方法、系统、设备及存储介质,提示模板的构建使得训练任务和预训练任务贴近,更好地挖掘了预训练语言模型的知识,减少了训练量,少样本场景下防止了过拟合,提示模板为训练任务提供了指导,在不同数据集上的迁移性更佳;本发明提供的方案更贴合真实场景中的少样本情况,能够更有效地利用现有的预训练语言模型,发掘其潜力,应用前景非常广阔。
-
-
-
-
-
-
-
-
-