-
公开(公告)号:CN116501875B
公开(公告)日:2024-04-26
申请号:CN202310486869.0
申请日:2023-04-28
Applicant: 中电科大数据研究院有限公司
IPC: G06F16/35 , G06F16/31 , G06F16/34 , G06F40/289 , G06F40/216 , G06F40/253 , G06F40/186 , G06F16/28 , G06F16/901 , G06F18/23213 , G06N3/0442
Abstract: 本发明涉及信息处理领域,特别是一种基于自然语言和知识图谱的文档处理方法和系统,通过对主题关键词属性信息聚类分类处理;借助于权重值信息的赋值抽取出文档中的关键信息,对文档文本进行自动分词、自动分类、自动聚类处理,配置知识图谱获取到特定的语法与结构,形成自动填充模板,对法律文档配置填充格式,生成文档数据信息的自动摘要,能够快捷高效地向用户推送文档主题信息,提升了现有文档信息的处理效率。
-
公开(公告)号:CN117315379A
公开(公告)日:2023-12-29
申请号:CN202311612473.2
申请日:2023-11-29
Applicant: 中电科大数据研究院有限公司
IPC: G06V10/764 , G06V10/774 , G06V10/778
Abstract: 本发明公开了一种面向深度学习的医学影像分类模型公平性评估方法及装置,该方法包括:采集患者X光影像,所述患者X光影像中包括一个或多个标签;构造单标签二分类数据集,并将所述单标签二分类数据集分为训练数据集和测试数据集;所述单标签二分类数据集中的数据样本包括患者身份信息;利用所述训练数据集训练得到基于深度学习的患病预测模型;利用所述测试数据集对所述患病预测模型进行测试,得到测试结果;根据所述测试结果确定模型的公平性。利用本发明方案,可以有效地评估模型的公平性。
-
公开(公告)号:CN117236409A
公开(公告)日:2023-12-15
申请号:CN202311529303.8
申请日:2023-11-16
Applicant: 中电科大数据研究院有限公司
IPC: G06N3/084 , G06N3/045 , G06N3/0442 , G06N3/047 , G06N3/048 , G06N3/0475 , G06N3/096 , G06F40/289 , G06F16/35 , G06F18/2415 , G06N3/092
Abstract: 本申请实施例公开了基于大模型的小模型训练方法、装置、系统和存储介质,用于在计算资源与存储空间有限的情况下,在具体的应用场景中提高大模型的应用潜力。本申请实施例小模型训练方法包括:采集目标应用场景的初始样本数据;初始化大模型;将采集到的初始样本数据输入到大模型中,通过generate函数将初始样本数据生成输入文本数据,并将输入文本数据转换为标记序列;使用大模型将标记序列转换为概率分布软标签;将概率分布软标签和对应的输入文本数据进行组合,生成数据集;根据概率分布软标签的维度创建一个循环神经网络模型和损失函数;使用数据集、小模型和损失函数进行训练,生成目标小模型。
-
公开(公告)号:CN116431788A
公开(公告)日:2023-07-14
申请号:CN202310403521.0
申请日:2023-04-14
Applicant: 中电科大数据研究院有限公司
IPC: G06F16/332 , G06F16/33 , G06F40/289 , G06F40/30 , G06N20/00
Abstract: 本发明提供一种面向跨模态数据的语义检索方法,通过在检索学生模型的每一轮训练过程中,基于第一样本对检索教师模型进行当前轮训练,并基于当前轮训练后的检索教师模型对第二样本进行图文匹配,得到第二样本的匹配标签,再基于第二样本的匹配标签对检索学生模型进行当前轮训练,使得检索学生模型在训练过程中可以克服第二样本中的大量噪声带来的干扰;同时通过提供第二样本的匹配标签作为检索学生模型的训练目标,可以将各个第二样本中包含的多对多关系传达给检索学生模型,使得检索学生模型可以学习到上述多对多的关联关系,从而给出更优的跨模态检索结果,提升了检索学生模型在复杂的网络数据中的跨模态检索精度。
-
公开(公告)号:CN116028821B
公开(公告)日:2023-06-13
申请号:CN202310314738.4
申请日:2023-03-29
Applicant: 中电科大数据研究院有限公司
IPC: G06F18/214 , G06F18/22 , G06F40/284
Abstract: 本发明提供融合领域知识的预训练模型训练方法、数据处理方法,服务器在判断接收到模型处理请求和目标领域样本集后,调取数据库中与每个第一预训练模型所对应的第一领域样本集;得到多个第一领域样本集与目标领域样本集的样本集相似度系数,将相似度系数最高的或次高的第一领域样本集作为第二领域样本集;确定与第二训练样本不同的目标训练样本,基于所确定的目标训练样本生成差异样本集;将第二领域样本集所对应的第一预训练模型作为第二预训练模型,控制第二预训练模型对所述差异训练语句进行分词处理得到至少一个训练词语,将槽位与训练语句的对应关系以及相应的槽位模板对应存储,得到最终模型。
-
公开(公告)号:CN116127079A
公开(公告)日:2023-05-16
申请号:CN202310425424.1
申请日:2023-04-20
Applicant: 中电科大数据研究院有限公司 , 太极计算机股份有限公司
IPC: G06F16/35 , G06F40/279 , G06F40/216
Abstract: 本发明提供一种文本分类方法,基于待分类文本段的文本特征向量与各个文本类别的支持文本特征向量之间的语义相似度,确定该待分类文本段所属的文本类别,即使部分文本类别的支持文本段数量较少,仍能根据该文本类别的支持文本段的文本特征向量准确地归纳出该文本类别的支持文本特征向量,从而根据上述语义相似度识别出属于该文本类别的待分类文本段,减少多标签分类场景下遗漏类别标签的概率;此外,在进行文本特征提取时,充分运用了对应文本段的语法结构,从而提取更准确、更丰富的上下文信息,以结合各个非停用词本身的语义信息以及上下文语义信息进行整体语义提取,有助于提升政务文本分类的准确性。
-
公开(公告)号:CN116028821A
公开(公告)日:2023-04-28
申请号:CN202310314738.4
申请日:2023-03-29
Applicant: 中电科大数据研究院有限公司
IPC: G06F18/214 , G06F18/22 , G06F40/284
Abstract: 本发明提供融合领域知识的预训练模型训练方法、数据处理方法,服务器在判断接收到模型处理请求和目标领域样本集后,调取数据库中与每个第一预训练模型所对应的第一领域样本集;得到多个第一领域样本集与目标领域样本集的样本集相似度系数,将相似度系数最高的或次高的第一领域样本集作为第二领域样本集;确定与第二训练样本不同的目标训练样本,基于所确定的目标训练样本生成差异样本集;将第二领域样本集所对应的第一预训练模型作为第二预训练模型,控制第二预训练模型对所述差异训练语句进行分词处理得到至少一个训练词语,将槽位与训练语句的对应关系以及相应的槽位模板对应存储,得到最终模型。
-
公开(公告)号:CN112559765A
公开(公告)日:2021-03-26
申请号:CN202011440234.X
申请日:2020-12-11
Applicant: 中电科大数据研究院有限公司
Abstract: 本发明提供了一种多源异构数据库语义集成方法,包括如下步骤:①抽取实体:基于实体抽取模型从非结构化文本中抽取领域相关实体并识别对应类别;②概念匹配:根据对应类别与知识图谱中本体概念进行匹配,得到同类别的候选实体集合;③邻域匹配:根据相关实体的上下文信息得到对齐实体图表示,根据候选实体集合在知识图谱中的领域关系,得到候选实体图表示;④对比决策:通过对对齐实体图表示和候选实体图表示进行对比决策,得到最匹配候选实体排列作为匹配结果。本发明将深度强化学习技术与多源异构数据库语义集成相结合,建立不同形态下知识之间的语义映射关系,能更好支撑基于语义集成的语义检索、智能问答等相关应用。
-
-
-
-
-
-
-