-
公开(公告)号:CN118170933A
公开(公告)日:2024-06-11
申请号:CN202410585594.0
申请日:2024-05-13
Applicant: 之江实验室
IPC: G06F16/45 , G06F16/483 , G06F16/41 , G06F16/215 , G06F40/30 , G06N3/045
Abstract: 本发明公开了一种面向科学领域多模态语料数据的构建方法和装置,方法包括以下步骤:按语料主题分类采集待处理的科学领域相关多模态原始语料数据;构建任务处理流管线对原始语料数据依次进行预处理、内容解析、数据清洗和结构化得到整体语料数据;对包括文本、图片、表格和公式的不同子类型语料数据进行语料评测,基于语料评测结果对整体语料数据进行质量评估;根据质量评估结果优化整体语料数据完成科学领域语料数据库构建。本发明通过自动化任务处理流管线高效处理并生成语料数据,同时提供统一存储与质量评测,通过不断优化处理流程得到高质量科学领域语料数据库,能够为大模型训练提供可靠的数据基础,推动科学研究和应用技术的不断发展。
-
公开(公告)号:CN114610935A
公开(公告)日:2022-06-10
申请号:CN202210511529.4
申请日:2022-05-12
Applicant: 之江实验室
IPC: G06F16/58 , G06F16/583 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种文本控制图像风格的语义图像合成的方法及系统,包括图像离散编码器和风格迁移对抗生成网络联合训练模块、文本和图像联合建模模块和文本和语义图像控制特定风格语义图像合成模块。本发明通过自然语言处理模型以及图像生成模型,将设定的风格语句和表征语义的掩膜图像输入到模型中,自动地生成具有相应风格和语义的图片,以此解决了人们想要依据自己想法,及时获取到相应风格图片的需求。
-