-
公开(公告)号:CN119378564A
公开(公告)日:2025-01-28
申请号:CN202411949511.8
申请日:2024-12-27
Applicant: 数据堂(北京)科技股份有限公司
IPC: G06F40/30 , G06F40/126 , G06F40/216
Abstract: 本申请涉及数据标注技术领域,其具体地公开了一种大模型数据智能标注方法及系统,其采用基于深度学习的自然语言处理技术对未标注文本数据集中的各个未标注文本数据进行置信度评估,选择最小置信度对应的文本数据作为代表样本数据,并对所述代表样本数据进行语料扩充,进而,通过对所述代表样本数据和语料扩充后的代表样本数据进行语义特征提取和补偿式交互融合,以充分利用两者之间的共有信息和独特信息,从而实现对所述代表样本数据的全面语义理解和智能标注。通过这种方式,可以显著提高数据标注的效率和准确性,同时大幅度减少人工干预的需求,降低标注成本。
-
公开(公告)号:CN119380144A
公开(公告)日:2025-01-28
申请号:CN202411946438.9
申请日:2024-12-27
Applicant: 数据堂(北京)科技股份有限公司
IPC: G06V10/774 , G06V20/70 , G06V30/19 , G06V10/82 , G06N3/0464
Abstract: 本申请涉及计算机技术领域,其具体地公开了一种多模态大模型训练数据采集方法及系统,其采用基于深度学习的数据处理技术对语义对齐的图像数据和图像内容文本描述数据进行语义特征提取和跨模态联合编码,以捕捉到模态间的语义关联,实现跨模态的语义信息融合,并在此基础上进一步进行图像样本的生成,进而,通过对生成的图像样本与原始图像数据进行语义偏移度量,以智能识别生成的图像样本是否为合格增强样本。通过这种方式,可以有效地丰富多模态训练数据集,确保数据的质量,解决多模态数据增强过程中跨模态语义一致性的问题,从而提高多模态大模型的训练效率。
-
公开(公告)号:CN119378564B
公开(公告)日:2025-04-25
申请号:CN202411949511.8
申请日:2024-12-27
Applicant: 数据堂(北京)科技股份有限公司
IPC: G06F40/30 , G06F40/126 , G06F40/216
Abstract: 本申请涉及数据标注技术领域,其具体地公开了一种大模型数据智能标注方法及系统,其采用基于深度学习的自然语言处理技术对未标注文本数据集中的各个未标注文本数据进行置信度评估,选择最小置信度对应的文本数据作为代表样本数据,并对所述代表样本数据进行语料扩充,进而,通过对所述代表样本数据和语料扩充后的代表样本数据进行语义特征提取和补偿式交互融合,以充分利用两者之间的共有信息和独特信息,从而实现对所述代表样本数据的全面语义理解和智能标注。通过这种方式,可以显著提高数据标注的效率和准确性,同时大幅度减少人工干预的需求,降低标注成本。
-
公开(公告)号:CN119380144B
公开(公告)日:2025-04-04
申请号:CN202411946438.9
申请日:2024-12-27
Applicant: 数据堂(北京)科技股份有限公司
IPC: G06V10/774 , G06V20/70 , G06V30/19 , G06V10/82 , G06N3/0464
Abstract: 本申请涉及计算机技术领域,其具体地公开了一种多模态大模型训练数据采集方法及系统,其采用基于深度学习的数据处理技术对语义对齐的图像数据和图像内容文本描述数据进行语义特征提取和跨模态联合编码,以捕捉到模态间的语义关联,实现跨模态的语义信息融合,并在此基础上进一步进行图像样本的生成,进而,通过对生成的图像样本与原始图像数据进行语义偏移度量,以智能识别生成的图像样本是否为合格增强样本。通过这种方式,可以有效地丰富多模态训练数据集,确保数据的质量,解决多模态数据增强过程中跨模态语义一致性的问题,从而提高多模态大模型的训练效率。
-
-
-