-
公开(公告)号:CN119378564A
公开(公告)日:2025-01-28
申请号:CN202411949511.8
申请日:2024-12-27
Applicant: 数据堂(北京)科技股份有限公司
IPC: G06F40/30 , G06F40/126 , G06F40/216
Abstract: 本申请涉及数据标注技术领域,其具体地公开了一种大模型数据智能标注方法及系统,其采用基于深度学习的自然语言处理技术对未标注文本数据集中的各个未标注文本数据进行置信度评估,选择最小置信度对应的文本数据作为代表样本数据,并对所述代表样本数据进行语料扩充,进而,通过对所述代表样本数据和语料扩充后的代表样本数据进行语义特征提取和补偿式交互融合,以充分利用两者之间的共有信息和独特信息,从而实现对所述代表样本数据的全面语义理解和智能标注。通过这种方式,可以显著提高数据标注的效率和准确性,同时大幅度减少人工干预的需求,降低标注成本。
-
公开(公告)号:CN113205163A
公开(公告)日:2021-08-03
申请号:CN202110764998.2
申请日:2021-07-07
Applicant: 数据堂(北京)科技股份有限公司
Abstract: 本发明公开了一种数据标注方法及装置,该方法包括:利用无监督学习算法进行冷启动,对原始的无标签数据进行初级分类,生成弱和伪标签数据信息;对伪标签数据信息进行校验标注;对预设数量的弱标签数据信息进行标注,获得部分已标注数据,基于弱监督学习算法和部分已标注数据,对剩余的弱标签数据信息进行预标注,生成预标注结果;对预标注结果进行半监督学习算法的样本筛选,获得精品数据集;对精品数据集进行数据补充,获得全标签数据集;利用全标签数据集对无监督学习算法、弱监督学习算法和半监督学习算法进行算法迭代,获得优化的无监督学习算法、弱监督学习算法和半监督学习算法。本发明可以大幅减少人工标注成本,并提高数据标注效率。
-
公开(公告)号:CN119380341A
公开(公告)日:2025-01-28
申请号:CN202411946533.9
申请日:2024-12-27
Applicant: 数据堂(北京)科技股份有限公司
IPC: G06V20/70 , G06V30/19 , G06V10/82 , G06N3/0464
Abstract: 本申请公开了一种大模型多模态数据语义表征对齐方法,其通过采用基于深度学习的数据处理技术对第一模态数据和第二模态数据分别进行细粒度局部特征提取,并计算所述第一模态数据和第二模态数据的细粒度局部特征之间的相似度,作为初对齐损失函数值,接着,进一步结合全局上下文语义信息,对所述第一模态数据和第二模态数据的细粒度局部特征进行语义强化编码,通过上下文级别的语义对齐度量得到精对齐损失函数值,进而,基于精对齐损失函数值和初对齐损失函数值来指导模型训练,以实现多模态数据的语义表征对齐。通过这种方式,可以显著提高多模态数据在语义层面的对齐精度,为后续的数据融合和应用提供更准确的特征基础。
-
公开(公告)号:CN111078928A
公开(公告)日:2020-04-28
申请号:CN201911327469.5
申请日:2019-12-20
Applicant: 数据堂(北京)科技股份有限公司
IPC: G06F16/583 , G06K9/62
Abstract: 本发明提供了一种图像去重方法及装置,可以计算待去重的每个图像的目标哈希值,具体将图像划分为多个局部图像,分别缩小图像和每个局部图像的尺寸,分别对缩小后的图像和每个缩小后的局部图像进行DCT变换,得到图像对应的DCT系数矩阵和每个局部图像对应的DCT系数矩阵;根据图像对应的DCT系数矩阵计算图像的哈希值,以及根据每个局部图像对应的DCT系数矩阵计算每个局部图像的哈希值;对图像的哈希值和每个局部图像的哈希值进行整合得到图像的目标哈希值。进一步通过两两匹配多个图像的目标哈希值确定多个图像中的重复图像,并去重。基于本发明可以对实现整体+局部的图像对比,提高了鲁棒性和精确性。
-
公开(公告)号:CN119380144A
公开(公告)日:2025-01-28
申请号:CN202411946438.9
申请日:2024-12-27
Applicant: 数据堂(北京)科技股份有限公司
IPC: G06V10/774 , G06V20/70 , G06V30/19 , G06V10/82 , G06N3/0464
Abstract: 本申请涉及计算机技术领域,其具体地公开了一种多模态大模型训练数据采集方法及系统,其采用基于深度学习的数据处理技术对语义对齐的图像数据和图像内容文本描述数据进行语义特征提取和跨模态联合编码,以捕捉到模态间的语义关联,实现跨模态的语义信息融合,并在此基础上进一步进行图像样本的生成,进而,通过对生成的图像样本与原始图像数据进行语义偏移度量,以智能识别生成的图像样本是否为合格增强样本。通过这种方式,可以有效地丰富多模态训练数据集,确保数据的质量,解决多模态数据增强过程中跨模态语义一致性的问题,从而提高多模态大模型的训练效率。
-
公开(公告)号:CN119377625A
公开(公告)日:2025-01-28
申请号:CN202411946980.4
申请日:2024-12-27
Applicant: 数据堂(北京)科技股份有限公司
IPC: G06F18/21 , G06F18/25 , G06N3/0442 , G06F18/10
Abstract: 本申请公开了一种多维度的大模型数据质量评测方法及系统,其在提取出满足最低内在质量要求的数据集和参考数据集中的各个数据特征之后,基于数据集中各个数据样本之间的信息场效应,对各个数据样本进行特征更新和上下文语义关联强化处理,从而提高各个数据样本的语义特征表达能力,实现更为准确的数据质量评估。这样,通过引入数据集的上下文关联信息,能够更准确地理解各个数据样本的语义信息,进而提升整体数据质量评估的准确性。
-
公开(公告)号:CN113205163B
公开(公告)日:2021-11-19
申请号:CN202110764998.2
申请日:2021-07-07
Applicant: 数据堂(北京)科技股份有限公司
Abstract: 本发明公开了一种数据标注方法及装置,该方法包括:利用无监督学习算法进行冷启动,对原始的无标签数据进行初级分类,生成弱和伪标签数据信息;对伪标签数据信息进行校验标注;对预设数量的弱标签数据信息进行标注,获得部分已标注数据,基于弱监督学习算法和部分已标注数据,对剩余的弱标签数据信息进行预标注,生成预标注结果;对预标注结果进行半监督学习算法的样本筛选,获得精品数据集;对精品数据集进行数据补充,获得全标签数据集;利用全标签数据集对无监督学习算法、弱监督学习算法和半监督学习算法进行算法迭代,获得优化的无监督学习算法、弱监督学习算法和半监督学习算法。本发明可以大幅减少人工标注成本,并提高数据标注效率。
-
公开(公告)号:CN120030132A
公开(公告)日:2025-05-23
申请号:CN202510510268.8
申请日:2025-04-23
Applicant: 数据堂(北京)科技股份有限公司
IPC: G06F16/3329 , G06F40/205 , G06F40/30
Abstract: 本申请涉及智能问答技术领域,其具体地公开了一种基于多模态大模型的问答数据处理方法及系统,其采用基于深度学习的多模态数据处理技术对用户输入的文本问题和图像模态上下文进行语义解析,分别提取出文本问题和图像模态上下文的语义特征,接着对两者进行线性投影以实现特征对齐,并引入跨模态特征全域关联交互机制,挖掘文本问题与图像模态上下文之间的深层次语义关联,实现对文本问题和图像模态上下文信息的有效融合,进而利用大语言模型的推理能力,生成与文本问题相关的文本答案。通过这种方式,能够显著提高问答系统对多模态信息的理解和处理能力,生成与文本问题紧密相关且逻辑完整的文本答案,满足用户对于多模态问答场景下的信息需求。
-
公开(公告)号:CN119378564B
公开(公告)日:2025-04-25
申请号:CN202411949511.8
申请日:2024-12-27
Applicant: 数据堂(北京)科技股份有限公司
IPC: G06F40/30 , G06F40/126 , G06F40/216
Abstract: 本申请涉及数据标注技术领域,其具体地公开了一种大模型数据智能标注方法及系统,其采用基于深度学习的自然语言处理技术对未标注文本数据集中的各个未标注文本数据进行置信度评估,选择最小置信度对应的文本数据作为代表样本数据,并对所述代表样本数据进行语料扩充,进而,通过对所述代表样本数据和语料扩充后的代表样本数据进行语义特征提取和补偿式交互融合,以充分利用两者之间的共有信息和独特信息,从而实现对所述代表样本数据的全面语义理解和智能标注。通过这种方式,可以显著提高数据标注的效率和准确性,同时大幅度减少人工干预的需求,降低标注成本。
-
公开(公告)号:CN119380144B
公开(公告)日:2025-04-04
申请号:CN202411946438.9
申请日:2024-12-27
Applicant: 数据堂(北京)科技股份有限公司
IPC: G06V10/774 , G06V20/70 , G06V30/19 , G06V10/82 , G06N3/0464
Abstract: 本申请涉及计算机技术领域,其具体地公开了一种多模态大模型训练数据采集方法及系统,其采用基于深度学习的数据处理技术对语义对齐的图像数据和图像内容文本描述数据进行语义特征提取和跨模态联合编码,以捕捉到模态间的语义关联,实现跨模态的语义信息融合,并在此基础上进一步进行图像样本的生成,进而,通过对生成的图像样本与原始图像数据进行语义偏移度量,以智能识别生成的图像样本是否为合格增强样本。通过这种方式,可以有效地丰富多模态训练数据集,确保数据的质量,解决多模态数据增强过程中跨模态语义一致性的问题,从而提高多模态大模型的训练效率。
-
-
-
-
-
-
-
-
-