Patent search ap:("数据堂(北京)科技股份有限公司") AND inv:"高禹" Page 1

1.

发明公开
大模型数据智能标注方法及系统有权

公开(公告)号：CN119378564A

公开(公告)日：2025-01-28

申请号：CN202411949511.8

申请日：2024-12-27

Applicant: 数据堂(北京)科技股份有限公司

Inventor： 齐红威 , 王大亮 , 丰强泽 , 栗全峰 , 高禹 , 郑继龙

IPC: G06F40/30 , G06F40/126 , G06F40/216

Abstract: 本申请涉及数据标注技术领域，其具体地公开了一种大模型数据智能标注方法及系统，其采用基于深度学习的自然语言处理技术对未标注文本数据集中的各个未标注文本数据进行置信度评估，选择最小置信度对应的文本数据作为代表样本数据，并对所述代表样本数据进行语料扩充，进而，通过对所述代表样本数据和语料扩充后的代表样本数据进行语义特征提取和补偿式交互融合，以充分利用两者之间的共有信息和独特信息，从而实现对所述代表样本数据的全面语义理解和智能标注。通过这种方式，可以显著提高数据标注的效率和准确性，同时大幅度减少人工干预的需求，降低标注成本。

2.

发明公开
多模态大模型训练数据采集方法及系统有权

公开(公告)号：CN119380144A

公开(公告)日：2025-01-28

申请号：CN202411946438.9

申请日：2024-12-27

Applicant: 数据堂(北京)科技股份有限公司

Inventor： 齐红威 , 丰强泽 , 王大亮 , 高禹 , 郑继龙 , 史红欣

IPC: G06V10/774 , G06V20/70 , G06V30/19 , G06V10/82 , G06N3/0464

Abstract: 本申请涉及计算机技术领域，其具体地公开了一种多模态大模型训练数据采集方法及系统，其采用基于深度学习的数据处理技术对语义对齐的图像数据和图像内容文本描述数据进行语义特征提取和跨模态联合编码，以捕捉到模态间的语义关联，实现跨模态的语义信息融合，并在此基础上进一步进行图像样本的生成，进而，通过对生成的图像样本与原始图像数据进行语义偏移度量，以智能识别生成的图像样本是否为合格增强样本。通过这种方式，可以有效地丰富多模态训练数据集，确保数据的质量，解决多模态数据增强过程中跨模态语义一致性的问题，从而提高多模态大模型的训练效率。

3.

发明授权
大模型数据智能标注方法及系统有权

公开(公告)号：CN119378564B

公开(公告)日：2025-04-25

申请号：CN202411949511.8

申请日：2024-12-27

Applicant: 数据堂(北京)科技股份有限公司

Inventor： 齐红威 , 王大亮 , 丰强泽 , 栗全峰 , 高禹 , 郑继龙

IPC: G06F40/30 , G06F40/126 , G06F40/216

Abstract: 本申请涉及数据标注技术领域，其具体地公开了一种大模型数据智能标注方法及系统，其采用基于深度学习的自然语言处理技术对未标注文本数据集中的各个未标注文本数据进行置信度评估，选择最小置信度对应的文本数据作为代表样本数据，并对所述代表样本数据进行语料扩充，进而，通过对所述代表样本数据和语料扩充后的代表样本数据进行语义特征提取和补偿式交互融合，以充分利用两者之间的共有信息和独特信息，从而实现对所述代表样本数据的全面语义理解和智能标注。通过这种方式，可以显著提高数据标注的效率和准确性，同时大幅度减少人工干预的需求，降低标注成本。

4.

发明授权
多模态大模型训练数据采集方法及系统有权

公开(公告)号：CN119380144B

公开(公告)日：2025-04-04

申请号：CN202411946438.9

申请日：2024-12-27

Applicant: 数据堂(北京)科技股份有限公司

Inventor： 齐红威 , 丰强泽 , 王大亮 , 高禹 , 郑继龙 , 史红欣

IPC: G06V10/774 , G06V20/70 , G06V30/19 , G06V10/82 , G06N3/0464

Abstract: 本申请涉及计算机技术领域，其具体地公开了一种多模态大模型训练数据采集方法及系统，其采用基于深度学习的数据处理技术对语义对齐的图像数据和图像内容文本描述数据进行语义特征提取和跨模态联合编码，以捕捉到模态间的语义关联，实现跨模态的语义信息融合，并在此基础上进一步进行图像样本的生成，进而，通过对生成的图像样本与原始图像数据进行语义偏移度量，以智能识别生成的图像样本是否为合格增强样本。通过这种方式，可以有效地丰富多模态训练数据集，确保数据的质量，解决多模态数据增强过程中跨模态语义一致性的问题，从而提高多模态大模型的训练效率。

Patent Agency Ranking