-
公开(公告)号:CN104933104A
公开(公告)日:2015-09-23
申请号:CN201510289443.1
申请日:2015-05-29
Applicant: 数据堂(北京)科技股份有限公司
IPC: G06F17/30
CPC classification number: G06F16/907
Abstract: 本发明公开的元数据采集方法和系统,采用自顶向下的方式,首先获取数据源中目标数据内容的布局结构,其中数据源包含N个布局结构相同的目标数据内容;并基于所述布局结构建立元数据提取规则,该规则能够反映各个元数据属性与相应元数据内容在目标数据内容中的布局位置之间的对应关系;之后依据所述元数据提取规则,对所需的元数据内容进行定位、提取,实现元数据采集。可见,本发明通过制定元数据提取规则,实现了对所需的元数据内容进行精确定位,进而实现了高准确度元数据的提取,为数据共享和交易平台的高水准服务提供了支持。
-
公开(公告)号:CN104809256A
公开(公告)日:2015-07-29
申请号:CN201510266694.8
申请日:2015-05-22
Applicant: 数据堂(北京)科技股份有限公司
IPC: G06F17/30
CPC classification number: G06F16/24573 , G06F16/215 , G06F16/2462 , G06F16/38 , G06F16/907
Abstract: 本发明公开一种数据去重方法及系统。所述方法包括:将所述待处理数据的元数据信息与所述数据平台的已存储数据的元数据信息进行比对,得到元数据信息相似度;比对所述第一数据描述信息与所述第二数据描述信息,得到数据描述相似度;对所述元数据信息相似度和所述数据描述相似度进行加权平均,得到总相似度;按照所述总相似度对所述已存储数据进行排序;将排序后的所述已存储数据中的前n个数据标记为疑似重复数据。采用本发明的方法或系统,可以缩小数据去重范围,从而有效降低人工进行数据去重的工作量,使人工进行数据去重的工作量被控制在可接受的范围内。
-
公开(公告)号:CN120031970A
公开(公告)日:2025-05-23
申请号:CN202510512020.5
申请日:2025-04-23
Applicant: 数据堂(北京)科技股份有限公司 , 河北数云堂智能科技有限公司
IPC: G06T7/73 , G06T7/62 , G06T3/4007
Abstract: 本发明公开了一种点云数据的动静目标区分标注方法及系统,涉及自动驾驶技术领域,所述动静目标区分标注方法为:获取待标注的所有3D点云数据;将当前帧点云坐标系下的3D点云数据转换为世界坐标系下的3D点云数据;对转换后的3D点云数据进行插值计算;基于已知3D点云数据各类目标插值,进行预测后续插值。系统用于执行方法。本发明可以实现动目标和静态目标的自动判读,大大减少后续标注人员的工作量,省去了人工判断过程,整体提高了后续3D点云目标的整体标注效率。
-
公开(公告)号:CN119380144A
公开(公告)日:2025-01-28
申请号:CN202411946438.9
申请日:2024-12-27
Applicant: 数据堂(北京)科技股份有限公司
IPC: G06V10/774 , G06V20/70 , G06V30/19 , G06V10/82 , G06N3/0464
Abstract: 本申请涉及计算机技术领域,其具体地公开了一种多模态大模型训练数据采集方法及系统,其采用基于深度学习的数据处理技术对语义对齐的图像数据和图像内容文本描述数据进行语义特征提取和跨模态联合编码,以捕捉到模态间的语义关联,实现跨模态的语义信息融合,并在此基础上进一步进行图像样本的生成,进而,通过对生成的图像样本与原始图像数据进行语义偏移度量,以智能识别生成的图像样本是否为合格增强样本。通过这种方式,可以有效地丰富多模态训练数据集,确保数据的质量,解决多模态数据增强过程中跨模态语义一致性的问题,从而提高多模态大模型的训练效率。
-
公开(公告)号:CN117786768A
公开(公告)日:2024-03-29
申请号:CN202410199786.8
申请日:2024-02-23
Applicant: 数据堂(北京)科技股份有限公司 , 北京市大数据中心
Abstract: 本发明提供了一种联邦数据学习的安全参数交换方法,属于数据安全技术领域。本发明采用第三方签名保护参数服务器的参数汇聚安全,目前还没有保护服务器的专利,本发明创新提出通过对参数服务器中的参数在读写、落盘和网络传输三个方面进行监控,来确保参数服务器进行安全的明文参数汇聚。本发明还通过采用RSA算法保护不安全环境下密码和参数安全通信,确保通信链路的安全,使链路劫持失效。本发明还采用加密强度可配置的训练节点参数加密措施,针对不同的训练节点的采用不同的加密强度,满足实际应用的各种安全场景要求,对训练节点进行安全保护。
-
公开(公告)号:CN115827854B
公开(公告)日:2023-08-11
申请号:CN202211687868.4
申请日:2022-12-28
Applicant: 数据堂(北京)科技股份有限公司 , 河北数云堂智能科技有限公司
Abstract: 本发明涉及一种语音摘要生成模型训练方法、语音摘要生成方法及装置,训练方法包括如下步骤:提取样本文本的样本词语集合,以及提取样本音频数据的样本音频特征;将所述样本词语集合、所述样本音频特征进行多模态特征融合,获得多模态特征向量;根据样本文本所归属的领域,获得样本文本的领域权重;将所述领域权重加入所述多模态特征向量;将所述多模态特征向量输入摘要生成模型,通过逐步迭代训练获得最优摘要生成模型。本技术方案的语音摘要生成模型训练方法通过融合音频数据与文本的多模态信息,使生成的语音摘要更精确、重点性更强;并且通过校正多模态特征向量的领域,增强了语音摘要的领域倾向性,修正生成的语音摘要,使语音摘要更精准。
-
公开(公告)号:CN115827854A
公开(公告)日:2023-03-21
申请号:CN202211687868.4
申请日:2022-12-28
Applicant: 数据堂(北京)科技股份有限公司 , 河北数云堂智能科技有限公司
Abstract: 本发明涉及一种语音摘要生成模型训练方法、语音摘要生成方法及装置,训练方法包括如下步骤:提取样本文本的样本词语集合,以及提取样本音频数据的样本音频特征;将所述样本词语集合、所述样本音频特征进行多模态特征融合,获得多模态特征向量;根据样本文本所归属的领域,获得样本文本的领域权重;将所述领域权重加入所述多模态特征向量;将所述多模态特征向量输入摘要生成模型,通过逐步迭代训练获得最优摘要生成模型。本技术方案的语音摘要生成模型训练方法通过融合音频数据与文本的多模态信息,使生成的语音摘要更精确、重点性更强;并且通过校正多模态特征向量的领域,增强了语音摘要的领域倾向性,修正生成的语音摘要,使语音摘要更精准。
-
公开(公告)号:CN115810137A
公开(公告)日:2023-03-17
申请号:CN202310087037.1
申请日:2023-02-09
Applicant: 数据堂(北京)科技股份有限公司 , 河北数云堂智能科技有限公司
IPC: G06V10/776 , G06V40/16 , G06V10/82
Abstract: 本发明公开了一种交互式人工智能技术评测方案的构建方法,涉及人工智能测评技术领域,方法包括以下步骤:步骤S1:构建数据层,数据层包括评测数据库、评测工具库、评测标准库和基准模型库;步骤S2:构建封装层;步骤S3:构建执行层。本发明基于评测工具、评测数据、评测标准、基准模型等要素,快速构建一个人工智能评测方案,从而解决人工智能评测经验和方法无法重复利用、评测要求技术门槛高的问题,提供了交互式的配置环境,支持用户通过拖拽配置的可视化方式快速构建复杂的评测方案流程,从而实现为不同类型人工智能任务快速开发新的评测方案。
-
-
-
-
-
-
-