-
公开(公告)号:CN113204795B
公开(公告)日:2021-09-24
申请号:CN202110764949.9
申请日:2021-07-07
Applicant: 数据堂(北京)科技股份有限公司
IPC: G06F21/62 , G06F16/27 , G06F16/2458
Abstract: 本发明公开了一种基于联邦数据及联邦服务的数据共享方法及装置,该方法包括:接收数据使用方提交的模型运算需求;基于联邦节点能力数据库,根据模型运算需求匹配生成最优决策结果;基于最优决策结果选择计算模型,将公钥和计算模型发送至相应联邦节点;接收相应联邦节点返回的计算结果,其中,计算结果为联邦节点根据自身的联邦数据基于计算模型计算得出并通过公钥加密后的结果;将结果进行解密返回给数据使用方;计算参与计算的每个联邦节点的数据收益,提供给数据提供方;将计算过程数据存储在区块链的记账节点上;数据提供方作为联邦节点。本发明通过联邦服务机制来实现对各个数据使用方需求的决策生成,进而实现服务的联邦化。
-
公开(公告)号:CN113204795A
公开(公告)日:2021-08-03
申请号:CN202110764949.9
申请日:2021-07-07
Applicant: 数据堂(北京)科技股份有限公司
IPC: G06F21/62 , G06F16/27 , G06F16/2458
Abstract: 本发明公开了一种基于联邦数据及联邦服务的数据共享方法及装置,该方法包括:接收数据使用方提交的模型运算需求;基于联邦节点能力数据库,根据模型运算需求匹配生成最优决策结果;基于最优决策结果选择计算模型,将公钥和计算模型发送至相应联邦节点;接收相应联邦节点返回的计算结果,其中,计算结果为联邦节点根据自身的联邦数据基于计算模型计算得出并通过公钥加密后的结果;将结果进行解密返回给数据使用方;计算参与计算的每个联邦节点的数据收益,提供给数据提供方;将计算过程数据存储在区块链的记账节点上;数据提供方作为联邦节点。本发明通过联邦服务机制来实现对各个数据使用方需求的决策生成,进而实现服务的联邦化。
-
公开(公告)号:CN112530414B
公开(公告)日:2021-05-25
申请号:CN202110178948.6
申请日:2021-02-08
Applicant: 数据堂(北京)科技股份有限公司
Abstract: 本发明公开了一种迭代式大规模发音词典构建方法及装置,其中该方法包括:根据文本生数据生成词条序列;根据音频生数据生成音标序列;根据词条序列,利用G2P模型生成二元组 ;根据音标序列,利用P2G模型生成二元组 ;计算两个二元组之间的匹配度,并与预设匹配度进行比较,对匹配度小于预设匹配度对应的二元组 和二元组 进行鉴别性样本抽取,获得鉴别性样本;获取领域专家对鉴别性样本的标注和校正,将标注和校正后的二元组 和二元组 存入多层次大规模发音词典。本发明能够快速有效地构建大规模发音词典,提升语音识别系统的工作效率并降低人工成本。
-
公开(公告)号:CN108769559B
公开(公告)日:2020-12-01
申请号:CN201810546057.X
申请日:2018-05-25
Applicant: 数据堂(北京)科技股份有限公司
Abstract: 本发明提供了一种多媒体文件的同步方法及装置,其中,多媒体文件的同步方法中,在每个视频设备拍摄的音频文件均包括同一脉冲波,在确定所述脉冲波在每个音频文件中的起始采样点之后,利用将样本序列和校验音频文件中的脉冲波进行相似度对比,得到每个所述校验音频文件中的最相似序列,依据每个所述校验音频文件中的最相似序列的位置,计算得到每个所述校验音频文件中的最相似序列的参照位置,实现了对多个视频设备录制的音频文件的同步。
-
公开(公告)号:CN108769559A
公开(公告)日:2018-11-06
申请号:CN201810546057.X
申请日:2018-05-25
Applicant: 数据堂(北京)科技股份有限公司
Abstract: 本发明提供了一种多媒体文件的同步方法及装置,其中,多媒体文件的同步方法中,在每个视频设备拍摄的音频文件均包括同一脉冲波,在确定所述脉冲波在每个音频文件中的起始采样点之后,利用将样本序列和校验音频文件中的脉冲波进行相似度对比,得到每个所述校验音频文件中的最相似序列,依据每个所述校验音频文件中的最相似序列的位置,计算得到每个所述校验音频文件中的最相似序列的参照位置,实现了对多个视频设备录制的音频文件的同步。
-
公开(公告)号:CN104767610A
公开(公告)日:2015-07-08
申请号:CN201510199706.X
申请日:2015-04-23
Applicant: 数据堂(北京)科技股份有限公司
Abstract: 本发明公开一种数据加密方法及系统。该方法包括:获取待传输数据;确定所述待传输数据的数据长度为第一长度;从数据平台所具有的数据中查找数据长度为第二长度的密钥数据;所述第二长度大于或等于所述第一长度;将所述待传输数据划分成第一数目个待传输数据块;将所述密钥数据划分成第二数目个密钥数据块;确定每个所述待传输数据块对应的密钥数据块;采用所述密钥数据块对所述待传输数据块进行加密,得到加密数据块;将所述加密数据块发送至目的终端。采用本发明的方法或系统,可以对待传输数据中的每个数据块,分别采用不同的密钥进行加密,从而实现一次一密的加密方式,提高数据传输的安全性。
-
公开(公告)号:CN120031970A
公开(公告)日:2025-05-23
申请号:CN202510512020.5
申请日:2025-04-23
Applicant: 数据堂(北京)科技股份有限公司 , 河北数云堂智能科技有限公司
IPC: G06T7/73 , G06T7/62 , G06T3/4007
Abstract: 本发明公开了一种点云数据的动静目标区分标注方法及系统,涉及自动驾驶技术领域,所述动静目标区分标注方法为:获取待标注的所有3D点云数据;将当前帧点云坐标系下的3D点云数据转换为世界坐标系下的3D点云数据;对转换后的3D点云数据进行插值计算;基于已知3D点云数据各类目标插值,进行预测后续插值。系统用于执行方法。本发明可以实现动目标和静态目标的自动判读,大大减少后续标注人员的工作量,省去了人工判断过程,整体提高了后续3D点云目标的整体标注效率。
-
公开(公告)号:CN119380144A
公开(公告)日:2025-01-28
申请号:CN202411946438.9
申请日:2024-12-27
Applicant: 数据堂(北京)科技股份有限公司
IPC: G06V10/774 , G06V20/70 , G06V30/19 , G06V10/82 , G06N3/0464
Abstract: 本申请涉及计算机技术领域,其具体地公开了一种多模态大模型训练数据采集方法及系统,其采用基于深度学习的数据处理技术对语义对齐的图像数据和图像内容文本描述数据进行语义特征提取和跨模态联合编码,以捕捉到模态间的语义关联,实现跨模态的语义信息融合,并在此基础上进一步进行图像样本的生成,进而,通过对生成的图像样本与原始图像数据进行语义偏移度量,以智能识别生成的图像样本是否为合格增强样本。通过这种方式,可以有效地丰富多模态训练数据集,确保数据的质量,解决多模态数据增强过程中跨模态语义一致性的问题,从而提高多模态大模型的训练效率。
-
公开(公告)号:CN119377625A
公开(公告)日:2025-01-28
申请号:CN202411946980.4
申请日:2024-12-27
Applicant: 数据堂(北京)科技股份有限公司
IPC: G06F18/21 , G06F18/25 , G06N3/0442 , G06F18/10
Abstract: 本申请公开了一种多维度的大模型数据质量评测方法及系统,其在提取出满足最低内在质量要求的数据集和参考数据集中的各个数据特征之后,基于数据集中各个数据样本之间的信息场效应,对各个数据样本进行特征更新和上下文语义关联强化处理,从而提高各个数据样本的语义特征表达能力,实现更为准确的数据质量评估。这样,通过引入数据集的上下文关联信息,能够更准确地理解各个数据样本的语义信息,进而提升整体数据质量评估的准确性。
-
公开(公告)号:CN119357754A
公开(公告)日:2025-01-24
申请号:CN202411911075.5
申请日:2024-12-24
Applicant: 北京市大数据中心 , 数据堂(北京)科技股份有限公司
IPC: G06F18/24 , G06N3/0455 , G06N3/098
Abstract: 本申请公开了一种联邦数据管控下的基于规则对齐的激励方法及装置,其首先指定联邦数据管控规则,同时从第一联邦节点和第二联邦节点获取用户的行为数据,并采用基于深度学习的数据处理技术对用户行为数据进行时序分析,以分别捕捉到第一联邦节点和第二联邦节点的用户行为特征,进而,通过将第一联邦节点用户行为特征和第二联邦节点用户行为特征分别与联邦数据管控规则进行语义关联分析,从而智能确定联邦节点的激励结果。这样,通过量化用户行为与联邦数据管控规则的一致性来调整联邦学习过程中各节点的权重分配,实现了对联邦学习参与者的公平激励,能够有效促进联邦学习环境中数据资源的高效利用,提高联邦学习的整体性能和隐私性。
-
-
-
-
-
-
-
-
-