-
公开(公告)号:CN119273113A
公开(公告)日:2025-01-07
申请号:CN202411804034.6
申请日:2024-12-10
Applicant: 北京市大数据中心 , 数据堂(北京)科技股份有限公司
IPC: G06Q10/0631 , G06F18/22 , G06F18/25
Abstract: 本发明涉及电数字数据处理的领域,尤其是涉及一种基于场景生成与供需匹配的联邦数据服务方法、装置、电子设备和介质,方法包括如下步骤:构建人工场景;获得影响供需匹配效率和精度的因素和变量,对人工场景、需求信息和供应信息进行分析,获得分析结果,根据分析结果进行供需匹配,输出匹配结果;对需求信息和供应信息进行预测,并根据预测的需求信息和供应信息进行供需匹配。本发明将人工智能的推理与决策能力融入区块链系统中,利用智能算法实时监控共识过程并动态调整共识参数,促使一致性供需匹配决策的实时达成与动态调整,从而确保供需决策在面向场景多态性和关系耦合性时的适应性。
-
公开(公告)号:CN115810137B
公开(公告)日:2023-06-02
申请号:CN202310087037.1
申请日:2023-02-09
Applicant: 数据堂(北京)科技股份有限公司 , 河北数云堂智能科技有限公司
IPC: G06V10/776 , G06V40/16 , G06V10/82
Abstract: 本发明公开了一种交互式人工智能技术评测方案的构建方法,涉及人工智能测评技术领域,方法包括以下步骤:步骤S1:构建数据层,数据层包括评测数据库、评测工具库、评测标准库和基准模型库;步骤S2:构建封装层;步骤S3:构建执行层。本发明基于评测工具、评测数据、评测标准、基准模型等要素,快速构建一个人工智能评测方案,从而解决人工智能评测经验和方法无法重复利用、评测要求技术门槛高的问题,提供了交互式的配置环境,支持用户通过拖拽配置的可视化方式快速构建复杂的评测方案流程,从而实现为不同类型人工智能任务快速开发新的评测方案。
-
公开(公告)号:CN112530414B
公开(公告)日:2021-05-25
申请号:CN202110178948.6
申请日:2021-02-08
Applicant: 数据堂(北京)科技股份有限公司
Abstract: 本发明公开了一种迭代式大规模发音词典构建方法及装置,其中该方法包括:根据文本生数据生成词条序列;根据音频生数据生成音标序列;根据词条序列,利用G2P模型生成二元组 ;根据音标序列,利用P2G模型生成二元组 ;计算两个二元组之间的匹配度,并与预设匹配度进行比较,对匹配度小于预设匹配度对应的二元组 和二元组 进行鉴别性样本抽取,获得鉴别性样本;获取领域专家对鉴别性样本的标注和校正,将标注和校正后的二元组 和二元组 存入多层次大规模发音词典。本发明能够快速有效地构建大规模发音词典,提升语音识别系统的工作效率并降低人工成本。
-
公开(公告)号:CN104767610A
公开(公告)日:2015-07-08
申请号:CN201510199706.X
申请日:2015-04-23
Applicant: 数据堂(北京)科技股份有限公司
Abstract: 本发明公开一种数据加密方法及系统。该方法包括:获取待传输数据;确定所述待传输数据的数据长度为第一长度;从数据平台所具有的数据中查找数据长度为第二长度的密钥数据;所述第二长度大于或等于所述第一长度;将所述待传输数据划分成第一数目个待传输数据块;将所述密钥数据划分成第二数目个密钥数据块;确定每个所述待传输数据块对应的密钥数据块;采用所述密钥数据块对所述待传输数据块进行加密,得到加密数据块;将所述加密数据块发送至目的终端。采用本发明的方法或系统,可以对待传输数据中的每个数据块,分别采用不同的密钥进行加密,从而实现一次一密的加密方式,提高数据传输的安全性。
-
公开(公告)号:CN119378564A
公开(公告)日:2025-01-28
申请号:CN202411949511.8
申请日:2024-12-27
Applicant: 数据堂(北京)科技股份有限公司
IPC: G06F40/30 , G06F40/126 , G06F40/216
Abstract: 本申请涉及数据标注技术领域,其具体地公开了一种大模型数据智能标注方法及系统,其采用基于深度学习的自然语言处理技术对未标注文本数据集中的各个未标注文本数据进行置信度评估,选择最小置信度对应的文本数据作为代表样本数据,并对所述代表样本数据进行语料扩充,进而,通过对所述代表样本数据和语料扩充后的代表样本数据进行语义特征提取和补偿式交互融合,以充分利用两者之间的共有信息和独特信息,从而实现对所述代表样本数据的全面语义理解和智能标注。通过这种方式,可以显著提高数据标注的效率和准确性,同时大幅度减少人工干预的需求,降低标注成本。
-
公开(公告)号:CN119316229A
公开(公告)日:2025-01-14
申请号:CN202411845229.5
申请日:2024-12-16
Applicant: 北京市大数据中心 , 数据堂(北京)科技股份有限公司
IPC: H04L9/40
Abstract: 本发明涉及数据共享技术领域,且公开了一种基于前置节点的联邦数据共享方法和装置,其中方法包括:前置节点将获取到的联邦数据上传至私有链,前置节点上传本地区的基础公共服务信息到私有链,前置节点计算联邦数据特征,并上链请求验证,其他节点根据本地区实际情况,反馈验证值或对联邦数据进行修正,监管机构定期对整个链上的节点进行性能监管和数据统计分析,本发明通过在前置节点上进行数据预处理和加密,确保了数据在传输过程中的安全性和隐私性,前置节点作为中介,可以优化数据传输流程,提高处理效率,减轻链上节点的负载。
-
公开(公告)号:CN118071994A
公开(公告)日:2024-05-24
申请号:CN202410213038.0
申请日:2024-02-27
Applicant: 数据堂(北京)科技股份有限公司 , 河北数云堂智能科技有限公司
IPC: G06V10/25 , G06V20/70 , G06V20/64 , G06V10/762
Abstract: 本发明提供了自动驾驶场景下不完整点云数据标注方法、装置及终端,属于点云数据标注技术领域,本方法包括利用启动标注模块在点云数据内进行范围框选,形成启动三维矩形框;对启动三维矩形框的点云进行过滤,然后再进行聚类,形成多个簇,选取待标注目标簇,然后利用预设规则生成外接三维矩形框;计算凸包边界,自动矫正外接三维矩形框,使之与目标朝向保持一致,构建最小矩形框;推理最小矩形框的生长方向,确定生长距离,以此自动补全最小矩形框,形成完整的待标注目标矩形框。本发明能够帮助标注人员快速准确完成不完整目标的完整目标框自动标注,提高工作效率。本发明可以适应多种不同类型的目标。
-
公开(公告)号:CN115617955B
公开(公告)日:2023-03-21
申请号:CN202211602620.3
申请日:2022-12-14
Applicant: 数据堂(北京)科技股份有限公司 , 河北数云堂智能科技有限公司
IPC: G06F16/33 , G06F16/35 , G06F40/279 , G06F40/30 , G06F18/214 , G06F18/25 , G06N3/0442 , G06N3/0464 , G06N3/092
Abstract: 本发明涉及一种分级预测模型训练方法、标点符号恢复方法及装置,所述训练方法包括如下步骤:提取样本文本的样本词语集合,以及提取样本语音的样本音频特征;将所述样本词语集合、所述样本音频特征进行多模态特征融合,获得乘积量化特征;提取所述样本词语集合的样本语义特征,将所述样本语义特征与所述乘积量化特征分别输入低频标点符号预测模型、高频标点符号预测模型。本标点符号分级预测模型训练方法通过低频标点符号预测模型、高频标点符号预测模型进行训练,从而获得最优低频预测模型以及最优高频预测模型,利用两种不同的预测模型对文本的标点符号进行分级预测,可以扩大标点符号识别范围,提高文本标点符号的准确率。
-
公开(公告)号:CN115617955A
公开(公告)日:2023-01-17
申请号:CN202211602620.3
申请日:2022-12-14
Applicant: 数据堂(北京)科技股份有限公司 , 河北数云堂智能科技有限公司
IPC: G06F16/33 , G06F16/35 , G06F40/279 , G06F40/30 , G06F18/214 , G06F18/25 , G06N3/0442 , G06N3/0464 , G06N3/092
Abstract: 本发明涉及一种分级预测模型训练方法、标点符号恢复方法及装置,所述训练方法包括如下步骤:提取样本文本的样本词语集合,以及提取样本语音的样本音频特征;将所述样本词语集合、所述样本音频特征进行多模态特征融合,获得乘积量化特征;提取所述样本词语集合的样本语义特征,将所述样本语义特征与所述乘积量化特征分别输入低频标点符号预测模型、高频标点符号预测模型。本标点符号分级预测模型训练方法通过低频标点符号预测模型、高频标点符号预测模型进行训练,从而获得最优低频预测模型以及最优高频预测模型,利用两种不同的预测模型对文本的标点符号进行分级预测,可以扩大标点符号识别范围,提高文本标点符号的准确率。
-
公开(公告)号:CN112530414A
公开(公告)日:2021-03-19
申请号:CN202110178948.6
申请日:2021-02-08
Applicant: 数据堂(北京)科技股份有限公司
Abstract: 本发明公开了一种迭代式大规模发音词典构建方法及装置,其中该方法包括:根据文本生数据生成词条序列;根据音频生数据生成音标序列;根据词条序列,利用G2P模型生成二元组 ;根据音标序列,利用P2G模型生成二元组 ;计算两个二元组之间的匹配度,并与预设匹配度进行比较,对匹配度小于预设匹配度对应的二元组 和二元组 进行鉴别性样本抽取,获得鉴别性样本;获取领域专家对鉴别性样本的标注和校正,将标注和校正后的二元组 和二元组 存入多层次大规模发音词典。本发明能够快速有效地构建大规模发音词典,提升语音识别系统的工作效率并降低人工成本。
-
-
-
-
-
-
-
-
-