联邦数据管控下的基于规则对齐的激励方法及装置

    公开(公告)号:CN119357754B

    公开(公告)日:2025-04-08

    申请号:CN202411911075.5

    申请日:2024-12-24

    Abstract: 本申请公开了一种联邦数据管控下的基于规则对齐的激励方法及装置,其首先指定联邦数据管控规则,同时从第一联邦节点和第二联邦节点获取用户的行为数据,并采用基于深度学习的数据处理技术对用户行为数据进行时序分析,以分别捕捉到第一联邦节点和第二联邦节点的用户行为特征,进而,通过将第一联邦节点用户行为特征和第二联邦节点用户行为特征分别与联邦数据管控规则进行语义关联分析,从而智能确定联邦节点的激励结果。这样,通过量化用户行为与联邦数据管控规则的一致性来调整联邦学习过程中各节点的权重分配,实现了对联邦学习参与者的公平激励,能够有效促进联邦学习环境中数据资源的高效利用,提高联邦学习的整体性能和隐私性。

    大模型数据智能标注方法及系统

    公开(公告)号:CN119378564A

    公开(公告)日:2025-01-28

    申请号:CN202411949511.8

    申请日:2024-12-27

    Abstract: 本申请涉及数据标注技术领域,其具体地公开了一种大模型数据智能标注方法及系统,其采用基于深度学习的自然语言处理技术对未标注文本数据集中的各个未标注文本数据进行置信度评估,选择最小置信度对应的文本数据作为代表样本数据,并对所述代表样本数据进行语料扩充,进而,通过对所述代表样本数据和语料扩充后的代表样本数据进行语义特征提取和补偿式交互融合,以充分利用两者之间的共有信息和独特信息,从而实现对所述代表样本数据的全面语义理解和智能标注。通过这种方式,可以显著提高数据标注的效率和准确性,同时大幅度减少人工干预的需求,降低标注成本。

    一种基于前置节点的联邦数据共享方法和装置

    公开(公告)号:CN119316229A

    公开(公告)日:2025-01-14

    申请号:CN202411845229.5

    申请日:2024-12-16

    Abstract: 本发明涉及数据共享技术领域,且公开了一种基于前置节点的联邦数据共享方法和装置,其中方法包括:前置节点将获取到的联邦数据上传至私有链,前置节点上传本地区的基础公共服务信息到私有链,前置节点计算联邦数据特征,并上链请求验证,其他节点根据本地区实际情况,反馈验证值或对联邦数据进行修正,监管机构定期对整个链上的节点进行性能监管和数据统计分析,本发明通过在前置节点上进行数据预处理和加密,确保了数据在传输过程中的安全性和隐私性,前置节点作为中介,可以优化数据传输流程,提高处理效率,减轻链上节点的负载。

    自动驾驶场景下不完整点云数据标注方法、装置及终端

    公开(公告)号:CN118071994A

    公开(公告)日:2024-05-24

    申请号:CN202410213038.0

    申请日:2024-02-27

    Abstract: 本发明提供了自动驾驶场景下不完整点云数据标注方法、装置及终端,属于点云数据标注技术领域,本方法包括利用启动标注模块在点云数据内进行范围框选,形成启动三维矩形框;对启动三维矩形框的点云进行过滤,然后再进行聚类,形成多个簇,选取待标注目标簇,然后利用预设规则生成外接三维矩形框;计算凸包边界,自动矫正外接三维矩形框,使之与目标朝向保持一致,构建最小矩形框;推理最小矩形框的生长方向,确定生长距离,以此自动补全最小矩形框,形成完整的待标注目标矩形框。本发明能够帮助标注人员快速准确完成不完整目标的完整目标框自动标注,提高工作效率。本发明可以适应多种不同类型的目标。

    一种语音数据质量检测方法、装置、服务器及存储介质

    公开(公告)号:CN110580917B

    公开(公告)日:2022-02-15

    申请号:CN201910870667.X

    申请日:2019-09-16

    Abstract: 本发明提供一种语音数据质量检测方法、装置、服务器及存储介质,以帧为单位对待进行质量检测的语音数据进行分割得到至少一个语音帧,计算语音帧在预先设置的至少一个频段中每个频段的频谱能量值,并将利用至少一个语音帧中每个语音帧在频段的频谱能量值计算语音数据在频段的目标频谱能量值,分析语音数据在各个频段的目标频谱能量值得到语音数据的质量检测结果。本发明提供的技术方案通过对语音数据在不同频段的目标频谱能量值的计算可分析出语音数据的语音质量检测结果,实现了对语音数据质量的检测。

    数据标注方法及装置
    18.
    发明公开

    公开(公告)号:CN113205163A

    公开(公告)日:2021-08-03

    申请号:CN202110764998.2

    申请日:2021-07-07

    Abstract: 本发明公开了一种数据标注方法及装置,该方法包括:利用无监督学习算法进行冷启动,对原始的无标签数据进行初级分类,生成弱和伪标签数据信息;对伪标签数据信息进行校验标注;对预设数量的弱标签数据信息进行标注,获得部分已标注数据,基于弱监督学习算法和部分已标注数据,对剩余的弱标签数据信息进行预标注,生成预标注结果;对预标注结果进行半监督学习算法的样本筛选,获得精品数据集;对精品数据集进行数据补充,获得全标签数据集;利用全标签数据集对无监督学习算法、弱监督学习算法和半监督学习算法进行算法迭代,获得优化的无监督学习算法、弱监督学习算法和半监督学习算法。本发明可以大幅减少人工标注成本,并提高数据标注效率。

    迭代式大规模发音词典构建方法及装置

    公开(公告)号:CN112530414A

    公开(公告)日:2021-03-19

    申请号:CN202110178948.6

    申请日:2021-02-08

    Abstract: 本发明公开了一种迭代式大规模发音词典构建方法及装置,其中该方法包括:根据文本生数据生成词条序列;根据音频生数据生成音标序列;根据词条序列,利用G2P模型生成二元组 ;根据音标序列,利用P2G模型生成二元组 ;计算两个二元组之间的匹配度,并与预设匹配度进行比较,对匹配度小于预设匹配度对应的二元组 和二元组 进行鉴别性样本抽取,获得鉴别性样本;获取领域专家对鉴别性样本的标注和校正,将标注和校正后的二元组 和二元组 存入多层次大规模发音词典。本发明能够快速有效地构建大规模发音词典,提升语音识别系统的工作效率并降低人工成本。

    基于多模态大模型的问答数据处理方法及系统

    公开(公告)号:CN120030132A

    公开(公告)日:2025-05-23

    申请号:CN202510510268.8

    申请日:2025-04-23

    Abstract: 本申请涉及智能问答技术领域,其具体地公开了一种基于多模态大模型的问答数据处理方法及系统,其采用基于深度学习的多模态数据处理技术对用户输入的文本问题和图像模态上下文进行语义解析,分别提取出文本问题和图像模态上下文的语义特征,接着对两者进行线性投影以实现特征对齐,并引入跨模态特征全域关联交互机制,挖掘文本问题与图像模态上下文之间的深层次语义关联,实现对文本问题和图像模态上下文信息的有效融合,进而利用大语言模型的推理能力,生成与文本问题相关的文本答案。通过这种方式,能够显著提高问答系统对多模态信息的理解和处理能力,生成与文本问题紧密相关且逻辑完整的文本答案,满足用户对于多模态问答场景下的信息需求。

Patent Agency Ranking