文本标注方法和装置、计算机设备及存储介质

    公开(公告)号:CN117540730A

    公开(公告)日:2024-02-09

    申请号:CN202311316116.1

    申请日:2023-10-10

    Abstract: 本申请实施例提供了一种文本标注方法和装置、计算机设备及存储介质,属于人工智能技术领域。该方法包括:获取原始文本和原始标注信息;对原始文本分类得到自动标注信息;接收由标注端对原始文本扩展得到同义文本,根据自动标注信息对同义文本筛选的扩展文本;将扩展文本和原始文本拼接得到候选文本,将自动标注信息和原始标注信息拼接得到候选标注信息;获取候选文本中候选标注信息的标注类别数量;根据标注类别数量对候选标注信息筛选得到目标标注信息;获取目标标注信息的标注比例;若标注比例低于预设比例阈值,生成反馈信息至专家系统以接收专家标注信息;将专家标注信息和候选文本组合得到目标文本数据。本申请实施例能够提高文本标注质量。

    模型溯源方法、装置、设备及存储介质

    公开(公告)号:CN117390598A

    公开(公告)日:2024-01-12

    申请号:CN202311399658.X

    申请日:2023-10-25

    Abstract: 本发明公开了一种模型溯源方法、装置、设备及存储介质。该方法包括:获取源模型对应的训练数据;根据所述训练数据确定所述源模型对应的源模型DNA以及目标模型对应的目标模型DNA;基于所述源模型DNA和所述目标模型DNA确定组合DNA;将所述组合DNA输入至预设判别器模型,根据所述预设判别器模型输出的判别结果确定模型溯源结果。由于本发明是通过源模型对应的源模型DNA以及目标模型对应的目标模型DNA确定组合DNA,将组合DNA输入至预设判别器模型,得到模型溯源结果。本发明首次引入了机器学习模型DNA的概念。可以实现对模型的追溯,以追踪模型的来源。这有助于确保模型的可信度和安全性。

    一种支持异构集群下的模型并行训练方法及相关设备

    公开(公告)号:CN115471394A

    公开(公告)日:2022-12-13

    申请号:CN202211156400.2

    申请日:2022-09-22

    Abstract: 本发明公开了一种支持异构集群下的模型并行训练方法及相关设备,所述方法包括:各个集群根据自己的框架编写好代码,然后在各自的框架上训练一部分数据,接着先在集群内部进行模型拼接,把模型并行切分到多张卡的模型参数合并成一个完整的模型,不同集群的拼接后得到的模型是一致的,然后将拼接完的模型参数进行分片传输到参数服务器,参数服务器对模型参数进行融合,接着参数服务器将融合后的模型下发到各个集群,最后各个分集群将收到的模型按照各自的模型并行训练策略进行模型并行切分后训练;本发明实现了用户隐私保护、数据安全、大模型并行训练和大模型传输,能整合不同计算中心资源,满足了异构框架,异构集群共同训练大模型的需求。

    基于智算网络的协同训练方法、装置、终端及存储介质

    公开(公告)号:CN115297008A

    公开(公告)日:2022-11-04

    申请号:CN202210793410.0

    申请日:2022-07-07

    Abstract: 本发明公开了一种基于智算网络的协同训练方法、装置、终端及存储介质,方法包括:获取若干个待训练算法及对应的数据集,并根据获取的若干个算法及数据集生成多个任务组;根据选择的任务组确定分布式智能协同计算平台中的待训练终端,并确定各待训练终端对应的待训练算法及数据集;通过跨异构智算中心的协同训练策略对所有待训练终端的模型进行协同训练及推理,得到协同训练及推理结果;根据所述协同训练及推理结果获取多模型融合策略,并通过所述多模型融合策略对训练后终端中的算法进行融合,得到基于分布式多框架的跨异构智算中心的协同计算模型。本发明可以实现单集群难以实现的大模型协同训练、多模型融合、大模型压缩等技术。

    文本标注方法和装置、计算机设备及存储介质

    公开(公告)号:CN117540730B

    公开(公告)日:2024-10-18

    申请号:CN202311316116.1

    申请日:2023-10-10

    Abstract: 本申请实施例提供了一种文本标注方法和装置、计算机设备及存储介质,属于人工智能技术领域。该方法包括:获取原始文本和原始标注信息;对原始文本分类得到自动标注信息;接收由标注端对原始文本扩展得到同义文本,根据自动标注信息对同义文本筛选的扩展文本;将扩展文本和原始文本拼接得到候选文本,将自动标注信息和原始标注信息拼接得到候选标注信息;获取候选文本中候选标注信息的标注类别数量;根据标注类别数量对候选标注信息筛选得到目标标注信息;获取目标标注信息的标注比例;若标注比例低于预设比例阈值,生成反馈信息至专家系统以接收专家标注信息;将专家标注信息和候选文本组合得到目标文本数据。本申请实施例能够提高文本标注质量。

    文本检测方法、装置、设备和存储介质

    公开(公告)号:CN117332039A

    公开(公告)日:2024-01-02

    申请号:CN202311218607.2

    申请日:2023-09-20

    Abstract: 本申请实施例提供文本检测方法、装置、设备和存储介质,涉及人工智能技术领域。该方法包括:利用预设检测词表初步将包含敏感词的检测文本筛选出来,再利用多个安全检测模型对初筛后的检测文本更细粒度的合规性判断,得到表征合规性的检测得分,这里检测得分越高表征检测文段的安全性越高。在后续检测过程中,本实施例并不仅简单地将所有检测文段的检测得分通过作为合规性结果,而是预留一定的冗余,虽然一些检测文段的检测得分没有通过,但是其数量较少,则也可以认为其合规。通过多阶段检测,从粗粒度到细粒度进行合规判断,能够在整体上降低检测文本被误检的概率。

    深度学习平台的数据集缓存加速方法、系统、设备及介质

    公开(公告)号:CN116737363A

    公开(公告)日:2023-09-12

    申请号:CN202310519363.5

    申请日:2023-05-09

    Abstract: 本发明涉及人工智能,提供了一种深度学习平台的数据集缓存加速方法、系统、设备及介质,该方法包括:响应于任务指令,将远端存储的目标数据集映射至数据集抽象组件;基于数据集抽象组件对加速引擎组件进行绑定;根据目标数据集从所有处理节点中确定出用于执行训练任务的工作节点;根据缓存配置参数,对工作节点的缓存区域进行配置,并对缓存区域与加速引擎组件进行映射关系建立,形成逻辑存储,以使目标数据集通过加速引擎组件映射至缓存区域;将训练任务挂载至逻辑存储,以便于训练任务通过缓存区读取目标数据集。本发明实施例提供的数据集缓存加速方法能够解决计算应用程序与异构存储之间的兼容性问题,同时提升数据读取的速度。

    基于Spark的大规模数据全局去重方法、电子设备及介质

    公开(公告)号:CN116561110A

    公开(公告)日:2023-08-08

    申请号:CN202310439940.X

    申请日:2023-04-18

    Abstract: 本申请提出一种基于Spark的大规模数据去重方法、电子设备和存储介质,通过将大规模语料数据进行预处理,将预处理后得到的第一处理文档存储至不同存储分区,再在各个存储分区内对第一处理文档进行分组,从而排除大量完全不相关的文档,再进行相似检测得到每个第一处理文档的相似对,并在文档分组、存储分区以及全局三种粒度上对相似对进行合并,在文档分组和存储分区的粒度上通过分布式并行运行的方法对相似对进行高效率合并,大大减少系统全局粒度上合并的计算量,从而实现对大规模数据的高效率模糊去重。

    一种跨计算节点分布式训练高效通信方法及系统

    公开(公告)号:CN116070719B

    公开(公告)日:2023-07-14

    申请号:CN202310271228.3

    申请日:2023-03-20

    Abstract: 本发明公开了一种跨计算节点分布式训练高效通信方法及系统,所述方法包括:在中心服务器上构建分布式训练机器学习模型;获取分布式训练机器学习模型中每个计算节点的本地更新量,并对本地更新量进行量化,得到量化后的本地更新量;根据量化后的本地更新量得到全局更新量,并对全局更新量进行量化,得到量化后的全局更新量;在各计算节点中,根据量化后的全局更新量更新分布式训练机器学习模型参数,得到更新后的分布式训练机器学习模型。本发明通过量化方法将计算节点间所需要通信的数据进行压缩以减少通讯数据量,不会影响最终收敛特性,从而减少通信时间,提高系统的整体训练效率。

Patent Agency Ranking