-
公开(公告)号:CN115080749A
公开(公告)日:2022-09-20
申请号:CN202210980845.6
申请日:2022-08-16
Applicant: 之江实验室
IPC: G06F16/35 , G06F40/205 , G06F40/242 , G06K9/62
Abstract: 本发明公开了一种基于自监督训练的弱监督文本分类方法、系统和装置,包括如下步骤:S1:获取待标注文本数据和对应的类别标签集合;S2:获取预训练模型;S3:将预训练模型部分权重迁移至文本分类模型;S4:通过自监督伪标策略获得文本分类伪标签;本发明提供了一种基于自监督训练的弱监督文本分类方法,更贴近于文本分类实际应用场景,用户只需提供待标注数据和类别标签集合即可,极大地减少了文本数据标注成本。目前已有较多科技巨头公司开源了各种预训练自然语言模型,这些模型已提前学习到了海量信息中的通识知识,保证了分类精度。通过采用迁移学习方法和自监督训练策略,进一步提高了分类效率和精度。
-
公开(公告)号:CN114647732A
公开(公告)日:2022-06-21
申请号:CN202210559452.8
申请日:2022-05-23
Applicant: 之江实验室
IPC: G06F16/35
Abstract: 本发明公开了一种面向弱监督文本分类系统、方法和装置,包括以下模块:获取模块:从数据库中获取用户上传的待标注文本数据和提供的类别标签集合;文本分类模块:根据获取模块中用户上传的待标注文本数据,确定预训练自然语言模型,使用确定模型对待标注文本数据进行分类输出标注结果;文本标注模块:根据文本分类模块输出的标注结果,生成与待标注文本数据相对应的标注结果,从而完成对所述待标注文本数据的标注,本发明提供了一种面向弱监督文本分类系统,为解决文本分类问题提供一种新的解决思路,即用户只需提供待标注文本数据和类别标签集合,便可实现高准确率的标注结果,极大地减少了文本数据标注成本。
-
公开(公告)号:CN113191385B
公开(公告)日:2022-06-03
申请号:CN202110318366.3
申请日:2021-03-25
Applicant: 之江实验室
IPC: G06V10/774 , G06V10/762 , G06V10/764 , G06V10/82 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于预训练标注数据不可知的图像分类自动标注方法,包括如下步骤:S1,获取待标注图像,收集预训练图像分类模型;S2,将预训练图像分类模型拆分成特征提取模型与标签预测模型,并初始化,固定标签预测模型参数,不参与后续迁移训练;S3,约束特征提取模型,使自动标注模型的输出具体类别确定,整体分布离散;S4,对特征提取模型输出特征进行聚类;S5,筛选出大小超过阈值的聚类簇,所对应的类别组成为待标注图像标签空间;S6,给所有待标注图像打上伪标签;S7,重新聚类并分配伪标签,对特征提取模型进行有监督训练;S8,迭代S3至S7;S9,使用迁移后的自动标注模型对待标注图像进行推理,得到标注结果。
-
公开(公告)号:CN114647732B
公开(公告)日:2022-09-06
申请号:CN202210559452.8
申请日:2022-05-23
Applicant: 之江实验室
IPC: G06F16/35
Abstract: 本发明公开了一种面向弱监督文本分类系统、方法和装置,包括以下模块:获取模块:从数据库中获取用户上传的待标注文本数据和提供的类别标签集合;文本分类模块:根据获取模块中用户上传的待标注文本数据,确定预训练自然语言模型,使用确定模型对待标注文本数据进行分类输出标注结果;文本标注模块:根据文本分类模块输出的标注结果,生成与待标注文本数据相对应的标注结果,从而完成对所述待标注文本数据的标注,本发明提供了一种面向弱监督文本分类系统,为解决文本分类问题提供一种新的解决思路,即用户只需提供待标注文本数据和类别标签集合,便可实现高准确率的标注结果,极大地减少了文本数据标注成本。
-
公开(公告)号:CN113836386B
公开(公告)日:2022-03-25
申请号:CN202111410689.1
申请日:2021-11-25
Applicant: 之江实验室
IPC: G06F16/953 , G06F21/64 , H04L9/32
Abstract: 本发明提供了一种并行模式搜索空间构造系统和方法,该方法为:初始化输入逻辑张量;计算并输出逻辑张量真值;构造所有候选并行模式,确定输入和输出张量并行模式迭代内容;结合输入张量并行模式迭代内容,切分输入逻辑张量为物理张量;判断物理张量计算合法性,若合法,计算物理张量结果并输出;若非法,继续输入张量并行模式迭代过程;结合输出张量并行模式迭代内容,合并物理张量运算结果为逻辑张量;对比逻辑张量真值和逻辑张量,若相等,将该并行模式添加到合法并行模式搜索空间中,并直接继续输入张量并行模式迭代过程;若不相等,继续输出张量并行模式迭代过程,直到迭代完成后,重复所述以上步骤,直到所述输入张量并行模式迭代过程完成。
-
公开(公告)号:CN113420865A
公开(公告)日:2021-09-21
申请号:CN202110660174.0
申请日:2021-06-15
Applicant: 之江实验室
Abstract: 本发明涉及一种基于多算子融合的深度神经网络推理加速方法和系统,该方法具体为:首先输入神经网络计算图,获取神经网络计算逻辑图,依据神经网络算子间计算关系,获取完整的神经网络前向计算的符号表达式;然后使用可融合算子搜索方法,利用算子符号表达式自动简化系统,化简神经网络前向计算的符号表达式,获取最简的符号表达式,实现多算子融合;再依据多算子融合结果,根据获得的最简符号表达式,构建新的神经网络计算推理逻辑图,解耦最简符号表达式,离线计算并存储为新的模型参数,构建相应的神经网络模型结构;最后加载新的模型参数实现推理加速。本发明能够减少算子执行间隙的开销,提升设备计算资源利用率,优化网络整体推理速度。
-
公开(公告)号:CN113191385A
公开(公告)日:2021-07-30
申请号:CN202110318366.3
申请日:2021-03-25
Applicant: 之江实验室
Abstract: 本发明公开了一种基于预训练标注数据不可知的图像分类自动标注方法,包括如下步骤:S1,获取待标注图像,收集预训练图像分类模型;S2,将预训练图像分类模型拆分成特征提取模型与标签预测模型,并初始化,固定标签预测模型参数,不参与后续迁移训练;S3,约束特征提取模型,使自动标注模型的输出具体类别确定,整体分布离散;S4,对特征提取模型输出特征进行聚类;S5,筛选出大小超过阈值的聚类簇,所对应的类别组成为待标注图像标签空间;S6,给所有待标注图像打上伪标签;S7,重新聚类并分配伪标签,对特征提取模型进行有监督训练;S8,迭代S3至S7;S9,使用迁移后的自动标注模型对待标注图像进行推理,得到标注结果。
-
公开(公告)号:CN113128565A
公开(公告)日:2021-07-16
申请号:CN202110317531.3
申请日:2021-03-25
Applicant: 之江实验室
Abstract: 本发明公开了面向预训练标注数据不可知的图像自动标注系统,包括:获取模块和图像标注模块,及分别与所述获取模块和图像标注模块连接的模型迁移模块;所述获取模块,用于获取一组图像标注任务和待标注图像;所述模型迁移模块,用于将一组确定的预训练图像处理模型无监督迁移至适配于待标注图像域的更新后的图像处理模型,包括依次连接的模型拆分单元、信息最大化损失约束单元、聚类单元、标签空间分类单元、标签分配单元、分配更新单元和收敛单元;所述图像标注模块,用于生成与待标注图像相匹配的标注信息,并进行可视化标注。
-
公开(公告)号:CN115080750B
公开(公告)日:2022-11-08
申请号:CN202210980846.0
申请日:2022-08-16
Applicant: 之江实验室
IPC: G06F16/35 , G06F40/289 , G06K9/62
Abstract: 本发明公开了一种基于融合提示序列的弱监督文本分类方法、系统和装置,包括如下步骤:步骤1:获取待标注文本和类别标签集合;步骤2:对待标注文本增加提示序列,提示序列中引入占位符,所述占位符表示需后序处理以预测该位置单词;本发明基于更符合现实应用的弱监督文本分类场景,极大地减少了文本分类任务中人工的介入,降低了不可避免的人工误差,极大地节约了标注成本,提高了标注效率;在不获得任何标注信息的情况下,通过对文本数据进行有效的预处理,以及充分利用预训练模型输出特征,在不微调超大预训练模型的情况下,实现自动标注精度的大幅度提升。
-
公开(公告)号:CN115080749B
公开(公告)日:2022-11-08
申请号:CN202210980845.6
申请日:2022-08-16
Applicant: 之江实验室
IPC: G06F16/35 , G06F40/205 , G06F40/242 , G06K9/62
Abstract: 本发明公开了一种基于自监督训练的弱监督文本分类方法、系统和装置,包括如下步骤:S1:获取待标注文本数据和对应的类别标签集合;S2:获取预训练模型;S3:将预训练模型部分权重迁移至文本分类模型;S4:通过自监督伪标策略获得文本分类伪标签;本发明提供了一种基于自监督训练的弱监督文本分类方法,更贴近于文本分类实际应用场景,用户只需提供待标注数据和类别标签集合即可,极大地减少了文本数据标注成本。目前已有较多科技巨头公司开源了各种预训练自然语言模型,这些模型已提前学习到了海量信息中的通识知识,保证了分类精度。通过采用迁移学习方法和自监督训练策略,进一步提高了分类效率和精度。
-
-
-
-
-
-
-
-
-