-
公开(公告)号:CN118228142A
公开(公告)日:2024-06-21
申请号:CN202410650118.2
申请日:2024-05-24
Applicant: 浙江大学
IPC: G06F18/2415 , G06F18/213 , G06F18/22 , G06N3/0495
Abstract: 本发明公开了一种基于特征校正的结构化数据新类别识别方法及装置,包括:获取有标注样本集和无标注样本集,将每一个样本输入表征编码器,得到样本表征;根据神经网络坍缩现象,生成预分配的单纯形等角紧凑结构作为目标化最优分类头;为无标注样本集中的样本生成初步伪标签,对初步伪标签进行细粒度修正,得到硬标签;基于目标化最优分类头和样本标签,对样本表征进行校正;根据校正后的样本表征和对应的标签,进行基于损失大小关系的标签过滤;使用过滤后的标签及其对应的样本进行半监督训练,更新表征编码器参数;所述半监督模型包括训练好的表征编码器和目标化最优分类头,用于新类样本识别。本发明大幅度提升结构化数据新类别识别准确率。
-
公开(公告)号:CN111797910B
公开(公告)日:2023-04-07
申请号:CN202010573198.8
申请日:2020-06-22
Applicant: 浙江大学
IPC: G06F18/241 , G06N20/00 , G06F18/214
Abstract: 本发明公开了一种基于平均偏汉明损失的图片数据偏标签多维学习方法,本发明首先进行数据标签集合预处理,然后进行数据集的预训练,接着使用预训练好的模型来提取图片特征,利用多层感知机基于获得的图片特征进行训练,得到训练模型,最后使用训练好的模型进行多维标签预测。本发明基于平均偏汉明损失,解决了偏标签多维分类问题。
-
公开(公告)号:CN111797911A
公开(公告)日:2020-10-20
申请号:CN202010573202.0
申请日:2020-06-22
Applicant: 浙江大学
Abstract: 本发明公开了一种图像数据多标签分类方法,该方法首先构建图片的拓扑关系,然后用基于协作的多标签传播算法(CMLP)来解决半监督多标签学习(SSML)问题,从而获得无标记图片的置信矩阵 本发明能够充分地利用多标签图像数据的多个标签之间的相关性来提升图片的多标签分类预测性能,提高了准确度和鲁棒性,同时能够挖掘无监督图像数据的分布信息,很好地解决半监督多标签学习问题,其性能优于现有的半监督图像数据多标签分类方法。
-
公开(公告)号:CN118939670A
公开(公告)日:2024-11-12
申请号:CN202411005185.5
申请日:2024-07-25
Applicant: 浙江大学
IPC: G06F16/23 , G06F16/2455
Abstract: 本发明公开了一种自适应调整权重的数据库页面替换方法,本方法使用页面值来表示页面的冷热程度,在替换的过程中根据命中率的变化来选择不同的权重,并在读取时将该权重添加到页面值中,在缓冲区没有空闲页槽时,通过循环遍历所有页槽来找到符合条件的页槽并将该页槽下的页面替换成要读取的页面,从而实现页面替换过程。本发明使用页面值来表示页面的冷热程度,减少了内存空间的消耗;不需要数据结构并发锁,提升了数据库的并发能力,增加了数据库的吞吐量;使用自适应变化的权重来使权重符合当前的负载,从而提高缓冲区的命中率,提高数据库的吞吐量。
-
公开(公告)号:CN110210515B
公开(公告)日:2021-04-20
申请号:CN201910339785.8
申请日:2019-04-25
Applicant: 浙江大学
IPC: G06K9/62
Abstract: 本发明公开了一种图像数据多标签分类方法。对输入图像进行分解,利用神经网络提取特征的高次相关性,对标签数据进行分解,利用神经网络提取标签的高次相关性,采用包含多层全连接层的神经网络将输入图像的特征码从输入空间解码到标签空间;构建损失函数,初始化训练参数,采用随机梯度下降方法最小化最终损失函数为目标,训练求解获得最优的训练参数;然后针对待测试的图像数据输入到训练后的模型中进行预测,输出获得标签结果,实现多标签分类。本发明解决了图像数据前人工作不能同时提取标签的二次相关性和多次相关性的问题,降低了由于图像数据太过稀疏带来的预测困难,提高了多标签分类的准确性。
-
公开(公告)号:CN111797910A
公开(公告)日:2020-10-20
申请号:CN202010573198.8
申请日:2020-06-22
Applicant: 浙江大学
Abstract: 本发明公开了一种基于平均偏汉明损失的图片数据偏标签多维学习方法,本发明首先进行数据标签集合预处理,然后进行数据集的预训练,接着使用预训练好的模型来提取图片特征,利用多层感知机基于获得的图片特征进行训练,得到训练模型,最后使用训练好的模型进行多维标签预测。本发明基于平均偏汉明损失,解决了偏标签多维分类问题。
-
公开(公告)号:CN111259938A
公开(公告)日:2020-06-09
申请号:CN202010023677.2
申请日:2020-01-09
Applicant: 浙江大学
IPC: G06K9/62
Abstract: 本发明公开了一种基于流形学习和梯度提升模型的图片偏多标签分类方法。从训练数据集构建一个加权图,通过求解以上第一最小化模型获得非负权重矩阵,根据加权图建立第二最小化模型并求解获得重构标签矩阵,根据重构标签矩阵将训练数据集换构造并训练二值相关模型,预测得标签矩阵;对图片的特征向量矩阵建立回归器最小化求解,用迭代预测结果矩阵增强特征向量矩阵,结合负梯度矩阵构造数据集并训练学习获得弱回归器,求和所有弱回归器,得最终回归器,对预待测图片处理判断。本发明能够充分地利用图片偏多标签数据之间的相关性来提升图片的多标签分类预测性能,可实现偏标签数据的消歧,提高了准确度和鲁棒性,其性能优于现有的图片偏多标签方法。
-
公开(公告)号:CN110210515A
公开(公告)日:2019-09-06
申请号:CN201910339785.8
申请日:2019-04-25
Applicant: 浙江大学
IPC: G06K9/62
Abstract: 本发明公开了一种图像数据多标签分类方法。对输入图像进行分解,利用神经网络提取特征的高次相关性,对标签数据进行分解,利用神经网络提取标签的高次相关性,采用包含多层全连接层的神经网络将输入图像的特征码从输入空间解码到标签空间;构建损失函数,初始化训练参数,采用随机梯度下降方法最小化最终损失函数为目标,训练求解获得最优的训练参数;然后针对待测试的图像数据输入到训练后的模型中进行预测,输出获得标签结果,实现多标签分类。本发明解决了图像数据前人工作不能同时提取标签的二次相关性和多次相关性的问题,降低了由于图像数据太过稀疏带来的预测困难,提高了多标签分类的准确性。
-
公开(公告)号:CN119988979A
公开(公告)日:2025-05-13
申请号:CN202510160819.2
申请日:2025-02-13
Applicant: 浙江大学计算机创新技术研究院
IPC: G06F18/214 , G06N3/08 , G06N5/04
Abstract: 本发明公开了一种基于迭代数据增强策略提升大模型微调效果的方法和装置。本发明包括根据要求人工生成一批分布各不同的种子数据;基于规则或者大模型对人工生成的种子数据进行增强;检查增强数据的质量;用检查好的数据微调模型,并用训练好的模型推理训练数据;对推理结果进行各方面的综合评估;评估出来的指标是否满足要求;如果不满足要求则对错误的样本再进行增强,反复迭代;评估结果满足要求则结束整个流程。本发明显著降低了小数据集下大模型微调的门槛,通过生成有针对性的合成数据,使模型在数据稀缺的场景中表现优异。
-
公开(公告)号:CN119398018A
公开(公告)日:2025-02-07
申请号:CN202411975829.3
申请日:2024-12-31
Applicant: 浙江大学计算机创新技术研究院
Abstract: 本发明公开了一种二维表格数据多模态模型的设计和训练方法。本发明首先设计二维表格数据多模态模型,其包括表格表征模块,所述表格表征模块由多个串行的双向注意力模块组成;通过所述双向注意力模块处理使得表格表征词嵌入集能够与其它相关单元格交互,捕获全局结构化表格语义;然后预训练表格表征模块,使用大量原始表格数据来训练表格表征模块,使其能够输出准确的表格表征信息;最后对表格表征模块和大语言模型解码器进行对齐训练,采用表格表征模块和大语言模型解码器进行联合监督微调。本发明能实现表格模态与文本模态共同输入大模型进行表格问答、数据分析等生成式任务,有效提升二维表格问答、代码生成等任务的效果和性能。
-
-
-
-
-
-
-
-
-