一种基于词权统计和预训练模型的文本分类方法及装置

    公开(公告)号:CN118535743B

    公开(公告)日:2024-11-05

    申请号:CN202411004264.4

    申请日:2024-07-25

    申请人: 之江实验室

    摘要: 本发明公开了一种基于词权统计和预训练模型的文本分类方法及装置,主要包括以下步骤:获取文本语料并存储在文本数据库中;对文本语料进行数据清洗得到文本数据集;利用词频‑逆标签集频率算法生成词‑标签权重词典;利用词‑标签权重词典生成文本权重得分向量结合预处理后的文本经文本分类模型得到文本分类预测结果,对模型进行迭代训练;利用预训练后的文本分类模型对新输入文本进行分类。本发明将每个词相对于每个标签的重要程度作为先验知识,之后在文本分类模型中使用注意力机制将该先验知识融入预训练BERT模型输出的文本语义表示中,能够进一步提高文本分类的准确率和效率。

    基于联邦学习客户端选择的分类模型训练方法及系统

    公开(公告)号:CN117557870A

    公开(公告)日:2024-02-13

    申请号:CN202410022912.2

    申请日:2024-01-08

    申请人: 之江实验室

    摘要: 本申请涉及一种基于联邦学习客户端选择的分类模型训练方法、系统及介质,其中,基于联邦学习客户端选择的分类模型训练方法包括:初始化全局模型,并初始化虚拟队列、客户端相似度矩阵以及客户端选中频率矩阵;在每一次迭代训练过程中,基于所述虚拟队列、所述客户端相似度矩阵以及所述客户端选中频率矩阵,确定参与本轮训练的K个客户端;将所述全局模型发送至所述K个客户端进行并行训练,得到聚合后的全局模型;更新所述虚拟队列、所述客户端相似度矩阵以及所述客户端选中频率矩阵,并重复所述迭代训练过程直至达到设定的迭代次数,获得训练好的全局模型;使用训练好的全局模型对目标数据集进行分类,得到分类结果,提高了图像分类的精度。

    一种基因表达量的检测数据管理方法及装置

    公开(公告)号:CN117935915A

    公开(公告)日:2024-04-26

    申请号:CN202410072107.0

    申请日:2024-01-17

    申请人: 之江实验室

    IPC分类号: G16B25/00 G16B50/30 G16B40/00

    摘要: 在本说明书提供的一种基因表达量的检测数据管理方法及装置中,响应于用户的管理请求,通过提取该管理请求携带的存储基因表达量检测值的源文件中的各第一标签信息,以及针对每个第一标签信息,从第一数据仓库中检索该第一标签信息,确定有效性,当有效性为有效时,将该第一标签信息以及该第一标签信息的基因表达量检测值,作为检测数据,并按照预设规则,存入第二数据仓库,通过该第二数据仓库中的检测数据,确定管理信息返回给用户。将第一标签信息的有效性为有效作为筛选标准,确定符合该筛选标准的检测数据,并按照预设规则存入第二数据仓库,实现了对源文件中基因表达量检测值的筛选,以及实现了存储方式的统一,便于用户后续管理。

    一种细胞检测数据预处理方法、装置及存储介质

    公开(公告)号:CN117743809A

    公开(公告)日:2024-03-22

    申请号:CN202410189827.5

    申请日:2024-02-20

    申请人: 之江实验室

    摘要: 本说明书公开了一种细胞检测数据预处理方法、装置及存储介质,获取待处理的各细胞检测数据和各细胞检测数据对应的配置信息,配置信息至少包含若干提取规则,针对各细胞检测数据包含的每个子数据,确定该子数据的数据标识,根据数据标识,确定数据标识对应的各提取规则,依次针对每个提取规则,通过该提取规则从该子数据中提取对应的目标值,按照提取各目标值的顺序,确定该子数据对应的目标数据,根据各子数据对应的目标数据,确定结果数据。通过提取规则,可以实现对细胞检测数据中的各数据值的提取,并将提取到的各数据值重新排列整合为结果数据输出,该结果数据可用于机器学习算法的数据分析,与手动进行预处理相比,提高了预处理效率。

    一种基于贝叶斯优化的多肽筛选方法和装置

    公开(公告)号:CN118588155A

    公开(公告)日:2024-09-03

    申请号:CN202410637669.5

    申请日:2024-05-22

    申请人: 之江实验室

    摘要: 本发明公开了一种基于贝叶斯优化的多肽筛选方法和装置,该方法在原始天然肽的基础上,充分结合分子动力学和分子对接等多种结合模拟手段,基于贝叶斯优化筛选出高亲和力的多肽序列;对天然多肽和蛋白进行分子对接;使用贝叶斯优化进行多肽突变生成新的多肽序列,并进行分子对接;使用构建的多肽蛋白的目标函数,基于贝叶斯优化筛选出推荐的多肽序列,不断迭代循环,最终筛选出高亲和力的突变多肽。本发明能够解决多肽药物序列生成高亲和力肽序列较为困难的行业痛点,能够很好的开展多肽蛋白间的优化筛选,基于贝叶斯优化不断迭代出极高亲和力的多肽序列,为大分子药物设计提供了一体化的生成与筛选流程。

    一种基于词权统计和预训练模型的文本分类方法及装置

    公开(公告)号:CN118535743A

    公开(公告)日:2024-08-23

    申请号:CN202411004264.4

    申请日:2024-07-25

    申请人: 之江实验室

    摘要: 本发明公开了一种基于词权统计和预训练模型的文本分类方法及装置,主要包括以下步骤:获取文本语料并存储在文本数据库中;对文本语料进行数据清洗得到文本数据集;利用词频‑逆标签集频率算法生成词‑标签权重词典;利用词‑标签权重词典生成文本权重得分向量结合预处理后的文本经文本分类模型得到文本分类预测结果,对模型进行迭代训练;利用预训练后的文本分类模型对新输入文本进行分类。本发明将每个词相对于每个标签的重要程度作为先验知识,之后在文本分类模型中使用注意力机制将该先验知识融入预训练BERT模型输出的文本语义表示中,能够进一步提高文本分类的准确率和效率。

    一种推荐塑料降解酶突变位点的方法、电子设备、介质

    公开(公告)号:CN116863996A

    公开(公告)日:2023-10-10

    申请号:CN202310724842.0

    申请日:2023-06-19

    申请人: 之江实验室

    IPC分类号: G16B20/30 G16B20/50 G16B30/10

    摘要: 本发明公开了一种推荐塑料降解酶突变位点的方法、电子设备、介质,包括:步骤S1,获取待预测塑料降解酶的氨基酸序列及其底物;预测底物与塑料降解酶的相互作用区域;设置阈值距离,以底物分子或塑料降解酶活性位点为基准阈值距离内的塑料降解酶氨基酸作为候选氨基酸突变位点;步骤S2,获取待预测塑料降解酶的空间结构,以氨基酸为节点,氨基酸之间的连接为边,经几何向量感知机预测输出每个候选氨基酸突变位点对应的i种氨基酸的预测概率,将概率最高的氨基酸作为该候选氨基酸突变位点可推荐的氨基酸;比较每个候选氨基酸突变位点的预测结果,当预测结果与原氨基酸序列不一致时,将该候选氨基酸突变位点作为推荐的塑料降解酶突变位点。

    一种细胞检测数据预处理方法、装置及存储介质

    公开(公告)号:CN117743809B

    公开(公告)日:2024-05-24

    申请号:CN202410189827.5

    申请日:2024-02-20

    申请人: 之江实验室

    摘要: 本说明书公开了一种细胞检测数据预处理方法、装置及存储介质,获取待处理的各细胞检测数据和各细胞检测数据对应的配置信息,配置信息至少包含若干提取规则,针对各细胞检测数据包含的每个子数据,确定该子数据的数据标识,根据数据标识,确定数据标识对应的各提取规则,依次针对每个提取规则,通过该提取规则从该子数据中提取对应的目标值,按照提取各目标值的顺序,确定该子数据对应的目标数据,根据各子数据对应的目标数据,确定结果数据。通过提取规则,可以实现对细胞检测数据中的各数据值的提取,并将提取到的各数据值重新排列整合为结果数据输出,该结果数据可用于机器学习算法的数据分析,与手动进行预处理相比,提高了预处理效率。

    基于联邦学习客户端选择的分类模型训练方法及系统

    公开(公告)号:CN117557870B

    公开(公告)日:2024-04-23

    申请号:CN202410022912.2

    申请日:2024-01-08

    申请人: 之江实验室

    摘要: 本申请涉及一种基于联邦学习客户端选择的分类模型训练方法、系统及介质,其中,基于联邦学习客户端选择的分类模型训练方法包括:初始化全局模型,并初始化虚拟队列、客户端相似度矩阵以及客户端选中频率矩阵;在每一次迭代训练过程中,基于所述虚拟队列、所述客户端相似度矩阵以及所述客户端选中频率矩阵,确定参与本轮训练的K个客户端;将所述全局模型发送至所述K个客户端进行并行训练,得到聚合后的全局模型;更新所述虚拟队列、所述客户端相似度矩阵以及所述客户端选中频率矩阵,并重复所述迭代训练过程直至达到设定的迭代次数,获得训练好的全局模型;使用训练好的全局模型对目标数据集进行分类,得到分类结果,提高了图像分类的精度。