-
公开(公告)号:CN118445429A
公开(公告)日:2024-08-06
申请号:CN202410409237.9
申请日:2024-04-07
Applicant: 中国科学院计算机网络信息中心
IPC: G06F16/38 , G06F16/33 , G06F40/211 , G16B40/00
Abstract: 本发明公开了基于生物文献生成基因描述信息的方法、系统及介质,涉及生命科学领域,本发明通过获取与目标基因关联的生物文献,对获取的生物文献进行句子拆分和过滤,生成初级关键句集合;对生成的初级关键句集合中的每个句子均进行评分,按照评分高低进行排序,生成最终关键句集合;将最终关键句集合输入大语言模型,生成基因描述信息。本发明能够提高基因描述信息自动生成的效率和质量,克服信息冗余、语义不连贯问题。
-
公开(公告)号:CN113761197B
公开(公告)日:2022-07-26
申请号:CN202110866392.X
申请日:2021-07-29
Applicant: 中国科学院计算机网络信息中心
IPC: G06F16/35 , G06F16/332 , G06K9/62
Abstract: 本发明公开了一种可利用专家知识的申请书多标签层次分类方法,其步骤包括:1)对于申请书中的各类别文本数据,分别抽取每一所述文本数据中各类别的文本信息;对每一所述文本数据进行编码后添加对应的类别编码并发送给词等级的编码器,得到表征向量;2)将每一文本数据对应的表征向量输入文档等级的编码器,得到申请书的表征向量;3)利用申请书的表征向量与初始化的预测信息,预测申请书在学科体系的第n层级的标签;4)基于申请书在学科体系的第n层级的预测标签和申请书的表征向量,预测申请书在学科体系的第n+1层级的标签;5)如果当前层级为学科体系的最后层级则完成预测,得到最细粒度标签;否则返回步骤4),进行下一层级预测。
-
公开(公告)号:CN113761197A
公开(公告)日:2021-12-07
申请号:CN202110866392.X
申请日:2021-07-29
Applicant: 中国科学院计算机网络信息中心
IPC: G06F16/35 , G06F16/332 , G06K9/62
Abstract: 本发明公开了一种可利用专家知识的申请书多标签层次分类方法,其步骤包括:1)对于申请书中的各类别文本数据,分别抽取每一所述文本数据中各类别的文本信息;对每一所述文本数据进行编码后添加对应的类别编码并发送给词等级的编码器,得到表征向量;2)将每一文本数据对应的表征向量输入文档等级的编码器,得到申请书的表征向量;3)利用申请书的表征向量与初始化的预测信息,预测申请书在学科体系的第n层级的标签;4)基于申请书在学科体系的第n层级的预测标签和申请书的表征向量,预测申请书在学科体系的第n+1层级的标签;5)如果当前层级为学科体系的最后层级则完成预测,得到最细粒度标签;否则返回步骤4),进行下一层级预测。
-
公开(公告)号:CN119068996A
公开(公告)日:2024-12-03
申请号:CN202410989937.X
申请日:2024-07-23
Applicant: 中国科学院计算机网络信息中心
IPC: G16B40/00 , G16B30/00 , G06F18/23213 , G06F18/25 , G06N3/042 , G06N3/0464 , G06N3/0455 , G06N3/0895
Abstract: 本发明公开一种用于解释单细胞RNA测序数据的孪生聚类方法及系统,属于生物信息技术领域。所述方法包括:对单细胞RNA测序数据进行预处理,得到预处理后的基因表达矩阵,并基于所述预处理后的基因表达矩阵构建细胞间的K最近邻图;对所述预处理后的基因表达矩阵进行特征空间增强,得到扰动属性矩阵#imgabs0#对所述细胞间的K最近邻图进行结构空间增强,得到增强图;基于所述扰动属性矩阵和所述增强图进行信息融合与编解码,得到所述单细胞RNA测序数据对应的聚类结果。本发明能够有效解决现有scRNA‑seq数据聚类方法面临的对细胞间信息探索不足、数据抗噪能力低以及对大型数据集可扩展性差的问题。
-
公开(公告)号:CN117540233A
公开(公告)日:2024-02-09
申请号:CN202311335095.8
申请日:2023-10-16
Applicant: 中国科学院计算机网络信息中心
IPC: G06F18/23213 , G06F18/214 , G06F18/213 , G06F18/25 , G16B40/00 , G06N3/0455 , G06N3/084 , G06N3/088
Abstract: 本发明公开了一种基于深度图切割的scRNA‑seq数据聚类方法及装置,该方法包括:对原始的scRNA‑seq计数矩阵进行预处理,得到原始数据X,并分别构建所述原数数据X的协调协同图和垂直融合图;基于自动编码器提取原始数据X的表征矩阵H,并计算重构损失;结合表征矩阵H最小化协调协同图和垂直融合图的联合归一化切,以得到NCut损失;根据表征矩阵H进行基于最佳传输的自监督聚类,并计算聚类损失;联合重构损失、NCut损失以及聚类损失进行参数更新后,得到原始数据X的聚类结果。本发明可以解决scRNA‑seq实验中数据成指数增长带来的挑战,并获得更好的聚类精度。
-
公开(公告)号:CN118446189A
公开(公告)日:2024-08-06
申请号:CN202410492248.8
申请日:2024-04-23
Applicant: 中国科学院计算机网络信息中心
IPC: G06F40/174 , G06F40/18 , G06F18/213 , G06F18/23 , G06N3/042 , G06N3/0455 , G06N3/092 , G06N3/006 , G06F18/24 , G06F18/2433 , G06F18/27
Abstract: 本发明公开了一种基于强化学习的表格数据增强方法及装置,涉及表格数据处理领域,通过收集表格数据,对表格数据特征进行聚类,计算每个特征簇和所有特征簇并集的状态信号,输入级联的演员‑批评家智能体中驱动智能体生成新的特征,计算智能体的奖励信号;迭代进行,每次迭代后根据奖励信号依次更新批评者和演员的参数;智能体优化后,用于对待测表格数据进行处理,生成新的最优表格数据特征,得到增强后的表格数据。本发明通过优化表格数据特征空间,达到提高下游分类、回归、异常检测等各类机器学习模型的性能。
-
公开(公告)号:CN118351941A
公开(公告)日:2024-07-16
申请号:CN202410376805.X
申请日:2024-03-29
Applicant: 中国科学院计算机网络信息中心
Abstract: 本发明公开了一种针对单细胞RNA测序数据的关键基因定位方法及装置,涉及机器学习和生物基因领域,本发明为每个基因特征分配一个智能体,将选择关键基因的先验知识存入智能体的内存中;令智能体根据基于先验知识进行环境知识探索,计算对应的当前状态、动作、奖励和下一状态并作为探索的环境知识存入智能体的内存中;对智能体进行行为策略提升,按照贝尔曼方程更新行为策略;使用智能体基于更新后的行为策略,对单细胞RNA测序数据集中的关键基因进行定位。本发明通过多智能体强化学习获取更佳的行为策略,提高对关键基因定位的质量,以及提升关键基因在下游任务上的表现,更好地揭示细胞群体中的异质性。
-
公开(公告)号:CN117494760A
公开(公告)日:2024-02-02
申请号:CN202311320484.3
申请日:2023-10-12
Applicant: 中国科学院计算机网络信息中心
IPC: G06N3/045 , G06N3/09 , G06F18/214 , G06F18/243 , G06N5/01
Abstract: 本发明公开了一种基于超大规模语言模型的富语义标签数据增广方法。本方法为:1)从若干个数据集中获取学科文本数据,组成一学科数据库;遍历学科数据库中每一数据样本,将具有相同分类号的数据样本划分到层次学科结构采样树的同一节点中,根据分类号确定各节点的位置,构建出层次学科结构采样树并计算每一节点的统计信息;2)确定每一学科分类的增强样本数;3)根据每一学科分类的增强样本数更新层次学科结构采样树,并计算每一节点的统计信息;4)根据每一节点更新前后的统计信息,判断各学科分类对应的样本数量是否平衡,如果不平衡则重复步骤2~3);5)利用超大规模语言模型为每一学科分类生成相应数量的对应学科分类的数据样本。
-
-
-
-
-
-
-