基于生物分子互作结构域增强的蛋白质序列设计方法

    公开(公告)号:CN119601074A

    公开(公告)日:2025-03-11

    申请号:CN202411611586.5

    申请日:2024-11-12

    Applicant: 湖南大学

    Abstract: 本发明公开了一种基于生物分子互作结构域增强的蛋白质序列设计方法,包括:先输入一个大小为L×N×3的待进行序列设计的蛋白质主链骨架三维坐标信息;获取与生物分子接触的蛋白质序列和相互作用结构域区间;将获取的序列聚类并取出每个簇的代表序列作为训练集;再提取出每条训练样本的三维结构、二级结构、溶剂可及性和功能注释特征表示;使用LoRA算法微调通用多模态蛋白质语言模型ESM3的最后十层transformer模块,对于位于相互作用结构域区间的掩码残基的损失给予更大的权重;将待进行序列设计的蛋白质主链骨架的原子坐标输入到训练好的模型中,得到目标序列。本发明一方面利用了海量蛋白质的多模态信息;另一方面能生成更加健壮且合理的功能性蛋白质序列。

    一种识别肿瘤免疫互作关键调控子的方法

    公开(公告)号:CN118841074A

    公开(公告)日:2024-10-25

    申请号:CN202411007996.9

    申请日:2024-07-25

    Applicant: 湖南大学

    Abstract: 本发明公开了一种识别肿瘤免疫互作关键调控子的方法,包括:S1、整合单细胞测序,并构建多视图注意力网络的肿瘤‑免疫细胞互作识别模型,以筛选对预后影响最大的肿瘤‑免疫细胞互作对;S2、根据筛选对预后影响最大的肿瘤‑免疫细胞互作对,基于多组学特征融合的细胞互作关键调控子识别算法,得到关键调控子的基因突变、拷贝数变异和基因表达特征;S3、构建关键调控子功能探究与调控网络;S4、基于关键调控子功能探究与调控网络,设计肿瘤免疫互作关键调控子的免疫治疗应答关联。本发明通过整合大规模多组学数据,系统剖析肿瘤‑免疫互作关键调控子及其功能模块与免疫反应特征、临床表型及免疫治疗应答的关联,并探究其作为预测标志物的潜能。

    基于多模态蛋白质语言模型的DNA绑定残基预测方法

    公开(公告)号:CN119418777A

    公开(公告)日:2025-02-11

    申请号:CN202411480782.3

    申请日:2024-10-23

    Applicant: 湖南大学

    Abstract: 本发明公开了生物信息学技术领域的基于多模态蛋白质语言模型的DNA绑定残基预测方法。该基于多模态蛋白质语言模型的DNA绑定残基预测方法包括以下步骤:将待进行DNA绑定残基预测的蛋白质序列P,依次使用工具分别获取特征文件;将所有特征文件输入ESM3中得到一个嵌入矩阵M;将蛋白质序列处理成残基样本,根据蛋白质结构图搭建等变图神经网络模型,利用已知DNA绑定残基的蛋白质序列构建数据集并训练所搭建的网络;将蛋白质序列的残基样本输入到训练的模型中,得到蛋白质序列的DNA绑定残基。该基于多模态蛋白质语言模型的DNA绑定残基预测方法提高了DNA绑定残基预测的效率与精确性。

    基于粒计算的新发心肌梗死分级分类预测方法及装置

    公开(公告)号:CN119884956A

    公开(公告)日:2025-04-25

    申请号:CN202510066212.8

    申请日:2025-01-16

    Applicant: 湖南大学

    Abstract: 本发明公开一种基于粒计算的新发心肌梗死分级分类预测方法及装置,该方法从真实临床数据中建立新发心肌梗死患者样本;通过xgboost模型对若干临床特征分别进行单特征建模分析,获得AUROC值,并保留若干第一临床特征;通过若干树模型对若干临床特征进行建模,输出每个树模型的特征重要度得分,并保留若干第二临床特征;将第一临床特征和第二临床特征进行交集处理,获得目标临床特征;构建集成模型并进行训练;输出训练好的集成模型的特征重要度得分,并对排在前面设定个数的临床特征进行重新建模分析,输出新建模型的特征重要度得分,并根据其筛选出最重要临床特征;通过内外部数据对新建模型进行验证。本发明能够减少收集数据的成本,提高模型的鲁棒性。

    一种基于多源异构图学习的蛋白质相互作用预测方法

    公开(公告)号:CN117831663A

    公开(公告)日:2024-04-05

    申请号:CN202410010541.6

    申请日:2024-01-04

    Applicant: 湖南大学

    Abstract: 本发明公开了一种基于多源异构图学习的蛋白质相互作用预测方法,包括:S1、根据氨基酸的理化性质,利用自协方差对蛋白质序列特征进行提取;S2、构建多源关联网络;S3、获得蛋白质与其他生物分子的关联信息特征;S4、获取已知的蛋白质‑蛋白质相互作用对作为正样本数据集,随机取样等量的无关联蛋白质‑蛋白质相互作用对作为负样本数据集,将正负样本数据集合并作为最终的数据集;S5、利用随机森林分类器和相应的最优参数进行训练以构建预测模型;S6、采用五折交叉验证的方法得到模型的性能评价指标。本发明可以更充分地利用残基的局部特征、蛋白质序列独特的理化性质以及蛋白质与其他生物分子的关联关系。

    一种电子健康记录的个性化表征学习模型方法

    公开(公告)号:CN117457228A

    公开(公告)日:2024-01-26

    申请号:CN202311497762.2

    申请日:2023-11-12

    Applicant: 湖南大学

    Abstract: 本发明公开了医疗表征学习技术领域的一种电子健康记录的个性化表征学习模型方法。该电子健康记录的个性化表征学习模型方法包括以下步骤:输入EHR数据集,将结构化EHR数据转换成了一系列与时间有关的序列输入;将上述序列数据依次进行数据编码、上下文表征、时间维度融合和预测;将待诊断样本输入到参数设置的网络模型中进行数据训练,实现医疗预测。该电子健康记录的个性化表征学习模型方法能够有效的针对不同患者的电子健康记录数据进行个性化表征,提高模型对医疗预测任务的准确率,敏感值和特异值,为患者提供精准诊断。

    一种基于多视图注意力解读细胞间主要通讯组件的方法

    公开(公告)号:CN117912557A

    公开(公告)日:2024-04-19

    申请号:CN202410010495.X

    申请日:2024-01-04

    Applicant: 湖南大学

    Abstract: 本发明公开了一种基于多视图注意力解读细胞间主要通讯组件的方法,包括:S1、获取晚期肾细胞癌的scRNA‑seq数据集;S2、利用细胞‑细胞通信分析工具推断所述数据集的配体‑受体的相互作用;S3、以单细胞分辨率构建多视图细胞‑细胞通信网络;S4、解读细胞‑细胞通信对特异性靶基因表达的影响;S5、解读细胞‑细胞通信对肿瘤细胞功能状态的影响;S6、确定训练策略;S7、基于基因表达或细胞功能状态受细胞通信影响的程度进行模型的解释;S8、基因本体论富集分析,选择高度可变的基因作为靶基因,通过GO富集分析,得到受细胞‑细胞通信影响较大以及较小的基因。本发明具有从scRNA‑seq数据中解读CCCs下游功能影响的能力。

    一种用于增强X光图像诊断的文本提示学习方法及装置

    公开(公告)号:CN118919013A

    公开(公告)日:2024-11-08

    申请号:CN202410984961.4

    申请日:2024-07-22

    Applicant: 湖南大学

    Abstract: 本发明公开了一种用于增强X光图像诊断的文本提示学习方法及装置。方法包括:S1、输入患者胸部X光图像数据集,所述X光图像数据集包含放射学报告#imgabs0#和相应的图像与人工注释标签;S2、在放射学报告中提取概念、位置和阳性,形成三元组数据;S3、将外部医学知识注入至所述三元组数据,形成新的细粒度数据;S4、为每个概念生成报告级提示嵌入;S5、为每个概念生成概念级提示嵌入;S6、计算报告级相似性和概念级相似性;S7、使用损失函数训练得到推理模型;S8、输入患者胸部X光图像输入至推理模型,推断得到某些概念和/或疾病的存在,并确定概念和/或疾病的视觉证据。本发明无需使用任何标记的图像,具有良好的可解释性能。

Patent Agency Ranking