-
公开(公告)号:CN111489792B
公开(公告)日:2022-12-09
申请号:CN202010291254.9
申请日:2020-04-14
Applicant: 西安交通大学 , 北京吉因加科技有限公司
Abstract: 本发明公开了一种基于半监督学习框架的T细胞受体序列分类方法,选取CDR3β区域作为输入数据,对T细胞受体数据进行特征编码;根据得到的数据,选择支持向量机、随机森林和决策树的监督学习算法分别构造初始分类器C1、C2、C3;对初始分类器C1、C2、C3进行训练得到扩充的新训练集,产生的训练集进行可重复取样获得三个有标记训练集,然后从每个新训练集产生一个分类器,对分类器进行迭代更新;训练完成后,将三个分类器C1、C2、C3通过投票机制作为一个分类器集成进行使用。本发明适用于T细胞受体序列数据难以获得的情况,性能显著优于现有方法。
-
公开(公告)号:CN111462823A
公开(公告)日:2020-07-28
申请号:CN202010270712.0
申请日:2020-04-08
Applicant: 西安交通大学 , 北京吉因加科技有限公司
Abstract: 本发明公开了一种基于DNA测序数据的同源重组缺陷判定方法,获取特征属性;提取有效数据;基于三重学习法框架,考虑到较好的泛化能力、较高的准确度和对多维特征属性的处理效率,选择三个不同的基分类器H1、H2、H3;对H1、H2、H3进行迭代训练得到扩充训练集,由此对模型进行更新,完成训练过程;使用所训练的模型对未标记样本集U进行标记,根据标记结果完成HRD状态的判定。本发明解决了使用单一或少量基因组不稳定性状态等局部特征来进行HRD状态判定的局限性,克服临床上已知HRD状态的样本数量极少的难点,实现已有样本数据下的多特征属性的学习,能够提高HRD判定方法的性能。
-
公开(公告)号:CN111489792A
公开(公告)日:2020-08-04
申请号:CN202010291254.9
申请日:2020-04-14
Applicant: 西安交通大学 , 北京吉因加科技有限公司
Abstract: 本发明公开了一种基于半监督学习框架的T细胞受体序列分类方法,选取CDR3β区域作为输入数据,对T细胞受体数据进行特征编码;根据得到的数据,选择支持向量机、随机森林和决策树的监督学习算法分别构造初始分类器C1、C2、C3;对初始分类器C1、C2、C3进行训练得到扩充的新训练集,产生的训练集进行可重复取样获得三个有标记训练集,然后从每个新训练集产生一个分类器,对分类器进行迭代更新;训练完成后,将三个分类器C1、C2、C3通过投票机制作为一个分类器集成进行使用。本发明适用于T细胞受体序列数据难以获得的情况,性能显著优于现有方法。
-
公开(公告)号:CN111429965B
公开(公告)日:2023-04-07
申请号:CN202010198109.6
申请日:2020-03-19
Applicant: 西安交通大学 , 北京吉因加科技有限公司
Abstract: 本发明公开了一种基于多连体特征的T细胞受体对应表位预测方法,将CDR3β链以及对应的表位解析为长度3的碱基,统计每种三联体的频次作为初始特征;根据得到的初始特征建立初始特征矩阵,使用主成分分析法对初始特征矩阵进行降维,进行特征提取;设有n个训练样本,输入预测数据x后,训练得到梯度提升决策树模型,通过梯度提升决策树模型将各个决策树的决策结果线性组合起来做出预测;将特征数据输入训练好的模型中进行预测,根据不同的预测目的选择不同的预测指标。本发明仅使用三联体的统计值作为初始特征,结合梯度提升决策树模型能够在极短的时间内完成模型的训练,且预测的准确度更高。
-
公开(公告)号:CN111462823B
公开(公告)日:2022-07-12
申请号:CN202010270712.0
申请日:2020-04-08
Applicant: 西安交通大学 , 北京吉因加科技有限公司
Abstract: 本发明公开了一种基于DNA测序数据的同源重组缺陷判定方法,获取特征属性;提取有效数据;基于三重学习法框架,考虑到较好的泛化能力、较高的准确度和对多维特征属性的处理效率,选择三个不同的基分类器H1、H2、H3;对H1、H2、H3进行迭代训练得到扩充训练集,由此对模型进行更新,完成训练过程;使用所训练的模型对未标记样本集U进行标记,根据标记结果完成HRD状态的判定。本发明解决了使用单一或少量基因组不稳定性状态等局部特征来进行HRD状态判定的局限性,克服临床上已知HRD状态的样本数量极少的难点,实现已有样本数据下的多特征属性的学习,能够提高HRD判定方法的性能。
-
公开(公告)号:CN111429965A
公开(公告)日:2020-07-17
申请号:CN202010198109.6
申请日:2020-03-19
Applicant: 西安交通大学 , 北京吉因加科技有限公司
Abstract: 本发明公开了一种基于多连体特征的T细胞受体对应表位预测方法,将CDR3β链以及对应的表位解析为长度3的碱基,统计每种三联体的频次作为初始特征;根据得到的初始特征建立初始特征矩阵,使用主成分分析法对初始特征矩阵进行降维,进行特征提取;设有n个训练样本,输入预测数据x后,训练得到梯度提升决策树模型,通过梯度提升决策树模型将各个决策树的决策结果线性组合起来做出预测;将特征数据输入训练好的模型中进行预测,根据不同的预测目的选择不同的预测指标。本发明仅使用三联体的统计值作为初始特征,结合梯度提升决策树模型能够在极短的时间内完成模型的训练,且预测的准确度更高。
-
公开(公告)号:CN110491441B
公开(公告)日:2022-04-22
申请号:CN201910370937.0
申请日:2019-05-06
Applicant: 西安交通大学
Abstract: 本发明公开了一种模拟人群背景信息的基因测序数据仿真系统及方法,输入目标捕获区域文件、测序深度、七种变异类型、变异发生频率和变异在参考基因组上的坐标,根据测序深度确定模板数量,使用接受拒绝算法产生相应模板长度的概率分布,遍历每一条模板并对当前已经遍历完的模板数进行判断,当算法尚未遍历所有模板时,分别对取出的长度模板进行拷贝数变异模拟、单核苷酸位点变异模拟、基因融合模拟、串联重复模拟、倒位变异模拟、插入片段模拟和缺失片段模拟,生成读段并写入测序文件;当已经遍历完所有模板时,测序文件生成完毕;进行读段比对输出模拟的测序文件及其比对文件,仿真结束。本发明可以简便和快速的获得包含特定变异样本。
-
公开(公告)号:CN111584006B
公开(公告)日:2022-02-22
申请号:CN202010373511.3
申请日:2020-05-06
Applicant: 西安交通大学
Abstract: 本发明公开了一种基于机器学习策略的环形RNA识别方法,输入数据,在参考基因组上对每个候选环形RNA进行定位并提取这些环形RNA区域附近的Reads特征;使用提取好的特征训练有监督的机器学习模型;使用训练好的模型对候选环形RNA集合进行真假阳性分类,并输出最终的环形RNA。本发明属于一类机器学习过滤策略,具备机器学习过滤策略的优势,在临床实践中可以显著节省成本、时间等。
-
公开(公告)号:CN111583998A
公开(公告)日:2020-08-25
申请号:CN202010373524.0
申请日:2020-05-06
Applicant: 西安交通大学
Abstract: 本发明公开了一种考虑拷贝数变异因素的基因组结构变异分型方法,输入序列比对文件和突变识别文件并统计记录各变异位点的特征值;根据输入文件提取特征值,从突变识别文件VCF中提取基因型作为分类监督,通过Python提取VCF文件中第八列type后的基因型信息,一行对应一个变异依次将特征值以空格分隔,基因型以分隔符存储到txt文件中;确定核函数和核函数参数;将数据分为M-RVM模型的训练集和测试集;采用快速二类极大似然估计求解先验参数,采用最大期望估计算法求解核参数;输出分型结果、估计概率和总体精度。本方法全面理清了考虑拷贝数变异因素的基因组结构变异分型问题,利用多分类相关向量机设计了一种高准确率、高效率的解法。
-
公开(公告)号:CN113380324B
公开(公告)日:2023-06-27
申请号:CN202110536816.6
申请日:2021-05-17
Applicant: 西安交通大学
Abstract: 本发明公开了一种T细胞受体序列motif组合识别检测方法、存储介质及设备,构建Tumor‑Health矩阵和Tissue‑Blood矩阵作为输入矩阵;以motif组合的类内类间距离可分性作为优化目标函数;设计双种群遗传算法,对输入矩阵中的每一motif列和label列进行相关性分析,采用点二列相关性作为衡量motif列和label列是否相关的指标;以优化目标函数作为算法优化目标,利相关性指标对输入矩阵的motif进行初步筛选,过滤掉不相关的motif列,通过遗传算法进行迭代计算,得到两组种群的优势解,取两组种群中适应度排前三的染色体作为最优解,并解码成为对应的motif集合,取对应集合的交集作为最终挖掘出的motif,完成识别检测。本发明能够为免疫治疗提供可能的生物标志物研究方向。
-
-
-
-
-
-
-
-
-