一种基于离子索引的蛋白质串联质谱图鉴定方法

    公开(公告)号:CN117711491A

    公开(公告)日:2024-03-15

    申请号:CN202311719398.X

    申请日:2023-12-14

    Inventor: 白明泽 周仲仲

    Abstract: 本发明属于蛋白质串联质谱鉴定领域,特别是涉及一种基于离子索引的蛋白质串联质谱图鉴定方法,包括:虚拟酶解蛋白质数据库中的蛋白质序列,对生成的肽段离子化和碎裂化,根据碎片离子的质荷比构建碎片离子数据库和碎片离子数据库索引,对实验谱图进行去同位素峰处理并保留有效峰,根据处理后的实验谱图借助碎片离子数据库索引查找碎片离子数据库,得到满足条件的候选肽段集合,进而得到候选肽段的理论谱图,根据处理后的实验谱图和候选肽段的理论谱图计算两谱图的离子峰相似能力,借助该离子峰相似能力进而得到匹配的打分结果,选择得分最高的肽段作为最终鉴定结果;该方法鉴定的有效谱图数量和肽段数量均高于目前常用算法,且运行速度快。

    一种基于深度学习的生物医学文本命名实体识别方法及系统

    公开(公告)号:CN116362248A

    公开(公告)日:2023-06-30

    申请号:CN202310219285.7

    申请日:2023-03-08

    Inventor: 白明泽 曾宏清

    Abstract: 本发明属于人工智能和自然语言处理领域,具体涉及一种基于深度学习的生物医学文本命名实体识别方法及系统;该方法包括获取带有基因组变异实体标注的生物医学文本训练数据,并对其增强得到增强数据;根据改进分词标签方法对增强数据进行分词处理得到分词序列;通过BioBERT层对分词序列进行特征提取得到词向量序列;将词向量序列输入到层叠BILSTM网络提取文本位置信息得到特征向量序列;注意力层采用改进评分函数获取特征向量序列的语义特征;将语义特征分别送入四个任务模块,计算任务损失,反向传播训练模型;本发明的数据增强方法有效解决了数据稀缺问题,并提出改进分词标签方法对增强数据进行分词处理,缓解了标签稀疏的问题。

    一种基于多模态表示学习的视频情绪识别方法

    公开(公告)号:CN114550057A

    公开(公告)日:2022-05-27

    申请号:CN202210175993.0

    申请日:2022-02-24

    Inventor: 白明泽 舒谦

    Abstract: 本发明属于人工智能、多模态情绪识别技术领域,具体涉及一种基于多模态表示学习的视频情绪识别方法,该方法包括:将有人脸的视频转换为三种模态特征表示,并对三种模态特征进行对齐;对三种特征进行自动编码表示;采用自动编解码网络对自动编码表示后的三种特征进行融合得到特征联合表示;将联合特征作为改进的神经网络的数据输入,得到情感分类结果;本发明首先对视频中多模态信息进行表示学习;将改进的经典卷积神经网络LeNet‑5s和transformer相结合,能够提取时序和空间信息的优点,从而能提取情绪识别的精度。

    微生物群落物种多样性数据的存储检索方法

    公开(公告)号:CN111243679A

    公开(公告)日:2020-06-05

    申请号:CN202010043999.3

    申请日:2020-01-15

    Abstract: 本发明涉及生物信息学领域,具体涉及一种微生物群落物种多样性数据的存储检索方法,包括:确定需要存储到ElasticSearch中的数据;根据ElasticSearch的要求建立存储数据的index;收集并存储数据到ElasticSearch中;构建检索功能获取分类单元的谱系信息;根据分类单元的谱系信息计算肽段对应的分类单元的最小公共祖先,用所有肽段对应的最小公共祖先表示整个微生物群落的物种多样性分布。本发明在ElasticSearch中配置满足相应水解酶水解规则的分词器,不需要编写处理酶切和漏切代码;若蛋白质序列库更新不需要重新计算最小公共祖先进行存储。

    一种基于深度学习特征提取的胃癌蛋白质组学分型框架识别方法

    公开(公告)号:CN114550831B

    公开(公告)日:2025-02-21

    申请号:CN202210175784.6

    申请日:2022-02-24

    Inventor: 白明泽 赵雪霏

    Abstract: 本发明属于人工智能和蛋白质组学领域,具体涉及一种基于深度学习特征提取的胃癌蛋白质组学分型框架识别方法,该方法包括:获取待识别的蛋白表达谱,对蛋白表达谱进行预处理;将预处理后的蛋白表达谱输入到训练好的自动编码器,提取自动编码器瓶颈层的节点,利用该节点进行一致性聚类,得到待识别蛋白表达谱的聚类标签;根据聚类标签训练分类器,对未知标签样本进行预测,完成胃癌蛋白质组学分型框架识别;本发明使用深度学习的自动编码器对来自多中心的二期、三期胃癌患者特征提取进行一致性聚类后获得了具有显著生存差异的分子亚型,且亚型表现为预后好、化疗获益和预后差、化疗无效。

    微生物群落物种多样性数据的存储检索方法

    公开(公告)号:CN111243679B

    公开(公告)日:2023-03-31

    申请号:CN202010043999.3

    申请日:2020-01-15

    Abstract: 本发明涉及生物信息学领域,具体涉及一种微生物群落物种多样性数据的存储检索方法,包括:确定需要存储到ElasticSearch中的数据;根据ElasticSearch的要求建立存储数据的index;收集并存储数据到ElasticSearch中;构建检索功能获取分类单元的谱系信息;根据分类单元的谱系信息计算肽段对应的分类单元的最小公共祖先,用所有肽段对应的最小公共祖先表示整个微生物群落的物种多样性分布。本发明在ElasticSearch中配置满足相应水解酶水解规则的分词器,不需要编写处理酶切和漏切代码;若蛋白质序列库更新不需要重新计算最小公共祖先进行存储。

    一种构建汽车行驶工况的方法

    公开(公告)号:CN111832225B

    公开(公告)日:2023-01-31

    申请号:CN202010644339.0

    申请日:2020-07-07

    Abstract: 本发明涉及汽车工况数据构建领域,具体涉及一种构建汽车行驶工况的方法,包括:获取汽车行驶的原始GPS数据,进行预处理;对预处理后的数据进行运动学片段的划分;对运动学片段进行特征计算,得到运动学片段的特征参数;采用K‑Means聚类将运动学片段划分为四个片段库;构建训练数据集;将训练数据集输入模型中训练,得到训练好的长短期记忆神经网络模型模型;利用训练好的长短期记忆神经网络模型进行预测,得到四个片段库分别对应的时间‑速度预测曲线;将四个速度段的曲线合并为一条工况曲线。本发明通过LSTM网络有效的识别出特殊地域中汽车行驶数据中的隐含特征,从而构建出符合该行驶特征的汽车行驶工况曲线。

    一种基于多模态表示学习的视频情绪识别方法

    公开(公告)号:CN114550057B

    公开(公告)日:2025-04-08

    申请号:CN202210175993.0

    申请日:2022-02-24

    Inventor: 白明泽 舒谦

    Abstract: 本发明属于人工智能、多模态情绪识别技术领域,具体涉及一种基于多模态表示学习的视频情绪识别方法,该方法包括:将有人脸的视频转换为三种模态特征表示,并对三种模态特征进行对齐;对三种特征进行自动编码表示;采用自动编解码网络对自动编码表示后的三种特征进行融合得到特征联合表示;将联合特征作为改进的神经网络的数据输入,得到情感分类结果;本发明首先对视频中多模态信息进行表示学习;将改进的经典卷积神经网络LeNet‑5s和transformer相结合,能够提取时序和空间信息的优点,从而能提取情绪识别的精度。

    一种面向基因组变异数据的位图索引压缩方法

    公开(公告)号:CN116230098A

    公开(公告)日:2023-06-06

    申请号:CN202310219991.1

    申请日:2023-03-09

    Inventor: 白明泽 胡昌星

    Abstract: 本发明属于信息检索、大数据分析领域,具体涉及一种面向基因组变异数据的位图索引压缩方法,包括:将原始基因组变异数据序列按照字段属性拆分,以列式数据库进行存储;对列式数据库中的基因组变异数据建立原始位图索引;将原始位图索引划分为若干段;将分段后的位图数据公共部分使用游程长度算法压缩存储,非公共部分使用整数列表或比特序列进行压缩存储。本发明通过在位图序列中合并公共词缀的方式,节省了更多的存储空间,提升了按位运算速度,使位图索引加载到内存的速度更快。

Patent Agency Ranking