一种基于漂移填充的化学分子表征方法和系统

    公开(公告)号:CN117727385A

    公开(公告)日:2024-03-19

    申请号:CN202311624552.5

    申请日:2023-11-30

    Abstract: 本发明涉及一种基于漂移填充的化学分子表征方法和系统,方法包括以下步骤:S1:获取数据;S2:预处理数据:创建词汇表(词汇表尺寸为词数N),制定预处理规则,处理后将语料库中不同长度的SMILES序列切片成不同长度的列表,得到预处理后的数据;S3:进阶数据处理:将S2中预处理完的数据通过Word2vec模型和One‑hot模型转化为Transformer的输入与输出,形成训练语料,作为深度学习模型的输入数据;S4:模型训练与优化:Transformer模型基于编码器和解码器的输入,生成数据传递给全连接网络输出预测向量,结合One‑hot生成的输出目标数据优化模型。与现有技术相比,本发明实现深度学习中序列问题的数据平移不变性,提升了分子序列输出的准确率并准确地表征了化学分子的特征。

Patent Agency Ranking