一种基于大型语言模型的化学文献解析和反应信息提取方法和装置

    公开(公告)号:CN118888046A

    公开(公告)日:2024-11-01

    申请号:CN202410915423.X

    申请日:2024-07-09

    Abstract: 本发明公开了一种基于大型语言模型的化学文献解析和反应信息提取方法和装置,对化学文献进行收集并经过OCR和筛选处理,得到处理后的化学文献数据集;对处理后的化学文献数据集进行信息提取,得到反应信息提取集合。相比于传统的常规工具包或成熟软件,本发明可适用于风格迥异的各类学术期刊,而传统的软件只能适用于专利文献或格式比较单一的某一类文献;因此本发明相比现有技术具有更好的普适性。本发明的针对性更强且在面对复杂问题时性能效果更加优良。本发明与传统上通过人工收集提取化学数据的方式相比,效率更高、成本更低且综合性能更加稳定。

    基于多模态预训练大模型的蛋白质逆向折叠方法、设备

    公开(公告)号:CN117727365A

    公开(公告)日:2024-03-19

    申请号:CN202311710888.3

    申请日:2023-12-13

    Abstract: 本发明公开了一种基于多模态预训练大模型的蛋白质逆向折叠方法、设备,该方法包括:收集蛋白质结构和蛋白质序列配对数据进行预处理,构建训练集、验证集和测试集;基于蛋白质结构,通过预训练好的蛋白质结构编码器获取蛋白质的结构表征;通过蛋白质结构适配器将蛋白质的结构表征转换为序列生成的结构指导;运用自回归方法预训练蛋白质大语言模型,将序列生成的结构指导与蛋白质语言起始符进行拼接后输入到预训练好的蛋白质大语言模型中生成与蛋白质结构配对的蛋白质序列;使用评估指标对生成的蛋白质序列进行评估。本发明即使在训练数据较少的情况下也能够有较高的生成准确度,有利于提高逆向折叠的准确度与生成序列的广泛性与创新性。

Patent Agency Ranking