一种基于大型语言模型的酶活参数抽取方法与系统

    公开(公告)号:CN119443093A

    公开(公告)日:2025-02-14

    申请号:CN202510050672.1

    申请日:2025-01-13

    Abstract: 本发明提出了一种基于大型语言模型的酶活参数抽取方法与系统,属于文本信息处理和数据挖掘领域。本发明通过OCR技术将PDF格式文献转换为Markdown格式,随后利用大型语言模型结合优化的提示词自动提取关键数据;自动提取流程经过严格的提示词优化和后处理操作,确保数据的准确性和一致性;然后通过精确度和召回率验证自动提取的有效性,最终生成的酶数据库可供后续的研究和分析使用。本发明通过结合OCR技术与大型语言模型,突破了现有手动数据提取的局限,显著提升了文献解析和数据提取的自动化程度;通过提示词工程和优化的提示词设计,实现了复杂文献中的结构化数据自动提取,特别是对于酶动力学参数的精确识别和提取。

    科学文献信息抽取方法、装置、计算机设备和存储介质

    公开(公告)号:CN117668173A

    公开(公告)日:2024-03-08

    申请号:CN202311367647.3

    申请日:2023-10-20

    Abstract: 本申请涉及一种科学文献信息抽取方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:获取参考科学文献,基于所述参考科学文献的属性确定信息抽取方式,基于所述参考科学文献和信息抽取方式构建信息抽取指令集,所述信息抽取指令集包括对应不同信息的信息抽取指令,基于所述信息抽取指令集标注所述参考科学文献,得到信息抽取数据集,所述信息抽取数据集包括标注信息,基于所述参考科学文献和信息抽取数据集训练初始信息抽取模型,得到目标信息抽取模型,将待处理科学文献和用户信息抽取指令输入所述目标信息抽取模型,得到目标信息抽取结果。实现了从多元异构的科学文献中抽取信息,提高了信息抽取的准确性和可扩展性。

    一种面向多种检索场景的专利检索方法、装置、设备

    公开(公告)号:CN116303989A

    公开(公告)日:2023-06-23

    申请号:CN202310212099.0

    申请日:2023-02-28

    Abstract: 本说明书公开了一种面向多种检索场景的专利检索方法、装置、设备。以专利文档各字段作为训练数据,对通用语言模型进行训练得到专利领域语言模型。针对多种检索场景,通过基于不同权重多路召回与随机采样的方式筛选各专利文档正、负样本,并以此构建各检索场景的专利语义表示模型的训练数据,对专利领域语言模型进行训练,进而得到各检索场景的专利语义表示模型并以此生成专利各字段的语义向量,并存储在各检索场景的专利检索向量数据库中,根据检索字段的语义向量,从目标检索场景的专利检索向量数据库中,查找与检索字段相似的专利文档。通过上述方案,提升了专利语义表示模型针对不同检索场景的专利字段的语义表示能力,提升检索精度。

Patent Agency Ranking