-
公开(公告)号:CN119046444B
公开(公告)日:2025-05-06
申请号:CN202411533982.0
申请日:2024-10-31
Applicant: 之江实验室
IPC: G06F16/3329
Abstract: 本发明公开了一种基于大模型的科学文献字段抽取方法及系统,包括:将科学文献(document)切分成若干片段(chunks);迭代生成亟待抽取的字段的答案,并排除chunks中不包含亟待抽取的字段的片段;之后一边生成候选答案,一边通过差异对比的方式,排除不同chunk中的冗余答案信息,排除由于幻觉导致输出的错误答案信息,并在迭代过程中融合包含正确答案的chunk,解决了针对不同片段回答零散不易整合的问题;该方法和系统在有限计算资源的条件下,能够最大发挥生成大模型对科学文献的抽取性能。
-
公开(公告)号:CN119046444A
公开(公告)日:2024-11-29
申请号:CN202411533982.0
申请日:2024-10-31
Applicant: 之江实验室
IPC: G06F16/332
Abstract: 本发明公开了一种基于大模型的科学文献字段抽取方法及系统,包括:将科学文献(document)切分成若干片段(chunks);迭代生成亟待抽取的字段的答案,并排除chunks中不包含亟待抽取的字段的片段;之后一边生成候选答案,一边通过差异对比的方式,排除不同chunk中的冗余答案信息,排除由于幻觉导致输出的错误答案信息,并在迭代过程中融合包含正确答案的chunk,解决了针对不同片段回答零散不易整合的问题;该方法和系统在有限计算资源的条件下,能够最大发挥生成大模型对科学文献的抽取性能。
-