一种基于大模型的科学文献字段抽取方法及系统

    公开(公告)号:CN119046444B

    公开(公告)日:2025-05-06

    申请号:CN202411533982.0

    申请日:2024-10-31

    Abstract: 本发明公开了一种基于大模型的科学文献字段抽取方法及系统,包括:将科学文献(document)切分成若干片段(chunks);迭代生成亟待抽取的字段的答案,并排除chunks中不包含亟待抽取的字段的片段;之后一边生成候选答案,一边通过差异对比的方式,排除不同chunk中的冗余答案信息,排除由于幻觉导致输出的错误答案信息,并在迭代过程中融合包含正确答案的chunk,解决了针对不同片段回答零散不易整合的问题;该方法和系统在有限计算资源的条件下,能够最大发挥生成大模型对科学文献的抽取性能。

    一种训练数据有效性评估方法、系统及装置

    公开(公告)号:CN119441805A

    公开(公告)日:2025-02-14

    申请号:CN202411481596.1

    申请日:2024-10-23

    Abstract: 本发明提供一种训练数据有效性评估方法、系统及装置,所述方法包括:获取训练集,所述训练集为从待评估数据中均匀降采样所得;获取测试集,所述测试集包括至少1个基准测试集和至少1个关联测试集;用所述训练集训练一个探针模型;用所述测试集对所述探针模型进行测试,记录测试指标;根据所述测试指标作观测图,所述作观测图包括:以基准测试集测试指标为横轴、关联测试集测试指标为纵轴建立直角坐标系;根据所述测试指标在所述直角坐标系中画出关键点;根据所述观测图对待评估数据做出有效性评价。本发明的优点在于:可以用很低的算力,迅速给出数据有效性评估,能提高模型研发迭代效率,尤其是对前沿的复杂模型,增益更明显。

    一种文献目录自动识别方法及装置

    公开(公告)号:CN118799908B

    公开(公告)日:2025-01-07

    申请号:CN202411290372.2

    申请日:2024-09-14

    Inventor: 周英 宋子奇 杨江

    Abstract: 本发明公开了一种文献目录自动识别方法及装置,该方法包括:获取待处理文献;将所述待处理文献转换为若干张图像;基于版面分析模型对所述图像进行版面分析得到图像中各文字区域的类别和包围框坐标;所述类别至少包括章节标题和普通文本;将所述图像及图像中各文字区域的包围框坐标输入文字识别模型,得到包围框内的文字;仅保留类别为章节标题和普通文本的内容;基于大语言模型对保留的章节标题及章节标题对应的普通文本进行置信度分析,筛选出置信度大于预设阈值的章节标题,生成目录。本发明可以提高文献目录识别的准确率。

    对话意图识别方法、复合型对话系统和存储介质

    公开(公告)号:CN119179767A

    公开(公告)日:2024-12-24

    申请号:CN202411678322.1

    申请日:2024-11-22

    Abstract: 本申请涉及一种对话意图识别方法、复合型对话系统和存储介质,通过响应于用户输入的对话内容,基于向量数据库检索目标意图示例;采用LLM基于目标意图示例进行意图预测,得到意图标签;将意图标签映射到预定义域中的意图,确定相匹配的目标意图;其中,预定义域包含多个业务场景的意图;基于目标意图引导至相应的对话场景节点;根据对话场景节点执行预设任务,并输出预设任务的执行结果;提升了对话意图识别效率和精准度。

    基于大语言模型驱动的学术论文检索方法、设备、介质

    公开(公告)号:CN119357335A

    公开(公告)日:2025-01-24

    申请号:CN202411910214.2

    申请日:2024-12-24

    Inventor: 杨江 宋子奇 周英

    Abstract: 本发明公开了一种基于大语言模型驱动的学术论文检索方法、设备、介质,包括:根据输入的检索请求,通过若干学术论文数据库检索得到初步学术论文检索结果;对初步学术论文检索结果进行合并,并按相关性、热度、时间进行加权排序处理;将排序后的初步学术论文检索结果输入至预先训练好的第一大语言模型中,得到学术论文的文章摘要以及相似学术论文对比分析结果;其中,第一大语言模型的训练过程包括:构建包括摘要生成、问答、关键词提取、逻辑推理、信息抽取和文献综述生成在内的多样化任务样本,构建总损失函数以此训练第一大语言模型;所述总损失函数为摘要生成、问答、关键词提取、逻辑推理、信息抽取、文献综述损失函数的加权和。

    一种文献目录自动识别方法及装置

    公开(公告)号:CN118799908A

    公开(公告)日:2024-10-18

    申请号:CN202411290372.2

    申请日:2024-09-14

    Inventor: 周英 宋子奇 杨江

    Abstract: 本发明公开了一种文献目录自动识别方法及装置,该方法包括:获取待处理文献;将所述待处理文献转换为若干张图像;基于版面分析模型对所述图像进行版面分析得到图像中各文字区域的类别和包围框坐标;所述类别至少包括章节标题和普通文本;将所述图像及图像中各文字区域的包围框坐标输入文字识别模型,得到包围框内的文字;仅保留类别为章节标题和普通文本的内容;基于大语言模型对保留的章节标题及章节标题对应的普通文本进行置信度分析,筛选出置信度大于预设阈值的章节标题,生成目录。本发明可以提高文献目录识别的准确率。

    一种表格图像及表格LaTeX代码生成方法和装置

    公开(公告)号:CN119089879A

    公开(公告)日:2024-12-06

    申请号:CN202411586235.3

    申请日:2024-11-08

    Abstract: 本发明公开了一种表格图像及表格LaTeX代码生成方法和装置,所述方法包括:确定表格维度参数,以生成对应表格维度的LaTeX表格创建代码;将LaTeX表格创建代码及数据所属领域填入提示词模板,将该提示词输入大语言模型,输出新的LaTeX表格创建代码;新的LaTeX表格创建代码中,原有代表各单元格内容的占位符将被替换为数据所属领域的表头或相应数据;所述新的LaTeX表格创建代码中,对其中的单元格进行随机合并,得到表格LaTeX代码;利用渲染工具生成表格LaTeX代码对应的表格图像。本发明结合了计算机视觉和大语言模型的各自优势,利用图像、文本等多种模态信息,实现了 的大规模自动生成,对表格识别技术研究、文献数字化等领域具有重要意义。

Patent Agency Ranking