-
公开(公告)号:CN119046444B
公开(公告)日:2025-05-06
申请号:CN202411533982.0
申请日:2024-10-31
Applicant: 之江实验室
IPC: G06F16/3329
Abstract: 本发明公开了一种基于大模型的科学文献字段抽取方法及系统,包括:将科学文献(document)切分成若干片段(chunks);迭代生成亟待抽取的字段的答案,并排除chunks中不包含亟待抽取的字段的片段;之后一边生成候选答案,一边通过差异对比的方式,排除不同chunk中的冗余答案信息,排除由于幻觉导致输出的错误答案信息,并在迭代过程中融合包含正确答案的chunk,解决了针对不同片段回答零散不易整合的问题;该方法和系统在有限计算资源的条件下,能够最大发挥生成大模型对科学文献的抽取性能。
-
公开(公告)号:CN119441805A
公开(公告)日:2025-02-14
申请号:CN202411481596.1
申请日:2024-10-23
Applicant: 之江实验室
IPC: G06F18/21 , G06F18/214 , G06N3/045 , G06N3/084 , G06V10/774 , G06V10/776 , G06V10/82
Abstract: 本发明提供一种训练数据有效性评估方法、系统及装置,所述方法包括:获取训练集,所述训练集为从待评估数据中均匀降采样所得;获取测试集,所述测试集包括至少1个基准测试集和至少1个关联测试集;用所述训练集训练一个探针模型;用所述测试集对所述探针模型进行测试,记录测试指标;根据所述测试指标作观测图,所述作观测图包括:以基准测试集测试指标为横轴、关联测试集测试指标为纵轴建立直角坐标系;根据所述测试指标在所述直角坐标系中画出关键点;根据所述观测图对待评估数据做出有效性评价。本发明的优点在于:可以用很低的算力,迅速给出数据有效性评估,能提高模型研发迭代效率,尤其是对前沿的复杂模型,增益更明显。
-
公开(公告)号:CN118799908B
公开(公告)日:2025-01-07
申请号:CN202411290372.2
申请日:2024-09-14
Applicant: 之江实验室
IPC: G06V30/416 , G06V30/26
Abstract: 本发明公开了一种文献目录自动识别方法及装置,该方法包括:获取待处理文献;将所述待处理文献转换为若干张图像;基于版面分析模型对所述图像进行版面分析得到图像中各文字区域的类别和包围框坐标;所述类别至少包括章节标题和普通文本;将所述图像及图像中各文字区域的包围框坐标输入文字识别模型,得到包围框内的文字;仅保留类别为章节标题和普通文本的内容;基于大语言模型对保留的章节标题及章节标题对应的普通文本进行置信度分析,筛选出置信度大于预设阈值的章节标题,生成目录。本发明可以提高文献目录识别的准确率。
-
公开(公告)号:CN119179767A
公开(公告)日:2024-12-24
申请号:CN202411678322.1
申请日:2024-11-22
Applicant: 之江实验室
IPC: G06F16/332 , G06F16/33
Abstract: 本申请涉及一种对话意图识别方法、复合型对话系统和存储介质,通过响应于用户输入的对话内容,基于向量数据库检索目标意图示例;采用LLM基于目标意图示例进行意图预测,得到意图标签;将意图标签映射到预定义域中的意图,确定相匹配的目标意图;其中,预定义域包含多个业务场景的意图;基于目标意图引导至相应的对话场景节点;根据对话场景节点执行预设任务,并输出预设任务的执行结果;提升了对话意图识别效率和精准度。
-
公开(公告)号:CN112705856B
公开(公告)日:2021-09-21
申请号:CN202011600782.4
申请日:2020-12-30
IPC: G06F17/00 , B23K26/362 , B23K26/40 , B23K26/70 , B23K101/36
Abstract: 本发明提供一种适用于双光束激光直写的三维模型解析规划方法、装置及设备,所述三维模型解析规划方法是针对以三角形面构成的STL格式的三维模型,将STL格式三维模型进行读取解析,同时进行拓扑重构;将导入的STL模型进行高度划分;而后进行等厚切片,对于模型进行分层切割即可生成一系列的顶点;后续通过存储STL格式三维模型的拓扑信息进行轮廓拼接将这些顶点生成一系列轮廓;进行轮廓的填充区域和非填充区域的标记;最后依据不同的扫描线算法进行路径规划,最终实现了在所述双光束激光直写平台上较好的三维光刻效果,并能实现参数调整产生不同特征的三维光刻结果。
-
公开(公告)号:CN112705856A
公开(公告)日:2021-04-27
申请号:CN202011600782.4
申请日:2020-12-30
IPC: B23K26/362 , B23K26/40 , B23K26/70 , B23K101/36
Abstract: 本发明提供一种适用于双光束激光直写的三维模型解析规划方法、装置及设备,所述三维模型解析规划方法是针对以三角形面构成的STL格式的三维模型,将STL格式三维模型进行读取解析,同时进行拓扑重构;将导入的STL模型进行高度划分;而后进行等厚切片,对于模型进行分层切割即可生成一系列的顶点;后续通过存储STL格式三维模型的拓扑信息进行轮廓拼接将这些顶点生成一系列轮廓;进行轮廓的填充区域和非填充区域的标记;最后依据不同的扫描线算法进行路径规划,最终实现了在所述双光束激光直写平台上较好的三维光刻效果,并能实现参数调整产生不同特征的三维光刻结果。
-
公开(公告)号:CN119357335A
公开(公告)日:2025-01-24
申请号:CN202411910214.2
申请日:2024-12-24
Applicant: 之江实验室
IPC: G06F16/332 , G06F16/335 , G06F16/34 , G06N3/09
Abstract: 本发明公开了一种基于大语言模型驱动的学术论文检索方法、设备、介质,包括:根据输入的检索请求,通过若干学术论文数据库检索得到初步学术论文检索结果;对初步学术论文检索结果进行合并,并按相关性、热度、时间进行加权排序处理;将排序后的初步学术论文检索结果输入至预先训练好的第一大语言模型中,得到学术论文的文章摘要以及相似学术论文对比分析结果;其中,第一大语言模型的训练过程包括:构建包括摘要生成、问答、关键词提取、逻辑推理、信息抽取和文献综述生成在内的多样化任务样本,构建总损失函数以此训练第一大语言模型;所述总损失函数为摘要生成、问答、关键词提取、逻辑推理、信息抽取、文献综述损失函数的加权和。
-
公开(公告)号:CN118799908A
公开(公告)日:2024-10-18
申请号:CN202411290372.2
申请日:2024-09-14
Applicant: 之江实验室
IPC: G06V30/416 , G06V30/26
Abstract: 本发明公开了一种文献目录自动识别方法及装置,该方法包括:获取待处理文献;将所述待处理文献转换为若干张图像;基于版面分析模型对所述图像进行版面分析得到图像中各文字区域的类别和包围框坐标;所述类别至少包括章节标题和普通文本;将所述图像及图像中各文字区域的包围框坐标输入文字识别模型,得到包围框内的文字;仅保留类别为章节标题和普通文本的内容;基于大语言模型对保留的章节标题及章节标题对应的普通文本进行置信度分析,筛选出置信度大于预设阈值的章节标题,生成目录。本发明可以提高文献目录识别的准确率。
-
公开(公告)号:CN119179767B
公开(公告)日:2025-03-14
申请号:CN202411678322.1
申请日:2024-11-22
Applicant: 之江实验室
IPC: G06F16/3329 , G06F16/334 , G06F16/3332
Abstract: 本申请涉及一种对话意图识别方法、复合型对话系统和存储介质,通过响应于用户输入的对话内容,基于向量数据库检索目标意图示例;采用LLM基于目标意图示例进行意图预测,得到意图标签;将意图标签映射到预定义域中的意图,确定相匹配的目标意图;其中,预定义域包含多个业务场景的意图;基于目标意图引导至相应的对话场景节点;根据对话场景节点执行预设任务,并输出预设任务的执行结果;提升了对话意图识别效率和精准度。
-
公开(公告)号:CN119089879A
公开(公告)日:2024-12-06
申请号:CN202411586235.3
申请日:2024-11-08
Applicant: 之江实验室
IPC: G06F40/177 , G06F40/12
Abstract: 本发明公开了一种表格图像及表格LaTeX代码生成方法和装置,所述方法包括:确定表格维度参数,以生成对应表格维度的LaTeX表格创建代码;将LaTeX表格创建代码及数据所属领域填入提示词模板,将该提示词输入大语言模型,输出新的LaTeX表格创建代码;新的LaTeX表格创建代码中,原有代表各单元格内容的占位符将被替换为数据所属领域的表头或相应数据;所述新的LaTeX表格创建代码中,对其中的单元格进行随机合并,得到表格LaTeX代码;利用渲染工具生成表格LaTeX代码对应的表格图像。本发明结合了计算机视觉和大语言模型的各自优势,利用图像、文本等多种模态信息,实现了 的大规模自动生成,对表格识别技术研究、文献数字化等领域具有重要意义。
-
-
-
-
-
-
-
-
-