-
公开(公告)号:CN119398018A
公开(公告)日:2025-02-07
申请号:CN202411975829.3
申请日:2024-12-31
Applicant: 浙江大学计算机创新技术研究院
Abstract: 本发明公开了一种二维表格数据多模态模型的设计和训练方法。本发明首先设计二维表格数据多模态模型,其包括表格表征模块,所述表格表征模块由多个串行的双向注意力模块组成;通过所述双向注意力模块处理使得表格表征词嵌入集能够与其它相关单元格交互,捕获全局结构化表格语义;然后预训练表格表征模块,使用大量原始表格数据来训练表格表征模块,使其能够输出准确的表格表征信息;最后对表格表征模块和大语言模型解码器进行对齐训练,采用表格表征模块和大语言模型解码器进行联合监督微调。本发明能实现表格模态与文本模态共同输入大模型进行表格问答、数据分析等生成式任务,有效提升二维表格问答、代码生成等任务的效果和性能。
-
公开(公告)号:CN119377353A
公开(公告)日:2025-01-28
申请号:CN202411417069.4
申请日:2024-10-11
Applicant: 浙江大学
IPC: G06F16/332 , G06F16/36 , G06N5/025
Abstract: 本发明公开了一种基于大语言模型和知识图谱的多模态问答方法,属于人工智能及知识图谱技术领域。针对现有问答系统中多模态信息处理不充分、语义理解深度不足及跨模态推理能力有限等问题,本发明提出了一种多模态问答引擎,通过为多模态数据构建多模态知识图谱,建立模态内部以及模态之间的语义关联网络,并为知识图谱的实体、关系等元素生成索引,以支持后续的高效检索。通过对知识图谱进行结构化信息检索,结合大型语言模型强大的自然语言理解能力和特定模态问答模型的能力,提高了信息检索的效率与准确性,增强了跨模态推理能力,从而实现在复杂多模态环境下的高效精准问答。
-
公开(公告)号:CN119376934A
公开(公告)日:2025-01-28
申请号:CN202411417066.0
申请日:2024-10-11
Applicant: 浙江大学
IPC: G06F9/50
Abstract: 本发明公开了一种云工作的负载预测方法,包括:获取云工作的历史负载数据并进行预处理,单独标记出每个序列最后一个时间步的数据;使用预处理后的历史负载数据和每个序列最后一个时间步的数据分别训练基于TS2Vec模型的时间卷积编码器,分别得到变量独立预测器和变量依赖预测器,将这两个预测器的输出加权求和得到云工作的负载预测。本发明尽量减少对历史数据的依赖,从而降低训练成本,同时在长期内保持低预测误差,还利用了变量独立和变量依赖两种预测器,进一步提高了预测的准确性。
-
公开(公告)号:CN118364006A
公开(公告)日:2024-07-19
申请号:CN202410649001.2
申请日:2024-05-23
Applicant: 浙江大学
IPC: G06F16/2458 , G06F16/242 , G06F16/248 , G06N10/20
Abstract: 本发明公开了一种基于量子振幅放大技术的近似查询处理优化方法,属于数据库技术领域。本发明针对采样结果中具有高选择性的组别使用量子振幅放大技术,提高了其采样概率,并执行量子采样过程获取新的采样结果,之后采用新的采样结果进行多轮迭代,逐步采样具有高选择性的组别,扩大其样本大小,减小估计误差。相关实验表明在相同采样率下,该方法进一步优化了近似查询处理的准确度。
-
公开(公告)号:CN118349654A
公开(公告)日:2024-07-16
申请号:CN202410527505.7
申请日:2024-04-29
Applicant: 浙江大学
IPC: G06F16/332 , G06F16/335 , G06F40/35 , G06F16/31 , G06F16/242
Abstract: 本发明公开一种结构化数据问答方法、装置及介质,包括:获取用户问题,并识别用户意图;解析用户意图,在知识库中检索对应的内容,并对问题进行时间实体抽取和区间判断,以生成提示语句;将所述提示语句转化为数据库的查询语句;根据所述查询语句,在数据库中获取用户问题答复;对所述用户问题答复进行质量评估,若质量评估得到的分数大于预设阈值,则判定答复成功,否则判定为失败;若判定失败,则纠正查询语句并重新进行数据库查询,直至判定成功。本发明的质量评估可对查询结果进行有效筛选,从而保证用户查询交互的准确性和有效性。
-
公开(公告)号:CN118069819B
公开(公告)日:2024-07-16
申请号:CN202410483208.7
申请日:2024-04-22
Applicant: 浙江大学
IPC: G06F16/332 , G06F16/33 , G06F16/34
Abstract: 本发明公开了一种基于大模型处理数据可视化任务的方法及装置,包括:根据用户问题,查询对应的数据库,得到查询结果,同时生成prompt并定义用于可视化绘图的代码块内容;根据所述查询结果和prompt生成可视化任务的代码;对所述可视化任务的代码进行后处理,包括人工纠错和加入预定义代码;所述预定义代码用于防止字体乱码;执行后处理后的代码,得到所述用户问题的答案。本发明通过后处理和人工编写易错代码部分,减少了代码执行过程中的错误,提高了执行效率。
-
公开(公告)号:CN118069819A
公开(公告)日:2024-05-24
申请号:CN202410483208.7
申请日:2024-04-22
Applicant: 浙江大学
IPC: G06F16/332 , G06F16/33 , G06F16/34
Abstract: 本发明公开了一种基于大模型处理数据可视化任务的方法及装置,包括:根据用户问题,查询对应的数据库,得到查询结果,同时生成prompt并定义用于可视化绘图的代码块内容;根据所述查询结果和prompt生成可视化任务的代码;对所述可视化任务的代码进行后处理,包括人工纠错和加入预定义代码;所述预定义代码用于防止字体乱码;执行后处理后的代码,得到所述用户问题的答案。本发明通过后处理和人工编写易错代码部分,减少了代码执行过程中的错误,提高了执行效率。
-
公开(公告)号:CN117171230A
公开(公告)日:2023-12-05
申请号:CN202310977542.3
申请日:2023-08-04
Applicant: 浙江大学
IPC: G06F16/2458 , G06F16/21 , G06N5/04 , G06N3/0499
Abstract: 本发明公开了一种适用于目标检测算法的数据库内推理系统。所述系统包括数据库客户端和数据库服务端;包括数据库客户端,用于用户的输入操作和命令的传输,接收用户的推理函数的调用请求和待测数据参数;包括数据库服务端,内置有带有系统表的、用于存储模型文件及其推理函数的数据库,具有本地的文件系统,内存中创建有一个用于加载模型文件和运行模型文件的模型存储器,和数据库客户端通讯连接。本发明能显著简化深度学习模型的部署难度,减轻开发人员的负担,降低使用门槛,同时减少了数据在数据库与其他应用之间的传输损耗,从而提高了运行效率。
-
公开(公告)号:CN115576970A
公开(公告)日:2023-01-06
申请号:CN202211054493.8
申请日:2022-08-31
Applicant: 浙江大学
IPC: G06F16/242 , G06F16/2453
Abstract: 本发明公开了一种基于决策树的数据库代价模型参数优化方法及其查询方法。针对特定软硬件设置下的数据库实例,本发明建立了一棵数据库代价模型参数树,使用数据库配置参数、查询语句特征作为分裂维度对参数空间进行分区,每个分区中通过对训练样本的线性拟合求解最优的代价模型参数。在运行过程中,参数树为不同参数配置及数据分布下的查询语句分配不同的代价模型参数,从而进行精准的代价预测。实验表明该方法提高了传统基于规则的估计模型的预测准确度,优化了数据库的查询性能。
-
公开(公告)号:CN111475507B
公开(公告)日:2022-06-21
申请号:CN202010244527.4
申请日:2020-03-31
Applicant: 浙江大学
Abstract: 本发明公开了一种工作负载自适应单层LSMT的键值数据索引方法。该方法对传统的日志结构合并树(Log‑Structured‑Merge Tree,LSMT)进行了优化,去除了多层设计和固定内存表容量设计,引入了单层LSMT和动态容量内存表的设计。该方法将写入首先将写操作以顺序的方式写入存储设备上的日志文件中,再修改内存表。当内存表的大小达到了容量限制,转换成一个只读内存表,并在后台线程中将只读内存表表合入存储设备上的单层LSMT结构中。在此基础上,本方法能够根据工作负载中的键值读写分布自动优化存储结构。该索引方法能够同时降低对存储设备的读写放大,提升系统吞吐和存储设备寿命。同时针对工作负载做出自适应的优化,进一步提升系统性能。
-
-
-
-
-
-
-
-
-