基于扩散模型的图像文本识别方法、装置和计算机设备

    公开(公告)号:CN119723550A

    公开(公告)日:2025-03-28

    申请号:CN202411785261.9

    申请日:2024-12-05

    Abstract: 本申请涉及一种基于扩散模型的图像文本识别方法、装置和计算机设备,其中,该基于扩散模型的图像文本识别方法包括:基于输入图像的视觉特征,通过训练完备的扩散模型对输入图像进行重建,得到对应的目标图像;扩散模型的训练为:获取训练数据集;训练数据集中各样本图像对应不同的图像失真情况;基于各样本图像对扩散模型进行训练,得到训练完备的扩散模型;训练过程中的扩散模型用于将每个样本图像进行正向扩散,得到噪声图像,通过学习逐步去噪重建真实图像,实现目标图像的生成;对目标图像进行文本识别,得到目标图像中的文本字符序列。通过本申请,解决了无法在复杂场景下进行准确的文本识别的问题,实现了在复杂场景下进行准确的文本识别。

    一种表格数据重构方法及装置、问答方法

    公开(公告)号:CN118093597A

    公开(公告)日:2024-05-28

    申请号:CN202410490193.7

    申请日:2024-04-23

    Applicant: 浙江大学

    Abstract: 本发明公开了一种表格数据重构方法及装置、问答方法,包括筛选出与用户问题有关的表头并保留该表头所在的列,得到列重构表格;对列重构后的表格进行行重构:根据单元值将表格的列划分为三类,即连续值列、离散值列、时间值列;提取连续值列的统计量、离散值列的与用户问题有关的类别以及时间值列的最早和最晚时间作为表格的重构特征,并将这些重构特征进行连接得到行重构表格,从而得到完整的重构表格;进一步地,输入大语言模型来生成符合用户问题需求的SQL语句,大大提高了通过自然语言处理表格任务的准确率,在实际的使用场景更加智能与有效。

    一种结构化数据问答方法、装置及介质

    公开(公告)号:CN118349654A

    公开(公告)日:2024-07-16

    申请号:CN202410527505.7

    申请日:2024-04-29

    Applicant: 浙江大学

    Abstract: 本发明公开一种结构化数据问答方法、装置及介质,包括:获取用户问题,并识别用户意图;解析用户意图,在知识库中检索对应的内容,并对问题进行时间实体抽取和区间判断,以生成提示语句;将所述提示语句转化为数据库的查询语句;根据所述查询语句,在数据库中获取用户问题答复;对所述用户问题答复进行质量评估,若质量评估得到的分数大于预设阈值,则判定答复成功,否则判定为失败;若判定失败,则纠正查询语句并重新进行数据库查询,直至判定成功。本发明的质量评估可对查询结果进行有效筛选,从而保证用户查询交互的准确性和有效性。

    一种基于大模型处理数据可视化任务的方法及装置

    公开(公告)号:CN118069819B

    公开(公告)日:2024-07-16

    申请号:CN202410483208.7

    申请日:2024-04-22

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于大模型处理数据可视化任务的方法及装置,包括:根据用户问题,查询对应的数据库,得到查询结果,同时生成prompt并定义用于可视化绘图的代码块内容;根据所述查询结果和prompt生成可视化任务的代码;对所述可视化任务的代码进行后处理,包括人工纠错和加入预定义代码;所述预定义代码用于防止字体乱码;执行后处理后的代码,得到所述用户问题的答案。本发明通过后处理和人工编写易错代码部分,减少了代码执行过程中的错误,提高了执行效率。

    一种基于大模型处理数据可视化任务的方法及装置

    公开(公告)号:CN118069819A

    公开(公告)日:2024-05-24

    申请号:CN202410483208.7

    申请日:2024-04-22

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于大模型处理数据可视化任务的方法及装置,包括:根据用户问题,查询对应的数据库,得到查询结果,同时生成prompt并定义用于可视化绘图的代码块内容;根据所述查询结果和prompt生成可视化任务的代码;对所述可视化任务的代码进行后处理,包括人工纠错和加入预定义代码;所述预定义代码用于防止字体乱码;执行后处理后的代码,得到所述用户问题的答案。本发明通过后处理和人工编写易错代码部分,减少了代码执行过程中的错误,提高了执行效率。

    一种分布式子轨迹连接查询处理方法

    公开(公告)号:CN113032391A

    公开(公告)日:2021-06-25

    申请号:CN202110162264.7

    申请日:2021-02-05

    Applicant: 浙江大学

    Abstract: 本发明公开了一种分布式子轨迹连接查询处理方法。该方法首先将轨迹数据进行混合分区处理,即首先基于时间信息对轨迹数据进行时间分区,之后基于空间位置信息将同一时间分区内的轨迹数据进行空间分区;在每一个时间分区内建立索引;在之后的查询过程中,首先将查询轨迹按照相同的时间间隔进行分区,并在相应的时间分区内进行并行查询,得到一系列候选轨迹;之后将每个候选轨迹对应的空间分区数据加载到内存中,并一一进行验证;最后将各个时间分区得到的数据进行合并。本方法能够支持城市级别GPS点的查询,并能够有效降低I/O和CPU处理开销,加快查询处理,性能良好。

    基于预训练语言模型的中文唇语识别提升方法与装置

    公开(公告)号:CN119446144A

    公开(公告)日:2025-02-14

    申请号:CN202411356079.1

    申请日:2024-09-27

    Applicant: 浙江大学

    Abstract: 基于预训练语言模型的中文唇语识别提升方法和装置,其方法包括:构建纠错数据集,通过同音词增强和混淆矩阵数据增强方法拓展数据集规模;对纠错数据集进行预处理,通过分词模型将字符映射为对应的令牌,然后再通过嵌入层映射为词嵌入。通过预训练语言模型对纠错句子进行特征提取;预训练语言模型输出的特征通过线性错误预测层输出错误字符的位置,线性错误纠正层对错误字符进行纠正;基于错误检测损失函数和错误纠正损失函数训练纠错网络,并且在训练过程中使用填充策略提升模型的纠错准确率;基于训练好的唇语纠错网络对唇语识别结果进行改善。本发明有效地降低了自回归和非自回归模型的字符错误率,并且易于迁移到其他模型。

    一种具像化的大模型推理辅助方法

    公开(公告)号:CN119026686A

    公开(公告)日:2024-11-26

    申请号:CN202410876691.5

    申请日:2024-07-02

    Applicant: 浙江大学

    Abstract: 本发明公开了人工智能技术领域的一种具像化的大模型推理辅助方法,包括以下步骤:步骤一,输入问题:以原始问题的文本描述#imgabs0#为输入,通过大语言模型对问题进行初步理解和分析;步骤二,规划阶段:识别阶段所需的关键元信息,元数据包括选择绘图工具和创建初始图像;步骤三,迭代推理阶段:根据语言模型给出的指令逐步更新图像,生成图文结合的思维链;步骤四,联合推理阶段:多模态大语言模型结合图像和文字信息,对整个思考过程进行解释和推理。本发明通过将抽象的推理问题具像化为图像,允许大语言模型接受问题的文本描述作为输入,并使用自我生成的图像作为增强推理的额外信息通道,能够减少先验知识的引入,从而提高方法的普适性。

Patent Agency Ranking