-
公开(公告)号:CN103559191A
公开(公告)日:2014-02-05
申请号:CN201310410565.2
申请日:2013-09-10
Applicant: 浙江大学
IPC: G06F17/30
CPC classification number: G06F16/583 , G06F16/334 , G06F16/40
Abstract: 本发明公开了一种基于隐空间学习和双向排序学习的跨媒体排序方法。包括如下步骤:1)将文本检索图像的排序样本和图像检索文本的排序样本统一构建为训练样本;2)对构建得到的训练样本进行基于隐空间学习和双向排序学习的跨媒体排序学习,得到多媒体语义空间以及跨媒体排序模型;3)使用学习得到的跨媒体排序模型进行跨媒体排序。本发明不仅可以应用于文本检索图像以及图像检索文本,而且由于同时对两个检索方向进行建模,得到的检索模型的语义理解能力更强,检索精度较于仅考虑单向排序学习的方法更好。
-
公开(公告)号:CN103530656A
公开(公告)日:2014-01-22
申请号:CN201310410623.1
申请日:2013-09-10
Applicant: 浙江大学
Abstract: 本发明公开了一种基于隐结构学习的图像摘要生成方法。它包括如下步骤:1)对图片提取HSV颜色直方图特征、视觉单词特征以及方向直方图特征;2)对上一步提取的三种特征进行归一化的预处理并在归一化后将三种特征融合为一个特征向量;3)构造一个带有隐变量的结构支持向量机,从数据库中多次选取训练集合,并利用训练集中不同主题相关的图片集合进行权重系数学习;4)利用上一步学习得到的权重系数,从数据库中选取不同主题相关的图片集,预测出它们的隐含的特征选择偏好并生成与之对应的摘要图片集合。本发明具有更高的信息覆盖率和更低的冗余度可以隐式地学习出不同主题相关的图片集合在特征选择上的不同偏好,比传统的方法取得更好效果。
-
公开(公告)号:CN101079053A
公开(公告)日:2007-11-28
申请号:CN200710069838.6
申请日:2007-07-02
Applicant: 浙江大学
IPC: G06F17/30
Abstract: 本发明涉及一种基于ContextFS上下文文件系统的文件管理方法,包括下述步骤:用户副本:在上下文文件系统中,如果产生多个用户对同一个文件进行读写的情况,采用用户副本的方法来解决这些冲突,同时又维持命名空间的一致性;文件存放:根据用户自定义、当前上下文、用户偏好多个因素,来决定新创建的用户文件及副本的最终存放位置;文件归档:对长期不使用的文件,即对长期处于未使用状态的文件进行归档存储。本发明有益的效果是:1.解决多个用户对同一个文件进行读写产生的冲突,同时又维持命名空间的一致性。2.确定一个最优的存储位置,以保证文件的快速获取。3.对长期处于未使用状态的文件进行归档存储,降低储存代价。
-
公开(公告)号:CN119577102B
公开(公告)日:2025-04-29
申请号:CN202510143753.6
申请日:2025-02-10
Applicant: 浙江大学
IPC: G06F16/3329 , G06N5/04 , G06V10/82 , G06N3/0455 , G06N3/08
Abstract: 本发明公开了一种基于自举式生成的图表反事实问答构建方法及系统,包括提取图表图像中的视觉描述和元数据;基于图表视觉描述文本,通过大语言模型的少样本提示方法生成与图表视觉描述文本相对应的初始反事实假设提案,以自举的方式生成达到数量要求的提案储备;基于图表元数据和初始问题答案对,对假设提案储备采样出反事实假设提案样本,通过大语言模型的少样本提示方法生成反事实问题答案对;在收集达到数量要求的反事实问题答案对后,核查反事实问题答案对的文本和数值。本发明能够构建具有反事实逻辑的图表问答数据集,能为视觉问答模型的性能评测生成具有挑战性的测试集,能为视觉文本模型的训练提供具有多样性的训练语料。
-
公开(公告)号:CN119128118A
公开(公告)日:2024-12-13
申请号:CN202411612390.8
申请日:2024-11-13
Applicant: 浙江大学
IPC: G06F16/332 , G06V30/148
Abstract: 本发明提供了一种视觉问答数据增强方法、装置、设备及存储介质,属于人工智能技术领域,包括获取视觉问答任务的原始数据集;提取原始问题中用于描述原始图像中物体的目标名词,将目标名词输入大语言模型,通过大语言模型生成多个与目标名词相关的新问答对,将新问答对和原始问答对进行合并得到增强后的文本提示;根据数据增强后的文本提示,对原始图像进行目标检测,得到文本提示对应物体的边界框,基于边界框对图像进行分割提取,得到分割掩码图像;根据分割掩码图像及数据增强后的文本提示对原始图像进行重绘,得到增强后的图像。该方法能够得到更高质量的视觉问答数据,从而提高视觉问答模型的准确性,减少VQA中的语言偏差问题。
-
公开(公告)号:CN119066183A
公开(公告)日:2024-12-03
申请号:CN202411570021.7
申请日:2024-11-06
Applicant: 浙江大学
IPC: G06F16/332 , G06F16/33 , G06F18/22 , G06N3/0455 , G06N5/022
Abstract: 本发明提供了一种开放域问答方法、装置、设备及存储介质,属于自然语言处理技术领域,包括:获取待查询问题,在知识库中检索待查询问题的相关文档;将待查询问题和相关文档输入预训练的问答模型,生成待查询问题的候选答案;验证候选答案的正确性,若候选答案未通过验证,则基于检索得到的相关文档和待查询问题生成关于候选答案中缺失内容的反馈;基于候选答案中缺失内容的反馈在知识库中再次检索待查询问题的相关文档;迭代生成候选答案、验证和再次检索的过程,直至候选答案通过验证。该方法能够提高大语言模型对于复杂问题的回答准确性。
-
公开(公告)号:CN112348102B
公开(公告)日:2024-03-19
申请号:CN202011278817.7
申请日:2020-11-16
Applicant: 浙江大学 , 杭州海康威视数字技术股份有限公司
IPC: G06V20/40 , G06V10/82 , G06V10/80 , G06V10/764 , G06V10/766 , G06F16/783
Abstract: 本发明公开了一种基于查询的自底向上视频定位方法和系统。首先,获取查询内容Query和待定位视频Ref,其次将查询内容Query特征与待定位视频Ref的特征融合到一个全新的特征图#imgabs0#中。最后特征图#imgabs1#通过深度学习方法检测出查询内容Query所对应的真实视频片段GT‑v位于待定位视频Ref中的起始位置和终止位置。本发明方法根据查询内容Query可以准确而又高效的识别真实视频片段GT‑v在待定位视频Ref的起始位置和终止位置。
-
公开(公告)号:CN113111241B
公开(公告)日:2022-12-06
申请号:CN202110378191.5
申请日:2021-04-08
IPC: G06F16/9032 , G06F16/908 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种博弈对话中基于对话历史和强化学习的多轮对话方法,属于智能体和强化学习模型领域。该方法包括如下步骤:首先将多轮对话作为一个有限重复博弈的过程,存储已经结束的完整多轮对话,构建既往对话历史信息库;然后在一个新的多轮对话中,基于记忆网络构建对手行动估计模型,用当前对话已经进行的轮次去检索对话历史信息库,通过多步估计产生对手下一步策略的估计向量;最后基于编码‑解码模型融合当前对话的信息和估计向量,做出下一步的应答。本发明在多轮对话过程中,将既往对话历史的估计向量和当前对话历史的回应向量进行融合,能够更充分地利用了历史信息,使得对话机器人(智能体)具备更高的适应性、做出更好的应答。
-
公开(公告)号:CN113554078A
公开(公告)日:2021-10-26
申请号:CN202110788454.X
申请日:2021-07-13
Applicant: 浙江大学
Abstract: 本发明公开了一种基于对比类别集中提升连续学习下图分类精度的方法。该方法用于对已经过历史数据训练的图分类模型进行类增长学习,具体步骤如下:S1:获取加入新类别的图像分类数据集,图像分类数据集中每个样本均带有其类别标签;S2:获取所述图分类模型在上一轮训练过程中进行参数更新前的旧模型和参数更新后的新模型,然后利用加入新类别的图像分类数据集构建训练数据,进行本轮训练;S3:保存本轮参数更新前的旧模型和参数更新后的新模型,并在进行下一轮训练之前利用本轮参数更新后的新模型进行图分类任务。本发明结合对比学习和知识蒸馏的思想,能够帮助模型学习到更加聚合的数据表征,从而缓解表征覆盖,帮助模型减少灾难性遗忘。
-
公开(公告)号:CN112101358B
公开(公告)日:2021-02-26
申请号:CN202011217929.1
申请日:2020-11-04
Applicant: 浙江大学 , 城云科技(中国)有限公司
Abstract: 本发明公开了一种基于解耦和干预的图网络对齐短语和图片区域的方法,属于图像数据处理领域。该方法先提取图片候选区域的视觉特征和图片描述句子中名词性短语的文本特征,并利用视觉场景图和语法解析树分别得到视觉和文本语义图结构;然后将视觉和文本图结构通过基于解耦和干预的图神经网络后得到包含图结构中邻居关系的视觉候选区域和文本短语特征;最后通过跨模态的自注意力机制进行对齐映射,并根据对齐后的内积判断指定短语和视觉区域的对齐结果。本发明结合解耦和干预的图神经网络方法,能够学习到更加可解释和鲁棒的视觉和文本特征,从而利用包含图结构环境关系的特征实现跨模态对齐,完成短语到图片区域的定位。
-
-
-
-
-
-
-
-
-