-
公开(公告)号:CN119763090A
公开(公告)日:2025-04-04
申请号:CN202411815294.3
申请日:2024-12-11
Applicant: 浙江大学
IPC: G06V20/62 , G06V30/18 , G06V30/19 , G06V30/14 , G06V30/148
Abstract: 本发明公开一种基于OCR和颜色预处理的背景复杂变化场景下电影字幕提取方法和装置,所述方法通过事先截取定位电影字幕位置,提取电影字幕颜色信息特征,根据字幕颜色预处理提取字幕文本,改进优化了传统的电影字幕提取方法由于背景元素混淆、色彩变化等原因,而导致的字幕提取效果不佳。本发明有助于提高提高OCR在电影场景中的识别精度,并在保证效率的同时,克服了背景复杂性带来的挑战。
-
公开(公告)号:CN119360392A
公开(公告)日:2025-01-24
申请号:CN202411323395.9
申请日:2024-09-23
Applicant: 浙江大学
IPC: G06V30/19 , G06F40/18 , G06F40/186 , G06F40/143 , G06F9/451 , G06F9/455 , G06F8/30
Abstract: 一种基于网页渲染的表格识别数据合成方法和装置,其方法包括:随机生成表格的尺寸大小;随机生成合并单元格的数量、位置以及合并跨度;生成表格的样式参数,包含边框样式、边框颜色、背景颜色、字体大小、字体颜色、对齐方式;使用GPT4模型生成匹配该表格结构的符合正常语义的表格填充文本;生成表格的HTML表示文件和CSS样式文件;生成JavaScript脚本文件,配置HTML前端渲染后所需要的截图参数设置和获取基于HTML语言表示的表格各单元格元素的坐标框位置的函数逻辑;在网页浏览器中渲染已生成的HTML文件,并使用已生成的JavaScript脚本进行网页截图,得到合成的表格图像,同时保留表格中各单元格的坐标框位置信息,最后结合HTML文件和保留的单元格坐标框位置信息,生成完整的表格识别标注内容。最后,系统将标注结果保存为JSON格式文件。
-
公开(公告)号:CN113821432B
公开(公告)日:2024-07-26
申请号:CN202110850886.9
申请日:2021-07-27
Applicant: 浙江大学
Abstract: 一种用于APP无障碍智能检测的功能图标智能导航方法,首先是将获得的APP屏幕截图按照设定比例切分为上中下三部分,其次是对切分后的图像与标准库中的图标图像进行灰度与二值化的处理,然后分别对处理后的切分图像与标准库图标图像进行SIFT与ORB算子的特征值提取,之后使用Flann算法进行特征的匹配,得到切分图像中功能图标的一系列可能位置,最后K‑means聚类方法将一系列点聚类为一个点同时排除异常点。本发明综合运用了灰度化与二值化消噪方法、SIFT与ORB图像特征抽取方法,Flann特征匹配算法与K‑means点集消噪方法,在APP的自动检测过程中对页面中的跳转功能图标进行准确的定位,从而协助自动检测脚本遍历检查整个APP中的所有页面。
-
公开(公告)号:CN113887698B
公开(公告)日:2024-06-14
申请号:CN202110982472.1
申请日:2021-08-25
Applicant: 浙江大学
IPC: G06N3/096 , G06N3/042 , G06N3/0464 , G06N3/0442 , G06N3/045 , G06V10/764 , G06V10/82
Abstract: 本发明的目的是提供一种基于图神经网络的整体知识蒸馏方法,包括:给定老师和学生网络学习到的特征表示和分类预测的结果,以每个样本为节点,网络学习到的特征为节点的属性,分类预测结果的K近邻(KNN)关系为边,为每个网络构建一个属性图;使用拓扑结构自适应的图卷积神经网络聚合属性图中邻域样本的节点属性以及拓扑信息来提取整体性知识,表示为统一的基于图的嵌入向量;使用infoNCE估计最大化学生网络与老师网络的图嵌入表示的互信息,并使用特征记忆存储技术加速训练效率。该方法:可以同时整合老师网络中个体上的知识和关系上的知识,使学生网络学习到整体性的知识,从而提升学生网络的性能。
-
公开(公告)号:CN117853879A
公开(公告)日:2024-04-09
申请号:CN202410025476.4
申请日:2024-01-08
Applicant: 浙江大学
IPC: G06V10/94 , G06V10/44 , G06V10/774 , G06V10/82 , G06N3/0464 , G06N3/08 , G06F3/0481 , G06F3/0484
Abstract: 一种基于计算机视觉的移动应用浮窗无障碍可操作性检测方法,首先接收用户输入的移动应用页面根节点信息,并遍历目标应用页面以获取截图。随后,对页面图片进行二值化处理,并使用YOLOv5网络训练目标检测模型以进行浮窗轮廓定位,将结果返回给自动化测试工具APPIUM检测关闭按钮,并采用视觉方法纠错。最终,判断浮窗可操作性是否合规。通过该方法的实施,可以有效判断移动应用中浮窗的可操作性。本发明的应用领域主要包括信息无障碍技术领域,尤其适用于移动应用的界面交互优化,符合无障碍标准。
-
公开(公告)号:CN117853849A
公开(公告)日:2024-04-09
申请号:CN202410027915.5
申请日:2024-01-09
Applicant: 浙江大学
IPC: G06V10/776 , G06V10/774 , G06V10/25 , G06V10/30 , G06V10/44 , G06V10/82 , G06T5/92 , G06N3/0464 , G06N3/08
Abstract: 本发明公开一种基于Yolov5的毛笔笔尖检测方法,包括(1)收集不同类型毛笔的图像数据及对这些数据进行预处理;(2)对需要标注的数据集进行标注,生成训练需要的数据集;(3)使用标注好的数据集对Yolov5模型进行训练;(4)对训练好的模型进行优化和验证;(5)将优化好的模型部署到实际情况中进行应用。本发明具有快速检测、高精度、适应不同书写状态和光照条件的优势,可用于书法教学软件、智能书写辅助装置等产品,有望提升学习者的书写技艺和规律把握,具备良好的商业化前景。
-
公开(公告)号:CN113779352B
公开(公告)日:2023-11-24
申请号:CN202110849884.8
申请日:2021-07-27
Applicant: 浙江大学
IPC: G06F16/951 , G06F3/04883 , G06F9/451
Abstract: 面向无障碍检测的移动端应用页面自动遍历方法,包括:进入App首页,机械臂每右滑一次,都通过计算机视觉算法,检测出此时停留的聚焦框的坐标,图像等信息,生成一个聚焦框对象;不断右滑直至焦点陷入或者达到设定的遍历次数,由此可以判断页面是否为瀑布流,如果是瀑布流,则还需进行导航栏的遍历;首页的遍历结束,将首页的所有聚焦框加入广度遍历队列中;进行广度遍历,当队列不为空时,从中取第一个聚焦框并出列,计算从当前页面到目标聚焦框的路径,通过操纵机械臂到达对应聚焦框,点击聚焦框,判断是否进入了一个全新的页面,如果是,则对新页面进行相应操作,否则就访问下一个聚焦框,直到队列为空。本发明适用于复杂场景,普适性强,可作为无障碍合规检测的上游服务,爬取应用的页面信息,供后续的检测使用。
-
公开(公告)号:CN113779471B
公开(公告)日:2023-11-07
申请号:CN202110850857.2
申请日:2021-07-27
Applicant: 浙江大学
IPC: G06F16/958 , G06F11/36
Abstract: 一种面向无障碍检测的网络页面与App提测任务管理方法,首先,对用户身份进行鉴权;其次,根据用户的身份,筛选出用户可见的提测任务;然后,根据提测任务的当前的运行状态和对应的检测任务的运行状态,设定提测任务的运行状态和可操作状态;接着,当用户请求生成检测任务时,根据提测任务信息生成检测任务,并由检测任务端对检测任务进行管控;最后,当检测任务完成后,可将检测任务设为无法检测或与之对应的提测任务的最终结果,提测任务端会同步提测任务的信息。本发明可供网络页面与App无障碍检测的提测者对他们的提测任务管理,并方便地提测任务和检测任务进行关联。
-
公开(公告)号:CN115878481A
公开(公告)日:2023-03-31
申请号:CN202211632198.6
申请日:2022-12-19
Applicant: 浙江大学
IPC: G06F11/36
Abstract: 一种跨域协同的网站无障碍众包评测方法包括:首先,需求方向系统发起评测任务。任务启动后,服务端对站点进行自动批量爬取,并依据需求方要求的无障碍标准条目进行网页信息提取与检测点定位,批量生成与条目对应的网站无障碍众包任务。然后,残障或健全用户通过安装系统配套的浏览器插件,实现在单个界面上跨域访问被测网页和系统结果提交页面,以进行众包任务。最后系统整合所有评测结果,输出任务报告供需求方查阅。本发明实现了网站信息的自动批量爬取,并依据相关标准条目要求进行无障碍信息的定位与提取,从而结合提取结果与任务评测需求,预生成与无障碍条目相关的众包任务。
-
公开(公告)号:CN115860048A
公开(公告)日:2023-03-28
申请号:CN202211370832.3
申请日:2022-11-03
Applicant: 浙江大学
Abstract: 一种基于对比学习的社区发现方法,包括:通过获取用户数据,根据用户实体之间的关系和用户属性特征构建网络拓扑图;对网络拓扑图进行不同的数据增强,得到两个增强后的图;在表征空间构建正负样本对,进行实例层面的对比学习预训练;分别在表征空间和聚类空间构造正负样本对,进行实例层面和聚类层面对比学习联合训练;在联合训练的基础上,使用伪标签对聚类部分进行指导,得到更为准确的聚类分配矩阵;处理聚类分配矩阵,输出最终聚类结果。本发明解决了对比学习在端到端社区发现领域的应用空缺问题。在电商领域,通过用户购买相同的物品的关系,使用本发明可以进一步得到相同兴趣爱好的社区。
-
-
-
-
-
-
-
-
-