-
公开(公告)号:CN120070885A
公开(公告)日:2025-05-30
申请号:CN202510075998.X
申请日:2025-01-17
Applicant: 杭州电子科技大学
IPC: G06V10/26 , G06V20/70 , G06V10/774 , G06V10/82 , G06N3/0464 , G06N3/096 , G06N3/045 , G06N3/0895 , G06V10/764
Abstract: 本发明公开了一种基于互训练的半监督语义分割方法,该方法首先获取一组有标注数据集和一组无标注数据集。然后构建包括非图像类语义错误校正模块和图像类语义错误校正模块的半监督语义分割模型,基于有标注数据集和无标注数据集进行语义分割。其次设计迭代训练策略对半监督语义分割模型进行训练,输出语义分割结果。本发明引入互训练策略,有效解决了自训练方法中缺乏对自身错误检测机制的问题,并通过随机迭代训练策略,缓解伪标签膨胀问题,提高最终语义分割的准确性和鲁棒性。
-
公开(公告)号:CN119963711A
公开(公告)日:2025-05-09
申请号:CN202510044495.6
申请日:2025-01-11
Applicant: 杭州电子科技大学
Abstract: 本发明公开了一种基于隐式可微渲染的高质量半透明物体重建方法,首先围绕放置在环境中的匀质光滑金属球体以及目标重建半透明物体分别拍摄多张二维图像。其次利用金属球体的二维图像生成环境光照图,提取目标重建半透明物体每张二维图像对应的相机位姿信息。然后构建半透明物体重建网络TO‑NeuS,将围绕目标物体拍摄的二维图像数据作为标签,根据相机位姿信息进行采样,获取目标物体的几何信息的隐式表达。最后构建光场模型,结合隐式表达和环境光照图,得到半透明物体图像像素的反射颜色分量和透射颜色分量,计算重建图像像素颜色。本发明弥补半透明物体重建对特定环境的依赖局限,在降低计算量的同时显著增强重建效果。
-
公开(公告)号:CN119863539A
公开(公告)日:2025-04-22
申请号:CN202510068234.8
申请日:2025-01-16
Applicant: 杭州电子科技大学
IPC: G06T11/00 , G06N3/0475 , G06N3/0455 , G06N3/094
Abstract: 本发明公开了一种基于生成对抗网络的人脸图像属性编辑方法,该方法首先获取具有目标属性的目标图像和不具有目标属性的源图像,并利用预训练的生成对抗网络,获取源图像的中性图。其次通过编码器将源图像、源图像的中性图和目标图像映射为多层隐表示。然后从隐表示中提取待编辑隐单元,根据目标属性相互交换源图像隐表示和目标图像隐表示中不同层级的待编辑隐单元,并将最终层级源图像隐表示输入解码器,生成含目标属性的新图像。最后构建人脸图像属性编辑模型包括生成器与判别器,生成器由上述编码器和解码器组成,并进行训练。本发明能够确保生成的图像在局部细节上更接近目标图像,实现精确的属性编辑。
-
公开(公告)号:CN117275452A
公开(公告)日:2023-12-22
申请号:CN202310620975.3
申请日:2023-05-30
Applicant: 杭州电子科技大学
IPC: G10L13/027 , G10L13/08 , G10L21/0232 , G10L21/0264 , G10L21/057 , G06V40/16
Abstract: 本发明属于计算机视觉技术领域,尤其涉及一种带基于人脸网格的语音合成系统。包括如下步骤:S1.搭建唇动模型,通过编码器从视频数据中提取唇动高级特征;S2.视频语音识别,选择视频作为模型的输出,并通过唇动视频预测说话者所讲述的内容,形成文本;S3.文本到语音生成,通过自回归的方式合成文本所对应的梅尔频谱,再通过音频解码器合成音频波形。与现有的技术相比,本基于人脸网格的语音合成系统的优点在于:能够提高正确度,直接通过高级特征(唇部动作)进行唇读。
-
公开(公告)号:CN116825083A
公开(公告)日:2023-09-29
申请号:CN202310176960.2
申请日:2023-02-28
Applicant: 杭州电子科技大学
IPC: G10L13/08 , G10L15/25 , G10L15/26 , G10L19/20 , G10L13/02 , G10L25/24 , G06V40/16 , G06V40/20 , G06V10/82 , G06N3/0455 , G06N3/044 , G06N3/0464 , G06N3/08
Abstract: 本发明属于计算机视觉技术领域,尤其涉及一种带基于人脸网格的语音合成系统。包括如下步骤:S1.搭建唇动模型,通过编码器从视频数据中提取唇动级特征;S2.视频语音识别,选择视频作为模型的输,并通过唇动视频预测说话者所讲述的内容,形成文本;S3.文本到语音生成,通过自回归的方式合成文本所对应的梅尔频谱,再通过音频解码器合成音频波形。与现有的技术相比,本基于人脸网格的语音合成系统的优点在于:能够提高正确度,直接通过高级特征(唇部动作)进行唇读。
-
公开(公告)号:CN115731576A
公开(公告)日:2023-03-03
申请号:CN202211474511.8
申请日:2022-11-23
Applicant: 杭州电子科技大学
IPC: G06V40/10 , G06V10/762 , G06V10/774 , G06V10/764 , G06N3/0464 , G06N3/088
Abstract: 本发明提供了基于遮挡关键区域的无监督行人重识别方法,包括:对无标签的图片数据集进行预处理,输入到网络模型中;构建深度学习模型,使用空间注意力模块获取图片的关键区域并进行遮挡;对图片的特征编码进行聚类,得到图片的伪标签;构建基于难样本更新策略和基于聚簇更新的损失函数;根据损失函数的变化情况,得到训练好的网络模型;将待识别的行人图片和视频输入训练好的网络模型,输出行人重识别结果。本方法能避免网络模型过于关注图像的局部特征或全局特征,有效提高了模型的泛化性和鲁棒性。
-
公开(公告)号:CN119850960A
公开(公告)日:2025-04-18
申请号:CN202510054025.8
申请日:2025-01-14
Applicant: 杭州电子科技大学
IPC: G06V10/26 , G06V20/70 , G06V10/82 , G06V10/764 , G06V10/762 , G06V10/80 , G06N3/0895 , G06N3/084 , G06N3/045 , G06N3/0464
Abstract: 本发明公开了一种基于类别表征对比与聚合的弱监督语义分割方法,该方法首先对包含C个目标类别的N幅图像,进行图像增强的预处理。其次引入类别表征概念,构建类别表征提取模块,基于预处理后的图像获取类别表征,构建类别表征聚合模块,聚合类别表征,得到类别表征聚合特征。然后类别表征聚合特征,通过归一化全局加权池化生成伪标签和类别分数。最后构建分割模型,基于伪标签输出语义分割结果。本发明有效抑制了错误位置的错误激活,有效提升了种子区域的生成质量进而提升语义分割正确性。
-
公开(公告)号:CN115731198A
公开(公告)日:2023-03-03
申请号:CN202211481234.3
申请日:2022-11-24
Applicant: 杭州电子科技大学
IPC: G06T7/00 , G06V10/82 , G06V10/26 , G06V10/764 , G06V10/20 , G06N3/0455 , G06N3/0464
Abstract: 本发明主要用于牛皮和羊皮皮革表面缺陷中的孔洞、划伤、烂面、针眼等缺陷智能检测,提供一种皮革表面缺陷智能检测系统包括:步骤S1,一次整皮图像采集,并将采集到的皮革表面图像存储在存储介质上。步骤S2,从存储介质中读取出采集到的整皮图像,采用训练好的改进的yolo模型对皮革表面进行检测。步骤S3,缺陷分割,根据步骤S2得到缺陷位置和缺陷类型,基于分割模型,对缺陷进行分割,裁剪图片,计算后得到缺陷形状和缺陷面积。步骤S4,根据步骤S2和步骤S3得到的缺陷的位置、类型、形状、面积数据,结合步骤S1采集到的整皮图像数据,对系统的检测结果进行可视化展示。
-
公开(公告)号:CN114281954A
公开(公告)日:2022-04-05
申请号:CN202111044215.X
申请日:2021-09-07
Applicant: 杭州电子科技大学
IPC: G06F16/332
Abstract: 本发明属于自然语言生成的计算机人工智能领域,公开了一种基于关系图注意力网络的多轮对话回复生成系统及方法。包括:获取多轮对话输入内容进行预处理,获得每轮话语自身语义信息表示,再对每轮话语语句语义信息进行编码,从而得到对话上下文的语义表示;接着采用图注意力网络捕获多轮对话中的自相关性以及对话者之间的相关特征,并且在图注意力网络中引入关系位置编码来说明包含话语的序列信息,从而得到图编码层的高级语义表示;最后将对话上下文语义信息表示和关系图注意力编码的高级语义表示作为输入,使用GRU模型进行解码生成最终的对话回复输出表示。本发明显著地提高了多轮对话回复生成的质量,使得生成的回复更加连贯且有意义。
-
公开(公告)号:CN114168598A
公开(公告)日:2022-03-11
申请号:CN202111515828.7
申请日:2021-12-13
Applicant: 杭州电子科技大学
Abstract: 本发明属于计算机系统分布式存储技术、区块链技术、网络通讯技术领域,公开了一种基于动态变宽算法的区块链性能优化方法,区块链存储结构使用动态变宽算法,即区块链存储结构宽度根据网络交易密度动态变化;存储结构是一种持续生成的有向无环图;区块链存储结构宽度是所述有向无环图的无出度节点数量,也可称为当前区块链网络分片数量;区块链网络分片,是区块链节点自发点对点组网形成的分片;交易密度是一个与单位时间内区块链网络交易数量正相关的比例系数;节点通过本动态变宽算法进行交易确认从而达成共识。本发明将区块链分为多个子片,使得区块链具备可变的宽度属性,通过共识机制并行化提高区块链交易处理的峰值性能。
-
-
-
-
-
-
-
-
-