Patent search ap:("哈尔滨工业大学") AND inv:"江奎" Page 1

1.

发明公开
一种利用通用模型对比范式提升图像复原的方法审中-实审

公开(公告)号：CN117372291A

公开(公告)日：2024-01-09

申请号：CN202311169310.1

申请日：2023-09-12

Applicant: 哈尔滨工业大学

Inventor： 江俊君 , 吴刚 , 江奎 , 刘贤明

IPC: G06T5/77 , G06N3/096 , G06N3/09

Abstract: 本发明提出一种利用通用模型对比范式提升图像复原的方法，该方法使用指数移动平均的方式得到目标模型在不同训练迭代的历史版本作为负样本模型。然后定义SPN损失函数,在特征空间中拉大目标模型表示与负样本模型表示之间的距离。此外,还同时引入多个历史模型构造多个负样本，使得训练更加稳定。相比于现有通过手工设定负样本的对比学习方法,该方法对比学习范式无需特定任务先验,对不同图像复原任务具有泛化能力。可以很容易地和已有方法相结合,仅需将SPN损失加入原有目标函数即可。通过在图像超分辨率、去雨、去雾等任务上对不同模型进行重训练,实验结果表明,该方法对比学习框架可以显著提升各个模型的性能,优于现有对比学习技术。

2.

发明公开
基于文本信息指导的人脸超分辨率方法、系统、设备及可读存储介质审中-公开

公开(公告)号：CN120031718A

公开(公告)日：2025-05-23

申请号：CN202510111785.8

申请日：2025-01-24

Applicant: 哈尔滨工业大学

Inventor： 江俊君 , 安文洁 , 王晨阳 , 江奎 , 刘贤明

IPC: G06T3/4053 , G06T3/4046 , G06N3/0475 , G06N3/0455 , G06N3/08

Abstract: 本发明涉及一种基于文本信息指导的人脸超分辨率方法，包括以下步骤：步骤一、文本描述生成：通过多模态大语言模型生成文本描述；步骤二、潜在空间编码：将低分辨率人脸图像和文本描述映射到潜在特征空间，利用预训练的编码器对图像进行紧凑表示；步骤三、文本信息融合：通过基于交叉注意力机制的方法，将生成的文本描述嵌入到视觉特征处理过程中，形成文本‑视觉联合表示；步骤四、残差扩散生成模块：在潜在空间中，通过残差连接的马尔可夫链实现低分辨率到高分辨率图像的生成；步骤五、文本感知损失优化：通过最小化潜在空间恢复误差和文本一致性误差，优化生成结果的图像质量和语义一致性。相较于其他生成模型，TFSR具有最少的参数量、最高的采样效率和最佳的FID分数。

3.

发明公开
一种基于Mamba与混合专家模型的病理图像分类系统及方法审中-实审

公开(公告)号：CN119851017A

公开(公告)日：2025-04-18

申请号：CN202411913875.0

申请日：2024-12-24

Applicant: 哈尔滨工业大学

Inventor： 姚鸿勋 , 郑停停 , 江奎

IPC: G06V10/764 , G06V10/82 , G06V10/40 , G06N3/045 , G06N3/048 , G06N3/09

Abstract: 本发明公开了一种基于Mamba与混合专家模型的病理图像分类系统及方法，所述病理图像分类系统提出结合Mamba和专家混合模型的优势，用于WSI分类的挑战性任务，并开发了一种新颖的基于Mamba的层次化网络，称为Mamba‑WSI。为了在保证效率的同时促进特征表示，Mamba‑WSI引入了伪包内和跨伪包的双向Mamba块，以探索伪包内实例之间的相关性和全局伪包表示。同时，本发明提出动态记忆库来存储与标签预测相关的历史信息，并设计了跨伪包融合模块，以从动态更新的字典模块中融合出有效的信息，以增强当前伪包表示和全局建模。此外，专家混合模块能够适应性地协调全局和局部的包表示，以实现鲁棒的包标签预测。

4.

发明公开
一种基于用户提示的音频驱动数字人生成系统及方法审中-实审

公开(公告)号：CN118968579A

公开(公告)日：2024-11-15

申请号：CN202410903224.7

申请日：2024-07-08

Applicant: 哈尔滨工业大学

Inventor： 江奎 , 李佳莹 , 江俊君 , 姚鸿勋 , 刘贤明

IPC: G06V40/16 , G06V10/75 , G06V10/82 , G06N3/0475 , G06N3/08 , G10L15/02 , G10L15/16

Abstract: 本发明提出一种基于用户提示的音频驱动数字人生成系统及方法，其中系统包括：数据库模块、音频特征提取模块、AIGC生成人脸画像模块、Audioface模块、基于音频驱动的人脸图像模块和基于音频驱动的数字人动作生成模块。本发明实现了基于用户提示的音频驱动数字人生成，根据用户的输入提示实现内容生成，赋予了数字人高度的个性化特征和自然性行为表现，使得本发明具有重要的应用价值和前景，随着相关领域的不断发展和完善，本发明能为数字娱乐、虚拟现实、人机交互等领域带来更加丰富的体验和应用场景。

5.

发明公开
一种基于在线伪监督与动态互学的病理图像分类方法及系统审中-实审

公开(公告)号：CN119068259A

公开(公告)日：2024-12-03

申请号：CN202411211635.6

申请日：2024-08-30

Applicant: 哈尔滨工业大学

Inventor： 姚鸿勋 , 郑停停 , 江奎

IPC: G06V10/764 , G06V10/80 , G06V10/40 , G06V10/26 , G06N3/0455 , G06V10/44 , G06N3/047 , G06N3/048 , G06N3/0895

Abstract: 本发明公开了一种基于在线伪监督与动态互学的病理图像分类方法及系统，为实现判别性和紧凑的表示，设计自适应存储库AMB收集当前WSI中最有信息量的组成部分，并制定自我进步的特征融合SPFF模块，将AMB中的标签相关历史信息和即时语义变化进行整合，以增强当前伪包标记表示；设计决策修正伪标签DRPL生成模块，以探索伪包表示和包标签预测之间的内在联系，从而生成更可靠的伪标签；为缓解冗余和模糊的表示，借用了伪标签预测的类别先验，以促进标签相关的特征学习并更新AMB，从而形成特征表示和伪标签生成之间的动态互学习与优化；开发动态决策DDM模块，以协调包信息的显性和隐性表示，从而实现更稳健的决策。

6.

发明公开
基于深度光学成像的隐私保护抑郁症识别方法、系统、计算机设备及介质审中-实审

公开(公告)号：CN118097745A

公开(公告)日：2024-05-28

申请号：CN202410175752.5

申请日：2024-02-08

Applicant: 哈尔滨工业大学

Inventor： 江俊君 , 潘昱辰 , 江奎 , 刘贤明

IPC: G06V40/16 , G06V10/82 , G06V10/774 , G06V10/80 , G06F21/62

Abstract: 本发明涉及一种基于深度光学成像的隐私保护抑郁症识别方法、系统、计算机设备及介质，该方法包括如下步骤：S1、构建光学模型，预训练带有隐私保护能力的透镜；S2、构建深度模型，并引入情感信息数据；S3、向光学模型和深度模型引入抑郁症信息数据；S4、融合情感信息与抑郁症信息并进行抑郁症水平预测。本发明通过设计基于深度光学的抑郁症识别模型，能够对面部图像进行抑郁症识别并且不产生任何隐私信息，同时确保识别的准确度。通过对比本模型与其他方法在识别性能与隐私保护性能的平衡上，本发明设计的模型具有最好的表现。与不同程度的图像模糊方法对比，本发明的隐私保护策略可以在保障识别误差的情况下，取得最佳的隐私保护性能。

7.

发明公开
基于源视角几何约束的三维场景重建方法、系统、计算机设备及介质审中-实审

公开(公告)号：CN119251389A

公开(公告)日：2025-01-03

申请号：CN202411218444.2

申请日：2024-09-02

Applicant: 哈尔滨工业大学

Inventor： 江俊君 , 陈宥羽 , 姚元淇 , 江奎 , 赵文博 , 刘贤明

IPC: G06T17/00 , G06T7/50

Abstract: 本发明涉及一种基于源视角几何约束的三维场景重建方法、系统、计算机设备及介质，该方法包括如下步骤：步骤一、构建基于源视角的三维场景几何表达，实现三维场景几何表达的规范化；步骤二、对三维空间中的采样点按照受各源视角的贡献程度进行转换，得到源视角的深度分布；步骤三、在步骤二所得到源视角的深度分布上施加损失函数，实现基于源视角几何约束的三维场景重建。该方法所构建的三维场景几何表达更加符合真实场景的几何形状，明显地改善了基于前推网络的三维场景重建方法对未知目标视角的生成效果，提升其与源视角的一致性。

8.

发明公开
基于动静态解耦世界模型的端到端自动驾驶规划方法及系统审中-实审

公开(公告)号：CN118850109A

公开(公告)日：2024-10-29

申请号：CN202410888775.0

申请日：2024-07-04

Applicant: 哈尔滨工业大学

Inventor： 江俊君 , 蒯健 , 江奎 , 赵文博

IPC: B60W60/00 , B60W50/00 , G06V10/40 , G06V10/82 , G06V10/80 , G06N3/0464 , G06N3/092 , G06N3/0442 , G06N3/045

Abstract: 本发明涉及一种基于动静态解耦世界模型的端到端自动驾驶规划方法，包括以下步骤：步骤S1、对鸟瞰图空间下环境特征进行时序转变：对图像和导航路线图的浅层特征进行提取，从图像空间到鸟瞰图空间进行转换，在鸟瞰图空间下，融合特征中的动态物体和静态物体在时序上的演变；步骤S2、利用环境特征通过级联模块预测控制动作，从而得到端到端自动驾驶规划方法。本发明不仅可以高效建模复杂的三维驾驶环境，同时能够端到端地优化决策的最终目标，显著提高了自动驾驶规划的性能和可靠性。

9.

发明公开
小样本前馈回归人脸超分辨率方法审中-实审

公开(公告)号：CN118195895A

公开(公告)日：2024-06-14

申请号：CN202410264433.1

申请日：2024-03-08

Applicant: 哈尔滨工业大学

Inventor： 江俊君 , 付吉灿 , 江奎 , 刘贤明

IPC: G06T3/4053 , G06T3/4046 , G06V40/16 , G06V10/774 , G06V10/82 , G06N3/04 , G06N3/08

Abstract: 本发明涉及小样本前馈回归人脸超分辨率方法，属于人脸超分辨率技术领域。解决了基于深度学习的人脸超分辨率方法缺乏可解释性，并且依赖大量训练样本对的问题。包括以下步骤：步骤一：输入；步骤二：采用F4SR模型进行训练。本发明解决了基于深度学习的FSR方法缺乏可解释性的问题；通过利用逐步前向回归模型，提供了一种更可解释的方法，明确地建模了输入和输出特征之间的关系，这增强了对SR过程的理解，并使方法更加透明，即使在只有少量样本对可用的极端情况下，它仍然可以获得可比较的结果。

10.

发明公开
一种基于视觉语言先验的人脸超分辨率方法、系统及及计算机设备审中-实审

公开(公告)号：CN119540059A

公开(公告)日：2025-02-28

申请号：CN202411590182.2

申请日：2024-11-08

Applicant: 哈尔滨工业大学

Inventor： 江俊君 , 王晨阳 , 安文洁 , 江奎 , 刘贤明

IPC: G06T3/4053 , G06V40/16 , G06V10/26 , G06V10/82 , G06N3/045 , G06N3/048 , G06N3/08

Abstract: 本发明的一种基于视觉语言先验的人脸超分辨率方法，包括如下步骤：步骤一、将低分辨率人脸图像送入预训练的视觉‑语言大模型中，提取视觉‑语言多元表示；步骤二、构造视觉语言先验辅助的人脸超分辨率网络，融合视觉语言先验信息；步骤三、将低分辨率人脸图像和步骤一提取的视觉语言多元表示，送入到步骤二的网络中得到超分辨率结果，得到恢复的高质量人脸图像。与现有主流的人脸超分辨率方法(FSRNet、DIC、SISN、SFMNet、FaceFormer、WFEN)对比，本发明恢复的人脸图像在客观评价指标和主观视觉质量上均表现更优。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification