Patent search ap:("北京交通大学") AND inv:"蔡英琪" Page 1

1.

发明公开
一种基于文本驱动的数据增强方法审中-实审

公开(公告)号：CN118230085A

公开(公告)日：2024-06-21

申请号：CN202410218732.1

申请日：2024-02-28

Applicant: 北京交通大学

Inventor： 吴亚伦 , 崔晓澍 , 陈渊婉 , 李琼 , 古砚锋 , 蔡英琪 , 韩臻 , 刘吉强 , 童恩栋 , 牛温佳

IPC: G06V10/774 , G06V20/58 , G06F40/284 , G06F40/295 , G06F40/30 , G06N3/0455 , G06N3/0464 , G06N3/0475

Abstract: 本发明提供了一种基于文本驱动的图像数据增强方法，可用于对象检测任务，如自动驾驶场景下的行人检测等；以丰富训练数据，实现图像数据增强。该方法使用图像字幕技术提取源图像中的视觉特征并转换为文本序列，利用3种基于文本驱动的增强策略(屏蔽、随机插入和复述)扩充文本序列的语义多样性，再使用稳定扩散模型将该文本序列转换为相应的图像数据实现文本到图像的映射，以此生成新的具有多样性的训练数据，进而提高检测模型的性能和泛化能力。

Patent Agency Ranking