-
公开(公告)号:CN113673205B
公开(公告)日:2023-01-13
申请号:CN202110969030.3
申请日:2021-08-23
Applicant: 广东电网有限责任公司(CN) , 广东电网有限责任公司肇庆供电局(CN)
IPC: G06F40/151 , G06F40/216 , G06F40/284 , G06F40/289 , G06V10/74 , G06V30/19
Abstract: 本申请公开了一种图像文字信息提取方法、系统及存储介质,其方法通过对图文数据集进行文本转换后,得到文本数据,通过对文本数据进行分词,计算各个词组与预设的主题特征词库中的各个主题特征词的相似度,将相似度大于预设相似度的词组作为关键特征词,从而过滤掉偏离主题的文本数据,同时,通过对关键特征词赋予权重将所有词组划分为热词和非热词,根据非热词的数量过滤非关键图文数据,并对非关键图文数据,以缩小非关键图文数据的容量,降低其图像文字提取的进程的占用空间,同时,通过对关键图文数据中的热词进行候选框标注,调用图形文字信息提取模型提取候选框标注内的热词,从而可以提高图像文字信息提取效率和准确度。