-
公开(公告)号:CN113343640B
公开(公告)日:2024-02-20
申请号:CN202110574885.6
申请日:2021-05-26
Applicant: 南京大学
IPC: G06F40/126 , G06F40/289 , G06F18/2415 , G06N3/047 , G06N3/048 , G06N3/08
Abstract: 本发明公开了一种海关报关商品HS编码分类方法及装置,方法包括:对海关报关单数据进行重采样,生成用于实验的数据集;对于数据集的文字部分,使离散的词的文字表示转为词的向量表示;对于数据集的HS编码部分,使用分层编码方式生成分层词向量;设置多层编码器提取文字部分词向量的深层特征;设置多层解码器提取文字部分词向量和HS编码部分的分层节点的特征;将解码器最后一层输出的分层节点特征输入一个全连接的分类层得到HS编码前缀条件概率,计算全概率,取概率最大的作为分类结果。本发明有效解决了长尾分布下数据的分类问题,在长尾分布分类任务中能增强对尾部类的分类性能,且能够灵活地满足类别系统动态更新的需求。
-
公开(公告)号:CN115062776A
公开(公告)日:2022-09-16
申请号:CN202210742542.0
申请日:2022-06-27
Applicant: 中华人民共和国南京海关 , 南京大学
Abstract: 本发明公开了一种海关发票实时识别的模型压缩方法,涉及海关票据文字识别和模型压缩技术领域,解决了票据识别模型复杂且识别精度不高的技术问题,其技术方案要点是构建复杂、高计算量的teacher模型和轻量化、低计算量的student模型;使用票据识别数据对teacher模型进行训练,获取高识别精度模型;根据teacher模型和student模型的网络结构设计基于注意力的自适应知识蒸馏框架;通过基于注意力的自适应知识蒸馏框架将高精度的teacher模型向未训练的student模型进行知识蒸馏;在知识蒸馏的基础上使用票据数据对student模型进行训练,最终获得高精度的、轻量化的、实时的票据识别模型。
-
公开(公告)号:CN113298179B
公开(公告)日:2024-05-28
申请号:CN202110658278.8
申请日:2021-06-15
Applicant: 南京大学
IPC: G06F18/22 , G06F18/214 , G06Q30/0201 , G06Q30/0202 , G06N3/0464 , G06N3/0442 , G06N3/045 , G06N3/084 , G06F40/284
Abstract: 本发明公开了一种海关商品异常价格检测方法及装置,其中方法包括:把数据集分割成训练集和验证集;将数据集文本的不同信息分割成不同的词序列;对于每个数据,将分割成的词序列输入语言表示层,得到关于词向量的二维矩阵;将得到的二维矩阵输入文本双向多尺度神经网络中,从中提取相应的特征向量;将得到的特征向量输入用指数函数激活的单层感知机网络中,得到价格预测值;通过平均绝对对数误差损失函数计算网络的预测损失,然后使用随机梯度下降算法更新网络参数;结合得到的预测的价格,计算价格相似度;根据价格相似度,判断价格数据是否异常。本发明检测方法能较好地检测出异常价格,为海关部门异常报关价格数据的检测提供了参考依据。
-
公开(公告)号:CN113298179A
公开(公告)日:2021-08-24
申请号:CN202110658278.8
申请日:2021-06-15
Applicant: 南京大学
Abstract: 本发明公开了一种海关商品异常价格检测方法及装置,其中方法包括:把数据集分割成训练集和验证集;将数据集文本的不同信息分割成不同的词序列;对于每个数据,将分割成的词序列输入语言表示层,得到关于词向量的二维矩阵;将得到的二维矩阵输入文本双向多尺度神经网络中,从中提取相应的特征向量;将得到的特征向量输入用指数函数激活的单层感知机网络中,得到价格预测值;通过平均绝对对数误差损失函数计算网络的预测损失,然后使用随机梯度下降算法更新网络参数;结合得到的预测的价格,计算价格相似度;根据价格相似度,判断价格数据是否异常。本发明检测方法能较好地检测出异常价格,为海关部门异常报关价格数据的检测提供了参考依据。
-
公开(公告)号:CN112818951A
公开(公告)日:2021-05-18
申请号:CN202110265378.4
申请日:2021-03-11
Applicant: 南京大学
IPC: G06K9/00 , G06K9/32 , G06N3/04 , G06N3/08 , G06F40/216
Abstract: 本发明公开了一种票证识别的方法,涉及文本检测、文本识别与信息结构化提取技术领域,解决了现有模型不能有效提取结构化信息的技术问题,其技术方案要点是通过对CTPN网络进行训练得到文本行位置检测模型,从而对票证中的关键信息进行定位,且对各种形式(表格等)的票证具有鲁棒性;通过高频词及其中特定字段文本内容的规则合成数据,扩充了文本识别模型的训练数据,提升了识别模型的准确性;基于卷积神经网络,具有很好的并行性,可以利用高性能的GPU(Graphics Processing Unit,图形处理器)加速计算。
-
公开(公告)号:CN112818951B
公开(公告)日:2023-11-21
申请号:CN202110265378.4
申请日:2021-03-11
Applicant: 南京大学
IPC: G06V30/414 , G06V20/30 , G06N3/0499 , G06N3/084 , G06F40/216 , G06N3/0464
-
公开(公告)号:CN113343640A
公开(公告)日:2021-09-03
申请号:CN202110574885.6
申请日:2021-05-26
Applicant: 南京大学
IPC: G06F40/126 , G06F40/289 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种海关报关商品HS编码分类方法及装置,方法包括:对海关报关单数据进行重采样,生成用于实验的数据集;对于数据集的文字部分,使离散的词的文字表示转为词的向量表示;对于数据集的HS编码部分,使用分层编码方式生成分层词向量;设置多层编码器提取文字部分词向量的深层特征;设置多层解码器提取文字部分词向量和HS编码部分的分层节点的特征;将解码器最后一层输出的分层节点特征输入一个全连接的分类层得到HS编码前缀条件概率,计算全概率,取概率最大的作为分类结果。本发明有效解决了长尾分布下数据的分类问题,在长尾分布分类任务中能增强对尾部类的分类性能,且能够灵活地满足类别系统动态更新的需求。
-
-
-
-
-
-