-
公开(公告)号:CN117909559B
公开(公告)日:2024-08-20
申请号:CN202410170696.6
申请日:2024-02-06
Applicant: 拓尔思信息技术股份有限公司
IPC: G06F16/953 , G06F40/211 , G06F40/242 , G06F40/258 , G06F40/295
Abstract: 本发明属于数据挖掘领域,提出了一种基于互联网公开数据的企业关联信息挖掘方法,通过搜索引擎自动搜索目标企业相关信息,获取特征信息,采集目标企业互联网公开数据,使用NLP技术处理采集的互联网公开数据,挖掘企业间关联关系,并分别从面向标题和面向段落的企业实体识别规则进行分阶段的提取,其对面向标题的企业实体识别规则中添加了价值判断,实现了自动且准确的从互联网采集数据中发掘企业关联信息,最大程度的解决了现有企业关联信息获取方法中存在的个人主观因素影响较大、特定站点数据不够全面、验证环节困难等问题。
-
公开(公告)号:CN118296134B
公开(公告)日:2024-08-09
申请号:CN202410718893.7
申请日:2024-06-05
Applicant: 拓尔思信息技术股份有限公司
IPC: G06F16/332 , G06F40/295 , G06F40/211 , G06Q40/12
Abstract: 本发明涉及海关数据处理技术领域,提出了一种基于提示学习的海关税收风险知识抽取方法,建立海关风险知识抽取的数据源:输入通用预训练命名实体识别模型抽取企业实体名称,并利用依存句法优化实体命名结果,得到候选名称;将候选名称放入提示学习语言模型进行验证,输出概率最高的企业实体名称;再进行风险评价提取:基于预训练语言模型的提示学习来对报道正负面做文本分类预测;最后将提取出企业实体名称、风险评价信息进行特征融合,并录入海关报关单数据库。提高实体命名识别的准确性,并解决了对海关风险信息领域的样本信息少,抽取任务准确率低的问题。
-
公开(公告)号:CN117909559A
公开(公告)日:2024-04-19
申请号:CN202410170696.6
申请日:2024-02-06
Applicant: 拓尔思信息技术股份有限公司
IPC: G06F16/953 , G06F40/211 , G06F40/242 , G06F40/258 , G06F40/295
Abstract: 本发明属于数据挖掘领域,提出了一种基于互联网公开数据的企业关联信息挖掘方法,通过搜索引擎自动搜索目标企业相关信息,获取特征信息,采集目标企业互联网公开数据,使用NLP技术处理采集的互联网公开数据,挖掘企业间关联关系,并分别从面向标题和面向段落的企业实体识别规则进行分阶段的提取,其对面向标题的企业实体识别规则中添加了价值判断,实现了自动且准确的从互联网采集数据中发掘企业关联信息,最大程度的解决了现有企业关联信息获取方法中存在的个人主观因素影响较大、特定站点数据不够全面、验证环节困难等问题。
-
公开(公告)号:CN119624143B
公开(公告)日:2025-05-02
申请号:CN202510161594.2
申请日:2025-02-14
Applicant: 拓尔思信息技术股份有限公司
IPC: G06Q10/0635 , G06Q10/0831 , G06F18/10 , G06F18/211 , G06F18/214 , G06F18/243 , G06F18/25 , G06N3/042 , G06N3/08 , G06N5/01
Abstract: 本发明属于海关风险监测技术领域,提出了一种基于可解释性深度学习的海关风险评估规则挖掘方法,通过规格型号栏清洗和从海关风险知识库引入互联网公开信息拓展报关单特征项,利用tabnet模型的可解释性从拓展后的众多报关单特征项中定位关键的特征项,再结合决策树模型,用特征归因方法分别生成全局风险规则和局部风险规则,为海关风险评估规则设计提供了参考。本发明能够提升海关风险评估规则设计的效率,确保特征选择的全面性,并使研判结果更加精准,通过生成全局风险规则和局部风险规则,本发明全面解决了海关业务专家在为海关风险研判规则引擎设计规则时所面临的难题,即无法充分考虑报关单的众多特征项,以及难以利用互联网上的公开信息的问题。
-
公开(公告)号:CN118296134A
公开(公告)日:2024-07-05
申请号:CN202410718893.7
申请日:2024-06-05
Applicant: 拓尔思信息技术股份有限公司
IPC: G06F16/332 , G06F40/295 , G06F40/211 , G06Q40/12
Abstract: 本发明涉及海关数据处理技术领域,提出了一种基于提示学习的海关税收风险知识抽取方法,建立海关风险知识抽取的数据源:输入通用预训练命名实体识别模型抽取企业实体名称,并利用依存句法优化实体命名结果,得到候选名称;将候选名称放入提示学习语言模型进行验证,输出概率最高的企业实体名称;再进行风险评价提取:基于预训练语言模型的提示学习来对报道正负面做文本分类预测;最后将提取出企业实体名称、风险评价信息进行特征融合,并录入海关报关单数据库。提高实体命名识别的准确性,并解决了对海关风险信息领域的样本信息少,抽取任务准确率低的问题。
-
公开(公告)号:CN119624143A
公开(公告)日:2025-03-14
申请号:CN202510161594.2
申请日:2025-02-14
Applicant: 拓尔思信息技术股份有限公司
IPC: G06Q10/0635 , G06Q10/0831 , G06F18/10 , G06F18/211 , G06F18/214 , G06F18/243 , G06F18/25 , G06N3/042 , G06N3/08 , G06N5/01
Abstract: 本发明属于海关风险监测技术领域,提出了一种基于可解释性深度学习的海关风险评估规则挖掘方法,通过规格型号栏清洗和从海关风险知识库引入互联网公开信息拓展报关单特征项,利用tabnet模型的可解释性从拓展后的众多报关单特征项中定位关键的特征项,再结合决策树模型,用特征归因方法分别生成全局风险规则和局部风险规则,为海关风险评估规则设计提供了参考。本发明能够提升海关风险评估规则设计的效率,确保特征选择的全面性,并使研判结果更加精准,通过生成全局风险规则和局部风险规则,本发明全面解决了海关业务专家在为海关风险研判规则引擎设计规则时所面临的难题,即无法充分考虑报关单的众多特征项,以及难以利用互联网上的公开信息的问题。
-
-
-
-
-