-
公开(公告)号:CN116956930A
公开(公告)日:2023-10-27
申请号:CN202311213748.5
申请日:2023-09-20
Applicant: 北京九栖科技有限责任公司
IPC: G06F40/295 , G06F16/35 , G06N20/00
Abstract: 本发明公开了一种融合规则和学习模型的短文本信息提取方法,包括:获取短文本数据;对短文本数据进行预处理,得到预处理短文本数据;对预处理短文本数据进行标注,得到标注短文本数据;通过HyperScan模块对标注短文本数据进行处理,处理后的数据构成HyperScan数据库;将目标短文本输入至HyperScan模块,基于HyperScan数据库进行匹配,得到第一识别序列;基于标注短文本数据对学习模型进行训练,得到优化学习模型;将目标短文本输入至优化学习模型,得到第二识别序列;基于第一识别序列和第二识别序列确定目标短文本的提取信息。能够提高数据质量,减少人工成本,高效精准的提取短文本信息。
-
公开(公告)号:CN117932064A
公开(公告)日:2024-04-26
申请号:CN202410040857.X
申请日:2024-01-11
Applicant: 北京九栖科技有限责任公司
Abstract: 本发明公开了一种海量涉诈实体的高效挖掘方法。该方法可以从海量的诈骗短信文本中快速挖掘涉诈实体。该方法的实现步骤包括:首先对诈骗短信等海量涉诈实体进行预处理,然后从预处理后的海量涉诈实体中提取关键词,并根据关键词进行聚类和去重;对去重后的数据使用正则表达式的方式进行标注,并编译成HyperScan库,从而实现对诈骗短信中涉诈实体的快速挖掘。该方法具有处理速度快、准确性高、实现容易等优点。
-