非法集资线索识别方法、装置、电子设备及存储介质

    公开(公告)号:CN114817485B

    公开(公告)日:2024-09-06

    申请号:CN202110078586.3

    申请日:2021-01-20

    摘要: 本发明实施例涉及一种非法集资线索识别方法、装置、电子设备及存储介质,所述方法包括:获取多个待进行非法集资线索识别的目标文本数据;基于预设的线索特征规则库从多个所述目标文本数据中确定疑似非法集资线索数据;将所述疑似非法集资线索数据输入至至少一个已训练的非法集资线索分类模型,得到至少一个预测参数;依据所述疑似非法集资线索数据与所述疑似非法集资线索数据对应的至少一个所述预测参数构建非法集资线索数据库。由此,可以提高从海量互联网数据中筛选非法集资线索数据的效率,以及提高最终筛选出的非法集资线索数据的准确性、全面性。

    实体识别方法、装置、设备及存储介质

    公开(公告)号:CN114861661A

    公开(公告)日:2022-08-05

    申请号:CN202110077227.6

    申请日:2021-01-20

    摘要: 本申请涉及一种实体识别方法、装置、设备及存储介质。该方法包括获取非法集资线索数据;确定与非法集资线索数据对应的字向量序列;利用预先训练得到的BiLSTM‑CRF模型对字向量序列进行推理,得到与非法集资线索数据对应的标签序列;从标签序列中提取属于实体标签的目标标签,并将目标标签对应的数据作为非法集资线索数据中的非法集资线索实体。可见,采用本申请的技术方案实现了对非法集资线索实体的自动识别,不仅识别效率高,且可以做到实时识别。

    一种互联网网站相似度分析方法、装置以及可读存储介质

    公开(公告)号:CN113378090A

    公开(公告)日:2021-09-10

    申请号:CN202110445408.X

    申请日:2021-04-23

    摘要: 本发明公开了一种互联网网站相似度分析方法、装置以及可读存储介质,方法包括:从多个未分类的互联网网站中提取文本特征词;将各个未分类的互联网网站的文本特征词分别输入预先获取到的孪生网络编码工具,得到各个未分类的互联网网站的文本向量序列,其中:所述孪生网络编码工具是从训练好的孪生网络中的输入层至权值共享循环神经网络层进行迁移得到,且所述孪生网络的训练是基于从多个已分类的互联网网站中提取的文本特征词实现;将各个未分类的互联网网站的文本向量序列组成的矩阵进行降维处理得到低维弱相关矩阵;对低维弱相关矩阵进行聚类分析,根据聚类分析结果获取所述多个未分类的互联网网站的相似度情况,从而实现互联网网站相似度分析。