一种基于LLM模型的相似资产指纹提取方法
摘要:
本发明公开了一种基于LLM模型的相似资产指纹提取方法,包括以下步骤:S1:构建网络资产banner信息数据库;S2:构建分词器消除banner文本信息的歧义;S3:训练语言模型;S4:对每个向量表示的banner文本信息进行聚类;S5:构建资产指纹信息的矢量数据库;S6:从每个聚类中抽取n个样本,将样本的向量与矢量数据库中的向量进行相似匹配;S7:将相似匹配完成的样本的向量与矢量数据库中数据集的向量作为提示输入LLM模型中,LLM模型输出正则匹配式;S8:将LL模型的输出数据存储至资产指纹库中,完成提取,本申请首次将融合RAG技术的LLM模型应用在相似资产指纹提取领域中,更好的提升了LLM模型提取资产指纹规则的能力。
公开/授权文献
0/0