-
公开(公告)号:CN119514540A
公开(公告)日:2025-02-25
申请号:CN202510088849.7
申请日:2025-01-21
Applicant: 烟台中科网络技术研究所
IPC: G06F40/289 , G06F16/353 , G06F18/23213 , G06F18/22
Abstract: 本申请涉及数据处理技术领域,具体涉及一种面向大模型的内容提取分析方法、装置及系统。所述方法包括:对所述大模型生成的当前文本进行预处理,获取所述当前文本的分词向量;根据所述分词向量的重要性,对所述分词向量进行聚类,获取多个分词类簇中心;根据所述多个分词类簇中心并结合敏感词库,确定所述当前文本是否合规。本申请实施例根据分词向量的重要性对分词向量进行聚类,再将聚类得到的分词类簇中心与敏感词库结合来确定当前文本是否合规,因此能够减少误检或漏检的情况发生,提高检测结果的准确性。
-
公开(公告)号:CN103544210B
公开(公告)日:2017-01-18
申请号:CN201310391961.5
申请日:2013-09-02
Applicant: 烟台中科网络技术研究所
IPC: G06F17/30
Abstract: 本发明涉及网络信息检索与挖掘领域,特别涉及一种识别网页类型的系统和方法。包括以下步骤:预先定义启发式规则并生成启发式规则列表;从训练网页中提取预定特征并形成标准化的特征向量,对所述标准化的特征向量进行两次优化形成精简的特征集合,构建分类器和特征抽取器,并通过分类器生成分类模型;基于待识别网页的URL和源代码,在所述启发式规则列表中执行规则匹配;匹配成功则输出待识别网页的网页类型;不成功则利用分类器对待识别网页执行网页类型分类。本发明的识别网页类型的系统和方法,使用灵活方便,识别速度快、识别精度高,而且在对跨语种的网页进行识别时不需做大的改动,识别效率高,具有较高的实际利用价值。
-
公开(公告)号:CN103544210A
公开(公告)日:2014-01-29
申请号:CN201310391961.5
申请日:2013-09-02
Applicant: 烟台中科网络技术研究所
IPC: G06F17/30
CPC classification number: G06F17/30876
Abstract: 本发明涉及网络信息检索与挖掘领域,特别涉及一种识别网页类型的系统和方法。包括以下步骤:预先定义启发式规则并生成启发式规则列表;从训练网页中提取预定特征并形成标准化的特征向量,对所述标准化的特征向量进行两次优化形成精简的特征集合,构建分类器和特征抽取器,并通过分类器生成分类模型;基于待识别网页的URL和源代码,在所述启发式规则列表中执行规则匹配;匹配成功则输出待识别网页的网页类型;不成功则利用分类器对待识别网页执行网页类型分类。本发明的识别网页类型的系统和方法,使用灵活方便,识别速度快、识别精度高,而且在对跨语种的网页进行识别时不需做大的改动,识别效率高,具有较高的实际利用价值。
-
-