一种基于特征融合和机器学习的恶意网页识别方法

    公开(公告)号:CN110602045A

    公开(公告)日:2019-12-20

    申请号:CN201910744001.X

    申请日:2019-08-13

    Inventor: 成卫青 魏旭

    Abstract: 本发明公开了一种基于特征融合和机器学习的恶意网页识别方法,包括训练数据集与测试数据集的构建,HTTP请求信息的收集,将HTTP请求特征与URL特征和源代码特征融合,生成融合特征,使用5折交叉验证进行机器学习模型训练,得到最优的分类模型,根据最优的分类模型对恶意网页识别,本发明基于HTTP请求信息的特征构建的分类模型可以快速有效地识别可疑网页,为用户提供实时的网页安全性分析服务。

    一种基于chrome插件的危险网页识别方法

    公开(公告)号:CN110427579A

    公开(公告)日:2019-11-08

    申请号:CN201910720615.4

    申请日:2019-08-06

    Abstract: 本发明公开了一种基于chrome插件的危险网页识别方法,包括根据网页中所有外部链接的URL提取支持向量机第一维度数据,根据页面html代码中所有 标签内嵌或引用的JavaScript代码提取支持向量机第二维度数据,根据提取到的支持向量机第一维度数据和第二维度数据求解支持向量机,输出是分离超平面的参数w*和b*以及分类决策函数,本发明通过比对域名与知名网页域名的相似程度,以及对网页内嵌或引用JavaScript代码进行分析来判别网页是否为危险网页,有效解决了已有网页安全性识别方法存在的准确率不够高和通用性不够强的问题。

    一种基于文本分类和聚类分析的网络热点事件发现方法

    公开(公告)号:CN104239436B

    公开(公告)日:2018-01-02

    申请号:CN201410432539.4

    申请日:2014-08-27

    Abstract: 本发明公开了一种基于文本分类和聚类分析的网络热点事件发现方法,该方法解决了已有的基于聚类分析的热点事件发现方法存在的效率和准确率有待进一步提高的问题。该方法首先利用训练语料库通过特征词提取和特征选择为各类别文本分别选取特征词,再采用向量空间模型法将每个训练文本和测试文本表示为在所有特征空间中的向量,并采用TF‑IDF方法确定向量中每一维的权重,然后对各个测试文本进行分类,再对分好类的各个类别的测试文本分别进行聚类分析,得到各个类别的热点簇,再分析得到代表热点事件的特征词,进而分析热点各个特征词的词性等,再利用相关语言知识,通过必要的语言组织生成热点事件的描述。本发明能有效提高热点事件发现的效率和准确率。

    一种基于文本分类和聚类分析的网络热点事件发现方法

    公开(公告)号:CN104239436A

    公开(公告)日:2014-12-24

    申请号:CN201410432539.4

    申请日:2014-08-27

    CPC classification number: G06F17/30705

    Abstract: 本发明公开了一种基于文本分类和聚类分析的网络热点事件发现方法,该方法解决了已有的基于聚类分析的热点事件发现方法存在的效率和准确率有待进一步提高的问题。该方法首先利用训练语料库通过特征词提取和特征选择为各类别文本分别选取特征词,再采用向量空间模型法将每个训练文本和测试文本表示为在所有特征空间中的向量,并采用TF-IDF方法确定向量中每一维的权重,然后对各个测试文本进行分类,再对分好类的各个类别的测试文本分别进行聚类分析,得到各个类别的热点簇,再分析得到代表热点事件的特征词,进而分析热点各个特征词的词性等,再利用相关语言知识,通过必要的语言组织生成热点事件的描述。本发明能有效提高热点事件发现的效率和准确率。

    一种基于关联分析和KNN的文本分类方法

    公开(公告)号:CN103345528A

    公开(公告)日:2013-10-09

    申请号:CN201310312018.0

    申请日:2013-07-24

    Abstract: 本发明提供一种基于关联分析和KNN的文本分类方法,用于解决基于传统KNN的文本分类方法存在的效率和准确率有待进一步提高的问题;本发明是一种策略性方法考虑到被测文档与近邻文档向量的特征属性会重合较多,本发明提出一种基于关联分析和KNN的文本分类方法该方法基于对各个类别文本进行关联分析的结果,快速确定未知类别文本合适的近邻数k,并在已知类别的文本中选取k个近邻,进而根据近邻类别确定未知文本的类别,改进了基于传统KNN的文本分类方法k值难以确定及时间复杂度高的不足,提高了文本分类的效率和准确率。

    基于虚拟点和稀疏卷积的多模态三维目标检测方法及系统

    公开(公告)号:CN117788937A

    公开(公告)日:2024-03-29

    申请号:CN202311853756.6

    申请日:2023-12-29

    Inventor: 成卫青 苏旭

    Abstract: 本发明公开了基于虚拟点和稀疏卷积的多模态三维目标检测方法包括,提出了一种基于虚拟点和稀疏卷积的快速有效的三维目标检测骨干网络VirSpconv。VirSpconv由两个关键设计组成:(1)VS(体素采样)和(2)MtConv(多模态卷积)。VS通过丢弃大量附近的冗余体素来减轻计算问题。MtConv通过在2D图像和3D激光雷达空间中编码体素特征来解决噪声问题。通过集成VirSpconv,设计了基于CasA和TED方法改善的细化方案,构建了一个高精度的管道VirSpconvNet。解决了使用图像生成的虚拟点密度过高,导致检测过程中涉及大量冗余计算以及由深度补全不准确引起的噪声显著降低了检测的准确性的问题。

    一种基于消费数据和同态加密算法的消费人群分类方法

    公开(公告)号:CN113313160B

    公开(公告)日:2022-09-23

    申请号:CN202110564959.8

    申请日:2021-05-24

    Inventor: 成卫青 刘婷婷

    Abstract: 本发明公开了一种基于消费数据和同态加密算法的消费人群分类方法,包括,通过数据所有者采集任意时间段的用户消费数据,基于VHE的整数向量同态加密策略将用户消费数据转换成向量矩阵进行加密,而后将加密完成获得的密文上传至数据库;广告运营商根据需求设置所需的用户分类个数k,并将用户分类个数k发送给第三方计算中心;通过第三方计算中心读取密文,并根据用户分类个数k密文进行聚类,完成消费人群的分类;本发明基于价值矩阵对k‑means聚类算法进行优化改进,提升聚类效果,对庞大而多维的消费人群进行更精确的细分;同时解决了往常同态加密下小数位的数据精度缺失的缺点,极大地降低了用户消费数据信息泄漏的风险。

    一种基于区块链和IPFS的医疗数据共享模型的实现方法

    公开(公告)号:CN111832038A

    公开(公告)日:2020-10-27

    申请号:CN202010442892.6

    申请日:2020-05-22

    Inventor: 成卫青 尹嘉成

    Abstract: 本发明公开了一种基于区块链和IPFS的医疗数据共享模型的实现方法,该方法在保障数据安全的前提下共享、维护医疗数据,并优化系统瓶颈,较好地实现了高效检索。具体包括:各医疗机构共同组建IPFS数据存储系统,通过分布式存储、文件拆分与拼接、冗余备份等技术有效解决数据存储的问题。各医疗机构共同构建联盟区块链,通过算力竞争的共识机制、点对点通信、数字摘要等机制,共同维护写入区块链中的数据。为了解决数据访问权限问题,提出一种联合密钥加密的方法,加密上传至IPFS的数据,本发明在保障数据安全的前提下共享、维护医疗数据,并优化系统瓶颈,较好地实现了高效检索的目标。

    基于模糊分类器识别模糊图像中数字的方法

    公开(公告)号:CN103413152B

    公开(公告)日:2016-09-28

    申请号:CN201310312407.3

    申请日:2013-07-24

    Abstract: 本发明的特征:提供一种基于模糊分类器的离线数字识别方法,适用于识别质量降级图像中的数字,该方法从前景色象素的分布特征以及数字外形特征判别每个图像包含的字符是各个数字的真值程度,并能容忍图像少量的倾斜,再通过综合评判识别出图像中包含的数字,识别准确度较高;而且本发明能够基于少量训练样本的特征取值分布自动设定模糊分类器需要的参数,且多特征判别和自动设定参数使本发明具有较好的通用性;本发明有效解决了已有针对模糊图像的数字识别方法存在的准确度有待提高且需要大量训练样本的问题。

    一种基于关联分析和KNN的文本分类方法

    公开(公告)号:CN103345528B

    公开(公告)日:2016-08-24

    申请号:CN201310312018.0

    申请日:2013-07-24

    Abstract: 本发明提供一种基于关联分析和KNN的文本分类方法,用于解决基于传统KNN的文本分类方法存在的效率和准确率有待进一步提高的问题;本发明是一种策略性方法考虑到被测文档与近邻文档向量的特征属性会重合较多,本发明提出一种基于关联分析和KNN的文本分类方法该方法基于对各个类别文本进行关联分析的结果,快速确定未知类别文本合适的近邻数k,并在已知类别的文本中选取k个近邻,进而根据近邻类别确定未知文本的类别,改进了基于传统KNN的文本分类方法k值难以确定及时间复杂度高的不足,提高了文本分类的效率和准确率。

Patent Agency Ranking