-
公开(公告)号:CN119003889A
公开(公告)日:2024-11-22
申请号:CN202411473151.9
申请日:2024-10-22
Applicant: 哈尔滨工业大学(威海) , 中国电子信息产业集团有限公司第六研究所
IPC: G06F16/9535 , G06F16/958 , G06F16/335 , G06F16/35
Abstract: 本申请提供了一种基于动态关键词库的网站检索方法及装置,涉及互联网技术领域,该方法包括:在本轮检索过程中,利用检索关键词从动态关键词库中选取不同类型的目标第一关键词,并根据目标第一关键词构建关键词组;利用关键词组进行网站检索,获取检索关键词对应的新增有效网站,并从新增有效网站中获取第二关键词;利用第二关键词对动态关键词库进行更新,以利用更新后的动态关键词库进行下一轮检索过程;将满足检索结束条件时,所有轮次检索到的新增有效网站作为最终的检索结果。通过采用上述基于动态关键词库的网站检索方法及装置,解决了网站检索过程中,检索准确性低及关键词库时效性差的问题。
-
公开(公告)号:CN115277512B
公开(公告)日:2024-05-28
申请号:CN202210902390.6
申请日:2022-07-29
Applicant: 山东天合网络空间安全技术研究院有限公司 , 哈尔滨工业大学(威海)
IPC: H04L43/12 , H04L67/10 , G06F40/289 , G06F16/35 , G06F16/38 , G06N3/0455 , G06N3/098
Abstract: 本发明提供一种DHT网络不良内容文件发现和传播监测方法及系统,其解决了现有DHT网络测量主要利用主动测量的方式与节点交互,但现有方式多以单节点随机ID法采集,容易出现死节点,效率较低的技术问题,其引入活跃节点统计自优化策略,提高了DHT网络测量效率;引入重生产机制,保证数据的充分利用;引入预训练微调模型,高效、自动化地检测DHT不良文件内容;引入周期性监测策略,减少节点频繁上下线带来的误差。本发明可广泛应用于DHT网络不良内容文件发现和传播监测。
-
公开(公告)号:CN115277211B
公开(公告)日:2023-07-28
申请号:CN202210902478.8
申请日:2022-07-29
Applicant: 哈尔滨工业大学(威海)
IPC: H04L9/40 , H04L61/4511 , G06F16/35 , G06F16/955 , G06V20/62
Abstract: 本发明提供一种基于文本和图像多模态色情和赌博域名自动检测方法,其针对色情、赌博网页的识别,利用深度学习和统计学习相结合的方法来实现对网页数据进行特征抽取,使用长距离多头自注意力的视觉语言模型的方法对网页进行识别,其针对网页所显示的内容丰富且包含大量图片与超长文本的特点进行多模态信息融合,从网页文本和网页截图两个维度对网页进行特征抽取。本发明可广泛用于基于文本和图像多模态色情和赌博域名自动检测中。
-
公开(公告)号:CN115277211A
公开(公告)日:2022-11-01
申请号:CN202210902478.8
申请日:2022-07-29
Applicant: 哈尔滨工业大学(威海)
IPC: H04L9/40 , H04L61/4511 , G06F16/35 , G06F16/955 , G06V20/62
Abstract: 本发明提供一种基于文本和图像多模态色情和赌博域名自动检测方法,其针对色情、赌博网页的识别,利用深度学习和统计学习相结合的方法来实现对网页数据进行特征抽取,使用基于稀疏多头自注意力的文本图像多模态模型的方法对网页进行识别,其针对网页所显示的内容丰富且包含大量图片与超长文本的特点进行多模态信息融合,从网页文本和网页截图两个维度对网页进行特征抽取。本发明可广泛用于基于文本和图像多模态色情和赌博域名自动检测中。
-
-
-