-
公开(公告)号:CN109934251A
公开(公告)日:2019-06-25
申请号:CN201811615581.4
申请日:2018-12-27
Applicant: 国家计算机网络与信息安全管理中心广东分中心 , 北京天融信网络安全技术有限公司
IPC: G06K9/62
Abstract: 本发明涉及一种用于小语种文本识别的方法,包括以下步骤:S1.构建来源于不同语种的训练文本集;S2.对训练文本集中的文本进行基于字节的N-gramrank特征的提取;S3.对训练文本集中的文本进行基于互信息的度量特征的提取,即计算文本中的所有信息字节在单个语种中的信息度量;S4.对训练文本集中的文本进行基于转移概率的概率特征的提取,即计算文本中所有相邻字节能在单个语种中表达完整信息的概率;S5.利用步骤S2~S4提取的特征训练分类器;S6.对待识别的文本按照步骤S2~S4进行特征的提取,然后将提取的特征输入分类器中进行识别,分类器输出语种识别结果。
-
公开(公告)号:CN109934251B
公开(公告)日:2021-08-06
申请号:CN201811615581.4
申请日:2018-12-27
Applicant: 国家计算机网络与信息安全管理中心广东分中心 , 北京天融信网络安全技术有限公司
IPC: G06K9/62
Abstract: 本发明涉及一种用于小语种文本识别的方法,包括以下步骤:S1.构建来源于不同语种的训练文本集;S2.对训练文本集中的文本进行基于字节的N‑gramrank特征的提取;S3.对训练文本集中的文本进行基于互信息的度量特征的提取,即计算文本中的所有信息字节在单个语种中的信息度量;S4.对训练文本集中的文本进行基于转移概率的概率特征的提取,即计算文本中所有相邻字节能在单个语种中表达完整信息的概率;S5.利用步骤S2~S4提取的特征训练分类器;S6.对待识别的文本按照步骤S2~S4进行特征的提取,然后将提取的特征输入分类器中进行识别,分类器输出语种识别结果。
-
公开(公告)号:CN114398581B
公开(公告)日:2024-11-05
申请号:CN202210056971.2
申请日:2022-01-18
Applicant: 广州市刑事科学技术研究所 , 国家计算机网络与信息安全管理中心广东分中心
IPC: G06F16/958 , G06F16/903 , G06F40/216 , G06F40/284 , G06V30/42 , G06V30/18
Abstract: 本发明提出一种诈骗网站的识别方法及系统,包括:采集诈骗网站和官方网站的网页数据,构建碰撞数据库和比对数据库;判断待识别网站是否存在入口页面,若存在入口页面则利用碰撞数据库的数据下载待识别网站的页面图片;提取待识别网站的页面图片中的文字和图片特征,将所述文字和图片特征与比对数据库进行比对,分别判断待识别网站是否为诈骗网站;本发明考虑到诈骗网站利用入口页面来规避一般的诈骗网站检测的特点,对待识别网站进行入口页面判断,且构建了碰撞数据库,绕过待识别网站的入口页面并获取待识别网站的页面图片,利用待识别网站的页面图片,与基于官网网站的网页数据构建的比对数据进行比对,提升了诈骗网站的识别效果。
-
公开(公告)号:CN114398581A
公开(公告)日:2022-04-26
申请号:CN202210056971.2
申请日:2022-01-18
Applicant: 广州市刑事科学技术研究所 , 国家计算机网络与信息安全管理中心广东分中心
IPC: G06F16/958 , G06F16/903 , G06F40/216 , G06F40/284 , G06K9/62 , G06V30/42 , G06V30/18
Abstract: 本发明提出一种诈骗网站的识别方法及系统,包括:采集诈骗网站和官方网站的网页数据,构建碰撞数据库和比对数据库;判断待识别网站是否存在入口页面,若存在入口页面则利用碰撞数据库的数据下载待识别网站的页面图片;提取待识别网站的页面图片中的文字和图片特征,将所述文字和图片特征与比对数据库进行比对,分别判断待识别网站是否为诈骗网站;本发明考虑到诈骗网站利用入口页面来规避一般的诈骗网站检测的特点,对待识别网站进行入口页面判断,且构建了碰撞数据库,绕过待识别网站的入口页面并获取待识别网站的页面图片,利用待识别网站的页面图片,与基于官网网站的网页数据构建的比对数据进行比对,提升了诈骗网站的识别效果。
-
公开(公告)号:CN114265932A
公开(公告)日:2022-04-01
申请号:CN202111530106.9
申请日:2021-12-10
Applicant: 国家计算机网络与信息安全管理中心广东分中心 , 讯飞智元信息科技有限公司
IPC: G06F16/35 , G06F40/30 , G06F40/211 , G06F40/284 , G06N3/04 , G06N3/08 , G06Q50/00
Abstract: 本发明公开一种融入深度语义关系分类的事件脉络生成方法及系统,所述方法包括如下步骤:对新闻数据集合进行分词,合并后生成词文档序列;训练主题模型,利用训练好的主题模型来完成主题的聚类,得到主题聚类结果;将所有的关键词拼接后输入到bert模型中,最终的新闻文本向量表示为所有token的向量的平均;对于每个主题下获得的所有事件进行分支确定,得到每个主题对应的分支集合,将每个分支中的事件按照时间先后顺序连接,并将分支也按照时间先后顺序连接,即按照分支中最早事件的时间先后顺序连接,最终获得事件脉络。本发明通过结合基于主题模型的文本聚类方法和基于深度语义的事件聚类方法完成事件脉络的生成过程。
-
公开(公告)号:CN114267333A
公开(公告)日:2022-04-01
申请号:CN202111509949.0
申请日:2021-12-10
Applicant: 国家计算机网络与信息安全管理中心广东分中心 , 讯飞智元信息科技有限公司
IPC: G10L15/00 , G10L15/06 , G06F40/126 , G06F40/242
Abstract: 本发明公开了一种混合双语语音识别方法及系统,所述方法包括如下步骤:数据处理步骤,包括:对一定量的目标双语音频数据和目标双语文本语料执行BPE共享词典制作、数据增广和特征提取操作,为后端网络训练提供有效数据输入;Encoder‑Decoder训练步骤,包括:对所述数据处理步骤获得的有效数据采用Transformer结构训练语音识别器。本发明涉及双语混合连续语音识别技术领域。根据输入的目标语种的单语语音数据、双语混合语音数据或者双语混杂语音数据,自动转写出语音的内容信息。
-
公开(公告)号:CN114090775A
公开(公告)日:2022-02-25
申请号:CN202111376161.7
申请日:2021-11-19
Applicant: 国家计算机网络与信息安全管理中心广东分中心 , 天津市国瑞数码安全系统股份有限公司
Inventor: 周小敏 , 应鸿晖 , 林国池 , 石易 , 麦丽娟 , 莫凡 , 林佳涛 , 李高翔 , 黄福鸿 , 卓采标 , 廖淑敏 , 杨慧强 , 宋宜昌 , 黄正国 , 周毅 , 吴冠标 , 李新 , 蒋维 , 曹勇 , 高欢
IPC: G06F16/35 , G06F16/33 , G06F16/951 , G06F16/957
Abstract: 本发明属于网页文本处理领域,具体涉及一种基于BERT算法的网页有害文本识别方法及系统,所述识别方法包括:步骤1:使用网络爬虫爬取网页原始内容,得到初始文本;步骤2:基于HTML协议对初始文本进行文本整理,得到待识别文本集合;步骤3:将待识别文本集合输入到基于BERT中文预训练模型训练得到的有害信息识别模型中进行有害文本识别,得到识别结果;步骤4:对识别结果进行人工验证,并基于得到的异常识别样本更新有害信息识别模型。上述方法不仅准确提取有效的网页文本,利用已有的有害文本判断模型实现网页文本内容识别,同时还通过人工校正对有害文本判断模型进行训练更新,进一步提升有害文本判断模型的准确性。
-
公开(公告)号:CN112148872A
公开(公告)日:2020-12-29
申请号:CN202011043378.1
申请日:2020-09-28
Applicant: 国家计算机网络与信息安全管理中心广东分中心 , 恒安嘉新(北京)科技股份公司
IPC: G06F16/34 , G06F16/332 , G06F16/33 , G06F40/289 , G06K9/62
Abstract: 本公开实施例公开了一种自然对话主题分析方法、装置、电子设备、及存储介质,方法包括:获取多个自然对话文本,对任一自然对话文本进行切和分词处理得到分词序列;将根据所述多个自然对话文本得到的分词序列集合进行聚合分组分成多个分词序列子集合;对任一分词序列子集合提取核心关键词;对任一分词序列子集合中任一分词序列,分别计算任意两个核心关键词词序字符串的莱文斯坦距离以获取主题纯度;根据所述分词序列集合所包含的各分词序列子集合的主题纯度和对应的关键词集合,进行分析结果输出。本实施例的技术方案能够直接根据批量或海量的自然对话分析主题,无需人工参与,能提高主题分析效率。
-
公开(公告)号:CN112148872B
公开(公告)日:2024-04-02
申请号:CN202011043378.1
申请日:2020-09-28
Applicant: 国家计算机网络与信息安全管理中心广东分中心 , 恒安嘉新(北京)科技股份公司
IPC: G06F16/34 , G06F16/332 , G06F16/33 , G06F40/289 , G06F18/22
Abstract: 本公开实施例公开了一种自然对话主题分析方法、装置、电子设备、及存储介质,方法包括:获取多个自然对话文本,对任一自然对话文本进行切和分词处理得到分词序列;将根据所述多个自然对话文本得到的分词序列集合进行聚合分组分成多个分词序列子集合;对任一分词序列子集合提取核心关键词;对任一分词序列子集合中任一分词序列,分别计算任意两个核心关键词词序字符串的莱文斯坦距离以获取主题纯度;根据所述分词序列集合所包含的各分词序列子集合的主题纯度和对应的关键词集合,进行分析结果输出。本实施例的技术方案能够直接根据批量或海量的自然对话分析主题,无需人工参与,能提高主题分析效率。
-
公开(公告)号:CN111639703A
公开(公告)日:2020-09-08
申请号:CN202010471807.9
申请日:2020-05-29
Applicant: 国家计算机网络与信息安全管理中心广东分中心 , 天津市国瑞数码安全系统股份有限公司
Abstract: 本发明涉及通信技术领域,更具体地,涉及一种基于离散点集最小包围圆计算基站位置的方法,包括以下步骤:S1,采集基站终端位置数据,建立数据采集点集合P;S2,对数据采集点集合P中异常的数据进行清洗;S3,计算数据采集点集合P的最小包围圆,将最小包围圆的圆心作为待处理基站的最终位置;S4,判断是否为非全向基站,若否,直接进入步骤S5,若是,对临近小区的基站进行K-means聚类计算,获得临近小区非全向基站的最终基站位置;S5,对多次计算获得历史基站位置进行K-means聚类调优,本发明通过综合K-means聚类算法和最小包围圆算法两种算法的优点,在最大减少信息依赖的情况下,较准确计算获得基站的位置数据,最终构建出一份已有基站的较准确位置信息清单。
-
-
-
-
-
-
-
-
-