-
公开(公告)号:CN112287684B
公开(公告)日:2024-06-11
申请号:CN202011192254.X
申请日:2020-10-30
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F40/295 , G06F40/30
Abstract: 本发明属于领域,具体涉及了一种融合变体词识别的短文本审核方法及装置,旨在解决如何将变体词识别技术融合到有害文本审核任务中并实现模型自动更新的问题。本发明包括:构建配置词库,基于社交媒体平台获取待审核文本数据,对待审核文本数据进行筛选获得可疑文本数据,并去除无意义信息并计算文本特征向量和统计特征向量,将文本特征向量和统计特征向量进行特征融合通过训练好的基于支持向量机的有害文本分类模型获取有害文本,利用预设的关键词抽取算法获取所述有害文本的敏感词写入配置词库。本发明将变体词识别技术融合到文本特征和统计特征计算进行有害文本审核任务中并实现模型自动更新,提高了文本审核的准确率和更新速度。
-
公开(公告)号:CN112287684A
公开(公告)日:2021-01-29
申请号:CN202011192254.X
申请日:2020-10-30
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F40/295 , G06F40/30
Abstract: 本发明属于领域,具体涉及了一种融合变体词识别的短文本审核方法及装置,旨在解决如何将变体词识别技术融合到有害文本审核任务中并实现模型自动更新的问题。本发明包括:构建配置词库,基于社交媒体平台获取待审核文本数据,对待审核文本数据进行筛选获得可疑文本数据,并去除无意义信息并计算文本特征向量和统计特征向量,将文本特征向量和统计特征向量进行特征融合通过训练好的基于支持向量机的有害文本分类模型获取有害文本,利用预设的关键词抽取算法获取所述有害文本的敏感词写入配置词库。本发明将变体词识别技术融合到文本特征和统计特征计算进行有害文本审核任务中并实现模型自动更新,提高了文本审核的准确率和更新速度。
-
公开(公告)号:CN118821774A
公开(公告)日:2024-10-22
申请号:CN202410768549.9
申请日:2024-06-14
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F40/295 , G06N3/0442 , G06N3/0455 , G06N3/08
Abstract: 本发明公开一种基于序列转化的命名实体识别方法及系统,属于信息抽取领域。所述方法包括:利用双向长短记忆神经网络解码自然文本,得到第t个时间步的隐藏向量ht;利用单向长短记忆网络对所述隐藏向量ht进行解码,得到第j个时间步的解码结果sj;基于第j‑1个时间步的解码结果sj‑1生成第j个时间步的标签概率分布矩阵Pj;获取条件随机场生成的标签转移概率矩阵Aj;基于所有时间步j上的标签概率分布矩阵Pj和标签转移概率矩阵Aj,得到自然文本对应的命名实体识别结果。本发明可以利用过去和未来的标签来高精度地预测当前标签。
-
公开(公告)号:CN117149948B
公开(公告)日:2024-07-23
申请号:CN202311056211.2
申请日:2023-08-22
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/33 , G06F16/335 , G06F16/35 , G06F18/241 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种基于向量动态扰动的新闻脉络关系检测方法及装置,所述方法包括:针对待检测新闻文本对,基于每一新闻文本数据中包含的实体,对新闻文本数据进行文本截取,以得到新文本数据对;获取至少一个预训练模型;基于预训练模型,获取新文本数据对的编码表示;基于待检测新闻文本中包含的事件及事件论元、实体、关键词,对各层CLS关系表示向量进行表示增强;对表示增强的各层CLS嵌入表示进行动态加权平均后,基于平均CLS嵌入表示预测该预训练模型对应的关系预测概率;对至少一个预训练模型对应的关系预测概率进行融合平均,得到待检测新闻文本的关系预测结果。本发明可以提高新闻脉络关系检测任务的准确率和泛化性能。
-
公开(公告)号:CN116367181B
公开(公告)日:2024-02-23
申请号:CN202211679996.4
申请日:2022-12-26
Applicant: 国家计算机网络与信息安全管理中心
IPC: H04W16/22 , H04W16/18 , H04B17/318 , H04B17/336 , H04B17/382 , G06N7/01
Abstract: 本发明公开了一种空地融合蜂窝网络中的无人机基站部署方法,包括如下步骤:S1:在地面基站侧和网络侧分别进行信息采集;S2:基于步骤S1中的信息建立系统模型,系统模型包括地面基站参数模型、无人机基站传播模型和无人机基站天线阵列模型;S3:基于地面基站用户的平均传输速率和无人机基站用户的平均传输速率,建立性能评估模型;S4:根据步骤S3的性能评估模型,设置多组网络参数组合进行关键性能指标的数值计算,并根据计算结果选择使关键性能指标达到最大的参数组合,作为最终的参数配置;S5:确定无人机基站的水平位置部署。本发明充分考虑了无人机之间的空间保护距离,尤其适用于无人机基站采用多天线配置的场景。
-
公开(公告)号:CN117149948A
公开(公告)日:2023-12-01
申请号:CN202311056211.2
申请日:2023-08-22
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/33 , G06F16/335 , G06F16/35 , G06F18/241 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种基于向量动态扰动的新闻脉络关系检测方法及装置,所述方法包括:针对待检测新闻文本对,基于每一新闻文本数据中包含的实体,对新闻文本数据进行文本截取,以得到新文本数据对;获取至少一个预训练模型;基于预训练模型,获取新文本数据对的编码表示;基于待检测新闻文本中包含的事件及事件论元、实体、关键词,对各层CLS关系表示向量进行表示增强;对表示增强的各层CLS嵌入表示进行动态加权平均后,基于平均CLS嵌入表示预测该预训练模型对应的关系预测概率;对至少一个预训练模型对应的关系预测概率进行融合平均,得到待检测新闻文本的关系预测结果。本发明可以提高新闻脉络关系检测任务的准确率和泛化性能。
-
公开(公告)号:CN118821782A
公开(公告)日:2024-10-22
申请号:CN202410768553.5
申请日:2024-06-14
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种多粒度相似性增强的篇章级事件论元抽取方法及系统,属于文本信息抽取领域。本发明首先将文档输入预训练语言模型编码,得到高维度嵌入表示;然后构建包含句子和段落节点的异构图,通过图神经网络融合全局语义信息;最后,通过对比学习和排序损失增强段落和句子粒度的相似性。本发明解决了远距离事件论元抽取的难题,并有效缓解了噪音实体对抽取结果的干扰,提高了抽取的准确性和鲁棒性。
-
公开(公告)号:CN116702094B
公开(公告)日:2023-12-22
申请号:CN202310957274.9
申请日:2023-08-01
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F18/26 , G06F18/25 , G06F18/213 , G06F18/22 , G06F18/27 , G06N3/045 , G06N3/044 , G06N3/0442 , G06N3/0464 , G06N3/08
Abstract: 本发明涉及数据处理技术领域,提供一种群体应用偏好特征表示方法,其中方法包括:获取用户的交互数据;基于多模态预训练模型,提取所述交互数据的特征表示;基于所述交互数据的特征表示,确定所述交互数据的群体应用偏好特征;基于所述群体应用偏好特征,对所述用户进行画像。本发明提供的群体应用偏好特征表示方法,能够自适应的针对任意的纯文本数据、纯图像数据、图文混合数据提取联合特征,实现对多模态数据的分析处理,在图文模态下,可以增加特征提取的语义交互能力,使得到的群体应用偏好特征更准确,从而提高用户画像的质量。
-
公开(公告)号:CN114116172A
公开(公告)日:2022-03-01
申请号:CN202111454126.2
申请日:2021-12-01
Applicant: 恒安嘉新(北京)科技股份公司 , 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种流量数据采集方法、装置、设备及存储介质,包括:接收多个数据采集策略,根据各数据采集策略对应的通信层,将各数据采集策略分别传输至对应的层级处理模块;所述数据采集策略根据业务需求预先设定;通过各层级处理模块执行多个数据采集策略,并实时对DPI系统运行过程中占用的资源进行监控,得到资源占用结果;如果资源占用结果超过预设阈值,则通过各层级处理模块根据各数据采集策略对应的优先级,在多个数据采集策略中依次确定待执行的目标采集策略,并依次执行目标采集策略。本发明实施例的技术方案可以实现移动互联网中的流量数据按需采集,满足业务需求和资源占用之间的平衡。
-
公开(公告)号:CN110134947B
公开(公告)日:2021-03-26
申请号:CN201910307654.1
申请日:2019-04-17
Applicant: 中国科学院计算技术研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明提出一种基于不平衡多源数据的情感分类方法,包括:获取来自多个数据源的训练数据,其中训练数据包含多条文本数据,每条文本数据具有情感类型标签和其对应的数据源;按数据源对训练数据进行分类,以集合每个数据源对应的文本数据作为第一数据集,根据每个第一数据集中各情感类型标签的数量,统计每个第一数据集中情感类型的标准差,选择标准差最小的第一数据作为预训练集,其余第一数据集作为后续训练集;以预训练集训练神经网络模型的权值直到损失函数收敛,输出神经网络模型作为预分类模型,以后续训练集继续训练预分类模型直到损失函数收敛,输出预分类模型作为最终分类模型;将待情感分类文本数据输入最终分类模型,得到其情感类型。
-
-
-
-
-
-
-
-
-