-
公开(公告)号:CN113221542A
公开(公告)日:2021-08-06
申请号:CN202110348599.8
申请日:2021-03-31
Applicant: 国家计算机网络与信息安全管理中心 , 北京理工大学
IPC: G06F40/232 , G06F40/242 , G06F40/284
Abstract: 本发明涉及一种基于多粒度融合与Bert筛选的中文文本自动校对方法,属于自然语言处理技术领域;本发明通过结合字粒度与词粒度级别的校对模型,以期能够利用不同粒度级别的信息。字粒度模型采用集成规则生成候选集与Bert筛选的方法,词粒度采用传统方法,先构建候选集,然后使用N‑Gram模型计算句子困惑度取最佳候选。另外该方法还解决了多字少字等错误类型问题。实验结果验证了该方法能有效提高检错纠错的召回率,有效提升校对模型性能。对比现有技术,本发明规避了字粒度校对模型和词粒度校对模型带来的局限性,基于多粒度融合与Bert筛选通过两种粒度有效结合不同层次信息,通过N‑Gram LM打分与Bert进行筛选,能够有效提高错误的召回率和校对的准确率。
-
公开(公告)号:CN110083699B
公开(公告)日:2021-01-12
申请号:CN201910202638.6
申请日:2019-03-18
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/35
Abstract: 本发明提出了一种基于深度神经网络的新闻流行度预测模型训练方法,包括:获取特定主题设定时间段的新闻文章数据,用Pandas进行数据清洗后按照设定时间长度进行顺次分组,获取按时间顺序排列得到新闻流行度序列;依据所述新闻流行度序列,从第一个流行度开始依次按照采样长度为w的连续序列作为输入样本,并采样其之后一期的数据作为输出样本,构建训练样本集;随机从训练样本集中选择训练样本对基于LSTM网络的新闻流行度预测模型进行训练,并采用Pearson相关系数进行关联性分析删除不良的训练样本,循环训练过程至训练结束。本发明可以获得用来对无趋势性、无季节性及非线性新闻流行度进行较高准确率预测的新闻流行度预测模型。
-
公开(公告)号:CN110222262A
公开(公告)日:2019-09-10
申请号:CN201910435231.8
申请日:2019-05-23
Applicant: 国家计算机网络与信息安全管理中心 , 北京天润基业科技发展股份有限公司
IPC: G06F16/9535 , G06K9/00 , G06K9/62 , G06N20/00
Abstract: 本发明公开一种利用新闻评论行为的网络用户人格自动识别方法:步骤一、利用新闻语料资源,对每个新闻文本内容进行中文分词;筛选掉停用词后得到该语料库的所有不同的词条,作为新闻内容词典;步骤二、利用机器学习方法,建立新闻评论行为到人格的预测模型;步骤三、在得到预测模型之后,针对新的网络用户,获得该新的网络用户参与评论的所有新闻,采用获得归一化之后的自变量,利用训练得到的模型实现对网络用户人格的自动识别。本发明对人格的自动识别,无需用户自我报告,时效性高;对用户没有任何干扰,生态效度高;可以做到大规模用户人格的自动识别;人格识别效率提高;满足在新闻网站场景下对人员人格特征的监测要求。
-
公开(公告)号:CN119990203A
公开(公告)日:2025-05-13
申请号:CN202411812196.4
申请日:2024-12-10
Applicant: 国家计算机网络与信息安全管理中心 , 清华大学
IPC: G06N3/06 , G06F18/2431
Abstract: 本发明提供一种大模型安全神经元筛选方法和装置,方法包括:对基础大模型进行安全对齐,得到安全对齐模型;计算所述安全对齐模型和所述基础大模型的神经元激活差异;基于所述神经元激活差异,确定对所述基础大模型进行安全对齐时的安全神经元。本发明从模型自身内部的性质出发,不受任务形式限制,容易扩展,适用于大模型中的安全神经元发现,为进一步研究大模型的安全机理提供方案。
-
公开(公告)号:CN119990134A
公开(公告)日:2025-05-13
申请号:CN202411808989.9
申请日:2024-12-10
Applicant: 国家计算机网络与信息安全管理中心 , 清华大学
IPC: G06F40/30 , G06F40/284 , G06F40/237
Abstract: 本发明提供一种使用自述式提示与集成梯度的语义贡献识别方法及系统,包括:获取输入数据并编写特定的问题提示;将所述问题提示多次输入至预设的大语言模型,引导大语言模型自动识别并报告在决策过程中起到关键作用的词汇,生成关键词提议集合;基于所述关键词提议集合抽取关键词,生成第一语义贡献度列表;基于所述输入数据通过预设的公式进行集成梯度计算,生成第二语义贡献度列表;将所述第一语义贡献度列表和第二语义贡献度列表进行整合分析,确定对大语言模型决策有重大影响的词汇。本发明解决了现有技术中大语言模型行为解释单一方法的局限性问题,提高了模型解释的全面性和准确性,满足了在多种自然语言处理应用中对可解释性的要求。
-
公开(公告)号:CN114297498B
公开(公告)日:2024-10-15
申请号:CN202111638795.5
申请日:2021-12-29
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/9535 , G06F16/9536 , G06N3/0464 , G06Q50/00
Abstract: 本发明通过网络技术处理领域的方法,实现了一种基于关键传播结构感知的意见领袖识别方法和装置。方法基于神经网络算法,设计用户双重特征提取模块和关键传播结构挖掘模块两个逻辑模块组成,通过输入微博中不同话题数据,得到输入数据中具有代表性特征的意见领袖及关联关系输出。本发明设计基于节点中心度的消息传递机制,充分结合了节点在拓扑结构中的重要性,构造了一个新的图神经网络模型提取社交网络中用户的特征。首次利用图分类任务挖掘不同事件中的关键结构信息,在挖掘社交网络中top‑k个意见领袖的同时能够从节点连通性、节点相似度、节点中心度三个角度学习意见领袖之间潜在的联系,构造网络中的关键传播结构。
-
公开(公告)号:CN118410403A
公开(公告)日:2024-07-30
申请号:CN202410654244.5
申请日:2024-05-24
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F18/241 , G06F40/30 , G06F16/36 , G06N5/025 , G06N3/042 , G06N3/0464 , G06N3/048 , G06N3/08
Abstract: 本公开涉及互联网信息处理技术领域,尤其涉及受雇网络写手的识别方法、装置、计算机设备及存储介质;方法包括:在获取到网络用户和各网络用户之间的关联关系后,以网络用户为节点,以关联关系为边构建了第一知识图谱,并将第一知识图谱输入至预训练的图神经网络模型中,最终得到各网络用户分别对应的类别标签,完成对网络用户的识别;在利用图神经网络模型对各网络节点进行识别时,将网络节点之间的关联关系以及与各网络节点相邻的节点信息也考虑进去,使得最终得到的类别标签具有更高的准确性,相较于当前仅根据用户信息对网络用户进行识别的方式,根据本方案识别方法得到的识别结果具有更强的说服力。
-
公开(公告)号:CN111581370B
公开(公告)日:2023-06-23
申请号:CN202010310036.5
申请日:2020-04-20
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
IPC: G06F16/335 , G06F16/951 , G06F16/9536 , G06F40/242 , G06Q10/0637 , G06Q50/00
Abstract: 本发明公开了一种综合多通道数据来源的网络舆情热度评估方法,包括:步骤一、收集各通道的流数据;步骤二、量化流数据对于目标事件的敏感值和情绪标签;步骤三、基于敏感度和影响力量化得到主体指标值;步骤四、基于敏感消息数、各类情绪标签对应的消息数,量化得到内容指标值;步骤五、基于每日的消息数、用户数、群组数,量化得到传播指标值;步骤六、基于主体指标值、内容指标值、传播指标值,量化得到各通道的综合热度值,并计算得到目标事件当日的总热度值。本方法建立了普适的网络舆情热度评估指标体系,评估结果更准确全面。本发明还公开了一种综合多通道数据来源的网络舆情热度评估装置,本装置对网络舆情热度的评估更准确全面。
-
公开(公告)号:CN116186191A
公开(公告)日:2023-05-30
申请号:CN202210320305.5
申请日:2022-03-29
Applicant: 国家计算机网络与信息安全管理中心 , 北京理工大学
Abstract: 本发明涉及基于多维信息的任务匹配方法,属于基于大数据智能分析与挖掘技术领域。本发明是结合文本处理、机器学习方法、线性模型、动态规划等方法对相应文本进行处理,从而对文本所含“价值”进行分析,并借助大数据的手段将人工主观文本分析变为自动化完成,提高系统找到匹配结果的效率。本发明采用多种大数据分析的思想和多路召回的思想,对于同一任务会召回多个表单,每一个表单进行同样的操作,设置不同的权重,最后多路交集,从而可以取到更加准确的筛选结果,大大提高了工作效率。
-
公开(公告)号:CN115345181A
公开(公告)日:2022-11-15
申请号:CN202210786892.7
申请日:2022-07-04
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F40/58 , G06F16/36 , G06F40/211 , G06F40/295 , G06N3/04 , G06N3/08
Abstract: 本发明提供一种神经机器翻译模型的训练方法、翻译方法及装置,所述训练方法包括:构建神经机器翻译模型;将双语平行句对中的源语言句子和目标语言句子,以及知识图谱中每个三元组中的头实体和尾实体进行细粒度切分,得到标准源语言句子序列、标准目标语言句子序列以及知识图谱中每个三元组中的标准头实体‑关系序列和标准尾实体序列;将其输入编解码模块中预测得到目标语言句子序列以及尾实体序列;基于标准目标语言句子序列和预测的目标语言句子序列之间的交叉熵,以及知识图谱中每个三元组中的标准尾实体序列与预测的尾实体序列之间的交叉熵,共同训练该模型。本发明能够有效融合细粒度知识推断,提升神经机器翻译对于实体的翻译质量。
-
-
-
-
-
-
-
-
-