-
公开(公告)号:CN107301167A
公开(公告)日:2017-10-27
申请号:CN201710378496.X
申请日:2017-05-25
Applicant: 中国科学院信息工程研究所
Abstract: 本发明提供一种功性能描述信息识别方法及装置,该方法步骤包括:1)将测试文本按句子切分,过滤句子中包含的噪音;2)根据功性能描述性句子词典对从步骤1)得到的句子进行关键字匹配,过滤无关句子,得到功性能描述性句子候选集合;3)对上述功性能描述性句子候选集合中的功性能描述性句子进行分词,查询词向量表得到句子的向量表示,再输入神经网络模型进行分类,得到句子的分类标签;4)根据上述句子的分类标签,结合句子位置信息,得到文本识别结果。本发明方法及装置能够实现对未知文本尤其是包含大量噪音的网络文本中功性能描述片段的大规模自动识别,从而解决面向情报挖掘的功性能描述信息识别问题。
-
公开(公告)号:CN106570179A
公开(公告)日:2017-04-19
申请号:CN201610991857.3
申请日:2016-11-10
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种面向评价性文本的核心实体识别方法及装置。该方法包括以下步骤:1)输入评价性文本,基于专家规则和行业专有词典识别该评价性文本中的核心实体;2)对步骤1)未识别出核心实体的评价性文本,使用训练好的基于词的双向LSTM模型进行核心实体识别;3)对步骤2)未识别出核心实体的评价性文本,通过对已有实体集的统计并结合文本分词和词性标注,生成候选实体作为核心实体。该装置包括规则匹配模块、模型识别模块和候选实体生成模块。本发明针对多类型混杂的评价性文本,能够准确有效地提取文本中的核心实体,为用户决策判断提供有力依据。
-
公开(公告)号:CN106126654A
公开(公告)日:2016-11-16
申请号:CN201610479968.6
申请日:2016-06-27
Applicant: 中国科学院信息工程研究所
Abstract: 本发明提供一种基于用户名相似度的跨网站用户关联方法,步骤包括:1)对多个用户名中的字符进行过滤,仅保留英文字母和数字;2)找出上述处理过的用户名的特征,并获取该特征的自信息值,根据该自信息值得到自信息向量;3)根据上述自信息向量,得到所述多个用户名间的相似度,如果该相似度大于给定的阈值τ,则判断所述多个用户名属于同一用户。本方法通过多个用户名间的相似度来判断其是否属于同一用户,对属于同一用户的不同网站上的账户可实现关联。
-
公开(公告)号:CN105913094A
公开(公告)日:2016-08-31
申请号:CN201610286111.2
申请日:2016-05-03
Applicant: 中国科学院信息工程研究所
IPC: G06K9/62
CPC classification number: G06K9/6215
Abstract: 本发明公开了一种最小距离字符串计算查找方法。本方法为:1)判断判断字符串集合是否满足加速条件,如果满足,则计算该字符串集合中任意两字符串之间的距离,得到加速索引;2)从该字符串集合中找到与待计算字符串t最相似的字符串t’并计算两者之间的距离D(t,t’);然后根据该加速索引判断该字符串集合中的字符串是否满足D(t’,r)≥2D(t,t’);如果满足,则淘汰字符串r;3)根据步骤2)处理结果,确定出与该字符串t距离最小的字符串。本方法大大提高了查找效率。
-
-
公开(公告)号:CN104794176A
公开(公告)日:2015-07-22
申请号:CN201510154872.8
申请日:2015-04-02
Applicant: 中国科学院信息工程研究所
Abstract: 本发明提出了一种基于多属性的误发邮件检测方法,包括以下步骤:从标记的多个邮件中提取内容特征属性、社会关系属性及通信行为属性;根据所述内容特征属性、社会关系属性及通信行为属性建立基于SVM分类模型;提取新邮件的内容属性、社会关系属性及通信行为属性,并用所述基于SVM分类模型进行检测,判断所述新邮件是否为误发邮件。本发明从内容特征、社会关系和通信行为等多种属性对用户的通信行为偏差建立通用检测模型,具有实施简单、准确率较高等优点。
-
公开(公告)号:CN103632048A
公开(公告)日:2014-03-12
申请号:CN201310589762.5
申请日:2013-11-20
Applicant: 中国科学院信息工程研究所
IPC: G06F19/00
Abstract: 本发明涉及一种度量正则表达式状态复杂度的方法及装置。度量正则表达式状态复杂度的方法包括:步骤一,判断给定非确定型有限自动机M中任意两状态p、q间的卷曲关系,该卷曲关系为如下五种关系之一:互斥关系、等价关系、包含于关系、包含关系、独立关系,M=(Q,Σ,δ,q0,F),其中,Q是一个有穷集,Q的每个元素称为一个状态,Σ是一个有穷字母表,Σ的每一个元素称为一个输入字符,δ是状态转移函数,q0∈Q,q0是唯一的一个开始状态,F是终止状态集;步骤二,根据步骤一的判断结果估计正则表达式的状态复杂度,该状态复杂度即对M确定化得到的确定型有限自动机M′的状态数目|Q′|,M′=(Q′,Σ,δ′,q0′,F′)。本发明的度量正则表达式状态复杂度的方法及装置,能够快速地得到一个合理的估计值,提高度量效率。
-
公开(公告)号:CN119578536A
公开(公告)日:2025-03-07
申请号:CN202411409785.8
申请日:2024-10-10
Applicant: 中国科学院信息工程研究所
IPC: G06N5/025 , G06N3/0455 , G06N5/04 , G06F18/2431 , G06F16/3329
Abstract: 本发明公开了一种基于查询窗口建模的回复关系发现方法与装置,属于自然语言处理领域。本发明基于社交平台上采集的真实群聊数据构建回复关系发现任务数据集,经数据预处理后建模当前查询消息相对应的查询窗口,对当前查询消息及其对应的查询窗口进行编码以作为模型的输入,通过针对任务优化的损失函数对模型进行训练,经训练的模型能够输出候选消息与当前查询消息之间构成回复关系的可能性取值。本发明缓解了短文本语义线索缺失和预测偏向负样本的问题,增强模型对短文本环境的适应能力,增强模型对正样本的学习能力,提升模型在公开数据集上的对比实验效果。
-
公开(公告)号:CN112651234B
公开(公告)日:2023-11-28
申请号:CN202011502018.3
申请日:2020-12-18
Applicant: 中国科学院信息工程研究所
IPC: G06F40/253 , G06F40/30 , G06F40/117 , G06F40/169 , G06F40/247
Abstract: 本发明公开一种半开放信息抽取的方法及装置,涉及自然语言处理领域,通过将目标实体和无结构文本前后拼接构成组合文本,处理得到目标实体感知的上下文表示;再将目标实体感知的上下文表示作为共享特征,为后续的谓语抽取、宾语抽取和边界对齐这三个子任务生成特定的私有表示,对私有表示进行谓语和宾语的抽取,以及进行边界对齐;最后通过谓语和宾语组合,查找起始和结束位置组合在边界对齐矩阵中是否有相应的标签,如果找到,则保留 元组并作为输出的关系知识。本发明能够克服现有的开放信息抽取方法不能有效抽取特定实体相关的目标知识的不足。
-
公开(公告)号:CN110020190B
公开(公告)日:2021-06-01
申请号:CN201810727300.8
申请日:2018-07-05
Applicant: 中国科学院信息工程研究所
IPC: G06F16/9535 , G06F40/30 , G06F40/284 , G06F40/289 , G06N3/04
Abstract: 本发明公开了一种基于多示例学习的可疑威胁指标验证方法及系统。本方法为:对各可疑威胁指标相关的情报信息文本内容进行处理,生成含有原语义信息的词序列;对于每一所述可疑威胁指标,选择该可疑威胁指标对应的多个处理后的词序列,应用多示例学习算法对选取的各所述可疑指标对应的词序列进行训练并生成一多示例学习验证模型;采用自然语言处理技术对待测可疑威胁指标的情报信息文本进行处理,生成该待测可以威胁指标对应的词序列;然后利用所述多示例学习验证模型对该待测可疑威胁指标对应的词序列进行预测验证,确定该待预测可疑威胁指标是否为恶意威胁指标。本发明可高效准确地完成对可疑威胁指标的验证。
-
-
-
-
-
-
-
-
-