-
公开(公告)号:CN103632048B
公开(公告)日:2017-02-08
申请号:CN201310589762.5
申请日:2013-11-20
Applicant: 中国科学院信息工程研究所
IPC: G06F19/00
Abstract: 本发明涉及一种度量正则表达式状态复杂度的方法及装置。度量正则表达式状态复杂度的方法包括:步骤一,判断给定非确定型有限自动机M中任意两状态p、q间的卷曲关系,该卷曲关系为如下五种关系之一:互斥关系、等价关系、包含于关系、包含关系、独立关系,M=(Q,Σ,δ,q0,F),其中,Q是一个有穷集,Q的每个元素称为一个状态,Σ是一个有穷字母表,Σ的每一个元素称为一个输入字符,δ是状态转移函数,q0∈Q,q0是唯一的一个开始状态, F是终止状态集;步骤二,根据步骤一的判断结果估计正则表达式的状态复杂度,该状态复杂度即对M确定化得到的确定型有限自动机M′的状态数目|Q′|,M′=(Q′,Σ,δ′,q0′,F′)。本发明的度量正则表达式状态复杂度的方法及装置,能够快速地得到一个合理的估计值,提高度量效率。
-
公开(公告)号:CN106127222A
公开(公告)日:2016-11-16
申请号:CN201610420846.X
申请日:2016-06-13
Applicant: 中国科学院信息工程研究所
CPC classification number: G06K9/6215 , G06K9/2054
Abstract: 本发明公开了一种基于视觉的字符串相似度计算方法及相似性判断方法。本发明的字符串相似度计算方法为:1)将两待比较字符串中的每一字符分别转化为一对应灰度图片;2)将步骤1)得到的图片的每一行灰度值进行拼接,得到对应图片的一维向量;3)对两待比较字符串中任意两不同字符,计算这两个字符对应的两一维向量的相似度,根据该相似度确定所选两字符的字符相似度;4)基于上述得到的字符相似度和字符位置计算两待比较字符串的视觉相似度。该方法考虑到了不同的字符在人的视觉方法所呈现的不同差异,所计算得到的字符串相似度更加符合人的主观感受。
-
公开(公告)号:CN105608070A
公开(公告)日:2016-05-25
申请号:CN201510965136.0
申请日:2015-12-21
Applicant: 中国科学院信息工程研究所
IPC: G06F17/27
CPC classification number: G06F17/2745 , G06F17/2775
Abstract: 本发明涉及一种面向新闻标题的人物关系抽取方法,其步骤包括:1)寻找出新闻标题中的关系指示词,用以区分不同类别的人物关系;2)根据人物与关系指示词在新闻标题中的位置特征,建立描述句子的句式模板;利用训练数据统计每个模板的正/负例个数,根据正负模板的比例判定新闻标题中人物间关系的正确性;3)从新闻标题与人物属性知识库中提取特征,通过特征分类的方法并结合步骤2)得到的句式模板的正/负例个数,判定给定的人物关系是否正确。本发明在保证准确率的同时,降低了特征维度,提高了判定效率,可用于挖掘新闻标题中的人物关系,进而发现社会中的焦点人物、热点事件等,便于及时掌握社会动态,监控舆情。
-
公开(公告)号:CN120046725A
公开(公告)日:2025-05-27
申请号:CN202411989381.0
申请日:2024-12-31
Applicant: 中国科学院信息工程研究所
IPC: G06N5/04 , G06N5/022 , G06N3/042 , G06N3/0895
Abstract: 本发明属于信息技术领域,涉及一种区分相似历史结构的时序知识图谱推理方法和系统。该方法包括:提取实体对之间的关系推理路径,评估各条关系推理路径的置信度,将不同时间戳下的关系推理路径的置信度进行聚合,得到关系推理得分;然后计算实体子图结构得分,根据关系推理得分和实体子图结构得分得到候选实体的预测得分,利用预测得分最高的候选实体补全补全预测查询中缺失的实体,实现时序知识图谱推理。本发明从关系和实体的两个层面结合来区分相似的历史结构,分别对关系在时序上的潜在逻辑和实体的子图结构的时间演化进行建模,能够区分子图结构相似或关系连接上相似的候选对象,有效地提升在时序知识图谱外部推理任务上的性能表现。
-
公开(公告)号:CN116226557B
公开(公告)日:2024-04-19
申请号:CN202211726541.3
申请日:2022-12-29
Applicant: 中国科学院信息工程研究所
IPC: G06F16/9538 , G06F16/957 , G06F16/955 , G06F16/35 , G06F40/295 , G06V10/764
Abstract: 本发明公开一种待标注数据的拾取方法、装置、电子设备和存储介质,涉及数据标注领域。所述方法包括:获取用户所参与的标注任务;基于所述标注任务,为所述用户提供用于固定数据的输入格式;在所述用户正在浏览的页面上,突显所述标注任务下的已采集数据,以得到数据捕获区域;通过用户行为确定所述用户在所述数据捕获区域中捕获的网页区域和内容;基于所述输入格式,将所述网页区域和内容传输给数据标注系统。本发明可以精准完成数据获取和格式校验并同步提交到标注系统,大幅提升标注效率。
-
公开(公告)号:CN115965795A
公开(公告)日:2023-04-14
申请号:CN202211626368.X
申请日:2022-12-16
Applicant: 中国科学院信息工程研究所
IPC: G06V10/44 , G06V10/762 , G06V10/82 , G06N3/08 , G06N3/0464
Abstract: 本发明公开了一种基于网络表示学习的深暗网群体发现方法,包括深暗网异质信息网络构建和基于自编码器的多视图深度嵌入式聚类;所述深暗网异质信息网络构建包含构建属性异质信息网络多种类型的节点和构建属性异质信息网络的多种类型的关系;所述基于自编码器的多视图深度嵌入式聚类,包含基于元路径的用户多视图构建、基于自编码器的用户嵌入表示学习和基于KL散度的自监督聚类;最终联合学习所述基于自编码器的用户嵌入表示学习和所述基于KL散度的自监督聚类,联合优化重建损失与聚类损失。对于一目标深暗网,利用优化后的编码器、基于KL散度的自监督聚类模块,得到目标深暗网每一用户的软标签分布。本发明可获得较好的群体发现结果。
-
公开(公告)号:CN109086327B
公开(公告)日:2022-05-17
申请号:CN201810716386.4
申请日:2018-07-03
Applicant: 中国科学院信息工程研究所
IPC: G06F16/958 , G06V30/146 , G06T7/13 , G06T7/155
Abstract: 本发明涉及一种快速生成网页视觉结构图形的方法及装置。该方法包括:提取网页中的文本域的视觉结构图形;提取网页中的图像域的视觉结构图形;将文本域的视觉结构图形与图像域的视觉结构图形去重与合并,得到网页的视觉结构图形。该装置包括文本域视觉结构图形提取模块、图像域视觉结构图形提取模块、去重与合并模块。本发明抛弃了传统分析方法中网页DOM结构的累赘,仅由网页截图应用图形学方法处理图片,大大降低了算法耗时;本发明采用数学形态学变换,能够快速、准确地分别提取网页中文本域与图像域的视觉结构图形。
-
公开(公告)号:CN109194605B
公开(公告)日:2020-08-25
申请号:CN201810709596.0
申请日:2018-07-02
Applicant: 中国科学院信息工程研究所
IPC: H04L29/06
Abstract: 本发明涉及一种基于开源信息的可疑威胁指标主动验证方法和系统。该方法包括以下步骤:1)设计特定查询语句,所述特定查询语句是可疑威胁指标与特定场景的组合;2)收集和爬取根据所述特定查询语句在互联网上检索得到的结果信息;3)将所述结果信息中的相关开源信息进行结构化处理,得到结构化数据;4)利用所述结构化数据,充分学习其中的隐藏特征,训练相应的分类模型;5)利用所述分类模型验证在特定场景下的可疑威胁指标的恶意性,从而识别网络威胁。该系统包括查询设计模块、信息采集模块、数据处理模块、模型训练模块、指标验证模块。本发明能够高效准确地完成对可疑威胁指标的验证,帮助人们识别高级威胁攻击,保证网络安全。
-
公开(公告)号:CN106569997B
公开(公告)日:2019-12-10
申请号:CN201610912585.3
申请日:2016-10-19
Applicant: 中国科学院信息工程研究所
IPC: G06F17/27
Abstract: 本发明公开了一种基于隐式马尔科夫模型的科技类复合短语识别方法。本方法为:1)采用词性标注工具对输入语料进行词性标注和分词;2)采用隐式马尔科夫模型对步骤1)处理后的语料进行隐状态预测,输出一状态序列;然后对该状态序列进行切分,得到一复合短语集合;3)判断步骤2)得到的复合短语中是否包含特征词集合中的特征词,将含有设定特征词的复合短语作为识别的科技类复合短语结果。本发明缓解了角色标注的巨大人工成本代价。
-
公开(公告)号:CN106776555B
公开(公告)日:2019-11-15
申请号:CN201611129133.4
申请日:2016-12-09
Applicant: 中国科学院信息工程研究所
IPC: G06F17/27
Abstract: 本发明涉及一种基于字模型的评论文本实体识别方法及装置。该方法包括:1)使用标注好的训练数据训练基于字的双向LSTM模型;2)使用训练好的基于字的双向LSTM模型对输入的评价性文本进行核心实体识别;3)对基于字的双向LSTM模型输出的非空结果进行字补齐,将补齐后的结果作为最终识别出的核心实体并输出;4)对基于字的双向LSTM模型输出的结果为空的评价性文本,通过文本分词、词性标注和实体词典生成一个候选实体作为核心实体。本发明可以从大规模、表达口语化的评论文本中准确高效地提取文本中实体。
-
-
-
-
-
-
-
-
-