-
公开(公告)号:CN115687638A
公开(公告)日:2023-02-03
申请号:CN202211199819.6
申请日:2022-09-29
申请人: 中国科学院计算技术研究所
IPC分类号: G06F16/36 , G06F40/211 , G06F40/289 , G06N3/0455 , G06N3/044 , G06N3/048 , G06N3/047 , G06N3/08
摘要: 本发明提出一种基于三元组森林的实体关系联合抽取方法和系统,包括:获取待实体关系抽取的语料,得到句子及其对应的词序列;将词序列输入BERT模型,BERT模型对词序列进行分词,得到子词序列,使用BERT模型对子词序列进行编码,得到句子的分布式表示;将分布式表示输入CRF模型,标注句子中实体,得到实体的向量表示;将实体向量输入,通过TransformerDecoder模块中多头注意力机制获得实体向量中包含的实体间交互信息、实体和输入句子间交互信息的隐层向量;将隐层向量作为Tree‑RNN的初始状态和初始隐层单元,输入实体表示至Tree‑RNN,从Tree‑RNN的根节点的头实体生成其所参与的关系,根据头实体及其对应的关系,选择其尾实体,从而生成重叠的三元组树,再进一步解码得到实体关系三元组。
-
公开(公告)号:CN109308321A
公开(公告)日:2019-02-05
申请号:CN201811428266.0
申请日:2018-11-27
申请人: 烟台中科网络技术研究所 , 中国科学院计算技术研究所
IPC分类号: G06F16/36 , G06F16/33 , G06F16/332
摘要: 本发明涉及一种知识问答方法、知识问答系统及计算机可读存储介质,其方法包括以下步骤:接收问答请求,问答请求携带有源问题文本信息;根据源问题文本信息和预设问题标签模板确定查询语言;从动态更新的知识管理库中查询与查询语言匹配的推荐实体组,基于推荐实体组生成知识图谱;发送知识图谱。本发明提供的知识问答方法、知识问答系统和计算机可读存储介质,预设问题标签模板可以检验查询语言的完整性,提高了查询语言的准确性,查询语言和知识管理库共同保证了推荐实体组的准确性以及实时性,知识图谱形式统一归纳了推荐实体组,为用户提供专业化的知识答案。
-
公开(公告)号:CN106874489A
公开(公告)日:2017-06-20
申请号:CN201710092869.7
申请日:2017-02-21
申请人: 烟台中科网络技术研究所 , 中国科学院计算技术研究所
摘要: 本发明涉及一种基于卷积神经网络的肺结节图像块检索方法及装置,通过对获取的肺结节图像块进行切片处理,得到至少两张肺结节切片扫描图,通过构造卷积神经网络提取肺结节切片扫描图的图像特征,得到肺结节的局部特征集合,获取数据库中所有肺结节的局部特征集合,对所有肺结节的局部特征集合进行聚类构建视觉词典,基于视觉词典获取肺结节带权特征向量,通过倒排索引的方式对肺结节带权特征向量构建索引库,根据输入的查询信息对索引库执行检索,得到符合查询条件的肺结节图像块。本发明能够快速、准确的检索出与待检索肺结节最相似的肺结节图像序列。
-
公开(公告)号:CN102289514B
公开(公告)日:2016-03-30
申请号:CN201110263798.5
申请日:2011-09-07
申请人: 中国科学院计算技术研究所
IPC分类号: G06F17/30
摘要: 本发明提供一种社会化标签自动标注的方法。该方法包括计算标签词项在文档中的频率(TF)权重,以及由协同过滤CF、一致性话题模型Corr-LDA方法所得的标签权重,并归一化;对上述权重建立线性融合权值模型,并估计线性融合参数;以及基于线性融合模型对社会标签进行自动标注。该发明同时考虑了社会标签与文档具体内容的一致性和抽象语义层的相关性,因此能够提高社会标签自动标注的准确性。
-
公开(公告)号:CN103235812B
公开(公告)日:2015-04-01
申请号:CN201310146037.0
申请日:2013-04-24
申请人: 中国科学院计算技术研究所
IPC分类号: G06F17/30
摘要: 本发明提供一种查询多意图识别方法和系统,所述方法包括:根据G-PLSI模型计算查询意图概率特征向量,其中,G-PLSI模型用于模拟摘要文本的产生过程、相同查询意图下搜索不同查询时的点击链接行为,以及相同查询意图下在同一session中搜索不同查询的行为,查询意图概率特征向量体现摘要文本信息以及不同查询在相同链接上的点击概率和在同一session中的共现概率。所述方法还包括:计算不同查询的查询意图概率特征向量之间的相似度并且根据该相似度进行查询聚类。本发明使用的查询意图概率特征向量对查询内容和用户点击行为进行结合利用,能够更准确地反映用户搜索意图。
-
公开(公告)号:CN103177126A
公开(公告)日:2013-06-26
申请号:CN201310134933.5
申请日:2013-04-18
申请人: 中国科学院计算技术研究所
IPC分类号: G06F17/30
摘要: 本发明提供一种用于搜索引擎的色情用户查询识别方法,该方法包括基于已标注的用户查询集合,训练用于识别色情用户查询的分类模型,以及利用该训练好的分类模型判断待识别的用户查询是否为色请用户查询。其中,用于训练所述分类模型的用户查询特征包括用户查询的命名实体和实体上下文主题特征以及用户属于色情查询和非色情查询的概率。该方法不需要基于搜索引擎的查询结果来识别色情查询,而是通过利用用户查询中包含的命名实体特征和语言模型特征实现了快速、有效的色情查询识别。
-
公开(公告)号:CN116341551A
公开(公告)日:2023-06-27
申请号:CN202310320934.2
申请日:2023-03-29
申请人: 中国科学院计算技术研究所
IPC分类号: G06F40/295 , G06F40/211 , G06F40/242 , G06N3/0442 , G06N3/0464 , G06N3/08
摘要: 本发明实施例提供一种基于依存分析和指代消解的实体言论抽取方法,包括:步骤S1、基于依存分析规则对待测文本进行解析得到依存分析结果,从依存分析结果中得到待测文本中的主语和谓语;步骤S2、识别待测文本中的主语是否为实体,以及识别待测文本中的谓语是否为触发词;步骤S3、在待测文本中的主语为实体且对应谓语为触发词时,提取待测文本中的触发词之后的言论,以得到包含主语、触发词和言论的实体言论,其中,当主语为指代词时,采用指代消解方式从指代词的前文中提取指代词所指代的真实实体名称作为所述实体言论中的主语。本发明实施例通过提取文本中真正的言论以及该言论对应的真实实体,使用户清楚快速地掌握各方的言论、观点和立场。
-
公开(公告)号:CN115934953A
公开(公告)日:2023-04-07
申请号:CN202211199328.1
申请日:2022-09-29
申请人: 中国科学院计算技术研究所
IPC分类号: G06F16/36 , G06F40/30 , G06F40/289 , G06N3/0455 , G06N3/044 , G06N3/047 , G06N3/048 , G06N3/08
摘要: 本发明提出一种基于实体森林的实体语义关系联合抽取方法和系统,包括:获取待识别实体语义关系的语料;得到句子及其对应的词序列,对句子的词序列进行编码,得到训练语料中句子的分布式表示;句子的分布式表示进行序列标注,得到实体头部,作为实体树的根节点,以根节点为循环神经网络模型的初始状态,依次输入句子中子词至循环神经网络模型,以森林的形式识别嵌套实体,得到多棵嵌套实体树;将嵌套实体树的实体表示输入Transformer Decoder模块,通过多头注意力机制,得到嵌套实体树中包含实体树间交互信息、实体和输入文本之间的交互信息的隐层向量;将隐层向量和实体表示输入由多棵嵌套实体树构成的分层三元组森林,获得语料的实体语义关系三元组。
-
公开(公告)号:CN109617864B
公开(公告)日:2021-04-16
申请号:CN201811427628.4
申请日:2018-11-27
申请人: 烟台中科网络技术研究所 , 中国科学院计算技术研究所
摘要: 本发明涉及一种网站识别方法及网站识别系统,其方法包括以下步骤:分别获取与多个第一网站一一对应的多个第一特征矩阵;基于原网络分类模型对所有第一特征矩阵进行深度学习训练,得到深度学习网站分类模型;获取第二特征矩阵;基于深度学习网站分类模型对第二特征矩阵进行分类概率计算,得到分类概率向量;根据分类概率向量中的分类概率值识别第二网站为仿冒网站或者正常网站。本发明提供的网站识别方法及系统,减少了人工干预,降低了正常网站被误判为仿冒网站的概率,提高了仿冒网站识别的准确率。
-
公开(公告)号:CN103246714A
公开(公告)日:2013-08-14
申请号:CN201310149482.2
申请日:2013-04-26
申请人: 中国科学院计算技术研究所 , 人民搜索网络股份公司
IPC分类号: G06F17/30
摘要: 本发明提供一种基于错误模式挖掘的中文搜索引擎查询纠错方法。该方法通过挖掘搜索引擎查询日志中的错误模式并建模,有效的改善了查询纠错系统中查询及其正确形式之间转换概率的预估精度;利用隐马尔科夫模型进行查询纠错,通过隐含状态的转移实现对查询的切分和纠错,提高了查询纠错的准确率和速度。
-
-
-
-
-
-
-
-
-