-
公开(公告)号:CN118673915A
公开(公告)日:2024-09-20
申请号:CN202310269665.1
申请日:2023-03-16
申请人: 富士通株式会社
IPC分类号: G06F40/295 , G06F18/214 , G06N3/0442 , G06N3/08
摘要: 本公开内容涉及数据增强方法、模型训练方法及用于数据增强的装置根据本公开内容的一个实施例,提供了一种由计算机执行的用于命名实体识别的数据增强方法。该方法包括:基于规则从原始数据集合成句子,训练语言模型,基于策略过滤生成的中间合成数据集,以及对中间合成数据集进行一致性过滤。
-
公开(公告)号:CN113496116B
公开(公告)日:2024-07-05
申请号:CN202010256902.7
申请日:2020-04-01
申请人: 富士通株式会社
IPC分类号: G06F40/205 , G06F40/284 , G06F40/242 , G06F16/23 , G06F16/30
摘要: 本申请公开了一种用于识别文本的方法和设备以及存储介质。该方法包括:将原始文本库中的每个文本拆解成字串集合,以与所述原始文本库中的每个文本的对应字串合并成新的文本库;以待识别文本中的每个字为起始,识别所述新的文本库中的以该字为起始的、与该待识别文本具有最长匹配的字串;和根据识别出的匹配的字串在所述待识别文本中的位置信息,对所述匹配的字串的集合内的相邻或部分重叠的字串迭代地扩展和合并,以得到最终识别结果。
-
公开(公告)号:CN115114919A
公开(公告)日:2022-09-27
申请号:CN202110295319.1
申请日:2021-03-19
申请人: 富士通株式会社
IPC分类号: G06F40/295 , G06F40/30 , G06N3/04
摘要: 公开了呈现提示信息的方法和装置以及存储介质。该方法包括:对神经网络输入包括实体和实体的上下文的电子文本、实体类型、上下文词性以及本文形式的多个预定义概念,其中该神经网络包括BERT模型和图卷积神经网络;使用BERT模型基于实体、上下文、实体类型和上下文词性的组合生成第一向量;使用BERT模型基于每一个概念生成第二向量;使用图卷积神经网络基于图生成第三向量,其中该图是基于多个概念和概念之间的关系而生成的;拼接第二向量和第三向量以生成第四向量;基于第一向量和第四向量计算实体和每一个概念之间的语义相似度;基于第一向量和语义相似度,确定实体对应于某一个概念;基于所确定的概念生成提示信息以呈现给用户。
-
公开(公告)号:CN111666479A
公开(公告)日:2020-09-15
申请号:CN201910167209.X
申请日:2019-03-06
申请人: 富士通株式会社
IPC分类号: G06F16/9532 , G06F16/9538 , G06F16/958 , G06F16/28 , G06F16/2458
摘要: 本公开内容涉及信息提取和信息检索技术,更特别地,涉及网页内容的提取以及针对网页内容的检索。提出了一种通过至少一个处理器搜索网页的方法,包括:接收限定待搜索内容的信息;识别该信息中涉及的实体并确定实体的类别和属性;基于实体的类别和属性生成搜索条件;使用搜索条件在数据集中搜索以获得满足搜索条件的网页地址,其中从搜索所针对的网页集合中的每个网页中提取具有预设结构的网页部分以形成数据集。
-
公开(公告)号:CN111538832A
公开(公告)日:2020-08-14
申请号:CN201910107264.X
申请日:2019-02-02
申请人: 富士通株式会社
IPC分类号: G06F16/35 , G06F16/34 , G06F16/33 , G06F40/205
摘要: 公开了一种用于对文书进行事件标注的装置和方法及记录介质。用于对文书进行事件标注的装置包括:提取关键词单元,从每个类别的文书分别提取至少一个关键词;提取语句单元,从指定类别的文书提取包括针对指定类别所提取出的任意关键词的多个语句;聚类单元,基于针对属于指定类别的文书所提取出的多个语句之间的相似度,对多个语句进行聚类;选择单元,从每个聚类后的语句分组中分别选择预定数量的语句,并且在所选的预定数量的语句中标注事件信息;以及匹配单元,针对每个聚类后的语句分组,将所选的预定数量的语句中所标注的事件信息匹配到该语句分组中的所有其他语句,从而对该语句分组中的所有语句标注事件信息。
-
公开(公告)号:CN104123274B
公开(公告)日:2018-06-12
申请号:CN201310150456.1
申请日:2013-04-26
申请人: 富士通株式会社
IPC分类号: G06F17/28
摘要: 本发明涉及一种对中间语的词语进行评价的方法和对中间语的词语进行评价的装置以及机器翻译方法和机器翻译设备。对中间语的词语进行评价的方法,包括确定中间语的词语相对于源语言的第一特定属性;确定中间语的词语相对于目标语的第二特定属性;根据第一特定属性和第二特定属性来计算中间语的词语的可靠性分数;以及根据可靠性分数来评价中间语的词语,其中,中间语的词语是将源语言的特定词语翻译成目标语的词语的桥梁,其中,中间语的词语的可靠性是该中间语的词语成为将源语言的特定词语翻译成目标语的词语的桥梁的可能性与语义准确性的平衡。
-
公开(公告)号:CN103853702B
公开(公告)日:2016-08-17
申请号:CN201210520870.2
申请日:2012-12-06
申请人: 富士通株式会社
IPC分类号: G06F17/27
摘要: 本申请公开了一种校正语料中的成语错误的装置和方法,该装置包括:变形成语检测单元,检测语料中成语的变形;第一判断单元,判断成语的变形是否存在于近义词词典或易混淆词词典中;语义相似确定单元,在确定成语的变形不在近义词词典和易混淆词词典中时,确定其与原成语之间的语义是否相似;第二判断单元,在确定成语的变形与原成语之间的语义不相似时,确定其不正确,否则确定其正确;语音相似度计算单元,在确定成语的变形不正确的情况下,计算成语的变形与原成语之间的语音相似度;字形相似度计算单元,在确定成语的变形不正确的情况下,计算其与原成语之间的字形相似度;以及校正单元,在确定成语的变形不正确的情况下,校正成语的变形。
-
公开(公告)号:CN105094358A
公开(公告)日:2015-11-25
申请号:CN201410213325.8
申请日:2014-05-20
申请人: 富士通株式会社
摘要: 公开了一种信息处理装置和通过外码输入目标语言文字的方法。从最近输入的目标语言文字中获得目标语句序列,针对目标语句序列中的每个目标语句,在源语言的源语句序列中识别一个对应源语句子序列。每个所述目标语句是相应源语句子序列的每个源语句的译文的可能性较大,且目标语句序列中相邻目标语句的对应源语句子序列在源语句序列中的相互距离较小。每个源语句子序列包含尽可能多的可能性较大的连续源语句。估计源语句序列中的可能当前源语句,其包括在覆盖所有源语句子序列的最小区间之外但与区间接近的至少一个语句。在假设当前正在输入或将要输入可能当前语句的目标语言的译文的情况下,减少输入的外码的歧义。
-
公开(公告)号:CN103514151A
公开(公告)日:2014-01-15
申请号:CN201210226930.X
申请日:2012-06-29
申请人: 富士通株式会社
摘要: 公开了依存句法分析方法、装置及辅助分类器训练方法。该依存句法分析方法包括初步分析步骤,使用通用的依存句法分析器对目标领域的句子进行依存句法分析,生成预定数量的分析结果;特征提取步骤,从作为所述分析结果的依存关系树中提取至少部分边的高阶特征;分类步骤,使用辅助分类器基于所述高阶特征对所述预定数量的分析结果进行分类,依据分类结果从所述预定数量的分析结果中选取最终的依存句法分析结果。
-
公开(公告)号:CN103514150A
公开(公告)日:2014-01-15
申请号:CN201210211767.X
申请日:2012-06-21
申请人: 富士通株式会社
IPC分类号: G06F17/27
摘要: 本发明公开了一种识别具有组合型歧义的歧义词的方法和装置。该方法包括:利用核心词表对第一语言句子进行粗粒度切分;利用核心词表在粗粒度切分后的分词结果中检测能够被分解成更小粒度的多个词的候选歧义词;通过分解候选歧义词对第一语言句子进行细粒度切分;从与第一语言句子对应的第二语言句子中分别抽取候选歧义词的译文、和候选歧义词所分解成的更小粒度的多个词的译文;以及判断所抽取的候选歧义词和更小粒度的多个词的译文是否出现在通过第一语言与第二语言词典得到的候选歧义词和更小粒度的多个词的译文中,以确定候选歧义词是真歧义词还是伪歧义词。
-
-
-
-
-
-
-
-
-