-
公开(公告)号:CN104718546A
公开(公告)日:2015-06-17
申请号:CN201280076053.0
申请日:2012-09-26
Applicant: 株式会社东芝 , 东芝解决方案株式会社
IPC: G06F17/30
CPC classification number: G06F17/30684 , G06F17/30696 , G06F17/30705
Abstract: 实施方式的文档分析装置具备取得单元、第1判定单元、第2判定单元以及提示单元。取得单元通过对文档存放单元中存放的多个文档所包含的文本进行解析,取得多个单词。第1判定单元按取得的每个单词,判定该单词与文档存放单元中存放的多个文档所具有的多个属性之中的由用户指定的至少两个属性分别有无相关。第2判定单元判定第1判定单元的判定结果与模式存放单元中存放的多个模式之中的由用户指定的模式是否一致。提示单元提示被判定为第1判定单元的判定结果与由用户指定的模式一致的单词。
-
公开(公告)号:CN104662564B
公开(公告)日:2017-03-29
申请号:CN201380050317.X
申请日:2013-09-04
Applicant: 株式会社东芝
CPC classification number: G06F17/30076 , G06N5/02 , G06N99/005 , G06Q10/00
Abstract: 本发明提供数据分析装置以及程序。实施方式的数据分析装置生成未存储于上述第一存储单元(T1、2)的格式变化、分析算法名以及分析参数,并执行分析。上述数据分析装置判定运用精度与知识模型精度相比是否降低。上述数据分析装置在该判定的结果为不是上述降低的情况下,重新启动上述格式变化生成单元以及上述分析参数生成单元。上述数据分析装置在上述判定的结果为上述降低的情况下,读出上述第一存储单元内与最高的优先顺序建立关联的格式变化以及知识模型名,并执行分析。
-
公开(公告)号:CN104718546B
公开(公告)日:2017-12-05
申请号:CN201280076053.0
申请日:2012-09-26
Applicant: 株式会社东芝 , 东芝解决方案株式会社
IPC: G06F17/30
CPC classification number: G06F17/30684 , G06F17/30696 , G06F17/30705
Abstract: 实施方式的文档分析装置具备取得单元、第1判定单元、第2判定单元以及提示单元。取得单元通过对文档存放单元中存放的多个文档所包含的文本进行解析,取得多个单词。第1判定单元按取得的每个单词,判定该单词与文档存放单元中存放的多个文档所具有的多个属性之中的由用户指定的至少两个属性分别有无相关。第2判定单元判定第1判定单元的判定结果与模式存放单元中存放的多个模式之中的由用户指定的模式是否一致。提示单元提示被判定为第1判定单元的判定结果与由用户指定的模式一致的单词。
-
公开(公告)号:CN103282903B
公开(公告)日:2016-09-07
申请号:CN201280004293.X
申请日:2012-03-08
Applicant: 株式会社东芝 , 东芝解决方案株式会社
IPC: G06F17/30
CPC classification number: G06F17/3053 , G06F17/2775
Abstract: 根据实施方式,话题提取装置具备话题提取单元、话题提示单元。上述话题提取单元具备单词提取单元和话题词提取单元。上述单词提取单元从对象文书集合中提取各单词,计算该各单词的出现频度和该各单词出现的文书频度。上述话题词提取单元针对上述提取的各单词,取得上述对象期间中的出现文书的文书集合,计算表示与话题词的接近性的尺度即话题度,提取上述话题度为预定值以上的单词作为话题词,并且针对该提取的话题词,根据该对象期间中的出现日期时间计算新鲜度。上述话题提示单元按照上述新鲜度的顺序提示上述提取的话题词,并且针对该提示的各话题词提示每个单位期间的出现文书数。
-
公开(公告)号:CN103282903A
公开(公告)日:2013-09-04
申请号:CN201280004293.X
申请日:2012-03-08
Applicant: 株式会社东芝 , 东芝解决方案株式会社
IPC: G06F17/30
CPC classification number: G06F17/3053 , G06F17/2775
Abstract: 根据实施方式,话题提取装置具备话题提取单元、话题提示单元。上述话题提取单元具备单词提取单元和话题词提取单元。上述单词提取单元从对象文书集合中提取各单词,计算该各单词的出现频度和该各单词出现的文书频度。上述话题词提取单元针对上述提取的各单词,取得上述对象期间中的出现文书的文书集合,计算表示与话题词的接近性的尺度即话题度,提取上述话题度为预定值以上的单词作为话题词,并且针对该提取的话题词,根据该对象期间中的出现日期时间计算新鲜度。上述话题提示单元按照上述新鲜度的顺序提示上述提取的话题词,并且针对该提示的各话题词提示每个单位期间的出现文书数。
-
公开(公告)号:CN104584005B
公开(公告)日:2018-01-05
申请号:CN201380042988.1
申请日:2013-08-22
Applicant: 株式会社东芝 , 东芝解决方案株式会社
IPC: G06F17/30
CPC classification number: G06F17/3071 , G06F17/2735 , G06F17/275 , G06F17/2795 , G06F17/2827
Abstract: 根据实施方式,文档分类装置具有:类目生成部(7),以语言不同的多个文档当中的相同语言的多个文档为对象进行聚类,由此来按照每个语言生成类目;单词间对应关系抽取部(6),使用语言不同的文档间的对应关系,基于语言不同的单词在存在对应关系的文档间同现地出现的频率,抽取不同单词的单词间的对应关系;以及类目间对应关系抽取部(8),基于单词间的对应关系,抽取将语言不同的文档进行了分类的类目间的对应关系。
-
公开(公告)号:CN104662564A
公开(公告)日:2015-05-27
申请号:CN201380050317.X
申请日:2013-09-04
Applicant: 株式会社东芝 , 东芝解决方案株式会社
CPC classification number: G06F17/30076 , G06N5/02 , G06N99/005 , G06Q10/00
Abstract: 本发明提供数据分析装置以及程序。实施方式的数据分析装置生成未存储于上述第一存储单元(T1、2)的格式变化、分析算法名以及分析参数,并执行分析。上述数据分析装置判定运用精度与知识模型精度相比是否降低。上述数据分析装置在该判定的结果为不是上述降低的情况下,重新启动上述格式变化生成单元以及上述分析参数生成单元。上述数据分析装置在上述判定的结果为上述降低的情况下,读出上述第一存储单元内与最高的优先顺序建立关联的格式变化以及知识模型名,并执行分析。
-
公开(公告)号:CN104584005A
公开(公告)日:2015-04-29
申请号:CN201380042988.1
申请日:2013-08-22
Applicant: 株式会社东芝 , 东芝解决方案株式会社
IPC: G06F17/30
CPC classification number: G06F17/3071 , G06F17/2735 , G06F17/275 , G06F17/2795 , G06F17/2827
Abstract: 根据实施方式,文档分类装置具有:类目生成部(7),以语言不同的多个文档当中的相同语言的多个文档为对象进行聚类,由此来按照每个语言生成类目;单词间对应关系抽取部(6),使用语言不同的文档间的对应关系,基于语言不同的单词在存在对应关系的文档间同现地出现的频率,抽取不同单词的单词间的对应关系;以及类目间对应关系抽取部(8),基于单词间的对应关系,抽取将语言不同的文档进行了分类的类目间的对应关系。
-
-
-
-
-
-
-