-
公开(公告)号:CN101968788A
公开(公告)日:2011-02-09
申请号:CN200910164414.7
申请日:2009-07-27
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 公开了一种用于从包括评论语句的评论信息中提取商品属性信息的方法和设备。所述方法包括:a)对评论信息执行预处理;b)从预处理后的评论信息中提取出候选商品属性信息,并将出现次数满足预定条件的候选商品属性信息提取作为高频商品属性信息;c)通过利用从评论信息中获取的模板,进行基于模板的商品属性信息提取,以从评论信息中提取出补充商品属性信息;和d)根据预定过滤方法,对所述高频商品属性信息和补充商品属性信息进行过滤,并输出过滤后的商品属性信息。利用根据本发明实施例的方法和设备,可无指导地自动提取商品属性信息,而且在保证提取高频商品属性信息的同时,兼顾了商品属性信息提取过程中可能漏掉的非高频商品属性信息。
-
公开(公告)号:CN110852110B
公开(公告)日:2023-08-04
申请号:CN201810827532.0
申请日:2018-07-25
Applicant: 富士通株式会社
Abstract: 提供了目标语句提取方法、问题生成方法以及信息处理设备。目标语句提取方法包括:通过将待处理文档中的每个词用词向量表示,构建第一语义序列;利用深度学习模型对第一语义序列进行处理,以获得第二语义序列,第二语义序列的每个元素与第一语义序列中的每个词向量对应并且体现了与该词向量有关的上下文信息;基于待处理文档中的各个词在预先获得的文档和语句对数据库中的匹配结果,分别对第二语义序列中的各个元素进行加权处理;利用序列标注模型对加权处理后的第二语义序列进行标注,并基于标注结果获取待处理文档中的目标语句,其中,深度学习模型和序列标注模型是利用标记好的训练文档和训练语句而预先训练获得的。
-
公开(公告)号:CN108021544A
公开(公告)日:2018-05-11
申请号:CN201610929103.5
申请日:2016-10-31
Applicant: 富士通株式会社
IPC: G06F17/27
Abstract: 本申请实施例提供一种对文本序列中实体词的语义关系进行分类的方法、装置和电子设备,该装置包括:第一获得单元,其用于将文本序列中的每个词用词向量表示,以构建第一矩阵;第二获得单元,其利用深度学习模型对所述第一矩阵进行处理,以获得第二矩阵;第三获得单元,其利用2个以上的注意力模型,对所述第二矩阵进行处理,以确定所述文本序列中词的受关注程度,并基于所述受关注程度获得所述文本序列的第三矩阵;分类单元,其至少根据所述文本序列的所述第三矩阵,以及预先存储的分类模型,来确定所述文本序列中的实体词之间的语义关系。根据本实施例,能够提高分类效率。
-
公开(公告)号:CN101833555B
公开(公告)日:2016-05-04
申请号:CN200910127243.0
申请日:2009-03-12
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 本发明涉及信息提取方法和装置。用于从输入的信息源中提取涉及特定主题的有用信息的信息提取方法,包括:基于描述了各类训练语素的组合概率的分类模板,从所述信息源中定位感兴趣的各类目标语素;按照预定的匹配规则对所述定位的各类目标语素进行匹配,并提取符合所述预定匹配规则的目标语素以组合成描述向量;以及基于所述提取出的描述向量,生成全局性信息以作为所述涉及特定主题的有用信息。
-
公开(公告)号:CN102655607B
公开(公告)日:2016-03-30
申请号:CN201110062124.9
申请日:2011-03-04
Applicant: 富士通株式会社
IPC: H04N21/258 , G06F17/30
Abstract: 本发明涉及用于统计目标观众的收视率的方法和装置。用于统计目标观众的收视率的方法包括:分类体系构建步骤,构建分类体系;知识库构建步骤,对分类体系进行组织以构建知识库;收视数据获取步骤,获取收视数据;收视数据表示步骤,按照所述分类体系中所包括的与目标观众相关联的分类体系,基于知识库将收视数据表示成相应特征空间中的点;分类器构造步骤,按照与目标观众相关联的分类体系,在特征空间中通过小样本学习来构造分类器;以及收视率统计步骤,利用所构造的分类器统计目标观众的收视率。通过本发明,可以提高收视率的准确性并可以统计针对目标观众的收视率。
-
公开(公告)号:CN103514194A
公开(公告)日:2014-01-15
申请号:CN201210212662.6
申请日:2012-06-21
Applicant: 富士通株式会社
IPC: G06F17/30
CPC classification number: G06F17/30864
Abstract: 本发明公开了一种确定语料与实体的相关性的方法和装置及分类器训练方法。所述确定相关性的方法包括:利用通用分类器基于从作为未标注语料的第二组语料提取的通用特征对第二组语料进行分类,以确定第二组语料中的每个语料与第一给定实体的相关性,从而得到作为对第二组语料的标注结果的机器标注语料;基于所述通用特征和从机器标注语料中选取的与第一给定实体相关的补充特征,结合实体名称相关的启发式规则,利用机器标注语料,训练针对第一给定实体的自适应分类器;以及基于从第一组语料提取的通用特征和所述补充特征,结合实体名称相关的启发式规则,利用训练好的自适应分类器,确定第一组语料中的每个语料与第一给定实体的相关性。
-
公开(公告)号:CN101833554B9
公开(公告)日:2013-04-03
申请号:CN200910127231.8
申请日:2009-03-09
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 产生抽取模板的方法、设备和抽取网页内容的方法和设备。生成网页内容抽取模板的方法包括:根据一个网页建立文档对象模型树,以作为初始的联合树;根据与所述网页结构相似的多个输入网页中的每个输入网页,建立文档对象模型树,以作为输入树;计算每个所述输入树和所述联合树之间的最大对齐关系;将所述输入树中每个对齐节点的内容累计到所述联合树中的相应对齐节点,并且根据所述输入树中的每个对齐节点在联合树中的相应对齐节点的位置以及输入树中的未对齐节点和对齐节点的位置关系,将所述输入树的未对齐节点插入到联合树中;确定所述联合树中最可能具有期望文本内容的节点;和选择所述联合树中包含所确定的节点的子树作为所述网页内容抽取模板。
-
公开(公告)号:CN101833555A
公开(公告)日:2010-09-15
申请号:CN200910127243.0
申请日:2009-03-12
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 本发明涉及信息提取方法和装置。用于从输入的信息源中提取涉及特定主题的有用信息的信息提取方法,包括:基于描述了各类训练语素的组合概率的分类模板,从所述信息源中定位感兴趣的各类目标语素;按照预定的匹配规则对所述定位的各类目标语素进行匹配,并提取符合所述预定匹配规则的目标语素以组合成描述向量;以及基于所述提取出的描述向量,生成全局性信息以作为所述涉及特定主题的有用信息。
-
公开(公告)号:CN118279622A
公开(公告)日:2024-07-02
申请号:CN202211705084.X
申请日:2022-12-29
Applicant: 富士通株式会社
IPC: G06V10/764 , G06V10/82 , G06V10/40 , G06N3/0455 , G06N3/0464 , G06N3/09
Abstract: 本公开内容涉及生成分类模型的方法、图像分类方法及训练辅助分类模型的装置。根据本公开内容的一个实施例,提供了一种用于生成分类模型的方法。该方法包括:对包括编码器和与编码器的输出端连接的第一后模块的辅助分类模型进行迭代训练;以及通过将迭代训练后的辅助分类模型的编码器与第二后模块连接来生成分类模型;其中,编码器被配置成确定输入图像的用于分类的表示特征;第一后模块被配置成基于表示特征以放大由编码器引起的偏见的方式确定分类概率向量。
-
公开(公告)号:CN113128544B
公开(公告)日:2024-06-18
申请号:CN202010043527.8
申请日:2020-01-15
Applicant: 富士通株式会社
IPC: G06F18/2431 , G06F18/211 , G06F18/214 , G06N20/00
Abstract: 公开了训练人工智能模型的方法和装置。该模型用于处理张量数据并且输出指示多种类别之一的分类结果,张量数据包括多个元素,每个元素包括多个特征。该训练方法包括:对张量数据进行分解以获得核心张量;基于核心张量执行第一解释算法,以确定每个元素对于每种类别的贡献分,其中,贡献分表示该元素对于该类别被确定为分类结果的贡献程度;在多个元素中选择贡献分大于阈值的元素;针对所选择的每一个元素,利用第二解释算法来确定该元素中的每个特征对于每种类别的重要性分数;基于重要性分数来选择特征,并且基于所选择的特征来构建张量数据训练样本;利用构建的张量数据训练样本来训练该模型。
-
-
-
-
-
-
-
-
-