-
公开(公告)号:CN103577452A
公开(公告)日:2014-02-12
申请号:CN201210270201.4
申请日:2012-07-31
Applicant: 国际商业机器公司
IPC: G06F17/30
CPC classification number: G06F17/2247 , G06F17/00 , G06F17/2785 , G06Q30/00 , G06Q30/0277 , G06Q30/0641 , G06Q30/0643
Abstract: 本公开涉及一种用于丰富网站内容的装置和方法、网站服务器。本发明的用于丰富网站内容的方法包括:从所述网站和其它网站获得语料库,从所述语料库中提取所述对象的特征,其中所述语料库包括关于对象的说明和用户对所述对象的评价;根据所述语料库,为提取出的特征构建多维向量;针对特定特征,将其多维向量与提取出的其它特征的多维向量进行相似度比较;将相似度高于预定阈值的特征确定为相同特征,并且将与所述网站上的对象的特征不同的特征和其相应属性补充到该网站。本发明提高了网页整合效率。
-
公开(公告)号:CN101901235B
公开(公告)日:2013-03-27
申请号:CN200910203108.X
申请日:2009-05-27
Applicant: 国际商业机器公司
IPC: G06F17/30
CPC classification number: G06F17/30716 , G06F17/30011
Abstract: 本发明涉及文档处理技术,更具体地,涉及在企业搜索领域扩展作为搜索数据源的文档集的方法和系统。本发明提供一种对种子文档集中的种子文档进行扩展的方法,其中所述种子文档集包括至少一篇种子文档,所述方法包括:识别所述种子文档的一个或多个实体词,所述实体词是表示所述种子文档所关注的实体的词;依据所识别的每个实体词,识别该实体词所在的种子文档的一个或多个与所依据的该实体词相关的主题词;将所识别的每个主题词以及识别所述每个主题词时所依据的实体词组成实体词-主题词对;将每个所述实体词-主题词对中的实体词和主题词同时作为关键词,通过网络获得一篇或多篇扩展文档。
-
-
公开(公告)号:CN102033881A
公开(公告)日:2011-04-27
申请号:CN200910177336.4
申请日:2009-09-30
Applicant: 国际商业机器公司
IPC: G06F17/30
CPC classification number: G06Q30/0277 , G06F17/30908 , G06Q30/02
Abstract: 本发明涉及网页识别技术,尤其涉及识别网页中的广告的技术。本发明提供了一种用于识别网页中的广告的方法,包括:接收种子网页;通过分析所述种子网页的源代码得到所述种子网页的节点特征;根据预设的规则以及所述节点特征,确定所述种子网页中的种子广告;通过分析所述种子广告的链接得到所述种子广告的链接模式;以及利用所述链接模式,识别所述种子网页所在的网站中除了所述种子广告外的其它广告。
-
公开(公告)号:CN101901235A
公开(公告)日:2010-12-01
申请号:CN200910203108.X
申请日:2009-05-27
Applicant: 国际商业机器公司
IPC: G06F17/30
CPC classification number: G06F17/30716 , G06F17/30011
Abstract: 本发明涉及文档处理技术,更具体地,涉及在企业搜索领域扩展作为搜索数据源的文档集的方法和系统。本发明提供一种对种子文档集中的种子文档进行扩展的方法,其中所述种子文档集包括至少一篇种子文档,所述方法包括:识别所述种子文档的一个或多个实体词,所述实体词是表示所述种子文档所关注的实体的词;依据所识别的每个实体词,识别该实体词所在的种子文档的一个或多个与所依据的该实体词相关的主题词;将所识别的每个主题词以及识别所述每个主题词时所依据的实体词组成实体词-主题词对;将每个所述实体词-主题词对中的实体词和主题词同时作为关键词,通过网络获得一篇或多篇扩展文档。
-
公开(公告)号:CN1940915B
公开(公告)日:2010-05-05
申请号:CN200510108065.9
申请日:2005-09-29
Applicant: 国际商业机器公司
CPC classification number: G06F17/2715 , G06F17/30731
Abstract: 本发明提供一种通过扩充新的样本种子来自动扩充训练语料的系统和方法。其中使用样本种子收集训练语料;基于已有的样本种子和被收集的训练语料,产生新的样本种子;基于收集训练语料时所使用过的所有样本种子和新的样本种子确定训练语料扩充策略;按照训练语料扩充策略调整新的样本种子,使用调整后的新的样本种子再次收集训练语料,重复上述步骤直到达到预定的条件。本发明能够以较低的成本方便地从网络或者其它资源中自动扩充训练语料,提高训练语料的覆盖面。
-
公开(公告)号:CN100573520C
公开(公告)日:2009-12-23
申请号:CN200610126579.1
申请日:2006-08-29
Applicant: 国际商业机器公司
IPC: G06F17/30
CPC classification number: G06F17/30864
Abstract: 本发明提供了一种为检索对多个文档进行预处理及呈现检索结果的方法和装置以及包括这些装置的搜索文档的系统。其中该检索结果包括至少一个候选的文档,并且该至少一个文档的每一个被指定了一个表示其内容的树结构,该树结构包括至少一个节点,上述呈现检索结果的方法包括:呈现该检索结果中上述至少一个候选文档对应的树结构的至少一部分。
-
公开(公告)号:CN101452408A
公开(公告)日:2009-06-10
申请号:CN200710192869.0
申请日:2007-11-28
Applicant: 国际商业机器公司
CPC classification number: G06F11/0778 , G06F11/0748
Abstract: 本发明涉及一种用于在软件应用程序中进行错误报告的系统和方法,其中用伪数据来替换原始文档的内容,同时保留原始文档的框架信息,从而生成伪文档,然后将所采集的伪文档作为错误报告的全部或一部分发送。本发明有助于改善客户服务,同时在某种程度上保护了用户隐私。
-
公开(公告)号:CN1896989A
公开(公告)日:2007-01-17
申请号:CN200510084607.3
申请日:2005-07-15
Applicant: 国际商业机器公司
IPC: G06F17/30
Abstract: 本发明提供用于实现交互式浏览的系统及方法。所述系统与知识库和文档数据库相连,知识库存储多个术语及与每个术语相关的信息,文档数据库存储多个文档,所述系统包括:术语获得装置,用于获得用户感兴趣的术语;第一提取装置,用于从知识库中提取与用户感兴趣的术语相关的信息,第二提取装置,用于从文档数据库中提取包含用户感兴趣的术语的文档;用户界面的第一显示部分,用于显示第一提取装置提取的信息;用户界面的第二显示部分,用于显示第二提取装置提取的文档的列表。通过本发明,用户可在同一界面中浏览文档以及文档中术语的信息。
-
公开(公告)号:CN1773492A
公开(公告)日:2006-05-17
申请号:CN200410092369.6
申请日:2004-11-09
Applicant: 国际商业机器公司
IPC: G06F17/30
CPC classification number: G06F17/30713
Abstract: 本发明涉及组织多个文档的方法以及显示多个文档的设备。通过对大量文档进行聚类分析,依据聚类分析结果将各层次的类显示为虚拟目录,从而帮助用户快速导航到所要找的文档。可以借助于主题和摘要进行导航。还可以通过将显示内容控制在屏幕大小之内以减少用户的操作次数。
-
-
-
-
-
-
-
-
-