文档处理方法和系统
    12.
    发明授权

    公开(公告)号:CN101901235B

    公开(公告)日:2013-03-27

    申请号:CN200910203108.X

    申请日:2009-05-27

    CPC classification number: G06F17/30716 G06F17/30011

    Abstract: 本发明涉及文档处理技术,更具体地,涉及在企业搜索领域扩展作为搜索数据源的文档集的方法和系统。本发明提供一种对种子文档集中的种子文档进行扩展的方法,其中所述种子文档集包括至少一篇种子文档,所述方法包括:识别所述种子文档的一个或多个实体词,所述实体词是表示所述种子文档所关注的实体的词;依据所识别的每个实体词,识别该实体词所在的种子文档的一个或多个与所依据的该实体词相关的主题词;将所识别的每个主题词以及识别所述每个主题词时所依据的实体词组成实体词-主题词对;将每个所述实体词-主题词对中的实体词和主题词同时作为关键词,通过网络获得一篇或多篇扩展文档。

    消息处理方法及其系统
    13.
    发明公开

    公开(公告)号:CN102348171A

    公开(公告)日:2012-02-08

    申请号:CN201010243659.1

    申请日:2010-07-29

    CPC classification number: H04W4/023 H04W4/21

    Abstract: 本发明提供一种消息处理方法和系统。其中所述消息处理方法包括:获取消息以及消息的定位信息;根据所述消息的定位信息聚类所述消息,获得消息聚类;抽取消息聚类中消息的内容中的地址;以及基于消息聚类中消息的内容获得所述地址的分类器。通过充分利用相关消息的定位信息等和及时性特点,便捷地为消息用户提供相关细致地址信息,并为管理决策提供有用信息。

    用于识别网页中的广告的方法和系统

    公开(公告)号:CN102033881A

    公开(公告)日:2011-04-27

    申请号:CN200910177336.4

    申请日:2009-09-30

    CPC classification number: G06Q30/0277 G06F17/30908 G06Q30/02

    Abstract: 本发明涉及网页识别技术,尤其涉及识别网页中的广告的技术。本发明提供了一种用于识别网页中的广告的方法,包括:接收种子网页;通过分析所述种子网页的源代码得到所述种子网页的节点特征;根据预设的规则以及所述节点特征,确定所述种子网页中的种子广告;通过分析所述种子广告的链接得到所述种子广告的链接模式;以及利用所述链接模式,识别所述种子网页所在的网站中除了所述种子广告外的其它广告。

    文档处理方法和系统
    15.
    发明公开

    公开(公告)号:CN101901235A

    公开(公告)日:2010-12-01

    申请号:CN200910203108.X

    申请日:2009-05-27

    CPC classification number: G06F17/30716 G06F17/30011

    Abstract: 本发明涉及文档处理技术,更具体地,涉及在企业搜索领域扩展作为搜索数据源的文档集的方法和系统。本发明提供一种对种子文档集中的种子文档进行扩展的方法,其中所述种子文档集包括至少一篇种子文档,所述方法包括:识别所述种子文档的一个或多个实体词,所述实体词是表示所述种子文档所关注的实体的词;依据所识别的每个实体词,识别该实体词所在的种子文档的一个或多个与所依据的该实体词相关的主题词;将所识别的每个主题词以及识别所述每个主题词时所依据的实体词组成实体词-主题词对;将每个所述实体词-主题词对中的实体词和主题词同时作为关键词,通过网络获得一篇或多篇扩展文档。

    训练语料扩充系统和方法
    16.
    发明授权

    公开(公告)号:CN1940915B

    公开(公告)日:2010-05-05

    申请号:CN200510108065.9

    申请日:2005-09-29

    CPC classification number: G06F17/2715 G06F17/30731

    Abstract: 本发明提供一种通过扩充新的样本种子来自动扩充训练语料的系统和方法。其中使用样本种子收集训练语料;基于已有的样本种子和被收集的训练语料,产生新的样本种子;基于收集训练语料时所使用过的所有样本种子和新的样本种子确定训练语料扩充策略;按照训练语料扩充策略调整新的样本种子,使用调整后的新的样本种子再次收集训练语料,重复上述步骤直到达到预定的条件。本发明能够以较低的成本方便地从网络或者其它资源中自动扩充训练语料,提高训练语料的覆盖面。

    为检索对多个文档进行预处理的方法和装置

    公开(公告)号:CN100573520C

    公开(公告)日:2009-12-23

    申请号:CN200610126579.1

    申请日:2006-08-29

    CPC classification number: G06F17/30864

    Abstract: 本发明提供了一种为检索对多个文档进行预处理及呈现检索结果的方法和装置以及包括这些装置的搜索文档的系统。其中该检索结果包括至少一个候选的文档,并且该至少一个文档的每一个被指定了一个表示其内容的树结构,该树结构包括至少一个节点,上述呈现检索结果的方法包括:呈现该检索结果中上述至少一个候选文档对应的树结构的至少一部分。

    用于实现交互式浏览的系统和方法

    公开(公告)号:CN1896989A

    公开(公告)日:2007-01-17

    申请号:CN200510084607.3

    申请日:2005-07-15

    Abstract: 本发明提供用于实现交互式浏览的系统及方法。所述系统与知识库和文档数据库相连,知识库存储多个术语及与每个术语相关的信息,文档数据库存储多个文档,所述系统包括:术语获得装置,用于获得用户感兴趣的术语;第一提取装置,用于从知识库中提取与用户感兴趣的术语相关的信息,第二提取装置,用于从文档数据库中提取包含用户感兴趣的术语的文档;用户界面的第一显示部分,用于显示第一提取装置提取的信息;用户界面的第二显示部分,用于显示第二提取装置提取的文档的列表。通过本发明,用户可在同一界面中浏览文档以及文档中术语的信息。

Patent Agency Ranking