数据处理装置和为值串形式索引值建立索引的方法

    公开(公告)号:CN102193941B

    公开(公告)日:2013-09-18

    申请号:CN201010124847.2

    申请日:2010-03-12

    Abstract: 本发明涉及一种数据处理装置和为值串形式索引值建立索引的索引方法。该数据处理装置包括为值串形式的索引值建立前缀树索引的索引部分,索引部分包括:中间索引值获取单元,用于将索引值补位到预定长度,并基于补位后的各索引值的相应位以及相应位的组合来获取中间索引值;中间索引项产生单元,用于产生针对中间索引值的索引数据作为中间索引数据,并建立中间索引值与中间索引数据之间的对应关系,中间索引数据是中间索引值覆盖的各索引值的索引数据或索引数据的变形的集合;在该集合中,索引数据或索引数据的变形按照与索引值的各位相关的预定顺序排列,且每一个索引值的索引数据或索引数据的变形各自包含表示本身在何处结束的结束标志。

    用于网络文件的多维索引的方法和设备

    公开(公告)号:CN102270201B

    公开(公告)日:2013-07-17

    申请号:CN201010192559.0

    申请日:2010-06-01

    Abstract: 本发明公开了一种用于网络文件的多维索引的方法和设备,其中为文档建立索引的方法包括:识别构成所述文档的特征;将所述特征中的每一个的维度分类为主维度、次维度和附加维度中之一;针对所述主维度的特征和所述次维度的特征建立扩展的倒排索引,所述扩展的倒排索引中包含所述次维度的特征;针对所述附加维度的特征建立倒排索引;将针对所述主维度的特征和所述次维度的特征建立的扩展的倒排索引与针对所述附加维度的特征建立的倒排索引相结合,得到复合索引;以及将所述复合索引存储到索引储存库中,其中,针对主维度的特征和次维度的特征建立扩展的倒排索引包括:针对所述主维度的特征建立一维索引,并且在所述一维索引中附加所述次维度的特征。

    数据处理装置和为值串形式索引值建立索引的方法

    公开(公告)号:CN102193941A

    公开(公告)日:2011-09-21

    申请号:CN201010124847.2

    申请日:2010-03-12

    Abstract: 本发明涉及一种数据处理装置和为值串形式索引值建立索引的索引方法。该数据处理装置包括为值串形式的索引值建立前缀树索引的索引部分,索引部分包括:中间索引值获取单元,用于将索引值补位到预定长度,并基于补位后的各索引值的相应位以及相应位的组合来获取中间索引值;中间索引项产生单元,用于产生针对中间索引值的索引数据作为中间索引数据,并建立中间索引值与中间索引数据之间的对应关系,中间索引数据是中间索引值覆盖的各索引值的索引数据或索引数据的变形的集合;在该集合中,索引数据或索引数据的变形按照与索引值的各位相关的预定顺序排列,且每一个索引值的索引数据或索引数据的变形各自包含表示本身在何处结束的结束标志。

    对消费者生成媒体信息进行处理的方法、装置和程序

    公开(公告)号:CN102073641A

    公开(公告)日:2011-05-25

    申请号:CN200910221886.1

    申请日:2009-11-19

    Abstract: 本发明提供了一种对消费者生成媒体信息进行处理的方法,所述方法包括步骤:从不同的信息供应源收集并抽取消费者生成媒体信息;根据与抽取得到的消费者生成媒体信息相对应的过滤策略对所述消费者生成媒体信息进行过滤,以获得与预定主题相关的消费者生成媒体信息;以及基于用户定制的规则来对过滤得到的消费者生成媒体信息进行整合,以便获得定制的消费者生成媒体信息。本发明还提供用于实现这种方法的装置及其程序。根据本发明的方法和装置根据用户的特定需求而提供定制的CGM信息,从而显著提高了CGM信息的处理和使用效率,且不会对用户增加额外的操作负担。

    判断网页类型的方法和装置

    公开(公告)号:CN101872347B

    公开(公告)日:2012-09-26

    申请号:CN200910133695.X

    申请日:2009-04-22

    Inventor: 何楠 王主龙 于浩

    Abstract: 公开了一种判断网页的网页类型的方法和装置。所述方法包括:基于待判断网页的URL,在预先存储的规则列表中进行规则匹配,其中规则列表包括多条用于确定网页类型的规则记录;如果规则匹配成功,则依据成功匹配的规则得到待判断网页的网页类型;如果规则匹配失败,则从待判断网页的URL和/或HTML源代码中提取预定特征,并基于由从提取的预定特征中选择的特征构成的特征向量,使用分类器对待判断网页进行网页类型分类,以得到待判断网页的网页类型。在根据本发明的方案中,能够融合规则识别方案与基于统计学习的识别方案的优点,并且能够实现对包括博客、论坛、新闻等在内的各种网页类型进行判断。

    用户生成媒体信息的处理方法及装置

    公开(公告)号:CN102799599A

    公开(公告)日:2012-11-28

    申请号:CN201110146337.X

    申请日:2011-05-27

    Abstract: 本发明实施例公开了用户生成媒体信息的处理方法及装置。一种用户生成媒体信息的处理方法,包括:根据用户的定制规则获得用户生成媒体信息,并根据所述用户的服务级别为所述用户建立数据库,所述数据库中包括所述用户生成媒体信息;根据所述用户的服务级别及为所述用户建立的数据库为所述用户提供信息服务。通过本发明实施例,能够对不同服务级别的用户提供不同的信息服务,满足了用户的个性化需求。

    对消费者生成媒体信息进行处理的方法和装置

    公开(公告)号:CN102376057A

    公开(公告)日:2012-03-14

    申请号:CN201010257490.5

    申请日:2010-08-16

    Abstract: 本发明公开一种对消费者生成媒体信息进行处理的方法和装置。所述方法包括:从信息供应源收集并抽取消费者生成媒体信息;基于预定主题对抽取出的所述消费者生成媒体信息进行过滤,以获得与所述预定主题相关的消费者生成媒体信息;基于用户定制的规则来对过滤得到的消费者生成媒体信息进行整合,以便获得定制的消费者生成媒体信息;以及可视化地呈现所述定制的消费者生成媒体信息,其中,基于用户模型来进行所述收集和过滤中的至少一个,所述用户模型包括关于用户对消费者生成媒体信息的偏好的信息;并且其中,所述方法还包括:根据所述用户对所呈现的消费者生成媒体信息的反馈来更新所述用户模型。

    用于网络文件的多维索引的方法和设备

    公开(公告)号:CN102270201A

    公开(公告)日:2011-12-07

    申请号:CN201010192559.0

    申请日:2010-06-01

    Abstract: 本发明公开了一种用于网络文件的多维索引的方法和设备,其中为文档建立索引的方法包括:识别构成所述文档的特征;将所述特征中的每一个的维度分类为主维度、次维度和附加维度中之一;针对所述主维度的特征和所述次维度的特征建立扩展的倒排索引,所述扩展的倒排索引中包含所述次维度的特征;针对所述附加维度的特征建立倒排索引;将针对所述主维度的特征和所述次维度的特征建立的扩展的倒排索引与针对所述附加维度的特征建立的倒排索引相结合,得到复合索引;以及将所述复合索引存储到索引储存库中。

    判断网页类型的方法和装置

    公开(公告)号:CN101872347A

    公开(公告)日:2010-10-27

    申请号:CN200910133695.X

    申请日:2009-04-22

    Inventor: 何楠 王主龙 于浩

    Abstract: 公开了一种判断网页的网页类型的方法和装置。所述方法包括:基于待判断网页的URL,在预先存储的规则列表中进行规则匹配,其中规则列表包括多条用于确定网页类型的规则记录;如果规则匹配成功,则依据成功匹配的规则得到待判断网页的网页类型;如果规则匹配失败,则从待判断网页的URL和/或HTML源代码中提取预定特征,并基于由从提取的预定特征中选择的特征构成的特征向量,使用分类器对待判断网页进行网页类型分类,以得到待判断网页的网页类型。在根据本发明的方案中,能够融合规则识别方案与基于统计学习的识别方案的优点,并且能够实现对包括博客、论坛、新闻等在内的各种网页类型进行判断。

Patent Agency Ranking