支持海量数据分组统计的智能索引构建、查询及维护方法

    公开(公告)号:CN105631003B

    公开(公告)日:2019-02-22

    申请号:CN201511001092.6

    申请日:2015-12-28

    Inventor: 李斌斌 周游

    Abstract: 本发明提供了一种支持海量数据分组统计的智能索引构建、查询及维护方法,属于大数据处理技术领域。本方法建立了智能索引的数据组织结构,以使智能索引支持海量数据分组统计;智能索引的数据组织结构包括索引元数据和索引数据,索引元数据是创建索引的依据,包括分组列簇和统计列簇,索引数据是对原始数据构建的索引。本方法在写入数据时在内存中实时创建智能索引,利用智能索引进行分组统计的操作,也可快捷对智能索引进行删除。本发明实现了对海量数据的实时自动创建索引,在对海量数据进行分组统计时极大降低了磁盘I/O和计算时间,从而大幅提高了分组统计效率,并实现了对索引数据全生命周期的自动管理。

    一种基于编码和机器学习的多语种识别方法

    公开(公告)号:CN106528535B

    公开(公告)日:2019-04-26

    申请号:CN201611001398.6

    申请日:2016-11-14

    Abstract: 本发明提供了一种基于编码和机器学习的多语种识别方法,是计算机对自然语言的处理技术。本方法分别通过机器学习单元和编码识别单元对文本进行语种识别,编码识别时还统计各语种的单词量,当机器学习单元的识别结果在编码识别单元的判定区间内,且二者识别的语言一致时,输出单一识别语言,当编码识别单元识别到多种语言时,进行混合语言规则判断,若第二语言在文本中的单词量比例达到设定比例,则判定文本为混合语言。本发明对长文本可先作随机采样再判定,以提高识别效率。本发明能够准确、高效地实现中文简繁体、日、法、英等97种语言的语种识别,同时支持混合语种文本识别,在海量数据分析以及舆情监控中具有广泛的应用前景。

    支持海量数据分组统计的智能索引构建、查询及维护方法

    公开(公告)号:CN105631003A

    公开(公告)日:2016-06-01

    申请号:CN201511001092.6

    申请日:2015-12-28

    Inventor: 李斌斌 周游

    CPC classification number: G06F17/30321 G06F17/30289 G06F17/30424

    Abstract: 本发明提供了一种支持海量数据分组统计的智能索引构建、查询及维护方法,属于大数据处理技术领域。本方法建立了智能索引的数据组织结构,以使智能索引支持海量数据分组统计;智能索引的数据组织结构包括索引元数据和索引数据,索引元数据是创建索引的依据,包括分组列簇和统计列簇,索引数据是对原始数据构建的索引。本方法在写入数据时在内存中实时创建智能索引,利用智能索引进行分组统计的操作,也可快捷对智能索引进行删除。本发明实现了对海量数据的实时自动创建索引,在对海量数据进行分组统计时极大降低了磁盘I/O和计算时间,从而大幅提高了分组统计效率,并实现了对索引数据全生命周期的自动管理。

Patent Agency Ranking