面向大规模分类体系的短文本标签方法、系统、装置

    公开(公告)号:CN110059181B

    公开(公告)日:2021-06-25

    申请号:CN201910202727.0

    申请日:2019-03-18

    Abstract: 本发明属于文本分类领域,具体涉及一种面向大规模分类体系的短文本标签方法、系统、装置,旨在为了解决有限数据情况下面向大规模分类体系的短文本标签系统的稳定性不高的问题。本发明方法包括:获取待分类的第一短文本信息集合,并基于正向最大匹配分词和word2vec词向量表示技术进行预处理得到第二短文本信息集合;基于规则的分类方法、有监督的神经网络分类方法,对第二短文本信息集合进行二分类后进行短文本过滤,并基于同样的分类方法进行各短文本的第一、二级分类标签,基于半监督学习的标签传播方法进行各短文本的第三、四级分类标签。本发明在有限数据情况下保证了面向大规模分类体系的短文本标签系统的稳定性。

    结合写作特征和序列特征的中文情感新词识别方法和系统

    公开(公告)号:CN105740236B

    公开(公告)日:2018-09-07

    申请号:CN201610066957.5

    申请日:2016-01-29

    Abstract: 本发明公开了一种结合写作特征和序列特征的中文情感新词识别方法和系统。该方法对于输入文本子句,基于情感词的作者写作特征和情感词的序列特征将文本子句表示为各种特征(如:字、词性等)的序列。然后,针对特征表示的文本子句,利用线性链条件随机场模型输出与文本子句对应的情感词标签序列。其中,线性链条件随机场模型基于包含传统情感词的文本训练得到。接着,基于文本子句中字的序列和情感词标签序列,利用有限状态自动机识别文本子句中的情感词,形成情感词集合。最后,利用中文旧词词库对情感词集合进行过滤,将未出现在中文旧词词库中的情感词作为中文情感新词。通过本发明实施例解决了如何提高情感新词识别精度和召回率的技术问题。

    用于测试的大规模数据生成方法和装置

    公开(公告)号:CN104636404B

    公开(公告)日:2019-02-19

    申请号:CN201310573545.7

    申请日:2013-11-14

    Abstract: 本发明实施例提供一种用于测试的大规模数据生成方法和装置,其中,方法包括:第一节点对样本数据进行分析,以获得所述样本数据的至少一个概率分布函数,所述样本数据来源于实际的测试的文本数据;所述第一节点根据所述样本数据的至少一个概率分布函数构造随机数发生器;所述第一节点采用所述随机数发生器生成大规模数据。本发明实施例提供的用于测试的大规模数据生成装置方法和装置,可以获得能够反映真实数据规律的大规模数据。

    基于MapReduce模型的数据排序方法和系统

    公开(公告)号:CN104346380B

    公开(公告)日:2018-03-09

    申请号:CN201310330196.6

    申请日:2013-07-31

    CPC classification number: G06F17/30958

    Abstract: 基于MapReduce模型的数据排序方法和系统,其中排序方法包括步骤:在MAP阶段每个MAP模块在对数据分块中的元素排序过程中,每确定一个元素的排序结果后,即将该元素加入先入先出数据结构中;在Reduce阶段Reduce模块获取所有先入先出数据结构中的当前元素;获取当前全局极值元素;将当前全局极值元素作为排序结果输出;将输出的当前全局极值元素从所述Reduce阶段元素集中移除,并更新Reduce阶段元素集。通过本申请,不必要等待MAP阶段的排序过程完成,即可在Reduce阶段根据先入先出缓存队列中的当前元素中选取极值元素,并流式的输出排序结果,所以可以提前输出排序结果,以减少用户的等待时间。

    搜索请求生成方法和系统
    48.
    发明授权

    公开(公告)号:CN104239019B

    公开(公告)日:2017-11-03

    申请号:CN201310248207.6

    申请日:2013-06-21

    Abstract: 本发明实施例涉及网络技术领域,公开了一种搜索请求生成方法和系统。其中,该方法包括:获取搜索请求的种子数据,所述种子数据的时间长度为第一时长;对所述种子数据进行分析,获取所述种子数据的负载特性;根据所述种子数据的负载特性生成时间长度为第二时长的搜索请求数据;所述第二时长大于第一时长。实施本发明实施例,其获得的搜索请求可以很好地反映请求数据的真实性,克服现有技术中使用固定的概率模型生成搜索请求所带来的缺陷。

    面向海量轨迹点数据的时空索引构建方法

    公开(公告)号:CN107220285A

    公开(公告)日:2017-09-29

    申请号:CN201710270989.1

    申请日:2017-04-24

    Abstract: 本发明涉及一种面向海量轨迹点数据的并行时空索引构建方法,以轨迹点数据文件作为索引单元,降低了索引的存储消耗,使索引结构具有高度的可扩展性;同时使用了希尔伯特曲线对数据文件进行划分,相比其他的多维到一维映射的方式,希尔伯特曲线因其优秀的空间填充特性使得划分效果更良好,能够降低数据倾斜发生的概率。

    一种产生数据的方法和装置

    公开(公告)号:CN103970738B

    公开(公告)日:2017-08-29

    申请号:CN201310027416.8

    申请日:2013-01-24

    CPC classification number: G06F17/10

    Abstract: 本发明提供一种产生数据的方法和装置,涉及计算机领域,能够利用小规模的样本数据生成大数据,同时还保留了原有小规模数据的特征规律,提高了生成的大数据的参考价值,并且不需要进行数据的大规模移动,有效节省了存储和网络开销。其方法为:通过主节点根据样本数据制定数据生成的策略,并将数据生成的策略分发至至少一个从节点,以便主节点和从节点根据数据生成策略产生数据,并将产生的数据上传至文件系统。使得最终产生的数据具有样本数据的数值规律,并且在此基础上提高了生成数据的参考价值,同时避免了数据的大规模移动,有效的节省了存储和网络开销。本发明用于产生大数据。

Patent Agency Ranking