基于可信度面向大数据及普通数据的数据采集方法和系统

    公开(公告)号:CN105843889A

    公开(公告)日:2016-08-10

    申请号:CN201610164635.4

    申请日:2016-03-21

    发明人: 朱定局

    IPC分类号: G06F17/30

    CPC分类号: G06F16/374 G06F16/353

    摘要: 本发明涉及一种数据采集方法和系统,其方法包括:获取采集条件,根据采集条件获取多个目标数据;根据预设特征匹配度对目标数据进行分类,得到数据群体;分别获取对应各目标数据的个体可信度,并根据个体可信度获取数据群体的群体可信度;判断群体可信度是否大于或等于预设值;若是,采集数据群体中对应的目标数据存入目标数据库或大数据存储库。如此,根据群体可信度和预设值对目标数据组成的数据群体进行筛选,当群体可信度大于或等于预设值时才采集对应的目标数据,避免采集到不可靠的数据,提高数据采集的正确率。

    分级映射各种同义但不同标准的术语的方法

    公开(公告)号:CN105701221A

    公开(公告)日:2016-06-22

    申请号:CN201610024723.4

    申请日:2016-01-15

    申请人: 陈杰

    发明人: 陈杰

    IPC分类号: G06F17/30

    CPC分类号: G06F16/353

    摘要: 本发明一种分级映射各种同义但不同标准的术语的方法,包括将需要映射的临床术语进行拆分,命名为不同的类别;基于拆分的不同类别,分析各种可能的映射结果,将不同的结果进行分类,按智能系统精确或模糊的映射程度,设置为不同的映射等级;根据不同的映射级别,有选择有针对性的进行人工介入处理,将较低映射等级的数据进行审核提升工作。

    一种数据处理的方法及服务器

    公开(公告)号:CN103366013B

    公开(公告)日:2016-03-02

    申请号:CN201310323837.5

    申请日:2013-07-29

    发明人: 赵雪雅

    IPC分类号: G06F17/30

    CPC分类号: G06F16/907 G06F16/353

    摘要: 本发明公开了一种数据处理的方法,包括:根据每个软件数据包中预先记录的映射词,将所述每个软件数据包分级后并归类;将同一级别中不同类别的软件数据包,按照不同类别的所述映射词出现的频率进行排序;对排序后的同一类别中的软件数据包,按照所述同一类别中的软件数据包的质量系数进行排序,并将按照所述质量系数排序后的结果推送到用户端供所述用户端显示。本发明实施例提供的方法,服务器在将软件数据包按照级别和类别排序后,向用户端推送排序后的结果,可以使用户根据排序后的结果快速查找到需要的软件,从而提高了用户在海量软件中选择需要的软件的效率。

    一种基于微博文本和个人信息的用户职业分类方法及系统

    公开(公告)号:CN105243094A

    公开(公告)日:2016-01-13

    申请号:CN201510577403.7

    申请日:2015-09-11

    IPC分类号: G06F17/30

    CPC分类号: G06F16/353

    摘要: 本发明提供一种基于微博文本和个人信息的用户职业分类方法及系统,所述方法包括以下步骤。收集指定数量第一用户的微博文本和个人信息,并根据第一用户的个人信息获得其职业类型,并将所述第一用户的个人信息作为第一训练样本。根据第一用户的职业类型字段,对第一用户的微博文本和个人信息进行标注,并将标注好的微博文本和个人信息进行分词处理后作为第二训练样本。利用所述第一训练样本及第二训练样本分别构建第一最大熵分类器及第二最大熵分类器,并利用所述第一最大熵分类器及第二最大熵分类器对第二用户进行分类并融合,并根据融合结果确定所述第二用户职业类型。如此,有效提高微博用户职业分类的准确率。

    短信类别识别方法及装置
    66.
    发明公开

    公开(公告)号:CN105138611A

    公开(公告)日:2015-12-09

    申请号:CN201510484715.3

    申请日:2015-08-07

    IPC分类号: G06F17/30

    CPC分类号: G06F16/353

    摘要: 本发明提供了一种短信类别识别方法及装置。该方法包括:当接收到一待识别短信时,调用在所述客户端预先构建的字典库,其中,所述字典库中的特征词的长度包含一个或多个字符;将所述待识别短信的文本内容与所述字典库中的特征词进行匹配,确定所述待识别短信的包含相应特征词的多个分词;根据所述多个分词对所述待识别短信进行打分,得到所述待识别短信的打分值;根据所述待识别短信的打分值识别出所述待识别短信的类别。本发明实施例能够通过待识别短信的打分值识别该短信的类别,从而解决了现有技术中通过人工查看并标记而存在的费时费力、效率较低的问题。

    用于搜索结果的语义目录

    公开(公告)号:CN102725759B

    公开(公告)日:2015-11-25

    申请号:CN201180008423.2

    申请日:2011-01-19

    IPC分类号: G06F17/30

    CPC分类号: G06F16/338 G06F16/353

    摘要: 通过将语义概念识别为主题以包括在目录中为响应于搜索查询的搜索结果生成目录。当接收到搜索查询时,执行搜索以识别搜索结果。将搜索结果与主题的本体进行比较以识别相关的主题。另外,将搜索结果与部分主题的本体进行比较以识别被命名的相关部分主题。进一步根据搜索结果生成独立关键短语,并将独立关键短语识别为关键短语主题。对识别出的主题、被命名的部分主题以及关键短语主题进行排名,并且选择主题以包括在目录中。响应于搜索查询,返回包含搜索结果和生成的目录的搜索结果页面。

    基于CHI特征选取的文本事件分类方法

    公开(公告)号:CN104965867A

    公开(公告)日:2015-10-07

    申请号:CN201510310162.X

    申请日:2015-06-08

    IPC分类号: G06F17/30

    CPC分类号: G06F16/36 G06F16/353

    摘要: 本发明公开了一种基于CHI特征选取的文本事件分类方法,包括针对训练语料的分类模型训练过程和文本分类过程。该方法通过分析中文文本事件的语言描述特征,选取CHI值作为主题特征向量,针对选取的训练语料形成特征文件和训练模版,最终实现文本事件信息的分类。其中,模型训练过程包括以下步骤:(1)文本训练语料选取;(2)文本语料预处理;(3)类别特征选取,生成特征文件集合;(4)文本特征向量生成及归一化处理,生成特征向量文件;(5)SVM模型训练。文本分类过程与模型训练过程类似。本发明采用的方法可广泛地应用于中文文本数据挖掘的识别、分类、解析与监测过程,能够有效提升中文文本自然语言处理的解析效率与解析精度。

    一种事件分类方法及装置
    69.
    发明公开

    公开(公告)号:CN104462229A

    公开(公告)日:2015-03-25

    申请号:CN201410640920.X

    申请日:2014-11-13

    申请人: 苏州大学

    IPC分类号: G06F17/30 G06F17/28

    CPC分类号: G06F16/353 G06F17/289

    摘要: 本申请公开了一种事件分类方法及装置,对原始语料进行翻译获取翻译样本,将所述翻译样本的词特征与单语特征相加获得双语样本;所述单语特征包括词特征、触发词、所述触发词的词性和所述触发词的上下文特征;将所述双语样本作为训练样本,构建分类器;最后,利用所述分类器对待分类事件进行分类。基于上述方法和装置,使用翻译样本与单语特征的综合信息判断事件类型,可以在一定程度上避免数据稀疏的问题。