-
公开(公告)号:CN105843889A
公开(公告)日:2016-08-10
申请号:CN201610164635.4
申请日:2016-03-21
申请人: 华南师范大学
发明人: 朱定局
IPC分类号: G06F17/30
CPC分类号: G06F16/374 , G06F16/353
摘要: 本发明涉及一种数据采集方法和系统,其方法包括:获取采集条件,根据采集条件获取多个目标数据;根据预设特征匹配度对目标数据进行分类,得到数据群体;分别获取对应各目标数据的个体可信度,并根据个体可信度获取数据群体的群体可信度;判断群体可信度是否大于或等于预设值;若是,采集数据群体中对应的目标数据存入目标数据库或大数据存储库。如此,根据群体可信度和预设值对目标数据组成的数据群体进行筛选,当群体可信度大于或等于预设值时才采集对应的目标数据,避免采集到不可靠的数据,提高数据采集的正确率。
-
公开(公告)号:CN105701221A
公开(公告)日:2016-06-22
申请号:CN201610024723.4
申请日:2016-01-15
申请人: 陈杰
发明人: 陈杰
IPC分类号: G06F17/30
CPC分类号: G06F16/353
摘要: 本发明一种分级映射各种同义但不同标准的术语的方法,包括将需要映射的临床术语进行拆分,命名为不同的类别;基于拆分的不同类别,分析各种可能的映射结果,将不同的结果进行分类,按智能系统精确或模糊的映射程度,设置为不同的映射等级;根据不同的映射级别,有选择有针对性的进行人工介入处理,将较低映射等级的数据进行审核提升工作。
-
公开(公告)号:CN103366013B
公开(公告)日:2016-03-02
申请号:CN201310323837.5
申请日:2013-07-29
申请人: 腾讯科技(深圳)有限公司
发明人: 赵雪雅
IPC分类号: G06F17/30
CPC分类号: G06F16/907 , G06F16/353
摘要: 本发明公开了一种数据处理的方法,包括:根据每个软件数据包中预先记录的映射词,将所述每个软件数据包分级后并归类;将同一级别中不同类别的软件数据包,按照不同类别的所述映射词出现的频率进行排序;对排序后的同一类别中的软件数据包,按照所述同一类别中的软件数据包的质量系数进行排序,并将按照所述质量系数排序后的结果推送到用户端供所述用户端显示。本发明实施例提供的方法,服务器在将软件数据包按照级别和类别排序后,向用户端推送排序后的结果,可以使用户根据排序后的结果快速查找到需要的软件,从而提高了用户在海量软件中选择需要的软件的效率。
-
公开(公告)号:CN105339936A
公开(公告)日:2016-02-17
申请号:CN201480034989.6
申请日:2014-05-15
申请人: 国立研究开发法人情报通信研究机构
IPC分类号: G06F17/30
CPC分类号: G06F16/3344 , G06F16/3329 , G06F16/353 , G06F17/271 , G06N5/04 , G06N20/00
摘要: 本发明提供可靠性高地自动收集属于某归类的信息并合适且及时地进行匹配的系统。文本分类装置(30)用词素解析部(52)和依赖被依赖解析部(54)对收集的文本的依赖被依赖进行解析。问题报告收集装置(64)基于文本的依赖被依赖关系确定文本中的由名词+谓语构成的核,使用名词的分类(负面系/非负面系)和谓语的分类(活性/非活性)的组合以称作核结构矩阵的手法将文本分类为问题报告和除此以外的部分。支援信息收集装置(66)、需求联络收集装置(68)也同样收集支援信息、需求联络。匹配装置(76)将合适的支援信息(问题信息)相对于用称作共现核矩阵的手法使由问题报告收集装置(64)以及支援信息收集装置(66)收集的问题报告以及支援信息匹配而得到的问题信息(支援信息)建立关联。
-
公开(公告)号:CN105243094A
公开(公告)日:2016-01-13
申请号:CN201510577403.7
申请日:2015-09-11
申请人: 苏州大学张家港工业技术研究院
IPC分类号: G06F17/30
CPC分类号: G06F16/353
摘要: 本发明提供一种基于微博文本和个人信息的用户职业分类方法及系统,所述方法包括以下步骤。收集指定数量第一用户的微博文本和个人信息,并根据第一用户的个人信息获得其职业类型,并将所述第一用户的个人信息作为第一训练样本。根据第一用户的职业类型字段,对第一用户的微博文本和个人信息进行标注,并将标注好的微博文本和个人信息进行分词处理后作为第二训练样本。利用所述第一训练样本及第二训练样本分别构建第一最大熵分类器及第二最大熵分类器,并利用所述第一最大熵分类器及第二最大熵分类器对第二用户进行分类并融合,并根据融合结果确定所述第二用户职业类型。如此,有效提高微博用户职业分类的准确率。
-
公开(公告)号:CN105138611A
公开(公告)日:2015-12-09
申请号:CN201510484715.3
申请日:2015-08-07
申请人: 北京奇虎科技有限公司 , 奇智软件(北京)有限公司
IPC分类号: G06F17/30
CPC分类号: G06F16/353
摘要: 本发明提供了一种短信类别识别方法及装置。该方法包括:当接收到一待识别短信时,调用在所述客户端预先构建的字典库,其中,所述字典库中的特征词的长度包含一个或多个字符;将所述待识别短信的文本内容与所述字典库中的特征词进行匹配,确定所述待识别短信的包含相应特征词的多个分词;根据所述多个分词对所述待识别短信进行打分,得到所述待识别短信的打分值;根据所述待识别短信的打分值识别出所述待识别短信的类别。本发明实施例能够通过待识别短信的打分值识别该短信的类别,从而解决了现有技术中通过人工查看并标记而存在的费时费力、效率较低的问题。
-
公开(公告)号:CN102725759B
公开(公告)日:2015-11-25
申请号:CN201180008423.2
申请日:2011-01-19
申请人: 微软技术许可有限责任公司
IPC分类号: G06F17/30
CPC分类号: G06F16/338 , G06F16/353
摘要: 通过将语义概念识别为主题以包括在目录中为响应于搜索查询的搜索结果生成目录。当接收到搜索查询时,执行搜索以识别搜索结果。将搜索结果与主题的本体进行比较以识别相关的主题。另外,将搜索结果与部分主题的本体进行比较以识别被命名的相关部分主题。进一步根据搜索结果生成独立关键短语,并将独立关键短语识别为关键短语主题。对识别出的主题、被命名的部分主题以及关键短语主题进行排名,并且选择主题以包括在目录中。响应于搜索查询,返回包含搜索结果和生成的目录的搜索结果页面。
-
公开(公告)号:CN104965867A
公开(公告)日:2015-10-07
申请号:CN201510310162.X
申请日:2015-06-08
申请人: 南京师范大学
IPC分类号: G06F17/30
CPC分类号: G06F16/36 , G06F16/353
摘要: 本发明公开了一种基于CHI特征选取的文本事件分类方法,包括针对训练语料的分类模型训练过程和文本分类过程。该方法通过分析中文文本事件的语言描述特征,选取CHI值作为主题特征向量,针对选取的训练语料形成特征文件和训练模版,最终实现文本事件信息的分类。其中,模型训练过程包括以下步骤:(1)文本训练语料选取;(2)文本语料预处理;(3)类别特征选取,生成特征文件集合;(4)文本特征向量生成及归一化处理,生成特征向量文件;(5)SVM模型训练。文本分类过程与模型训练过程类似。本发明采用的方法可广泛地应用于中文文本数据挖掘的识别、分类、解析与监测过程,能够有效提升中文文本自然语言处理的解析效率与解析精度。
-
公开(公告)号:CN104462229A
公开(公告)日:2015-03-25
申请号:CN201410640920.X
申请日:2014-11-13
申请人: 苏州大学
CPC分类号: G06F16/353 , G06F17/289
摘要: 本申请公开了一种事件分类方法及装置,对原始语料进行翻译获取翻译样本,将所述翻译样本的词特征与单语特征相加获得双语样本;所述单语特征包括词特征、触发词、所述触发词的词性和所述触发词的上下文特征;将所述双语样本作为训练样本,构建分类器;最后,利用所述分类器对待分类事件进行分类。基于上述方法和装置,使用翻译样本与单语特征的综合信息判断事件类型,可以在一定程度上避免数据稀疏的问题。
-
公开(公告)号:CN104035997A
公开(公告)日:2014-09-10
申请号:CN201410260379.X
申请日:2014-06-13
申请人: 淮阴工学院
IPC分类号: G06F17/30
CPC分类号: G06F16/958 , G06F16/313 , G06F16/353 , G06F16/951 , G06K9/00442
摘要: 本发明公开了一种基于文本分类和图像深度挖掘的科技情报获取与推送方法,其特征在于:根据用户的定制,获取用户关注的科技领域的关键词,利用Python语言编写网络爬虫,通过HTTP协议获取网页中与用户关注的科技领域的关键词相关的论文、新闻、专利,利用支持向量机分类算法在Weka平台上对获取的网页科技情报内容进行分类,并使用分割线算法对科技情报内容文档中图像的信息进行提取并保存,最终通过微信公众号对获取的科技情报内容数据进行推送。
-
-
-
-
-
-
-
-
-