-
公开(公告)号:CN102999569B
公开(公告)日:2015-08-19
申请号:CN201210445804.3
申请日:2012-11-09
Applicant: 同济大学
IPC: G06F17/30
Abstract: 一种用户需求分析定位器和分析及定位方法,其用户需求分析及定位器可以分为两个模块:1用户需求分析模块。2用户需求定位模块。用户需求分析模块的主要功能为:理解用户输入的信息。用户需求定位模块的主要功能为:将用户的输入信息定位到网络信息服务系统中的基础类中,每个类中都包含有和该类相关的网页。用户需求分析及定位器主要是根据用户在输入一个检索需求之后,能够根据用户的检索需求,分析用户需求,充分挖掘用户需求中包含的信息。然后根据挖据的信息与网络信息服务系统已经建立好的索引网络进行匹配,选择一个能够最大限度反应用户需求的类来完成需求的定位。
-
公开(公告)号:CN103744959A
公开(公告)日:2014-04-23
申请号:CN201410004815.7
申请日:2014-01-06
Applicant: 同济大学
IPC: G06F17/30
CPC classification number: G06F17/30705 , G06N3/00
Abstract: 本发明涉及一种利用改进的蚁群算法提取特征词,具体过程:在预处理时,将所有信息存取到hash表中,其中coco_prepare存取每篇文章的信息,包括文章的id和每个词及其出现的次数;readhdfs_prepare存取每个类的训练集的统计信息,包括每个词的词频,文档数,和类名共现的次数;设置蚁群算法的参数:蚂蚁个数M;迭代次数N;蚂蚁走的步数即特征词个数K;初始化路径信息素矩阵adMatrixs;局部更新衰减速率p1和全局更新衰减速率p2;蚂蚁释放信息素量m;本发明首次引入蚁群算法解决在没有准确样本集的情况下为类提取准确的特征向量的问题。
-
公开(公告)号:CN103744958A
公开(公告)日:2014-04-23
申请号:CN201410004646.7
申请日:2014-01-06
Applicant: 同济大学
CPC classification number: G06F17/30707 , G06F17/30666
Abstract: 本发明涉及一种基于分布式计算的网页分类算法,包括步骤如下:步骤一,分类模型的建立;(1)网页预处理;(2)特征词关联信息;(3)特征词位置信息;步骤二,网页分类过程;1)网页预处理;(2)计算网页归属类别;(3)动态词库;本发明基于分布式计算的分类算法可以应对现实网络中呈指数级增长的网络信息,而同时也保证了随着分布式系统中的集群的数量的增加,信息处理的速度也会有显著地提高,因此基于分布式的网页分类算法具有很大的应用前景。
-
公开(公告)号:CN103714176A
公开(公告)日:2014-04-09
申请号:CN201410007832.6
申请日:2014-01-08
Applicant: 同济大学
IPC: G06F17/30
CPC classification number: G06F17/30896
Abstract: 本发明涉及一种基于最大文本密度的网页正文提取方法,其具体步骤如下:步骤一、网页预处理:处理字符编码、网页规范化;步骤二、将网页解析成一棵DOM树,并根据特定标签,将网页中的“标签文本块”抽取出来;步骤三,计算最大文本密度;步骤四,抽取正文;待所有标签文本块都处理完毕后,按照计算出的文本密度进行排序,选取文本密度值最大的标签,此标签及其嵌套的子标签的内容即是正文文本块,去标签之后得到正文文本。本发明是基于统计的使用最大文本密度的网页正文提取算法,其算法复杂度低,具有普适性,而且对于结构复杂的网页也有不错的效果。
-
公开(公告)号:CN103678710A
公开(公告)日:2014-03-26
申请号:CN201310747338.9
申请日:2013-12-31
Applicant: 同济大学
IPC: G06F17/30
CPC classification number: G06F17/30867 , G06F17/30702
Abstract: 本发明涉及一种基于用户行为的信息推荐方法,方法步骤为:步骤(1)数据来源;通过网络爬虫爬取了网络上的网页信息,并使用最大块密度算法抽取了网页中的正文,使用IKAnalyzer进行分词,使用聚类算法将词进行聚类,最终通过多个类形成了一个索引网;步骤(2)用户行为处理:系统会自动为用户分配一个唯一的用户号;会自动记录用户的搜索内容和与搜索结果的交互情况下来并存入;步骤(3)进行推荐:以现有数据为基础,用基于内容推荐的算法为用户推荐。本发明添加相应的推荐算法,为用户推荐感兴趣的信息供用户进行选择,并在一定程度上影响搜索结果的排名,使得排名更符合不同用户的兴趣。
-
公开(公告)号:CN102999569A
公开(公告)日:2013-03-27
申请号:CN201210445804.3
申请日:2012-11-09
Applicant: 同济大学
IPC: G06F17/30
Abstract: 一种用户需求分析定位器和分析及定位方法,其用户需求分析及定位器可以分为两个模块:1用户需求分析模块。2用户需求定位模块。用户需求分析模块的主要功能为:理解用户输入的信息。用户需求定位模块的主要功能为:将用户的输入信息定位到网络信息服务系统中的基础类中,每个类中都包含有和该类相关的网页。用户需求分析及定位器主要是根据用户在输入一个检索需求之后,能够根据用户的检索需求,分析用户需求,充分挖掘用户需求中包含的信息。然后根据挖据的信息与网络信息服务系统已经建立好的索引网络进行匹配,选择一个能够最大限度反应用户需求的类来完成需求的定位。
-
公开(公告)号:CN110781430A
公开(公告)日:2020-02-11
申请号:CN201910926698.2
申请日:2019-09-27
Applicant: 同济大学
IPC: G06F16/958 , G06K9/62
Abstract: 本发明提供一种互联网新型虚拟数据中心系统及其构造方法,互联网新型虚拟数据中心系统包括:互联网数据勘探器,用于对互联网数据进行采样及估算,以生成数据资源分布图;数据资源分布图用于反映互联网数据的属性信息;互联网虚拟资源库,用于存储数据资源分布图及互联网数据勘探器采集的样本数据;数据资源分布图管理模块,用于管理数据资源分布图;数据资源制导服务模块,用于根据数据资源分布图为数据需求方生成并提供数据采集及挖掘的指导服务。本发明核心是构造互联网数据勘探器和数据资源分布图,向数据中心等数据需求方提供互联网数据的分布情况。本发明克服了现有数据中心的大数据采集与开发利用的盲目性和无序性,避免了资源与能源浪费。
-
公开(公告)号:CN107239439A
公开(公告)日:2017-10-10
申请号:CN201710259721.8
申请日:2017-04-19
Applicant: 同济大学
CPC classification number: G06F17/277 , G06F17/2775 , G06F17/30666 , G06F17/30684
Abstract: 本发明提供一种基于word2vec的舆情倾向性分析方法,包括向量训练阶段、关键句提取阶段和倾向性判别阶段,通过提取新闻关键句缩小判别的特征空间,保留与原文主题相关性较大的内容,剔除无用信息,提高舆情倾向性分析的准确率;将深度学习模型word2vec引入舆情倾向性分析,用于比较词与词之间的语义相似度,并通过词向量来比较语义相似度,能较好识别出具有相同情感倾向但不在情感词典中的词语,即使情感词典不够完备也能获得一个较好的分析效果,同时,融合语法规则对关键句的情感倾向性进行加权计算,结合上下文信息,弥补单纯使用词义相似度的局限性,从句子整体分析倾向性,实现了对篇章级的新闻文本的情感倾向性以及情感强度的准确判别。
-
公开(公告)号:CN103744954B
公开(公告)日:2017-02-01
申请号:CN201410003874.2
申请日:2014-01-06
Applicant: 同济大学
IPC: G06F17/30
Abstract: 本发明涉及一种词关联度网络模型的构建方法及其构建器,包括如下步骤:1)在预处理时,整个爬虫网页信息的过程为递归进行;2)将抽取的文本内容作为分词模块的输入;3)获得的TF-IDF值作为类代表性,同时过滤常用词;4)计算每篇文章中每两个词之间的词关联度权重;5)对文本资料库中的每两个词的词元关联度做均值计算。构建器包括五个功能模块:爬虫模块;HTML解析模块;正文文本分词模块;TF-IDF模块;词关联网构建模块;本发明可以对用户需求进行分析,挖掘潜在的信息服务,提供智能交互服务,为用户提供进一步的信息服务。
-
公开(公告)号:CN103870329B
公开(公告)日:2017-01-18
申请号:CN201410073829.4
申请日:2014-03-03
Applicant: 同济大学
Abstract: 一种基于加权轮叫算法的分布式爬虫任务调度方法,包括1)根据规模不同,将网络爬虫分为单机多线程、同构集中式、异构集中式、小型分布式和大型分布式五类爬虫;2)主从式架构部署,3)当爬虫节点第一次连接到主控节点时,主控节点给予它初始权值;4)主控节点根据基于加权轮叫的调度算法,不断选择出一个爬虫节点,将一个待爬取的URL任务分配给它;5)每当爬虫节点爬取完一个URL任务时,将结果返回给主控节点,主控节点更新该爬虫节点的权值;等等。本发明提出的基于加权轮叫算法的分布式爬虫调度策略,是针对小型分布式爬虫而进行设计的,能够使各爬虫节点负载平衡,并使爬虫节点拥有灵活的可扩展性及容错性。
-
-
-
-
-
-
-
-
-