一种关键词的多样化拓展方法

    公开(公告)号:CN103744956B

    公开(公告)日:2017-01-04

    申请号:CN201410004563.8

    申请日:2014-01-06

    Applicant: 同济大学

    Abstract: 本发明涉及一种辅助网络信息搜索的方法,实现关键词的多样化拓展。可以被嵌入应用到多种web信息服务系统中。方法基于一种简单的网页预处理及组织机制。能够依据用户不同的需求,得到关键词的在不同范围的多样化扩展词语集合;依据互联网络上面的超链接,构建基于网页分类的索引网络;基于构建好的索引网络,实现关键词的多样化扩展;即使用户以前没有查询过这个关键词或者这个领域,扩展仍然能够推荐出用户最有可能的查询语义。

    一种基于分布式计算的网页分类方法

    公开(公告)号:CN103744958B

    公开(公告)日:2016-10-19

    申请号:CN201410004646.7

    申请日:2014-01-06

    Applicant: 同济大学

    Abstract: 本发明涉及一种基于分布式计算的网页分类算法,包括步骤如下:步骤一,分类模型的建立;(1)网页预处理;(2)特征词关联信息;(3)特征词位置信息;步骤二,网页分类过程;1)网页预处理;(2)计算网页归属类别;(3)动态词库;本发明基于分布式计算的分类算法可以应对现实网络中呈指数级增长的网络信息,而同时也保证了随着分布式系统中的集群的数量的增加,信息处理的速度也会有显著地提高,因此基于分布式的网页分类算法具有很大的应用前景。

    一种关键词的多样化拓展方法

    公开(公告)号:CN103744956A

    公开(公告)日:2014-04-23

    申请号:CN201410004563.8

    申请日:2014-01-06

    Applicant: 同济大学

    CPC classification number: G06F17/30864

    Abstract: 本发明涉及一种辅助网络信息搜索的方法,实现关键词的多样化拓展。可以被嵌入应用到多种web信息服务系统中。方法基于一种简单的网页预处理及组织机制。能够依据用户不同的需求,得到关键词的在不同范围的多样化扩展词语集合;依据互联网络上面的超链接,构建基于网页分类的索引网络;基于构建好的索引网络,实现关键词的多样化扩展;即使用户以前没有查询过这个关键词或者这个领域,扩展仍然能够推荐出用户最有可能的查询语义。

    一种词关联网模型的构建方法及其构建器

    公开(公告)号:CN103744954A

    公开(公告)日:2014-04-23

    申请号:CN201410003874.2

    申请日:2014-01-06

    Applicant: 同济大学

    CPC classification number: G06F17/30705

    Abstract: 本发明涉及一种词关联度网络模型的构建方法及其构建器,包括如下步骤:1)在预处理时,整个爬虫网页信息的过程为递归进行;2)将抽取的文本内容作为分词模块的输入;3)获得的TF-IDF值作为类代表性,同时过滤常用词;4)计算每篇文章中每两个词之间的词关联度权重;5)对文本资料库中的每两个词的词元关联度做均值计算。构建器包括五个功能模块:爬虫模块;HTML解析模块;正文文本分词模块;TF-IDF模块;词关联网构建模块;本发明可以对用户需求进行分析,挖掘潜在的信息服务,提供智能交互服务,为用户提供进一步的信息服务。

    云边协同环境下的数据分存方法、系统、介质及终端

    公开(公告)号:CN112926262A

    公开(公告)日:2021-06-08

    申请号:CN202110190341.X

    申请日:2021-02-18

    Applicant: 同济大学

    Abstract: 本发明提供一种云边协同环境下的数据分存方法、系统、介质及终端;所述方法包括以下步骤:建立与用户操作数据对象相关的数学模型;对数学模型中存在的多个可行的分存方案,指定基本可用性评价策略,以确定分存策略的基本可用性;对数学模型中存在的多个可行的分存方案,定义强弱可用性和强弱时延性,以衡量不同用户需求下分存策略的情况;将云边服务商和数据对象信息作为输入,利用改进的NSGA‑II算法进行多目标优化并进行分存策略的制定;本发明具有增加可用性和降低隐私泄露风险的优势;优化可用性,响应延迟和成本;为不同区域的用户访问数据提供合理的存储策略,大量的实验证明了该方法的有效性。

    一种基于蚁群算法的网页类特征向量提取方法

    公开(公告)号:CN103744959B

    公开(公告)日:2017-01-25

    申请号:CN201410004815.7

    申请日:2014-01-06

    Applicant: 同济大学

    Abstract: 本发明涉及一种利用改进的蚁群算法提取特征词,具体过程:在预处理时,将所有信息存取到hash表中,其中coco_prepare存取每篇文章的信息,包括文章的id和每个词及其出现的次数;readhdfs_prepare存取每个类的训练集的统计信息,包括每个词的词频,文档数,和类名共现的次数;设置蚁群算法的参数:蚂蚁个数M;迭代次数N;蚂蚁走的步数即特征词个数K;初始化路径信息素矩阵adMatrixs;局部更新衰减速率p1和全局更新衰减速率p2;蚂蚁释放信息素量m;本发明首次引入蚁群算法解决在没有准确样本集的情况下为类提取准确的特征向量的问题。

    基于网页分类的索引网络构建方法及其索引网构建器

    公开(公告)号:CN102968466B

    公开(公告)日:2016-05-18

    申请号:CN201210445658.4

    申请日:2012-11-09

    Applicant: 同济大学

    Abstract: 本发明涉及基于网页分类的索引网络构建方法及其索引网构建器。索引网构建器主要根据系统中的网页类,构建服务的索引网络。利用已经分类过的网页及网页的超链接,在网页类上构建一个完整的索引网。利用此索引网,可以挖掘出一个网页类与其他网页类的潜在关系,对于整个互联网中的网页给出一种索引网的组织管理方式,利用索引网可以根据用户提出的需求而给出一整套完整的服务方案。索引网模型对互联网中的海量网页给出了一个组织管理的方式,能够达成索引网模型对于互联网中网页的组织管理的要求,为网络信息服务系统实现奠定基础。

    网页类特征向量的构建方法及其构建器

    公开(公告)号:CN102982114A

    公开(公告)日:2013-03-20

    申请号:CN201210445795.8

    申请日:2012-11-09

    Applicant: 同济大学

    Abstract: 本发明的网页类特征向量的构建是通过分析网页类的类名以及网页类的特性,来构建出一个能够反映出网页类本质的词组。通过分析用户给定的标准网页,或者通过用户给定的标准类名,构建出一个网页类的特征向量。如果用户未给定标准网页,或者用户给定的标准网页不够多,则将用户给定网页类名交由特征向量扩展器,扩展成一个特征向量。本发明首次在网页分类中提出了特征向量的概念,本发明提出了一个能将用户主观意识与客观世界中对网页类的理解融合在一起的网页类特征向量的构建方法。本发明网页类特征向量的构建方法能更好的为网页分类提供服务,为网络信息服务系统实现奠定基础。

    基于PN机模型的业务流网分解方法、系统、设备及介质

    公开(公告)号:CN113986508B

    公开(公告)日:2024-06-18

    申请号:CN202111282943.4

    申请日:2021-11-01

    Applicant: 同济大学

    Abstract: 本发明提供一种基于PN机模型的业务流网分解方法、系统、设备及介质,分解方法包括:构建一业务流网的PN模型,并将所述PN模型中所有变迁放置于未分解子网的变迁集合中;所述变迁为PN模型的数据处理状态;每一变迁都设置有表示层号和每一层内遍号的下标;从所述未分解子网的变迁集合中选取下标最小的变迁作为初始变迁,以未分解子网的变迁集合的变迁作为当前变迁,通过同步处理当前变迁的前置和后置,查找当前变迁的前置和后置之间的相关性,以构建并发执行的业务子网。本发明可以将一个复杂的大业务处理网络分解成可以并发执行的多个简单的业务子网,在最大限度提高并发能力同时,降低业务处理子网间的耦合性。

    互联网新型虚拟数据中心系统及其构造方法

    公开(公告)号:CN110781430B

    公开(公告)日:2022-03-25

    申请号:CN201910926698.2

    申请日:2019-09-27

    Applicant: 同济大学

    Abstract: 本发明提供一种互联网新型虚拟数据中心系统及其构造方法,互联网新型虚拟数据中心系统包括:互联网数据勘探器,用于对互联网数据进行采样及估算,以生成数据资源分布图;数据资源分布图用于反映互联网数据的属性信息;互联网虚拟资源库,用于存储数据资源分布图及互联网数据勘探器采集的样本数据;数据资源分布图管理模块,用于管理数据资源分布图;数据资源制导服务模块,用于根据数据资源分布图为数据需求方生成并提供数据采集及挖掘的指导服务。本发明核心是构造互联网数据勘探器和数据资源分布图,向数据中心等数据需求方提供互联网数据的分布情况。本发明克服了现有数据中心的大数据采集与开发利用的盲目性和无序性,避免了资源与能源浪费。

Patent Agency Ranking