-
公开(公告)号:CN104134017B
公开(公告)日:2017-01-25
申请号:CN201410344712.5
申请日:2014-07-18
Applicant: 华南理工大学
IPC: G06F19/18
Abstract: 本发明公开了一种基于紧凑特征表示的蛋白质作用关系对抽取方法,包括以下步骤:1)选取所需的语料,语料是以句子为单位,已经有了蛋白质实体的标注及实体关系的标注;2)舍弃步骤1)中不包含蛋白质实体或只包含一个蛋白质实体的句子,得到句子集合sen_set;3)用占位符替换句子中相应的蛋白质实体并进行占位符融合,再进行词性标注和句法分析;4)以每个实体对为单位,获取词、词性、句法和模板的特征;5)对步骤4)中获得的特征进行紧凑化表达的操作;6)利用支持向量机对从步骤4)得到的特征进行训练或者利用已训练的模型进行预测。与传统的基于特征实体关系对抽取方法相比,本发明尽最大努力利用句子中可利用的信息,极大地丰富了特征向量的信息量。
-
公开(公告)号:CN103559333A
公开(公告)日:2014-02-05
申请号:CN201310477025.6
申请日:2013-10-12
Applicant: 华南理工大学
IPC: G06F17/50
Abstract: 本发明公开了一种基于日志的生物基因测序的任务模型构建方法,首先分析并提取生物基因测序日志中任务在提交时间上具有的工作日周期性和节假日周期特性;任务并行度在分布上具有的重尾分布特征,任务并行度同任务运行时间之间的重尾分布特征;任务队列的队列使用率存在指数分布,正态分布,伽马分布,二项分布特征,同时队列使用率同队列的日任务到达数的期望值之间存在非线性关系的特征。本发明模拟了任务提交时间上的工作日周期性以及节假日周期性;然后生成了任务的并行度和任务的运行时间;最后到达数的期望之间存在的关系生成了任务的队列号。最终构建的任务模型可以用于更好地分析生物基因测序技术的优缺点,优化高性能环境的资源利用率。
-
公开(公告)号:CN101950300A
公开(公告)日:2011-01-19
申请号:CN201010290008.8
申请日:2010-09-20
Applicant: 华南理工大学 , 广州数园网络有限公司
IPC: G06F17/30
Abstract: 本发明公开了一种应用于分布式搜索引擎的分层结构,包括物理层、抽象层、应用层和表示层;本发明还公开了一种分布式搜索引擎系统,包括Web服务器、代理节点、查询代理池、抽象适配器和多个工作节点,所述查询代理池由多个查询节点组成;本发明还公开了上述一种分布式搜索引擎系统的实现方法,包括以下步骤:S1、查询节点注册;S2、工作节点的注册;S3、节点的状态更新;S4、查询请求的分发与检索。本发明具有性能好、可靠性高、多样化、专业化以及适用性强等优点。
-
公开(公告)号:CN104134017A
公开(公告)日:2014-11-05
申请号:CN201410344712.5
申请日:2014-07-18
Applicant: 华南理工大学
IPC: G06F19/18
Abstract: 本发明公开了一种基于紧凑特征表示的蛋白质作用关系对抽取方法,包括以下步骤:1)选取所需的语料,语料是以句子为单位,已经有了蛋白质实体的标注及实体关系的标注;2)舍弃步骤1)中不包含蛋白质实体或只包含一个蛋白质实体的句子,得到句子集合sen_set;3)用占位符替换句子中相应的蛋白质实体并进行占位符融合,再进行词性标注和句法分析;4)以每个实体对为单位,获取词、词性、句法和模板的特征;5)对步骤4)中获得的特征进行紧凑化表达的操作;6)利用支持向量机对从步骤4)得到的特征进行训练或者利用已训练的模型进行预测。与传统的基于特征实体关系对抽取方法相比,本发明尽最大努力利用句子中可利用的信息,极大地丰富了特征向量的信息量。
-
公开(公告)号:CN103559333B
公开(公告)日:2016-06-22
申请号:CN201310477025.6
申请日:2013-10-12
Applicant: 华南理工大学
IPC: G06F17/50
Abstract: 本发明公开了一种基于日志的生物基因测序的任务模型构建方法,首先分析并提取生物基因测序日志中任务在提交时间上具有的工作日周期性和节假日周期特性;任务并行度在分布上具有的重尾分布特征,任务并行度同任务运行时间之间的重尾分布特征;任务队列的队列使用率存在指数分布,正态分布,伽马分布,二项分布特征,同时队列使用率同队列的日任务到达数的期望值之间存在非线性关系的特征。本发明模拟了任务提交时间上的工作日周期性以及节假日周期性;然后生成了任务的并行度和任务的运行时间;最后到达数的期望之间存在的关系生成了任务的队列号。最终构建的任务模型可以用于更好地分析生物基因测序技术的优缺点,优化高性能环境的资源利用率。
-
公开(公告)号:CN102081642A
公开(公告)日:2011-06-01
申请号:CN201010527341.6
申请日:2010-10-28
Applicant: 华南理工大学 , 广州数园网络有限公司
IPC: G06F17/30
Abstract: 本发明公开了一种搜索引擎检索结果聚类的中文标签提取方法,包括以下步骤:S1、用户输入查询词,形成输入文档;S2、选取候选词,对所有候选词评分;S3、判断是否存在未作标记的候选词,若否,则跳转到步骤S8;若是,则选出得分最高的候选词;把这个选中的候选词拓展成为包含该词的有序词序列的集合,进入步骤S4;S4、计算各个有序词序列的频率,抽取高频词序列;S5、对高频词序列评分,并选取候选词序列;S6、判断选词序列是否被接受为标签,若是,则进入步骤S7;若否,则返回步骤S3;S7、根据生成的标签进行聚类;S8、结束操作。本发明可以减少噪音标签,使标签具有更好的代表性、简明性和完整性。
-
公开(公告)号:CN104090931A
公开(公告)日:2014-10-08
申请号:CN201410290459.X
申请日:2014-06-25
Applicant: 华南理工大学
IPC: G06F17/30
CPC classification number: G06F17/30864 , G06F17/30705 , G06F17/30876 , G06F17/30882
Abstract: 本发明公开了一种基于网页链接参数分析的信息预测采集方法,包括以下顺序的步骤:计算网页链接的参数特征统计信息,计算网页所包含外部链接的分布信息,根据网页的外部链接分布特征对网页进行分类,网页资源的抽样预测,预测样本的采集测试,网页资源的总体预测。本发明的方法,有效地补充了传统采集信息方式的不足,扩展了待采集链接资源的数量,利用已知的网页资源特征预测到了大量未采集的网页资源,提高了采集网页信息的覆盖率。
-
公开(公告)号:CN101944109B
公开(公告)日:2012-06-27
申请号:CN201010275844.9
申请日:2010-09-06
Applicant: 华南理工大学 , 广州数园网络有限公司
IPC: G06F17/30
Abstract: 本发明公开了一种基于页面分块的图片摘要提取系统,包括页面预处理模块、页面分类模块、页面分块模块、主题块识别模块和信息提取模块。本发明还公开了一种基于页面分块的图片摘要提取方法,具体包括:步骤S1、从Internet上把页面抓取下来;步骤S2、页面预处理模块对页面进行预处理;步骤S3、页面分类模块对预处理后的页面分类;步骤S4、页面分块模块进行语义块划分;步骤S5、页面分块模块将主题型页面发送到主题块识别模块,主题块识别模块识别出主题块,并发送给信息提取模块;页面分块模块将非主题型页面发送到信息提取模块;步骤S6、信息提取模块下载图片并与页面关联。本发明具有提取速度快、准确度高、效果好的优点。
-
公开(公告)号:CN101950300B
公开(公告)日:2013-07-24
申请号:CN201010290008.8
申请日:2010-09-20
Applicant: 华南理工大学 , 广州数园网络有限公司
IPC: G06F17/30
Abstract: 本发明公开了一种分布式搜索引擎系统,包括Web服务器、代理节点、查询代理池、抽象适配器和多个工作节点,所述查询代理池由多个查询节点组成;本发明还公开了上述一种分布式搜索引擎系统的实现方法,包括以下步骤:S1、查询节点注册;S2、工作节点的注册;S3、节点的状态更新;S4、查询请求的分发与检索。本发明具有性能好、可靠性高、多样化、专业化以及适用性强等优点。
-
公开(公告)号:CN101944109A
公开(公告)日:2011-01-12
申请号:CN201010275844.9
申请日:2010-09-06
Applicant: 华南理工大学 , 广州数园网络有限公司
IPC: G06F17/30
Abstract: 本发明公开了一种基于页面分块的图片摘要提取系统,包括页面预处理模块、页面分类模块、页面分块模块、主题块识别模块和信息提取模块。本发明还公开了一种基于页面分块的图片摘要提取方法,具体包括:步骤S1、从Internet上把页面抓取下来;步骤S2、页面预处理模块对页面进行预处理;步骤S3、页面分类模块对预处理后的页面分类;步骤S4、页面分块模块进行语义块划分;步骤S5、页面分块模块将主题型页面发送到主题块识别模块,主题块识别模块识别出主题块,并发送给信息提取模块;页面分块模块将非主题型页面发送到信息提取模块;步骤S6、信息提取模块下载图片并与页面关联。本发明具有提取速度快、准确度高、效果好的优点。
-
-
-
-
-
-
-
-
-