一种面向行业元数据注册和分布式检索系统及方法

    公开(公告)号:CN106528612A

    公开(公告)日:2017-03-22

    申请号:CN201610865130.0

    申请日:2016-09-29

    Applicant: 河海大学

    CPC classification number: G06F16/2471

    Abstract: 本发明公开了一种面向行业元数据注册和分布式检索系统及方法。系统包含如下三个模块:注册模块,用于实现跨数据中心行业元数据注册共享,针对不同的行业中央及地方数据中心,由该数据中心的数据管理单位实现元数据自行审核注册,并且由该单位对管理的数据分类处理,将部分用于检索的元数据注入中央节点,地方节点存放所有元数据;存储模块,数据管理单位对管理的元数据注册生成倒排索引,倒排索引分布于中央与地方节点,同时实现元数据存储与管理的分离;分布式检索模块,用于实现跨数据中心行业元数据共享,对不同数据中心的大量行业元数据进行分布式检索。本发明解决了跨数据中心行业元数据共享的难题,能够分布式处理大量的行业元数据,满足用户的检索需求。

    一种针对商品评论的情感词典自动构建方法

    公开(公告)号:CN108763214B

    公开(公告)日:2021-09-24

    申请号:CN201810539447.4

    申请日:2018-05-30

    Applicant: 河海大学

    Abstract: 本发明公开了一种针对商品评论的情感词典自动构建方法,包含文本预处理、语义关系挖掘、情感词聚类。文本预处理用于对商品评论进行预处理,提取某一类商品评论中所包含的情感词和评价对象。语义关系挖掘,挖掘情感词和评价对象之间的语义关系,并用矩阵的形式来表示情感词和评价对象之间的语义关系。情感词聚类,根据情感词在情感矩阵空间内的相互距离,对情感词进行无监督的聚类可以将情感词合理的分为k类。本发明针对商品评论领域文本的特点,构建了领域情感词典,该词典可以将情感词分为多类而不是传统的褒贬两大类,对于商品评论领域,领域情感词典与其他现行的通用情感词典相比在情感分类任务等方面具有巨大的优势。

    一种跨内外网的分布式索引资源整合与共享方法

    公开(公告)号:CN106960037B

    公开(公告)日:2019-09-10

    申请号:CN201710174884.6

    申请日:2017-03-22

    Applicant: 河海大学

    Abstract: 本发明公开了一种跨内外网的分布式索引资源整合与共享方法,包含如下三个模块:分布式存储模块:将行业所生产的数据按照具体的需求划分成不同的类别,并将数据注册生成索引,不同类别的数据将会存储在不同的物理节点上;共享模块:内外网数据分布于同一个集群不同的物理节点中,内网利用网闸的文件摆渡的方式,向外网平台提供索引数据的部分或全部信息,外网向内网提供请求;分布式检索模块:对集中整合在外网上的不同数据索引进行分布式检索,并可根据检索结果向内网回调获取详细信息。本发明实现不同类别的数据的分布式索引机制和内外网闸间的数据共享机制,并且基于大数据平台,能够近实时的分布式处理大量的数据,满足用户的检索、共享等需求。

    一种结合新闻文本的股票智能预测方法

    公开(公告)号:CN108985941A

    公开(公告)日:2018-12-11

    申请号:CN201810791693.9

    申请日:2018-07-18

    Applicant: 河海大学

    Inventor: 李晓东 贡诚 冯钧

    Abstract: 本发明公开了一种结合新闻文本的股票智能预测方法,首先对新闻文本进行预处理,过滤中文分词和停用词,删除没有时间标签的新闻文本;确定股票的预测时长Δt,根据新闻文本的时间标签过滤选择新闻文本;对过滤选择的新闻文本进行特征表示,并和对应时刻的股票数据特征向量组成对应时刻的特征表示向量 构建自编码器深度学习网络,将特征表示向量 输入自编码器深度学习网络进行压缩和特征提取,得到低维特征表示向量 构建ELM神经网络模型,对股价的变化程度进行定量表示,确定ELM神经网络模型的目标输出值;优化ELM神经网络模型参数,得到最终的预测模型。本发明通过新闻事件和历史行情数据的结合,解决股票预测准确度低的技术问题。

    一种跨内外网的分布式索引资源整合与共享方法

    公开(公告)号:CN106960037A

    公开(公告)日:2017-07-18

    申请号:CN201710174884.6

    申请日:2017-03-22

    Applicant: 河海大学

    Abstract: 本发明公开了一种跨内外网的分布式索引资源整合与共享方法,包含如下三个模块:分布式存储模块:将行业所生产的数据按照具体的需求划分成不同的类别,并将数据注册生成索引,不同类别的数据将会存储在不同的物理节点上;共享模块:内外网数据分布于同一个集群不同的物理节点中,内网利用网闸的文件摆渡的方式,向外网平台提供索引数据的部分或全部信息,外网向内网提供请求;分布式检索模块:对集中整合在外网上的不同数据索引进行分布式检索,并可根据检索结果向内网回调获取详细信息。本发明实现不同类别的数据的分布式索引机制和内外网闸间的数据共享机制,并且基于大数据平台,能够近实时的分布式处理大量的数据,满足用户的检索、共享等需求。

    一种针对商品评论的情感词典自动构建方法

    公开(公告)号:CN108763214A

    公开(公告)日:2018-11-06

    申请号:CN201810539447.4

    申请日:2018-05-30

    Applicant: 河海大学

    CPC classification number: G06F17/2775 G06F17/2785 G06Q30/0282

    Abstract: 本发明公开了一种针对商品评论的情感词典自动构建方法,包含文本预处理、语义关系挖掘、情感词聚类。文本预处理用于对商品评论进行预处理,提取某一类商品评论中所包含的情感词和评价对象。语义关系挖掘,挖掘情感词和评价对象之间的语义关系,并用矩阵的形式来表示情感词和评价对象之间的语义关系。情感词聚类,根据情感词在情感矩阵空间内的相互距离,对情感词进行无监督的聚类可以将情感词合理的分为k类。本发明针对商品评论领域文本的特点,构建了领域情感词典,该词典可以将情感词分为多类而不是传统的褒贬两大类,对于商品评论领域,领域情感词典与其他现行的通用情感词典相比在情感分类任务等方面具有巨大的优势。

Patent Agency Ranking