-
公开(公告)号:CN112926320B
公开(公告)日:2022-12-27
申请号:CN202110316125.5
申请日:2021-03-24
Applicant: 山东亿云信息技术有限公司
IPC: G06F40/289 , G06F40/268 , G06F40/30 , G06F40/205
Abstract: 本公开公开的一种基于主题词优化的文本关键内容智能抽取方法级系统,包括:获取待识别文本;对待识别文本进行篇章级分词,获取篇章级词语和每个篇章级词语的权重;对待识别文本进行段落级分词,获取段落级词语和每个段落级词语的词性;将篇章级词语及权重与段落级词语及词性进行匹配,输出包含词语、词性、权重的元组;将包含词语、词性、权重的元组与关键短语规则库进行匹配,获得符合规则的关键短语;根据关键短语,获取文本关键内容。实现了对待识别文本关键内容的准确提取。
-
公开(公告)号:CN111966901B
公开(公告)日:2021-04-20
申请号:CN202010825873.1
申请日:2020-08-17
Applicant: 山东亿云信息技术有限公司
IPC: G06F16/9535 , G06F16/955 , G06F16/958
Abstract: 本发明公开了政策类网页正文提取方法、系统、设备及存储介质,包括:获取政策网页HTML源代码;根据政策网页HTML源代码,获取网页正文所在的位置;根据网页正文所在的位置,获取正文所对应的HTML源代码,输出正文所对应的HTML源代码。过分析政策网页的页面组织结构规则,构建网页组织结构和网页正文位置的关系,获取网页正文内容。从而实现对政策类网页正文的快速、有效提取。本发明的实施使得政策类网页正文的提取实现了快速、高效获取,大大提高了工作效率,节省公司的人力成本,同时经验证,该发明也取得较高的准确率。
-
公开(公告)号:CN112100495B
公开(公告)日:2024-04-16
申请号:CN202010960596.5
申请日:2020-09-14
Applicant: 山东亿云信息技术有限公司
IPC: G06F16/9535 , G06F16/955 , G06F9/48
Abstract: 本公开提出了一种基于分布式的一站式采集方法及系统,包括:分布式采集集群构建:将集群服务器添加到采集集群中,并添加采集应用至集群服务器中;全网采集:集群服务器接收所需采集的网站,进行全网数据采集,并对网站中的列表页数据进行过滤;解析:对过滤后的列表页进行解析,获取列表页网站规则以及列表页中详情页的规则;采集任务配置:配置增量采集和全量采集所需的采集应用,然后启动增量采集和全量采集。用户可根据采集需求自定义分配采集资源,采集任务结束后自动释放采集资源,有效的提高了采集效率。
-
公开(公告)号:CN112328928A
公开(公告)日:2021-02-05
申请号:CN202011361478.9
申请日:2020-11-27
Applicant: 山东省计算中心(国家超级计算济南中心) , 山东亿云信息技术有限公司
IPC: G06F16/957 , G06F16/958 , G06Q10/10
Abstract: 本发明提供了一种基于结构序列的文本脉络抽取方法及系统,本发明通过分析文本序列的组织结构,匹配文本序列的结构规则,抽取文本序列各结构的对应文本内容构成文本脉络,实现对各类结构化序列文本主干内容的有效抽取,相比现有技术中通过人工归纳总结大篇幅正文主干内容耗时费力且效率低的问题,本发明使得结构序列的文本脉络提取实现了快速、高效获取,大大提高了工作效率,节省公司的人力成本,同时具有较高的准确率。
-
公开(公告)号:CN113240427A
公开(公告)日:2021-08-10
申请号:CN202110540666.6
申请日:2021-05-18
Applicant: 山东省计算中心(国家超级计算济南中心) , 山东亿云信息技术有限公司
Abstract: 本发明公开了一种基于区块链的可信交易和服务信誉评价方法,首先通过认证系统进行实名认证。然后通过数据发布系统对交易信息进行发布。在发布交易信息中,需要对交易信息进行二次认证。双方达成初步意愿后,通过信息采集平台对进行二次认证,并通过担保平台和支付平台进行支付。在交易过程中,交易流程模块构建流程状态图,实施追踪交易进展情况。完成交易后,通过综合反馈模块对发布信息人和需求信息人进行二次评价分数统计。与现有技术相比本发明的有益效果是:通过多级评价方案对相关信息进行综合评分,以保证信息的可靠性和真实性,在费用支付上采用多级担保的方式,提高双方交易的可信赖度,促进交易的成功转换。
-
公开(公告)号:CN111966930B
公开(公告)日:2021-05-04
申请号:CN202010825868.0
申请日:2020-08-17
Applicant: 山东亿云信息技术有限公司
IPC: G06F16/955 , G06F16/958 , G06F40/14
Abstract: 本发明公开了基于XPath序列的网页列表解析方法及系统,包括:根据URL获取网页的HTML源代码;根据网页的HTML源代码,生成DOM Tree;根据DOM Tree,获取网页中列表项的候选路径;从候选路径中筛选出列表项的简化XPath路径,建立候选简化XPath路径与标签label的字典;根据简化XPath路径与标签label的字典,获取网页列表项的结果。
-
公开(公告)号:CN112100495A
公开(公告)日:2020-12-18
申请号:CN202010960596.5
申请日:2020-09-14
Applicant: 山东亿云信息技术有限公司
IPC: G06F16/9535 , G06F16/955 , G06K9/62 , G06F9/48
Abstract: 本公开提出了一种基于分布式的一站式采集方法及系统,包括:分布式采集集群构建:将集群服务器添加到采集集群中,并添加采集应用至集群服务器中;全网采集:集群服务器接收所需采集的网站,进行全网数据采集,并对网站中的列表页数据进行过滤;解析:对过滤后的列表页进行解析,获取列表页网站规则以及列表页中详情页的规则;采集任务配置:配置增量采集和全量采集所需的采集应用,然后启动增量采集和全量采集。用户可根据采集需求自定义分配采集资源,采集任务结束后自动释放采集资源,有效的提高了采集效率。
-
公开(公告)号:CN113240393A
公开(公告)日:2021-08-10
申请号:CN202110541150.3
申请日:2021-05-18
Applicant: 山东省计算中心(国家超级计算济南中心) , 山东亿云信息技术有限公司
IPC: G06Q10/10 , G06Q40/04 , G06Q40/06 , G06F16/904
Abstract: 本发明公开了一种信息资源服务平台架构系统,包括运营平台、用户端口、中介服务端口、科技创新监管中心;用户端口包括企业端口、高校端口和个人端口;运营平台包括信息维护中心、大数据处理中心、流程监管中心、支付运营中心、登录服务中心;中介服务端口包括第三方科技服务单元、第三方融资单元和中介服务平台;科技创新监管中心包括创新统计中心、交易监控中心和第三方监管中心。与现有技术相比本发明的有益效果是:集成了多方的一体系构建平台,包括企业、个人、高校、科技服务机构以及监管部门,通过平台统一正规化管理,降低风险预算,促进成果转化,为成果的落地形成提供强有力的支撑。
-
公开(公告)号:CN112883165A
公开(公告)日:2021-06-01
申请号:CN202110281426.9
申请日:2021-03-16
Applicant: 山东亿云信息技术有限公司
IPC: G06F16/33 , G06F40/211 , G06F40/289 , G06F40/30
Abstract: 本发明公开了一种基于语义理解的智能全文检索方法及系统,包括:将接收到的搜索语句切割为短文本,对短文本进行分词操作,得到短文本对应的分词库;构建短文本的语义信息向量和依存关系向量;所述语义信息向量包括短文本的中心词和词义共现词;基于短文本的语义信息向量和依存关系向量,将短文本信息与智能索引库中的相关信息进行相似度计算,进而得到搜索结果集。本发明通过将原始数据拆分为多个短文本,形成搜索文本向量,通过调用人工智能平台的语义理解接口对搜索文本和索引库文本相似度计算,能够提高全文检索的准确性。
-
公开(公告)号:CN112395860A
公开(公告)日:2021-02-23
申请号:CN202011354524.2
申请日:2020-11-27
Applicant: 山东省计算中心(国家超级计算济南中心) , 山东亿云信息技术有限公司
IPC: G06F40/211 , G06F40/284 , G06F16/36 , G06N5/02
Abstract: 本发明提供了一种大规模并行政策数据知识抽取方法及系统,本发明通过对政策数据进行正文内容解析,获得政策正文数据列表,分别进行政策发文机构、发布日期知识抽取、政策申报截止日期知识抽取以及政策事件知识抽取,从而实现政策数据的知识抽取。本发明实现依存句法分析模型预加载,达到模型加载一次,多次使用的效果,提高知识抽取的效率,无需使用人工对知识进行抽取,节省人力成本,提高效率,适用于信息量巨大的网络信息获取。
-
-
-
-
-
-
-
-
-