-
公开(公告)号:CN112395860A
公开(公告)日:2021-02-23
申请号:CN202011354524.2
申请日:2020-11-27
Applicant: 山东省计算中心(国家超级计算济南中心) , 山东亿云信息技术有限公司
IPC: G06F40/211 , G06F40/284 , G06F16/36 , G06N5/02
Abstract: 本发明提供了一种大规模并行政策数据知识抽取方法及系统,本发明通过对政策数据进行正文内容解析,获得政策正文数据列表,分别进行政策发文机构、发布日期知识抽取、政策申报截止日期知识抽取以及政策事件知识抽取,从而实现政策数据的知识抽取。本发明实现依存句法分析模型预加载,达到模型加载一次,多次使用的效果,提高知识抽取的效率,无需使用人工对知识进行抽取,节省人力成本,提高效率,适用于信息量巨大的网络信息获取。
-
公开(公告)号:CN112328928A
公开(公告)日:2021-02-05
申请号:CN202011361478.9
申请日:2020-11-27
Applicant: 山东省计算中心(国家超级计算济南中心) , 山东亿云信息技术有限公司
IPC: G06F16/957 , G06F16/958 , G06Q10/10
Abstract: 本发明提供了一种基于结构序列的文本脉络抽取方法及系统,本发明通过分析文本序列的组织结构,匹配文本序列的结构规则,抽取文本序列各结构的对应文本内容构成文本脉络,实现对各类结构化序列文本主干内容的有效抽取,相比现有技术中通过人工归纳总结大篇幅正文主干内容耗时费力且效率低的问题,本发明使得结构序列的文本脉络提取实现了快速、高效获取,大大提高了工作效率,节省公司的人力成本,同时具有较高的准确率。
-
公开(公告)号:CN114461884B
公开(公告)日:2025-04-04
申请号:CN202111603672.8
申请日:2021-12-24
Applicant: 山东亿云信息技术有限公司
IPC: G06F16/951 , G06F16/953 , G06F16/955
Abstract: 本发明属于数据采集领域,提供了一种面向互联网数据采集的采全率优化分析方法及系统。该方法包括,获取网站全部的可点击栏目页url;根据网站全部的可点击栏目页url,得到栏目页url的栏目url以及列表页html的各个列表url;根据栏目页url的栏目url,得到栏目采全率;根据列表页html的各个列表url,判断是否进行分页采全率,若是,得到分页采全率,否则,得到列表采全率。
-
公开(公告)号:CN111966930B
公开(公告)日:2021-05-04
申请号:CN202010825868.0
申请日:2020-08-17
Applicant: 山东亿云信息技术有限公司
IPC: G06F16/955 , G06F16/958 , G06F40/14
Abstract: 本发明公开了基于XPath序列的网页列表解析方法及系统,包括:根据URL获取网页的HTML源代码;根据网页的HTML源代码,生成DOM Tree;根据DOM Tree,获取网页中列表项的候选路径;从候选路径中筛选出列表项的简化XPath路径,建立候选简化XPath路径与标签label的字典;根据简化XPath路径与标签label的字典,获取网页列表项的结果。
-
公开(公告)号:CN118733670A
公开(公告)日:2024-10-01
申请号:CN202410724339.X
申请日:2024-06-05
Applicant: 山东亿云信息技术有限公司
Abstract: 本发明提供了一种整库实时数据同步方法及系统,属于实时数据同步技术领域,所述的数据同步方法,包括:获取选择的通道信息,所述通道信息代表输入源和输出源之间的映射关系集合;判断各个任务的通道信息是否来源于一个数据源,如是,则将各个任务聚合为一个任务;如否,则以输入源的数据库识别码为主键进行各个任务的聚合,得到聚合后的任务;以聚合后的任务进行整库实时数据同步;本发明解决了FlinkSQL只能一次提交一个表的同步任务、提交多个任务后占用Flink的多个slot、整库同步占用多个连接的问题,实现了高效和灵活的整库实时数据同步,提升了数据同步的效率和资源利用率。
-
公开(公告)号:CN114706508B
公开(公告)日:2024-06-14
申请号:CN202210461028.X
申请日:2022-04-28
Applicant: 山东亿云信息技术有限公司
IPC: G06F3/0481 , G06F3/0484
Abstract: 本发明提供了一种WEB端的画布放大、缩小偏移控制方法及画布重绘方法,获取基于画布dom节点上定义的getClientRects()方法得到的画布边框属性,包括画布的左边框距离、底部边框距离、第一宽度和第一高度;获取基于视口dom节点上定义的getClientRects()方法得到的画布边框属性,包括视口的左边框距离、底部边框距离、宽度和高度;以用户滚轮事件触发时鼠标的坐标值为缩放原点,结合获取的上述数据,得到画布放大或缩小的左偏移值和顶部偏移值;基于画布缩小或放大的偏移值计算结果修改画布dom元素、以及CSS样式中的transform‑origin和transform两个值,对画布dom元素进行位移以及缩小或放大;本发明避免了业务人员需要多次反复滚动滚动条才能定位相关流程节点的繁琐操作。
-
公开(公告)号:CN114494506A
公开(公告)日:2022-05-13
申请号:CN202111533968.7
申请日:2021-12-15
Applicant: 山东亿云信息技术有限公司
IPC: G06T11/20
Abstract: 本发明提供了一种有向无环图中回路的判断方法及系统,获取连线请求,根据已有的连线集合与节点集合,计算更新各节点的出度和入度;从每一个出度为设定值的节点出发,循环执行接收当前节点一个参数,检测当前节点是否存在于深度优先遍历所生成的分支栈中,如果不存在则将当前节点推入分支栈,通过连线集合与节点集合寻找当前节点各子下级节点,形成子分支,直至当前节点为终节点时向上递归,栈顶元素出栈;如果所述栈顶元素在分支栈中存在即说明有环,不将相应的连线加入连线集合中,否则继续深度优先遍历。本发明的实现过程无需前后端数据交换,减轻了服务端的流量压力,具有准确性;有效提升用户体验感。
-
公开(公告)号:CN113836304A
公开(公告)日:2021-12-24
申请号:CN202111136132.3
申请日:2021-09-27
Applicant: 山东亿云信息技术有限公司
IPC: G06F16/35 , G06F40/117 , G06F40/289 , G06K9/62 , G06N3/04
Abstract: 本发明公开了一种基于自然语言处理的智能打标签方法及系统,包括:构建训练集和测试集;基于训练集和测试集,构建标签模型;其中,所述训练集和测试集,均为已知标签的多个字段文本;对已经构建的标签模型进行封装,生成接口;对接口进行配置;获取待处理的文本数据;调用配置,对待处理的自然语言进行打标签处理。本发明的实施使得文本打标签任务实现了模型构建、测试、上线、执行及文本打标签全流程的自动化,大大提高了工作效率,节省公司的人力成本,同时经验证,该发明也取得较高的准确率。
-
公开(公告)号:CN112926320A
公开(公告)日:2021-06-08
申请号:CN202110316125.5
申请日:2021-03-24
Applicant: 山东亿云信息技术有限公司
IPC: G06F40/289 , G06F40/268 , G06F40/30 , G06F40/205
Abstract: 本公开公开的一种基于主题词优化的文本关键内容智能抽取方法级系统,包括:获取待识别文本;对待识别文本进行篇章级分词,获取篇章级词语和每个篇章级词语的权重;对待识别文本进行段落级分词,获取段落级词语和每个段落级词语的词性;将篇章级词语及权重与段落级词语及词性进行匹配,输出包含词语、词性、权重的元组;将包含词语、词性、权重的元组与关键短语规则库进行匹配,获得符合规则的关键短语;根据关键短语,获取文本关键内容。实现了对待识别文本关键内容的准确提取。
-
公开(公告)号:CN111966930A
公开(公告)日:2020-11-20
申请号:CN202010825868.0
申请日:2020-08-17
Applicant: 山东亿云信息技术有限公司
IPC: G06F16/955 , G06F16/958 , G06F40/14
Abstract: 本发明公开了基于XPath序列的网页列表解析方法及系统,包括:根据URL获取网页的HTML源代码;根据网页的HTML源代码,生成DOM Tree;根据DOM Tree,获取网页中列表项的候选路径;从候选路径中筛选出列表项的简化XPath路径,建立候选简化XPath路径与标签label的字典;根据简化XPath路径与标签label的字典,获取网页列表项的结果。
-
-
-
-
-
-
-
-
-