-
公开(公告)号:CN112926320A
公开(公告)日:2021-06-08
申请号:CN202110316125.5
申请日:2021-03-24
Applicant: 山东亿云信息技术有限公司
IPC: G06F40/289 , G06F40/268 , G06F40/30 , G06F40/205
Abstract: 本公开公开的一种基于主题词优化的文本关键内容智能抽取方法级系统,包括:获取待识别文本;对待识别文本进行篇章级分词,获取篇章级词语和每个篇章级词语的权重;对待识别文本进行段落级分词,获取段落级词语和每个段落级词语的词性;将篇章级词语及权重与段落级词语及词性进行匹配,输出包含词语、词性、权重的元组;将包含词语、词性、权重的元组与关键短语规则库进行匹配,获得符合规则的关键短语;根据关键短语,获取文本关键内容。实现了对待识别文本关键内容的准确提取。
-
公开(公告)号:CN111966930A
公开(公告)日:2020-11-20
申请号:CN202010825868.0
申请日:2020-08-17
Applicant: 山东亿云信息技术有限公司
IPC: G06F16/955 , G06F16/958 , G06F40/14
Abstract: 本发明公开了基于XPath序列的网页列表解析方法及系统,包括:根据URL获取网页的HTML源代码;根据网页的HTML源代码,生成DOM Tree;根据DOM Tree,获取网页中列表项的候选路径;从候选路径中筛选出列表项的简化XPath路径,建立候选简化XPath路径与标签label的字典;根据简化XPath路径与标签label的字典,获取网页列表项的结果。
-
公开(公告)号:CN114461884B
公开(公告)日:2025-04-04
申请号:CN202111603672.8
申请日:2021-12-24
Applicant: 山东亿云信息技术有限公司
IPC: G06F16/951 , G06F16/953 , G06F16/955
Abstract: 本发明属于数据采集领域,提供了一种面向互联网数据采集的采全率优化分析方法及系统。该方法包括,获取网站全部的可点击栏目页url;根据网站全部的可点击栏目页url,得到栏目页url的栏目url以及列表页html的各个列表url;根据栏目页url的栏目url,得到栏目采全率;根据列表页html的各个列表url,判断是否进行分页采全率,若是,得到分页采全率,否则,得到列表采全率。
-
公开(公告)号:CN119397028A
公开(公告)日:2025-02-07
申请号:CN202411975479.0
申请日:2024-12-31
Applicant: 山东华智人才科技有限公司 , 山东亿云信息技术有限公司
IPC: G06F16/353 , G06F16/334 , G06F40/216
Abstract: 本发明提供了基于大语言模型的专利多维度评价方法及系统,其属于文献分析技术领域,所述方案通过基于聚类分析和大语言模型构建的技术集群,来确定每个专利所属的专利集群,并通过构建专利集群网络的方式,来确定每个专利在整个专利集群的重要性,然后结合专利所属集群的多维特征对专利进行评价,对原始专利数据进行了有效利用,保证了专利评价结果的全面性和准确性;有效解决了传统方案聚类分析结果的准确性无法保证,且缺少对同领域和跨领域专利之间的相关关系的考虑,进而对专利评价结果的准确性产生较大影响,以及,现有的专利评价方式的评价维度单一,导致专利评价结果的准确性不足的问题。
-
公开(公告)号:CN119166785A
公开(公告)日:2024-12-20
申请号:CN202411334441.5
申请日:2024-09-24
Applicant: 山东亿云信息技术有限公司
IPC: G06F16/332 , G06F18/2135 , G06F18/22 , G06N5/022
Abstract: 本发明属于人工智能技术领域。提供了一种检索增强生成系统自动化评测方法及系统,针对检索增强生成系统生成的答案以及所述测评数据集中的答案,采用不同的答案评价算法进行评价,得到多个算法评价指标;计算各个检索增强生成系统的多个整体评价指标,对全部的所述算法评价指标和所述整体评价指标进行主成分分析,进而进行RAG系统的评测。本发明解决了文档解析和问答数据生成的自动化问题,提供了高质量的问答对,自动评估RAG系统的问答质量和检索质量,使用多种评价指标结合主成分分析方法得到了更为精准的自动化评测结果。
-
公开(公告)号:CN111966930B
公开(公告)日:2021-05-04
申请号:CN202010825868.0
申请日:2020-08-17
Applicant: 山东亿云信息技术有限公司
IPC: G06F16/955 , G06F16/958 , G06F40/14
Abstract: 本发明公开了基于XPath序列的网页列表解析方法及系统,包括:根据URL获取网页的HTML源代码;根据网页的HTML源代码,生成DOM Tree;根据DOM Tree,获取网页中列表项的候选路径;从候选路径中筛选出列表项的简化XPath路径,建立候选简化XPath路径与标签label的字典;根据简化XPath路径与标签label的字典,获取网页列表项的结果。
-
公开(公告)号:CN118586392A
公开(公告)日:2024-09-03
申请号:CN202410716304.1
申请日:2024-06-04
Applicant: 山东亿云信息技术有限公司
IPC: G06F40/295 , G06F40/30 , G06F18/25 , G06F18/214 , G06N5/025 , G06N3/042 , G06N3/045 , G06N3/0455 , G06N3/0464 , G06N3/0895
Abstract: 本发明属于自然语言处理技术领域,提供了一种基于全局信息聚合的实体对齐方法及系统,基于PageRank的算法能够计算三元组中每个实体在整个知识图谱中的相对重要性,将可以更好的利用整个知识图谱的信息。同时,采用Personalized PageRank来进行图扩散增强,产生增强的全局视图,并将其用于实体对齐任务中。同时通过对比学习对比图扩散增强和随机扰动增强,能够通过对比学习的方式可以同时学习到图扩散增强视图中的全局信息和随机扰动视图中的局部信息,从优化图谱表示的角度提高的实体对齐的准确性和鲁棒性并取得较好的效果。
-
公开(公告)号:CN117194680A
公开(公告)日:2023-12-08
申请号:CN202311248113.9
申请日:2023-09-25
Applicant: 山东亿云信息技术有限公司
IPC: G06F16/36 , G06F16/35 , G06N3/0464 , G06N5/022
Abstract: 本发明属于知识图谱构建领域,尤其涉及一种基于实体关系和图卷积网络的知识融合方法及系统。该方法包括,确定人才科创多源知识图谱所需的数据类型,根据所述数据类型从多个独立人才科创系统、行业或领域中获取数据中的实体及实体关系,构建子图谱;基于实体及实体关系,采用社区发现算法,挖掘子图谱中的实体簇特征;基于所述实体簇特征,采用图卷积网络,聚合实体直接邻居的关系特征,得到实体向量;对不同子图谱中实体向量进行相似度计算,完成子图谱之间相同实体的合并,构建人才科创多源知识图谱。
-
公开(公告)号:CN115858963A
公开(公告)日:2023-03-28
申请号:CN202211705685.0
申请日:2022-12-29
Applicant: 山东亿云信息技术有限公司
IPC: G06F16/955 , G06F16/958
Abstract: 本发明属于数据采集技术领域,提供了一种面向互联网采集的栏目页智能获取方法及系统。该方法包括,根据当前站点url获取网页HTML源代码;根据网页HTML源代码获取当前网页中的所有 标签节点;对 标签进行过滤,获取有效 标签和有效 标签信息列表;遍历有效 标签信息列表,记当前 标签信息为item_a,判断item_a是否满足加入栏目页列表的条件,若是,则加入栏目页列表,否则,不加入栏目页列表;判断站点的深度是否小于设置的采集深度阈值,如果不小于采集深度阈值,结束循环;如果小于采集深度阈值,遍历有效 标签信息列表,记当前有效 标签的url为当前站点url且站点深度值自增1,迭代循环,直至站点的深度不小于采集深度阈值;返回栏目页列表结果。
-
公开(公告)号:CN114461884A
公开(公告)日:2022-05-10
申请号:CN202111603672.8
申请日:2021-12-24
Applicant: 山东亿云信息技术有限公司
IPC: G06F16/951 , G06F16/953 , G06F16/955
Abstract: 本发明属于数据采集领域,提供了一种面向互联网数据采集的采全率优化分析方法及系统。该方法包括,获取网站全部的可点击栏目页url;根据网站全部的可点击栏目页url,得到栏目页url的栏目url以及列表页html的各个列表url;根据栏目页url的栏目url,得到栏目采全率;根据列表页html的各个列表url,判断是否进行分页采全率,若是,得到分页采全率,否则,得到列表采全率。
-
-
-
-
-
-
-
-
-