-
公开(公告)号:CN112328928A
公开(公告)日:2021-02-05
申请号:CN202011361478.9
申请日:2020-11-27
Applicant: 山东省计算中心(国家超级计算济南中心) , 山东亿云信息技术有限公司
IPC: G06F16/957 , G06F16/958 , G06Q10/10
Abstract: 本发明提供了一种基于结构序列的文本脉络抽取方法及系统,本发明通过分析文本序列的组织结构,匹配文本序列的结构规则,抽取文本序列各结构的对应文本内容构成文本脉络,实现对各类结构化序列文本主干内容的有效抽取,相比现有技术中通过人工归纳总结大篇幅正文主干内容耗时费力且效率低的问题,本发明使得结构序列的文本脉络提取实现了快速、高效获取,大大提高了工作效率,节省公司的人力成本,同时具有较高的准确率。
-
公开(公告)号:CN109840279A
公开(公告)日:2019-06-04
申请号:CN201910025175.0
申请日:2019-01-10
Applicant: 山东亿云信息技术有限公司 , 山东省计算中心(国家超级计算济南中心)
Abstract: 本发明公开一种基于卷积循环神经网络的文本分类方法,充分利用卷积神经网络提取局部特征的优势对文本进行特征提取,同时利用LSTM具有记忆的优势将提取的上下文特征联系起来更好地表示文本的语义信息。该方法不仅在英文数据集上取得较好的分类效果同时在中文数据集上也取得较高的分类准确率。
-
公开(公告)号:CN112395860A
公开(公告)日:2021-02-23
申请号:CN202011354524.2
申请日:2020-11-27
Applicant: 山东省计算中心(国家超级计算济南中心) , 山东亿云信息技术有限公司
IPC: G06F40/211 , G06F40/284 , G06F16/36 , G06N5/02
Abstract: 本发明提供了一种大规模并行政策数据知识抽取方法及系统,本发明通过对政策数据进行正文内容解析,获得政策正文数据列表,分别进行政策发文机构、发布日期知识抽取、政策申报截止日期知识抽取以及政策事件知识抽取,从而实现政策数据的知识抽取。本发明实现依存句法分析模型预加载,达到模型加载一次,多次使用的效果,提高知识抽取的效率,无需使用人工对知识进行抽取,节省人力成本,提高效率,适用于信息量巨大的网络信息获取。
-
公开(公告)号:CN115391513A
公开(公告)日:2022-11-25
申请号:CN202211063932.1
申请日:2022-08-31
Applicant: 山东省计算中心(国家超级计算济南中心)
IPC: G06F16/332 , G06F16/33 , G06N3/04 , G06N3/08
Abstract: 本发明属于问答匹配技术领域,提供了一种基于问题对匹配和问答对匹配的问答匹配方法及系统,在获取问题后,先通过预设的问句‑问句匹配模型,得到问题中的问句向量表示和预设问答库中问句的向量表示,在此基础上计算问题中的问句和预设问答库中问句之间的相似度,对问答库进行初步筛选;然后,再通过预设的问句‑答案匹配模型,得到问题中的问句向量表示和筛选后问答库中答案的向量表示,在此基础上,计算问题中的问句和筛选后问答库中答案之间的相似度,并将相似度得分最高的问答对作为获取问题最终匹配的问答对;在问答对匹配过程中,两次相似度计算实现了对问答对的初步筛选和最终确定,提高了相似度计算的精度,保证了匹配效果。
-
公开(公告)号:CN119396953A
公开(公告)日:2025-02-07
申请号:CN202411503863.0
申请日:2024-10-25
Applicant: 山东省计算中心(国家超级计算济南中心) , 齐鲁工业大学(山东省科学院)
IPC: G06F16/332 , G06F16/33 , G06F16/36 , G06F40/35 , G06N3/042 , G06N3/0499 , G06N3/048 , G06N3/084 , G06N5/022
Abstract: 本发明属于知识图谱多跳问答技术领域,尤其涉及一种基于双向交叉注意力和图提示的知识图谱问答方法及系统;方法包括:获取问题上下文文本的语义表示和文本表示以及该问题对应的知识图谱子图;利用多层交互模型将文本表示与知识图谱子图进行多层交互,利用更新后的文本表示和图节点计算代表全图信息的提示向量,并利用提示向量增强语义表示;将增强后的语义表示以及图节点表示输入至多层感知机,得到该问题对应候选选项的得分。本发明利用多层交互模型对文本表示与知识图谱子图中的图节点表示进行多层交互,确保了文本和图数据能够相互作用;有效解决了知识图谱问答推理过程中文本向量和图向量独立更新的问题。
-
公开(公告)号:CN117009525A
公开(公告)日:2023-11-07
申请号:CN202310994477.5
申请日:2023-08-08
Applicant: 山东省计算中心(国家超级计算济南中心) , 齐鲁工业大学(山东省科学院)
IPC: G06F16/35 , G06F40/30 , G06F18/2415 , G06F18/22 , G06F18/27 , G06N3/0464 , G06N3/084 , G06N3/042 , G06N5/04
Abstract: 本发明属于文本分类技术领域,提供了基于提示学习的虚拟类表示的小样本文本分类方法及系统,其方案为:将原始文本序列和提示模板整合,将文本分类任务转化为完形填空任务,得到整合后的带有MASK的输入序列;基于整合后的带有MASK的输入序列和预训练语言模型,得到MASK位置的最后一层隐藏层的回归值;为每一类设计一个相同长度的随机数字作为类的虚拟表示,随机初始化一个嵌入机制,并将虚拟类表示放入随机初始化嵌入机制得到类的初始表示;基于类的初始表示进行多维度特征提取得到每一个类表示向量;将MASK位置的最后一层隐藏层的回归值和每一个类表示向量求余弦相似度,将求得的相似度向量最大值的索引作为最终的分类预测结果。
-
公开(公告)号:CN112926320B
公开(公告)日:2022-12-27
申请号:CN202110316125.5
申请日:2021-03-24
Applicant: 山东亿云信息技术有限公司
IPC: G06F40/289 , G06F40/268 , G06F40/30 , G06F40/205
Abstract: 本公开公开的一种基于主题词优化的文本关键内容智能抽取方法级系统,包括:获取待识别文本;对待识别文本进行篇章级分词,获取篇章级词语和每个篇章级词语的权重;对待识别文本进行段落级分词,获取段落级词语和每个段落级词语的词性;将篇章级词语及权重与段落级词语及词性进行匹配,输出包含词语、词性、权重的元组;将包含词语、词性、权重的元组与关键短语规则库进行匹配,获得符合规则的关键短语;根据关键短语,获取文本关键内容。实现了对待识别文本关键内容的准确提取。
-
公开(公告)号:CN111966901B
公开(公告)日:2021-04-20
申请号:CN202010825873.1
申请日:2020-08-17
Applicant: 山东亿云信息技术有限公司
IPC: G06F16/9535 , G06F16/955 , G06F16/958
Abstract: 本发明公开了政策类网页正文提取方法、系统、设备及存储介质,包括:获取政策网页HTML源代码;根据政策网页HTML源代码,获取网页正文所在的位置;根据网页正文所在的位置,获取正文所对应的HTML源代码,输出正文所对应的HTML源代码。过分析政策网页的页面组织结构规则,构建网页组织结构和网页正文位置的关系,获取网页正文内容。从而实现对政策类网页正文的快速、有效提取。本发明的实施使得政策类网页正文的提取实现了快速、高效获取,大大提高了工作效率,节省公司的人力成本,同时经验证,该发明也取得较高的准确率。
-
公开(公告)号:CN117056515A
公开(公告)日:2023-11-14
申请号:CN202311027108.5
申请日:2023-08-15
Applicant: 山东亿云信息技术有限公司
IPC: G06F16/35 , G06F40/279 , G06F40/30 , G06N5/022 , G06N3/0442 , G06N3/0464 , G06N3/09
Abstract: 本发明提供了一种基于提示学习的知识抽取方法及系统,将获取的非结构化文本数据进行嵌入得到缓存向量值;对同质提示符串进行嵌入得到同质提示符向量值,对异质提示字符串进行嵌入得到异质提示字符向量值;对缓存向量值、同质提示符向量值和异质提示字符向量值进行拼接得到拼接向量,以拼接向量作为预训练语言模型的缓存向量值;采用正则匹配的方法从预训练语言模型生成的文本数据中获取结构化数据;本发明利用自动编码的提示字符,自动学习标签的潜在语义表示,并通过生成式大规模预训练语言模型,以通用的方式解决知识抽取问题,提高了知识抽取的精度和效率。
-
公开(公告)号:CN115510334A
公开(公告)日:2022-12-23
申请号:CN202211201364.7
申请日:2022-09-29
Applicant: 山东亿云信息技术有限公司
IPC: G06F16/9536
Abstract: 本公开提供了一种基于稀疏特征的重名消歧方法及系统,包括:获取人才库中存储的人才数据信息,并从中筛选出重复人名的数据构建重名人才库;从所述重名人才库中获取人名列表;对所述人名列表进行遍历,并从所述重名人才库中获取当前人名所对应的数据记录;对于获得的数据记录中的每条数据记录,两两计算其相似性;基于相似性计算结果,利用指向同一实体的两条数据记录的唯一标识组成元组,并加入无向图构建的边集合中;以所述数据记录中的id列表作为节点,并以所述边集合中的元组作为边,实现无向图的构建;计算所述无向图中的所有连通子图集合,并对同一连通子图中的节点添加相同的标签,基于所述标签实现对相同人名数据记录的区分。
-
-
-
-
-
-
-
-
-