-
公开(公告)号:CN105183813B
公开(公告)日:2017-03-15
申请号:CN201510532920.2
申请日:2015-08-26
Applicant: 山东省计算中心(国家超级计算济南中心) , 山东亿云信息技术有限公司
Abstract: 本发明的基于互信息的用于文档分类的并行特征选择方法,包括a).选取样本并分类;b).求解词的TF-IDF值;c).生成初始化数据集合D={x1,x2,...,xN};d).分布式计算,将所有子数据集平均分布到m个计算节点上;e).建立集合,S=Φ,V={X1,X2,...,XM};f).计算联合、条件概率分布;g).计算互信息;h).选取特征变量;i).判断数量是否已够;j).文本分类。本发明的文档分类的并行特征选择方法,基于瑞利熵的互信息被用来度量特征变量与类变量之间的相关性,使得最终选取的特征变量的更能代表文档分类的特征,分类效果更准确,分类结果要好于目前常用特征选择方法得到的结果,有益效果显著,适于推广应用。
-
公开(公告)号:CN113704229A
公开(公告)日:2021-11-26
申请号:CN202111026786.0
申请日:2021-09-02
Applicant: 山东省计算中心(国家超级计算济南中心) , 山东亿云信息技术有限公司
IPC: G06F16/21 , G06F16/2455
Abstract: 本发明涉及计算机信息技术领域,具体地涉及一种基于业务审核及检索的数据标签管理方法,包括待审核业务数据收集,所述业务数据包括业务参数及审核业务参数的审核规则;根据业务参数确定业务数据对应的业务节点;开展标签需求数据源的收集和分析;对数据源进行整合生成标签;构建数据标签库以供业务审核及检索应用,根据数据源情况,构建所需标签数据库;根据标签数据库创建标签规则和检索规则,所述标签规则包括标签管理信息规则和标签值信息管理规则。本发明对数据标签进行有效管理,构建标签数据库,便于业务应用,为业务审核和检索提供了支撑,实现了高效的数据标签管理。
-
公开(公告)号:CN112328928A
公开(公告)日:2021-02-05
申请号:CN202011361478.9
申请日:2020-11-27
Applicant: 山东省计算中心(国家超级计算济南中心) , 山东亿云信息技术有限公司
IPC: G06F16/957 , G06F16/958 , G06Q10/10
Abstract: 本发明提供了一种基于结构序列的文本脉络抽取方法及系统,本发明通过分析文本序列的组织结构,匹配文本序列的结构规则,抽取文本序列各结构的对应文本内容构成文本脉络,实现对各类结构化序列文本主干内容的有效抽取,相比现有技术中通过人工归纳总结大篇幅正文主干内容耗时费力且效率低的问题,本发明使得结构序列的文本脉络提取实现了快速、高效获取,大大提高了工作效率,节省公司的人力成本,同时具有较高的准确率。
-
公开(公告)号:CN109840279A
公开(公告)日:2019-06-04
申请号:CN201910025175.0
申请日:2019-01-10
Applicant: 山东亿云信息技术有限公司 , 山东省计算中心(国家超级计算济南中心)
Abstract: 本发明公开一种基于卷积循环神经网络的文本分类方法,充分利用卷积神经网络提取局部特征的优势对文本进行特征提取,同时利用LSTM具有记忆的优势将提取的上下文特征联系起来更好地表示文本的语义信息。该方法不仅在英文数据集上取得较好的分类效果同时在中文数据集上也取得较高的分类准确率。
-
公开(公告)号:CN107368587A
公开(公告)日:2017-11-21
申请号:CN201710606624.1
申请日:2017-07-24
Applicant: 山东省计算中心(国家超级计算济南中心)
Abstract: 本发明公开一种基于扩展熵的无监督特征的选择方法及系统,所述选择方法包括根据原始备选特征集中的任意备选特征变量与剩余备选特征变量之间的相关度选择第一个特征变量添加到已选特征集中,从原始备选特征集中剔除第一个特征变量;根据当前备选特征集中的任意备选特征变量与剩余备选特征变量之间的相关度,与已选特征集之间的冗余信息程度,确定当前特征变量以及相关度变化参数;将当前备选特征变量添加到已选特征集中;判断相关度变化参数是否小于设定阈值,如果是则选择结束;否则,将从当前备选特征集中剔除当前特征变量,继续选择下一个特征变量。本发明可处理连续的特征变量,以提高选择的特征变量组合的信息量。
-
公开(公告)号:CN113191118B
公开(公告)日:2023-07-18
申请号:CN202110501103.6
申请日:2021-05-08
Applicant: 山东省计算中心(国家超级计算济南中心)
IPC: G06F40/117 , G06F40/211 , G06F40/242 , G06F18/214 , G06N3/04 , G06N3/084
Abstract: 本发明涉及数据处理技术领域,具体地涉及一种基于序列标注的文本关系抽取方法,包括构建与预测数据相近的训练数据集,预设所有可能的双向实体关系以及三种固定的依存关系;将输入语句切分为单词序列,并输入到预训练模型中,得到每个句中单词的表示向量;对单词向量序列使用类似握手的方式组成唯一单词对序列;将得到的向量对序列输入到神经网络分类层中;计算损失并进行反向传播;即判断每个单词对的类别,判断单词对是否有该位置对应的关系;根据该对应关系使用附图中展示的伪代码来解码最终结果,最终得到抽取到的所有三元组。本发明能够同时完成两个任务:实体识别和关系分类。在抽取的准确率和召回率方面均有显著提高,具有较大提升。
-
公开(公告)号:CN115640508A
公开(公告)日:2023-01-24
申请号:CN202211102340.6
申请日:2022-09-09
Applicant: 山东省计算中心(国家超级计算济南中心)
IPC: G06F18/211 , G06N3/0464 , G06N3/08
Abstract: 本发明涉及实体链接技术领域,提供了基于多实体主题一致性抽取的实体链接方法及系统,包括:获取文档,将文档的所有提及划分到若干个稀疏图,每个稀疏图对应一个主题,对每个主题构建一个提及实体关联图,并计算每个提及实体关联图的整图表示;基于每个提及实体关联图的整图表示,并结合每个提及的候选实体集合,得到每个主题的全局一致性特征;基于每个主题的全局一致性特征,计算每个提及与其候选实体的分数,并将提及链接到分数最大的候选实体。提高了实体链接的准确性。
-
公开(公告)号:CN115391513A
公开(公告)日:2022-11-25
申请号:CN202211063932.1
申请日:2022-08-31
Applicant: 山东省计算中心(国家超级计算济南中心)
IPC: G06F16/332 , G06F16/33 , G06N3/04 , G06N3/08
Abstract: 本发明属于问答匹配技术领域,提供了一种基于问题对匹配和问答对匹配的问答匹配方法及系统,在获取问题后,先通过预设的问句‑问句匹配模型,得到问题中的问句向量表示和预设问答库中问句的向量表示,在此基础上计算问题中的问句和预设问答库中问句之间的相似度,对问答库进行初步筛选;然后,再通过预设的问句‑答案匹配模型,得到问题中的问句向量表示和筛选后问答库中答案的向量表示,在此基础上,计算问题中的问句和筛选后问答库中答案之间的相似度,并将相似度得分最高的问答对作为获取问题最终匹配的问答对;在问答对匹配过程中,两次相似度计算实现了对问答对的初步筛选和最终确定,提高了相似度计算的精度,保证了匹配效果。
-
公开(公告)号:CN115374767A
公开(公告)日:2022-11-22
申请号:CN202211070999.8
申请日:2022-09-02
Applicant: 山东省计算中心(国家超级计算济南中心)
IPC: G06F40/211 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明属于数据挖掘技术领域,提供了一种基于交互式双仿射机制的实体关系联合抽取方法及系统,本发明将文本数据的实体关系联合抽取任务分解为主体实体识别、客体实体识别和主体‑客体对关系分类三个可以联合学习的子任务,在实体识别和关系分类阶段,通过预设的双仿射机制模型,可以将主体、客体和主体‑客体对关系分别映射到主体实体表、客体实体表和主体‑客体对关系分类表中,主体实体识别、客体实体识别和主体‑客体对关系分类能够在子任务层面上进一步地进行双向交互,提高了实体关系抽取效果,同时解决了识别分类过程中容易产生错误传播、实体冗余和子任务之间信息交互不足等问题。
-
公开(公告)号:CN113434756B
公开(公告)日:2022-05-27
申请号:CN202110683196.9
申请日:2021-06-18
Applicant: 山东省人工智能研究院 , 齐鲁工业大学 , 山东省计算中心(国家超级计算济南中心)
IPC: G06F16/9535 , G06F16/9536
Abstract: 一种基于图双向聚合网络链接预测模型的个性化评论推荐方法,在用户‑评论二部图中,聚合评论特征至用户特征。再结合社交网络,融合用户邻居特征得到用户的嵌入表示。然后将用户嵌入表示去除用户原始特征后聚合到评论中,通过对比评论聚合前后的差值来调整用户的嵌入表示。在此基础上,结合转发网络,通过边两端用户节点特征的内积计算边的得分,最后根据分数的高低进行推荐。通过推荐系统协助用户进行筛选,将评论的推荐任务转化为小范围内用户之间的链接预测任务。并提供能够处理异类型数据的特征提取方法,使得最终结果更具可表示性。
-
-
-
-
-
-
-
-
-