-
公开(公告)号:CN116628103A
公开(公告)日:2023-08-22
申请号:CN202310574023.2
申请日:2023-05-17
Applicant: 安徽大学
IPC: G06F16/28 , G06F16/242 , G06F18/10 , G06F18/25 , G06Q10/0635 , G06Q10/20 , G06Q50/04
Abstract: 本发明提出一种工业异常检测和解决方案知识图谱构建方法,包括,获取企业设备数据;从企业设备数据中提取实体以及实体之间的关系,构建企业设备知识图谱;获取企业产品生产过程中出现的现象数据,基于企业知识设备图谱以及现象数据建立企业产品与企业设备的逻辑关系网络;通过物理层面的节点同逻辑层面的节点之间的融合实现企业设备知识图谱以及逻辑关系网络的联通,建立现象‑>原因‑>解决方法的数据链,对企业设备知识图谱进行补全;基于补全的企业设备知识图谱进行工业生产中异常检测以及获取对应的解决方案。
-
公开(公告)号:CN115641009B
公开(公告)日:2023-05-05
申请号:CN202211421320.5
申请日:2022-11-14
Applicant: 安徽大学
IPC: G06Q10/0637 , G06N5/025 , G06F18/22 , G06F40/30 , G06F40/216
Abstract: 本申请提出了一种基于专利异构信息网络挖掘竞争者的方法及装置,涉及网络表示学习领域,包括:获取竞争对真值,根据竞争对真值从专利数据库中抽取并清洗专利数据以构建专利数据集;根据专利数据集确定专利语义相似度,根据专利语义相似度构建专利语义连边,根据专利语义连边构建专利异构信息网络;通过图嵌入获取专利异构信息网络内公司节点以及公司节点所处的结构特征;筛选公司节点,通过注意力机制综合公司节点的向量表示,得到公司节点的嵌入矩阵;根据嵌入矩阵计算公司节点间的余弦相似度,其中,将余弦相似度最高的结果作为目标公司的候选竞争者。本申请通过专利数据构建网络,引入图嵌入方法与注意力机制用于竞争者挖掘,提高挖掘效率。
-
公开(公告)号:CN115687576B
公开(公告)日:2023-04-07
申请号:CN202211706894.7
申请日:2022-12-29
Applicant: 安徽大学
IPC: G06F16/33 , G06F16/35 , G06F40/194 , G06F40/279
Abstract: 本发明提出一种主题约束表示的关键词抽取方法,包括,获取目标文本并对目标文本进行预处理,获得字序列;将所述字序列输入到预训练语言模型,获得目标文本中每个字的向量和文本主题向量;计算所述每次字向量与文本主题向量的相似度,得到相似性权重,根据相似性权重获得每个字的主题约束表示向量;将主题约束表示向量输入到序列标注分类器,得到每个字对应各个标签的概率;对目标文本进行滑动窗口采样,获取所有的候选词语,根据每个字对应各个标签的概率对候选词语进行排序,选择排序后的候选词语获得目标关键词。通过本发明提出的主题约束表示的关键词抽取方法,解决了如何从文本中抽取多个关键词问题。
-
公开(公告)号:CN115729957A
公开(公告)日:2023-03-03
申请号:CN202211501087.1
申请日:2022-11-28
Applicant: 安徽大学
IPC: G06F16/245 , G06F16/25
Abstract: 本申请提出了一种基于最大信息系数的未知流特征选择方法及装置,涉及数据挖掘领域,包括:根据公共数据集获取目标数据集,得到数据集的条件特征空间与类标签;根据随机选择特征方法确定数据集内特征不断产生并到达的场景;计算场景中新到达的特征和类标签之间的第一相关性,根据第一相关性与第一特征子集的平均相关性大小差值,确定是否丢弃特征;若所述特征保留,确定所述特征与所述第一特征子集的第二相关性,并在所述第二相关性大于预设阈值时,将所述特征加入所述第一特征子集,生成第二特征子集;当没有特征到达场景或程序结束时,输出第二特征子集。本申请在不需要知道每个特征类型时,精确保留数据集所需的最佳显著特征,提高效率。
-
公开(公告)号:CN114510584B
公开(公告)日:2022-12-13
申请号:CN202210412169.2
申请日:2022-04-19
Applicant: 北京智谱华章科技有限公司 , 安徽大学
IPC: G06F16/38 , G06F16/335
Abstract: 本公开涉及数据分析技术领域,具体涉及一种文献识别方法、装置、电子设备以及计算机可读存储介质,该文献识别方法包括:构建候选文献数据集和候选文献引文集合;获取候选文献数据集中各候选文献的施引文献数目、各候选文献的各施引文献的权重和引用信息,进而确定各候选文献的第一评估值;根据第一评估值过滤候选文献数据集得到候选文献过滤集;获取候选文献过滤集中各候选文献在预设时间周期内的被引数目变化量,各候选文献的各施引文献的第一技术领域数目和第二技术领域数目,确定各候选文献的第二评估值和第三评估值,根据第一评估值、第二评估值和第三评估值从候选文献过滤集中确定目标文献。根据本公开的方法提高了文献识别准确度。
-
公开(公告)号:CN110427541B
公开(公告)日:2022-09-16
申请号:CN201910717220.9
申请日:2019-08-05
Applicant: 安徽大学
IPC: G06F16/951 , G06F16/9532 , G06F16/958
Abstract: 本发明提供了一种网页内容提取方法,包括以下步骤:S1:针对待提取网页所属网站的代码规则确定HTML代码中与提取内容相关的第一特征、第二特征和第三特征S2:定义索引关键词;S3:提取完整的HTML页面;S4:确定索引关键词的父级范围;S5:将匹配关键词与输入的索引关键词进行比对,计算匹配概率;S6:输出匹配概率最大的匹配关键词对应的待提取内容。本发明提供的网页内容提取方法和系统的优点在于:通过前期对网站规则的解读确定相应特征进行后期的检索和提取,提高了在不同网站进行提取的适用性,通过匹配概率选择匹配度最高的关键词,提高了准确性,便于后期的数据处理,降低数据清洗难度。
-
公开(公告)号:CN114510584A
公开(公告)日:2022-05-17
申请号:CN202210412169.2
申请日:2022-04-19
Applicant: 北京智谱华章科技有限公司 , 安徽大学
IPC: G06F16/38 , G06F16/335
Abstract: 本公开涉及数据分析技术领域,具体涉及一种文献识别方法、装置、电子设备以及计算机可读存储介质,该文献识别方法包括:构建候选文献数据集和候选文献引文集合;获取候选文献数据集中各候选文献的施引文献数目、各候选文献的各施引文献的权重和引用信息,进而确定各候选文献的第一评估值;根据第一评估值过滤候选文献数据集得到候选文献过滤集;获取候选文献过滤集中各候选文献在预设时间周期内的被引数目变化量,各候选文献的各施引文献的第一技术领域数目和第二技术领域数目,确定各候选文献的第二评估值和第三评估值,根据第一评估值、第二评估值和第三评估值从候选文献过滤集中确定目标文献。根据本公开的方法提高了文献识别准确度。
-
公开(公告)号:CN108416048B
公开(公告)日:2021-09-21
申请号:CN201810220100.3
申请日:2018-03-16
Applicant: 安徽大学
IPC: G06F16/951 , G06F16/958 , G06F16/957 , G06F40/242
Abstract: 本发明公开了一种面向词典集的复杂从属结构网页信息抽取方法:根据页面标识判断页面是否完整并返回目标完整html页面;根据语义相关性将预设语种主标题挂接至定义的规则表示词典集中对应的规则表示中,生成全表示词典集;从复杂从属结构页面下提取全文本内容并最终形成目标文本内容,并用规则表示词典集中的规则表示替换全表示词典集分割目标文本内容得到包含每个规则表示子集的全分割复杂从属文本集;合并全分割复杂从属文本集中相同规则表示的子集内容并将其作为每个规则表示的全内容;基于新发布页面重新抽取主标题内容动态扩充全表示词典集。本发明解决了传统的网页的信息解析方法中不同站点之间内容主题相同但页面结构不统一而导致的解析困难的问题。
-
公开(公告)号:CN109145190B
公开(公告)日:2021-07-30
申请号:CN201810994562.0
申请日:2018-08-27
Applicant: 安徽大学
IPC: G06F16/953 , G06F40/216 , G06F40/58
Abstract: 本发明公开基于神经机器翻译技术的局部引文推荐方法及系统,对原始数据集进行引文提取、词形还原、词频统计数据清洗操作,得到引文上下文与被引文章标题的平行语料并构建初始待被引文章列表库;通过词向量模型中的跳字模型结合负采样的方法将引文上下文与被引文章标题中出现的词嵌入到低维语义空间得到词向量,构建一个带有注意力机制的双向门控循环单元的编码器和门控循环单元的解码器框架,将平行语料中的引文上下文通过词向量模型转换为词向量后作为模型的输入,被引文章标题作为输出来训练模型;将编码器‑解码器框架输出的种子标题与待被引文章列表中的所有文章标题逐条进行余弦相似度计算;依据文章年份,选取符合要求的文章作为推荐列表。
-
公开(公告)号:CN110427541A
公开(公告)日:2019-11-08
申请号:CN201910717220.9
申请日:2019-08-05
Applicant: 安徽大学
IPC: G06F16/951 , G06F16/9532 , G06F16/958
Abstract: 本发明提供了一种网页内容提取方法,包括以下步骤:S1:针对待提取网页所属网站的代码规则确定HTML代码中与提取内容相关的第一特征、第二特征和第三特征S2:定义索引关键词;S3:提取完整的HTML页面;S4:确定索引关键词的父级范围;S5:将匹配关键词与输入的索引关键词进行比对,计算匹配概率;S6:输出匹配概率最大的匹配关键词对应的待提取内容。本发明提供的网页内容提取方法和系统的优点在于:通过前期对网站规则的解读确定相应特征进行后期的检索和提取,提高了在不同网站进行提取的适用性,通过匹配概率选择匹配度最高的关键词,提高了准确性,便于后期的数据处理,降低数据清洗难度。
-
-
-
-
-
-
-
-
-