提取文字图片及其描述的方法和系统

    公开(公告)号:CN113111869A

    公开(公告)日:2021-07-13

    申请号:CN202110368879.5

    申请日:2021-04-06

    Abstract: 本发明提供了一种提取文字图片及其描述的方法和系统,包括:从文件中抽取图片及其相关描述;判断图片中是否包含子图,若不包含子图则返回图片及其描述并结束;若包含子图则基于YOLO4模型进行目标检测,对子图进行识别切割;基于YOLO4目标检测模型检测子图的图片序号;基于CRNN算法,识别检测到的图片序号;根据图片序号信息对文本描述进行拆分及重新组合;将切割好的图片与其对应的文本描述匹配并返回。本发明可抽取文件中的图片及其描述,若图片中包含子图,则将子图进行切割并与其对应描述对齐,实现了将文件中的图片数据进行整理的目的。

    基于带权时序文本网络的时序社区以及话题的检测方法

    公开(公告)号:CN107515854B

    公开(公告)日:2021-06-04

    申请号:CN201710625669.3

    申请日:2017-07-27

    Abstract: 本发明公开了一种基于带权时序文本网络的时序社区以及话题的检测方法,包括:基于原始数据构建带权时序文本网络;针对带权时序文本网络,构建基于主题模型的生成模型;利用吉布斯采样方法构建生成模型的推断过程;根据模型的推断过程,对带权时序文本网络进行训练,提取出社区信息,主题信息,社区与主题的对应关系,用户在社区内影响力与参与度随时间变化特性;根据提取出的信息,对用户行为进行预测。本发明对时序文本网络中的时间信息和权重信息了进行全新建模,考虑了网络中边的时间信息并对其进行了连续性建模,对带权时序网络进行了全面建模,有利于了解社区在时间尺度上的变化与发展与个人关于社区在时间尺度上的发展。

    基于知识图谱具有可解释性的论文推荐方法及系统、终端

    公开(公告)号:CN112632296A

    公开(公告)日:2021-04-09

    申请号:CN202011639739.9

    申请日:2020-12-31

    Abstract: 本发明提供了一种基于知识图谱具有可解释性的论文推荐方法,包括如下步骤:从数据库中获取论文和用户的数据,利用获取的数据构建异构图;通过在构建的异构图中使用随机游走算法生成多条路径,利用图嵌入算法输出异构图中每个节点的向量表示;在异构图中查找到多条路径,将多条路径用矩阵表示,作为训练数据集的输入,将每条路径对应的某位用户对某论文的评分值,作为训练数据集的输出,构建训练集;搭建循环神经网络和全联接层模型,从训练集中学习循环神经网络和全联接层模型的参数;根据循环神经网络和全联接层模型为每位用户推荐预测评分最高的多篇论文,并向用户解释做出此推荐的依据。本发明通过引入知识图谱,使得推荐的结果更具可解释性。

    多语言BERT序列标注模型的压缩方法及系统

    公开(公告)号:CN112613273A

    公开(公告)日:2021-04-06

    申请号:CN202011490078.8

    申请日:2020-12-16

    Abstract: 本发明提供了多语言BERT序列标注模型的压缩方法及系统,涉及BERT类模型的知识蒸馏技术领域,该方法包括:步骤1:基于Wordpiece算法从多语语料中抽取词表;步骤2:对多/单语言BERT教师模型、多语言BERT学生模型进行预训练;步骤3:基于人工标注的下游任务数据对多/单语言BERT教师模型进行微调;步骤4:利用多/单语言BERT教师模型对预训练后的多语言BERT学生模型进行残差知识蒸馏;步骤5:基于人工标注的下游任务数据对蒸馏后的多语言BERT学生模型进行微调。本发明通过残差学习和多对一的知识蒸馏方式,提高了学生模型的准确率和泛化程度,降低了多语言环境下BERT类序列标注模型部署所需的硬件资源。

    一种数据可视化处理方法、装置及存储介质

    公开(公告)号:CN111026895A

    公开(公告)日:2020-04-17

    申请号:CN201911212122.6

    申请日:2019-12-02

    Abstract: 本申请实施例提供一种数据可视化处理方法、装置及存储介质,所述方法包括:对初始网络中各层位图的节点进行重叠去除,得到待处理网络;分别对所述待处理网络中的每层位图进行切片,得到各层位图的至少两个切片,所述至少两个切片均分布在预设窗口内,所述切片包括至少两个节点;在各切片上设置节点信息以及节点间的关联信息,得到多层切片;将所述多层切片保存为至少两个图片,对所述至少两个图片进行分层加载,以展示各图片对应的图形界面。本方案能够提高网络的绘制效率和网络的缩放效率。

    基于规则推理和句法图式的图嵌入方法及系统

    公开(公告)号:CN110245238A

    公开(公告)日:2019-09-17

    申请号:CN201910314357.X

    申请日:2019-04-18

    Abstract: 本发明提供一种基于规则推理和句法图式的图嵌入方法及系统,步骤1使用条件随机场算法-双向长短期记忆网络从原始问题中提取实体/值;步骤2基于第一步中的实体/值信息和特定领域知识图的图式,采用传统的规则推理方法检测查询子图的可能结构;步骤3使用第一步的类标签结果来替换原问题中的实体/值;步骤4根据第二步结构检测步骤和第三步链接/属性提取步骤的结果,使用传统的规则推断方法对所有原始问题形成查询子图;步骤5对于不能形成连接查询子图的原始问题,构建句型示意图,使用Node2Vec学习表示句子模式图,利用双向长短期记忆网络的输出来模拟原始问题中隐藏的链接。使得用户可以快速地将自然语言转化为数据库查询语句。

    基于多维特征融合的二阶段学术数据网页分类方法及系统

    公开(公告)号:CN115130601A

    公开(公告)日:2022-09-30

    申请号:CN202210795308.4

    申请日:2022-07-07

    Abstract: 本发明提供了一种基于多维特征融合的二阶段学术数据网页分类方法及系统,涉及网页分类技术领域,包括:步骤S1:基于学术关键词,输入搜索引擎进行检索,获取检索页面内容;步骤S2:开展基于短文本逻辑回归模型的第一阶段分类;步骤S3:获取第一阶段分类完成后标签为数据网页的网页HTML信息;步骤S4:基于网页长文本和网址信息,开展第二阶段分类,采用文本卷积神经网络结合三元组损失的深度度量学习算法;步骤S5:将最终的分类结果入库整理,分析网页中的必要信息,展示在数据门户网站上。本发明能够快速准确地从互联网中筛选出数据网页。

    基于感染图卷积网络的源识别方法及系统

    公开(公告)号:CN113469261B

    公开(公告)日:2022-07-15

    申请号:CN202110786345.4

    申请日:2021-07-12

    Abstract: 本发明提供了一种基于感染图卷积网络的源识别方法及系统,涉及网络探索式搜索技术领域,该方法包括:步骤S1:输入经过对称归一化的拉普拉斯矩阵和各个节点的特征向量V;步骤S2:基于图神经网络的特征优化层,基于通过向量化的特征输入对图神经网络进行迭代更新,对特征向量V进行优化;步骤S3:基于多个IGCN网络层根据不同的类型节点选择分配不同的权重进行特征优化,更新特征向量V;步骤S4:根据更新的特征向量V,输入到前反馈神经网络中,输出学习得到的分类概率;步骤S5:将源识别问题定义为图分类问题,使用交叉熵损失函数进行反向传播,学习输入节点的特征向量V。本发明能够在模型无关的情况下提高对源的预测准确性。

Patent Agency Ranking