一种引用识别方法、设备和计算机可存储介质

    公开(公告)号:CN108829659B

    公开(公告)日:2021-02-09

    申请号:CN201810418503.9

    申请日:2018-05-04

    Abstract: 本发明公开了一种引用识别方法、设备和计算机可存储介质。所述方法,包括:获取原创语料和候选语料;利用预设的ROUGE算法计算所述原创语料和所述候选语料的ROUGE值;根据所述原创语料和所述候选语料的ROUGE值的大小,确定所述候选语料引用所述原创语料的程度。本发明解决了通过相似度比较算法不能识别部分引用的问题,本发明利用ROUGE算法,计算两个语料之间的ROUGE值,根据该ROUGE值可以识别出两个语料直接是否存在全部引用关系或者部分引用关系。

    文本溯源方法、设备及存储介质

    公开(公告)号:CN109783778B

    公开(公告)日:2020-10-23

    申请号:CN201811577909.8

    申请日:2018-12-20

    Abstract: 本发明实施例涉及一种文本溯源方法、设备及存储介质,所述方法包括:根据待判定文本和源文本生成词袋模型,所述源文本包括多个文本;利用多种预设的相似度算法,分别对所述词袋模型进行相似度计算,确定在不同相似度算法的情况下,所述源文本中多个文本与所述待判定文本的多个第一相似度排序;基于第一公式和所述第一相似度排序确定所述源文本源文本中多个文本与所述待判定文本的第二相似度排序;基于所述第二相似度排序从所述源文本中选择符合同源条件的文本作为所述待判定文本的同源文本,采用多种相似度的算法,可以弥补单一算法的不足,减少因计算方式不同带来的偶然性,提升计算结果的全面性和准确性。

    词向量模型的构建方法、关键词匹配方法及装置

    公开(公告)号:CN109614478A

    公开(公告)日:2019-04-12

    申请号:CN201811552104.8

    申请日:2018-12-18

    Abstract: 本申请实施例涉及一种词向量模型的构建方法、关键词匹配方法及装置,所述方法包括:选取目标关键词,以及与所述目标关键词对应的一个或多个目标文档数据;基于所述目标关键词从网络上获取与所述目标关键词关联的多个关联文档数据;将所述目标文档数据和符合训练条件的关联文档数据作为训练文本,采用Gensim的Word2vec API对所述训练文本进行训练,得到词向量模型,其中,所述符合训练条件的关联文档数据为:与所述目标文档数据的相似度大于第一阈值的所述关联文档数据。该模型在训练过程中,结合选定的目标文档数据,以及通过目标文档数据再选定关联文档数据中符合训练条件的文档数据,提高了该模型的准确性。

    一种事件认知分析方法、系统及存储介质

    公开(公告)号:CN109409529A

    公开(公告)日:2019-03-01

    申请号:CN201811069882.1

    申请日:2018-09-13

    Abstract: 本发明涉及一种事件认知分析方法、系统及存储介质,分析方法包括:实时获取互联网数据,对互联网数据进行处理得到特征向量;建立多维分类标签库,基于多维分类标签库和机器学习算法训练得到数据标签模型;将特征向量输入数据标签模型得到分类标签;基于分类标签进行事件认知分析。本发明实施例通过对互联网数据进行处理得到互联网数据的特征向量,基于机器学习算法得到数据标签模型,通过数据标签模型对特征向量进行分析,得到相应的分类标签,通过对互联网数据进行智能处理,形成内容关系网络,通过机器学习算法实现事件认知分析。

    一种大数据分析方法及系统

    公开(公告)号:CN109299082A

    公开(公告)日:2019-02-01

    申请号:CN201811068797.3

    申请日:2018-09-13

    Abstract: 本发明涉及一种大数据分析方法及系统,包括:采集大数据;根据预设的分析组件对所述大数据进行预处理;分析预处理后的大数据,得到可视化的分析组件;根据用户需求选择分析组件的类型;将所述分析组件进行合成,得到整个分析场景。本发明提供的技术方案可以自由选择所需要的分析组件,解决各种数据分析问题,适应各种应用场景。

    一种网页数据分布式模板采集方法及系统

    公开(公告)号:CN108763279A

    公开(公告)日:2018-11-06

    申请号:CN201810319851.0

    申请日:2018-04-11

    Abstract: 本发明涉及一种网页数据分布式模板采集方法及系统,该采集方法包括:将数据采集模板按所述网页的类型分别导入不同的数据表中进行存储;根据被采集的网页的类型从数据表中获取相应的数据采集模板,将模板池中的数据采集模板分发到至少两个采集客户端,采集客户端分别根据数据采集模板对网页进行数据抽取,整合得到网页的网页数据。本发明实施例通过构建不同的数据采集模板,根据被采集的网页的类型选取相应的数据采集模板,并通过多个采集客户端通过数据采集模板对该网页分别进行数据采集,保证数据的准确性和完整性。

    一种多元高效下载服务的实现方法及系统

    公开(公告)号:CN108683693A

    公开(公告)日:2018-10-19

    申请号:CN201810225500.3

    申请日:2018-03-19

    CPC classification number: H04L67/06

    Abstract: 本发明涉及一种多元高效下载服务的实现方法及系统,该实现方法包括:获取下载服务的接口,通过最优下载方式调用接口进行下载;当最优下载方式下载失败时,根据其他普通下载方式调用接口进行下载;当出现普通下载方式下载成功时,停止下载,将最优下载方式和普通下载方式中权重值最大的下载方式作为新的最优下载方式。本发明实施例根据不同的接口对应的下载方式的权重值大小,依次根据最优下载方式或普通下载方式调用对应接口进行下载,保证了因接口的不同,选取最优的下载方式进行下载,快速完成该接口对应的下载任务,实现了通用、高效、可靠性高以及高扩展性的多元化高并发下载服务响应机制。

    Agent自主规划多模态大模型内容创作方法、装置及系统

    公开(公告)号:CN119917641A

    公开(公告)日:2025-05-02

    申请号:CN202411988650.1

    申请日:2024-12-31

    Abstract: 本发明提供了一种Agent自主规划多模态大模型内容创作方法、装置及系统,涉及大模型内容创作技术领域,包括:根据写作要求及参考文件生成待创作内容的脉络结构骨架;根据每一段落信息对应的若干待检索问题进行相关信息资料收集,生成每一段落信息对应的段落内容;根据每一锚点信息生成每一锚点信息对应的图表或图片;获取每一段落内容中的每一需要做引用计算的句子,以得到引用句子列表A;遍历相似度列表η,若ηi>η’,则确定Ai无异常;生成用户输入的写作要求对应的多模态长文;对写作内容的校对;本发明中,通过创新性地结合动态知识获取、多模态生成、长篇写作规划及内容可信度保障,显著提升了AI写作的智能性、可靠性及多样性。

    大模型驱动的树索引结构在RAG内容解析中的应用方法

    公开(公告)号:CN119884278A

    公开(公告)日:2025-04-25

    申请号:CN202510070908.8

    申请日:2025-01-16

    Abstract: 本发明提供了大模型驱动的树索引结构在RAG内容解析中的应用方法,所述方法根据原始文本的长度和预设文本长度获取初始文本;根据初始文本对应的中间文本列表,获取中间文本列表对应的树状存储数据,其中,中间文本包括中间段落文本和中间段落文本对应的中间标题路径,中间标题路径中包括若干个标题级别不同的标题文本;获取树状存储数据中的每一个节点对应的属性信息,并将节点对应的属性信息存储到节点中,以使得对树状存储数据进行更新并给树状存储数据分配一个唯一的ID;将树状存储数据和树状存储数据的ID上传到RAG对应的数据库中,能够保证文本的整体结构和初始文本之间的语义联系不被破坏,能够提高RAG的检索效率和生成质量。

Patent Agency Ranking