词向量模型的构建方法、关键词匹配方法及装置

    公开(公告)号:CN109614478A

    公开(公告)日:2019-04-12

    申请号:CN201811552104.8

    申请日:2018-12-18

    Abstract: 本申请实施例涉及一种词向量模型的构建方法、关键词匹配方法及装置,所述方法包括:选取目标关键词,以及与所述目标关键词对应的一个或多个目标文档数据;基于所述目标关键词从网络上获取与所述目标关键词关联的多个关联文档数据;将所述目标文档数据和符合训练条件的关联文档数据作为训练文本,采用Gensim的Word2vec API对所述训练文本进行训练,得到词向量模型,其中,所述符合训练条件的关联文档数据为:与所述目标文档数据的相似度大于第一阈值的所述关联文档数据。该模型在训练过程中,结合选定的目标文档数据,以及通过目标文档数据再选定关联文档数据中符合训练条件的文档数据,提高了该模型的准确性。

    一种事件认知分析方法、系统及存储介质

    公开(公告)号:CN109409529A

    公开(公告)日:2019-03-01

    申请号:CN201811069882.1

    申请日:2018-09-13

    Abstract: 本发明涉及一种事件认知分析方法、系统及存储介质,分析方法包括:实时获取互联网数据,对互联网数据进行处理得到特征向量;建立多维分类标签库,基于多维分类标签库和机器学习算法训练得到数据标签模型;将特征向量输入数据标签模型得到分类标签;基于分类标签进行事件认知分析。本发明实施例通过对互联网数据进行处理得到互联网数据的特征向量,基于机器学习算法得到数据标签模型,通过数据标签模型对特征向量进行分析,得到相应的分类标签,通过对互联网数据进行智能处理,形成内容关系网络,通过机器学习算法实现事件认知分析。

    一种大数据分析方法及系统

    公开(公告)号:CN109299082A

    公开(公告)日:2019-02-01

    申请号:CN201811068797.3

    申请日:2018-09-13

    Abstract: 本发明涉及一种大数据分析方法及系统,包括:采集大数据;根据预设的分析组件对所述大数据进行预处理;分析预处理后的大数据,得到可视化的分析组件;根据用户需求选择分析组件的类型;将所述分析组件进行合成,得到整个分析场景。本发明提供的技术方案可以自由选择所需要的分析组件,解决各种数据分析问题,适应各种应用场景。

    一种网页数据分布式模板采集方法及系统

    公开(公告)号:CN108763279A

    公开(公告)日:2018-11-06

    申请号:CN201810319851.0

    申请日:2018-04-11

    Abstract: 本发明涉及一种网页数据分布式模板采集方法及系统,该采集方法包括:将数据采集模板按所述网页的类型分别导入不同的数据表中进行存储;根据被采集的网页的类型从数据表中获取相应的数据采集模板,将模板池中的数据采集模板分发到至少两个采集客户端,采集客户端分别根据数据采集模板对网页进行数据抽取,整合得到网页的网页数据。本发明实施例通过构建不同的数据采集模板,根据被采集的网页的类型选取相应的数据采集模板,并通过多个采集客户端通过数据采集模板对该网页分别进行数据采集,保证数据的准确性和完整性。

    一种多元高效下载服务的实现方法及系统

    公开(公告)号:CN108683693A

    公开(公告)日:2018-10-19

    申请号:CN201810225500.3

    申请日:2018-03-19

    CPC classification number: H04L67/06

    Abstract: 本发明涉及一种多元高效下载服务的实现方法及系统,该实现方法包括:获取下载服务的接口,通过最优下载方式调用接口进行下载;当最优下载方式下载失败时,根据其他普通下载方式调用接口进行下载;当出现普通下载方式下载成功时,停止下载,将最优下载方式和普通下载方式中权重值最大的下载方式作为新的最优下载方式。本发明实施例根据不同的接口对应的下载方式的权重值大小,依次根据最优下载方式或普通下载方式调用对应接口进行下载,保证了因接口的不同,选取最优的下载方式进行下载,快速完成该接口对应的下载任务,实现了通用、高效、可靠性高以及高扩展性的多元化高并发下载服务响应机制。

    Agent自主规划多模态大模型内容创作方法、装置及系统

    公开(公告)号:CN119917641A

    公开(公告)日:2025-05-02

    申请号:CN202411988650.1

    申请日:2024-12-31

    Abstract: 本发明提供了一种Agent自主规划多模态大模型内容创作方法、装置及系统,涉及大模型内容创作技术领域,包括:根据写作要求及参考文件生成待创作内容的脉络结构骨架;根据每一段落信息对应的若干待检索问题进行相关信息资料收集,生成每一段落信息对应的段落内容;根据每一锚点信息生成每一锚点信息对应的图表或图片;获取每一段落内容中的每一需要做引用计算的句子,以得到引用句子列表A;遍历相似度列表η,若ηi>η’,则确定Ai无异常;生成用户输入的写作要求对应的多模态长文;对写作内容的校对;本发明中,通过创新性地结合动态知识获取、多模态生成、长篇写作规划及内容可信度保障,显著提升了AI写作的智能性、可靠性及多样性。

    大模型驱动的树索引结构在RAG内容解析中的应用方法

    公开(公告)号:CN119884278A

    公开(公告)日:2025-04-25

    申请号:CN202510070908.8

    申请日:2025-01-16

    Abstract: 本发明提供了大模型驱动的树索引结构在RAG内容解析中的应用方法,所述方法根据原始文本的长度和预设文本长度获取初始文本;根据初始文本对应的中间文本列表,获取中间文本列表对应的树状存储数据,其中,中间文本包括中间段落文本和中间段落文本对应的中间标题路径,中间标题路径中包括若干个标题级别不同的标题文本;获取树状存储数据中的每一个节点对应的属性信息,并将节点对应的属性信息存储到节点中,以使得对树状存储数据进行更新并给树状存储数据分配一个唯一的ID;将树状存储数据和树状存储数据的ID上传到RAG对应的数据库中,能够保证文本的整体结构和初始文本之间的语义联系不被破坏,能够提高RAG的检索效率和生成质量。

    一种针对大语言模型的推理过程的优化方法及装置

    公开(公告)号:CN119849626A

    公开(公告)日:2025-04-18

    申请号:CN202411916870.3

    申请日:2024-12-24

    Abstract: 本申请实施例提供了一种针对大语言模型的推理过程的优化方法及装置,涉及大语言模型技术领域,该方法具体为:接收用户输入的问题文本;获取所述问题文本对应的目标特征集合,并基于所述目标特征集合对所述问题文本进行复杂度量化评估,以获取所述问题文本对应的目标复杂度;所述目标特征集合中的特征用于表征所述问题文本的复杂性;基于所述目标复杂度确定待激活的解码层的目标数量M,并将所述目标数量的解码层进行激活;其中,M为大于等于1的整数;待M个解码层激活之后,利用所述M个解码层对所述问题文本进行解码分析,获取所述问题文本对应的目标答复文本。本申请能够提高大语言模型的推理效率,同时避免资源浪费。

    基于对偶复数的知识图谱推理方法、装置、设备及介质

    公开(公告)号:CN119849625A

    公开(公告)日:2025-04-18

    申请号:CN202411916264.1

    申请日:2024-12-24

    Abstract: 本公开涉及一种基于对偶复数的知识图谱推理方法、装置、设备及介质,该方法包括:从待推理的知识图谱中提取样本三元组;对样本三元组进行负采样,得到负样本三元组;将样本三元组和负样本三元组确定为训练数据输入至用于将实体和关系嵌入至对偶复数空间的向量转换模型,基于向量转换模型输出的第一头实体向量、第一关系向量、第一尾实体向量、第二头实体向量、第二关系向量和第二尾实体向量构建损失函数,并对向量转换模型进行训练;基于训练后的向量转换模型对知识图谱进行推理补全。本公开通过将对偶复数空间应用于知识图谱的向量表示并训练向量转换模型,能够在不牺牲模型表现力的情况下减少参数量,提高知识图谱推理补全任务的运算效率。

Patent Agency Ranking