一种分布式的趋同行为挖掘方法与系统

    公开(公告)号:CN108563715A

    公开(公告)日:2018-09-21

    申请号:CN201810271602.9

    申请日:2018-03-29

    Abstract: 本发明涉及一种分布式的趋同行为挖掘方法和系统,包括:获取由四元组数据组成的数据集合,四元组数据包括对象、事件、时间点和权重,将数据集合按照事件类型划分为多个事件集合;为事件集合构建索引树,根据事件集合中的时间点确定索引树的时间总长,根据线段树划分法将时间总长拆分为时间段,索引树的每个节点对应时间段中每个对象的权重和,存储索引树至分布式数据库;获取待查询对象的待查询事件和待查询时间段,在分布式数据库查找与待查询事件相对应的索引树,作为待查询索引树,在待查询索引树中查询待查询时间段中每个对象的权重和,作为待查询对象的趋同程度,选择趋同程度最高的对象作为挖掘结果。

    一种基于并行自动编码机的特征学习方法及系统

    公开(公告)号:CN105825269B

    公开(公告)日:2018-06-26

    申请号:CN201610147007.5

    申请日:2016-03-15

    Abstract: 本发明提供一种基于并行自动编码机的特征学习方法,包括:1)管理机执行Map操作,为各个工作机规划任务并将任务分发给每个工作机;其中,各个工作机的任务一致,均是基于所输入的数据对自动编码机的权值矩阵进行训练;所述权值矩阵包含了所述自动编码机的所有权值;2)每个工作机分别读取该工作机对应的部分数据集;3)各个工作机并行地执行管理机所分发的任务,对自动编码机的权值矩阵进行训练,然后每个工作机将它所训练的权值矩阵反馈给管理机;4)管理机执行Reduce操作,对各个工作机反馈的权值矩阵进行算数平均。本发明能够更加高效地实现特征学习;能够将并行自动编码机的数据处理的时间复杂度由二次复杂度降为线性复杂度。

    一种会话摘要生成方法及装置

    公开(公告)号:CN106407178A

    公开(公告)日:2017-02-15

    申请号:CN201610727972.X

    申请日:2016-08-25

    CPC classification number: G06F17/2785

    Abstract: 本发明涉及数据分析技术领域,特别是涉及一种会话摘要生成方法及装置。本发明通过获取用户与用户之间或者用户与聊天机器人之间的会话内容,得到与会话内容对应的会话文本,根据不同的意图和/或主题将会话文本划分为若干个会话组,并对会话组的会话文本进行分析,生成对应的会话摘要,为用户提供一种新颖的服务产品。本发明可以自动梳理用户的聊天内容,生成简洁的摘要,进而在用户查看聊天记录时,可以通过呈现会话摘要替代冗长的聊天记录,使呈现内容更简洁、直观,提升用户体验。

    一种用于大数据的并行半定义分类方法与系统

    公开(公告)号:CN106096063A

    公开(公告)日:2016-11-09

    申请号:CN201610570978.0

    申请日:2016-07-19

    CPC classification number: G06F17/30011 G06F17/30861

    Abstract: 本发明提出一种用于大数据的并行半定义分类方法与系统,涉及互联网行业技术领域,该方法包括串行步骤,获取文档的类别变量z、主题变量y、文档上类别的分布θ、类别上主题的分布π、主题上词的分布φ,结合先验参数α、β、δ,对类别变量z与主题变量y进行迭代采样,直到类别变量z与主题变量y收敛到平稳分布,对主题上词的分布φ、类别上主题的分布π、主题上词的分布φ进行估计,选择主题上词的分布φ中概率最高的一个类别作为文档的类标,并根据类标进行文档分类。本发明解决了海量数据下,传统分类或者半监督聚类难以解决的半定义分类问题。

    一种基于并行自动编码机的特征学习方法及系统

    公开(公告)号:CN105825269A

    公开(公告)日:2016-08-03

    申请号:CN201610147007.5

    申请日:2016-03-15

    CPC classification number: G06N3/0454 G06F17/30545 G06N3/08

    Abstract: 本发明提供一种基于并行自动编码机的特征学习方法,包括:1)管理机执行Map操作,为各个工作机规划任务并将任务分发给每个工作机;其中,各个工作机的任务一致,均是基于所输入的数据对自动编码机的权值矩阵进行训练;所述权值矩阵包含了所述自动编码机的所有权值;2)每个工作机分别读取该工作机对应的部分数据集;3)各个工作机并行地执行管理机所分发的任务,对自动编码机的权值矩阵进行训练,然后每个工作机将它所训练的权值矩阵反馈给管理机;4)管理机执行Reduce操作,对各个工作机反馈的权值矩阵进行算数平均。本发明能够更加高效地实现特征学习;能够将并行自动编码机的数据处理的时间复杂度由二次复杂度降为线性复杂度。

    数字内容标识体系的构建方法及系统

    公开(公告)号:CN119578426A

    公开(公告)日:2025-03-07

    申请号:CN202411616032.4

    申请日:2024-11-13

    Abstract: 本发明提供了一种数字内容标识体系的构建方法,包括:利用预训练的大语言模型,生成模型训练所需的训练数据;根据所述训练数据从不同维度构建初始的树状结构,形成初始标识体系;从所述初始标识体系提取标识数据,构建正负样本对,并利用所述正负样本对将语义嵌入模型进行微调;利用微调后的所述语义嵌入模型,将新出现的数字内容标识与标识体系里的标识进行语义比较,确定所述新数字内容标识在所述树状结构中的内容关联的同级结点,并将所述新数字内容标识定位到所述同级结点处。本发明还提供一种数字内容标识体系的构建系统、存储介质及电子设备。借此,本发明在无需大量基础数据情况下,能够构建一个准确捕捉词语深层语义关系的标识体系,使得标识集结构化和关系化,便于分析、展示和持续更新。

    一种链上多模态数字内容的标识集构建方法及装置

    公开(公告)号:CN118427348A

    公开(公告)日:2024-08-02

    申请号:CN202410527639.9

    申请日:2024-04-29

    Abstract: 本发明提出一种链上多模态数字内容的标识集构建方法及装置,包括:利用区块链交互库,对目标智能合约中的元数据更新事件进行监测,当该目标智能合约的元数据发生更新,采用多模态模型,分析更新后的元数据,将其转换成文本描述;提取该文本描述和该元数据的语义信息,得到其高维语义特征;将该高维语义特征转换到低维空间,得到低维语义特征;根据该低维语义特征对该文本描述和该元数据的语义信息进行聚类,得到多个聚类,每个聚类对应一个新主题;从每个聚类中提取关键词,作为该新主题的主题内容,将各个新主题和其对应的主题内容作为该目标智能合约的数字内容标识集构建结果。

    确定候选输入的方法和装置及输入提示方法和装置

    公开(公告)号:CN107688398B

    公开(公告)日:2019-09-17

    申请号:CN201610630302.6

    申请日:2016-08-03

    Abstract: 本发明涉及一种确定候选输入的方法和装置及输入提示方法和装置,该方法根据当前语句的输入文字以及上文和/或下文计算的当前语句的输入文字的可能连接词,并且未达到候选句子更新的结束条件时,将候选句子连接不具有结束标识的可能连接词后更新候选句子,循环计算更新候选句子的可能连接词,直到达到候选句子更新的结束条件。将具有结束标识的连接词连接到对应的候选句子中得到具有结束标识的候选句子,计算具有结束标识的候选句子的出现概率,并将出现概率最大的预设个具有结束标识的候选句子作为候选输入。通过确定符合上下文语境的长句的候选输入,用户无需多次输入得到长句,能够提高输入效率。

    一种多标记学习方法
    9.
    发明公开

    公开(公告)号:CN108364073A

    公开(公告)日:2018-08-03

    申请号:CN201810062864.4

    申请日:2018-01-23

    CPC classification number: G06N20/00

    Abstract: 本发明提供一种多标记学习模型的训练方法。该方法包括以下:利用给定的多标记数据训练集对包含自动编码机和多分类模型的多标记学习模型进行训练;检查所述多标记学习模型的损失函数,所述多标记学习模型的损失函数包括所述自动编码机的损失项以及所述多分类模型的损失项;在所述损失函数不满足预定的精度要求时,迭代所述自动编码机和所述多分类模型的相关参数;获得所述多分类模型对应的训练分类器以及所述自动编码机的优化权重矩阵和偏置向量。采用本发明获得的训练模型对数据进行多分类,能够有效的利用大量未标记的数据,提高了分类的精确度。

    描述型多维度事件序列的并行频繁情节挖掘方法与系统

    公开(公告)号:CN106203631A

    公开(公告)日:2016-12-07

    申请号:CN201610524750.8

    申请日:2016-07-05

    CPC classification number: G06N5/025 H04L63/1416

    Abstract: 本发明提出描述型多维度事件序列的并行频繁情节挖掘方法与系统,涉及互联网技术领域,该方法包括按照事件属性将所述事件序列分为多个事件子序列,对每个事件子序列进行挖掘,并将挖掘结果进行存储,将相同的事件子序列进行计数累加,将计数结果小于预设阈值的事件子序列过滤,生成事件子序列集合;以待扩展情节为前缀,连接所述事件子序列集合中任一项所述事件子序列,生成新的情结,计算所述新的情结的发生,并存储到发生集合,通过递归对所述新的情结进行扩展。本发明实现了子序列之间挖掘的完全并行,即在多节点同时计算各子序列的所有情节及其发生集合,最终合并所有子序列的挖掘结果获得全局频繁情节。

Patent Agency Ranking