一种LSTM神经网络训练方法及装置

    公开(公告)号:CN110782002A

    公开(公告)日:2020-02-11

    申请号:CN201910863211.0

    申请日:2019-09-12

    Inventor: 曾理 王纯斌 蓝科

    Abstract: 本发明公开了一种LSTM神经网络训练方法及装置,本发明的目的在于提供一种基于文本感知聚焦机制的长短时记忆网络训练方法。该发明将人类感知事物时对关键信息形成聚焦,给予更多注意力权重的机理用于神经网络模型训练;将词向量模式应用于文本中实体关系、事件等关键信息,计算实体向量和事件向量,对训练数据进行实体增强、关系增强和事件增强,在不改变网络结构的前提下,增加训练数据中关键信息的比重,从而获得更加适用于训练数据的网络参数,提升LSTM神经网络性能。

    一种LSTM神经网络训练方法及装置

    公开(公告)号:CN110782002B

    公开(公告)日:2022-04-05

    申请号:CN201910863211.0

    申请日:2019-09-12

    Inventor: 曾理 王纯斌 蓝科

    Abstract: 本发明公开了一种LSTM神经网络训练方法及装置,本发明的目的在于提供一种基于文本感知聚焦机制的长短时记忆网络训练方法。该发明将人类感知事物时对关键信息形成聚焦,给予更多注意力权重的机理用于神经网络模型训练;将词向量模式应用于文本中实体关系、事件等关键信息,计算实体向量和事件向量,对训练数据进行实体增强、关系增强和事件增强,在不改变网络结构的前提下,增加训练数据中关键信息的比重,从而获得更加适用于训练数据的网络参数,提升LSTM神经网络性能。

    一种海量数据聚类分析方法及装置

    公开(公告)号:CN110717086A

    公开(公告)日:2020-01-21

    申请号:CN201911270066.1

    申请日:2019-12-12

    Abstract: 本发明公开了一种海量数据聚类分析方法及装置,本发明的目的在于实现一种基于并行计算的DBSCAN算法,解决传统密度聚类算法无法进行海量数据分析的问题。该发明提出了高效的交叠分区和类簇合并策略,能够快速的进行数据拆分和类簇合并,并且该方法充分考虑了负载均衡,可以在分布式框架下实现高效运算,从而支持海量数据的聚类,高效地解决了传统DBSCAN无法进行海量数据分析的问题,因此该方法具有较高的性能和实用价值。

    一种基于广义K均值算法的文本多标记学习方法

    公开(公告)号:CN109685103A

    公开(公告)日:2019-04-26

    申请号:CN201811349729.4

    申请日:2018-11-13

    CPC classification number: G06K9/6223 G06K9/6256

    Abstract: 本发明公开了一种基于广义K均值算法的文本多标记学习方法,包括以下步骤:预处理原始文本,得到训练样本集和测试样本集;根据训练样本集初始化字典D0并随机挑选K个样本,通过KSVD算法逐列更新字典D0中的样本直到满足迭代停止条件,得到欠完备字典D并将欠完备字典D中的样本作为多标记学习的标记向量;计算样本在欠完备字典D上的稀疏编码,以编码向量非零值索引位置的对应样本为样本多标记学习分类结果,以向量非零值大小为标记权重,完成标记排序。本发明充分挖掘标记之间的相关性,效果符合人类直觉认知习惯,自然感强、可解释性好,降低了计算存储开销和“维度灾难”的发生频率;同时对样本异常、缺失具有鲁棒性。

Patent Agency Ranking