-
公开(公告)号:CN106095928A
公开(公告)日:2016-11-09
申请号:CN201610409465.1
申请日:2016-06-12
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种事件类型识别方法及装置。该方法包括以下步骤:对训练集中所有文本进行分词、提取词性处理后训练词向量空间模型,提取文本的特征,将文本表示为特征向量;对于训练集进行事件类型聚类,训练带有类型聚类正则化项的神经网络模型;对于测试样本同样进行分析、提取词性处理,并利用已经训练好的词向量模型,得到特征表示;利用类型聚类正则化项的神经网络模型进行事件类别识别。借助于本发明的技术方案,能够利用同一群组中的类型共享信息来减轻标注数据不平衡带来的问题。
-
公开(公告)号:CN108829818A
公开(公告)日:2018-11-16
申请号:CN201810599385.6
申请日:2018-06-12
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供了一种构建文本分类模型的方法。该方法包括以下步骤:根据文本信息的字、词语和句子的结构特征构建训练样本集,其中,所述训练样本集中的每一条样本数据对应一条文本信息关于词语的特征矩阵A、关于字的特征矩阵B和该条文本信息对应的类别向量O,O的维度与类别数量相同;以所述训练样本集中关于词语的特征矩阵A和关于字的特征矩阵B为输入,以对应的类别向量O为输出,训练深度学习模型,以获得文本分类模型。根据本发明构建的分类模型进行分类,能够提高文本分类的准确率,尤其适用于短文本分类。
-
公开(公告)号:CN108647730A
公开(公告)日:2018-10-12
申请号:CN201810456096.0
申请日:2018-05-14
Applicant: 中国科学院计算技术研究所
IPC: G06K9/62
Abstract: 本发明涉及机器分类领域,特别是一种利用历史交互数据共现进行的无人工参与的属性划分领域。本发明利用互联网长期的交互数据积累,从海量数据中获取信息,根据历史数据中多数人通过一定时间窗口内浏览、点击等交互行为中共同出现的物体、信息等,将这些物体、信息等通过无监督的技术手段进行归类,从而解决物体划分标准不统一、无划分规则或标准时很难划分、人工参与成本高的现有划分的三个难题,帮助需求方节省成本、创造价值的同时解决划分中遇到的问题。
-
公开(公告)号:CN108829818B
公开(公告)日:2021-05-25
申请号:CN201810599385.6
申请日:2018-06-12
Applicant: 中国科学院计算技术研究所
IPC: G06F16/35
Abstract: 本发明提供了一种构建文本分类模型的方法。该方法包括以下步骤:根据文本信息的字、词语和句子的结构特征构建训练样本集,其中,所述训练样本集中的每一条样本数据对应一条文本信息关于词语的特征矩阵A、关于字的特征矩阵B和该条文本信息对应的类别向量O,O的维度与类别数量相同;以所述训练样本集中关于词语的特征矩阵A和关于字的特征矩阵B为输入,以对应的类别向量O为输出,训练深度学习模型,以获得文本分类模型。根据本发明构建的分类模型进行分类,能够提高文本分类的准确率,尤其适用于短文本分类。
-
公开(公告)号:CN108647730B
公开(公告)日:2020-11-24
申请号:CN201810456096.0
申请日:2018-05-14
Applicant: 中国科学院计算技术研究所
IPC: G06K9/62
Abstract: 本发明涉及机器分类领域,特别是一种利用历史交互数据共现进行的无人工参与的属性划分领域。本发明利用互联网长期的交互数据积累,从海量数据中获取信息,根据历史数据中多数人通过一定时间窗口内浏览、点击等交互行为中共同出现的物体、信息等,将这些物体、信息等通过无监督的技术手段进行归类,从而解决物体划分标准不统一、无划分规则或标准时很难划分、人工参与成本高的现有划分的三个难题,帮助需求方节省成本、创造价值的同时解决划分中遇到的问题。
-
-
-
-