跨领域观点数据的分类方法和装置

    公开(公告)号:CN105095277A

    公开(公告)日:2015-11-25

    申请号:CN201410201027.7

    申请日:2014-05-13

    Abstract: 本发明公开了一种跨领域观点数据的分类方法和装置,属于互联网技术领域。方法包括:根据源领域和目标领域的共享话题获取共享话题矩阵,并根据源领域的领域特定话题和目标领域的特定话题分别获取源领域的领域特定话题矩阵和目标领域的领域特定话题矩阵;确定源领域的目标函数,并确定目标领域的目标函数;根据源领域的目标函数和目标领域的目标函数确定总目标函数;确定总目标函数中各个参数的收敛值,根据总目标函数中各个参数的收敛值获取分类函数;根据分类函数对目标领域的观点数据进行分类。本发明通过共享话题矩阵获取的分类函数对跨领域观点数据进行分类,由于共享话题矩阵可以减小不同领域的差距,因而提高了对跨领域观点数据分类的精度。

    文档查询方法及装置
    2.
    发明公开

    公开(公告)号:CN104239402A

    公开(公告)日:2014-12-24

    申请号:CN201410353033.4

    申请日:2014-07-23

    CPC classification number: G06F17/30675 G06F17/30693

    Abstract: 本发明公开了一种文档查询方法及装置,属于数据查询领域。所述方法包括:通过获取待查询的文档q和该文档q对应的类别Cp;通过与类别Cp对应的词-主题矩阵将该文档q变换到主题空间上的最优表示形式vq;根据vq在与类别Cp对应的主题-文档矩阵Vp中查询与该文档q相似的历史文档;其中,词-主题矩阵和主题-文档矩阵Vp是预先对各个历史文档按照不同类别进行组非负矩阵分解所得到的矩阵;本发明解决了目前查询方法所查询到的历史文档的结果不一定符合用户预期的问题;达到了通过词-主题矩阵和主题-文档矩阵Vp来进行文档查询,提高了查询的准确率,优化了文档查询的结果。

    情感数据分类方法和系统

    公开(公告)号:CN104199829A

    公开(公告)日:2014-12-10

    申请号:CN201410361587.9

    申请日:2014-07-25

    CPC classification number: G06F17/30864 G06K9/6267

    Abstract: 本发明提供了一种情感数据分类方法和系统,所述方法包括:构造训练数据集对应的文档-文档图和词-词图,所述文档-文档图中,节点表示所述训练数据集中的文档,边的几何信息表示文档之间的相关度,所述词-词图中,节点表示所述训练数据集中的词,边的几何信息表示词之间的相关度;根据所述文档-文档图和词-词图的几何信息构造目标函数中的基于图的正则化项;对所述目标函数进行优化处理,输出文档-情感矩阵;获取测试数据集中的文档,根据所述文档-情感矩阵获取与所述测试数据集中的文档对应的情感倾向。采用该方法和系统,能够提高情感分类精度。

    跨领域观点数据的分类方法和装置

    公开(公告)号:CN105095277B

    公开(公告)日:2019-12-03

    申请号:CN201410201027.7

    申请日:2014-05-13

    Abstract: 本发明公开了一种跨领域观点数据的分类方法和装置,属于互联网技术领域。方法包括:根据源领域和目标领域的共享话题获取共享话题矩阵,并根据源领域的领域特定话题和目标领域的特定话题分别获取源领域的领域特定话题矩阵和目标领域的领域特定话题矩阵;确定源领域的目标函数,并确定目标领域的目标函数;根据源领域的目标函数和目标领域的目标函数确定总目标函数;确定总目标函数中各个参数的收敛值,根据总目标函数中各个参数的收敛值获取分类函数;根据分类函数对目标领域的观点数据进行分类。本发明通过共享话题矩阵获取的分类函数对跨领域观点数据进行分类,由于共享话题矩阵可以减小不同领域的差距,因而提高了对跨领域观点数据分类的精度。

    文档聚类的方法及装置
    5.
    发明公开

    公开(公告)号:CN105095275A

    公开(公告)日:2015-11-25

    申请号:CN201410200769.8

    申请日:2014-05-13

    Inventor: 周光有 薛伟 管刚

    Abstract: 本发明公开了一种文档聚类的方法及装置,属于统计技术领域。方法包括:根据检索词-文档矩阵、非负检索词-主题矩阵、非负主题-文档矩阵、正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵确定目标函数;根据使目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵对待聚类的文档进行聚类。本发明通过根据检索词-文档矩阵、非负检索词-主题矩阵、非负主题-文档矩阵、正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵确定目标函数,并根据使目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵对待聚类的文档进行聚类,由于检索词-主题矩阵及主题-文档矩阵均非负,使得文档聚类的效率较高。

    文档查询方法及装置
    6.
    发明授权

    公开(公告)号:CN104239402B

    公开(公告)日:2017-12-22

    申请号:CN201410353033.4

    申请日:2014-07-23

    Abstract: 本发明公开了一种文档查询方法及装置,属于数据查询领域。所述方法包括:通过获取待查询的文档q和该文档q对应的类别Cp;通过与类别Cp对应的词‑主题矩阵将该文档q变换到主题空间上的最优表示形式vq;根据vq在与类别Cp对应的主题‑文档矩阵Vp中查询与该文档q相似的历史文档;其中,词‑主题矩阵和主题‑文档矩阵Vp是预先对各个历史文档按照不同类别进行组非负矩阵分解所得到的矩阵;本发明解决了目前查询方法所查询到的历史文档的结果不一定符合用户预期的问题;达到了通过词‑主题矩阵和主题‑文档矩阵Vp来进行文档查询,提高了查询的准确率,优化了文档查询的结果。

    文档聚类的方法及装置
    7.
    发明授权

    公开(公告)号:CN105095275B

    公开(公告)日:2019-04-05

    申请号:CN201410200769.8

    申请日:2014-05-13

    Inventor: 周光有 薛伟 管刚

    Abstract: 本发明公开了一种文档聚类的方法及装置,属于统计技术领域。方法包括:根据检索词‑文档矩阵、非负检索词‑主题矩阵、非负主题‑文档矩阵、正则化的非负检索词‑主题矩阵及正则化的非负主题‑文档矩阵确定目标函数;根据使目标函数最小化的非负检索词‑主题矩阵及非负主题‑文档矩阵对待聚类的文档进行聚类。本发明通过根据检索词‑文档矩阵、非负检索词‑主题矩阵、非负主题‑文档矩阵、正则化的非负检索词‑主题矩阵及正则化的非负主题‑文档矩阵确定目标函数,并根据使目标函数最小化的非负检索词‑主题矩阵及非负主题‑文档矩阵对待聚类的文档进行聚类,由于检索词‑主题矩阵及主题‑文档矩阵均非负,使得文档聚类的效率较高。

    情感数据分类方法和系统

    公开(公告)号:CN104199829B

    公开(公告)日:2017-07-04

    申请号:CN201410361587.9

    申请日:2014-07-25

    Abstract: 本发明提供了一种情感数据分类方法和系统,所述方法包括:构造训练数据集对应的文档‑文档图和词‑词图,所述文档‑文档图中,节点表示所述训练数据集中的文档,边的几何信息表示文档之间的相关度,所述词‑词图中,节点表示所述训练数据集中的词,边的几何信息表示词之间的相关度;根据所述文档‑文档图和词‑词图的几何信息构造目标函数中的基于图的正则化项;对所述目标函数进行优化处理,输出文档‑情感矩阵;获取测试数据集中的文档,根据所述文档‑情感矩阵获取与所述测试数据集中的文档对应的情感倾向。采用该方法和系统,能够提高情感分类精度。

    利用了网络搜索的依存句法的领域自适应方法

    公开(公告)号:CN103646112B

    公开(公告)日:2017-01-18

    申请号:CN201310729563.X

    申请日:2013-12-26

    Inventor: 周光有 赵军

    Abstract: 一种利用了网络搜索的依存句法领域自适应方法,包括:构建基于K-Best的候选依存句法树重排序模型,用一个基准模型来产生一组候选依存句法分析树,其中,每一个候选依存句法分析树对应一个概率,从而定义了多个依存句法分析结果的初始序列,在此序列的基础上,重排序模型试图利用目标领域新增的句法特征来改进初始的句法树序列;进行基于网络搜索的候选依存句法树的词语依存关系评估,首先需要将一棵依存句法树拆分为一组词语关系的集合,对于集合中的每一个词语语义关系,利用网络搜索,分别计算该词语语义关系的强度,然后根据词语关系的权重来确定其评估值。经过实验证明,在宾州中文树库上训练的依存句法器,在生物医学数据上也表现出了良好的性能。

    一种融合用户类别标签的相似问题检索方法及装置

    公开(公告)号:CN103218436A

    公开(公告)日:2013-07-24

    申请号:CN201310133077.1

    申请日:2013-04-17

    Inventor: 周光有 赵军

    Abstract: 本发明公开了一种融合用户类别标签的相似问题检索方法及其装置,所述包括:步骤1、计算每个用户类别标签之间的相似度;步骤2、根据用户输入的查询问题,建立融合用户类别标签的检索模型;步骤3、根据所述融合用户类别标签的检索模型,在所述查询问题对应的查询问题类别标签和相似类别标签下的历史问题中进行检索,获得所述查询问题的相似问题。因此,最终的相似问题检索仅仅考虑与查询问题在类别标签上相似或相近的历史问题,大大减少了搜索的空间以及主题不相关历史问题的干扰,有效地提高了检索的效率和性能。经过实验证明,在大规模的社区问答数据集中,相似问题检索的效率提高了81.77倍,检索的性能提升了11.25%。

Patent Agency Ranking