-
公开(公告)号:CN117195868A
公开(公告)日:2023-12-08
申请号:CN202311044658.8
申请日:2023-08-18
Applicant: 中国科学院软件研究所
IPC: G06F40/216 , G06F16/35 , G06F40/194 , G06F40/289 , G06N3/0895
Abstract: 本发明涉及结合用户内在倾向的弱监督立场分析方法、装置。方法包括:用户‑内在立场计算步骤;目标话题数据获取步骤;立场种子词选择步骤;立场‑文本词概率计算步骤;文本的立场分布计算步骤;文本立场计算步骤。通过历史发文数据作为先验知识辅助识别当前话题所表达的立场,解决了社交媒体话题突发性强、难以事先准备大规模标记数据的问题。
-
公开(公告)号:CN111897952A
公开(公告)日:2020-11-06
申请号:CN202010523627.0
申请日:2020-06-10
Applicant: 中国科学院软件研究所
IPC: G06F16/35 , G06F40/194 , G06F40/242 , G06F40/284 , G06K9/62 , G06Q50/00
Abstract: 本发明提出一种面向社交媒体的敏感数据发现方法,属于人工智能领域,通过主题模型与词向量模型,利用词语相似度与文档中的词共现信息,实现弱监督的文本分类算法,通过依靠实现设定少量敏感信息相关的关键词,结合大规模语料训练的词向量,来对敏感信息进行分类过滤,高效率、低成本地解决社交媒体敏感数据发现问题。
-
公开(公告)号:CN113849628A
公开(公告)日:2021-12-28
申请号:CN202111075709.4
申请日:2021-09-14
Applicant: 中国科学院软件研究所
IPC: G06F16/335 , G06F16/36 , G06F40/205 , G06F40/284 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种面向热点话题的渐进式观点抽取方法和系统。该方法为:提供先验知识;基于先验知识构建种子事件结构图,图中包含观点信息结点以及代表观点元素间关系的边;结合当前阶段的事件结构图和数据进行观点抽取模型的训练和预测,训练结束后给出当前阶段数据的预测结果;去掉已经存在于事件结构图中的观点,将新观点提交给专家进行确认;将专家返回的确认结果进行筛选,去掉不合格的观点,将合格观点添加到事件结构图中;再次返回至观点抽取步骤,如此循环进行直至观点抽取模型达到收敛。本发明将历史信息用于同一话题下新文本观点抽取,能有效减缓不均衡热点话题数据集带给神经模型的影响,在少量标注数据下就能获得高质量的观点信息。
-
公开(公告)号:CN115481609B
公开(公告)日:2023-10-03
申请号:CN202211308614.7
申请日:2022-10-25
Applicant: 中国科学院软件研究所
IPC: G06F40/169 , G06F40/242 , G06F40/30 , G06F16/958 , G06N3/042 , G06N3/08
Abstract: 本公开涉及用于网络论坛的用户发文说服力预测方法、装置、计算机设备和存储介质。用于网络论坛的用户发文说服力预测方法包括:进行数据采集;进行用户特征提取;进行文本特征提取;进行各类节点信息聚合,获得节点嵌入向量;进行说服力预测。根据本公开,可以对论坛中帖子的直接评论进行是否具有说服力的预测,能够在线上的商品营销、品牌公关和舆论引导等领域提供帮助。
-
公开(公告)号:CN111897952B
公开(公告)日:2022-10-14
申请号:CN202010523627.0
申请日:2020-06-10
Applicant: 中国科学院软件研究所
IPC: G06F16/35 , G06F40/194 , G06F40/242 , G06F40/284 , G06Q50/00 , G06K9/62
Abstract: 本发明提出一种面向社交媒体的敏感数据发现方法,属于人工智能领域,通过主题模型与词向量模型,利用词语相似度与文档中的词共现信息,实现弱监督的文本分类算法,通过依靠实现设定少量敏感信息相关的关键词,结合大规模语料训练的词向量,来对敏感信息进行分类过滤,高效率、低成本地解决社交媒体敏感数据发现问题。
-
公开(公告)号:CN115952438B
公开(公告)日:2023-11-17
申请号:CN202211596521.9
申请日:2022-12-12
Applicant: 中国科学院软件研究所
IPC: G06F18/241 , G06F18/22 , G06N3/04 , G06N3/08 , G06F16/35 , G06F16/9536 , G06Q50/00
Abstract: 本发明提供一种社交平台用户属性预测方法、系统、移动设备及存储介质,社交平台用户属性预测方法包括以下步骤:采集社交平台用户的数据;对于采集到的数据进行文本特征的提取;将提取的文本特征输入到特征训练MLP,从而对于社交平台用户生成伪标签矩阵;计算不完全程度;根据生成的伪标签矩阵和计算出的不完全程度计算块相似矩阵;根据计算出的块相似矩阵计算社交平台用户之间特征传递的权重;根据计算出的权重基于异构图网络模型进行节点特征的聚合;使用经过异构图网络模型的节点特征的聚合之后的特征向量训练MLP对社交平台用户的属性进行分类预测。根据本发明,适用于不同在线社交平台,预测的准确率高。
-
公开(公告)号:CN116401363A
公开(公告)日:2023-07-07
申请号:CN202310202945.0
申请日:2023-03-06
Applicant: 中国科学院软件研究所
Abstract: 本发明涉及面向开放环境的弱监督持续文本分类方法、装置。方法包括:数据采集步骤;初步分类步骤;延迟分类决策步骤;种子词更新步骤。提出了一个弱监督文本分类的持续学习框架,通过延迟低置信度的分类决策,在分类准确性和决策及时性之间做出良好的权衡;并且实现了自动捕捉主题的语义变化,从而主动更新每个已知类别的种子词,做到了旧知识的维护和新知识的发现之间的平衡。
-
公开(公告)号:CN115952438A
公开(公告)日:2023-04-11
申请号:CN202211596521.9
申请日:2022-12-12
Applicant: 中国科学院软件研究所
IPC: G06F18/241 , G06F18/22 , G06N3/04 , G06N3/08 , G06F16/35 , G06F16/9536 , G06Q50/00
Abstract: 本发明提供一种社交平台用户属性预测方法、系统、移动设备及存储介质,社交平台用户属性预测方法包括以下步骤:采集社交平台用户的数据;对于采集到的数据进行文本特征的提取;将提取的文本特征输入到特征训练MLP,从而对于社交平台用户生成伪标签矩阵;计算不完全程度;根据生成的伪标签矩阵和计算出的不完全程度计算块相似矩阵;根据计算出的块相似矩阵计算社交平台用户之间特征传递的权重;根据计算出的权重基于异构图网络模型进行节点特征的聚合;使用经过异构图网络模型的节点特征的聚合之后的特征向量训练MLP对社交平台用户的属性进行分类预测。根据本发明,适用于不同在线社交平台,预测的准确率高。
-
公开(公告)号:CN115481609A
公开(公告)日:2022-12-16
申请号:CN202211308614.7
申请日:2022-10-25
Applicant: 中国科学院软件研究所
IPC: G06F40/169 , G06F40/242 , G06F40/30 , G06F16/958 , G06N3/04 , G06N3/08
Abstract: 本公开涉及用于网络论坛的用户发文说服力预测方法、装置、计算机设备和存储介质。用于网络论坛的用户发文说服力预测方法包括:进行数据采集;进行用户特征提取;进行文本特征提取;进行各类节点信息聚合,获得节点嵌入向量;进行说服力预测。根据本公开,可以对论坛中帖子的直接评论进行是否具有说服力的预测,能够在线上的商品营销、品牌公关和舆论引导等领域提供帮助。
-
-
-
-
-
-
-
-