基于无监督聚类的长文本可信度评估方法及系统

    公开(公告)号:CN110287314A

    公开(公告)日:2019-09-27

    申请号:CN201910418900.0

    申请日:2019-05-20

    Abstract: 本发明涉及一种基于无监督聚类的长文本可信度评估方法,包括:以已知长文本获取训练数据,提取该训练数据的训练特征以构建训练特征向量集,对该训练特征向量集进行无监督聚类,得到多个训练类心;以待评估长文本获取评估数据,提取该评估数据的评估特征向量;获取该评估特征向量相对该训练类心的评估值,并以该评估值得到该待评估长文本的可信度。本发明通过无监督聚类对长文本进行可信度评估,在实施过程中不需要标注数据,节省了人力、物力与时间,避免了数据中标签稀疏带来的困扰;提取了长文本的文本特征,对于可信度评估任务更加适用,使用该模型得到的文本的可信度更具有可解释性,同时在平台之间可以迁移。

    一种基于视觉相似性镜像网站发现方法及系统

    公开(公告)号:CN108628703A

    公开(公告)日:2018-10-09

    申请号:CN201810225421.2

    申请日:2018-03-19

    Abstract: 本发明提供一种基于视觉相似性镜像网站发现方法及系统,该方法的步骤包括:对网页页面进行初步分块,将得到的块作为DOM树的结点;对可分割的结点继续分割,将分出的新块作为该结点的孩子结点;对于不可分割的结点,将该结点的块作为页面块存入页面块池中,如此循环迭代分块,直至得到全部的页面块;检测出页面中的分隔条,确定分割条的权重;基于分割条的权重进行重建,得到语义块;将语义块转换成图像,提取图像的签名特征;根据上述步骤提取目标网页和基准网页的各语义块的签名特征,基于签名特征通过EMD距离算法计算目标网页和基准网页之间的距离,如果该距离小于一设定阈值,则判定该目标网页的网站属于镜像网站。

    舆情塑造过程分析方法、装置、电子设备以及存储介质

    公开(公告)号:CN114861029B

    公开(公告)日:2024-09-13

    申请号:CN202210411631.7

    申请日:2022-04-19

    Inventor: 王鹏 陈志鹏 解峥

    Abstract: 本发明实施例公开了舆情塑造过程分析方法、装置、电子设备以及存储介质。该方法包括:获取目标舆情事件的舆情数据以及目标舆情事件的舆情数据的发布方;根据舆情数据,确定舆情主题;根据舆情数据随时间的变化情况,将目标舆情事件划分为多个发展阶段;根据目标舆情事件在每个发展阶段的舆情数据,确定在相应发展阶段的核心议题;从在每个发展阶段的舆情数据的发布方中,识别在相应发展阶段的舆情塑造主体;根据在每个发展阶段的核心议题与舆情主题的匹配情况,对目标舆情事件在多个发展阶段的舆情塑造主体对于目标舆情事件的舆情塑造效果进行评估。基于该方法,可以实现对于舆情塑造过程的全面分析,并实现对于舆情塑造效果进行准确评估。

Patent Agency Ranking