结合用户情感表达方式的中文情感新词识别方法和系统

    公开(公告)号:CN105786991A

    公开(公告)日:2016-07-20

    申请号:CN201610089962.8

    申请日:2016-02-18

    CPC classification number: G06F17/30731 G06F17/2715

    Abstract: 本发明公开了一种结合用户情感表达方式的中文情感新词识别方法和系统。其中,该方法包括获取输入文本;基于所述输入文本中词频大于第一预设阈值的字符串,构建候选新词集合;使用中文旧词词库对所述候选新词集合进行过滤;基于统计指标从过滤的候选新词集合中筛选新词,构建新词集合;其中,所述统计指标为构词能力、点互信息、灵活度和邻接熵;基于情感倾向点互信息,从所述新词集合中识别情感新词,构建初始情感新词集合;基于所述输入文本中涉及的用户的情感表达方式,从所述初始情感新词集合中筛选高置信度情感新词,并将其作为所识别的中文情感新词。通过本发明实施例解决了如何提高情感新词识别的精度和灵活度的技术问题。

    融合变体词识别的短文本审核方法及装置

    公开(公告)号:CN112287684B

    公开(公告)日:2024-06-11

    申请号:CN202011192254.X

    申请日:2020-10-30

    Abstract: 本发明属于领域,具体涉及了一种融合变体词识别的短文本审核方法及装置,旨在解决如何将变体词识别技术融合到有害文本审核任务中并实现模型自动更新的问题。本发明包括:构建配置词库,基于社交媒体平台获取待审核文本数据,对待审核文本数据进行筛选获得可疑文本数据,并去除无意义信息并计算文本特征向量和统计特征向量,将文本特征向量和统计特征向量进行特征融合通过训练好的基于支持向量机的有害文本分类模型获取有害文本,利用预设的关键词抽取算法获取所述有害文本的敏感词写入配置词库。本发明将变体词识别技术融合到文本特征和统计特征计算进行有害文本审核任务中并实现模型自动更新,提高了文本审核的准确率和更新速度。

Patent Agency Ranking