一种基于机器学习的电话引流方法、系统及存储介质

    公开(公告)号:CN119892984A

    公开(公告)日:2025-04-25

    申请号:CN202510049291.1

    申请日:2025-01-13

    Abstract: 本发明公开了一种基于机器学习的电话引流方法、系统及存储介质,包括构建有害和正常号码的样本特征库;对样本特征库中的特征数据进行预处理,并划分为特征训练集和特征测试集;基于特征训练集,构建决策树;基于特征测试集,对决策树中的决策规则进行筛选,获得在测试集上表现最优的特征组合及特征组合对应的分割阈值;收集新批次呼叫号码,并获取呼叫号码的特征数据,基于最优特征组合及特征组合对应的分割阈值对呼叫号码的特征数据进行识别,从而预测出该呼叫号码是有害号码还是正常号码;定时更新最优特征组合及其对应的分割阈值,确保在有害号码特征发生变化时,同样能实现较好的引流效果。本发明利用机器学习算法对样本特征数据进行分类,并筛选出引流效果最好的特征组合和分割阈值,能够更准确地识别出有害电话,减少误判和漏判。

    一种基于文本聚类的主题词提取方法

    公开(公告)号:CN112749279A

    公开(公告)日:2021-05-04

    申请号:CN202110060987.6

    申请日:2021-01-18

    Inventor: 肖林焱 杨安印

    Abstract: 本发明公开了一种基于文本聚类的主题词提取方法,对文本信息进行分词处理;对干扰词积累形成停用词库,加载文本分词集合;针对处理词文档,计算文档词频TF,计算逆文档词频IDF;新建Kmeans模型,训练出各聚类中心词频及其预测值,使用余弦相似度计算文本词之间相似度;输出Kmeans聚类结果,每个聚类集合;对各个聚类集合进行LDA文档主题预测;针对文档到词的权重分布,提取TOPN主题,形成集合Mi;针对集合Mi,分词后的文本记录词库与集合Mi碰撞。本发明通过多方联合分析,对无监督学习主题提取方法进行有益补充;不依赖现有数据分析平台,适用于各类编程语言;结合Kmeans聚类方法,LDA主题模型分析,个性化碰撞规则,对大数据文本主题词提取进行有效支撑。

Patent Agency Ranking