基于多源数据联合检测的数据集异常识别方法

    公开(公告)号:CN117556363B

    公开(公告)日:2024-04-09

    申请号:CN202410038183.X

    申请日:2024-01-11

    Abstract: 本发明涉及数据质量技术领域,具体涉及了一种基于多源数据联合检测的数据集异常识别方法。包括以下步骤:S100:分别获取来自不同参与方的文本类数据的数据集;S200:识别并提取出不同参与方的数据集中具有交集的部分,作为识别数据集,分别对不同参与方的识别数据集进行预处理后,将识别数据集中的各项文本数据均转换为特征向量300:将不同参与方的识别数据集中的特征向量进行比对,各个参与方的识别数据中文本数据不一致的部分,作为异常数据,并对异常数据进行定位;S400:分别识别异常数据在其所述识别数据集中的数据归属中的数据属性,根据数据属性选择检测方式,检测各参与方的异常数据在其所述数据集的数据归属中是否为正常数据或是异常数据。

    面向政务问答的多特征融合语义理解方法及装置

    公开(公告)号:CN117313748A

    公开(公告)日:2023-12-29

    申请号:CN202311582287.9

    申请日:2023-11-24

    Abstract: 本发明公开了一种面向政务问答的多特征融合语义理解方法及装置,该方法包括:获取用户输入的咨询问题;对用户输入的咨询问题进行语法纠错和方言纠错,得到纠错后的文本;将所述文本分别输入一个或多个不同的特征匹配模型,根据各特征匹配模型输出的候选问题构建信息融合三元组;根据所述候选问题查询用户历史咨询问题列表和/或热点问题列表,得到所述候选问题在所述用户最近一段时间是否咨询该问题的历史咨询特征、和/或所述候选问题在最近一段时间是否被访问的热点事项特征;将多维特征输入随机森林模型,得到对应咨询问题的语义理解结果。利用本发明方案,可以准确理解用户输入信息,精准定位用户咨询事项。

Patent Agency Ranking