热点话题提取方法、装置、电子设备及存储介质

    公开(公告)号:CN117556043A

    公开(公告)日:2024-02-13

    申请号:CN202311490975.2

    申请日:2023-11-09

    Abstract: 本公开涉及一种热点话题提取方法、装置、电子设备及存储介质。其中,热点话题提取方法包括:获取目标文本;获取目标文本对应的多个主题以及每个主题对应的词语概率分布向量;基于词语概率分布向量计算多个主题中各个主题之间的主题相似度,并计算每个主题对应的主题一致性;基于主题相似度和主题一致性,对多个主题进行合并处理,得到至少一个主题簇;计算至少一个主题簇中每个主题簇分别对应的主题流行度和主题新颖度,基于主题流行度和主题新颖度确定目标文本对应的热点话题,由此,能够在进行热点话题提取时考虑到文本中各个词语之间的语义和语法关联性,提高了提取的热点话题的准确性。

    不规则文本标签化方法
    2.
    发明公开

    公开(公告)号:CN116628209A

    公开(公告)日:2023-08-22

    申请号:CN202310721792.0

    申请日:2023-06-19

    Abstract: 本发明涉及文本处理技术领域,尤其涉及一种不规则文本的标签化方法,本发明在对不规则文本进行标签化时,首先对所述不规则文本进行判断,判断所述不规则文本为长文本还是短文本,当所述不规则文本为长文本时,采用深度学习模型对所述长文本进行标签化,当所述不规则文本为短文本时,采用基于样本的分类模型对所述短文本进行标签化;这样,可有效提高不规则文本的分类准确率。

    一种网络话题热度预测方法

    公开(公告)号:CN106557552A

    公开(公告)日:2017-04-05

    申请号:CN201610958001.6

    申请日:2016-10-27

    Abstract: 本发明公开了一种网络话题热度预测方法。它包括话题检测、热度预测建模、预测热度值计算三个步骤。话题检测部分负责从网络数据中获取与用户给定话题关键词相关的话题数据。预测建模部分按照用户设定的时间粒度大小统计话题检测结果中每个时间段内的话题热度值,并计算高斯过程模型关于话题热度统计时间点的协方差矩阵,构建基于高斯过程的预测模型。预测热度值计算部分针对用户给定的预测时间点,利用构建的高斯过程模型计算话题在给定时间点的热度值。本发明综合利用信息检索技术、分类技术进行话题检测,利用高斯过程模型来进行话题热度预测,提高了话题预测的实用性和有效性。

    文本立场分析方法、装置、设备及存储介质

    公开(公告)号:CN117574892A

    公开(公告)日:2024-02-20

    申请号:CN202311492828.9

    申请日:2023-11-09

    Abstract: 本公开涉及一种文本立场分析方法、装置、设备及存储介质,该方法包括:获取待分析文本和所述待分析文本对应的主题短语;对所述待分析文本与所述主题短语进行特征提取,得到文本向量和主题向量;将所述文本向量和所述主题向量输入预训练的分层胶囊模型,得到所述分层胶囊模型输出的根据所述主题短语对所述待分析文本进行立场分析的分析结果,所述分层胶囊模型包括词胶囊层、句子胶囊层和类别胶囊层,所述词胶囊层、句子胶囊层和类别胶囊层分别用于提取所述待分析文本的词级特征、句子级特征和类别特征。本公开通过设置分层胶囊模型,能够提取文本的不同层级的特征信息,从而挖掘文本的深层信息,提升对文本进行立场判断的准确度。

    受雇网络写手的识别方法、装置、计算机设备及存储介质

    公开(公告)号:CN118410403A

    公开(公告)日:2024-07-30

    申请号:CN202410654244.5

    申请日:2024-05-24

    Abstract: 本公开涉及互联网信息处理技术领域,尤其涉及受雇网络写手的识别方法、装置、计算机设备及存储介质;方法包括:在获取到网络用户和各网络用户之间的关联关系后,以网络用户为节点,以关联关系为边构建了第一知识图谱,并将第一知识图谱输入至预训练的图神经网络模型中,最终得到各网络用户分别对应的类别标签,完成对网络用户的识别;在利用图神经网络模型对各网络节点进行识别时,将网络节点之间的关联关系以及与各网络节点相邻的节点信息也考虑进去,使得最终得到的类别标签具有更高的准确性,相较于当前仅根据用户信息对网络用户进行识别的方式,根据本方案识别方法得到的识别结果具有更强的说服力。

    文本特定信息识别判定方法
    6.
    发明公开

    公开(公告)号:CN119514531A

    公开(公告)日:2025-02-25

    申请号:CN202411526201.5

    申请日:2024-10-30

    Abstract: 本发明涉及互联网文本内容识别领域,尤其涉及一种文本特定信息识别判定方法,包括以下步骤:(S1)获取文本数据并进行预处理和分词,通过改进的哈希算法计算每个词语的哈希值,形成词典,利用多层次时间序列模型,计算短期和长期频率,识别异常高频词语作为潜在新词候选词,并将其映射到高维向量空间,生成综合语义向量;(S2)使用综合语义向量构建上下文语义图模型,分析词语的上下文兼容性,构建多任务学习情感分析模型,分别计算情感得分和特定领域相关性得分,通过综合计算各个得分,得到每个候选词的总置信度,识别出潜在的新词,本发明可以提高对隐蔽违法违规内容的识别能力以及识别判定特定文本信息的可靠性。

    基于信息要素抽取技术的特定文本分类分级评估系统及方法

    公开(公告)号:CN119441481A

    公开(公告)日:2025-02-14

    申请号:CN202411509637.3

    申请日:2024-10-28

    Abstract: 本发明涉及文本分类分级评估技术领域,具体地说,涉及基于信息要素抽取技术的特定文本分类分级评估系统及方法。其包括抽取单元基于大模型微调技术对文本数据进行关键要素字段抽取;规范单元对抽取的各个要素字段进行规范化处理;评估单元基于规范化后的字段通过决策树构建文本分类分级评估体系。本发明技术通过大模型微调技术,模型可以提高关键要素字段抽取的准确性和覆盖率,其可以帮助模型更好地理解文本中的语境,从而减少误报和漏报的情况,提高抽取质量,微调技术可以使模型更好地适应新数据集,即使数据集与预训练数据集略有不同,也能保持较好的性能,有助于增强模型在面对不同风格或格式的文本时的鲁棒性。

    一种网络话题热度预测方法

    公开(公告)号:CN106557552B

    公开(公告)日:2020-08-21

    申请号:CN201610958001.6

    申请日:2016-10-27

    Abstract: 本发明公开了一种网络话题热度预测方法。它包括话题检测、热度预测建模、预测热度值计算三个步骤。话题检测部分负责从网络数据中获取与用户给定话题关键词相关的话题数据。预测建模部分按照用户设定的时间粒度大小统计话题检测结果中每个时间段内的话题热度值,并计算高斯过程模型关于话题热度统计时间点的协方差矩阵,构建基于高斯过程的预测模型。预测热度值计算部分针对用户给定的预测时间点,利用构建的高斯过程模型计算话题在给定时间点的热度值。本发明综合利用信息检索技术、分类技术进行话题检测,利用高斯过程模型来进行话题热度预测,提高了话题预测的实用性和有效性。

Patent Agency Ranking