-
公开(公告)号:CN118820610A
公开(公告)日:2024-10-22
申请号:CN202410652540.1
申请日:2024-05-24
Applicant: 华侨大学
IPC: G06F16/9536 , G06F40/30 , G06F18/2415 , G06F40/279 , G06N3/0442 , G06N3/0455 , G06N3/047 , G06N3/049 , G06N3/0895 , G06N5/04 , G06Q50/00 , G06F123/02
Abstract: 本发明公开了基于时序知识图谱的意见领袖挖掘方法及装置,方法包括:对采集的网络舆情数据进行分析,构建出时序网络舆情知识图谱;对时序网络舆情知识图谱进行表示学习,得到节点和关系的嵌入表示;对时序网络舆情知识图谱进行实体关系建模,获得用户结构特征;将用户所发布的贴文作为预训练语言模型的输入文本,经过语义建模获得用户的贴文语义特征;设计一个人工特征作为用户在社交网络中的用户属性特征;集合用户结构特征、贴文语义特征和用户属性特征,利用softmax函数实现意见领袖的挖掘。本发明根据抽取的用户结构特征、用户属性特征和贴文语义特征,能够有效挖掘不同时刻的意见领袖,提高意见领袖挖掘的准确性。
-
公开(公告)号:CN114818717B
公开(公告)日:2024-08-20
申请号:CN202210575509.3
申请日:2022-05-25
Applicant: 华侨大学
IPC: G06F40/295 , G06F40/242 , G06F40/253 , G06N3/0464 , G06N3/049 , G06N3/08 , G06N3/0442
Abstract: 本发明公开一种融合词汇和句法信息的中文命名实体识别方法及系统,包括以下步骤:步骤1、将原始输入文本映射为字向量,使用改进后的词集匹配算法引入外部词汇信息,并整合在每个字的输入表示中;步骤2、根据字的输入表示,利用双向LSTM抽取上下文信息;步骤3、使用NLP工具从原始输入文本中获取词性标签和句法成分,并且使用健值记忆网络构造句法向量,再通过门控机制对上下文向量与句法向量进行加权融合,获得特征向量;步骤4、将特征向量输入标签预测层的CRF中,实现中文命名实体识别。本发明能够解决中文命名实体中实体边界信息不足的问题和融合输入文本的句法信息。
-
公开(公告)号:CN116975281A
公开(公告)日:2023-10-31
申请号:CN202310759929.1
申请日:2023-06-26
Applicant: 华侨大学
IPC: G06F16/35 , G06F40/289 , G06N3/045 , G06N3/0499 , G06F40/30 , G06F18/25 , G06F18/23213 , G06F40/216
Abstract: 本发明公开了一种基于BERT模型和种子LDA模型的话题检测方法及装置,涉及自然语言处理领域,获取原始文本集,对原始文本集进行预处理,得到文本集;构建种子LDA模型,将文本集中的每条文本输入BERT模型,得到每条文本的语义特征向量,通过BERT模型和种子LDA模型对文本集中每条文本的主题进行特征提取,得到每条文本的主题特征向量,将每条文本的语义特征向量和主题特征向量进行特征融合,得到每条文本的融合特征向量;将文本集中所有文本的融合特征向量输入K‑means算法进行聚类,得到若干个话题簇;基于若干个话题簇采用TF‑IDF算法提取出话题,解决LDA模型对短文本的主题提取效果不好,同时忽略词语的上下文信息等问题。
-
公开(公告)号:CN114818717A
公开(公告)日:2022-07-29
申请号:CN202210575509.3
申请日:2022-05-25
Applicant: 华侨大学
IPC: G06F40/295 , G06F40/242 , G06F40/253 , G06N3/04 , G06N3/08
Abstract: 本发明公开一种融合词汇和句法信息的中文命名实体识别方法及系统,包括以下步骤:步骤1、将原始输入文本映射为字向量,使用改进后的词集匹配算法引入外部词汇信息,并整合在每个字的输入表示中;步骤2、根据字的输入表示,利用双向LSTM抽取上下文信息;步骤3、使用NLP工具从原始输入文本中获取词性标签和句法成分,并且使用健值记忆网络构造句法向量,再通过门控机制对上下文向量与句法向量进行加权融合,获得特征向量;步骤4、将特征向量输入标签预测层的CRF中,实现中文命名实体识别。本发明能够解决中文命名实体中实体边界信息不足的问题和融合输入文本的句法信息。
-
-
-