-
公开(公告)号:CN116738984A
公开(公告)日:2023-09-12
申请号:CN202310748270.X
申请日:2023-06-25
Applicant: 哈尔滨工业大学
IPC: G06F40/284 , G06F40/117 , G06F40/186 , G06N20/00
Abstract: 本发明公开了一种基于提示学习的自动化数据标注方法,包括:获取有标注数据集和无标注数据集;对所述有标注数据集的实体信息进行提取,获取实体词;基于所述实体词对所述无标注数据集进行筛选,获取筛选后的无标注数据集;构建提示模板组,基于预训练语言模型利用所述提示模板组对所述筛选后的无标注数据集进行测试,获取正向/负向数据;基于所述提示模板组将所述有标注数据集的中性情感数据输入所述预训练语言模型,获取填充完整的提示模板;基于所述填充完整的提示模板和所述正向/负向情感数据,构建完整的扩充数据集,实现基于提示学习的自动化数据标注。
-
公开(公告)号:CN116484123A
公开(公告)日:2023-07-25
申请号:CN202310486453.9
申请日:2023-04-28
Applicant: 哈尔滨工业大学
IPC: G06F16/9538 , G06F16/35 , G06F18/22 , G06F18/24 , G06N3/0442
Abstract: 本发明提供一种长文本的标签推荐模型构建方法及标签推荐方法,涉及自然语言处理技术领域,该模型构建方法包括:获取历史长文本,对历史长文本进行标注,得到文本标签、标准相似度、历史子句和子句的历史权重;根据历史权重得到历史关键句,对文本标签进行标签扩充,得到历史伪标签,并根据历史伪相得到历史标签序列;以上述数据训练初始预测模型,得到预测模型;以上述数据训练初始排序模型,得到重排序模型;根据预测模型和重排序模型得到标签推荐模型。本发明的有益效果:根据子句权重得到表示长文本含义的关键句,对文本标签进行扩充以得到便于模型理解的伪标签,实现长文本的标签推荐,且有效提升了模型的准确度。
-
公开(公告)号:CN113535957B
公开(公告)日:2022-08-02
申请号:CN202110850763.5
申请日:2021-07-27
Applicant: 哈尔滨工业大学
IPC: G06F16/35 , G06F16/36 , G06N5/02 , G06N3/08 , G06F40/284 , G06F40/242
Abstract: 本申请公开了一种基于双重知识交互和多任务学习的对话情绪识别网络模型、构建方法、电子设备及存储介质,属于自然语言处理技术领域。解决了现有Emotion Recognition in Conversation(ERC)模型忽视了话语和知识的直接交互;使用与主任务弱相关的辅助任务,只能为ERC任务提供有限的情感信息的问题。本申请利用一个大规模知识图谱中的常识知识来增强词级别表示。使用一个自匹配模块整合知识表示和话语表示,允许二者进行复杂交互。将短语级别的情感极性强度预测任务作为辅助任务。该辅助任务的标签来自情感词典的情感极性强度值,明显与ERC任务高度相关,为目标话语的情绪感知提供了直接指导信息。
-
公开(公告)号:CN113535957A
公开(公告)日:2021-10-22
申请号:CN202110850763.5
申请日:2021-07-27
Applicant: 哈尔滨工业大学
IPC: G06F16/35 , G06F16/36 , G06N5/02 , G06N3/08 , G06F40/284 , G06F40/242
Abstract: 本申请公开了一种基于双重知识交互和多任务学习的对话情绪识别网络模型、构建方法、电子设备及存储介质,属于自然语言处理技术领域。解决了现有Emotion Recognition in Conversation(ERC)模型忽视了话语和知识的直接交互;使用与主任务弱相关的辅助任务,只能为ERC任务提供有限的情感信息的问题。本申请利用一个大规模知识图谱中的常识知识来增强词级别表示。使用一个自匹配模块整合知识表示和话语表示,允许二者进行复杂交互。将短语级别的情感极性强度预测任务作为辅助任务。该辅助任务的标签来自情感词典的情感极性强度值,明显与ERC任务高度相关,为目标话语的情绪感知提供了直接指导信息。
-
公开(公告)号:CN113377844A
公开(公告)日:2021-09-10
申请号:CN202110748160.4
申请日:2021-06-29
Applicant: 哈尔滨工业大学
IPC: G06F16/2458 , G06F16/242 , G06F16/28 , G06F16/25 , G06F40/295 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明提供了一种面向大型关系型数据库的对话式数据模糊检索方法及装置,面向大型关系型数据库的对话式数据模糊检索方法包括:获取查询指令;基于预先训练好的文本多标签分类模型,将所述查询指令分类到对应的目标数据库;基于预先训练好的命名实体识别模型,提取所述查询指令的实体,在所述目标数据库中检索出与所述实体相关的属性数据;基于预先训练好的语义识别模型,对所述查询指令进行语义识别,将语义识别结果与所述实体相关的属性数据对比,获得所述查询指令对应的数据检索结果。本发明可提高检索系统的智能性和检索效率。
-
公开(公告)号:CN101995963A
公开(公告)日:2011-03-30
申请号:CN201010551084.X
申请日:2010-11-19
Applicant: 哈尔滨工业大学
IPC: G06F3/023
Abstract: 词汇自适应中文输入方法,本发明涉及一种计算机、手机、或者掌上电子产品等的词汇自适应的中文输入方法。它降低输入法的背景噪音,减少系统开销,实现个性化输入。它用于汉字输入。它包括下述步骤:输入汉语拼音字符串;进行音节切分;根据本地的通用词库中词的状态和已经加载到本地的领域专业词库的状态对音节串进行汉语语句转换;输出汉字字符串;搜索位于服务器端的领域专业词库并判断已输入汉语语句中是否包含位于服务器端的领域词库集中的词汇;如果存在这样的词汇,则将包含该词汇的领域专业词库加载到本地;根据选择确定的汉语语句输入,对位于本地的通用词库和已经加载到本地的领域专业词库中的词进行词汇状态调整。
-
-
-
-
-