-
公开(公告)号:CN116738984B
公开(公告)日:2024-03-01
申请号:CN202310748270.X
申请日:2023-06-25
Applicant: 哈尔滨工业大学
IPC: G06F40/284 , G06F40/117 , G06F40/186 , G06N20/00
Abstract: 本发明公开了一种基于提示学习的自动化数据标注方法,包括:获取有标注数据集和无标注数据集;对所述有标注数据集的实体信息进行提取,获取实体词;基于所述实体词对所述无标注数据集进行筛选,获取筛选后的无标注数据集;构建提示模板组,基于预训练语言模型利用所述提示模板组对所述筛选后的无标注数据集进行测试,获取正向/负向数据;基于所述提示模板组将所述有标注数据集的中性情感数据输入所述预训练语言模型,获取填充完整的提示模板;基于所述填充完整的提示模板和所述正向/负向情感数据,构建完整的扩充数据集,实现基于提示学习的自动化数据标注。
-
公开(公告)号:CN105740310B
公开(公告)日:2019-08-02
申请号:CN201510963623.3
申请日:2015-12-21
Applicant: 哈尔滨工业大学 , 北京中科汇联科技股份有限公司
IPC: G06F16/332 , G06F17/27
Abstract: 本发明提供一种用于问答系统中的自动答案摘要方法及系统,其包括:获得用户查询问题与问答系统返回的候选答案集;从问题中提取概念,将概念与问题建立映射,得到问题概念集,从候选答案句子中提取概念,将概念与句子建立映射,得到句子概念集,对所有句子的概念集取并集得到答案概念集;对问题概念集进行概念扩展、概念约减,得到问题扩展概念集,问题扩展概念集与答案概念集取交集获得命中概念集;对命中概念集中包含的概念进行句子质量计算,得到答案摘要。本发明利用概念网络中各个概念的关系,构建句子等权重,克服句子可能与问题无关的问题,然后通过整数规划的方法,选出答案中和问题最为相关的句子,构成最终的答案摘要。
-
公开(公告)号:CN102004560B
公开(公告)日:2013-07-24
申请号:CN201010567997.0
申请日:2010-12-01
Applicant: 哈尔滨工业大学
IPC: G06F3/023
Abstract: 语句级汉字输入方法中的用户词识别方法与机器学习系统,涉及汉字输入的机器学习技术领域。本发明解决了现有机器学习方法中存在的经常需要用户干预才能够获得最终结果的问题。用户词识别方法是采用相对位置成词能力作为评价标准来识别用户词。学习方法仅在输入法输出的最优路径与最终输出路径不一致时才启动,该方法采用基于N元文法的概率计算方法获得概率值后,采用最大后验MAP获得用户调节值CA,该调节值CA和相应的词存入用户语言模型库。机器学习系统是应用上述用户词识别方法和学习方法实现的学习系统。采用本发明技术,能减少用户输入时的干预次数,让用户更轻松地得到需要的输出结果。
-
公开(公告)号:CN102012748B
公开(公告)日:2012-06-27
申请号:CN201010566505.6
申请日:2010-11-30
Applicant: 哈尔滨工业大学
IPC: G06F3/023
Abstract: 语句级中英文混合输入方法,本发明涉及信息输入方法,尤其涉及一种中英文混合语句输入方法。它解决了现有的中英文混合输入方法采用手工标示输入的字母串中哪些需要转换成中文哪些是英文单词,无法保证连续的语句输入的问题。它包括下述步骤:用键盘输入字符串;由输入法管理系统对字符串进行中英文切分;所做的中英文切分是基于中文拼音库和英文词库的自动识别;输入法管理系统对切分后的字符串分别进行相应的中文和英文字符转换,并提供混合语句候选和中英文词语候选;所做出的中文和英文字符转换是基于中文词库和中英文统计库的自动识别;从通过插入、删除、选择等编辑命令,最终从候选列表中选定输出内容;输出中英文混合语句。用于文字输入。
-
公开(公告)号:CN102033950A
公开(公告)日:2011-04-27
申请号:CN201010602773.9
申请日:2010-12-23
Applicant: 哈尔滨工业大学
IPC: G06F17/30
Abstract: 电子产品命名实体自动识别系统的构建方法及识别方法,本发明涉及自然语言处理中的命名实体识别系统的构建方法和识别方法,属于从相关信息中把电子产品的名称进行自动识别的技术。用于电子产品的名称识别。它解决了基于规则的识别系统在识别时召回率较低,而基于机器学习的识别系统识别时需要人工标注大量训练语料的问题。构建方法包括下述步骤:形成原始语料的知识库;构建一个标注语料库;基于条件随机域方法进行电子产品命名实体识别。识别方法包括下述步骤:把自由文本输入电子产品命名实体自动识别系统;系统首先利用特征模板提取特征,然后利用条件随机域模型得到每个特征对应的权重,把这些权重利用条件随机域方法进行运算得到识别结果。
-
公开(公告)号:CN101833560A
公开(公告)日:2010-09-15
申请号:CN201010103806.5
申请日:2010-02-02
Applicant: 哈尔滨工业大学
Abstract: 基于互联网的厂商口碑自动排序系统,本发明涉及一种厂商口碑自动排序系统。它解决了消费者无从检索到对相关商品评价信息的缺陷。本发明用于厂商口碑的排序工作。它包括:一号服务器,接受网上访问者的请求,从互联网上识别和收集对相关商品的评价信息;二号服务器,对收集到的相关商品评价信息进行结构化和规范化处理,从而得出对同一商品各个生产厂家的口碑排序;三号服务器,向网上访问者发布相关商品的不同生产厂家的口碑排序结果。
-
公开(公告)号:CN117807514A
公开(公告)日:2024-04-02
申请号:CN202311847657.7
申请日:2023-12-28
Applicant: 中国南方航空股份有限公司 , 哈尔滨工业大学
IPC: G06F18/2411 , G06F18/213 , G06F18/214 , G06F40/289 , G06F40/216 , G06Q10/0635 , G06Q50/40
Abstract: 本发明公开了一种航行通告风险识别模型构建方法、装置、设备及存储介质,通过对获取的航行通告历史数据标注风险类别数据,构建风险语料库;将所述风险语料库中的数据分为训练集和测试集;对所述训练集和所述测试集中的数据进行分词以及去除停用词,得到航行通告词列表数据;对所述航行通告词列表数据进行特征提取,得到特征表示;采用预先基于自然语言处理的支持向量机构建的识别模型对特征表示进行全监督训练,将训练后的最优模型作为风险识别模型输出。本申请构建的风险识别模型能够提高航行通告风险识别的效率和精度。
-
公开(公告)号:CN114297415A
公开(公告)日:2022-04-08
申请号:CN202111623678.1
申请日:2021-12-28
IPC: G06F16/41 , G06F16/45 , G06F16/432
Abstract: 本发明公开了一种面向全媒体数据空间的多源异构数据存储方法及检索方法,所述方法包括:获取待存储数据,其中,待存储数据包含图像数据和/或文本数据;将待存储数据向量化,得到第一向量;将第一向量输入至训练好的生成判别模型,得到第二向量,其中,生成判别模型包括生成器和判别器,生成器用于基于输入的图像向量或者文本向量输出调整后图像向量或文本向量,判别器用于识别生成器输出的向量的模态类型,通过反复对抗训练至损失函数收敛,得到训练好的生成判别模型;将第二向量存储在第一预置数据库。本发明可提高跨模态检索的准确性。
-
公开(公告)号:CN104750798B
公开(公告)日:2020-09-29
申请号:CN201510123052.2
申请日:2015-03-19
Applicant: 腾讯科技(深圳)有限公司 , 哈尔滨工业大学
IPC: G06F16/9535 , G06F16/906
Abstract: 本发明公开了一种应用程序的推荐方法和装置,用于描述应用程序之间广泛的相关性,提高向用户推荐应用程序的效果。本发明提供的应用程序的推荐方法包括:根据应用程序的评论信息和描述信息确定应用程序之间是否存在相关性;若所述应用程序之间存在相关性,根据预置的应用程序之间的关系分类特征从面向应用程序的关系分类体系中确定出所述应用程序之间所属的分类关系;根据所述应用程序之间所属的分类关系向用户推荐应用程序。
-
公开(公告)号:CN104750798A
公开(公告)日:2015-07-01
申请号:CN201510123052.2
申请日:2015-03-19
Applicant: 腾讯科技(深圳)有限公司 , 哈尔滨工业大学
IPC: G06F17/30
Abstract: 本发明公开了一种应用程序的推荐方法和装置,用于描述应用程序之间广泛的相关性,提高向用户推荐应用程序的效果。本发明提供的应用程序的推荐方法包括:根据应用程序的评论信息和描述信息确定应用程序之间是否存在相关性;若所述应用程序之间存在相关性,根据预置的应用程序之间的关系分类特征从面向应用程序的关系分类体系中确定出所述应用程序之间所属的分类关系;根据所述应用程序之间所属的分类关系向用户推荐应用程序。
-
-
-
-
-
-
-
-
-