-
公开(公告)号:CN108960317A
公开(公告)日:2018-12-07
申请号:CN201810680474.3
申请日:2018-06-27
Applicant: 哈尔滨工业大学
CPC classification number: G06K9/6256 , G06F17/2795 , G06F17/28 , G06K9/6267
Abstract: 基于跨语言词向量表示和分类器联合训练的跨语言文本分类方法,本发明涉及跨语言文本分类方法。本发明的目的是为了解决现有基于同义词替换的方法分类准确率低,现有基于翻译的方法准确率较高,但是训练翻译器需要大量的语料,而且训练耗时较长,任务的复杂性与时间消耗远远超过了文本分类这一较为简单的任务,因此并不实用的问题。过程为:一:语料预处理:二:通过梯度优化方法优化总的损失函数,使总的损失函数达到最小值,对应一组词向量和一个分类器;三:取概率最大的标签作为目标端语言T上的测试文本的分类结果;与测试集的标准结果对比,得到测试准确率和召回率指标。本发明用于跨语言文本分类领域。
-
公开(公告)号:CN108959566A
公开(公告)日:2018-12-07
申请号:CN201810724210.3
申请日:2018-07-04
Applicant: 哈尔滨工业大学
Abstract: 本发明涉及一种基于Stacking集成学习的医疗文本去隐私方法和系统,属于计算机医疗软件技术领域。所述系统包括文本切分模块、基于转换规则自动获取模块、基于条件随机场学习器模块、基于神经网络学习器模块、PHI实体识别模块和Stacking集成学习模块;所述方法包括文本切分步骤、基于转换规则自动获取步骤、基于条件随机场学习器步骤、基于神经网络学习器步骤、PHI实体识别步骤和Stacking集成学习步骤。
-
公开(公告)号:CN107301226A
公开(公告)日:2017-10-27
申请号:CN201710469901.9
申请日:2017-06-20
Applicant: 哈尔滨工业大学
Abstract: 本发明提出了一种问答系统中检索自模块的自动评价方法,属于模块自评价方法技术领域。通过针对检索出来的文档列表,根据其中每个位置上的文档与问题、与参考答案之间的相关程度(由各种特征表示),通过机器学习模型(具体是GBDT),准确估计出这个检索结果的MAP值,从而完成最终的评价过程。具有评价确定度高,评价方法简洁等特点。适用于各种问答系统中检索自模块的自评价。
-
公开(公告)号:CN106599933A
公开(公告)日:2017-04-26
申请号:CN201611223174.X
申请日:2016-12-26
Applicant: 哈尔滨工业大学
CPC classification number: G06K9/6262 , G06F16/35 , G06K9/6277
Abstract: 一种基于联合深度学习模型的文本情感分类方法,本发明涉及文本情感分类方法。本发明为了解决现有SVM等浅层分类方法,会带来维数灾难和数据稀疏等问题。步骤为:一:对文本数据中每一个词进行处理,采用word2vec工具对处理后的文本数据中每一个词进行训练,得到词向量字典;二:得到每个句子的矩阵M,LSTM层将矩阵M进行训练转化为固定维度的向量对输入层进行改进,生成d维h个具有上下文语义关系的词向量;三、采用CNN作为一个可训练的特征检测器从d维h个具有上下文语义关系的词向量中抽取特征;四:将抽取的特征依次连接,输出得到每个类别的概率,概率值最大的类别为所预测的类别。本发明用于自然语言处理领域。
-
公开(公告)号:CN106202068A
公开(公告)日:2016-12-07
申请号:CN201610590241.5
申请日:2016-07-25
Applicant: 哈尔滨工业大学
CPC classification number: G06F17/289 , G06F17/2785 , G06N3/0445 , G06N3/08
Abstract: 基于多语平行语料的语义向量的机器翻译方法,本发明涉及机器翻译方法。本发明是要解决双语平行语料获得的语义信息通常较少的问题。本发明是通过一、输入平行的源语言1、2以及目标语言;二、根据公式(1)到公式(6)计算得到隐状态h′和h″;三、计算得到的向量c,四、生成目标语言;或者一、输入源语言1、2以及目标语言;二、计算向量c1和向量c2的归一化之后的余弦距离;三、衡量向量c1和向量c2的相似性;四、令dis(c1,c2)大于阈值δ;给定源语言1句子集合S1和源语言2句子集合S2,即表示为如下约束最优化问题:五、建立最终目标函数等步骤实现的。本发明应用于机器翻译领域。
-
公开(公告)号:CN104731774A
公开(公告)日:2015-06-24
申请号:CN201310722090.0
申请日:2013-12-24
Applicant: 哈尔滨工业大学
CPC classification number: G06F17/289
Abstract: 本发明公开了一种面向通用机译引擎的个性化翻译方法及装置。其中,该方法包括:获取用户输入的翻译内容;获取翻译内容的在线翻译结果;基于翻译内容在双语翻译实例库进行相似度检索,获取至少一个翻译实例;使用在线翻译结果对翻译实例进行增量式对齐,生成混淆网络;对混淆网络进行解码,获取翻译候选结果。通过本发明,能够实现提高翻译结果的准确度。
-
公开(公告)号:CN102779193B
公开(公告)日:2015-05-13
申请号:CN201210244519.5
申请日:2012-07-16
Applicant: 哈尔滨工业大学
IPC: G06F17/30
Abstract: 自适应个性化信息检索系统及方法,涉及计算机信息检索技术。本发明针对分布不规律的用户动态检索需求及时捕捉,伴随用户与搜索引擎的交互及时更新检索模型。所述系统包括用于根据当前查询信息、结合历史查询信息和历史点击信息构成特征矩阵,及根据特征矩阵获得训练参数预测模型的数据输入子系统;用于根据特征矩阵训练并应用参数预测模型、获得预测参数的参数训练和预测子系统;用于以预测参数组织当前查询、历史查询和历史点击,及将用户模型和查询模型结合形成个性化查询模型的执行检索子系统;和用于在待检索文档中寻找与个性化查询匹配的文档作为初步检索结果,根据相关性对所述初步检索结果进行排序获得最终检索结果输出的数据输出子系统。
-
公开(公告)号:CN101699432B
公开(公告)日:2015-01-21
申请号:CN200910073206.6
申请日:2009-11-13
IPC: G06F17/30
Abstract: 基于排序策略的信息过滤系统,涉及到信息过滤技术领域。它解决了现有信息过滤模型中存在的优化目标和过滤问题评价指标不一致、模型优化结果产生偏差、性能受到制约的问题。本发明的信息过滤系统由训练模型、过滤器和特征权重库组成,所述过滤器对新信息单元进行识别的方法为:将信息过滤问题转化成排序问题,针对核心评价指标1-ROCA进行优化,建立基于排序策略的信息过滤模型,所述过滤模型采用排序逻辑回归学习算法,并综合运用基于TONE策略的参数权重更新算法和重采样技术获得权重参数,进而获得新信息单元的预测分值,根据预测分值与设定阈值的对比结果,判定新邮件的属性。本发明的方法可以应用到各种信息过滤、信息推送系统中。
-
公开(公告)号:CN103631773A
公开(公告)日:2014-03-12
申请号:CN201310689351.3
申请日:2013-12-16
Applicant: 哈尔滨工业大学
Abstract: 基于领域相似性度量方法的统计机器翻译方法,涉及机器翻译技术领域。它解决了现机器翻译技术中选取平行语料的方法中,采用余弦函数与词频来作为领域间相似性的度工具并不能反应实际的相似程度以及忽略了文字背后的语义关联,而导致选取的平行语不能反映实际含义、最终影响翻译结果准确性的问题。本发明是在现有统计机器翻译方法中,在从双语平行的训练语料库中选取与翻译文本的领域相似性高的若干篇文档作为训练语料,其中判断相似性的方法为:用相对词频或主题模型作为特征代表,采用余弦距离数、变分距离函数、欧式距离函数、偏斜距离函数或者JS距离函数作为相似度函数进行档相似性度量。本发明的翻译结果更接近于人工翻译的结果。
-
公开(公告)号:CN101908055A
公开(公告)日:2010-12-08
申请号:CN201010118656.5
申请日:2010-03-05
IPC: G06F17/30
Abstract: 一种优化lam%的信息分类阈值的设定方法及使用该方法的信息过滤系统,涉及到一种信息过滤方法及该方法中的阈值设定方法。它解决了现有信息过滤模型中存在的优化目标和过滤问题评价指标不一致、模型优化结果产生偏差、性能受到制约的问题。所述优化lam%的信息分类阈值的设定方法是设定偏置的分类阈值,使hm%或sm%趋近于0,进而使得lam%的值趋近于0。所述信息过滤系统包括特征权重库、训练器、信息过滤器,其中,信息过滤器用于对接收信息进行特征提取并获得特征信息的信息、以及基于特征权重库中的特征对于接收到信息进行识别,将所述信息分为正常信息和垃圾信息。本发明可应用于网络信息过滤和手机垃圾短信过滤等电子信息的过滤。
-
-
-
-
-
-
-
-
-