-
公开(公告)号:CN105955966B
公开(公告)日:2019-04-26
申请号:CN201610235521.4
申请日:2016-04-15
Applicant: 苏州大学
IPC: G06F17/28
Abstract: 本发明公开了一种改进训练语料的平行质量的方法及装置。该方法包括:在预先获得的训练语料库中确定待纠正的目标句对,目标句对包括原文句子和相对应的译文句子;从目标句对的所有组合划分点中,选择一个可用组合划分点;利用可用组合划分点划分目标句对,获得原文句子的两个子句和译文句子的两个子句;确定获得的子句构成的子句对是否平行及各子句间的非平行关系;根据预设的对应规则,使用与确定的非平行关系对应的纠正方式纠正目标句对。应用本发明实施例所提供的技术方案,改进了训练语料的平行质量,提升了统计机器翻译系统的翻译性能。
-
-
公开(公告)号:CN105808722B
公开(公告)日:2020-07-24
申请号:CN201610128564.2
申请日:2016-03-08
Applicant: 苏州大学
IPC: G06F16/9536
Abstract: 本发明提供了一种信息判别方法及系统,基于网络爬虫技术,检索并收集传统媒体和社交媒体的热点信息对应的网页信息,并对收集到的网页信息进行处理,得到类别数据标记的、划分有训练集数据和测试集数据的传统媒体和社交媒体数据集合;基于训练集数据进行主题建模获取主题与关键词文档,并建立对应传统媒体数据的主题特征集合和对应社交媒体数据的关键词特征集合;利用主题特征集合和关键词特征集合训练分类器,通过得到的传统媒体分类器和社交媒体分类器对测试集数据进行分类判别,得到能够引发社交媒体报道的传统媒体数据,和/或能够引发传统媒体报道的社交媒体数据。由此采用对多个媒体的监测,能够更全面,更快的分析和预测舆情发展的趋势。
-
公开(公告)号:CN104317890B
公开(公告)日:2018-05-01
申请号:CN201410572086.5
申请日:2014-10-23
Applicant: 苏州大学
Abstract: 本申请提供的文本连接词的识别方法及装置,在获取的待识别文本中,提取待识别的连接词,利用预先构建的分类器对该识别连接词进行识别,获得识别结果,进而利用识别结果确定待识别连接词的属性,该属性为连接词或非连接词。在本实施例中,首先在待识别文本中获得连接词,该连接词为初步识别的连接词,再利用利用已标注的连接词样本作为训练集构建的分类器进一步确定,从而准确识别出待识别文本中的连接词。
-
公开(公告)号:CN104537118B
公开(公告)日:2017-12-26
申请号:CN201510036778.2
申请日:2015-01-26
Applicant: 苏州大学
IPC: G06F17/30
Abstract: 本申请提供了一种微博数据处理方法、装置及系统,所述方法中使用最大熵分类器计算每个待分类特征值在待测样本预设为正类和负类时,对应的待分类正预测子条件概率和待分类负预测子条件概率;然后得到待分类正预测条件概率和待分类负预测条件概率;在比较结果为待分类正预测条件概率最大的情况下,确定待测样本的类别为正;在比较结果为待分类负预测条件概率最大的情况下,确定待测样本的类别为负,实现了对待测样本类别的预测。在预测出待测样本的类别为正时,确定出待测样本对应的两个账号属于同一用户,在预测出待测样本的类别为负时,确定出待测样本对应的两个账号不属于同一用户,从而实现了对不同微博网站下的同一用户的识别。
-
-
公开(公告)号:CN104462229A
公开(公告)日:2015-03-25
申请号:CN201410640920.X
申请日:2014-11-13
Applicant: 苏州大学
CPC classification number: G06F16/353 , G06F17/289
Abstract: 本申请公开了一种事件分类方法及装置,对原始语料进行翻译获取翻译样本,将所述翻译样本的词特征与单语特征相加获得双语样本;所述单语特征包括词特征、触发词、所述触发词的词性和所述触发词的上下文特征;将所述双语样本作为训练样本,构建分类器;最后,利用所述分类器对待分类事件进行分类。基于上述方法和装置,使用翻译样本与单语特征的综合信息判断事件类型,可以在一定程度上避免数据稀疏的问题。
-
公开(公告)号:CN108984538B
公开(公告)日:2022-05-31
申请号:CN201810784072.8
申请日:2018-07-17
Applicant: 苏州大学
IPC: G06F40/58
Abstract: 本发明涉及一种基于语法规约指导的神经机器翻译方法,为了得到更加精准的神经翻译模型而设计。本发明基于语法规约指导的神经机器翻译方法,本发明对源端和目标端都进行指导:在源端,添加了注意力损失来指导注意力集中在源端短语上;在目标端通过一层子网络来指导目标端词关注到合适的目标端短语上。网络的源端和目标端构成一个汇总损失,称为指导损失,用于指导NMT。本发明能够有效地改善神经机器翻译质量。
-
-
公开(公告)号:CN104598648B
公开(公告)日:2017-12-26
申请号:CN201510087855.7
申请日:2015-02-26
Applicant: 苏州大学
IPC: G06F17/30
Abstract: 本方案公开了一种微博用户交互式性别识别方法及装置。该方法首先获取微博用户的个人资料信息和用户之间的交互微博文本,并利用交互用户个人资料中的性别信息对交互文本的交互式性别类别进行标注;然后利用标注好的用户之间的交互文本作为训练样本,并利用训练样本训练最大熵分类器;最后,对某测试交互用户集进行分类。综合来看,本发明可以利用交互文本对微博中的两个交互用户的交互式性别进行识别,且在训练样本数量有限的情况下,达到较高的准确率。
-
-
-
-
-
-
-
-
-