局部话题概率生成正则化自编码文本嵌入表示方法

    公开(公告)号:CN108470025A

    公开(公告)日:2018-08-31

    申请号:CN201810235907.4

    申请日:2018-03-21

    Abstract: 本发明涉及局部话题概率生成正则化自编码文本嵌入表示方法,属于自然语言处理与机器学习领域。本发明首先实现文本集近邻图的构建,包括计算任意文本词对相似性权重、查找文本对的最大加权匹配距离、计算平均化最大加权匹配距离(NMD)相似度、根据NMD结果选择k最近邻并以NMD结果作为边权构建近邻图;然后通过近邻图上直推式多代理随机游走过程构建子空间,进行子空间判定;最后利用子空间的LDA模型生成伪文本,并将伪文本作为正则约束项,与真实文本一起作为自编码网络的重构对象,指导编码网络对抗局部近邻文本话题概率生成结构变化,构建光滑的仿射映射。本发明可以有效保持局部近邻文本话题概率生成结构的光滑性,从而构建光滑的仿射映射函数,增强样本外文本嵌入表示向量的类内紧凑性及类间分离性,提升文本分类、聚类等应用效果。

    基于注意力双层LSTM的长文本情感倾向性分析方法

    公开(公告)号:CN108446275A

    公开(公告)日:2018-08-24

    申请号:CN201810234144.1

    申请日:2018-03-21

    Abstract: 本发明涉及基于注意力双层LSTM的长文本情感倾向性分析方法,属于自然语言处理与机器学习领域。主要为了解决长文本评论篇幅长,正负情感特征离散分布且每个句子的情感语义贡献度不同,导致难以准确判断全文情感倾向的问题。本发明首先利用LSTM学习句子级情感向量表示;然后采用双向LSTM对文档中所有句子的情感语义及句子间的语义关系进行编码,并基于注意力机制对具有不同情感语义贡献度的句子进行权值分配;最后,加权句子级情感向量表示得到长文本的文档级情感向量表示,经过Softmax层得到长文本情感倾向。在Yelp2015和IMDb电影评论语料上实验,结果表明本发明能达到较好的分类效果,进一步提升了情感分类的正确率。

    基于短语袋主题模型的话题发现方法

    公开(公告)号:CN108399162A

    公开(公告)日:2018-08-14

    申请号:CN201810233489.5

    申请日:2018-03-21

    CPC classification number: G06F17/2775 G06F16/35

    Abstract: 本发明涉及基于短语袋主题模型的话题发现方法,属于自然语言处理与机器学习领域,目的是为解决词袋模型丢失词之间的关联信息,以及无法准确反映话题信息的问题。本发明首先利用FP-growth算法快速生成频繁短语,再通过文本数据服从高斯分布的特性挖掘候选短语;然后基于短语袋假设进行主题建模,利用短语中词汇在同一主题下的“主题-词语”概率分布的Sa函数来修正“主题-短语”的概率分布;最后用生成的主题短语表述话题。本发明具有主题分配、话题发现准确率高以及话题表述可读性高等特点,有利于对微博舆情进行监控,具有很好的应用价值和推广价值。

    基于情感词扩充的短文本情感分类方法

    公开(公告)号:CN108376133A

    公开(公告)日:2018-08-07

    申请号:CN201810234391.1

    申请日:2018-03-21

    Abstract: 本发明涉及基于情感词扩充的短文本情感分类方法,属于计算机与信息科学技术领域。本发明首先将评论文本切分成句子集合,利用jieba分词工具进行分词和词性标注,得到预处理结果;其次,针对每一条短文本评论,用维基百科语料训练Glove获得每个词语的词向量,利用词向量计算其他词语与词性为N、V、Adj和Adv的初始情感特征的语义相似度,将语义相近的词扩充至初始情感特征集;然后提出DF-TF-MI,利用词语间统计特征改进传统特征降维方法进行特征降维,得到低维的特征集,再经过情感特征加权;最后将得到的特征向量通过由弱分类器加权组成的RADA算法进行情感倾向性分类。本发明解决了情感词典存在未登录词的问题,同时有效解决了短文本评论有效情感词少导致情感特征稀疏的问题,提升了情感倾向性分析的性能及准确率。

    一种模型训练层AdaBoost算法的参数优化方法

    公开(公告)号:CN107170443A

    公开(公告)日:2017-09-15

    申请号:CN201710332545.6

    申请日:2017-05-12

    Abstract: 本发明涉及一种模型训练层AdaBoost算法的参数优化方法。从应用场景的角度讲,属于音频事件识别技术领域;从技术实现的角度来讲,亦属于计算机科学与音频处理技术领域。本发明首先,提取音频训练样本底层特征,生成特征向量;然后,使用模拟退火算法进行AdaBoost模型的参数优化;最后使用优化后参数生成音频事件识别模型。本发明所述方法,对模型训练层AdaBoost算法参数进行优化,逼近迭代次数的最优解。在保持优秀的识别效果的同时,极大地缩短了参数优化时间,进而提高模型训练的效率,缓解了模型训练阶段网格法寻优耗时严重的问题。

    一种Windows Shellcode自动构建方法

    公开(公告)号:CN107168706A

    公开(公告)日:2017-09-15

    申请号:CN201710331792.4

    申请日:2017-05-12

    Abstract: 本发明涉及一种Windows Shellcode自动构建方法,属于计算机与信息科学技术领域。本发明为不同应用场景下的Windows shellcode构建提供简单易用的接口,不借助其他工具(如Metasploit Framework)自动化完成shellcode构建。并使每个步骤都能单独完成任务。能够处理大型功能性shellcode的构建,提高shellcode构建的兼容性、可靠性以及自动化程度。能够在系统内省时省力的完成shellcode的构建任务。

    一种模糊测试种子用例变长字段修剪方法

    公开(公告)号:CN107025175A

    公开(公告)日:2017-08-08

    申请号:CN201710332227.X

    申请日:2017-05-12

    Abstract: 本发明涉及改进模糊测试的方法研究,属于信息安全中的漏洞挖掘领域。模糊测试中种子用例的冗余导致变异生成大量的等价类测试用例,造成了测试时间代价高和测试用例冗余。为此提出了一种种子用例变长字段修剪方法,该方法利用一般种子用例格式规范上的特点,将种子用例中可能为变长字段的冗余数据大量删除,并使用代码插桩技术保证种子用例的格式规范不被破坏,实现减小以该种子用例为模板文件变异所生成的等价类测试用例。

    融合分布式语义和句义特征的人物关系抽取方法

    公开(公告)号:CN106484675A

    公开(公告)日:2017-03-08

    申请号:CN201610866186.8

    申请日:2016-09-29

    CPC classification number: G06F17/2785 G06F17/271

    Abstract: 本发明涉及一种融合分布式语义和句义特征的人物关系抽取方法,属于自然语言处理领域。本发明首先利用统计词频特征及Bootstrapping算法,分别在少量有标记的语料和大量无标记的语料中训练得到关系特征词典,然后通过元素距离最优化规则构造语句的三元组实例,融合分布式语义信息及语义信息构造三元组特征空间,最后对三元组进行是非二元判定,利用置信度最大化原则得到人物关系类别。本发明实现了特征关系词典的自动生成,将传统的关系多分类问题转化为三元组是非二元判定问题,更加适应传统的机器学习分类算法,且利用分布式语义信息,提升了关系分类的准确率。

    基于boruta算法的多层次老年人体能状态量化等级计算方法

    公开(公告)号:CN106407706A

    公开(公告)日:2017-02-15

    申请号:CN201610868391.8

    申请日:2016-09-29

    CPC classification number: G16H50/30

    Abstract: 本发明涉及一种老年人体能状态量化等级计算方法,属于生物医学技术领域。本发明首先基于步速将人群划分为较高步速人群、普通步速人群、较低步速人群及全部人群,通过boruta算法针对不同人群提取关键属性,并按照重要性排序及合理的规则最终确定步速的关键影响因素,构建两种逻辑回归模型,预测较高、较低步速人群中体能较好的概率,融合两种模型的判别结果,完成对全部人群的量化等级判定。实现对人群的评定并以等级的形式反馈,可以体现人群个性化的特征,达到细致划分人群的目的,为不同人群的体能评价提供指导意见。

Patent Agency Ranking