文本编码方法及系统
    1.
    发明授权

    公开(公告)号:CN106844327B

    公开(公告)日:2020-11-17

    申请号:CN201510907916.X

    申请日:2015-12-07

    Abstract: 本发明公开了一种文本编码方法及系统,该方法包括:预先构建基于依存句法树的文本编码模型,所述文本编码模型用于描述不同依存关系对应的转换矩阵和偏置项、以及每个词向量映射到隐藏层的转换矩阵和偏置项,相同依存关系对应相同的转换矩阵和偏置项,不同依存关系对应的转换矩阵和/或偏置项不同;接收待编码文本;以句为单位,对所述待编码文本进行依存句法分析,得到待编码文本中各句文本的依存句法树;利用所述文本编码模型及待编码文本中各句文本的依存句法树对待编码文本进行编码,得到编码后的文本。利用本发明,可以提高文本编码的有效性。

    文本编码方法及系统
    2.
    发明公开

    公开(公告)号:CN106844327A

    公开(公告)日:2017-06-13

    申请号:CN201510907916.X

    申请日:2015-12-07

    Abstract: 本发明公开了一种文本编码方法及系统,该方法包括:预先构建基于依存句法树的文本编码模型,所述文本编码模型用于描述不同依存关系对应的转换矩阵和偏置项、以及每个词向量映射到隐藏层的转换矩阵和偏置项,相同依存关系对应相同的转换矩阵和偏置项,不同依存关系对应的转换矩阵和/或偏置项不同;接收待编码文本;以句为单位,对所述待编码文本进行依存句法分析,得到待编码文本中各句文本的依存句法树;利用所述文本编码模型及待编码文本中各句文本的依存句法树对待编码文本进行编码,得到编码后的文本。利用本发明,可以提高文本编码的有效性。

    一种文本分类方法及系统

    公开(公告)号:CN107180023B

    公开(公告)日:2022-01-04

    申请号:CN201610141931.2

    申请日:2016-03-11

    Abstract: 本发明公开了一种文本分类方法及系统,该方法包括:预先构建基于分类特征进行文本分类的文本分类模型,所述分类特征包括以下任意一种或多种:字特征、词特征,还包括以下任意一种或多种:词性特征、依存句法特征;获取待分类文本数据;提取待分类文本数据的分类特征;将所述分类特征输入所述文本分类模型,得到待分类文本数据的文本类别。由于本发明提供的方法可以用字特征、词特征、词性特征、依存句法特征等特征从多角度表达文本数据的语义信息,能更完整的表达文本数据的信息,使得利用所述分类特征进行文本类型预测时,获取的预测结果的准确度更高。

    一种文本分类方法及系统

    公开(公告)号:CN107180023A

    公开(公告)日:2017-09-19

    申请号:CN201610141931.2

    申请日:2016-03-11

    CPC classification number: G06F17/2775 G06F17/2785

    Abstract: 本发明公开了一种文本分类方法及系统,该方法包括:预先构建基于分类特征进行文本分类的文本分类模型,所述分类特征包括以下任意一种或多种:字特征、词特征,还包括以下任意一种或多种:词性特征、依存句法特征;获取待分类文本数据;提取待分类文本数据的分类特征;将所述分类特征输入所述文本分类模型,得到待分类文本数据的文本类别。由于本发明提供的方法可以用字特征、词特征、词性特征、依存句法特征等特征从多角度表达文本数据的语义信息,能更完整的表达文本数据的信息,使得利用所述分类特征进行文本类型预测时,获取的预测结果的准确度更高。

    语音识别后处理方法及系统

    公开(公告)号:CN105244029A

    公开(公告)日:2016-01-13

    申请号:CN201510560841.2

    申请日:2015-08-28

    Abstract: 本发明公开了一种语音识别后处理方法及系统,该方法包括:预先利用语音识别容易出错的词对构建错词检测模型;在接收到待识别语音数据后,对所述语音数据进行语音识别,得到识别结果;依次将所述识别结果中的各词与通用词典中的每个词组成词对,并提取词对中所述识别结果中各词的语义特征及声学特征,以及词典词的声学特征;利用所述词对的语义特征和声学特征、以及所述错词检测模型,依次检测所述识别结果中的各词,得到修正后的识别结果。利用本发明,可以提高语音识别结果后处理的效果,准确修正识别结果中错误词。

    一种新词发现方法及装置

    公开(公告)号:CN106445915A

    公开(公告)日:2017-02-22

    申请号:CN201610826780.4

    申请日:2016-09-14

    Abstract: 本发明提供了一种成词概率的计算方法、新词发现方法及装置,所述计算方法包括:获取文本数据;对所述文本数据进行分词,获得候选词;获取所述候选词的词向量;根据所述候选词的词向量和所述候选词在所述文本数据中的出现顺序,计算经过遗忘后的所述候选词的成词概率。若所述经过遗忘后的候选词的成词概率大于预设阈值,并且所述候选词未出现在词典中,将所述候选词标记为新词。可见,在本发明实施例中,无需人工总结规则,从而减少工作量,而且最终计算出的是经过遗忘后的成词概率,从而提高了新词利用率,节省系统资源。

Patent Agency Ranking