观测字符串的标注序列生成方法及装置

    公开(公告)号:CN104462758A

    公开(公告)日:2015-03-25

    申请号:CN201410610591.4

    申请日:2014-11-03

    Abstract: 本发明提供一种观测字符串的标注序列生成方法及装置,上述方法包括:接收用户输入的至少一个观测字符串;根据观测字符串的个数和标注的个数生成发射矩阵,并将发射矩阵每行每列的值初始化为0;针对任一观测字符串,从预先训练出的第一特征标注模型查找出以观测字符串结尾的最长特征字符串,将最长特征字符串对应的预相加权重分别与发射矩阵中与观测字符串对应的列中的各个值相加,第一特征标注模型包括:多个特征字符串及其各标注的预相加权重;根据经权重相加的发射矩阵以及预先训练出的转移矩阵,生成至少一个观测字符串的标注序列。本发明提高了生成观测字符串的观测字符串的标注序列的速度。

    分词训练数据的构造方法和装置

    公开(公告)号:CN104331472B

    公开(公告)日:2018-01-30

    申请号:CN201410608667.X

    申请日:2014-11-03

    Inventor: 石磊 张开旭

    Abstract: 本发明实施例公开了一种分词训练数据的构造方法和装置。所述分词训练数据的构造方法包括:获取用户的一次查询会话中用户的查询语句及用户最终所点击网页的网页标题;将所述查询语句与所述网页标题进行比对,以获取所述查询语句与所述网页标题之间的公共字符串;根据获取到的所述公共字符串对所述查询语句与所述网页标题进行分词。本发明实施例提供的分词训练数据的构造方法和装置丰富了分词训练数据的数据源,克服了分词训练数据的数据稀疏问题。

    分词训练数据的构造方法和装置

    公开(公告)号:CN104331472A

    公开(公告)日:2015-02-04

    申请号:CN201410608667.X

    申请日:2014-11-03

    Inventor: 石磊 张开旭

    CPC classification number: G06F17/30867 G06F17/30684

    Abstract: 本发明实施例公开了一种分词训练数据的构造方法和装置。所述分词训练数据的构造方法包括:获取用户的一次查询会话中用户的查询语句及用户最终所点击网页的网页标题;将所述查询语句与所述网页标题进行比对,以获取所述查询语句与所述网页标题之间的公共字符串;根据获取到的所述公共字符串对所述查询语句与所述网页标题进行分词。本发明实施例提供的分词训练数据的构造方法和装置丰富了分词训练数据的数据源,克服了分词训练数据的数据稀疏问题。

    观测字符串的标注序列生成方法及装置

    公开(公告)号:CN104462758B

    公开(公告)日:2017-05-24

    申请号:CN201410610591.4

    申请日:2014-11-03

    Abstract: 本发明提供一种观测字符串的标注序列生成方法及装置,上述方法包括:接收用户输入的至少一个观测字符串;根据观测字符串的个数和标注的个数生成发射矩阵,并将发射矩阵每行每列的值初始化为0;针对任一观测字符串,从预先训练出的第一特征标注模型查找出以观测字符串结尾的最长特征字符串,将最长特征字符串对应的预相加权重分别与发射矩阵中与观测字符串对应的列中的各个值相加,第一特征标注模型包括:多个特征字符串及其各标注的预相加权重;根据经权重相加的发射矩阵以及预先训练出的转移矩阵,生成至少一个观测字符串的标注序列。本发明提高了生成观测字符串的观测字符串的标注序列的速度。

Patent Agency Ranking