语料泛化方法、装置、电子设备及可读存储介质

    公开(公告)号:CN108460017A

    公开(公告)日:2018-08-28

    申请号:CN201810165781.8

    申请日:2018-02-28

    Inventor: 王武生 石磊

    CPC classification number: G06F17/2765 G06F17/2785

    Abstract: 本发明提供一种语料泛化方法、装置、电子设备及可读存储介质,通过接收用户输入的初始语料,将初始语料切分为语料组分;合并相同的语料组分,形成多个语料组分节点;根据每个初始语料中各语料组分的连接顺序,在多个语料组分节点中确定每个初始语料中各语料组分之间的转移路径;遍历转移路径,建立路径可达的语料组分之间的转移关系,形成泛化后的语料。从而实现了基于已有的语料组分之间转移关系泛化生成大量的衍生语料,且该泛化的语料是基于初始语料的语料组分转移顺序生成的,符合人们的自然语言表达,增加了用于模型训练的语料数量,提升了语料质量,使得采用该泛化后的语料训练出的模型的识别效果得以提升。

    主题模型的生成方法及装置、主题分布的获取方法及装置

    公开(公告)号:CN104536979B

    公开(公告)日:2018-05-01

    申请号:CN201410738272.1

    申请日:2014-12-05

    Inventor: 石磊 蒋佳军

    Abstract: 本发明实施例提供了一种主题模型的生成方法及装置、主题分布的获取方法及装置。一方面,本发明实施例通过获得训练样本中词对的第一后验概率参数;从而,依据所述第一后验概率参数,获得所述训练样本中词对的主题分布的候选期望;其中,所述词对包含所述训练样本中两个不同的词条,以及依据所述训练样本中词对的主题分布的候选期望,获得主题模型的收敛度;进而,若所述主题模型的收敛度满足终止条件,将所述训练样本中词对的主题分布的候选期望作为所述主题分布的目标期望。因此,本发明实施例提供的技术方案用以解决现有技术中利用传统的主题模型获得文本的主题分布的准确性和稳定性比较低的问题。

    确定短文本相似度的方法和装置

    公开(公告)号:CN104391828B

    公开(公告)日:2017-11-17

    申请号:CN201410645486.4

    申请日:2014-11-11

    Abstract: 本发明提出一种确定短文本相似度的方法和装置,该确定短文本相似度的方法包括采用预设的第一模型和第二模型,获取第一词向量和第二词向量,所述第一词向量是第一短文本包含的词的词向量,所述第二词向量是第二短文本包含的词的词向量,其中,所述第一模型是词向量训练模型,所述第二模型是短文本相似度计算模型;根据所述第一词向量获取第一投影值,以及,根据所述第二词向量获取第二投影值;对所述第一投影值和所述第二投影值进行预设函数运算,得到运算后的函数值,并根据所述函数值确定所述第一短文本与所述第二短文本之间的相似度数值。该方法能够提高短文本相似度数值计算的准确度。

    替换词典生成方法及装置
    35.
    发明授权

    公开(公告)号:CN104484377B

    公开(公告)日:2017-11-03

    申请号:CN201410746317.X

    申请日:2014-12-09

    Abstract: 本发明公开了一种替换词典生成方法及装置,其中方法包括:获取句对资源,利用语言先验知识对所述句对资源做规则对齐,生成第一替换词典;对所述句对资源中的剩余语料,利用融合有语言先验知识的IBM模型做统计对齐,生成第二替换词典,其中,所述剩余语料为所述句对资源中经所述规则对齐后剩余的词语;根据所述第一替换词典和第二替换词典生成线上可用的第三替换词典,提高了替换词典的准确率和召回率。

    一种关联信息的推荐方法及装置

    公开(公告)号:CN104361062B

    公开(公告)日:2017-10-31

    申请号:CN201410610726.7

    申请日:2014-11-03

    Abstract: 本发明提供了一种关联信息的推荐方法及装置,其中,该方法包括:获取与第一级信息节点相关联的m个第二级信息节点对应的m个第一权重值,其中,所述m个第一权重值通过用户的点击跳转行为获取到,所述第一级信息节点为所述用户当前使用的信息节点,m为正整数;根据所述m个第一权重值与预设的n个推荐信息节点为所述用户确定推荐的关联信息,其中,n为正整数。本发明实施例通过m个第一权重值参考了用户的点击跳转行为,避免了通过信息节点的内容、信息节点的上传者或者作者、信息节点的类型等向用户推荐节点信息的内容聚焦问题,由于m个第一权重值的获取方式是参考用户的点击跳转行为,实现了通过大数据思想向用户推荐关联信息。

    观测字符串的标注序列生成方法及装置

    公开(公告)号:CN104462758B

    公开(公告)日:2017-05-24

    申请号:CN201410610591.4

    申请日:2014-11-03

    Abstract: 本发明提供一种观测字符串的标注序列生成方法及装置,上述方法包括:接收用户输入的至少一个观测字符串;根据观测字符串的个数和标注的个数生成发射矩阵,并将发射矩阵每行每列的值初始化为0;针对任一观测字符串,从预先训练出的第一特征标注模型查找出以观测字符串结尾的最长特征字符串,将最长特征字符串对应的预相加权重分别与发射矩阵中与观测字符串对应的列中的各个值相加,第一特征标注模型包括:多个特征字符串及其各标注的预相加权重;根据经权重相加的发射矩阵以及预先训练出的转移矩阵,生成至少一个观测字符串的标注序列。本发明提高了生成观测字符串的观测字符串的标注序列的速度。

    提取文档中关键词的方法及装置

    公开(公告)号:CN105069143A

    公开(公告)日:2015-11-18

    申请号:CN201510512363.8

    申请日:2015-08-19

    Inventor: 姜迪 石磊 林鸿宇

    CPC classification number: G06F16/36 G06F16/313

    Abstract: 本发明公开了一种提取文档中关键词的方法及装置,其中所述方法包括:根据隐含主题向量模型训练得到与文档信息相关的至少一个主题向量和至少一个词向量,所述隐含主题向量模型为主题模型和词向量的融合模型;计算所述词向量和主题向量之间的距离;根据词向量与所述主题向量之间的距离,选取预设个数词向量对应的词作为所述文档的关键词。本发明实施例能够提取出的精确表达文档信息的关键词信息。

    手势信息处理方法、装置、设备、存储介质及程序产品

    公开(公告)号:CN113625878B

    公开(公告)日:2024-03-26

    申请号:CN202110934968.1

    申请日:2021-08-16

    Abstract: 本公开提供了一种手势信息处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品,涉及手势交互、智能设备控制、图像识别等人工智能技术领域。该方法的一具体实施方式包括:根据采集到的手势信息确定手势动作和来源肢体;在智能镜上确定与来源肢体对应的手势生效区域;对手势生效区域的功能按钮执行与手势动作对应的操作指令。该实施方式针对智能镜提供了一种基于手势的控制方式,充分借助了来源肢体在完整肢体的位置关系来映射不同手势生效区域在全部镜面区域之间的位置关系,借助此种手势控制方式提升了对智能镜的控制便利性。

Patent Agency Ranking