一种短文本的新词发现方法和系统

    公开(公告)号:CN100478961C

    公开(公告)日:2009-04-15

    申请号:CN200710121877.6

    申请日:2007-09-17

    Inventor: 龚才春 黄玉兰

    Abstract: 本发明公开了一种从短文本中发现新词的方法,包括以下步骤:获取短文本中所有多个连续字符或词语,构成候选新词集合;确定符合预先设定规则的候选新词;将候选新词作为查询关键词,在搜索引擎中进行精确搜索和模糊搜索,获取返回结果的数量和前多条精确搜索结果记录;利用搜索引擎精确搜索返回结果数、模糊搜索结果数、精确搜索前多条结果记录等判断候选新词是否为新词。本发明所述方法能够发现短文本中出现的新词,即便该新词在短文本中就只出现一次,同时新词发现的准确率也很高。

    一种识别中文文本编码形式的方法

    公开(公告)号:CN101013420A

    公开(公告)日:2007-08-08

    申请号:CN200610171655.0

    申请日:2006-12-31

    Inventor: 龚才春

    Abstract: 本发明公开了一种识别中文文本编码形式的方法,包括:A.在各种编码形式下分别对待识别文本进行整数ID序列转换;B.判断待识别中文文本是否只能按照某种编码形式转换为整数ID序列,如果是,则执行步骤D;否则,执行步骤C;C.对在各种编码形式下得到的待识别中文文本整数ID序列分别进行分词,判断在某种编码形式下得到的待识别中文文本整数ID序列是否包含词典中一个或多个词语,如果是,则执行步骤D;D.确定该待识别中文文本的编码形式为该种编码形式。利用本发明,大大提高了汉字字符编码识别的速度和准确率,并能够有效识别短文本的汉字字符编码形式。

    一种新词发现方法和系统

    公开(公告)号:CN100489863C

    公开(公告)日:2009-05-20

    申请号:CN200710175229.9

    申请日:2007-09-27

    Inventor: 龚才春 黄玉兰

    Abstract: 本发明公开了一种发现新词的方法,包括以下步骤:查找语料中所有出现频次大于一定阈值的字符串;统计每一个字符串在语料中所有出现位置的左侧和右侧各有多少个不同的字符或词语;若字符串左右侧不同字符或词语数量均大于某个预先设定的阈值,则将该字符串作为新词输出;否则在搜索引擎网站对字符串进行精确搜索和模糊搜索,若精确搜索返回结果数量大于一定阈值,和/或精确搜索和模糊搜索返回的结果数量之比大于一定阈值,和/或精确搜索返回结果网页中字符串的左右侧字符或词语种类数大于一定阈值,则将该字符串作为新词输出。本发明既能够发现在语料中出现频次较高的新词,也能够发现在语料中出现频次较低的新词,同时新词发现的准确率较高。

    一种专业术语抽取方法和系统

    公开(公告)号:CN101122919A

    公开(公告)日:2008-02-13

    申请号:CN200710121839.0

    申请日:2007-09-14

    Abstract: 本发明涉及自然语言计算机处理领域,提供了一种专业术语抽取方法,首先,按照专利文献所属领域的不同将专利文献划分到不同领域的文献库中;而后,以划分后的不同领域的专利文献库,组成语料库,并根据专业术语的特点,从语料库中抽取所包含的专业术语。本发明还提出了一种专业术语抽取系统。采用本发明的方法和系统,不仅可以改进专业术语的提取结果,还可以把改进的规则和概率应用到下次提取中,以提高准确率。

    一种短文本的新词发现方法和系统

    公开(公告)号:CN101118556A

    公开(公告)日:2008-02-06

    申请号:CN200710121877.6

    申请日:2007-09-17

    Inventor: 龚才春 黄玉兰

    Abstract: 本发明公开了一种从短文本中发现新词的方法,包括以下步骤:获取短文本中所有多个连续字符或词语,构成候选新词集合;确定符合预先设定规则的候选新词;将候选新词作为查询关键词,在搜索引擎中进行精确搜索和模糊搜索,获取返回结果的数量和前多条精确搜索结果记录;利用搜索引擎精确搜索返回结果数、模糊搜索结果数、精确搜索前多条结果记录等判断候选新词是否为新词。本发明所述方法能够发现短文本中出现的新词,即便该新词在短文本中就只出现一次,同时新词发现的准确率也很高。

    一种构造用于处理大规模词典的完美哈希函数的方法

    公开(公告)号:CN1996306A

    公开(公告)日:2007-07-11

    申请号:CN200610171640.4

    申请日:2006-12-31

    Inventor: 龚才春

    Abstract: 本发明涉及信息检索和自然语言处理技术领域,公开了一种构造用于处理大规模词典的完美哈希函数的方法,该方法包括:A、将待构造哈希函数的词典中的单词平滑;B、将平滑后词典按照单词长度分为n个子词典,对每个子词典构造相关图,n为自然数;C、对构造的每个子词典的相关图中的顶点进行排序,对排序后各顶点依次关联整数,将各单词映射到不同的哈希地址,得到词典的完美哈希函数。利用本发明,能够对包含上百万单词的词典成功构造完美哈希函数,并且能够处理中文等大字符集词典,填充因子接近1,提高了填充因子,缩短了构造时间,减少了哈希函数的工作空间。

    一种构造用于处理大规模词典的完美哈希函数的方法

    公开(公告)号:CN100495402C

    公开(公告)日:2009-06-03

    申请号:CN200610171640.4

    申请日:2006-12-31

    Inventor: 龚才春

    Abstract: 本发明涉及信息检索和自然语言处理技术领域,公开了一种构造用于处理大规模词典的完美哈希函数的方法,该方法包括:A、将待构造哈希函数的词典中的单词平滑;B、将平滑后词典按照单词长度分为n个子词典,对每个子词典构造相关图,n为自然数;C、对构造的每个子词典的相关图中的顶点进行排序,对排序后各顶点依次关联整数,将各单词映射到不同的哈希地址,得到词典的完美哈希函数。利用本发明,能够对包含上百万单词的词典成功构造完美哈希函数,并且能够处理中文等大字符集词典,填充因子接近1,提高了填充因子,缩短了构造时间,减少了哈希函数的工作空间。

    一种新词发现方法和系统

    公开(公告)号:CN101131705A

    公开(公告)日:2008-02-27

    申请号:CN200710175229.9

    申请日:2007-09-27

    Inventor: 龚才春 黄玉兰

    Abstract: 本发明公开了一种发现新词的方法,包括以下步骤:查找语料中所有出现频次大于一定阈值的字符串;统计每一个字符串在语料中所有出现位置的左侧和右侧各有多少个不同的字符或词语;若字符串左右侧不同字符或词语数量均大于某个预先设定的阈值,则将该字符串作为新词输出;否则在搜索引擎网站对字符串进行精确搜索和模糊搜索,若精确搜索返回结果数量大于一定阈值,和/或精确搜索和模糊搜索返回的结果数量之比大于一定阈值,和/或精确搜索返回结果网页中字符串的左右侧字符或词语种类数大于一定阈值,则将该字符串作为新词输出。本发明既能够发现在语料中出现频次较高的新词,也能够发现在语料中出现频次较低的新词,同时新词发现的准确率较高。

Patent Agency Ranking