-
公开(公告)号:CN104657351A
公开(公告)日:2015-05-27
申请号:CN201510076025.4
申请日:2015-02-12
申请人: 中国科学院软件研究所
IPC分类号: G06F17/28
摘要: 本发明提供一种双语对齐语料的加工方法及装置,涉及机器翻译技术领域,用于解决现有技术中双语对齐语料加工方法效率低下的问题。所述方法包括:获取第一语种文章的发布日期;提取所述第一语种文章的特征;筛选出发布日期与所述第一语种文章的发布日期相差在预设时间阈值以内的第二语种文章;提取所述第二语种文章的特征;根据所述第一语种文章的特征和所述第二语种文章的特征,计算所述第一语种文章与所述第二语种文章之间的归一化编辑距离;当所述第一语种文章与第二语种文章之间的归一化编辑距离小于预设距离阈值时,将所述第一语种文章和所述第二语种文章作为一对对齐语料,添加到双语对齐语料库中。本发明适用于双语对齐语料的自动加工。
-
公开(公告)号:CN104462026A
公开(公告)日:2015-03-25
申请号:CN201410757038.3
申请日:2014-12-10
申请人: 中国科学院软件研究所
摘要: 本发明公开一种提供云字库服务的方法和系统,涉及互联网字库应用技术领域,解决了现有技术中终端下载字库耗费大量流量的问题。所述提供云字库服务的方法包括:接口服务器接收客户端的缺字请求,将所述缺字请求发送给云字库服务器;云字库服务器根据所述缺字请求在缓存字库中查找对应的字库;云字库服务器根据所述缺字请求选择字库拆分与合并策略;云字库服务器根据所述缺字请求和字库拆分与合并策略,对查找到的字库进行字库拆分或合并操作,形成目标小字库;云字库服务器通过接口服务器将所述目标小字库发送给客户端。本发明适用于通过云平台为用户终端提供字库服务。
-
公开(公告)号:CN104133809A
公开(公告)日:2014-11-05
申请号:CN201410363929.0
申请日:2014-07-28
申请人: 中国科学院软件研究所
摘要: 本发明提供一种字形加粗方法,包括以下步骤:从字库中读取字形信息;通过字形信息判断字形的类别;若字形是点阵字形,则采用笔画线上像素点复制平移叠加的方法进行字形加粗;并且,将x方向的加粗幅度dx在字形高度H的1/72和1/48之间选取;将y方向的加粗幅度dy在dx的1/3至2/3之间选取;若字形是曲线轮廓字形,则采用将曲线控制点向笔画外侧平移的方法进行加粗;并且,将x方向的加粗幅度dx在字形高度H的1/72和1/48之间选取;将y方向的加粗幅度dy在dx的1/3至2/3之间选取。通过采取上述方法,对不同类别的字形分别进行加粗处理,且由于规定了x方向的加粗幅度与y方向的加粗幅度的取值,能够避免因字形加粗导致的笔画重叠,从而提升用户体验。
-
公开(公告)号:CN103198111B
公开(公告)日:2016-10-19
申请号:CN201310104968.4
申请日:2013-03-28
申请人: 中国科学院软件研究所
IPC分类号: G06F17/30
摘要: 本发明公开了一种面向轻量级终端的路网匹配方法。本方法为:1)将路网Map中每条道路R表示为一个安全投影区域SPAR,并保存道路之间的连通关系,得到一路网简化模型SPA‑Map并将其安装到轻量级终端;2)建立索引该路网简化模型的安全投影区域栅格SPA‑Grid并将其安装到轻量级终端;所述安全投影区域栅格索引对象为安全投影区域SPAR;3)对于一GPS点p,轻量级终端根据SPA‑Grid查找其可投影到的安全投影区域SPA集合,返回p点所在道路信息。与现有技术相比,本发明在略微降低路网匹配精度的前提下大幅度减少路网数据存储规模,使得在内存与计算能力非常有限的轻量级终端上进行路网匹配成为可能。
-
公开(公告)号:CN102135956B
公开(公告)日:2015-09-30
申请号:CN201110116500.8
申请日:2011-05-06
申请人: 中国科学院软件研究所
IPC分类号: G06F17/27
摘要: 本发明公开了一种基于词位标注的藏文分词方法,属于藏文信息处理领域。本方法为:1)对输入的藏文文本,以标点符号为标志切分为一系列藏文句子;2)对每个藏文句子,以藏文音节点为标志切分为一系列藏文音节;3)对每个藏文音节,根据其所处上下文环境从知识库中查找并选择一个词位标签赋予该音节;4)将所有被标记为紧缩的音节还原为两个音节,并依前后顺序分别标记为词尾和独立;5)将被标记为词首的音节至其后面第一个被标记为词尾的音节合并为一个词;6)将所有被标记为独立的音节以及所有未被合并的音节作为单音节词。本发明没有显式地区分词表词和未登录词,所有的处理都是在音节一级的单元上完成,使得分词称为音节重组的简单过程。
-
公开(公告)号:CN101114225A
公开(公告)日:2008-01-30
申请号:CN200710120856.2
申请日:2007-08-28
申请人: 中国科学院软件研究所
IPC分类号: G06F9/44
摘要: 本发明公开了一种图形用户界面的多语言自适应方法,其方法为根据要显示或要处理的主语言设置布局模式,根据用户交互操作和程序设置计算要显示的各个图形部件的位置和尺寸,然后根据确定的布局模式对各个图形部件的位置和尺寸实施变换,最后对于每个要显示的图形部件,用其变换后的位置和尺寸重新绘制该图形部件;本发明可以支持各种不同的书写方向,最大限度地符合用户习惯,对于图形用户界面库来说,应用此方法可以符合更多不同国家和地区的习惯,对于它的国际化能力是一次很大的提高。
-
公开(公告)号:CN104199867B
公开(公告)日:2017-05-17
申请号:CN201410406083.4
申请日:2014-08-18
申请人: 中国科学院软件研究所
IPC分类号: G06F17/30
摘要: 本发明提供一种解决文件名乱码问题的ZIP文件解压缩方法,包括以下步骤:根据当前操作系统使用的字符集编码确定目标编码;提取一文件名;根据提取的文件名确定源编码;如源编码与目标编码不相同,则将符合源编码的编码规则的文件名转换为符合目标编码的编码规则的文件名;相同则不转换;使用经转换处理之后的文件名在一存储模块中创建一文件;从ZIP文件中的压缩文件内容源数据区提取文件数据并写入到创建的文件;再重复上述直至ZIP文件中的所有文件都被解压缩完毕。通过对文件名做编码转换,可以将压缩包中的文件的文件名转换为符合目标编码的编码规则的文件名,解决了解压缩ZIP文件时存在的乱码问题。
-
公开(公告)号:CN102360436A
公开(公告)日:2012-02-22
申请号:CN201110326270.8
申请日:2011-10-24
申请人: 中国科学院软件研究所
IPC分类号: G06K9/68
摘要: 本发明属于少数民族语言文字信息处理领域,具体涉及一种基于部件的联机手写藏文字符的识别方法。本发明突破传统的基于统计的识别方法,以部件为基本识别对象,首先对输入字符进行部件分割,得到按一定规则排列的子结构序列,然后利用基于条件随机场的集成识别方法,从子结构序列中获取正确的部件串分割点及部件串的识别结果,基于此识别结果最终确定字符的类别。本发明用于基于笔式交互的移动设备的手写识别输入,识别方法的存储量小、识别精度较高,能够满足笔式移动设备的高需求。
-
公开(公告)号:CN102135956A
公开(公告)日:2011-07-27
申请号:CN201110116500.8
申请日:2011-05-06
申请人: 中国科学院软件研究所
IPC分类号: G06F17/27
摘要: 本发明公开了一种基于词位标注的藏文分词方法,属于藏文信息处理领域。本方法为:1)对输入的藏文文本,以标点符号为标志切分为一系列藏文句子;2)对每个藏文句子,以藏文音节点为标志切分为一系列藏文音节;3)对每个藏文音节,根据其所处上下文环境从知识库中查找并选择一个词位标签赋予该音节;4)将所有被标记为紧缩的音节还原为两个音节,并依前后顺序分别标记为词尾和独立;5)将被标记为词首的音节至其后面第一个被标记为词尾的音节合并为一个词;6)将所有被标记为独立的音节以及所有未被合并的音节作为单音节词。本发明没有显式地区分词表词和未登录词,所有的处理都是在音节一级的单元上完成,使得分词称为音节重组的简单过程。
-
公开(公告)号:CN101055593A
公开(公告)日:2007-10-17
申请号:CN200710111099.2
申请日:2007-06-15
申请人: 中国科学院软件研究所
IPC分类号: G06F17/30
摘要: 本发明涉及一种藏文网页及其编码的识别方法,首先给定一藏文编码中的特征字符串编码,所述特征字符串为音节点和/或选定的高频音节;以该特征字符串编码作为关键词对网页字符流进行扫描搜索;由计数器计算符合特征字符串编码的字符出现的次数;根据计数器结果,判定该网页是否为藏文网页,及采用的藏文编码。本发明充分利用藏文语言文字音节结构特点和藏文用字的统计学特点,结合针对不同的编码分别应用上述识别准则,能够有效地正确区分藏文网页和非藏文网页,并识别网页所使用藏文编码。
-
-
-
-
-
-
-
-
-