-
公开(公告)号:CN103488723B
公开(公告)日:2016-11-09
申请号:CN201310419468.X
申请日:2013-09-13
Applicant: 复旦大学
Abstract: 本发明属于电子阅读技术领域,具体涉及一种电子阅读感兴趣语义范围自动导航的方法和系统。本发明系统主要由初级导航和精确导航两个级联的模块组成;首先,针对读者选定的少量内容,采用视频跟踪中的CamShift方法进行目标跟踪,并通过考察目标丢失瞬间的目标边界来确定语义范围的边界,从而得到初级导航结果;然后再根据考察相邻句子间的语义跳变来实现进一步的精确导航,并以此结果作为最终结果提交给读者;本发明能提供给读者真正感兴趣的内容,节省读者有限的阅读时间和阅读精力。
-
公开(公告)号:CN103488983B
公开(公告)日:2016-10-26
申请号:CN201310419348.X
申请日:2013-09-13
Applicant: 复旦大学
Abstract: 本发明属于名片识别技术领域,具体涉及一种基于知识库的名片OCR数据修正方法和系统。本发明的系统包括图像输入模块、预处理模块、OCR模块、数据修正模块、结果输出模块。本发明首先对输入名片图像进行包括倾斜校正、剪切、缩放在内的一系列图像处理,然后使用数字形态学处理技术、连通区分析技术从中提取出独立的字符串块作为子图像送入后续的OCR模块;接着,在对OCR的输出结果进行了信息结构化处理后,利用知识库的海量信息,以及文本+图像的两级修正方法、基于知识库IDF值加权的改进DTW方法等,实现对包括地址、单位机构名称以及纯数字在内的信息修正,从而在OCR的基础上,进一步提升识别准确率。
-
公开(公告)号:CN103488723A
公开(公告)日:2014-01-01
申请号:CN201310419468.X
申请日:2013-09-13
Applicant: 复旦大学
Abstract: 本发明属于电子阅读技术领域,具体涉及一种电子阅读感兴趣语义范围自动导航的方法和系统。本发明系统主要由初级导航和精确导航两个级联的模块组成;首先,针对读者选定的少量内容,采用视频跟踪中的CamShift方法进行目标跟踪,并通过考察目标丢失瞬间的目标边界来确定语义范围的边界,从而得到初级导航结果;然后再根据考察相邻句子间的语义跳变来实现进一步的精确导航,并以此结果作为最终结果提交给读者;本发明能提供给读者真正感兴趣的内容,节省读者有限的阅读时间和阅读精力。
-
公开(公告)号:CN104035917A
公开(公告)日:2014-09-10
申请号:CN201410253673.8
申请日:2014-06-10
Applicant: 复旦大学
Abstract: 本发明属于文本语义处理、语义网技术领域,具体为一种基于语义空间映射的知识图谱管理方法和系统。本发明方法包括:语义向量构建、语义空间映射、知识图谱管理;知识图谱管理又包括三个分为:语义聚类、语义去重、语义标注。对于知识图谱的边/结点,首先将描述其的文本单元向语义空间投影,并通过向量累积获得其在语义空间上的向量表示;在此基础上,实现知识图谱的多项管理任务;系统包括对应的语义向量构建、语义空间映射、知识图谱管理3个模块。本发明克服了传统知识图谱管理方法在进行语义比较时对词语变形、同义词变化、语法形式变化等因素敏感的缺点,并且向量累积的方式使其能轻松应对词语个数的不同,易于实现进一步的诸如语义聚类、语义去重、语义标注等知识图谱管理任务。
-
公开(公告)号:CN104008092A
公开(公告)日:2014-08-27
申请号:CN201410255166.8
申请日:2014-06-10
Applicant: 复旦大学
Abstract: 本发明属于文本语义处理技术领域,具体为一种基于语义空间映射的语义关系表征、聚类及识别的方法和系统。本发明对于待抽取关系的实体对:首先对包含二者的语句进行语法依存分析;然后将分析结果视作Graph,并计算Graph中对应这两个实体的结点间最短路径,来抽取出实体间关系;继而将路径上的词语向语义空间投影并进行累积,获得该关系在语义空间上的向量表示;对于多组实体对的场景,使用聚类方法对关系进行聚类并构建关系模型;依据表征输入实体对间关系的语义向量与关系模型之间的语义相似度实现关系的识别。本发明克服了传统方法在进行实体间关系比较时对词语变形、同义词变化、语法形式变化等因素敏感的缺点,提高了关系比较准确性和处理的灵活性。
-
公开(公告)号:CN104035917B
公开(公告)日:2017-07-07
申请号:CN201410253673.8
申请日:2014-06-10
Applicant: 复旦大学
Abstract: 本发明属于文本语义处理、语义网技术领域,具体为一种基于语义空间映射的知识图谱管理方法和系统。本发明方法包括:语义向量构建、语义空间映射、知识图谱管理;知识图谱管理又包括三个分为:语义聚类、语义去重、语义标注。对于知识图谱的边/结点,首先将描述其的文本单元向语义空间投影,并通过向量累积获得其在语义空间上的向量表示;在此基础上,实现知识图谱的多项管理任务;系统包括对应的语义向量构建、语义空间映射、知识图谱管理3个模块。本发明克服了传统知识图谱管理方法在进行语义比较时对词语变形、同义词变化、语法形式变化等因素敏感的缺点,并且向量累积的方式使其能轻松应对词语个数的不同,易于实现进一步的诸如语义聚类、语义去重、语义标注等知识图谱管理任务。
-
公开(公告)号:CN104008092B
公开(公告)日:2017-01-18
申请号:CN201410255166.8
申请日:2014-06-10
Applicant: 复旦大学
Abstract: 本发明属于文本语义处理技术领域,具体为一种基于语义空间映射的语义关系表征、聚类及识别的方法和系统。本发明对于待抽取关系的实体对:首先对包含二者的语句进行语法依存分析;然后将分析结果视作Graph,并计算Graph中对应这两个实体的结点间最短路径,来抽取出实体间关系;继而将路径上的词语向语义空间投影并进行累积,获得该关系在语义空间上的向量表示;对于多组实体对的场景,使用聚类方法对关系进行聚类并构建关系模型;依据表征输入实体对间关系的语义向量与关系模型之间的语义相似度实现关系的识别。本发明克服了传统方法在进行实体间关系比较时对词语变形、同义词变化、语法形式变化等因素敏感的缺点,提高了关系比较准确性和处理的灵活性。
-
公开(公告)号:CN103488983A
公开(公告)日:2014-01-01
申请号:CN201310419348.X
申请日:2013-09-13
Applicant: 复旦大学
Abstract: 本发明属于名片识别技术领域,具体涉及一种基于知识库的名片OCR数据修正方法和系统。本发明的系统包括图像输入模块、预处理模块、OCR模块、数据修正模块、结果输出模块。本发明首先对输入名片图像进行包括倾斜校正、剪切、缩放在内的一系列图像处理,然后使用数字形态学处理技术、连通区分析技术从中提取出独立的字符串块作为子图像送入后续的OCR模块;接着,在对OCR的输出结果进行了信息结构化处理后,利用知识库的海量信息,以及文本+图像的两级修正方法、基于知识库IDF值加权的改进DTW方法等,实现对包括地址、单位机构名称以及纯数字在内的信息修正,从而在OCR的基础上,进一步提升识别准确率。
-
公开(公告)号:CN104035992B
公开(公告)日:2017-05-10
申请号:CN201410253847.0
申请日:2014-06-10
Applicant: 复旦大学
IPC: G06F17/30
Abstract: 本发明属于文本语义信息处理技术领域,具体涉及一种利用图像处理技术及语义向量空间的文本语义处理方法和系统。本发明包括文本输入及预处理、语义向量构建、语义信息处理、语义处理结果展示模块;语义信息处理具体包括:语义转折句提取、语义噪声句检测、语义范围跟踪和语义场景分割。本发明将文本单元映射为图像中的像素,并将描述文本单元的语义向量视为图像中的像素点灰度,从而能引入图像处理领域中的各种技术和方法来灵活、直观地处理文本,而且不易受到词语本身形式多样化的影响;同时,通过引入Word2Vec方法构建语义向量,保证了算法的轻量级,以应对实时应用的需求。
-
公开(公告)号:CN104035992A
公开(公告)日:2014-09-10
申请号:CN201410253847.0
申请日:2014-06-10
Applicant: 复旦大学
IPC: G06F17/30
CPC classification number: G06F17/2785 , G06F16/345
Abstract: 本发明属于文本语义信息处理技术领域,具体涉及一种利用图像处理技术及语义向量空间的文本语义处理方法和系统。本发明包括文本输入及预处理、语义向量构建、语义信息处理、语义处理结果展示模块;语义信息处理具体包括:语义转折句提取、语义噪声句检测、语义范围跟踪和语义场景分割。本发明将文本单元映射为图像中的像素,并将描述文本单元的语义向量视为图像中的像素点灰度,从而能引入图像处理领域中的各种技术和方法来灵活、直观地处理文本,而且不易受到词语本身形式多样化的影响;同时,通过引入Word2Vec方法构建语义向量,保证了算法的轻量级,以应对实时应用的需求。
-
-
-
-
-
-
-
-
-