-
公开(公告)号:CN106776495B
公开(公告)日:2020-06-09
申请号:CN201611034443.8
申请日:2016-11-23
Applicant: 北京信息科技大学
IPC: G06F40/151 , G06F40/103
Abstract: 本发明实施例提供一种文档逻辑结构重建方法,包括:步骤1、提取源文档的分段,并识别出每一段落的类型;具体包括:步骤11、获取每一段落的特征向量M=[m1 m2...mn];其中向量M具有n个分量:m1、m2……mn;其中每个分量表示一种格式信息,所述格式信息为以下的至少一种:字体大小、字型、大纲级别、行距、是否加黑、是否粗体、是否斜体;步骤12、利用预设的向量模板集合,对所述每一段落的向量进行匹配,以确定每一段落的角色;其中预设的向量模板集合中包含多个预定义的向量,且每一向量对应一种特定的角色类型;步骤2、根据源文档的每一段落的角色类型,构建出源文档的逻辑模型。
-
公开(公告)号:CN105824791B
公开(公告)日:2018-11-23
申请号:CN201610153946.0
申请日:2016-03-17
Applicant: 北京信息科技大学
IPC: G06F17/22
Abstract: 本发明提供一种参考文献格式检查方法,包括:步骤1、将参考文献著录项格式规则采用Schema进行表述,其中所述参考文献著录项格式中包括以下的至少一个著录项:责任者、题名、参考文献类型、出版者、出版日期、页码;步骤2、读取各条参考文献,进行著录项切分;步骤3、识别参考文献著录项,并将识别出的著录项提取成为XML节点;其中所述著录项包括以下的至少一种:责任者、题名、出版地、出版者、出版日期等;同时,判断该参考文献著录项中是否包括文献类型标志,如果没有则根据著录项添加该参考文献的文献类型标志;步骤4、利用所述参考文献著录项格式规则对著录项进行验证。
-
公开(公告)号:CN106844481A
公开(公告)日:2017-06-13
申请号:CN201611208107.0
申请日:2016-12-23
Applicant: 北京信息科技大学
Abstract: 本发明涉及一种字体相似度和字体替换方法,包括:步骤1、根据预设的影响字体视觉效果的属性值,分别构造汉字文本块图像,以生成汉字文本块图像样本库;其中所述汉字文本块图像包括n×n个不交叠的汉字,其中n≥2;步骤2、计算汉字文本块图像集合的纹理特征值;步骤3、采用静态替换方法或动态替换方法对缺失的字体进行替换。
-
公开(公告)号:CN102750362B
公开(公告)日:2014-04-30
申请号:CN201210193401.4
申请日:2012-06-12
IPC: G06F17/30
Abstract: 本发明提供一种文档互操作性度量方法,包括:步骤1、从文档系统中提取稳定、具有固定语义的功能点,组成功能点集合;步骤2、根据提取的各功能点之间的包含关系,确定该文档系统的功能点树型结构;步骤3、确定功能点树型结构中最底层功能点的互操作性影响因素;步骤4、根据实际应用,从最底层功能点的互操作性影响因素中确定所采用的度量函数中各功能点的度量参数;由根据度量函数获得的度量值确定该文档系统或者该文档系统功能点子集的互操作性。本发明具有客观、准确、自动化程度高的特点,可广泛应用于文档处理领域中。
-
公开(公告)号:CN102831228A
公开(公告)日:2012-12-19
申请号:CN201210314441.X
申请日:2012-08-30
Applicant: 北京信息科技大学
Abstract: 本发明提供一种异构可扩展置标语言文档的格式转换方法包括如下步骤:步骤1、提取源可扩展置标语言格式文档功能点信息,并将源可扩展置标语言格式文档功能点信息以任一可扩展置标语言格式的中间功能点信息的形式存储于数据库或文档中;步骤2、从数据库或文档中提取中间功能点信息,并将中间功能点信息转换为目标可扩展置标语言格式文档功能点信息。本发明方法具有通用性与实用性较高、管理与维护任务较轻、开发周期较短、成本低等特点,可广泛应用于信息领域中。
-
公开(公告)号:CN102750362A
公开(公告)日:2012-10-24
申请号:CN201210193401.4
申请日:2012-06-12
IPC: G06F17/30
Abstract: 本发明提供一种文档互操作性度量方法,包括:步骤1、从文档系统中提取稳定、具有固定语义的功能点,组成功能点集合;步骤2、根据提取的各功能点之间的包含关系,确定该文档系统的功能点树型结构;步骤3、确定功能点树型结构中最底层功能点的互操作性影响因素;步骤4、根据实际应用,从最底层功能点的互操作性影响因素中确定所采用的度量函数中各功能点的度量参数;由根据度量函数获得的度量值确定该文档系统或者该文档系统功能点子集的互操作性。本发明具有客观、准确、自动化程度高的特点,可广泛应用于文档处理领域中。
-
公开(公告)号:CN114707514B
公开(公告)日:2024-10-01
申请号:CN202210312822.8
申请日:2022-03-28
Applicant: 北京信息科技大学
IPC: G06F40/30 , G06F40/166 , G06F40/151
Abstract: 本公开的实施例公开了语义文档存储方法、装置。该方法的一具体实施方式包括:响应于接收到针对已嵌入语义标记的语义文档的语义标记转换指令,对已嵌入语义标记的语义文档进行语义标记预处理,得到预处理后的流式文档;对预处理后的流式文档进行文本编辑,得到编辑后流式文档;响应于接收到针对编辑后流式文档的语义批注转换指令,对编辑后流式文档进行语义批注后处理,得到处理后的语义文档;对处理后的语义文档进行存储。该实施方式可以使得文字处理软件正常打开、编辑且保存嵌入语义标记的语义文档,同时使得嵌入语义标记的语义文档便于文档的高效检索、信息提取及机器理解等智能化处理。
-
公开(公告)号:CN111046096B
公开(公告)日:2023-11-24
申请号:CN201911296540.8
申请日:2019-12-16
IPC: G06F16/25 , G06F40/189
Abstract: 本公开的实施例公开了用于生成图文结构化信息的方法和装置。该方法的一具体实施方式包括:对待处理的图文混排的版式文档的段落进行识别,得到段落信息,其中,上述段落信息包括用于表征上述段落所在范围的段落外接边框信息;根据上述段落外接边框信息,确定上述段落内的版式图文要素信息;对上述版式图文要素信息进行图元类别信息读取、判定并标记,得到版式图文信息;根据预设的上述版式图文信息的阅读顺序,进行分析、拆分、重排图元对象,得到图文信息;将上述图文信息映射成图文结构化信息。该实施方式实现了图文结构化信息准确生成,进而增强了文档在不同设备上显示的自适应性。
-
公开(公告)号:CN111611776B
公开(公告)日:2023-07-25
申请号:CN202010442133.X
申请日:2020-05-22
Applicant: 北京信息科技大学 , 北京新云胜科技有限公司 , 中国电子技术标准化研究院 , 北京安信天元科技发展有限公司 , 百望股份有限公司 , 北京方正阿帕比技术有限公司 , 北京大学 , 北京数科网维技术有限责任公司 , 福建福昕软件开发股份有限公司 , 福昕鲲鹏(北京)信息科技有限公司 , 方正国际软件(北京)有限公司
IPC: G06F40/149 , G06F40/186
Abstract: 本公开的实施例公开了兼容版流文档内容并支持同步阅读的方法和装置。该方法的一具体实施方式包括:获取用户针对目标文档的阅读方式信息,其中,目标文档包括文档正文和附加信息,附加信息存储在附加信息区域中;将目标文档存储为版流一体的文档记录结构;版流一体的文档记录结构保存版式文档、流式格式内容框架、关联记录和附加信息;根据阅读方式信息,解析并显示目标文档;响应于用户更新附加信息,更新并存储附加信息区域中的附加信息。这种方法实现了满足不同阅读方式要求的文档处理方法,同时提供了支持该文档处理方法的同步阅读装置,提供给用户良好的阅读体验。文档处理完毕后,文档正文无变化,仅更新附加信息,节省存储空间。
-
公开(公告)号:CN110109838B
公开(公告)日:2023-03-21
申请号:CN201910381064.3
申请日:2019-05-08
Applicant: 北京信息科技大学
IPC: G06F11/36 , G06F40/151 , G06F40/189
Abstract: 本发明公开一种办公文档排版式样的测试方法及装置,该方法包括:根据被测第一文档中的排版式样信息,修改每个版面元素对应的颜色值,生成第二文档;将所述第一文档和第二文档分别通过被测办公软件打开,并分别转换为第一PDF文档和第二PDF文档;根据所述第一PDF文档和第二PDF文档的各自版面效果,获得对应的第一图像和第二图像;在所述第二图像中,根据排版式样信息,识别版面元素,得到元素集合;将所述第一图像和所述元素集合进行排版式样测量。该方法可通过自动化地识别版面元素类型,并对被测文档的排版式样进行精确的比对,从而提高文档排版式样的测试效率,降低人工成本。
-
-
-
-
-
-
-
-
-