欢迎来到中博奥技术有限公司官网

文本数字化

时间:2023-01-22 作者:老师 来源:网络 点击量:

文本数字化

键盘录入。选定我们要处理的单元格,再点击菜单栏里的数值,找到数值点小三角,从下拉选项中找到文本转数字,就完成了。

如何对纸质文档进行数字化处理

纸质文件虽然翻阅方便,但归档保存不方便,也不利于后续的查找使用。因此,一些有历史价值、研究意义的纸质文件,通常要进行数字化处理,将其保存为电子文档。

那么,该如何对纸质文档进行数字化处理?本文会结合使用专业的文本识别软件ABBYY FineReader PDF 15来详细讲解文档数字化处理的技巧。

一、将纸质文件转换为文档

ABBYY FineReader PDF 15为我们提供了两种纸质文档数字化处理的方法,第一种是运用扫描仪,将纸质文档扫描为所需的文件类型。

第二种是运用拍摄的方法,将纸质文件拍摄为图像,然后再通过ABBYY FineReader PDF 15的智能OCR文本识别功能,识别图像中的文本。

接下来,我们会重点介绍第二种方法。

二、通过OCR识别图像

我们将拍摄的纸质文档图像导入到ABBYY FineReader PDF 15的OCR编辑器后,可先使用其“编辑图像”功能,对文件的版式进行处理。

如图4所示,编辑图像功能是应用ABBYY FineReader PDF 15的图像编辑器对图像进行处理的功能。

建议先使用其中的“建议预处理”功能,对图像进行预处理。

然后,再结合图像的实际情况使用其他的处理功能。比如,当前图像的左边出现一些书边,可使用“修剪”功能,将书边裁剪掉。

然后,由于拍摄的失误,图像的左下角出现了相机的影子,在这种情况下,可使用“漂白背景”功能,让书本的背景呈现为白色。同时,结合使用“消除运动模糊”功能,纠正拍摄时的抖动模糊。

最后,书脊部分文本有一点歪曲,可使用“矫直文本行”功能,纠正歪曲。

如图8所示,我们已经完成了图像的处理。

三、另存为文档

完成图像的处理后,我们就可以使用ABBYY FineReader PDF 15的另存为功能,将图像保存为所需的电子文档保存。

四、小结

综上所述,我们既可以应用ABBYY FineReader PDF 15的扫描功能,将纸质文件扫描为电子文件,也可以应用ABBYY FineReader PDF 15的高级OCR文本识别功能,对拍摄的纸质文件图像进行文本识别,然后再保存为电子文件格式。

实物地质资料相关文本资料数字化

张海兰 王瑞红

(国土资源部实物地质资料中心,北京 101149)

摘要 本文简要阐述了实物相关文本资料数字化工作的重要性,提出要根据文本资料原貌选择扫描方式,依照具体情况进行分辨率、亮度和对比度的调整。

关键词 文本资料;数字化

实物地质资料的相关资料是成果地质资料与原始地质资料的原件或复制件,是说明实物产生的地质背景及其保管价值的重要材料,是实物地质资料的重要组成部分。

为了适应现代化管理与服务的需要,同时为了配合实物地质资料数字化,解决图文地质资料信息长期保存问题,国土资源部实物地质资料中心开展了相关地质资料数字化工作。实物地质资料相关的图文资料包括两大类:文本资料和图纸资料,数字化工作也是针对这两部分内容而言的。本文仅就资料的数字化工作进行探讨。

一、文本资料数字化工作流程

文本资料数字化工作是通过扫描的方法把以纸介质为载体的地质资料转变为以电子为介质的电子文件,并进行文件组织的过程。主要工作过程包括资料准备、扫描、图像处理、生成电子文件、文档组织与保存等几个方面(见图1)。

图1 文本资料数字化工作流程图

二、扫描工作方法

1.扫描前的资料准备工作

做好文本资料的准备工作是十分必要的。资料的单册厚度影响着文本的扫描质量,越厚越不利于扫描,有些文本装订得比较厚时,可将文本拆开进行扫描,扫描工作结束后再按照档案管理的标准进行重新装订。在进行若干份单页的文件扫描时,扫描前要做好资料的登记工作,以免丢失。利用文档扫描仪进行多页文件扫描之前,要对文本资料进行去除静电处理。

2.扫描

文本数字化

(1)选择扫描方式

对于文本资料纸质较好,又不超过标准A4版面大小的时候,可以采用专用的多页文档扫描仪进行滚动扫描,以节省扫描时间提高工作效率。其他的文本资料使用平板扫描仪逐页进行扫描。

(2)选择扫描参数

扫描类型 扫描类型的选择是完成文本数字化工作的重要环节。正确的选择扫描类型,是提高扫描质量的保证。扫描类型的选择是由原件的类型来确定的。常用文本资料的扫描类型有:黑白二值、RGB、灰阶三种。黑白二值方式,当文字或表格质量都非常高时,采用这种方式扫描,扫描效果较好。灰阶方式,当文本资料字迹不清楚或是表格时,使用黑白二值方式产生的图像效果较差,表格线会断断续续,此时可选用灰阶方式扫描,但这种方式扫描的图像会有较多的灰色印迹,需在后期做图像处理,使图像达到最佳效果。RGB方式,对文本资料中的彩色图件一般采用这种方式进行扫描,用这种方式扫描产生的文件占用的磁盘空间较大,扫描时可进行亮度、对比度及色度的调整,通过反复对比,使图件色彩达到最佳的效果。

参数选择 在扫描前进行预扫描,可进行扫描分辨率的选择、亮度和对比度调整。扫描分辨率、亮度及对比度调整与文本资料的质量有一定的关系,当一册文本资料质量变化不大时,选择一页或几页进行扫描实验,结合扫描工作经验选择适合的分辨率、亮度及对比度。当文本质量有明显变化时,每页资料的亮度及对比度都要分别进行调整。每次扫描时若不进行扫描区域的选择,扫描区域就会与上次的扫描区域相同,这样有可能会漏掉文本内容。若扫描区域过大,扫描时间就会延长,文件所占的空间也会增大,后期图像处理的工作量亦会增大。

存储格式的选择 根据选择扫描类型的不同,文件存储格式也有所不同。黑白二值方式扫描产生的图像不能进行纠斜和旋转,存储格式为tiff;灰阶和RGB方式扫描存储格式都为jpg,这种格式是经过压缩的。

(3)确定文件名称及路径

当扫描参数调整完成时,就要选择路径将扫描文件进行保存。这个文件最好是放置在一个独立的位置上,以免与其他文件混淆。文件的名称是要能反映其中文本资料的主要内容的。与此同时,还要给每页文件确定一个适当的名称,最好以文件的页码为文件的名称,以便对文件进行排版时不会出顺序上的错误。同时保证以后再对文件进行处理时能很快识别此文件是属于哪个类别的、哪个地区的、哪个钻孔的等,如图2所示。

图2 文件存储结构示意图

(4)扫描并保存

在扫描方式、扫描参数、存储格式、存储路径和文件名都已设定好之后,就可以进行扫描了。当页面大于A4版面时,可以用A3大幅度扫描仪进行扫描,对于超过A3幅度的文本资料可以分次扫描,扫描完成后再进行拼接。扫描是整个数字化工作中最基础、最关键的环节,好的扫描质量,能够使电子文件获取清晰度较高的效果,投入最少的整饰工作量,从而节省大量的时间、人力和物力。

3.图像处理

当完成一册文本资料的扫描工作后,此文本资料的电子文件已经保存在一个固定的文件夹内。但此时的文件只是一个个独立的图片,还需要一系列的图像调整处理,才能达到文本数字化的真正目的。在Photoshop中打开扫描图像,逐个进行纠斜、旋转、剪裁、去污、亮度/对比度等的调整。经过几次这样的调整,使图像达到真实反映文本资料原貌的目的。

4.生成电子文件

将调整好的单个图像文件逐个插入到Word文档中,首先形成Word格式的文档,然后再转化成PDF格式文件,文件名要与每册文本资料的名称相同或相近,如秦岭、大巴山地应力孔的《岩矿心接收登记表》,电子文件命名为“岩矿心接收登记表”。

5.文档组织与保存

当完成一个矿区的所有文本资料的扫描工作以后,将形成的PDF文件按一定的顺序重新组织编排,并编制PDF格式的目录索引,链接整个矿区的PDF文件。最后将完整的电子文件进行备份保存。一般情况下同一矿区的电子文档保存在同一张光盘中,并在光盘盒上贴标签,注明文件目录、形成时间及责任人等有关信息。若一张光盘存不下时,要将电子文件分成若干个分册,一个分册放在一个光盘中。电子文档应保存一式三套,并且要实行异地保存。

文本数字化

三、影响文本资料扫描效果的几个因素分析

将文本资料平放在扫描仪的扫描区域中,有的文本资料装订得比较规范,一般情况下在扫描前不拆开,进行扫描时扫描人员应用手紧压文本资料,尽可能地紧贴扫描面板,以保证较好的扫描效果。如果文本资料较薄,则可用扫描仪的盖板压紧即可。这个环节的操作要轻拿轻放,避免文本资料在扫描板上滑动,将扫描板划伤,这样将直接影响扫描的效果。

我们采集来的一些实物资料是20世纪80年代初期产出的,随着时间的推移,文本资料字迹已经很模糊了,而收集来的又多以复印件为主,还有野外记录表或整理资料这部分多数都是手写资料,字体不一,书写也不规范,资料内容就更为模糊了,这样的资料扫描难度较大,效果也不理想。

有的文本资料的厚度大又不宜拆开,直接影响了扫描质量,文本资料越厚在扫描过程中就越不容易压平,一侧的资料就非常不清楚。因此在扫描较厚的文本资料时,需要扫描人员用手使劲压平文本,才能保证扫描的质量。显而易见这样扫描自然会降低扫描的效率,因此在扫描这种较厚的文本资料时,要求工作人员必须有耐心,将每一页资料都能充分地摆正放平,使每一部分信息都能扫描得非常清晰。

四、结语

文本资料数字化是一项艰巨、繁琐而责任重大的工作,是实现实物地质资料现代化管理的一项重要基础工作。由于这项工作开展时间不长,没有更多的经验可以借鉴,目前此项工作还在不断的探索和试验中。

Digitization of Relevant Text Information of Geologicalsamples

Hailan Zhang,Ruihong Wang

(National Geologicalsample Center,ministry of Land and Resources,Beijing 101149)

Abstract This paper compendiously explains thesignificances of digitization of relevant textinformation of geologicalsamples,proposes to keep in accordance with the original configuration of text information whenselectingscanningmodes,in order to properly adjust the ratio,brightness and contrast referring to the actualsituations.

Key words text information;digitization

相关资料数字化

实物相关资料数字化是对实物相关的文字、图件、表格等文件的数字化以及电子文件的制作。目的是配合实物数字化,形成完整的实物地质资料图文图像系统,进而建立数字化实物地质资料阅览室,提高实物地质资料利用率,并有效地保护馆藏图文资料,为实物地质资料信息共享提供基础。

实物地质资料相关的图文资料包括文本资料和图纸资料,数字化工作也是针对这两类资料而言的。

(一)文本资料数字化

1.工作流程及方法

文本资料数字化是通过扫描的方法把以纸介质为载体的地质资料转变为以电子为介质的电子文件,并进行文件组织的过程。主要工作过程包括资料准备、扫描、图像处理、生成电子文件、文档组织与保存等几个方面(图7-25)。

图7-25 文本资料数字化工作流程

(1)扫描前的准备工作:做好文本资料的准备工作是十分必要的。资料的单册厚度影响着文本的扫描质量,越厚越不利于扫描,有些文本装订得比较厚时,应将文本拆开进行扫描,扫描工作结束后再按照档案管理的要求进行重新装订。在进行若干份单页的文件扫描时,扫描前要做好资料的登记工作,以免丢失。利用文档扫描仪进行多页文件扫描之前,要对文本资料进行除静电处理。

(2)图像扫描:对于文本资料纸质较好,又不超过标准A4版面的时候,为节省扫描时间,提高工作效率可以采用专用的多页文档扫描仪进行连续扫描,其他的文本资料使用平板扫描仪逐页进行扫描。扫描类型的选择是完成文本数字化工作的重要环节。正确地选择扫描类型,是提高扫描质量的保证。扫描类型的选择是由原件的类型来确定的。常用文本资料的扫描类型有黑白二值、RGB、灰阶3种:①黑白二值方式,当文字或表格质量都非常高时,采用这种方式扫描,扫描效果较好;②灰阶方式,当文本资料字迹不清楚或是表格时,使用黑白二值方式产生的图像效果较差,表格线会断断续续,此时可选用灰阶方式扫描,但这种方式扫描的图像有较多的灰色印迹,需在后期进行图像处理时,使图像达到最佳效果;③RGB方式,对文本资料中的彩色图件一般采用这种方式进行扫描,用这种方式扫描产生的文件占用的磁盘空间较大,在扫描时应进行亮度、对比度及色度的调整,通过反复对比,使图件色彩达到最佳的效果。在扫描前应进行预扫描,目的是选择扫描分辨率及调整亮度和对比度。扫描分辨率、亮度及对比度调整与文本资料的质量有一定的关系,当一册文本资料质量变化不大时,选择一页或几页进行扫描实验,结合扫描工作经验选择适合的分辨率、亮度及对比度;当文本质量有明显变化时,每页资料的亮度及对比度都要分别进行调整。每次扫描时若不进行扫描区域的选择,扫描区域就与上次的扫描区域相同,这样有可能漏掉文本内容。扫描区域过大,扫描时间就延长,文件所占的空间增大,增加后期图像处理的工作量。根据选择扫描类型的不同,文件存储格式也有所不同。黑白二值方式扫描产生的图像不能进行纠斜和旋转,存储格式为 TIFF;灰阶和RGB方式扫描存储格式均为JPG,这种格式是经过压缩的。当扫描参数调整完成时,就要选择路径将扫描文件进行保存。扫描文件最好是放置在一个独立的位置上,以免与其他文件混淆。文件的名称能反映其中文本资料的主题内容。与此同时,还要给每页文件确定一个适当的名称,最好以文件的页码为文件的名称,以便对文件进行排版时不会出顺序上的错误。同时保证以后再对文件进行处理时能很快识别此文件是属于哪个类别的、哪个地区的、哪个钻孔的等。如图7 26所示。在扫描方式、扫描参数、存储格式、存储路径和文件名都已设定好之后,就可以进行扫描了。当页面大于A4幅面时,可以用A3大幅面扫描仪进行扫描,对于超过A3 幅面的文本资料可以分次扫描,扫描完成后再进行拼接。扫描是整个数字化工作中最基础、最关键的环节,好的扫描质量,能够使电子文件获取清晰度较高的效果,投入最少的整饰工作量,从而节省大量的时间、人力和物力。

图7-26 文件存储结构示意

(3)图像处理:当完成一册文本资料的扫描工作后,此文本资料以一系列图像形式的文件保存在一个固定的文件夹内。这些图像需调整处理,才能达到文本数字化的要求。在Photoshop中打开扫描图像,逐个进行纠斜、旋转、剪裁、去污、亮度/对比度等的调整。经过几次这样的调整,使图像达到真实反映文本资料原貌。

(4)生成电子文件:将调整好的单个图像文件逐个插入到Word文档中,形成Word格式的文档,然后再转化成PDF格式文件,文件名要与每册文本资料的名称相同或相近,如大巴山地应力孔的《岩矿心接收登记表》,电子文件命名为“岩矿心接收登记表.PDF”。

(5)文档组织与保存:当完成了一个矿区的所有文本资料的扫描工作以后,将形成的PDF文件按一定的顺序重新组织编排,生成具有目录索引特征的单个PDF文件,其格式见图7-27。

图7-27 PDF电子文件界面

2.影响文本资料扫描效果的主要因素

将文本资料平放在扫描仪的扫描区域中,有的文本资料装订得比较规范,一般情况下在扫描前不需拆开,进行扫描时扫描人员用手紧压文本资料,尽可能地紧贴扫描面板,以保证有较好的扫描效果。如果文本资料较薄,则可用扫描仪的盖板压紧即可。这个环节的操作要轻拿轻放,避免文本资料在扫描板上滑动,划伤扫描板,直接影响扫描的效果。

目前收集来的一些实物相关资料是20世纪80年代初期产生的,随着时间的推移,许多文本资料字迹已经很模糊,这些资料又多以复印件为主,特别是野外记录本和一些整理资料多数都是手写资料,字体不一,书写也不规范,资料内容就更为模糊了,这样的资料扫描难度较大,效果也不理想。

有的文本资料的厚度大又不宜拆开,直接影响了扫描质量,文本资料越厚在扫描过程中就越不容易压平,扫描后非常不清楚。因此在扫描较厚的文本资料时,需要扫描人员用手使劲压平文本,才能保证扫描的质量。显而易见,这样扫描会降低扫描的效率,因此在扫描这种较厚的文本资料时,要求工作人员必须有耐心,将每一页资料都能充分地摆正放平,使每一部分信息都能扫描得非常清晰。

(二)图纸的扫描

在实物地质资料中,有一部分资料是地形图、剖面图、地质图、柱状图等,其幅面一般都超过A3。这部分图纸使用A0工程扫描仪扫描。

1.扫描仪参数的设定

通过实验,图纸扫描分辨率采用200dpi,扫描方式采用灰度,图像保存格式为tif,基本能够满足资料利用的需要。

2.影响图纸扫描效果的几个因素及处理方法

(1)扫描仪的校准:在试扫描过程中发现,在每张图纸的左侧,总是有一条直线,有上下错位的现象发生,为了不影响图像的质量,笔者请教了熟悉扫描仪操作的同志,之所以出现这种现象,是由于扫描仪的3个镜头在扫描过程中发生了错位,导致一条直线出现“折断”的现象。为了解决这一问题,每次扫描前,首先进行扫描校准。

(2)图纸的质量:有的柱状图由于太长,在平常的保存过程中一直是卷成筒状的,并用棉线轻轻捆绑着。因此在图纸的边缘部分,常出现磨痕或裂口。这样的图纸在滚动扫描时,稍不注意就会出现不同步现象,使扫描图像发生偏斜扭曲。处理这种情况的方法是对图纸进行修复,方法是在图纸的边缘用乳胶粘上一层薄纸,再用熨斗熨平。

请问文本信息的数字化有哪些途径?

键盘录入语音识别输入光学字符识别输入

标签

相关资讯

我是中博奥客服:小奥
中博奥技术有限公司& 版权所有工信部备案号:豫ICP备11015869号-8 Copyright © 2023-2024

档案整理档案数字化

档案扫描档案管理软件系统

TEL:18937133779

To Top