电 话:18937133779
网 址:https://www.zboao.com
邮 箱:zboao@qq.com
键盘录入。选定我们要处理的单元格,再点击菜单栏里的数值,找到数值点小三角,从下拉选项中找到文本转数字,就完成了。
键盘录入语音识别输入光学字符识别输入。用数字键盘输入文字信息的办法。
用扫描仪,数码相机。拍摄仪都可以,要根据档案的种类,选取合适的设备。另外,还要配备相关的软件;譬如:扫描病案资料,建议采用《智慧数字化病案综合管理系统》软件。其他行业要求不同,软件也不同。
一、文字资料数字化原则
现存的航空物探资料是中心开展航空物探50年来勘查和科研成果的积累,真实记录了中心航空物探技术进步和发展历程,反映了航空物探在地质找矿等方面的先行作用和突出贡献。为实现航空物探资料的信息化管理和永久利用,扩大航空物探服务领域,航空物探文字资料数字化和信息化原则是“尊重历史,忠实原著,保持原貌,统一要求,加强监控,确保质量”。
二、文字资料数字化流程
航空物探资料文字资料数字化是把航空物探勘查和科研项目纸质文字资料录入成电子文档,同时把手写、油印的文字资料扫描成图像格式保存,并编写项目成果简介(图8-5)。
图8-5 文字资料数字化流程图
三、文字资料数字化方法
文字资料数字化实质是对中心现存的航空物探勘查和科研成果报告采用扫描识别和人工录入两种方法输入计算机中,并按航空物探信息系统规定的格式和版式重新编辑,形成Word文档(DOC格式)和Adobe Acrobat文档(PDF格式)以满足入库要求。
(一)文字资料介质质量分类
为采取合理的数字化方法进行文字资料数字化,通过对中心库存的文字资料进行较详细的调查,按纸质资料介质质量好坏、字迹和插图清晰程度等将639份勘查和科研成果文字资料(报告)划分为较差、中等、较好、良好4类(表8-4)。其中,1973年前资料均较差,较差和中等质量的资料都出现在20世纪80年代中期以前。20世纪80年代中期以后的项目资料质量均属较好和良好。
表8-4 文字资料介质质量分类统计表
(二)文字资料数字化方法
以资料分类为基础,根据文字资料数字化原则,确定了文字资料数字化具体方法。
1.人工录入法
由于较差和中等类资料多数是手写、复写或油印本,少数是铅印本;存放时间长,几经辗转搬迁,破损严重,字迹模糊;无法采用扫描、识别方法输入,只能人工录入。对录入工作提出了具体要求,以保证人工录入质量。
2.扫描识别输入法
较好和良好类资料都是正规铅印或Word文档(DOC格式)印刷出版,字迹清晰,可用扫描识别方法予以输入,与人工录入方法相比效率较高。
人工录入、编辑航空物探勘查项目文字报告608份,约2739.6751万字;人工录入、编辑航空物探科研项目文字306份,约839.0241万字。
为了保证中心资料获得长久保存,同时对已人工录入的全部较差和中等类617份约9719页的文字资料(其中,勘查115份,约3240页;科研502份,约6479页)进行了扫描输入,以PDF格式直接刻制光盘保存。
四、校对和检查
文字资料由人工录入或扫描识别,经自检形成的Word电子文档全部校样必须通过二校和部分三校或抽检,才能进入编辑排版,最终生成统一的DOC格式的Word文档。
由于历史原因,在早期原稿(包括文字和插图)中存在着其他一些错误或不规范等现象。在保持原稿真实性的前提下,尽可能地在校样中对问题予以纠正和变通处理,有些则因本身遗漏或模糊无法弥补,留下空缺。按原文字资料所附的勘误表对文字逐一进行了更正,原有勘误表基本已失去存在意义了。
五、插图扫描矢量化
使用MapGIS软件对原文字报告中的测区示意图、剖面图、地质解释图等1260幅插图按照原插图进行矢量化,原插图比例尺使用数字比例尺表示的换算成线性比例尺,单剖面图加上剖面比例尺,统一了地质图中的地质符号等,提高文字报告的插图质量(图8-6)。
六、编辑排版
除勘查项目与科研项目文字报告在内容上客观存在的不同外,既使是同一类报告在报告内容、排版编辑上也都有较大的差别。这是航空物探技术进步必然的反映,也与以往文字资料缺乏统一标准和要求有关。在本次文字资料数字化过程中,根据项目统一要求,便于计算机管理和服务,在保持报告内容不变的前提下,将所有录入的文字成果报告采用Word编辑排版软件按规定的编辑模版自动生成目录,并在报告封面等形式上力求做到统一(校样最终稿与原稿在报告封面、目录级别、插图和页码位置等方面都存在着差别,但报告内容没有改变)。按此要求完成了799份约47645页文字资料的排版工作,并把文字资料格式由DOC格式转换为PDF格式。
图8-6a 矢量化前的插图
图8-6b 矢量化后插图
七、项目简介编写
为了使用户不阅读项目成果报告全文,能够快速地了解该项目概貌,获得该成果报告的主要内容和信息,按照航空物探信息系统建库要求,编写了航空物探勘查和科研项目简介455份,约28万字。其中,航空物探勘查成果报告423份,约26万字;科研成果报告32份,约2万字。以浓缩的形式概括项目成果的主要内容,包括工作方法或研究方法、质量评价,取得的主要成果和最终结论。
实物相关资料数字化是对实物相关的文字、图件、表格等文件的数字化以及电子文件的制作。目的是配合实物数字化,形成完整的实物地质资料图文图像系统,进而建立数字化实物地质资料阅览室,提高实物地质资料利用率,并有效地保护馆藏图文资料,为实物地质资料信息共享提供基础。
实物地质资料相关的图文资料包括文本资料和图纸资料,数字化工作也是针对这两类资料而言的。
(一)文本资料数字化
1.工作流程及方法
文本资料数字化是通过扫描的方法把以纸介质为载体的地质资料转变为以电子为介质的电子文件,并进行文件组织的过程。主要工作过程包括资料准备、扫描、图像处理、生成电子文件、文档组织与保存等几个方面(图7-25)。
图7-25 文本资料数字化工作流程
(1)扫描前的准备工作:做好文本资料的准备工作是十分必要的。资料的单册厚度影响着文本的扫描质量,越厚越不利于扫描,有些文本装订得比较厚时,应将文本拆开进行扫描,扫描工作结束后再按照档案管理的要求进行重新装订。在进行若干份单页的文件扫描时,扫描前要做好资料的登记工作,以免丢失。利用文档扫描仪进行多页文件扫描之前,要对文本资料进行除静电处理。
(2)图像扫描:对于文本资料纸质较好,又不超过标准A4版面的时候,为节省扫描时间,提高工作效率可以采用专用的多页文档扫描仪进行连续扫描,其他的文本资料使用平板扫描仪逐页进行扫描。扫描类型的选择是完成文本数字化工作的重要环节。正确地选择扫描类型,是提高扫描质量的保证。扫描类型的选择是由原件的类型来确定的。常用文本资料的扫描类型有黑白二值、RGB、灰阶3种:①黑白二值方式,当文字或表格质量都非常高时,采用这种方式扫描,扫描效果较好;②灰阶方式,当文本资料字迹不清楚或是表格时,使用黑白二值方式产生的图像效果较差,表格线会断断续续,此时可选用灰阶方式扫描,但这种方式扫描的图像有较多的灰色印迹,需在后期进行图像处理时,使图像达到最佳效果;③RGB方式,对文本资料中的彩色图件一般采用这种方式进行扫描,用这种方式扫描产生的文件占用的磁盘空间较大,在扫描时应进行亮度、对比度及色度的调整,通过反复对比,使图件色彩达到最佳的效果。在扫描前应进行预扫描,目的是选择扫描分辨率及调整亮度和对比度。扫描分辨率、亮度及对比度调整与文本资料的质量有一定的关系,当一册文本资料质量变化不大时,选择一页或几页进行扫描实验,结合扫描工作经验选择适合的分辨率、亮度及对比度;当文本质量有明显变化时,每页资料的亮度及对比度都要分别进行调整。每次扫描时若不进行扫描区域的选择,扫描区域就与上次的扫描区域相同,这样有可能漏掉文本内容。扫描区域过大,扫描时间就延长,文件所占的空间增大,增加后期图像处理的工作量。根据选择扫描类型的不同,文件存储格式也有所不同。黑白二值方式扫描产生的图像不能进行纠斜和旋转,存储格式为 TIFF;灰阶和RGB方式扫描存储格式均为JPG,这种格式是经过压缩的。当扫描参数调整完成时,就要选择路径将扫描文件进行保存。扫描文件最好是放置在一个独立的位置上,以免与其他文件混淆。文件的名称能反映其中文本资料的主题内容。与此同时,还要给每页文件确定一个适当的名称,最好以文件的页码为文件的名称,以便对文件进行排版时不会出顺序上的错误。同时保证以后再对文件进行处理时能很快识别此文件是属于哪个类别的、哪个地区的、哪个钻孔的等。如图7 26所示。在扫描方式、扫描参数、存储格式、存储路径和文件名都已设定好之后,就可以进行扫描了。当页面大于A4幅面时,可以用A3大幅面扫描仪进行扫描,对于超过A3 幅面的文本资料可以分次扫描,扫描完成后再进行拼接。扫描是整个数字化工作中最基础、最关键的环节,好的扫描质量,能够使电子文件获取清晰度较高的效果,投入最少的整饰工作量,从而节省大量的时间、人力和物力。
图7-26 文件存储结构示意
(3)图像处理:当完成一册文本资料的扫描工作后,此文本资料以一系列图像形式的文件保存在一个固定的文件夹内。这些图像需调整处理,才能达到文本数字化的要求。在Photoshop中打开扫描图像,逐个进行纠斜、旋转、剪裁、去污、亮度/对比度等的调整。经过几次这样的调整,使图像达到真实反映文本资料原貌。
(4)生成电子文件:将调整好的单个图像文件逐个插入到Word文档中,形成Word格式的文档,然后再转化成PDF格式文件,文件名要与每册文本资料的名称相同或相近,如大巴山地应力孔的《岩矿心接收登记表》,电子文件命名为“岩矿心接收登记表.PDF”。
(5)文档组织与保存:当完成了一个矿区的所有文本资料的扫描工作以后,将形成的PDF文件按一定的顺序重新组织编排,生成具有目录索引特征的单个PDF文件,其格式见图7-27。
图7-27 PDF电子文件界面
2.影响文本资料扫描效果的主要因素
将文本资料平放在扫描仪的扫描区域中,有的文本资料装订得比较规范,一般情况下在扫描前不需拆开,进行扫描时扫描人员用手紧压文本资料,尽可能地紧贴扫描面板,以保证有较好的扫描效果。如果文本资料较薄,则可用扫描仪的盖板压紧即可。这个环节的操作要轻拿轻放,避免文本资料在扫描板上滑动,划伤扫描板,直接影响扫描的效果。
目前收集来的一些实物相关资料是20世纪80年代初期产生的,随着时间的推移,许多文本资料字迹已经很模糊,这些资料又多以复印件为主,特别是野外记录本和一些整理资料多数都是手写资料,字体不一,书写也不规范,资料内容就更为模糊了,这样的资料扫描难度较大,效果也不理想。
有的文本资料的厚度大又不宜拆开,直接影响了扫描质量,文本资料越厚在扫描过程中就越不容易压平,扫描后非常不清楚。因此在扫描较厚的文本资料时,需要扫描人员用手使劲压平文本,才能保证扫描的质量。显而易见,这样扫描会降低扫描的效率,因此在扫描这种较厚的文本资料时,要求工作人员必须有耐心,将每一页资料都能充分地摆正放平,使每一部分信息都能扫描得非常清晰。
(二)图纸的扫描
在实物地质资料中,有一部分资料是地形图、剖面图、地质图、柱状图等,其幅面一般都超过A3。这部分图纸使用A0工程扫描仪扫描。
1.扫描仪参数的设定
通过实验,图纸扫描分辨率采用200dpi,扫描方式采用灰度,图像保存格式为tif,基本能够满足资料利用的需要。
2.影响图纸扫描效果的几个因素及处理方法
(1)扫描仪的校准:在试扫描过程中发现,在每张图纸的左侧,总是有一条直线,有上下错位的现象发生,为了不影响图像的质量,笔者请教了熟悉扫描仪操作的同志,之所以出现这种现象,是由于扫描仪的3个镜头在扫描过程中发生了错位,导致一条直线出现“折断”的现象。为了解决这一问题,每次扫描前,首先进行扫描校准。
(2)图纸的质量:有的柱状图由于太长,在平常的保存过程中一直是卷成筒状的,并用棉线轻轻捆绑着。因此在图纸的边缘部分,常出现磨痕或裂口。这样的图纸在滚动扫描时,稍不注意就会出现不同步现象,使扫描图像发生偏斜扭曲。处理这种情况的方法是对图纸进行修复,方法是在图纸的边缘用乳胶粘上一层薄纸,再用熨斗熨平。
文字信息处理的实质,是先把文字信息数字化,即用一个固定的数码代表一个字母或文字。例如,在英文信息中,以26个字母作为文字信息处理的单位,因此要对26个字母逐个地确定代替它的数码。在汉字的情况下,一般是以一个整字作为文字信息处理的单位,因此要对每一个整字惟一地确定代表它的数码。这一数码统称为代码(code)。在计算机内部处理文字信息时,就像处理数据一样对待。处理完毕后,再把替代的数码还原成相应的字母或文字。利用计算机能够调整处理数据的性能,使文字信息处理也能够分享计算机技术的这一独特优点,从而实现文字信息处理的高效化。
计算机之所以能有较高的运算和处理能力,是由于它利用了电子处理技术以及二进制数运算这一法则。计算机中的运算器,利用半导体器件的两个状态(通和断)的变化,代表二进制数字串中的一个二进制数位上的“1”或“0”的变化,从而能够高速地执行二进制数的数值或逻辑运算。实际上,计算机无论做数值的或任何种类信息的运算或处理,最基本的运算操作就是这种二进制数的演算。