欢迎来到中博奥技术有限公司官网

文本信息数字化

时间:2023-01-22 作者:老师 来源:网络 点击量:

文本信息数字化

键盘录入语音识别输入光学字符识别输入。用数字键盘输入文字信息的办法。

文本数字化的方式有

键盘录入。选定我们要处理的单元格,再点击菜单栏里的数值,找到数值点小三角,从下拉选项中找到文本转数字,就完成了。

数字化后的文字信息处理技术是什么

文字信息处理的实质,是先把文字信息数字化,即用一个固定的数码代表一个字母或文字。例如,在英文信息中,以26个字母作为文字信息处理的单位,因此要对26个字母逐个地确定代替它的数码。在汉字的情况下,一般是以一个整字作为文字信息处理的单位,因此要对每一个整字惟一地确定代表它的数码。这一数码统称为代码(code)。在计算机内部处理文字信息时,就像处理数据一样对待。处理完毕后,再把替代的数码还原成相应的字母或文字。利用计算机能够调整处理数据的性能,使文字信息处理也能够分享计算机技术的这一独特优点,从而实现文字信息处理的高效化。
计算机之所以能有较高的运算和处理能力,是由于它利用了电子处理技术以及二进制数运算这一法则。计算机中的运算器,利用半导体器件的两个状态(通和断)的变化,代表二进制数字串中的一个二进制数位上的“1”或“0”的变化,从而能够高速地执行二进制数的数值或逻辑运算。实际上,计算机无论做数值的或任何种类信息的运算或处理,最基本的运算操作就是这种二进制数的演算。

文字资料数字化

一、文字资料数字化原则

现存的航空物探资料是中心开展航空物探50年来勘查和科研成果的积累,真实记录了中心航空物探技术进步和发展历程,反映了航空物探在地质找矿等方面的先行作用和突出贡献。为实现航空物探资料的信息化管理和永久利用,扩大航空物探服务领域,航空物探文字资料数字化和信息化原则是“尊重历史,忠实原著,保持原貌,统一要求,加强监控,确保质量”。

二、文字资料数字化流程

航空物探资料文字资料数字化是把航空物探勘查和科研项目纸质文字资料录入成电子文档,同时把手写、油印的文字资料扫描成图像格式保存,并编写项目成果简介(图8-5)。

图8-5 文字资料数字化流程图

三、文字资料数字化方法

文字资料数字化实质是对中心现存的航空物探勘查和科研成果报告采用扫描识别和人工录入两种方法输入计算机中,并按航空物探信息系统规定的格式和版式重新编辑,形成Word文档(DOC格式)和Adobe Acrobat文档(PDF格式)以满足入库要求。

(一)文字资料介质质量分类

为采取合理的数字化方法进行文字资料数字化,通过对中心库存的文字资料进行较详细的调查,按纸质资料介质质量好坏、字迹和插图清晰程度等将639份勘查和科研成果文字资料(报告)划分为较差、中等、较好、良好4类(表8-4)。其中,1973年前资料均较差,较差和中等质量的资料都出现在20世纪80年代中期以前。20世纪80年代中期以后的项目资料质量均属较好和良好。

表8-4 文字资料介质质量分类统计表

(二)文字资料数字化方法

以资料分类为基础,根据文字资料数字化原则,确定了文字资料数字化具体方法。

1.人工录入法

文本信息数字化

由于较差和中等类资料多数是手写、复写或油印本,少数是铅印本;存放时间长,几经辗转搬迁,破损严重,字迹模糊;无法采用扫描、识别方法输入,只能人工录入。对录入工作提出了具体要求,以保证人工录入质量。

2.扫描识别输入法

较好和良好类资料都是正规铅印或Word文档(DOC格式)印刷出版,字迹清晰,可用扫描识别方法予以输入,与人工录入方法相比效率较高。

人工录入、编辑航空物探勘查项目文字报告608份,约2739.6751万字;人工录入、编辑航空物探科研项目文字306份,约839.0241万字。

为了保证中心资料获得长久保存,同时对已人工录入的全部较差和中等类617份约9719页的文字资料(其中,勘查115份,约3240页;科研502份,约6479页)进行了扫描输入,以PDF格式直接刻制光盘保存。

四、校对和检查

文字资料由人工录入或扫描识别,经自检形成的Word电子文档全部校样必须通过二校和部分三校或抽检,才能进入编辑排版,最终生成统一的DOC格式的Word文档。

由于历史原因,在早期原稿(包括文字和插图)中存在着其他一些错误或不规范等现象。在保持原稿真实性的前提下,尽可能地在校样中对问题予以纠正和变通处理,有些则因本身遗漏或模糊无法弥补,留下空缺。按原文字资料所附的勘误表对文字逐一进行了更正,原有勘误表基本已失去存在意义了。

五、插图扫描矢量化

使用MapGIS软件对原文字报告中的测区示意图、剖面图、地质解释图等1260幅插图按照原插图进行矢量化,原插图比例尺使用数字比例尺表示的换算成线性比例尺,单剖面图加上剖面比例尺,统一了地质图中的地质符号等,提高文字报告的插图质量(图8-6)。

六、编辑排版

除勘查项目与科研项目文字报告在内容上客观存在的不同外,既使是同一类报告在报告内容、排版编辑上也都有较大的差别。这是航空物探技术进步必然的反映,也与以往文字资料缺乏统一标准和要求有关。在本次文字资料数字化过程中,根据项目统一要求,便于计算机管理和服务,在保持报告内容不变的前提下,将所有录入的文字成果报告采用Word编辑排版软件按规定的编辑模版自动生成目录,并在报告封面等形式上力求做到统一(校样最终稿与原稿在报告封面、目录级别、插图和页码位置等方面都存在着差别,但报告内容没有改变)。按此要求完成了799份约47645页文字资料的排版工作,并把文字资料格式由DOC格式转换为PDF格式。

图8-6a 矢量化前的插图

图8-6b 矢量化后插图

七、项目简介编写

为了使用户不阅读项目成果报告全文,能够快速地了解该项目概貌,获得该成果报告的主要内容和信息,按照航空物探信息系统建库要求,编写了航空物探勘查和科研项目简介455份,约28万字。其中,航空物探勘查成果报告423份,约26万字;科研成果报告32份,约2万字。以浓缩的形式概括项目成果的主要内容,包括工作方法或研究方法、质量评价,取得的主要成果和最终结论。

多种信息的数字化可以采取同一种加工处理方法吗?

多种信息的数字化不可以采取同一种加工处理方法。多媒体技术能够把文本、声音、图形、图像、视频等信息在计算机中进行数字化处理。多媒体技术是计算机技术融合音频、视频和通信技术的产物。

实物地质资料相关文本资料数字化

文本信息数字化

张海兰 王瑞红

(国土资源部实物地质资料中心,北京 101149)

摘要 本文简要阐述了实物相关文本资料数字化工作的重要性,提出要根据文本资料原貌选择扫描方式,依照具体情况进行分辨率、亮度和对比度的调整。

关键词 文本资料;数字化

实物地质资料的相关资料是成果地质资料与原始地质资料的原件或复制件,是说明实物产生的地质背景及其保管价值的重要材料,是实物地质资料的重要组成部分。

为了适应现代化管理与服务的需要,同时为了配合实物地质资料数字化,解决图文地质资料信息长期保存问题,国土资源部实物地质资料中心开展了相关地质资料数字化工作。实物地质资料相关的图文资料包括两大类:文本资料和图纸资料,数字化工作也是针对这两部分内容而言的。本文仅就资料的数字化工作进行探讨。

一、文本资料数字化工作流程

文本资料数字化工作是通过扫描的方法把以纸介质为载体的地质资料转变为以电子为介质的电子文件,并进行文件组织的过程。主要工作过程包括资料准备、扫描、图像处理、生成电子文件、文档组织与保存等几个方面(见图1)。

图1 文本资料数字化工作流程图

二、扫描工作方法

1.扫描前的资料准备工作

做好文本资料的准备工作是十分必要的。资料的单册厚度影响着文本的扫描质量,越厚越不利于扫描,有些文本装订得比较厚时,可将文本拆开进行扫描,扫描工作结束后再按照档案管理的标准进行重新装订。在进行若干份单页的文件扫描时,扫描前要做好资料的登记工作,以免丢失。利用文档扫描仪进行多页文件扫描之前,要对文本资料进行去除静电处理。

2.扫描

(1)选择扫描方式

对于文本资料纸质较好,又不超过标准A4版面大小的时候,可以采用专用的多页文档扫描仪进行滚动扫描,以节省扫描时间提高工作效率。其他的文本资料使用平板扫描仪逐页进行扫描。

(2)选择扫描参数

扫描类型 扫描类型的选择是完成文本数字化工作的重要环节。正确的选择扫描类型,是提高扫描质量的保证。扫描类型的选择是由原件的类型来确定的。常用文本资料的扫描类型有:黑白二值、RGB、灰阶三种。黑白二值方式,当文字或表格质量都非常高时,采用这种方式扫描,扫描效果较好。灰阶方式,当文本资料字迹不清楚或是表格时,使用黑白二值方式产生的图像效果较差,表格线会断断续续,此时可选用灰阶方式扫描,但这种方式扫描的图像会有较多的灰色印迹,需在后期做图像处理,使图像达到最佳效果。RGB方式,对文本资料中的彩色图件一般采用这种方式进行扫描,用这种方式扫描产生的文件占用的磁盘空间较大,扫描时可进行亮度、对比度及色度的调整,通过反复对比,使图件色彩达到最佳的效果。

参数选择 在扫描前进行预扫描,可进行扫描分辨率的选择、亮度和对比度调整。扫描分辨率、亮度及对比度调整与文本资料的质量有一定的关系,当一册文本资料质量变化不大时,选择一页或几页进行扫描实验,结合扫描工作经验选择适合的分辨率、亮度及对比度。当文本质量有明显变化时,每页资料的亮度及对比度都要分别进行调整。每次扫描时若不进行扫描区域的选择,扫描区域就会与上次的扫描区域相同,这样有可能会漏掉文本内容。若扫描区域过大,扫描时间就会延长,文件所占的空间也会增大,后期图像处理的工作量亦会增大。

存储格式的选择 根据选择扫描类型的不同,文件存储格式也有所不同。黑白二值方式扫描产生的图像不能进行纠斜和旋转,存储格式为tiff;灰阶和RGB方式扫描存储格式都为jpg,这种格式是经过压缩的。

(3)确定文件名称及路径

当扫描参数调整完成时,就要选择路径将扫描文件进行保存。这个文件最好是放置在一个独立的位置上,以免与其他文件混淆。文件的名称是要能反映其中文本资料的主要内容的。与此同时,还要给每页文件确定一个适当的名称,最好以文件的页码为文件的名称,以便对文件进行排版时不会出顺序上的错误。同时保证以后再对文件进行处理时能很快识别此文件是属于哪个类别的、哪个地区的、哪个钻孔的等,如图2所示。

图2 文件存储结构示意图

(4)扫描并保存

在扫描方式、扫描参数、存储格式、存储路径和文件名都已设定好之后,就可以进行扫描了。当页面大于A4版面时,可以用A3大幅度扫描仪进行扫描,对于超过A3幅度的文本资料可以分次扫描,扫描完成后再进行拼接。扫描是整个数字化工作中最基础、最关键的环节,好的扫描质量,能够使电子文件获取清晰度较高的效果,投入最少的整饰工作量,从而节省大量的时间、人力和物力。

3.图像处理

当完成一册文本资料的扫描工作后,此文本资料的电子文件已经保存在一个固定的文件夹内。但此时的文件只是一个个独立的图片,还需要一系列的图像调整处理,才能达到文本数字化的真正目的。在Photoshop中打开扫描图像,逐个进行纠斜、旋转、剪裁、去污、亮度/对比度等的调整。经过几次这样的调整,使图像达到真实反映文本资料原貌的目的。

4.生成电子文件

将调整好的单个图像文件逐个插入到Word文档中,首先形成Word格式的文档,然后再转化成PDF格式文件,文件名要与每册文本资料的名称相同或相近,如秦岭、大巴山地应力孔的《岩矿心接收登记表》,电子文件命名为“岩矿心接收登记表”。

5.文档组织与保存

当完成一个矿区的所有文本资料的扫描工作以后,将形成的PDF文件按一定的顺序重新组织编排,并编制PDF格式的目录索引,链接整个矿区的PDF文件。最后将完整的电子文件进行备份保存。一般情况下同一矿区的电子文档保存在同一张光盘中,并在光盘盒上贴标签,注明文件目录、形成时间及责任人等有关信息。若一张光盘存不下时,要将电子文件分成若干个分册,一个分册放在一个光盘中。电子文档应保存一式三套,并且要实行异地保存。

三、影响文本资料扫描效果的几个因素分析

将文本资料平放在扫描仪的扫描区域中,有的文本资料装订得比较规范,一般情况下在扫描前不拆开,进行扫描时扫描人员应用手紧压文本资料,尽可能地紧贴扫描面板,以保证较好的扫描效果。如果文本资料较薄,则可用扫描仪的盖板压紧即可。这个环节的操作要轻拿轻放,避免文本资料在扫描板上滑动,将扫描板划伤,这样将直接影响扫描的效果。

我们采集来的一些实物资料是20世纪80年代初期产出的,随着时间的推移,文本资料字迹已经很模糊了,而收集来的又多以复印件为主,还有野外记录表或整理资料这部分多数都是手写资料,字体不一,书写也不规范,资料内容就更为模糊了,这样的资料扫描难度较大,效果也不理想。

有的文本资料的厚度大又不宜拆开,直接影响了扫描质量,文本资料越厚在扫描过程中就越不容易压平,一侧的资料就非常不清楚。因此在扫描较厚的文本资料时,需要扫描人员用手使劲压平文本,才能保证扫描的质量。显而易见这样扫描自然会降低扫描的效率,因此在扫描这种较厚的文本资料时,要求工作人员必须有耐心,将每一页资料都能充分地摆正放平,使每一部分信息都能扫描得非常清晰。

四、结语

文本资料数字化是一项艰巨、繁琐而责任重大的工作,是实现实物地质资料现代化管理的一项重要基础工作。由于这项工作开展时间不长,没有更多的经验可以借鉴,目前此项工作还在不断的探索和试验中。

Digitization of Relevant Text Information of Geologicalsamples

Hailan Zhang,Ruihong Wang

(National Geologicalsample Center,ministry of Land and Resources,Beijing 101149)

Abstract This paper compendiously explains thesignificances of digitization of relevant textinformation of geologicalsamples,proposes to keep in accordance with the original configuration of text information whenselectingscanningmodes,in order to properly adjust the ratio,brightness and contrast referring to the actualsituations.

Key words text information;digitization

标签

相关资讯

我是中博奥客服:小奥
中博奥技术有限公司& 版权所有工信部备案号:豫ICP备11015869号-8 Copyright © 2023-2024

档案整理档案数字化

档案扫描档案管理软件系统

TEL:18937133779

To Top