电 话:18937133779
网 址:https://www.zboao.com
邮 箱:zboao@qq.com
档案数字化扫描分别率
档案数字化扫描的分辨率取决于需要扫描的文本或图片的大小和清晰度要求。一般来说,以下是常见的几种分辨率:
1.150 DPI:适用于OCR文字识别,快速扫描需要转换为文本的纯文字文件。
2.300 DPI:适用于常规彩色扫描及黑白文本扫描。
3.600 DPI:适用于特别清晰的彩色扫描及高质量的黑白文本扫描。
4.1200 DPI:适用于非常高清晰的彩色扫描,如卫星地图等。
需要注意的是,分辨率越高,扫描文件体积也会相应增大,因此在选择分辨率时需要根据实际需求和存储容量进行权衡。
纸质档案数字化有哪些基本要求
纸质档案数字化有哪些基本要求
纸质档案是以纸张作为载体的一种档案,如保存备查的公文图纸、信札、电报、户籍、帐册、契约、证书、书稿、日记、笔记、家谱的原本和原稿。以下我为大家整理了纸质档案数字化有哪些基本要求的详细内容,希望对大家有所帮助!
纸质档案数字化基本要求
1、基本原则
纸质档案数字化的基本原则是使档案信息资源准确方便快捷地提供利用,使可以公开的档案信息资源得到共享,以满足社会对档案利用的需求。
2、数字化对像的确定原则
应当对所要进行数字化的对象按照一定的原则和方法进行确认,只有符合一定要求的纸质档案文献才能进行数字化。
档案数字化扫描分别率
1)符合国家法律法规的原则
纸质档案的数字化,必须符合国家档案开放规定以及有关规定。
2)价值性原则属于归档范围且应永久或长期保存的、社会利用价值高的'档案可列入数字化加工的范围。
3、基本环节
纸质档案数字化的基本环节主要包括:档案整理、目录建库、档案扫描、图像处理、图像存储、数据质检、数据挂接、数据验收、数据备份、成果管理等。
档案扫描
1、扫描方式
1)根据档案幅面的大小(A4、A3、A0等)选择相应规格的扫描仪或专业扫描仪(如工程图纸可采用0号图纸扫描仪)进行扫描。大幅面档案可采用大幅面数码平台,或者缩微拍摄后的胶片数字化转换设备等进行扫描,也可以采用小幅面扫描后的图像拼接方式处理。
档案数字化扫描分别率
2)纸张状况较差,以及过薄、过软或超厚的档案,应采用平板扫描方式;纸张状况好的档案可采用高速扫描方式以提高工作效率。
2、扫描色彩模式
1)扫描色彩模式一般有黑白二值、灰度、彩色等。通常采用黑白二值。
2)页面为黑白两色,并且字迹清晰、不带插图的档案,可采用黑白二值模式进行扫描。
3)页面为黑白两色,但字迹清晰度差或带有插图的档案,以及页面为多色文字的档案,可采用灰度模式扫描。
4)页面中有红头、印章或插有黑白照片、彩色照片、彩色插图的档案,可视需要采用彩色模式进行扫描。
3、扫描分辨率
1)扫描分辨率参数大小的选择,原则上以扫描后的图像清晰、完整、不影响图像的利用效果为准。
2)采用黑白二值、灰度、彩色几种模式对档案进行扫描时,其分辨率一般均建议选择≥200dpi。特殊情况下,如文字偏小、密集、清晰度较差等,可适当提高分辨率。
3)需要进行OCR汉字识别的档案,扫描分辨率建议选择≥300dpi。
档案数字化工作流程是怎样的?
档案数字化加工流程
前期档案整理
档案借出
从档案室接件,填写档案移交清册,一式两份。拿到档案后,开始核对档案数量,数量核对无误后签字确认,将档案拿回加工现场。
目录数据准备
按照各类档案整理规定的要求,在档案管理系统著录目录数据。如有错误或不规范的案卷题名、文件名、责任者、日期、起止页号等,应进行修改。
拆除装订
在不去除装订物情况下,会影响扫描工作进行的档案,应拆除装订物。拆除装订物时应注意保护档案不受损害。
页面修整
破损严重、无法直接进行扫描的档案,应先进行技术修复,褶皱不平影响扫描质量的原件应先进行相应处理(压平或熨平等)后再进行扫描。
档案扫描
扫描方式
(1)根据档案幅面的大小(A4、A3、A0等)选择相应规格的扫描仪或专业扫描仪(如工程图纸可采用0号图纸扫描仪)进行扫描。大幅面档案可采用大幅面数码平台,或者缩微拍摄后的胶片数字化转换设备等进行扫描。
(2)纸张状况较差,以及过薄、过软或超厚的档案,应采用平板扫描方式;纸张状况好的档案,可采用高速扫描方式以提高工作效率。
扫描色彩模式
(1)扫描色彩模式一般有黑白二值、灰度、彩色等。通常采用彩色。
(2)页面为黑白两色,并且字迹清晰、不带插图的档案,可采用黑白二值模式进行扫描。
(3)页面为黑白两色,但字迹清晰度差或带有插图的档案,以及页面为多色文字的档案,可采用灰度模式扫描。
(4)页面中有红头、印章或插有黑白照片、彩色照片、彩色插图的档案,可采用彩色模式进行扫描。
扫描分辨率
(1)扫描分辨率参数大小的选择,原则上以扫描后的图像清晰、完整、不影响图像的利用效果为准。
(2)采用黑白二值、灰度、彩色几种模式对档案进行扫描时,其分辨率一般应设为200-300dpi。特殊情况下,如文字偏小、密集、清晰度较差等,可适当提高分辨率。
图像处理
图像数据质量检查
(1)对图像偏斜度、清晰度、失真度等进行检查。发现不符合图像质量要求时,应重新进行图像的处理。
(2)由于操作不当,造成扫描的图像文件不完整或无法清晰识别时,应重新扫描。
(3)发现文件漏扫时,应及时补扫并正确插入图像。
(4)发现扫描图像的排列顺序与档案原件不一致时,应及时进行调整。
纠偏、去污、图像拼接、裁边处理
(1)对出现偏斜的图像应进行纠偏处理,以达到视觉上基本不感觉偏斜为准。对方向不正确的图像应进行旋转还原,以符合阅读习惯。
(2)对图像页面中出现的影响图像质量的杂质,如黑点、黑线、黑框、黑边等应进行去污处理。处理过程中应遵循在不影响可懂度的前提下展现档案原貌的原则。
(3)对大幅面档案进行分区扫描形成的多幅图像,应进行拼接处理,合并为一个完整的图像,以保证档案数字化图像的整体性。
(4)采用彩色模式扫描的图像应进行裁边处理,去除多余的白边,以有效缩小图像文件的容量,节省存储空间。
图像存储
存储格式
(1)采用黑白二值模式扫描的图像文件,一般采用PDF格式存储。
(2)采用灰度模式和彩色模式扫描的文件,一般采用PDF格式存储。
图像文件命名
(1)纸质档案目录数据库中的每一份文件,都有一个与之相对应的档号,以该档号为这份文件扫描后的图像文件命名。如图像文件较大,不便于网络浏览,可拆分为多个图像文件,文件名后增加A、B、C等区别。
(2)分别建立文件夹,以文件档号命名,并存储对应图像文件。
数据挂接
将每一份纸质档案扫描所得的图像存储到相应档号的文件夹后,认真核查每一份图像文件的名称与档案目录数据库中该份文件的档号是否相同,图像文件的页数与档案目录数据库中文件的总页数是否相同等。通过每一份图像文件所在文件夹的名称与档案目录数据库中该份文件的档号的一致性,建立起一一对应的关联关系,为实现档案目录数据库与图像文件的批量挂接提供条件。
纸质档案进行数字化转换后原件可以销毁吗
能(A)纸质文件的数字化处理纸质文件的数字化处理方法主要有两种:直接扫描法和缩微法。
1.直接扫描方法所谓直接扫描法,就是用扫描仪对原始纸质文件进行光学扫描,将图像信息传输到光电转换器中变成模拟电信号,再将模拟电信号转换成数字电信号,再通过计算机接口传输到计算机存储器中。直接扫描可以分为两种方式:
(1)对纸质文件进行扫描后,使用字符识别(OCR)软件进行识别,最终生成文本文件。这种数字文件的优点是:占用空间小,便于计算机全文检索,文件使用时易于提取和编辑。其缺点是:不能保留原文件的排版格式,以及签名、印章等原始信息;有时候OCR字符识别的准确率低,检查修改困难,数字化效率很低,实际上已经破坏了原始文件的真实性。
(2)扫描纸质文件,形成数字图像文件。这种图像文件的优点是:能保持文件内容和排版的原貌,数字化速度快。缺点是:无法进行全文检索,无法编辑文本内容,占用存储空间大。以上两种方法的优缺点正好互补。现在有一种方法可以把两种方法的优点结合到一个文件里,就是做一个双层PDF。
制作方法是:将原来的纸质文件扫描成数字图像文件再转换成文本文件,然后将两个内容相同的文件放在同一个PDF文件中,图像文件放在文本文件的上层,文本文件隐藏在图像文件的下层。在查询这个文件时,我们不仅可以看到上层的原始图像文件,还可以全文搜索隐藏的文本文件。
2.缩微方法所谓缩微胶片转换方法,就是对已经缩微的文件,使用专用的扫描设备(即缩微胶片扫描仪),将缩微胶片上的模拟图像转换成数字图像的方法。与直接扫描法相比,显微扫描法更经济、简单、高效。但是,这种方法必须建立在纸质文件的微细加工基础上。
值得注意的是,扫描微缩胶片后,原微缩胶片应与纸质档案一起保存,不得擅自销毁。这样,文件就形成了“三集”的存储状态。尽管缩微胶片不如数字文件易于保存、复制、查询和传播,但作为模拟信息,缩微胶片文件具有数字文件所不具备的优点,如人类可读、稳定性好、体积小等,是纸质文件所不具备的,应成为档案信息资源的重要补充形式。
(B)纸质文件的数字化工作流程纸质档案数字化是一个复杂的过程,其基本环节主要包括:档案整理、档案扫描、图像处理、图像存储、编目建库、数据挂钩、数据验收、数据备份、成果管理。文件整理纸质档案扫描前,根据档案管理情况,按照以下步骤对档案进行适当整理,并根据需要进行标记,以保证档案的数字化质量。
(1)文件出库一般来说,对大量纸质档案进行数字化处理,首先要将待数字化的档案从档案仓库搬到临时周转仓库;然后,数字处理人员从周转仓库接收文件进行数字化。无论前者或后者,数字化处理人员都必须按预定计划提出申请,经审批后,向双方移交档案,登记并完成交接手续。
(2)目录数据准备根据《档案著录规则》(DA/T18-1999)的要求,规范档案的内容,包括确定档案的著录项目、字段长度和内容要求。然后,建立一个用于数字文件检索的目录数据库。数据库建设可以利用原有纸质档案的编目基础。如果原始纸质文件目录存在错误或不规范,如标题、文件名、负责人、起止页码和页数等。,应该修改。纸质档案未建立机读目录数据库的,应按档案著录规则重新录入。
(3)解除捆绑文件可以在去除绑定前逐一贴上条形码,以便在后续流程中通过识别条形码对扫描的文件进行准确高效的控制。条形码还可以为今后档案借阅和利用的管理提供方便。然后,工作人员一卷一卷、一页一页地检查档案。对缺失内容、遗漏内容、颠倒页码、珍贵破损档案进行登记,交档案保管机构妥善处理。
对于不解除绑定会影响扫描工作的文件,应解除绑定。拆除装订时,应注意保护文件不受损坏。拆除装订后,应将原文件按顺序排列,并用夹子夹住,以防散落。对于历史悠久,纸质条件差,不方便拆封的,可以使用零页边距扫描仪进行扫描。
(4)区分扫描件和非扫描件。根据要求,将同一案卷中的扫描件和非扫描件分开,剔除无关和重复件。
(5)页面修剪纸张的质量与扫描仪的选择和扫描效果有关。因此,对于破损严重、褶皱不平、字迹模糊的档案,必须分别登记处理。比如折叠的文件可以熨烫;对于被污染的纸张,可以在通风的环境下用软刷轻轻刷掉漂浮的灰尘、污垢或霉菌;必须修复损坏和不完整的文档。
(六)备案登记将整理后的原始文件移交给扫描人员,制作并填写纸质文件数字化处理交接登记表,详细记录整理后每个文件的起始页码和页码。
(七)装订、修复和归还扫描工作完成后,已拆除的档案应按档案保管要求重新装订。恢复装订时,要注意保持文件的排列顺序不变,做到安全、准确、不遗漏。更换严重损坏的辊和箱。装订人员会在装订好的文件上加盖专用印章和专用数码印章。文件的数字处理和重新装订完成后,应进行清点。清点无误后,交回档案管理部门,办理档案归还手续。
2.文件扫描(1)扫描设备的选择根据文件格式的大小(A4、A3、A0等。),选择相应规格的扫描仪。大幅面文件可以用宽幅扫描仪扫描,缩微后用胶片数字转换设备扫描,小幅面扫描后用图像拼接。纸张状况不好、太薄、太软或太厚的文件,以及多色页面的文件,都可以用普通平板扫描仪扫描。
纸张条件好的A4、A3文件可以用高速扫描仪扫描,提高工作效率。不适合拆包的文件可以用零页边距扫描仪扫描。(2)扫描颜色模式的选择通常,有两种扫描颜色模式:一种是扫描形成黑白二值图像。这种图像只有黑白两级,没有过渡灰度。其特点是黑白分明,字迹清晰,文件容量小。它适用于扫描笔迹清晰、线条清晰的文本或图形文件。
二是扫描形成连续色调的静态图像。这类图像分为灰度图像和彩色图像。灰度图像由从最暗的黑色到最亮的白色的不同灰度组成。灰度表示一幅图像从亮部到暗部的层次,也叫色阶。灰度越高,层次越丰富,文件容量越大。灰色模式适合扫描黑白照片和图像文件,色阶的选择要适中,只要不影响画质即可。
颜色模式中的颜色数量表示颜色的范围。颜色越多,图像越生动真实,文件容量越大。同样,色号的选择也要适度,不是越多越好。彩色模式适用于扫描文件或页面上带有红色抬头和印章的彩色照片文件。需要永久保存或长期保存,或移交国家档案馆的档案,一般应采用彩色模式扫描。
(3)扫描分辨率扫描分辨率参数的选择原则上是基于扫描图像的清晰度和完整性,不会影响图像的利用效果。黑白二进制、灰度、彩色模式扫描文件时,分辨率一般建议大于等于200dpi。特殊情况下,如文字小、文字密、清晰度差等。,分辨率可以适当提高。对于需要OCR汉字识别的文件,扫描分辨率建议选择300dpi。
(4)光学字符识别处理目前OCR技术已经相当成熟,一般扫描仪都有自己的OCR软件,使用起来也非常方便。但是OCR的识别准确率往往不尽如人意,影响检索效果。手动修改稿件中的错别字很麻烦。因此,提高OCR识别率是档案数字化中的一个重要问题。
其实只要注意以下几点,就可以明显提高OCR识别率:一是选择合适的扫描分辨率。过低的扫描分辨率往往会导致OCR识别率下降,过高的分辨率则会使图像文件过大,降低识别速度。在实际操作中,操作者可以通过查看OCR识别后生成的文本中红色错别字的数量(如小于3%)来判断可接受性,决定是否以此分辨率扫描,进行OCR识别。
二是尽量黑白二进制模式扫描。用扫描仪扫描文档时,OCR通常接受灰色或黑白二进制模式,不接受彩色模式。如果稿件的印刷质量好,可以采用灰色模式,否则应采用黑白二进制模式。扫描时,您可以手动调整黑白阈值的大小。如果黑白二值图像上的文字轮廓不完整,适当增加阈值。
如果文本的轮廓太粗,说明信息冗余较多,可以适当降低阈值。这样调整后形成的黑白二值扫描图像可以达到更好的OCR识别效果。
第三,在进行OCR识别时注意字符的倾斜校正。OCR识别允许文档轻微倾斜,但过度倾斜会影响识别率。校正方法是在扫描软件上点击倾斜校正按钮,识别软件会在OCR识别前自动校正图像。
四是稿件识别前的预处理。去除稿件中的杂物和图片,因为杂物会干扰文字识别,图片无法识别,会影响OCR的文字分割。针对稿件中的栏目,建议手动设置栏目区域,即用多个方框选择要识别的文字,然后进行OCR识别。五是采取适当的识别方法。简体和繁体稿件混杂,中英文稿件识别率往往较低。如果简体和繁体中英文分块分布,可以用图像处理软件将不同的文本块编辑成文本块相似的文件,然后分别用OCR识别不同的字符。
(5)扫描注册认真填写纸质文件数字化转换流程交接登记表,登记扫描页数,核对每份文件实际扫描页数与归档时填写的文件页数是否一致。如不一致,应注明具体原因和处理方法。3.图像处理扫描完成后,获得的图像必须按要求进行技术处理,以纠正扫描文件与原始文件之间的偏差,使扫描文件更清晰、更规范。
图像处理一般包括以下内容:(1)影像数据质量检查检查图像的偏斜、清晰度和失真。如果发现不符合质量要求,应对图像进行重新处理。当扫描的图像文件不完整或因操作不当无法清晰识别时,应重新扫描;如有漏扫描文件,及时补扫描,正确插入图像;当发现扫描图像的排列顺序与原始文件不一致时,应及时调整。认真填写相关表格,记录质量检查结果和处理意见。
(2)整改应该校正偏转图像,以便在视觉上感觉不到偏转。方向不正确的图片要旋转还原,符合阅读习惯。
(3)去污影响图像质量的杂质,如黑点、黑线、黑框和黑边,应该去除。在处理过程中,应注意不要破坏文件的原始信息。
(4)图像拼接扫描不同区域的大幅面文件形成的多幅图像应拼接合并成一幅完整的图像,以保证文件数字图像的完整性。
(5)修剪彩色模式下扫描的图像应进行修剪,去除多余的白边,以有效减少图像文件的容量,节省存储空间。以上的整改、去污、修整等处理都可以根据肉眼手动完成。也可以使用专门设计的软件,预先进行一定的设置,然后由计算机自动处理。计算机处理当然效率高,但不如手工处理灵活。
比如,一旦污渍的大小被设计得太小,电脑会自动把一些标点符号作为污渍去掉。因此,扫描图像的处理也需要采用手动和自动相结合的处理方式。
4.图像存储(1)存储格式以黑白二进制模式扫描的图像文件通常以TIFF(G4)格式存储。以灰色模式和彩色模式扫描的图像文件通常以JPEG格式存储。存储时压缩比的选择应以保证扫描图像易读性的前提下最小化存储容量为基础。提供网络查询的扫描图像,也可以存储为CEB,PDF或其他格式的文件。
(2)图像文件的命名数字档案资源应以档案号或唯一标识符命名。用档案号命名数字档案资源的,按卷排序的,应按《档案号编制规则》(DA/T 13-1994)编制档案号,建议增加档案类别码作为类别号的子项;若按件排序,案卷号可采用“全宗号-案卷类别码年份-保管期限-机构(问题)码-件号-分件号”的结构。
5.目录数据库建设(1)数据格式选择目录数据库建设应选择通用数据格式,所选数据格式应能通过XML文档直接或间接交换数据。这个数据库的建立可以通过专门的档案管理系统或者扫描处理管理软件录入,也可以通过EXCEL专门设计的档案目录表录入,然后将数据导入档案管理系统。
(2)档案描述根据《档案著录规则》(DA/T18-1999)的要求,建立档案目录数据库,录入档案目录数据。
(3)目录数据的质量检查为保证数据的准确性,可采用“单机录入-人工校对”或“双机录入-计算机自动校对”的方法。无论是人工校对还是计算机校对,都要检查描述项目是否齐全,描述内容是否规范准确,如发现不合格数据,应进行修改或重新记录。
6.数据挂钩(1)汇总挂钩档案数字化转换过程中形成的编目数据库和影像文件,经质量检查合格后,通过网络及时加载到数据服务器进行汇总。目录数据库和镜像文件要避免慢且容易出错的手动挂接,尽量批量使用电脑自动挂接。只要将扫描的数字文件按照纸质文件的文件号进行命名,就可以通过编制挂钩程序或借助相应的软件,实现相关数字图像的自动搜索和相应电子地址信息的添加,从而实现批量、快速挂钩。
(2)数据关联基于纸质文件目录数据库,从每个纸质文件扫描的一个或多个图像被存储为图像文件。将图像文件存储在相应的文件夹中时,需要仔细检查每个图像文件的名称是否与归档目录数据库中的文件号相同,图像文件的页数是否与归档目录数据库中的文件页数相同,图像文件的总数是否与归档目录数据库中的文件数相同。
利用每个图像文件的文件名与该文件在归档目录数据库中的文件号建立一一对应的关系,为归档目录数据库与图像文件的自动批量连接提供了条件。
(3)交接登记认真填写纸质文件数字化转换过程交接登记表,记录数据关联后的页数,检查每次文件关联后的页数与文件整理扫描时填写的页数是否一致。如不一致,应注明具体原因和处理方法。
7.数据接受检查所有已经采样数字化的数据,包括目录数据库、图像文件和数据挂钩的整体质量。当目录数据库和图像文件链接出现错误,或者目录数据库和图像文件中有一个不完整、不清晰、有错误时,抽检将标记为“不合格”。一个全宗文件,当数字转换质量抽检合格率达到95%以上(含95%)时,将被验收为“通过”。
合格率=通过抽样检查的文件数/通过抽样检查的文件总数×100%。认真填写纸质档案数字化验收登记表。验收“通过”的结论必须经过审核签字才能生效。
8.数据备份完整、合格的数据应及时备份。为保证数据安全,备份载体的选择应多样化,可采用线上线下相结合的方式实现多套备份,并注意远程存储。
还应该检查备份数据。备份数据的检查内容主要包括备份数据是否可以打开,数据信息是否完整,文件数量是否准确。数据备份后,应在相应的备份介质上做好标记,以便于查找和管理。填写纸质文件数字备份管理登记表。
9.数字结果管理应加强纸质档案数字化成果的管理,确保其安全性、完整性和长期可用性。提供纸质档案数字化成果在线检索利用时,应当有制作单位的电子标识,并根据具体情况采用可下载或不可下载的数据格式。
纸质档案进行数字化转换后原件可以销毁
能(A)纸质文件的数字化处理纸质文件的数字化处理方法主要有两种:直接扫描法和缩微法。
1.直接扫描方法所谓直接扫描法,就是用扫描仪对原始纸质文件进行光学扫描,将图像信息传输到光电转换器中变成模拟电信号,再将模拟电信号转换成数字电信号,再通过计算机接口传输到计算机存储器中。
直接扫描可以分为两种方式:(1)对纸质文件进行扫描后,使用字符识别(OCR)软件进行识别,最终生成文本文件。这种数字文件的优点是:占用空间小,便于计算机全文检索,文件使用时易于提取和编辑。
其缺点是:不能保留原文件的排版格式,以及签名、印章等原始信息;有时候OCR字符识别的准确率低,检查修改困难,数字化效率很低,实际上已经破坏了原始文件的真实性。
(2)扫描纸质文件,形成数字图像文件。这种图像文件的优点是:能保持文件内容和排版的原貌,数字化速度快。缺点是:无法进行全文检索,无法编辑文本内容,占用存储空间大。以上两种方法的优缺点正好互补。现在有一种方法可以把两种方法的优点结合到一个文件里,就是做一个双层PDF。
制作方法是:将原来的纸质文件扫描成数字图像文件再转换成文本文件,然后将两个内容相同的文件放在同一个PDF文件中,图像文件放在文本文件的上层,文本文件隐藏在图像文件的下层。在查询这个文件时,我们不仅可以看到上层的原始图像文件,还可以全文搜索隐藏的文本文件。
2.缩微方法所谓缩微胶片转换方法,就是对已经缩微的文件,使用专用的扫描设备(即缩微胶片扫描仪),将缩微胶片上的模拟图像转换成数字图像的方法。与直接扫描法相比,显微扫描法更经济、简单、高效。但是,这种方法必须建立在纸质文件的微细加工基础上。
值得注意的是,扫描微缩胶片后,原微缩胶片应与纸质档案一起保存,不得擅自销毁。这样,文件就形成了“三集”的存储状态。尽管缩微胶片不如数字文件易于保存、复制、查询和传播,但作为模拟信息,缩微胶片文件具有数字文件所不具备的优点,如人类可读、稳定性好、体积小等,是纸质文件所不具备的,应成为档案信息资源的重要补充形式。
(B)纸质文件的数字化工作流程纸质档案数字化是一个复杂的过程,其基本环节主要包括:档案整理、档案扫描、图像处理、图像存储、编目建库、数据挂钩、数据验收、数据备份、成果管理。文件整理纸质档案扫描前,根据档案管理情况,按照以下步骤对档案进行适当整理,并根据需要进行标记,以保证档案的数字化质量。
(1)文件出库一般来说,对大量纸质档案进行数字化处理,首先要将待数字化的档案从档案仓库搬到临时周转仓库;然后,数字处理人员从周转仓库接收文件进行数字化。无论前者或后者,数字化处理人员都必须按预定计划提出申请,经审批后,向双方移交档案,登记并完成交接手续。
(2)目录数据准备根据《档案著录规则》(DA/T18-1999)的要求,规范档案的内容,包括确定档案的著录项目、字段长度和内容要求。然后,建立一个用于数字文件检索的目录数据库。数据库建设可以利用原有纸质档案的编目基础。如果原始纸质文件目录存在错误或不规范,如标题、文件名、负责人、起止页码和页数等。,应该修改。纸质档案未建立机读目录数据库的,应按档案著录规则重新录入。
(3)解除捆绑文件可以在去除绑定前逐一贴上条形码,以便在后续流程中通过识别条形码对扫描的文件进行准确高效的控制。条形码还可以为今后档案借阅和利用的管理提供方便。然后,工作人员一卷一卷、一页一页地检查档案。
对缺失内容、遗漏内容、颠倒页码、珍贵破损档案进行登记,交档案保管机构妥善处理。对于不解除绑定会影响扫描工作的文件,应解除绑定。拆除装订时,应注意保护文件不受损坏。拆除装订后,应将原文件按顺序排列,并用夹子夹住,以防散落。对于历史悠久,纸质条件差,不方便拆封的,可以使用零页边距扫描仪进行扫描。
(4)区分扫描件和非扫描件。根据要求,将同一案卷中的扫描件和非扫描件分开,剔除无关和重复件。
(5)页面修剪纸张的质量与扫描仪的选择和扫描效果有关。因此,对于破损严重、褶皱不平、字迹模糊的档案,必须分别登记处理。比如折叠的文件可以熨烫;对于被污染的纸张,可以在通风的环境下用软刷轻轻刷掉漂浮的灰尘、污垢或霉菌;必须修复损坏和不完整的文档。
(六)备案登记将整理后的原始文件移交给扫描人员,制作并填写纸质文件数字化处理交接登记表,详细记录整理后每个文件的起始页码和页码。
(七)装订、修复和归还扫描工作完成后,已拆除的档案应按档案保管要求重新装订。恢复装订时,要注意保持文件的排列顺序不变,做到安全、准确、不遗漏。更换严重损坏的辊和箱。装订人员会在装订好的文件上加盖专用印章和专用数码印章。文件的数字处理和重新装订完成后,应进行清点。清点无误后,交回档案管理部门,办理档案归还手续。
2.文件扫描(1)扫描设备的选择根据文件格式的大小(A4、A3、A0等。),选择相应规格的扫描仪。大幅面文件可以用宽幅扫描仪扫描,缩微后用胶片数字转换设备扫描,小幅面扫描后用图像拼接。纸张状况不好、太薄、太软或太厚的文件,以及多色页面的文件,都可以用普通平板扫描仪扫描。纸张条件好的A4、A3文件可以用高速扫描仪扫描,提高工作效率。不适合拆包的文件可以用零页边距扫描仪扫描。
(2)扫描颜色模式的选择通常,有两种扫描颜色模式:一种是扫描形成黑白二值图像。这种图像只有黑白两级,没有过渡灰度。其特点是黑白分明,字迹清晰,文件容量小。它适用于扫描笔迹清晰、线条清晰的文本或图形文件。二是扫描形成连续色调的静态图像。
这类图像分为灰度图像和彩色图像。灰度图像由从最暗的黑色到最亮的白色的不同灰度组成。灰度表示一幅图像从亮部到暗部的层次,也叫色阶。灰度越高,层次越丰富,文件容量越大。灰色模式适合扫描黑白照片和图像文件,色阶的选择要适中,只要不影响画质即可。
颜色模式中的颜色数量表示颜色的范围。颜色越多,图像越生动真实,文件容量越大。同样,色号的选择也要适度,不是越多越好。彩色模式适用于扫描文件或页面上带有红色抬头和印章的彩色照片文件。需要永久保存或长期保存,或移交国家档案馆的档案,一般应采用彩色模式扫描。
(3)扫描分辨率扫描分辨率参数的选择原则上是基于扫描图像的清晰度和完整性,不会影响图像的利用效果。黑白二进制、灰度、彩色模式扫描文件时,分辨率一般建议大于等于200dpi。特殊情况下,如文字小、文字密、清晰度差等。,分辨率可以适当提高。对于需要OCR汉字识别的文件,扫描分辨率建议选择300dpi。
(4)光学字符识别处理目前OCR技术已经相当成熟,一般扫描仪都有自己的OCR软件,使用起来也非常方便。但是OCR的识别准确率往往不尽如人意,影响检索效果。手动修改稿件中的错别字很麻烦。因此,提高OCR识别率是档案数字化中的一个重要问题。
其实只要注意以下几点,就可以明显提高OCR识别率:一是选择合适的扫描分辨率。过低的扫描分辨率往往会导致OCR识别率下降,过高的分辨率则会使图像文件过大,降低识别速度。在实际操作中,操作者可以通过查看OCR识别后生成的文本中红色错别字的数量(如小于3%)来判断可接受性,决定是否以此分辨率扫描,进行OCR识别。
二是尽量黑白二进制模式扫描。用扫描仪扫描文档时,OCR通常接受灰色或黑白二进制模式,不接受彩色模式。如果稿件的印刷质量好,可以采用灰色模式,否则应采用黑白二进制模式。扫描时,您可以手动调整黑白阈值的大小。
如果黑白二值图像上的文字轮廓不完整,适当增加阈值。如果文本的轮廓太粗,说明信息冗余较多,可以适当降低阈值。这样调整后形成的黑白二值扫描图像可以达到更好的OCR识别效果。第三,在进行OCR识别时注意字符的倾斜校正。OCR识别允许文档轻微倾斜,但过度倾斜会影响识别率。
校正方法是在扫描软件上点击倾斜校正按钮,识别软件会在OCR识别前自动校正图像。
四是稿件识别前的预处理。去除稿件中的杂物和图片,因为杂物会干扰文字识别,图片无法识别,会影响OCR的文字分割。针对稿件中的栏目,建议手动设置栏目区域,即用多个方框选择要识别的文字,然后进行OCR识别。
五是采取适当的识别方法。简体和繁体稿件混杂,中英文稿件识别率往往较低。如果简体和繁体中英文分块分布,可以用图像处理软件将不同的文本块编辑成文本块相似的文件,然后分别用OCR识别不同的字符。
(5)扫描注册认真填写纸质文件数字化转换流程交接登记表,登记扫描页数,核对每份文件实际扫描页数与归档时填写的文件页数是否一致。如不一致,应注明具体原因和处理方法。3.图像处理扫描完成后,获得的图像必须按要求进行技术处理,以纠正扫描文件与原始文件之间的偏差,使扫描文件更清晰、更规范。
图像处理一般包括以下内容:(1)影像数据质量检查检查图像的偏斜、清晰度和失真。如果发现不符合质量要求,应对图像进行重新处理。当扫描的图像文件不完整或因操作不当无法清晰识别时,应重新扫描;如有漏扫描文件,及时补扫描,正确插入图像;当发现扫描图像的排列顺序与原始文件不一致时,应及时调整。认真填写相关表格,记录质量检查结果和处理意见。
(2)整改应该校正偏转图像,以便在视觉上感觉不到偏转。方向不正确的图片要旋转还原,符合阅读习惯。
(3)去污影响图像质量的杂质,如黑点、黑线、黑框和黑边,应该去除。在处理过程中,应注意不要破坏文件的原始信息。
(4)图像拼接扫描不同区域的大幅面文件形成的多幅图像应拼接合并成一幅完整的图像,以保证文件数字图像的完整性。
(5)修剪彩色模式下扫描的图像应进行修剪,去除多余的白边,以有效减少图像文件的容量,节省存储空间。以上的整改、去污、修整等处理都可以根据肉眼手动完成。也可以使用专门设计的软件,预先进行一定的设置,然后由计算机自动处理。计算机处理当然效率高,但不如手工处理灵活。比如,一旦污渍的大小被设计得太小,电脑会自动把一些标点符号作为污渍去掉。因此,扫描图像的处理也需要采用手动和自动相结合的处理方式。
4.图像存储(1)存储格式以黑白二进制模式扫描的图像文件通常以TIFF(G4)格式存储。以灰色模式和彩色模式扫描的图像文件通常以JPEG格式存储。存储时压缩比的选择应以保证扫描图像易读性的前提下最小化存储容量为基础。提供网络查询的扫描图像,也可以存储为CEB,PDF或其他格式的文件。
(2)图像文件的命名数字档案资源应以档案号或唯一标识符命名。用档案号命名数字档案资源的,按卷排序的,应按《档案号编制规则》(DA/T 13-1994)编制档案号,建议增加档案类别码作为类别号的子项;若按件排序,案卷号可采用“全宗号-案卷类别码年份-保管期限-机构(问题)码-件号-分件号”的结构。
5.目录数据库建设(1)数据格式选择目录数据库建设应选择通用数据格式,所选数据格式应能通过XML文档直接或间接交换数据。这个数据库的建立可以通过专门的档案管理系统或者扫描处理管理软件录入,也可以通过EXCEL专门设计的档案目录表录入,然后将数据导入档案管理系统。
(2)档案描述根据《档案著录规则》(DA/T18-1999)的要求,建立档案目录数据库,录入档案目录数据。
(3)目录数据的质量检查为保证数据的准确性,可采用“单机录入-人工校对”或“双机录入-计算机自动校对”的方法。无论是人工校对还是计算机校对,都要检查描述项目是否齐全,描述内容是否规范准确,如发现不合格数据,应进行修改或重新记录。
6.数据挂钩(1)汇总挂钩档案数字化转换过程中形成的编目数据库和影像文件,经质量检查合格后,通过网络及时加载到数据服务器进行汇总。目录数据库和镜像文件要避免慢且容易出错的手动挂接,尽量批量使用电脑自动挂接。只要将扫描的数字文件按照纸质文件的文件号进行命名,就可以通过编制挂钩程序或借助相应的软件,实现相关数字图像的自动搜索和相应电子地址信息的添加,从而实现批量、快速挂钩。
(2)数据关联基于纸质文件目录数据库,从每个纸质文件扫描的一个或多个图像被存储为图像文件。将图像文件存储在相应的文件夹中时,需要仔细检查每个图像文件的名称是否与归档目录数据库中的文件号相同,图像文件的页数是否与归档目录数据库中的文件页数相同,图像文件的总数是否与归档目录数据库中的文件数相同。利用每个图像文件的文件名与该文件在归档目录数据库中的文件号建立一一对应的关系,为归档目录数据库与图像文件的自动批量连接提供了条件。
(3)交接登记认真填写纸质文件数字化转换过程交接登记表,记录数据关联后的页数,检查每次文件关联后的页数与文件整理扫描时填写的页数是否一致。如不一致,应注明具体原因和处理方法。
7.数据接受检查所有已经采样数字化的数据,包括目录数据库、图像文件和数据挂钩的整体质量。当目录数据库和图像文件链接出现错误,或者目录数据库和图像文件中有一个不完整、不清晰、有错误时,抽检将标记为“不合格”。
一个全宗文件,当数字转换质量抽检合格率达到95%以上(含95%)时,将被验收为“通过”。合格率=通过抽样检查的文件数/通过抽样检查的文件总数×100%。认真填写纸质档案数字化验收登记表。验收“通过”的结论必须经过审核签字才能生效。
8.数据备份完整、合格的数据应及时备份。为保证数据安全,备份载体的选择应多样化,可采用线上线下相结合的方式实现多套备份,并注意远程存储。还应该检查备份数据。备份数据的检查内容主要包括备份数据是否可以打开,数据信息是否完整,文件数量是否准确。数据备份后,应在相应的备份介质上做好标记,以便于查找和管理。填写纸质文件数字备份管理登记表。
9.数字结果管理应加强纸质档案数字化成果的管理,确保其安全性、完整性和长期可用性。提供纸质档案数字化成果在线检索利用时,应当有制作单位的电子标识,并根据具体情况采用可下载或不可下载的数据格式。
干货:档案数字化加工,核心7大步骤,档案管理人必备!
档案数字化具体流程:从档案的收集、扫描录入、整理、归档入库、利用、统计、编研、鉴定等过程实现全生命周期的自动化管理。
1、档案收集:按照档案形成的规律,把各企业单位分散的材料进行接收、征集、集中起来。
2、档案整理:根据不同需求,对收集起来的档案分类组成有序体系,规范化处理。
3、扫描录入:将有价值的档案进行分类扫描录入系统归档,采用中博奥档案管理系统,分类保管档案。
4、归档入库:根据国家档案分类要求标准,建立标准档案分类,进行归档。
5、档案利用:通过中博奥档案管理系统的借阅手续,是档案资料直接可以为各企业单位提供档案利用服务工作。
6、档案统计:运用中博奥统计技术和方法,通过表册和数字的形式描述和分析档案工作的各种现象、状态和趋势情况,可以了解和掌握档案工作总体情况。
7、档案鉴定:利用系统甄别档案文件的现实价值和历史价值以及年限,进行存毁的判断条件。
8、档案销毁:根据不同年限档案、不具有保存价值的档案,在系统上导出目录,将相对应的档案消除或销毁。
利用中博奥档案管理系统,一款专业的档案管理软件,中博奥功能涵盖档案收集、档案著录、档案查询、档案借阅、档案利用、档案统计、档案鉴定、档案销毁的全生命周期管理,适用于科技档案管理、人力资源信息管理、证照管理、客户资料管理、文件资料管理等等,同时还适用于自动化办公应用。基本上一个软件就能够满足一个企业当中,不同人员的办公需求。