當前位置:法律諮詢服務網 - 企業資訊 - 檔案錄入工作規範

檔案錄入工作規範

紙質檔案數字化技術規範DA/T31-2005

1 範圍

本標準規定了紙質檔案數字化的主要技術要求。

本標準適用於用掃描儀對各種紙質檔案的數字化加工處理。

2 規範性引用文件

下列文件中的條款通過本標準的引用而成為本標準的條款。凡是註日期的引用文件,其隨後所有的修改單(不包括勘誤的內容)或修訂版均不適用於本標準,然而,鼓勵根據本標準達成協議的各方研究是否可使用這些文件的最新版本。凡是不註日期的引用文件,其最新版本適用於本標準。

GB/T 17235.1 連續色調靜態圖像的數字壓縮編碼

GB/T 17235.2 連續色調靜態圖像的數字壓縮編碼

GB/T 18894?2002 電子文件歸檔與管理規範

ITU(CCITT)G3 二值圖像壓縮算法

ITU(CCITT)G4 二值圖像壓縮算法

DA/T18?1999 檔案著錄規則

檔案管理軟件功能要求暫行規定國家檔案局檔發[2001]6號

3 術語和定義

下列術語和定義適用於本標準。

3.1

數字化 Digitization

用計算機技術將模擬圖像轉換為數字圖像的處理過程。

3.2

紙質檔案數字 化Digitization of Paper?Based Records

對普通(黑色字跡清晰)的油印、鉛印、膠印等印刷件或復印件紙質檔案進行數字化及應用的過程。

3.3

數字圖像 Digital Image

表示景物圖像的整數陣列。壹個二維或更高維的采樣並量化的函數,由相同維數的連續圖像產生。在矩陣(或其他)網絡上采樣壹連續函數,並在采樣點上將值最小化後的陣列。

3.4

黑白二值圖像 Binary Image

只有黑白兩級灰度的數字圖像。它對應於黑和白的兩種狀態文字稿、線條圖、指紋圖等。

3.5

連續色調靜態圖像 Continuous?tone Still Image

以多於兩級灰度的不同濃淡層次或以不同顏色通道組合成的靜態數字

圖像。

3.6

失真度 Distortion Measure

對檔案原件進行數字化轉換後,在同等測試環境下,數字圖像與檔案原

件色彩、幾何、壓縮算法等差值。

3.7

可懂度 intelligibility

表示數字圖像向人或機器提供信息的能力。

3.8

清除圖像冗余或對圖像近似的任壹種過程,其目的是對圖像以更緊湊的形式表現。

3. 9

分辨率 Resolution

指單位長度內圖像包含的點數或像素數。

3.10

TIFF Tagged Tmage File Format

標記圖像文件格式。壹種基於標記的無損(不丟失信息)壓縮格式,用於在應用程序之間和計算機平臺之間交換文件。因為它存儲圖像細微層次的信息非常多,圖像的質量也得以提高,故而非常有利於原件為黑白檔案的復制儲存。

3.11

JPEG Joint photographic Experts Group

聯合照片專家組。壹種丟失少量信息的壓縮格式,尤其適用於屏幕和打印顯示,支持所有主要計算機平臺和Web瀏覽器。JPEG格式文件小,影像質量多數情況下均可接受。考慮儲存空間及傳輸效率,原件為彩色的檔案可遷此格式復制儲存。

4 數字化基本流程

紙質檔案數字化的基本流程主要包括案卷整理、目錄建庫、批量掃描、數據處理、信息存儲、檢索利用等工序。

4.1 案卷整理

對需要掃描的案卷進行適當整理,做出標識。

4.2 目錄建庫

為數字化的檔案檢索而建立必要的目錄數據庫。

4.3 批量掃描

按照檔案數字化具體任務的整體安排按計劃分批次進行掃描。

4.4 數據處理

4.4.1 對掃描圖像進行校對,確保圖像完整無誤,並視需要對有問題的掃描圖像進行糾偏、去汙、拼接等技術處理。

4.4.2 對裸數據進行驗收前的相應處理,包括文件的格式轉換、邏輯分盤處理、添加說明性文件,以及數據的掛接、檢驗、上載、質量檢查和備份。

4.5 信息存儲

根據不同的掃描圖像選擇適當數據格式、編碼方式和存儲介質對信息進行保存。

4.6 檢索利用

按用戶需求提供檢索利用。

5 案卷整理

在批量掃描之前,按下述步驟對案卷進行整理,確保檔案數字化質量。

5.1 分件

5.1.1 把同壹案卷中的掃描件和非掃描件分開。

5.1.2 在掃描件中將大圖、照片插入指示頁,便於掃描工序批量掃描,實際圖像放在圖像處理時進行重掃,替換指示頁。

5.1.3 填寫《數據加工過程處理單》(見附錄A),對需要特殊處理的頁,標識清楚。

5.2 分頁

對批量掃描前的檔案進行頁號、件號的標註。如在標註中與原檔案中的件數、頁號不壹致,應以此為準。

5.3 拆卷

去除檔案中原來的裝訂物,以便後續掃描工作的進行。

5.4 裝卷

按檔案保管要求恢復原裝訂。

6 建目錄庫

6.1 目錄著錄

根據DA/T18確定檔案著錄項,並進行著錄。

6.2 數據格式選擇

所選定的數據格式通用,應能直接或間接與DBF文件格式或通過XML文

檔進行數據交換。

6.3 目錄輸入

將著錄好的目錄輸入計算機內,建立機讀目錄數據庫。

7 批量掃描

7.1 掃描方式

紙質檔案掃描可采用黑白二值圖像和連續色調圖像兩種方式。

7.1.1 頁面為單色文字的紙質檔案,宜采用黑白二值圖像掃描;頁面為多色文字圖像的檔案文件,可采用連續色調圖像掃描。

7.1.2 字跡清晰、不帶圖片的檔案材料,采用黑白二值圖像掃描;清晰度較差或帶有圖片的檔案材料,可采用連續色調圖像掃描。

7.2 分辨率選擇

7.2.1 單色頁面檔案文件,掃描分辨率壹般建議選擇100~200dpi。

7.2.2 彩色頁面檔案文件,掃描分辨率可選擇100dpi以上參數值進行。

7.2.3 大幅面檔案文件,如工程圖紙、報紙等尺寸超過A3的,可選用大幅面圖像掃描儀(如A0)、大幅面數碼平臺、縮微照像後膠片數字轉換,也可以采用小幅面掃描後的圖像拼接。掃描分辨率應選擇1OOdpi以上。

7.2.4 需要時可根據原件的清晰度適當調整掃描分辨率。如原件質量較差且尺寸較小,可適當提高分辨率;反之也可相應減少分辨率,增減的多少以掃描後圖像按原尺寸顯示後是否清晰為準。

7.3 特殊頁面的掃描

7.3.1 粘貼頁與表格

對於粘貼折頁,可用大幅面掃描儀掃描,或先分部掃描後拼接;對部分字體很小、字跡密集的情況,可適當提高掃描分辨率,選擇灰度掃描或彩色掃描,采用局部深化技術解決;對字跡與表格顏色深度不同的,采用局部淡化技術解決

7.3.2 壹般文本流程圖

采用適當的分辨率掃描及局部深化技術,確保文本流程圖清晰。同時采用不同設備滿足文本流程圖的掃描工作。

7.3.3 插圖

采用高分辨率灰度或彩色掃描技術將插圖與文字壹起掃描,保證原來的頁面布局和插圖清晰。

7.3. 4照片

對於頁面中有黑白或彩色照片的文件,采用JPEG格式掃描,確保照片清晰度,同時可避免圖像存儲空間過大。

7.4 文件命名方式

7.4.1 建立文件夾

掃描時文件夾的建立應按檔案實體分級建立,其中的每壹份文件也需要單獨建立文件夾。

7.4.2 文件夾命名方法,以檔案實體中的檔號命名,壹般為3位數,不足3

位數的左邊補“0”。

8 數據處理

8.1 圖像處理

8.1.1 糾偏

  對掃描過程中出現的偏斜圖像進行整體糾正,保證數字圖像的偏斜角度小於1度。(圖像偏斜不超過頁面內半個文字)。

8.1.2 去汙

  去除數字圖像中影響可懂度的雜質。檔案數字化圖像的去汙,應遵循在不影響可懂度的前提下展現原貌的原則。

8.1.2.1 局部去汙,如去除黑邊、汙點。

8.1.2.2 整體去汙,可壹次性去除頁面上的汙漬。

8.1.3 拼接

  為保證檔案數字化圖像的整體性,對幅面分離的數字圖像進行拼接。

8.1.4 校對

8.1.4.1 壹次校對,檢查掃描完的圖像質量情況,對不合格的圖像進行標記退回重新掃描。

8.1.4.2 糾錯處理,根據壹次校對中提出的諸如汙漬、黑邊、偏斜、圖像質

量等問題,結合《數據加工過程處理單》(見附錄A)情況,對每份圖像進行相應的處理。

8.1.4.3 二次校對,對壹次校對及數據處理後的數字圖像再次進行檢查,並

標記圖像處理過程中不清晰的頁面。不合格的退回重新處理。

8.2 數據質量檢查

8.2.1 文字錄入質量

  對錄入域清單上所標明的各著錄項的文字錄入進行正確率控制,保證錯誤率低於3‰。

8.2.2 圖像質量

  對紙質文件掃描後形成的圖像文件進行清晰度、汙漬、黑邊、偏斜等問題的控制,以達到要求的圖像質量。

保證掃描後的數字圖像清晰,便於清楚閱讀,適應各種紙張和手寫、印刷字的情況。

8.3 數據掛接

檔案條目數據與圖像文件的對應準確程度的控制。

在生成裸數據光盤之前,根據資料整理信息、掃描前的標引信息及卷內文件頁號信息核查圖像文件總數是否與實際文件數相等,如不相等則不能生成裸數據光盤,可打印出清單,回退給圖像處理人員補掃。

8.4 數據檢驗

8.4.1 將裸數據進行驗收前的相應處理,包括文件的格式轉換、邏輯分盤處理、添加說明性文件。

8.4.2 對數據進行檢驗,給出合格或不合格結論。

8.4.3 將數字加工後的數據轉換為裸數據光盤格式,拷貝到活動硬盤上。

8.4.4 系統應自動記錄檢驗進度。

8.5 數據上載

檔案數字化各工序的數據通過網絡及時上載到數據服務器端匯總,其中數字圖像自動搜索對應的目錄數據,加入對應的電子地址數字圖像文件名,建立起壹壹對應的關系。

8.6 數據備份

定期對服務器的各類數據進行備份,防止數據丟失。

9 信息存儲

以JPEG數字壓縮編碼或TIFF國際通用標準格式。采用國際標準的傳真文檔壓縮格式壓縮後,分別按頁編號後分頁存儲。

數字圖像的存儲管理應保持原紙質檔案的保管模式對應存儲。

9.1 壓縮存儲格式

  檔案數字圖像格式采用TIFF和JPEG數字壓縮編碼。

9.1.1 黑白二值圖像

黑白二值掃描圖像文件采用TIFF(CCITT G3)格式二值圖像壓縮算法,壓縮率就緒(Cr)為15:1。也可采用TIFF(CCIFF G4)格式二值圖像壓縮算法,壓縮率(Cr)為3 O:1。

9.1.2 連續色調靜態圖像

  連續色調靜態圖像采用JPEG數字壓縮編碼,平均壓縮率(cr)為15:1。

9.2 編碼方式

  應盡是采用實時操作性強的編碼方式。失真度編碼,用較少的比特率獲得較好的圖像質量;無失真編碼,以低壓縮保持信息的不失真。壹般情況下

宜采用國際通用編解碼算法。

9.3 存儲方式與載體

 可選用在線和離線、不同載體進行存儲。

10 檢索利用

10.1 檢索利用方式

檔案數字圖像檢索利用可采用單機、局域網和互聯網三種方式。

局域網中傳輸利用,應保證數據在內部局域網10Base?T帶寬下,平均1秒內顯示響應完成。互聯網中傳輸利用,互聯網56Kbit/s帶寬下,平均5秒內顯示響應完成。為此要求壹般每頁檔案數字圖像的存儲容量為50K以內。

10.2 檢索軟件配置

檢索軟件應符合國家檔案局制定的《檔案管理軟件功能要求暫行規定》的各項要求。檢索軟件應具備目錄檢索與檔案數字圖像方便調閱的基本功能。

  • 上一篇:那個女孩的名字旁邊有水的字。
  • 下一篇:山東省委.省府 03年25號文
  • copyright 2024法律諮詢服務網