廣東振越智能家具有限公司—主營:密集架,智能密集架,電動密集架,檔案密集架,是一家專注檔案裝具設備生產(chǎn)廠家。

index_06
ban

檔案密集架紙質檔案數(shù)字復制件光學字符識別(OCR)工作規(guī)范

文章出處:檔案庫房密集架廠家    人氣:    發(fā)表時間:2021-05-05 09:44:22

1 范圍

本標準規(guī)定了紙質檔案數(shù)字復制件光學字符識別(OCR)工作的組織、實施和管理。

本標準適用于字跡清晰、文本規(guī)范的紙質檔案數(shù)字復制件的光學字符識別(OCR)工作。

2 規(guī)范性引用文件

下列文件對于本文件的應用是必不可少的。凡是注日期的引用文件,僅注日期的版本適用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。

DA/T13 檔號編制規(guī)則

DA/T22 歸檔文件整理規(guī)則

DA/T31 紙質檔案數(shù)字化規(guī)范

3 術語和定義

下列術語和定義適用于本文件。

3.1

字符 character

供組織、控制或表示數(shù)據(jù)用的元素集合中的一個元素。

[GB18030—2005,定義4.1]

3.2

字符集 characterset

多個字符的集合。

注:常見字符集有 ASCII字符集、GB2312字符集、BIG5字符集、GB18030字符集、Unicode字符集等。

3.3

光學字符識別 opticalcharacterrecognition;OCR

通過信息技術對圖像文件中的字符形狀進行識別、文字轉換和文本輸出、呈現(xiàn)的過程。

3.4

紙質檔案數(shù)字復制件 digitalcopyofpaper-basedrecord紙質檔案經(jīng)過數(shù)字化加工過程后形成的,存儲在磁帶、磁盤、光盤等載體上并能被計算機等電子設備識別的數(shù)字圖像。

檔案庫房密集架圖

3.5 檔案 OCR成果 OCRoutcomeofrecord

記錄通過 OCR技術獲取的紙質檔案數(shù)字復制件文字內(nèi)容的文件。

3DA/T77—2019

3.6

識別準確率 recognitionaccuracy

通過OCR技術識別正確字符的比率。注:識別準確率=(識別正確字符數(shù)/應識別字符總數(shù))×100%

3.7

識別速度 recognitionspeed單位時間內(nèi)通過 OCR技術識別字符的數(shù)量。

4 總則

4.1 檔案 OCR應納入數(shù)字檔案館(室)資源建設范疇,統(tǒng)籌規(guī)劃、有序實施,逐步實現(xiàn)常態(tài)化。

4.2 檔案 OCR應科學開展,有利于實現(xiàn)檔案信息檢索和計算機輔助編目、編研開發(fā)、數(shù)據(jù)挖掘。

4.3 檔案 OCR應基于檔案數(shù)字化工作,檔案 OCR成果與紙質檔案數(shù)字復制件之間應建立準確、可靠的關聯(lián)關系。

4.4 應當釆取有效的管理和技術手段,加強檔案 OCR的過程管理和質量控制,確保檔案 OCR 過程規(guī)范、成果可靠、數(shù)據(jù)安全。

4.5 涉密紙質檔案數(shù)字復制件的 OCR工作,應符合涉密檔案相關的管理和技術要求。

5 工作組織

5.1 機構及人員

5.1.1 應建立檔案 OCR工作機構,配備相應素質和技術水平的工作人員,組織開展檔案 OCR 工作的統(tǒng)籌規(guī)劃、組織實施、協(xié)調管理、技術保障、安全保障、監(jiān)督檢查、成果驗收和長期保存等。檔案 OCR 可與紙質檔案數(shù)字化工作統(tǒng)籌配置工作機構和人員。

5.1.2 檔案 OCR工作實行服務外包的,應從企業(yè)性質、股東組成、安全保密、企業(yè)規(guī)模、注冊資金情況等方面嚴格審查檔案 OCR服務供方的相關資質;從規(guī)章制度的建立健全程度等方面考查服務供方的管理能力,建立權責明確、覆蓋工作全過程的監(jiān)督機制和安全防范機制,確保檔案信息安全。對外聘的工作人員,應進行安全審查,按規(guī)定進行保密教育。

5.2 流程控制

5.2.1 檔案 OCR流程包括圖像導入、圖像預處理、比對識別、修改校正、成果整理輸出五個業(yè)務環(huán)節(jié)。應依據(jù)相關技術標準,對檔案 OCR全過程進行有效控制。

5.2.2 應加強對檔案 OCR工作全流程的質量管理和安全管理,建立完善的質量、安全問題發(fā)現(xiàn)、修正機制,確保 OCR成果質量和檔案信息安全。

5.3 工作文件與元數(shù)據(jù)

5.3.1 應建立檔案 OCR工作方案、技術方案、工作審批材料、流程控制材料、數(shù)據(jù)驗收材料、項目驗收報告、成果移交材料等的管理工作文件,采取服務外包的還應包括項目招標文件、投標文件、中標通知書、項目合同、保密協(xié)議、操作規(guī)程、監(jiān)管記錄等,以加強對檔案 OCR工作的管理。

庫房密集架圖

5.3.2 應參照相關標準,提出檔案 OCR 工作流程中相關元數(shù)據(jù)設計、捕獲、著錄和管理的基本要求,與對應的紙質檔案數(shù)字復制件管理過程元數(shù)據(jù)實施融合管理,并納入數(shù)字檔案館(室)應用系統(tǒng)數(shù)據(jù)庫。

4DA/T77—2019

6 方案制定

6.1 確定工作策略

6.1.1

文 OCR工作開展前,應當依據(jù)紙質檔案數(shù)字復制件 OCR項目的計劃、合同、招投標書等有關項目件,對 OCR工作的識別處理系統(tǒng)、網(wǎng)絡系統(tǒng)、基礎設施、保障能力等方面進行業(yè)務評價。

6.1.2 評價通過后,應根據(jù)以下因素,制定檔案 OCR的工作策略:

———圖像資源:符合導入標準的可識別的彩色(24bits)、灰度(256階)和黑白二值圖像。一般應為TIFF、BMP、JPG、PDF(圖像)、OFD(圖像)格式文件。

———OCR引擎:對圖像包含文字進行高速度和高準確率識別的 OCR軟件開發(fā)包。

———OCR軟件:裝備 OCR引擎的軟件,可高速、準確輸出識別成果,支持人工比對和校正。應根據(jù)需要識別的目標,按照項目資源的成本風險平衡原則確定 OCR 的范圍、質量、效率、技術等要求。

———基礎設施:支持系統(tǒng)運行的場所、設施和設備,包括 OCR 設備及工作間、介質的場外存放場所、備用的機房及輔助設施等。

———專業(yè)技術支持能力:對系統(tǒng)的運轉提供支撐和綜合保障的能力,以實現(xiàn)系統(tǒng)的預期目標。包括硬件、系統(tǒng)軟件和應用軟件的問題分析和處理能力,網(wǎng)絡系統(tǒng)安全運行管理能力,溝通協(xié)調能力等。

———運行維護管理能力:保障系統(tǒng)相關的設備和軟件正常運行,提供長期、及時、全面的技術支持的能力。包括運行環(huán)境管理、系統(tǒng)管理、安全管理和變更管理等。

———災難恢復預案:對系統(tǒng)災難實行快速、有效的響應和恢復。包括災難緊急響應,災后系統(tǒng)重建及重續(xù)運行,通信、后勤、技術等相關保障機制建設。

6.2 制定技術方案

6.2.1 應當根據(jù)確定的檔案 OCR工作策略制定 OCR各工作系統(tǒng)技術方案,包含 OCR 的數(shù)據(jù)管理系統(tǒng)、OCR識別處理系統(tǒng)和網(wǎng)絡系統(tǒng)。技術方案中所涉及的系統(tǒng)應滿足如下條件:

———與檔案管理系統(tǒng)相當?shù)陌踩Wo級別;

———具有可擴展性;

———對檔案管理系統(tǒng)無明顯可用性和性能影響。

6.2.2 為確保技術方案滿足檔案 OCR 工作策略的要求,應對技術方案進行確認和驗證,并記錄和保存驗證及確認的成果。按照確認的 OCR軟件技術方案進行開發(fā),實現(xiàn)所要求的數(shù)據(jù)管理系統(tǒng)、OCR 識別處理系統(tǒng)和網(wǎng)絡系統(tǒng)。

6.2.3 應按照經(jīng)過確認的技術方案,制定 OCR 軟件各階段的系統(tǒng)安裝及測試計劃,以及支持不同關

鍵業(yè)務功能的系統(tǒng)安裝及測試計劃,并組織最終用戶共同進行測試。確認以下各項功能可正確實現(xiàn):

———對識別圖像進行預處理;

———數(shù)據(jù)識別及校驗;

———輸出檔案 OCR成果;

———數(shù)據(jù)安全管理。

密集架招標-振越集團
廣東振越智能家具有限公司
振 越 集 團振 越 智 造
源頭廠家一站式服務
辦公家具定點供應商
國家高新技術企業(yè)
中標率高達90%

添加微信聯(lián)系

138-2629-3157