小研非現場審計系統業務的ETL

才智咖 人氣:1.14W


  1.引言
  在商業銀行中,使用者對資料實時性的要求很高。在商業銀行的一些系統中,如非現場審計系統,使用者需要在很短的時間內對交易資料進行分析、統計,並把可疑資料上報,以儘量減少損失。這就要求系統所需資料必須在短時間內到達,但是這些系統的資料來源十分繁多。

小研非現場審計系統業務的ETL

審計系統中,審計人員需要的資訊很全面,既包括個貸業務、信貸業務、私金業務,還要包括國際業務、資金業務和中間業務等,這些業務都有各自的系統,其中有一部分資料還取自於核心系統。而且資料儲存在異構的環境中,比如它們使用不同的資料庫,不同的作業系統環境等等,如何在眾多系統中快速的提取資料和快速的形成一個系統所需的資料集市,這對我們是一個挑戰。

針對上述問題,本文提出了一個ETL模型。與其他商業銀行常用的模型相比,本模型基於業務設計和實現,具有高效的錯誤恢復機制,能夠利用基礎任務和業務任務的劃分,根據任務號單獨執行出錯的任務,而不用將整個ETL過程重新執行一遍,大大縮短了恢復錯誤的時間,從而可以更好地滿足客戶對於時間上的要求;與傳統成熟的商業ETL工具相比,基於業務的模型設計與實現,可以根據每天的審計目標去建立ETL任務,減少了工作量。同時,此模型部分實現直接採用程式碼,針對性更強,靈活性更好,可以處理商業銀行復雜系統中清洗和轉換任務,最重要的是可以減少商業工具一些不必要的執行步驟,縮短了時間。中國碩士論文網提供大量免費mba碩士論文,如有業務需求請諮詢網站客服人員!

2.審計系統的ETL
  目標ETL 過程的最終目標是在合理的時間內實現了高質量的審計系統資料集市,以供客戶審計業務資料。圍繞此目標,本文必須合理、靈活、高效的設計ETL 過程,才能滿足使用者的需求。在此過程中,存在以下幾個問題:

1.靈活的ETL 控制過程。
  因為本審計系統涉及的資料來源比較多,包括信貸系統、票據系統、核心系統等,根據客戶要求,有的業務資料可能需要每天更新,而有的業務資料可能需要每兩天更新一次。對於這種資料更新頻率不統一的要求,本論文需要設計靈活的ETL過程,可以實現針對單資料來源的操作。

2.統一安全的抽取平臺。
  由於資料來源的繁多,而且資料儲存在異構的環境中,比如它們使用不同的資料庫,不同的作業系統環境等。這就要求本文要實現一個統一的抽取平臺,以應對不同的資料承載平臺、資料來源和資料格式,同時要求在抽取構成中不能破壞源資料。

3.快速的處理過程。
  由於使用者要求資料的準實時性,要求在儘量短的時間內(比如兩個小時)便可以審計業務,所以本文還要解決如何快速在眾多資料來源中提取資料和快速的.形成一個系統所需的資料集市,這對本文是一個巨大的挑戰。

4.自動化的處理流程,可定製的服務。
  由於商業銀行的特殊性,要求資料抽取必須在午夜進行,所以本系統必須實現自動化的處理流程,儘量減少人工干預,降低服務成本。此外,還要實現客戶定製任務,包括時間和頻率等。

5.高質量的資料集市。
  同樣由於商業銀行業務的特殊性,審計系統的資料一定要高質量,只有高質量的資料作為保證,整個資料集市專案所提供的資料才能體現出高價值,這就要求本系統在ETL 過程中一定要建立合理的質量保證和錯誤恢復機制。

3.ETL 模型結構設計
  主要分為四個部分:控制檯、ODS、ETL過程和審計系統資料集市。

首先開發人員必須利用控制檯初始化任務,建立源資料和目標資料集市中的對映關係。

根據資料來源的不同,建立不同的任務型別,以供使用者選擇。然後使用者就可以利用控制檯管理任務了,包括初始化任務、任務排程、異常處理和記錄日誌等。

客戶啟動任務後,ETL過程會根據本次任務需要的資料資訊從相應的資料來源中抽取資料到ODS中。為什麼要先將資料抽取到ODS中,而不直接進行清洗,裝載到目標資料集市中呢?ODS是目標資料集市與外部源資料的介面,並且ODS在ETL中有著緩衝和保護的作用,在業務系統和資料集市之間形成一個隔離層,避免外部源資料直接向目標資料集市寫資料。