對孤立點分析方法在現代審計中的運用技巧分析經濟論文

才智咖 人氣:1.87W

一、引言

對孤立點分析方法在現代審計中的運用技巧分析經濟論文

隨著計算機資訊技術的迅猛發展,大型企業和資訊型產業大多都正在使用供應鏈管理(Supply Chain Management,SCM)系統或企業資源計劃(EnterpriseResource

Planiling,ERP)系統或客戶關係管理(Customer RelationshipManagement,CRM)系統或財務管理(Financial Management)系統等,使企業的管理制度更加完善,同時企業所有運營環節都充斥著資訊資源(包含各個部門大量財務資料和經營管理資料的資料倉庫)。審計人員從被審計單位的資訊系統資料倉庫中獲取大量審計資料,面對被審計單位海量資料中蘊含著極其豐富資訊的挑戰,僅僅依靠只是將傳統手工的審計流程計算機化的資訊科技,如結構化查詢語言(SQL)等,很難滿足資訊時代審計的需求。

計算機輔助審計技術的不斷髮展,資料探勘技術為被審計單位在面對海量資料時提供了新的思路,在審計工作中引入對海量資料進行“輕鬆處理”的資料探勘技術(如決策樹演算法、聚類演算法、關聯規則發現演算法等),是對計算機審計方法的補充,“減弱”傳統審計方法的限制條件,為現代審計開拓了便捷的路徑。可以說是現代計算機審計方法一個里程碑式的突破,也是計算機審計方法探索的悄然趨勢。審計人員在面對存在著複雜的審計環境和海量的財務資料時,若利用資料探勘技術,可以在短時間內發現異常資料(因它在發現審計線索特徵方面可以發揮其特有的功能),有助於對被審計單位進行系統全面的審計,把風險儘可能降低,進而拓寬審計領域。

本文基於資料探勘技術中的孤立點分析方法來發現一些異常的審計現象,孤立點分析方法先對這些大量的審計資料進行預處理(除噪),然後建立資料探勘模型,運用此模型分析出具有一定特徵且小比例的異常資料,供審計人員決策分析時參考。

二、孤立點分析方法

孤立點分析是資料探勘技術中用來檢測審計資料中異常資料的一項重要技術。由於審計分析中的疑點資料往往表現為孤立點,通常情況下,在對被審計資料進行分析時,常常選擇孤立點分析技術。

(一)孤立點

孤立點是資料集中與眾不同的資料,使人懷疑這些資料並非隨機偏差,而是產生於完全不同的機制。在聚類分析中,有的資料物件不屬於任何的類或簇,這樣的資料物件在聚類中稱為噪聲,而在孤立點分析中,則稱為孤立點。孤立點是個相對的定義,特別地,在審計領域,審計資料初始分佈模型假設的不同,或研究者在不同的檢測背景下,都會得出不同的結論。

鑑於很多人為或非人為的原因都會導致孤立點的產生,如人為執行錯誤或人為故意操縱資料為達到某種目的而致使孤立點的產生,再如儀器測量錯誤、系統故障、資料總體中的自然偏差或固有的資料變異都會導致孤立點的產生,我們要對孤立點產生的原因進行全面分析。但最重要的是,審計人員要對這些孤立點保持敏感性,並分析出孤立點背後產生的深層次原因,來獲取有價值的審計資訊。

(二)孤立點分析方法

1.孤立點分析方法的概念

孤立點分析方法可簡述為:給定一個有n個數據點或物件的集合及預期的孤立點數目k,發現與剩餘的資料相比是顯著異常的、孤立的、或不一致的前k個物件的過程。因此,孤立點分析實際上可以被看作兩個子問題:

(1)在給定的資料集合中定義什麼樣的資料是不一致的;

(2)找到一個有效的方法來檢測這樣的不一致資料。

2.孤立點分析方法介紹

(1)基於統計的方法

當資料集的概率分佈及引數(如常態分佈、泊松分佈等,均值、方差)已知或需經多次驗證並試圖得出資料真實的概率分佈或引數特徵時,一般使用基於統計的方法。此方法尤其用於數值型資料。孤立點的確定主要是通過檢驗偏離統計模型的不一致資料,並統計出其個數,分析其性態。

(2)基於距離的方法

Knorr和Ng提出了一種體現孤立點本質的定義,即若一個數據物件與資料域中大多數物件之間的距離(相異度)都大於某個閾值,將此資料物件確認為一個孤立點。閾值的設定是在對被審計資料清洗,並檢驗其有效性之後,據審計資料所屬行業的特點,將行業常規值預先設定為閾值,或經公式計算得出閾值。此方法有效的避免了基於統計方法中資料分佈特徵確定的問題。

(3)基於偏離的方法

基於偏離的孤立點挖掘是通過檢查一組物件的主要特徵來確定孤立點。與給出的描述“偏離”的物件被認為是孤立點。此孤立點挖掘有兩種常用的技術:第一種序列異常技術,是一種基於相異度函式(往往是審計資料集的總方差)的有效方法,預先定義樣本集的一般特徵,其餘“偏離”這些特徵的樣本屬於異常樣本。第二種OLAP資料立方體技術,在審計時,對那些標為異常的單元下鑽,可能會發現更細節或較低層次的異常。

(4)基於密度的方法

Breuning等人基於密度聚類思想的啟發,於2000年提出了一種基於區域性密度來檢測孤立點的新方法,通過該資料物件周圍區域的區域性密度,與它鄰近的區域性密度之比來確定該物件的區域性孤立點因子(Locai OutlierFactor,LOF),LOF的值越大說明該物件越可能是孤立點,需引起審計人員多加註意。該方法對發現區域性孤立點有很好的效果。

(5)基於距離和密度的聚類和孤立點檢測方法

基於距離和密度的聚類和孤立點檢測演算法(Distance & Density Based Clusteringand Outlier Detection algorithm,簡稱DDBCOB),是將基於距離和密度這兩種方法融合來確定聚類和孤立點。經過反覆驗證,證明融合了兩者優點的DDBCOB演算法可以對任意形狀的聚類進行識別,可以有效地識別出高維資料中的孤立點。

(6)基於人工神經網路模型的孤立點

Williams等提出的人工神經網路孤立點檢測演算法(Repntor Neural Networks,RNN),資料來源往往使用通用統計資料集(一般較小)和專用資料探勘資料集(較大,並且是現實的資料集),RNN演算法對大的或小的資料集的孤立點檢測結果都達到了預期效果,但它不適於檢測含有放射狀的孤立點資料集。

孤立點分析技術在審計中的具體應用在兩方面:一是審計資料預處理過程中,審計人員對審計資料清理和檢測之後,通過規則集中預定義的孤立點識別規則,來識別此類資料是否為孤立點。二是異常檢測(即讓經驗豐富的審計人員判別孤立點是否可疑)。

審計人員在進行審計時,對可用的原始資料進行採集、清洗以及驗證,使之達到建模的需求,然而最關鍵的一步是在明確了挖掘任務之後,據資料的型別和特徵,尋找與之相適應的孤立點演算法,則審計人員選取以上介紹的孤立點分析方法的一種或幾種的組合,來滿足客戶對尋求異常資料的審計需求。

三、孤立點分析方法在審計運用中的一般流程

圖1是孤立點分析方法在審計中運用的一般流程,具體流程如下:

①審計人員提出需求,此需求往往是據審計人員的經驗和敏銳的洞察力識別出被審計單位財務資料或經營業務有些異常,需找出資料或業務中的噪點(孤立點),資料探勘人員通過和審計人員的溝通來加深對審計需求的理解。在此進行的理解具體有業務理解和資料理解,其中業務理解包括據需求確定審計專案目標、評估審計目標的資源和審計人員的假設、確定資料探勘目標、生成專案計劃,資料理解包括對被審計單位的資訊系統和業務流程進行理解、採集原始資料並分析、初步檢測資料質量、探索資料變數。

②資料探勘人員在理解需求的前提下檢驗此需求能否用孤立點分析方法解決。一般情況下都是可以採用孤立點分析方法來分析疑點資料的,首先對孤立點檢測演算法的引數和孤立點識別規則進行預定義,然後呼叫資料清理演算法對被審計資料進行清理,來提高定位孤立點的精準度。

③資料探勘人員提出挖掘模型,並向審計人員詳細的介紹此模型的功能和作用,進而他們可以對模型的演算法細節進行商討並加以確認,最後對資料探勘模型進行試用;

④審計人員在理解挖掘模型的基礎上,對模型所產生的挖掘結果進行評價。

⑤審計人員對所試用的資料探勘模型得出的結果進行評價時,若此資料探勘模型不符合審計需求,此時,要對模型以及模型的輸入引數值等進行反覆的修正和完善,即不斷除錯模型的輸入引數值,不斷完善模型來迎合審計需求。

⑥若資料探勘結果是異常並且是重要的',則符合審計需求。

⑦若資料探勘結果是異常但是合理的(若由於固有資料變異性引起的結果等),或異常但影響較小,達不到重要性水平,此時審計人員對原來假設審計資料有異常的情況不予處理。此重要性水平,主要依據審計人員的職業判斷和對審計專案的瞭解情況等。

另外,在建立資料探勘模型初期,審計人員對審計資料的理解與把握程度,審計人員提出的需求與孤立點演算法的融合程度,這兩個方面的因素對資料探勘模型的建立起著決定性的作用。因此,審計人員和資料探勘人員對審計需求的理解、孤立點分析演算法及資料探勘模型的確定、演算法與審計需求的融合,這些過程將是一個不斷反饋、不斷論證的過程,以確保最終形成針對性強、實時的、最優的挖掘模型及方案。

綜上所述,建立資料探勘模型是一個與或的過程,需要進行不斷的論證,通過分析提出的不同特徵的資料或目標,來確定最佳孤立點分析的演算法,從而達到審計的目的。當然,最佳演算法只是相對的,只是符合當前挖掘出的資料、目標及審計環境。對於實時的使用者需求及實際的審計目標,作為審計人員要深刻理解各類演算法的相似點和相異[文祕站-您的專屬祕書,中國最強免費!]點,集各類演算法之所長,合理的組合或改進,形成符合審計需求的孤立點分析演算法。可以說,在資料探勘過程,人的因素是最重要的,在演算法選擇和模型建立時都需要人的參與,同時需要具備紮實的專業技能和經驗豐富的審計人員和資料探勘人員,需要他們時時溝通和配合。對於挖掘得出的結果,審計人員還需結合自己對審計專案的瞭解程度,並證實先前的孤立點假設,尋找出疑點,並分析出現這些異常現象的原因,給客戶一個滿意的、可以正常使用的資料探勘模型。對於挖掘結果可能是審計問題線索證據的,需要審計人員進一步追蹤、查閱相關資料進行延伸調查,對新的疑點運用恰當的孤立點演算法進行深入挖掘,探尋異常問題的本質。

四、總結

資料探勘技術,已從研究階段逐步走向了實際應用階段。資料探勘技術中有可能用於審計的技術可以和孤立點分析方法結合起來使用,可能會達到較好的效果,可能用於審計中的技術如統計分析技術,常運用在資訊系統開發審計階段,它可發現偏差資料,即對審計資料分析得出的預測值和預定義的審計值進行比較,易於發現異常審計資料,獲得審計線索,又如聚類分析技術可確定審計重點,在審計過程中,通過聚類分析技術對被審計單位的同類型的財務資料或業務資料進行分類,使其成為有相似特性的聚類,進而發現審計中需要重點關注的異常區域特徵。並且藉助該技術對計算機日誌的審查,可對系統安全執行起到重要保護作用;再如關聯分析技術,用於發現大量資料集合間隱藏的有意義的關聯,常運用在財務和業務資料審計中,挖掘出財務報表資料屬性間可能的相互影響,減小審計工作量,併為後續審計活動提供參考和支援。資料探勘的主要目的是向管理者提供分析決策上的支援,能夠幫助管理人員在較短的時間從大量的資料中篩選出具有代表性、規律性的資料樣本,從而為精確分析、判斷、決策提供有力的資料支撐。但是,審計工作中不僅僅需要通過資料探勘來尋找規律性、代表性的資料,同時對異常的、典型的資料有為關注。資料探勘中孤立點分析方法主要用於發現隱藏大量正常資料下的少量異常資料。對於大多數的被審計單位,是可以嘗試使用孤立點分析技術,檢測出一些特殊的、反常的資料,發現審計線索,驗證是否存在舞弊、違背規律和規定,可有效提高了審計效率,降低審計風險,符合成本效益原則