高校財務樣本資料庫研究論文

才智咖人氣：1.61W

摘要：研究了大資料演算法在高校財務資料分析中的應用，提出了基於水庫抽樣演算法建立樣本資料庫的方法，結果表明：基於水庫抽樣演算法建立樣本資料庫，能夠大幅縮短建立時間、系統開銷小、且建立完成後其內部資料具有良好的均勻特性，可有效解決傳統高校財務管理中基礎資料樣本生成時間長、開銷大、分佈不均勻的缺點，提高了財務基礎資料分析質量，推動了高校財務管理工作的發展。

關鍵詞：大資料；高校財務；資料分析

大資料對高校財務管理的影響比較廣泛而深遠，它將有利於高校的資源配置，強化高校全面預算管理，加強成本核算意識，同時提高資金使用效益，防範財務風險，使高校側重預算編制和結果分析的財務管理向業務全過程的財務管理轉變，實現高校財務管理新變革。大資料為高校財務管理帶來變革的關鍵特性之一是其預測性作用，傳統財務利用財務報表和人為經驗為高校財務管理者提供決策依據，隨著海量資料的產生，此種方式已不能在合理的時間範圍內產生合理性的判斷依據，遠不能達到目前高校財務管理精細化要求，更偏離資訊化時代所強調的資訊支援決策的發展方向。從目前高校財務管理實際來看，基礎資料的分析是關鍵，而資料更新及時、均勻特性好的樣本資料庫是進行分析的前提條件。但由於受到高校財務資料多等因素限制，傳統財務的線性掃描處理方法無法對基礎資料進行快速均勻的抽取處理，導致了高校財務資料分析工作上的困難，不利於高校財務管理工作的開展。應用大資料對資料進行全面分析，遵循的是每件事情都有跡可循，找到事物變化的規律，能夠更好地對高校資源籌劃、資本運營、資產管理以及當前辦學和長期的規劃進行預測，把握高校發展方向，使教育產出能更好地適應市場需求，合理配置資源，提高經濟與社會效益，實現高校跨越式可持續發展。大資料技術的出現，為高校財務資料分析工作提供了新的技術手段，文中將大資料演算法與高校財務資料分析進行結合與應用，在保證速度的前提下，建立具有良好均勻特性的樣本資料庫。

１樣本資料庫

１１資料庫構架

資料探勘與分析是大資料在教育領域中的應用之一，其主要作用是進行預測分析、行為分析、學業分析等的應用和研究。其中財務資料分析能夠為學生心理健康、獎優助評、貧困生關懷、個性化就業等領域提供資料參考。為了實現資料的有效收集，應建立財務基礎資料樣本資料庫，為下一步資料分析提供有力支援，其總體架構為：傳統財務通常利用線性掃描與隨機選取的方法進行樣本資料抽取，抽取過程中需要將所有資料載入進記憶體或快取，同時在索引遞增的同時利用隨機函式生成索引用於確定抽取元素。資料載入和隨機索引生成帶來了大量的系統開銷，同時如果隨機演算法的選擇並不優秀，還會導致樣本的重複概率增加。為解決上述問題，文中利用水庫抽樣演算法作為樣本資料抽取的基礎演算法，該演算法打破了傳統財務線性的時間處理侷限，在未損失精度的前提下，提供傳統財務所不能提供的海量資料樣本生成能力。樣本資料庫除了資料抽取功能之外，還要求具有資料的統計分類和序列化功能。對樣本資料進行統計分類可以實現按類別和權重的樣本抽取，從而豐富大資料分析的手段。同時通過對樣本資料進行統計分類，還能解決基礎資料的序列化問題。序列化通過為分類資料新增指定索引，可以大大提升資料的檢索速度和準確性。所以，做好樣本資料的統計分類，並按照財務管理資訊類別對基礎資料進行合理的序列化對資料處理是十分必要的。對樣本資料進行分類和序列化之後，可對每一類資料進行必要的統計，總結樣本資料特點，把握樣本資料處理原則，提高樣本資料的處理質量。

１２資料庫資料樣本處理流程

２資料庫抽樣演算法及其改進

２１資料庫線性抽樣演算法

在儘可能快的時間內，對基礎資料庫中的學生進行盡力均勻抽取，形成樣本用於資料分析。盡力均勻抽取意味著盡力保證每個學生被抽為樣本的概率是相同的。輸入：基礎資料庫中的`學生資料。輸出：這組資料的ｋ個均勻取樣。

２２水庫抽樣演算法定義

針對應用情景，可以利用水庫抽樣演算法進行樣本抽取，該演算法的特徵為：１）抽取時限要求較高，且資料只掃描一次。２）利用計算機資源有限，只為使用者想要獲取的ｋ個取樣分配記憶體空間用於計算。３）掃描前ｎ個數據時，已儲存的ｋ個取樣是均勻抽取的，隨著ｎ的增長，ｋ個取樣的隨機性一直不變。演算法定義為：１）申請一個長度為ｋ的陣列Ａ儲存抽樣。２）儲存首先接收到的ｋ個元素。３）當接收到第ｉ個新元素ｔ時，以ｋ／ｉ的概率隨機替換Ａ中元素。

２３改進演算法均勻性證明

該演算法的取樣是均勻的，在任何時候接收到大於ｋ的ｎ個數時，選出的ｋ個數一定是已掃描資料中的均勻抽取：當接收到第ｉ＋１個數時，第ｉ個數能儲存在陣列中的概率為１－１ｉ＋()１，因為在接收到第ｉ＋１個數的時候要以ｋｉ＋()１的概率隨機替換。而第ｉ個數被選中的概率是１ｋ，他們相乘為１ｉ＋１，１ｉ＋１就是第ｉ個數被換出陣列的概率。所以１－１ｉ＋()１就是在接收ｉ＋１個元素時，第ｉ個數在陣列中的概率。同理在接收第ｉ＋２個數時，第ｉ個數仍然儲存在陣列中的概率為１－１ｉ＋()２，以此類推，接收第ｎ個數時，第ｉ個元素仍儲存在陣列中的概率為１－１()ｎ，如果上述事件都發生，那麼在接收第ｎ個數時，第ｉ個數才能儲存在陣列中，因此它保留在抽樣陣列中的概率是這些時間發生概率的積，就是ｋ()ｉ×１－１ｉ＋()１×１－１ｉ＋()２×…×１－１()ｎ＝ｋｎ。

２４演算法實現

演算法實現的虛擬碼為：初始化：Ａ［ｋ］←；處理ｊ：ｆｏｒｅａｃｈｉ≠ＥＯＦｄｏｉｆｉ＜ｋｔｈｅｎＡ［ｉ］←ｖａｌｕｅ（ｉ）ｅｌｓｅｊ＝ｒａｎｄｏｍ（１，ｉ）ｉｆｊ≤ｋＡ［ｊ］←ｖａｌｕｅ（ｉ）ｉ←ｉ＋１

３實證結果分析

財務流程中，對於業務資料的時效性有較高要求，處理演算法的優劣直接影響執行演算法主機的系統開銷，從而影響整個財務流程的運轉速度。為對比傳統線性掃描演算法和水庫抽樣演算法的系統開銷，對兩種演算法進行了程式實現，設定樣本規模為３０００並進行了樣本抽取，２種抽取演算法帶來的系統開銷對比如圖（３）所示，可見傳統線性掃描隨資料量級的上升系統開銷不斷增大，而水庫抽樣則穩定在樣本規模時的臨界值。傳統的利用隨機數確定抽樣元素，隨機函式利用時間等作為種子產生隨機數，雖保證了隨機性，但不能保證樣本抽取的均勻特性，而水庫抽樣彌補了傳統方法的這個缺陷，圖（４）展示了部分抽樣結果。

４結語

大資料環境中，高校財務資料的數量級不斷提升，因此基礎資料的分析成為難點。而樣本資料庫作為基礎資料分析的必要支撐，其建立生成尤為重要。通過本文的分析可知，大資料技術的出現，給了均勻、快速的樣本生成以新的手段支援，為在允許的時間與精度範圍內的分析提供了依據。本文提供了基礎資料樣本資料庫的建立思路，在樣本資料庫的基礎上利用水庫抽樣演算法進行抽樣，作者對上述思路進行了程式實現並提供了試驗結果。該應用手段解決了高校財務管理中基礎資料樣本來源困難，提高了財務基礎資料分析質量，豐富了高校財務分析工作手段。

參考文獻：

［１］韓丹丹。大資料時代下高校財務管理如何做好基礎資料的分析［Ｊ］。財務管理，２０１５（１８）：８２。

［２］黎羊。基於高校財務管理問題的調查與對策研究［Ｄ］。長春：吉林大學，２０１４：１０－２０。

［３］薛硯丹。基於決策樹演算法的高校財務管理與決策分析研究［Ｄ］。銀川：寧夏大學，２０１５：４－１１。

［４］王巨集志。大資料演算法［Ｍ］。北京：機械工業出版社，２０１５：２９－５７。

［５］王元卓，靳小龍，程學旗。網路大資料：現狀與展望［Ｊ］。計算機學報，２０１３（６）：１１２６－１１３８。

［６］孫大為，張廣豔，鄭緯民。大資料流式計算：關鍵技術及系統例項［Ｊ］。軟體學報，２０１４，２５（４）：８３９－８６２。

［７］楊靜，張楠男，李建，等。決策樹演算法的研究與應用［Ｊ］。計算機技術與發展，２０１０（２０）：１１５。

［８］陳東。淺談高校財務決策支援系統及其構建［Ｊ］。財會通訊：綜合（上），２０１１（６）：１２６－１２７。

［９］ＥＬＮＩＫＥＴＹＥ，ＥＬＳＡＹＥＤＴ，ＲＡＭＡＤＡＮＨＥ。ｉＨａｄｏｏｐ：ａｓｙｎｃｈｒｏｎｏｕｓｉｔｅｒａｔｉｏｎｓｆｏｒＭａｐＲｅｄｕｃｅ［Ｃ］／／ＣｌｏｕｄＣｏｍｐｕｔｉｎｇＴｅｃｈｎｏｌｏｇｙａｎｄＳｃｉｅｎｃｅ（ＣｌｏｕｄＣｏｍ），２０１１ＩＥＥＥＴｈｉｒｄＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎ。ＩＥＥＥ，２０１１：８１－９０。

［１０］孟濤。資料探勘在高校財務中的應用［Ｊ］。軟體導刊，２００８（７）：１４－１５。

［１１］郭遲，劉經南，方媛，等。位置大資料的價值提取與協同挖掘方法［Ｊ］。軟體學報，２０１４，２５（４）：７１３－７３０。

［１２］王珊，王會舉，覃雄派。架構大資料：挑戰、現狀與展望［Ｊ］。計算機學報，２０１１，３４（１０）：１７４１－１７５２。

［１３］孟小峰，慈祥。大資料管理：概念、技術與挑戰［Ｊ］。計算機研究與發展，２０１３，５０（１）：１４６－１６９。

TAGS：樣本資料庫論文財務高校