碩士論文開題報告優秀範文模板

才智咖 人氣:2.72W

開題報告是學位論文的一個總體規劃和設計,是研究生學位論文工作的重要環節,下面是小編蒐集整理的碩士畢業論文開題報告範文,供大家閱讀參考。

碩士論文開題報告優秀範文模板

一、課題來源:

本課題來源於作者在學習和實習中瞭解到的兩個事實,屬於自擬課題。

其一,作者在2011年7月在XXX公司調研,瞭解到現如今各行業都面臨著資料量劇增長,並由此帶來業務處理速度緩慢,資料維護困難等問題。為了應對此挑戰,很多企業開實施大資料發展戰略。現如今的大資料發展戰略可以概括為兩類,一類是垂直擴充套件。即採用儲存容量更大,處理能力更強的裝置,此種方式成本較大,過去很多大公司一直採用此種方法處理大資料。但自從2004年Google釋出關於GFS,MapReduce和BigTable三篇技術論文之後,雲端計算開始興起,2006年Apache Hadoop專案啟動。隨後從2009年開始,隨著雲端計算和大資料的發展,Hadoop作為一種優秀的資料分析、處理解決方案,開始受到許多 IT企業的關注。相較於垂直擴張所需的昂貴成本,人們更鐘情於採用這種通過整合廉價計算資源的水平擴充套件方式。於是很多IT企業開始探索採用Hadoop框架構建自己的大資料環境。

其二,作者自2013年4月在XXX實習過程中進一步瞭解到,因為關係資料庫在儲存資料格式方面的侷限,以及其Schema機制帶來的擴充套件性上的不便,目前在大部分的大資料應用環境中都採用非結構化的資料庫,如列式儲存的Hbase,文件型儲存的MangoDB,圖資料庫neo4j等。這些非結構化資料庫因為可擴充套件性強、資源利用率高,高併發、響應速度快等優勢,在大資料應用環境中得到了廣泛的應用。但此種應用只解決了前端的業務處理,要真正利用大資料實現商務智慧,還需要為決策支援系統和聯機分析應用等提供一資料環境——資料倉庫。為此,導師指導本文作者擬此題目,研究基於Hadoop框架的資料倉庫解決方案。

二、研究目的和意義:

現如今,資料已經滲透到每一個行業,成為重要的生產因素。近年來,由於歷史積累和和資料增長速度加快,各行業都面臨著大資料的難題。事實上,大資料既是機遇又時挑戰。合理、充分利用大資料,將其轉變為海量、高增長率和多樣化的資訊資產,將使得企業具有更強的決策力、洞察發現力和流程優化等能力。因此,很多IT企業都將大資料作為其重要的發展戰略,如亞馬遜、臉譜網已佈局大資料產業,並取得了驕人的成績。事實上,不止谷歌、易趣網或亞馬遜這樣的大型網際網路企業需要發展大資料,任何規模的企業都有機會從大資料中獲得優勢,並由此構建其未來業務分析的基礎,在與同行的競爭中,取得顯著的優勢。

相較於大型企業,中小企業的大資料發展戰略不同。大公司可以憑藉雄厚的資本和技術實力,從自身環境和業務出發,開發自己的軟體平臺。而中小企業沒有那樣的技術實力,也沒有那麼龐大的資金投入,更傾向於選擇一個普遍的、相對廉價的解決方案。本文旨在分析大資料環境下資料庫的特點,結合當下流行的Hadoop框架,提出了一種適用於大資料環境的資料倉庫的解決方案並實現。為中小企業在大資料環境中構建資料倉庫提供參考。其具體說來,主要有以下三方面意義:

首先,目前主流的資料庫如Oracle、SQL Server都有對應自己資料庫平臺的一整套的資料倉庫解決方案,對於其他的關係型資料庫如MySQL等,雖然沒有對應資料庫平臺的資料倉庫解決方案,但有很多整合的資料倉庫解決方案。而對於非結構化的資料庫,因其資料模型不同於關係型資料庫,需要新的解決方案,本文提出的基於Hive/Pentaho的資料倉庫實現方案可以為其提供一個參考。

其次,通過整合多源非結構化資料庫,生成一個面向主題、整合的資料倉庫,可為大資料平臺上的聯機事務處理、決策支援等提供資料環境,從而有效利用資料資源輔助管理決策。

再次,大資料是一個廣泛的概念,包括大資料儲存、大資料計算、大資料分析等各個層次的技術細節,本文提出的“大資料環境下的資料倉庫解決方案及實現“豐富了大資料應用技術的生態環境,為大資料環境下的資料分析、資料探勘等提供支撐。

三、國內外研究現狀和發展趨勢的簡要說明:

本文研究的主體是資料倉庫,區別於傳統基於關係型資料庫的資料倉庫,本文聚焦大資料環境下基於非結構資料庫的資料倉庫的構建與實現。因此,有必要從資料倉庫和大資料環境下的資料庫兩方面進行闡述。

(一) 資料倉庫國內外研究現狀

自從Bill Inmon 在1990年提出“資料倉庫”這一概念之後,資料倉庫技術開始興起,並給社會帶來新的契機,逐漸成為一大技術熱點。目前,美國30%到40%的公司已經或正在建造資料倉庫。現如今隨著資料模型理論的完善,資料庫技術、應用開發及挖掘技術的不斷進步,資料倉庫技術不斷髮展,並在實際應用中發揮了巨大的作用。以資料倉庫為基礎,以聯機分析處理和資料探勘工具為手段的決策支援系統日漸成熟。與此同時,使用資料倉庫所產生的巨大效益又刺激了對資料倉庫技術的需求,資料倉庫市場正以迅猛的勢頭向前發展。

我國企業資訊化起步相對較晚,資料倉庫技術在國內的發展還處於積累經驗階段。雖然近年來,我國大中型企業逐步認識到利用資料倉庫技術的重要性,並已開始建立自己的資料倉庫系統,如中國移動、中國電信、中國聯通、上海證券交易所和中國石油等。但從整體上來看,我國資料倉庫市場還需要進一步培育,資料倉庫技術同國外還有很大差距。為此,我國許多科技工作者已開始對資料倉庫相關技術進行深入研究,通過對國外技術的吸收和借鑑,在此基礎上提出適合國內需求的技術方案。

(二) 非結化資料庫國內外研究現狀

隨著資料庫技術深入應用到各個領域,結構化資料庫逐漸顯露出一些弊端。如在生物、地理、氣候等領域,研究面對的資料結構並不是傳統上的關係資料結構。如果使用關係資料庫對其進行儲存、展示,就必須將其從本身的資料結構強行轉換為關係資料結構。採用此種方式處理非結構資料,不能在整個生命週期內對非關係資料進行管理,並且資料間的關係也無法完整的表示出來。在此背景下,非結構化資料庫應運而生。相較於關係資料庫,非結構資料庫的欄位長度可變,並且每個欄位的記錄又可以由可重複或不可重複的子欄位構成。如此,它不僅可以處理結構化資料,更能處理文字、圖象、聲音、影視、超媒體等非結構化資料。近年來,隨著大資料興起,非結構資料庫開始廣泛應用,以支援大資料處理的多種結構資料。

目前,非結構化的資料庫種類繁多,按其儲存資料型別分,主要包含記憶體資料庫、列儲存型、文件資料庫、圖資料庫等。其中,常見的記憶體資料庫有SQLite,Redis,Altibase等;列儲存資料庫有Hbase,Bigtable等;文件資料庫有MangoDB,CouchDB,RavenDB等;圖資料庫有Neo4j等。近年來,我國非結構資料庫也有一定發展,其中最具代表的是國信貝斯的iBASE資料庫。可以預見在不久的將來,伴隨這大資料的應用,非結構資料庫將會得到長足的發展和廣泛的應用。

四、主要研究內容和要求達到的深度:

本文研究的方向是資料倉庫,並且是聚焦於大資料這一特定環境下的資料倉庫建設,其主要內容包括以下幾點:

1. 非結構資料庫的資料倉庫解決方案:本文聚焦於大資料這一特定環境下的資料倉庫建設,因為大資料環境下的資料倉庫建設理論文獻很少,首先需要以研究關係資料庫型資料倉庫的解決方案為參考,然後對比關係資料庫和非結構資料庫的特點,最後在參考方案的基礎上改進,以得到適合非結構資料庫環境的資料倉庫解決方案。

2. 非結構資料庫和關係資料庫間資料轉換:非結構資料庫是對關係資料庫的補充,很多非結構資料庫應用環境中都有關係資料庫的身影。因此,非結構資料庫和關係資料庫間資料轉換是建立非結構資料庫需要解決的一個關鍵問題。

3. 基於非結構資料庫的.資料倉庫構建:本文擬採用手禮網的資料,分析其具體的資料環境和需求,為其構建基於非結構資料庫的資料倉庫,主要包括非結構資料庫的資料抽取,Hive資料庫入庫操作和Pentaho前臺資料展現等。

五、研究工作的主要階段、進度和完成時間:

結合研究需要和學校教務管理的安排,研究工作主要分以下四階段完成:

第一階段:論文提綱:20XX年6月——7月

第二階段:論文初稿 :20XX年8月——10月

第三階段:論文修改:20XX年11月——2014年3月

第四階段:最終定稿:20XX年4月

六、擬採用的研究方法、手段等及採取的措施:

在論文提綱階段,本文擬採用調查統計的方法,收集目前大資料環境下資料庫應用情況,著重統計各型別資料庫的應用比例。同時採用文獻分析和個案研究的方法研究資料倉庫構建的一般過程和對應的技術細節,並提出解決方案。在論文初稿和修改階段,本文擬通過實證研究,依據提綱階段在文獻分析中收集到的理論,基於特定的實踐環境,理論結合實踐,實現某一具體資料倉庫的構建。最後採用定性和定量相結合的方法,詳細介紹大資料環境下資料庫和資料倉庫的特點,其資料倉庫實現的關鍵問題及解決方案,以及資料倉庫個例實現的詳細過程。

七、可能遇見的困難、問題及擬採取的解決辦法、措施:

基於本文的研究內容和特點分析,本文在研究過程中最有可能遇到三個關鍵問題。

其一,非結構資料庫種類繁多,每類資料庫又對應有不同的資料庫產品,由於當下非結構資料庫沒有統一標準,即便同類資料庫下不同產品的操作都不盡相同,難以為所有非結構資料庫提出解決方案。針對此問題,本文擬緊貼大資料這一背景,選擇當下大資料環境中應用最多的幾類資料庫的代表性產品進行實現。

其二,雖然經過二十年的發展,資料倉庫的理論已日趨完善,但大資料是近幾年才發展起來的技術熱點,大樹據環境下的資料倉庫建設理論文獻很少。針對此問題,本文擬參考現有的成熟的關係資料庫環境下資料倉庫構建方案和非結構化資料倉庫理論,研究適合非結構資料庫的資料倉庫構建方案,請導師就方案進行指導,然後再研究具體技術細節實現方案。

其三,基於大資料環境的資料倉庫實現是本文重要的組成部分,要完成此部分的工作需要企業提供資料支援,但現在資料在企業當中的保密級別都很高,一般企業都不會將自己的業務資料外傳。針對此問題,本文擬採用企業非核心業務資料進行資料倉庫實現。

八、大綱

本文的基本構想和思路,文章擬分為導論、大資料環境下的資料庫介紹、大資料下資料倉庫關鍵問題研究、基於XX電子商務的大資料下資料倉庫實現、結論五部分。

導論

一、研究背景

二、國內外研究現狀述評

三、本文的主要內容與研究思路

第一章 大資料環境下的資料庫介紹

第一節 大資料對資料庫的要求

第二節 關係資料庫和非結構資料庫比較

第三節 大資料下常用非結構資料庫介紹

小結

第二章 大資料下資料倉庫關鍵問題研究

第一節 非結構資料模型和關係資料模型的轉換

第二節 基於多源非結構資料庫的資料抽取

第三節 資料型別轉換

第四節 資料倉庫前端展示

第三章 大資料下資料倉庫實現方案

第一節 大資料環境介紹

第二節 實現方案

第二節 Hive介紹

第三節 Pentaho介紹

第四章 基於XX電子商務的大資料下資料倉庫實現

第一節 需求分析

第二節 模型設計

第三節 概要設計

第四節 基於Hive的資料入庫操作實現

第五節 基於Pentaho的資料倉庫前端展示實現

結論