IBM Watson的基本原理和大資料分析

才智咖 人氣:3.17W

作為IT業界的頂級公司,IBM通過其認證確定了產品專家的標準,可以說IBM在業界的聲望和IBM產品的市場佔有率提升了其認證工程師的含金量。下面是小編收集的關於IBM Watson的基本原理和大資料分析,希望大家認真閱讀!

IBM Watson的基本原理和大資料分析

第一個服務器是演示伺服器。這裡是你需要編寫Java程式來支援提問和回答的邏輯與思考過程的地方,我們可以稱其為查詢面板。你會在查詢面板部署GUI,用來輸入你的問題、處理問題以及尋找答案。這也是你安裝OpenNLP的地方。OpenNLP是能“理解”寫入查詢面板的問題的應用。問題的“答案”現在就能從NFS驅動器裡搜尋。查詢面板是一個圖形使用者介面,用來輸入問題和顯示答案。在這個介面之下它所做的是通過將問題傳遞給一個安裝在此計算機上的叫做OpenNLP的應用來嘗試“理解”這個問題。一旦問題被理解了,它就會檢索答案。在輸入一個問題之前,你需要告訴查詢面板從哪裡來尋找答案。我們將會引導查詢面板從一個網路檔案系統驅動器中尋找答案。這個驅動器包含了來自其它伺服器的從非結構化資料到結構化資料的轉換結果。在我們的這個原型體系中,所有被處理的資料都會被儲存在共享的NFS驅動器裡。

這是演示伺服器的基本元件: Linux 64位; 最小8GB記憶體; 相容64位CPU; 50GB硬碟空間; Java SDK; 查詢面板; OpenNLP; 可以訪問NFS驅動器; 已聯網,可以訪問內網和網際網路。

業務邏輯伺服器就是你的“思考”或者說分析計算機。對這個伺服器裡,你需要安裝Java SDK、Eclipse和UIMA SDK。建立UIMA應用可以將非結構化資料轉換為結構化資料,這些應用例如:型別描述;註釋器;分析引擎描述符;通用分析結構(CAS);一些Java類;CAS資料處理控制元件。(這個伺服器裡還有)UIMA將要處理的以非結構化資料形式存在的內容。它的基本工作方式是——我們會用UIMA元件來從一個非結構化資料池中獲得資料,這是通過編寫基於Java-UIMA的應用來設定我們需要的關鍵詞。這些UIMA元件會採集關鍵詞並將其放入CAS或者說通用分析結構。這些採集完的項就是我們希望找到的基於某種條件的東西。一旦到了CAS,我們編寫好的CAS處理控制元件就會將資料寫為一個結構化的形式,例如資料庫、CSV平面檔案或者是XML。你也將在此處建立你的UIMA應用,以建立你的採集處理引擎。這些應用是:型別描述;註釋器;分析引擎描述符;通用分析結構(CAS);一些Java類;CAS資料處理控制元件。

這些是業務邏輯伺服器的元件:Linux 64位;最小8GB記憶體;相容64位CPU;50GB硬碟空間;Java SDK;UIMA SDK;使用了UIMA的一些Java程式;聯網的共享的NFS驅動器;網路連線,可訪問內網和英特網。

第三臺機器是檔案和資料庫伺服器。在這個地方你將儲存被其它系統需要的檔案,這裡也是輸出的檔案被存放的地方。你需要在這裡安裝一個能被其它系統讀取和寫入的驅動器。

這是一個包含Hadoop的檔案與資料庫伺服器的典型配置:Linux 64位;最小16GB記憶體;相容64位CPU;120GB硬碟空間;Java SDK;IBM InfoSphere BigInsights快速入門版;DB2資料庫(或其它任何資料庫);Wget Utility;安裝好的NFS驅動器;已聯網,可以訪問內網和網際網路。

總結:最終的伺服器配置,包括了演示伺服器、業務邏輯伺服器以及資料庫(檔案)伺服器(Hadoop系統)的元件。在雲環境中,也許可以只建立兩個伺服器,而將業務邏輯和資料庫伺服器組合到一個裡。查詢面板是你要輸入你的問題的地方,這裡也是得到答案的地方。它所做的事情是,接收問題並將問題的處理交接給一個人工智慧應用,例如OpenNLP或OpenCyc,來理解這個問題。 在這個原型中,我們使用了OpenNLP。OpenNLP中有內建的程式,它們可以分析問題的語法,對問題分塊以及對問題中的詞語進行其它形式的處理和分類。一旦理解了問題,它就會呼叫一個程式來尋找答案。一個將非結構化資料轉換為結構化資料的應用(UIMA)已經事先將答案所在的資料進行了處理。然後查詢面板基於OpenNLP對問題的理解來從這些資料集中尋找答案。一旦問題被讀取後,答案會被顯示回查詢面板。