大資料對天文學研究的影響分析

才智咖 人氣:4.31K

天文資料是寶貴的科研資料,是人類瞭解和研究宇宙奧祕的第一手素材,下面是小編蒐集的一篇關於影響天文學研究的論文範文,歡迎閱讀借鑑。

大資料對天文學研究的影響分析

2014年7月21日,中國科學院雲南天文臺2.4m光學天文望遠鏡2014年下半年觀測時間正式面向國內外天文學家開放申請。與以往通過傳送電子郵件來提交申請材料不同,此次觀測時間的申請只有一個入口,即"中國虛擬天文臺".這個看似微小的變化卻意味著我國天文學研究領域一個新時代的到來,即從傳統的工作模式走向泛在融合的資訊化時代。

 1資料密集型時代

天文學,與許多學科類似,正在資訊與計算技術(ICT)等新興科技的驅動下發生著根本性的變革。地基和空基的望遠鏡等觀測設施的工作波段已經覆蓋了整個電磁波譜(從無線電一直到g射線)以及多個非電磁視窗(比如宇宙線、中微子、引力波等),收集的資料經過規範處理後進入資料庫,為下一步的科學分析做好準備。天文學資料正在以前所未有的速度從資料量、增長量和複雜性等各方面快速發展。這些豐富的資料資源大大加深了人類對宇宙的認識。

2019年將正式投入執行的LAMOST光譜巡天望遠鏡每晚拍攝數萬條天體的光譜,產生20GB的光譜資料。地面廣角相機陣GWAC每天的觀測資料量可達7.4TB(1TB=1024GB)。"天籟計劃"大型無線電干涉儀陣列一期96面天線的資料流量為4.8GB/s,二期1000面天線的資料流量為3.2TB/s.國際上,大口徑全天巡視望遠鏡(LSST)2018年投入執行後預計每晚可產生15TB的原始觀測資料,低頻無線電陣(LOFAR)每秒產生上百千兆位元組的科學資料,一平方千米天線陣(SKA)整體執行後每秒鐘收集的原始觀測資料更是高達千萬億位元組。海量而複雜的影象、光譜、星表、時序等資料就像一個深邃的數字宇宙,為天文學家提供了廣闊的挖掘空間。例如,通過對收錄著數十上百億天體的多波段巡天資料庫的融合來深入研究宇宙的大尺度結構和銀河系的精細結構,在海量資料中藉助高階的資料探勘手段發現稀有和新的天體型別,在宇宙時標尺度上揭示類星體、星系和星系團的演化,將大規模數值模擬結果與精細的觀測資料進行比對分析等。

天文資料是寶貴的科研資料,是人類瞭解和研究宇宙奧祕的第一手素材。在人類探索宇宙奧祕和自身起源強烈的好奇心驅使下,隨著科學和技術的不斷進步,特別是望遠鏡設計與製造技術、探測器設計與製造技術、資訊與計算技術等的發展,天文學已經進入海量資料時代,或者說"大資料"時代。天文學研究成為一項以資料為中心,為資料所驅動的科研活動。

驅動這場變革的背後推手除了有不斷豐富的資料,還有網際網路帶來的便捷的資料訪問和資源共享。

現代天文資料庫中蘊含的資訊內容十分豐富,檔案研究和資料探勘不僅是必要的而且是必需的。大多數情況下,資料的擁有者發掘的資訊只是這些資料庫科學價值的很小一部分。

與此同時,數值模擬不再僅僅是理論分析的一種輔助手段,而變成研究許多複雜現象(比如宇宙大尺度結構的形成與演化、星系間的相互作用、恆星系統的形成)主要乃至唯一的途徑,這些數值模擬程式也產生大量的資料。換句話說,理論家不再僅是用公式來表達自己的思想,還有大量的資料。實驗(觀測)和理論都在用大量的資料來推動人類知識的發展。現代科學與傳統科學無論是從量上還是從質上都發生了根本的變化,成為一門資料驅動的科學,這就是"第四正規化"[1].基於資料的科學發現已成為繼實驗(觀測)、理論分析、科學計算之後,科學發展的另一個重要支柱。

天文學是資料密集型科學的領頭羊,這主要歸因於下面3個因素[2].首先,天文學最早採用(某種程度上是發展了)現代數字探測器,例如CCD和數字相干器,並把科學計算作為資料處理的手段,把數值模擬作為一種科研工具。國際天文學領域中e-Science的文化理念早在20世紀80年代,在英特網(WWW)和商業資料庫誕生之前,就被培育起來。天文資料集的體量從最初的千位元組到兆位元組,20世紀80年代末發展到千兆位元組,90年代中期到萬億位元組,如今則是千萬億位元組。天文學家早在20世紀80年代初就設計了領域內通用的資料交換標準,即FITS[3].

第二個重要的因素是美國宇航局(NASA)等空間機構為其空間科學計劃建立起一批資料中心,在一定的保護期後把科學資料向全社會開放共享。天文學家的這種做法不但推動了資料庫和資料管理工具的發展,也逐漸培育出科學資料開放共享和重複利用的科學文化。這些資料中心成為今天虛擬天文臺的發祥地和重要基礎。

第三個重要因素是大型數字巡天計劃的出現併成為天文資料的主要來源。利用照相底片做巡天觀測,通過掃描實現數字化,這樣的傳統巡天工作在20世紀90年代便壽終正寢。傳統巡天計劃造就了第一個萬億位元組量級的天文資料集,即數字化帕洛瑪巡天(DPOSS)[4].這個記錄很快便被斯隆數字巡天(SDSS)等純數字的巡天計劃打破[5].除了取得矚目的科學成果,現代數字巡天計劃還改變了天文學的研究模式和天文學家的思維模式。基於現代巡天資料庫,科研人員不依賴於望遠鏡也能做出漂亮的研究成果。數字巡天時代的天文學發展不但需要天文學家的個人智慧,更需要大型科研團隊的協同創新。

資料密集型時代的天文學研究給天文學家和技術專家帶來諸多機遇的同時也帶來非常多的挑戰。

資料密集型環境下,天文學研究所需的資源不但包括資料和文獻,更是需要資料庫、分散式儲存、高效能運算、資料探勘和知識發現工具、創新的視覺化環境等。不同波段、時刻、空間尺度的資料融合把這些挑戰又提升到一個新的高度。針對資料的採集、歸檔、管理、訪問、處理、挖掘、展現,這些科研活動環節,在資料量不斷增大、資料結構越來越複雜的大資料時代,傳統的方式和手段已不再適用和滿足天文學研究的需求。

 2虛擬天文臺

虛擬天文臺就是要把天文學從老的資料貧乏的研究體制變革到新的資料極大豐富的研究體制,充分利用資訊科技來解決新的、資料密集型天文學時代的挑戰。

虛擬天文臺(virtualobservatory,VO)[6,7]是通過先進的資訊科技將全球範圍內的天文研究資源無縫透明連結在一起形成的資料密集型網路化天文學研究和科普教育環境。其將全球的天文資料庫連線起來形成一個多波段的數字星空,一個全球性的天文資料網格,讓科學家和普通使用者能夠基於資料發現、高效資料訪問和互操作,以各種創新的方式進行檢索、展現和分析,打造創新型的科學研究和資源使用環境。

由各國虛擬天文臺專案組成的國際虛擬天文臺聯盟(簡稱IVOA)致力於為實現資料的互操作制訂有關的標準和規範,使資料產品生成、管理和使用的各個環節都在標準的框架下進行。虛擬天文臺的誕生消除了各個資料庫系統訪問標準不統一的問題,使得星表資料交叉證認、異構影象和光譜資料的分析處理、多波段資料的視覺化等以往棘手的工作可由程式和軟體來完成。

傳統研究模式為人類留下了千兆位元組量級的資料遺產,巡天模式為人類留下了萬億位元組量級的資料遺產,虛擬天文臺模式則把人類帶入千萬億位元組量級的資料密集型時代。這3種模式並不是一種取代另一種,而是同時存在於現代天文學研究活動中。

中國虛擬天文臺旨在完成國際虛擬天文臺巨集偉構想中的中國部分,正在以國核心心天文觀測裝置的時間申請、審批,資料匯交、共享、使用,課題設計、開展為線索,融合天文觀測和科研活動所需的科學資料、科技文獻、高效能運算、軟體和實用工具等資源,打造一個物理上分散、邏輯上統一的網路化科學研究平臺;基於虛擬天文臺技術和雲端計算技術實現一個全生命週期資料管理與開放共享平臺[8,9].中國虛擬天文臺是一個數據驅動的科研資訊化環境,基於標準、完整、有質量保障的元資料和科學資料系統,通過具備互操作能力的軟體、工具和服務,為天文學家等科學使用者打造一個泛在融合的資訊化科研新模式。同時,這是一個開放的平臺,通過標準的介面和協議與國際上的資源和服務實現無縫融合。

 3天文資訊學

通過虛擬天文臺連通起來的全球天文資料網格讓天文資料的發現和訪問變得空前便捷,從理論上講這至少能夠適應下一代巡天和空間計劃的需求。

但這只是萬里長征邁出的第一步,其中缺少的一個關鍵環節便是使用方便、適應性強、可以從海量資料集中提取資訊和知識的工具庫,特別是那些可以在萬億位元組量級資料集上開展資料探勘和分析的工具。

目前這方面的工作主要靠個別的研究小組以及一些天文臺和巡天計劃來開展。要全面應對海量科學資料時代天文學研究的挑戰,天文學家們需要更寬廣的視野和長久的策略,需要一個重要的新學科,即天文資訊學(Astroinformatics)。天文資訊學旨在為天文學和資訊科技以及計算機應用科學搭建橋樑,以基於VO框架建立起來的資料網格為基礎,為資料密集型天文學的研究者們提供一個更廣闊的社群。

虛擬天文臺的核心目標是制訂一套完整的標準來實現對全球天文資訊資源的發現、訪問和互操作,這是天文資訊學的基礎和出發點。為了應對資料密集型的天文學研究,還需要更多系統性的研究和開發,把計算和分析的科學工具應用到天文學領域,從海量的資料中甄別出新的.模式和新的發現。天文資訊學代表了資料密集型天文科學研究的一種新模式。

它涵蓋一系列內在相互關聯的領域,包括資料組織、資料描述、天文分類學、天文概念語義、資料探勘、機器學習、視覺化、天文統計學等。研究的內容包括:資料模型、資料轉換和歸一化方法、索引技術、資訊提取和整合方法、知識發現方法、基於內容和基於語境的資訊呈現、一致化的語義描述、分類學、天文字體論等。

4資料探勘和知識發現

隨著資料密集型時代的到來,天文學研究的模式正在從以往的小樣本向著大資料模式轉變,從個人研究到團隊協作轉變。海量的天文資料給天文學家帶來巨大的機遇和挑戰,天文學研究越來越離不開大資料集的統計分析,即資料探勘和知識發現。

大多數傳統的資料分析方法都無法適應萬億位元組量級或者高維度的資料,必須開發和採用現代的資料探勘和資料庫知識發現技術[10].人工審查海量資料已無可能,必須採用機器學習技術來自動化的完成這項工作。當前大多數的資料探勘工具雖然可以應對較大的資料量但無法應對很高的資料維度,需要研究能適應現代海量複雜資料集的資料探勘工具和方法。

以新一代概要巡天觀測為代表的新興觀測手段讓時域天文學獲得長足發展,同時帶來許多新的需求和挑戰[11].新一代概要式巡天能夠實現對大面積天區的快速、多次掃描,從而產生很多倍於傳統數字巡天的資料量。新一代概要式巡天計劃的實施把資料處理和分析的物件從海量資料集變為海量資料流,研究工作的複雜度進一步提升。很多物理過程和事件持續的時間很短,要求近乎實時地完成目標證認、特徵提取、天體分類、隨動觀測優先順序確定等工作。

這與傳統的資料處理和分析要求很不相同。受限於可調動的觀測資源,概要式巡天計劃探測到的暫現事件中只能有很小一部分能夠得到隨動觀測。現有的分類方法會被用來為這些暫現事件自動判定隨動觀測優先順序。事件分類和可用資源都在動態地發生著變化。前者歸因於新的測量結果,後者則受到資源分配、天氣、晝夜交替等多種因素的限制。為能應對這些棘手的挑戰,必須通過創新的手段實現對海量資料流的魯棒、靈活、實時處理和挖掘。

有效的視覺化是資料探究、分析和理解的重要環節,也是資料探勘不可分割的一部分。可以說,視覺化是科學資料所蘊含的定量內容和對其直觀理解的橋樑。對不同波段、不同天區的精彩圖片進行展現是天文學獨特的優勢,但對高維引數空間的海量現代天文資料進行視覺化仍然需要很多創新的手段和方法。這是當代"大資料"科學所面臨的一個共同挑戰。

人類的視覺感知和模式識別能力是很有限的。把幾個維度的資料通過一些技巧來呈現在一個偽3D的影象上還是可以接受的,但現代科學資料集已經具有數百上千的維度。視覺化是制約資料密集型科學研究的關鍵瓶頸之一[12].

 結論

這是一個令人興奮的時代。新技術、新方法層出不窮,天文學家隨時都有可能從海量資料中取得新的發現。探測器、感測器、高效能運算叢集等快速積累著各種資料,對網路、儲存、計算等資訊化基礎設施提出幾乎無窮盡的需求。資料探勘、知識發現、資料視覺化專家需要不停地思考如何讓研究工具更加強壯。

TAGS:天文學