“網際網路+”時代的古籍數字化新思路論文

才智咖 人氣:2.33W

摘要:本文分析了目前中文古籍數字化過程中遇到的問題,在“網際網路+”的驅動下,通過借鑑成熟的“reCAPTCHA”技術,構建基於網際網路知識網路的古籍數字化平臺。

“網際網路+”時代的古籍數字化新思路論文

關鍵詞:古籍 網際網路 大資料 知識網路 驗證碼 數字化

一、古籍數字化出現的問題

1、古籍數字化研究現狀

古籍又稱典籍、文獻,是指沒有采用現代印刷技術來印製的書籍。中華文明五千年從甲骨文、簡牘、卷軸再到線裝,留下了大量寶貴的古籍,作為中華文明文化延續的印證,古籍整理是非常重要的。

古籍整理的傳統方法,是通過對古籍進行審校釋(審定、校勘、註釋)等加工整理後形成新版本,便於現代人進行閱讀。古籍整理的傳統方法主要依賴手工進行,有著操作過程繁雜、效率低的缺點,而且新版本仍然是書本形式,難以再次利用。在計算機技術出現後,古籍整理有了新的工具和方法,即古籍數字化技術。通過利用資訊科技將古籍文獻進行加工和整理,並使其轉化為電子資料,可以通過光碟、網路進行儲存和傳播,有效解決了傳統古籍整理的缺點。

中文古籍的數字化最早是二十世紀七十年代,從計算機技術發達的美國開始的。我國在引入相關技術後,產生了大批有價值的成果。國家圖書館的“古籍特藏文獻數字化計劃”,完成了“甲骨文”、“數字方誌”、“碑砧菁華”、“敦煌遺珍”、“西夏碎金”、“永樂大典”等成果。其他研究機構也推出了大量產品,其中北京大學所著的《中國基本古籍光碟庫》,將收錄古籍萬餘種。另外,在CALIS專案和CANAL專案中涉及到的古籍子專案也有很好的成果。

國際上,拉丁文體系古籍的數字化工作也進行了大量研究工作。由歐盟二十六家圖書館聯合推出的IMPACT(Improving Access to Text)專案,是一個通過研究OCR(Optical Character Recognition,光學字元識別)技術,來推動拉丁體系文字古籍數字化工程

2、古籍數字化的發展與瓶頸

我國古籍數字化的發展經歷了聯合目錄階段、目錄+影像階段和全文檢索三個階段。

第一階段是20世紀80年代,聯合目錄為古籍資料庫檢索系統的開發,以資料庫的形式儲存。通過利用計算機,對古籍資料進行目錄檢索、內容整理、儲存、數量統計,以及編制索引,極大的改進了古籍文獻的檢索方式,是古籍研究的輔助工具。最初的古籍資料庫主要是書目資料庫,很多省市級圖書館都建立了書目資料庫,其中南京圖書館建立了40萬條中文古籍書目資料。

第二階段是20世紀90年代的目錄+影像階段。這個階段形成了以光碟為載體,可通過目錄進行查詢、瀏覽原文的影像頁的古籍文獻或古籍資料庫,所以又稱為光碟版古籍。1997年武漢大學出版社推出的“四庫全書光碟版”共150張光碟,以文淵閣本《四庫全書》為底本,將全書兩百餘萬頁逐頁掃描成電子檔案。

第三階段,2000年起古籍數字化進入了全文檢索階段。將古籍的全文錄入進資料庫系統,通過文字與檢索項匹配,實現直接到段落的精確查詢。並且配置網路化,以各地區的圖書館為節點、網路為紐帶建立了網路上的聯合資料庫。

通過網路共享服務,可以不再依賴個人儲存也能得到海量資源。然而古籍數字資源不足,影響了網路化的發展。古籍數字化加工有著很多的問題。

2.1機器難以提高對古籍的識別能力

整理好的古籍進行數字化的第一步,便是古籍錄入。

圖書數字化錄入的方法有兩種,分別是人工鍵盤輸入和計算機光學字元識別(OCR)掃描輸入。人工鍵盤輸入屬於手工作業,需要由錄入人員看著圖書,逐字錄入,有著效率低、成本高的缺點。OCR是一種先進的自動化技術,通過機器來大量識別影象為文字,是大量圖書數字化的主要手段。但是,如果圖書是古籍的情況下,機器的錄入難度就增加了不少。

缺字:

由於計算機對文字的處理要通過編碼來完成,國標字型檔(GB2312)收錄有6763個字,國標擴充套件漢字字型檔(GBK)收錄有20902個字。而古籍中通用字約有四萬,常用的異體字約為兩萬。相對古籍中的繁體字、通假字、異體字、避諱字而言,計算機的編碼庫無法滿足古籍輸入要求。

排版:

古籍不僅僅是豎排版的問題,有無鈐印、句讀、欄線,標註分為單行標註和雙行標註,寫本、刻本、家譜、碑拓等等,甚至出現手寫字型,都會讓計算機無法識別。

所以,要提高古籍識別系統的可用性和可靠性,必須建立一套自我學習系統,讓它儘可能接觸更多古籍:從中提取新字樣來擴充字符集,識別新版式來增強版面分析能力。

2.2專業要求強、投入不足

現代人能將古文順利“認出”,就是一件非常難的事情。

句讀:

古文是沒有標點符號的,在閱讀古文時要做到正確表達和語氣順暢,必須注意文句間起承轉合。不懂句讀會造成誤讀、誤解原意,所以古人在《三字經》中要求“明句讀”。唐代文學家韓愈在《師說》中就提到“句讀之不知,惑之不解,或師焉,或不焉,國小而大遺,吾未見其明也”。除非進行專門的學習和研究,現代人很難讀懂古文。

生僻字:

漢字是在不斷髮展和變化的。中國最早商代甲骨文中的文字有三千多字,漢代《訓纂篇》有五千多字,《說文解字》有九千多字,晉代《字林》有一萬二千多字,後魏《字統》有一萬三千多字,唐代《玉篇》有兩萬二千多字,宋代《類篇》三萬一千多字,清代《康熙字典》四萬七千多字。1915年,歐陽博存的《中華大字典》四萬八千多字。1970年,由張其昀主編的《中文大辭典》四萬九千多字。1990年,由徐仲舒主編的《漢語大字典》五萬四千多字。1994年,冷玉龍等的《中華字海》收入大量廢棄的字,總字數多達八萬五千字。而新課標在義務教育階段對學生的識字要求僅有三千五百個。

異體字:

同一個漢字在古今也存在多種寫法,比如有部分古書會把“嫦娥”中的“嫦”寫成“常”。魯迅作品中的孔乙己強調茴香豆的“茴”有四種寫法,這些字統稱為異體字。古籍整理要求把幾個異體字改為一個字,需要有很多古文經驗並結合上下文的理解,要求整理者有很深的古文專業知識。