招聘信息 | 版權聲明 | 廣告合作 | 關于我們 | 違法和不良信息舉報電話:0531-88556595
城市
濟南 青島 淄博 棗莊 東營 煙臺 濰坊 濟寧 泰安 威海 日照 臨沂 德州 聊城 濱州 菏澤
從宣紙到數字化 古籍這樣走出“深閨”
發布時間:2021-06-10 18:17:30 | 來源:大眾網 | 作者:盧昱 | 責任編輯:高靜

  手寫或印刷在薄薄宣紙上的方塊漢字走出“深閨”,古籍數字化像一把鑰匙……

  打開“用”與“藏”環環相扣的鐵鎖

孔子博物館藏《乾隆御定石經》初拓本

  40余種珍貴宋元刻本、寫本,著名藏書樓嘉業堂、密韻樓的抄本,文瀾閣《四庫全書》零本……近日,這批珍藏于美國加州大學伯克利分校的中文古籍善本,以數字化方式進駐“漢典重光”古籍平臺(網址為https://wenyuan.aliyun.com/home)。

  古籍中那些手寫或印刷在薄薄宣紙上的方塊漢字,經過數字化,飄起在“云端”,文化積淀又有了新的保存與光大的途徑。

  錢鐘書的敏銳與遠見

  據統計,目前全國各公藏單位擁有古籍總量超過5000萬冊,需要修復的古籍約1500萬冊。即使在古籍不再繼續遭到破壞的前提下,以當前的修復人才及修復條件計算,要完成全部修復工作仍需數百年。

  古籍文獻集文物價值和學術價值于一身。從保護的角度看,古籍應在合適的環境中收藏,盡量減少在普通環境中的時間,降低使用時可能帶來的損傷。有測試表明,一部宋元古籍,離開專用書庫,置于普通閱覽室中供人翻閱一小時,其壽命就會縮短數月。

  從利用的角度看,古籍若沉睡在庫房,就無法發揮其價值,而且許多學者的研究與古籍內容息息相關。此時,古籍數字化像一把鑰匙,打開了“用”與“藏”環環相扣的鐵鎖。

  事實上,“古籍”與“數字化”已相遇三十余年。

  古籍數字化,最初扎根在紅學研究領域。在1980年國際紅學會議上,美籍華裔學者陳炳藻提交《從字匯上的統計論紅樓夢的作者問題》,提出用計算機統計《紅樓夢》的字詞,以輔助確定《紅樓夢》尤其是后四十回作者的問題。國外的這些信息激發了國內部分學者的興趣,他們開始關注并嘗試將計算機技術應用于人文研究。

  受此啟發,鎮江的紅學研究者彭昆侖開始利用計算機程序探討《紅樓夢》人物年齡的問題。1985年他調到鎮江市科委后,又與東南大學(原南京工學院)合作完成《紅樓夢》數據庫。此后,深圳大學建成“紅樓夢多功能檢索系統”。

  1980年前后,錢鐘書的女兒錢瑗到英國訪學,看到英國學者用電腦儲存、查閱莎士比亞的資料?;貒?,她把這一信息告訴錢鐘書。錢鐘書敏銳地意識到這一新鮮事物的價值,讓助手欒貴明從事相關研究。

  在錢鐘書的指導下,欒貴明主持的課題組先后完成“《論語》數據庫”“《全唐詩》速檢系統”等課題,并榮獲1990年“國家科技進步獎”三等獎。這些都是利用計算機進行人文研究的早期實踐。

  當時,古籍數字化還在萌芽狀態。在1987年12月人民日報出版社出版的《論語數據庫》一書卷首,錢鐘書寫道:“從理論上來說,計算機和人類使用過的其他工具沒有什么性質的不同。它在還未被人廣泛使用的時候,除自身尚待完善以外,總會遭到一些抵拒。慣用舊家什的人依然偏愛著他們熟悉的工具。有了紙墨筆硯‘文房四寶’,準還有人用刀筆和竹簡;有了汽車、飛機、電報電話,也還有不惜體力和時間的保守者。對新事物的抗拒是歷史上常有的現象,抗拒新事物到頭來的失敗也是歷史常給人的教訓。”——當前古籍數字化的潮流,可說是對他遠見的最好褒獎。

  數字古籍為“母本”代言

  上世紀九十年代后期,古籍文獻數據庫的建設步入快車道。

  1996年,書同文公司啟動的文淵閣《四庫全書》電子版是一個標志性工程,被譽為大型中文電子出版工程的典范。該工程動用300名校錄人員、60名技術、學術和管理人員,歷時三年多完成。

  而今,國家圖書館的“中華古籍資源庫”已在線發布超過3.3萬部的古籍影像;中華書局的“中華經典古籍庫”已發布3000多種、15億字的點校本古籍;愛如生公司的“中國基本古籍庫”收書1萬種,既有可供檢索的全文,又提供古籍原版圖像;像家譜、方志、中醫藥等專類古籍在多地興起……

  除了以上大而強的綜合數據庫,在網絡上,很多古籍愛好者,出于熱愛和自覺,建立古籍數據庫,如“書格”“殆知閣”等,與以上數據庫多頭掘進,共同成為諸多文史研究者的助手。

  近年來,古籍數字化在服務于學術研究方面,立功頗多。比如中南民族大學王兆鵬主持的“唐宋文學編年系地信息平臺”、浙江大學徐永明團隊與哈佛大學共建的“學術地圖發布平臺”、中國社科院劉京臣的“宋代文學地圖數字分析平臺研究”等值得關注的數字人文成果,其平臺的建設離不開數字化古籍的基礎作用。

  而數字化之后,古籍“母本”不再需要冒著各種風險“拋頭露臉”。與此同時,數字化的古籍,可以走出“深閨”,像孫悟空一般實現七十二種變化,在不同時間滿足不同地域讀者的閱讀需求,實現一對多、點對面、虛對實的變化。

  在山東,古籍數字化的步伐也在同步跟進。據山東省圖書館歷史文獻部主任、研究館員杜云虹介紹,省圖在2013年發布“山東省圖書館古籍珍本數據庫”,收入數字化古籍資源近1000種,共計10萬余拍,內容涵蓋從明代至民國不同時期、不同類型的經史子集四部類古籍資源;2018年,省圖將數字化的館藏《永樂南藏》1600余部佛經、204592拍、587764頁,在網絡上公開發布;目前,省圖已完成“易學古籍數據庫”建設,實現6164種易學古籍書目在線檢索和其中900種易學古籍的數字化……

  “現在,古籍普查工作還沒有最終完成。我們要摸清家底,古籍數字化不是一朝一夕的事兒,要在保護好古籍的前提下,做好規劃,清楚哪些工作是最迫切的,不能零打碎敲地做,更不能盲目開發利用。”杜云虹說。

  對于如何用好“在云端”的古籍寶庫,杜云虹分析道:“怎么讓古籍里的文字活起來,讓大家覺得不很遙遠,有很多工作要做。央視的節目《典籍里的中國》,講述典籍傳承文明的故事,是很好的嘗試。”

  當阿里涉足古籍

  “電商巨頭阿里涉足古籍行業。這在電商行業意味著什么我不清楚,但在古籍領域確實算得上一個大新聞。”網友“人生五味”評價道。

  阿里巴巴達摩院院長張建鋒表示,達摩院自2017年起接觸古籍數字化領域,2019年正式參與由阿里巴巴公益基金會、四川大學、美國加州大學伯克利分校、中國國家圖書館、浙江圖書館合作開展的“漢典重光”項目,旨在尋覓流散海外的中國古籍并將其數字化、公共化,讓普通人也能親近古籍,通過古籍與先賢對話、與優秀傳統文化對話。

  目前,首批20萬頁古籍已完成數字化,并沉淀為覆蓋3萬多字的古籍字典,公眾可通過“漢典重光”平臺翻閱、檢索古籍。記者打開平臺網頁,試著搜索“山東”“濟南”等關鍵詞,跳出《戰國策》《通鑒綱目》《河防一覽》等結果,皆可定點查詢、鎖定。相較于其他成熟的數據庫,“漢典重光”后臺的數據量還偏小,在使用時也有一些不夠流暢之處。

  新潮的阿里似乎對陳舊的古籍還不太熟悉,但這種“相逢”正探尋著古籍數字化的新路徑。

  據悉,古籍數字化大概有以下流程:采集側,將紙質書變為電子掃描版;生產側,將電子掃描版變為文字版;應用側,將文字版變為古籍研學系統,涵蓋檢索、字典、知識圖譜等功能。

  目前,古籍數字化在采集側、生產側有兩種方法。第一種是純人工錄入,如一本書有10萬字,人工把10萬字輸入計算機。像《四庫全書》的編修,就是紙書時代的“人工錄入”,當年在乾隆皇帝的主持下,紀昀等360多位高官、學者參與叢書編修,一共用了3800多人、耗時13年才完成?!端膸烊珪钒?462種書、7.9萬余卷、3.6萬余冊,總字數約10億。在當下,已很難找到并組織眾多精通古文字的專家,如此專注、數十年如一日地來做錄入工作。

  第二種是計算機與人工結合,計算機利用文字識別技術提取一部分文字,計算機無法識別的文字則由人類專家手動錄入,最終再由人工進行檢校。這一技術路線雖探索多年,但始終沒能讓識別效率大幅提升。原因主要在于:計算機能識得的古籍文字極為有限,若用傳統的機器學習方法“教會”計算機海量的古籍文字,得先提供海量的標注數據,用于訓練識別模型。而古籍文字沒有現成的標注數據,需要懂古文的專業人士手動標注,可能比人工直接錄入的工作量更大、成本更高。

  面對海量無標注的數據,如何讓AI(人工智能)快速批量識別古籍,始終是古籍數字化領域的技術瓶頸。對此,阿里巴巴達摩院技術團隊與四川大學專家聯手,在第二種技術方法的基礎上,研發了一套全新的識別系統。

  首先是全書檢測,把古籍正文中的每個字都摳出來,作為單獨的一張圖;然后進行聚類,一本古籍總字數可能有10萬字,但其中有很多字是重復的,比如“之”“乎”“者”“也”等,聚類就是讓機器自動把字形筆畫一致的字歸為一類,接著再由專家進行標注。原本全部要人工標注10萬字的書,經過聚類,只需要對二三千字類進行標注即可,一類字只需標注一次。

  聚類和人工標注,不僅完成了每一類文字的認字過程,還收獲了更多新的訓練樣本,可以繼續喂給機器學習。古籍里有很多生僻字、異體字、異形字,出現概率極低,幾乎找不到樣本。對此,達摩院團隊使用字體遷移方法,讓機器自動為每個字合成幾個新樣本,確保單字樣本量達到10個,用來訓練少樣本識別模型。

  從聚類到少樣本模型識別,走完一輪,全書70%左右的文字可以被打上正確的標簽,余下的部分將從頭再來一遍,進行第二輪迭代,又能解決余下文字中的70%。經過兩輪迭代,一本書91%的文字可以被識別。如此,通過不斷的學習,訓練數據越來越多,機器的認字能力也越來越強。

  在復雜的算法養成過程中,人工標注的工作量被大大降低。“經過反復的學習和提升,目前達摩院系統對伯克利20萬頁古籍的整體識別準確率達到了97.5%。這套人機交互的識別方案,錄入效率比純人工輸入提升了近30倍。”張建鋒說。

  張建鋒表示,守護中華傳世典籍,是科技工作者和文化工作者共同的使命。阿里計劃將這套技術工具連同古籍數字化平臺一并捐贈,交由權威公共機構長期運營;同時,阿里仍將在古籍數字化工作上持續投入人力、物力。(大眾日報記者 盧昱)

 

熱點新聞
滾動
濱州:百萬尾魚苗放歸大海湖泊
濟南大北環高速公路建設啟動 強省會迎來三環時代
菏澤打造兩條“金絲帶” 擦亮“黃河入魯”品牌
濟寧:“十四五”聚力推進“八個強市”建設
聊城試點運行電動車新型智能無線充電樁
日照:杜鵑花驚艷綻放,遍地芬芳
煙臺市首個居民區充電示范點建成投運
青島114個項目入選“省重點” 項目覆蓋13條產業鏈
淄博全力打造三大平臺 助力“中國膜谷”建設
濟南吹響現代化強省會建設沖鋒號
青島防疫物資企業加速“出圈”
總投資1258億元!淄博市春季重大項目集中開工“拔頭籌”
?
+更多
山東榮成:海上“夏收”忙
山東榮成:海上“夏收”忙
麥浪滾滾滿目金黃 曲阜市息陬鎮天氣晴好麥收忙
麥浪滾滾滿目金黃 曲阜市息陬鎮天氣晴好麥收忙
濱州市花月季五月盛放 扮靚城區邀君共賞
濱州市花月季五月盛放 扮靚城區邀君共賞
碧草茵茵“鳳凰湖”
碧草茵茵“鳳凰湖”
濰坊市奎文開發區開通6條公交線路
濰坊市奎文開發區開通6條公交線路
臨沂這條“紅色專線”入選全國“十大最美農村路”
臨沂這條“紅色專線”入選全國“十大最美農村路”
?
番里h肉3d动漫在线观看网站,波多野吉衣,韩国伦理电影,亚洲女人天堂网av在线