浙江大學“智慧古籍平臺”?!⊥τ辍z
浙江大學上線了“智慧古籍平臺”。據悉,該平臺的建設為讀者掃除古代文獻閱讀障礙,打造了古籍閱讀、整理和研究的新范式。
中華上下五千年的典籍,記錄著中華民族寶貴的文化密碼。浙江大學教授徐永明及其團隊多年來致力于文史大數據結構化和智慧化建設。
從2018年的“學術地圖發(fā)布平臺”到2020年的“智慧古籍平臺”,該團隊通過一項項學術進展,讓收藏在禁宮里的文物、書寫在古籍里的文字“活起來”。
據介紹,“智慧古籍平臺”綜合運用大數據的計量統(tǒng)計、定位查詢、聚類查詢、空間分析、數據關聯(lián)等技術,將中國古典文獻和研究成果圖譜化、智能化。
記者看到,只要點擊“智慧古籍平臺”首頁的“著述導覽”頁面,便可查閱著述的章節(jié)目錄、著述提要等基本信息及相關作者的世系圖、社會關系圖;點擊“篇目導覽”即可進入文本閱讀界面。
為提高文本的準確性,減少閱讀時頻繁查閱相關資料的工作量,該平臺還提供了古籍圖片與古籍數字化文本一一對應的功能和關鍵字詞釋義功能。
如文本中的重要信息及疑難詞已按人名、地名、時間、典故等不同類型以不同顏色顯示,點擊即可查看不同類型的釋義。同時,“智慧古籍平臺”與學術地圖發(fā)布平臺相連接,點擊“著者詳情”,即可查看所連接的人物行跡圖。
看似便利的閱讀體驗,離不開前期的重重把關。據介紹,上傳到“智慧古籍平臺”的文獻資料將經過OCR識別、機器標點、人工校對、專家審核、機器標引、標引審核等程序,審核無誤后,才能在前臺發(fā)布。
OCR識別即“光學字符識別”技術。該技術能較為精確地識別版刻古籍,將圖像中的文字轉換成文本格式。同時,憑借機器古籍標點技術,可在古籍文本上自動標注現代中文標點符號,兩者的準確率都達90%以上。
在古籍整理上,該平臺利用眾包技術,在中國乃至世界范圍內遴選和組建專業(yè)團隊,突破團隊人員數量和地域的限制,完成線上古籍整理。
該團隊相關負責人表示,該平臺的建設,將進一步推進古籍數據資源的整合和開放共享,改變“數據在中國,數據庫在國外”的局面,在為讀者掃除古代文獻閱讀障礙,推動古籍閱讀普及化的同時,激活學者的研究成果,突破學術圈的壁壘,將前沿的學術研究成果轉化為社會大眾共享的文化資源。
作者:童笑雨
資料來源:中國新聞網