古彝文傳承至今已有數千年歷史,是世界上最古老的文字之一。2022年12月21日,合合信息與上海大學社會學院正式簽署校企合作協議,雙方將合力完成以國家珍貴古籍《西南彝志》為中心的貴州古彝文圖像識別及數字化校對項目(簡稱“古彝文數字化項目”)。
上海大學社會學院院長黃曉春、合合信息智能技術平臺事業部副總經理郭豐俊共同出席簽約儀式
此前,在中國西南多家高校的共同努力下,規范和通用彝文的數字化工作取得了重要突破,而上海大學攜手合合信息推進的古彝文數字化項目,更側重于對原生態彝文識別的攻堅克難。項目將根據上海大學古彝文研究員設計的四字節編碼系統,引入合合信息智能文字識別技術,對異體字、變體字、誤用字和混用字等進行標注、識別、比對,并由此建立起精確的彝文古籍電子數據庫,在古彝文研究領域屬于首創。
亟待識別的古彝文,比《康熙字典》字數還多 彝文是云南、貴州、四川等地的彝族人使用的文字,而“古彝文”專指在民間流通使用的原生態彝文。根據《滇川黔桂彝文字集》,目前記錄在冊的古彝文多達87046個。非母語研究者在翻譯古彝文時,通常需要在母語者的幫助下記音,再用漢語逐字直譯,最后采用漢語對整句話進行意譯。
由于古彝文尚未取得預留的Unicode編碼區段,數字化工程還處于起步階段,所以在印刷出版時,需由一位彝文繕寫員先將彝文字和國際編碼抄寫在書頁的左側,再將已輸入電腦的漢文譯文打印、剪切后粘貼在相應彝文字的右側,形成目前常見的“四行體”彝漢文對譯,過程相對繁瑣。
畢節市彝文文獻翻譯研究中心展示漢譯書稿
古彝文與漢字并非一一對應關系,存在大量的異體字、變體字。在相對規范的漢譯本彝文典籍中就有至少15%的變體字,原稿中只會更多;每個字的異體寫法少則2-3個,多則幾十種。從總量上看,未經整理規范的古彝文字符數高達八萬七千多個,比《康熙字典》的四萬七千余字還多。據古彝文數字化團隊研究人員透露,若想要找到某個字在一本古籍里的全部樣例,手動查閱需要耗費一整天,如建立起完善的古彝文數據庫和翻譯系統,可極大提升研究效率。
表示“種類”的彝文字[mo21]/[m?33]的四個極為相似的變體
兩個形似、但音義完全不同的彝文字,字義分別為“酒”、“儀禮”
“漢文古籍識別所面對的頁面殘損、字形復雜、字跡模糊等問題,在彝文古籍識別中全部存在,還有一些任務是更加特殊的。”合合信息智能技術平臺事業部副總經理郭豐俊博士提到,彝文古籍時常出現加字、替字、整句倒置、文字方向不統一等現象,給文字定位造成挑戰。再加上古彝文從未經過統一,異體字、變體字眾多。合合信息將基于“AI+OCR”融合下的智能文字識別技術,解決古彝文識別的版式檢測、圖像處理和文字識別的難題。
據悉,2021年、2022年世界人工智能大會上,合合信息用AI技術對甲骨文、西周鐘鼎文進行精準識別,受到包括央視、人民日報、新華社在內的上百家主流媒體的關注。郭豐俊博士表示,甲骨文和古彝文追溯源頭都屬于以刻畫符號表意的文字,兩種文字的識別方式有相通之處,此次古彝文數字化項目的開啟,也成為合合信息智能文字識別技術賦能文字保護及文化傳承的重要里程碑。
用科技開啟古彝文“傳統的新生命周期” 1950年,當代著名社會學家費孝通先生訪問貴州畢節時,率先認識到彝文古籍對理解西南邊疆歷史的重要性,并鼓勵籌建翻譯機構,也為當下的古彝文研究提供了支持。古彝文數字化項目發起人、上海大學人類學民俗學研究所講師邵文苑所在的上海大學社會學院,便長期設有費孝通田野調查項目資助計劃。
古籍數字化的過程同時也是保護古籍的過程。2017年,72位全國人大代表聯名建議實施中華古籍數字資源總庫體系建設工程,實現歷史文明的有序傳承。本次合合信息與上海大學共同研究的《西南彝志》共計26卷,有“彝族歷史文化的百科全書”之譽,對研究彝族歷史、經濟、文化十分重要。
古彝文數字化的價值并不止步于學術研究。隨著我國小康社會的全面建成,人們對精神文化關注度日益提升,以民俗為主題的現代文藝創作、娛樂活動讓傳統文化煥發新的生機,例如中央歌劇院演繹的柯爾克孜族英雄史詩《瑪納斯》,既尊重了民族文化特色,又體現了新時代的風采。
邵文苑提到,古彝文文獻和口傳史詩中記錄了很多南詔古國、夜郎古國、巴蜀古國的奇聞異事,在理解典籍的基礎上,可以通過電影、音樂劇、浸入式戲劇等形式進行創作,或打造“元宇宙”世界、IP主題樂園,讓更多人跨越語種的隔閡,感受更多元的民族文化,傾聽獨具特色的中國故事。
“傳統也和人一樣有生老病死的過程,并和人一樣有通過后代延續‘生命’的能力,這種理論被稱為‘傳統的生命周期’。”邵文苑表示,智能文字識別技術“牽手”傳統典籍研究,會是古彝文“傳統的新生命周期”的開始。