表格是文檔中常見的對象。從學生經常填寫的報名表,到辦公場景中涉及的財務報表、票據,表格識別的需求廣泛存在于個人生活、社會生產之中。尤其在進入九月之后,隨著高校開學,企業開始著手下一年度的發展規劃,表格處理的任務不斷加重。高精確度的表格識別技術能夠大幅節省文件處理時間,是合合信息智能文字識別技術中,圖像處理和復雜場景文字識別技術的重要應用。
用深度學習技術解決表格識別難點 表格識別主要包括表格檢測和表格結構識別兩大任務。表格檢測主要檢測表格主體,即從圖片中確認表格區域;表格結構識別是對表格區域進行分析,提取表格中的數據與結構信息,得到表格的行列邏輯結構。
兩大任務均具有相當的復雜性。首先,表格類別多樣,根據有無邊框可以分為有線表、少線表、無線表等。從有線表、少線表到無線表,表格識別難度逐漸增加。同時,表格文件中常見的背景填充、單元格行列合并等情況,會進一步增加表格識別難度。其他外部因素,如圖片傾斜褶皺、背景干擾等問題,都會對表格識別帶來挑戰。
合合信息通用智能文字識別引擎對合并單元格表格進行識別
近年來人工智能技術飛速發展,計算機視覺(CV)、自然語言處理(NLP)和圖神經網絡等深度學習方法被廣泛引入表格識別任務中,例如語義分割、目標檢測、序列預測等。在16年領域深耕中,合合信息智能文字識別技術覆蓋了圖片、PDF格式文檔中多種類的表格識別需求,包括有線表,三線表,無線表等,并且支持合并單元格、多表格并存等復雜情況的識別。
基于分治思想,合合信息引入深度學習技術,將表格識別分為有線表識別和無線表識別兩種方案。有線表識別中,合合信息利用語義分割、角點回歸等技術方案還原有線表,在財報相關表格識別測試中,有線表識別單元格結構準確率高于98%。
無線表識別是表格識別中的難點,教科書上的部分統計表、藥品配方表,都存在框線不完整甚至無框線的情況。無線表缺少表格線,直接套用有線表識別方案無法得到理想的表格結構。合合信息無線表識別采用序列模型、規則匹配等方案,通過自研模型直接預測表格的邏輯結構,再得到表格的物理結構,在保證表格區域內容的完整性的同時,檢測準確率較傳統方法顯著提升。
合合信息通用智能文字識別引擎對無線表格進行識別
智能文字識別助力文件處理效率指數級提升 現階段,合合信息智能文字識別技術中的表格識別技術已被應用于以“掃描全能王”為代表的C端APP中,通過“文件轉換excel”功能服務于大眾生活和辦公需求。生活中,用戶可以使用掃描全能王隨手拍下手邊的清單、個人合同、說明書等,APP將提煉其中的表格內容,起到備忘作用;辦公場景下,使用者可掃描、拍攝工作文件,提取圖片、PDF中的文字內容,并將其轉化為可編輯文檔,便于二次編輯和分享。近半年來,“文件轉換excel”相關功能累計被調用百萬次。
B端領域中,作為合合信息智能文字識別引擎中的重要模塊,表格識別技術已落地在保險、銀行、證券等行業中,應用于合同、銀行流水、物流單據識別等多個場景。以財務場景為例,合合信息表格識別技術被應用于企業發票與訂單的數字全流程管理中,曾助力全球知名汽車零配件供應商偉巴斯特實現票據智能掃描、識別、驗真、合規自動檢查、發票與訂單數據匹配、數字化數據、影像留存等全流程財稅管理,作業效率提升500%~1000%。
據悉,合合信息曾在2019年國際文檔分析識別大會(ICDAR)中獲得表格識別競賽的冠軍。公司智能文字識別相關技術還在國際頂會ICPR、ICFHR 等競賽中獲得十余項冠軍,并于CVPR、AAAI、ACL、ACM MM等國際頂會上發表。