• <u id="j7xcw"><thead id="j7xcw"></thead></u>

    <wbr id="j7xcw"><table id="j7xcw"><button id="j7xcw"></button></table></wbr>
    <u id="j7xcw"></u>

      1. <wbr id="j7xcw"></wbr>
        <input id="j7xcw"></input>

        中國企業報集團主管主辦

        中國企業信息交流平臺

        微博 微信

        如何提升智能文檔處理識別精度?合合信息“版面分析”實現新突破

        2023-04-13 16:35 來源:中國企業網 次閱讀
         
        如何提升智能文檔處理識別精度?合合信息“版面分析”實現新突破

          春季是繁忙的播種季,學生黨迎來了開學季和緊張的研究生復試,職場人士也需要處理新簽業務帶來的大量不同類型的文件,比如合同、發票、檔案等。這些文件在被拍照、掃描成電子文檔的過程中,時常存在漏字、錯位現象。究其原因,有個看似“冷門”卻關鍵的技術點極大地影響了文字識別效果,這個技術便是“版面分析”。

          近期,人工智能及大數據科技企業合合信息持續突破版面分析技術在版面分割、區域間的邏輯關系處理等方面的難題,通過智能文字識別、智能圖像處理等核心技術,助力使用者從各類復雜的圖片文檔中精準獲取信息。

          深度學習助力版面分析“泛化”難題突破

          版面分析的目的是讓機器“看懂”文檔結構,即將文檔圖像分割成不同類型內容的區域,并分析區域之間的關系,這是內容識別之前的關鍵步驟。

          據中國科學院自動化研究所多模態人工智能系統全國重點實驗室聯合多所高校發布的論文顯示,版面分析主要包括物理版面分析(區域分割、分類,文本檢測與定位,文本行分割等),手寫及印刷區分,表格分析(單元格提取與關系分析),邏輯版面分析(區域語義分類、閱讀順序),以及簽名、圖標、印章等版面元素的提取等。

          總體而言,版面分析任務被分為物理版面分析(或稱為幾何版面分析)和邏輯版面分析兩類,前者主要解決區域分割問題,后者則關注區域之間的邏輯關系或閱讀順序。

          從上世紀80年代開始,較多專門研究版面分析的工作成果開始涌現,此后經歷了多番理念方法迭代。傳統的版面分析方法在進行版面布局分析和表格處理時會明顯受制于版式差異,在應對不同場景下的文檔圖片時泛化效果存在缺陷,而深度神經網絡的引入有效解決了這些問題。

          合合信息技術人員在采訪中提到,得益于全卷積神經網絡(FCN)和圖神經網絡(GNN)的突破,文檔版面分析的方法和性能得到了很大發展。公司基于深度學習的方法,結合文本區域的幾何坐標、視覺特征、文本語義等多種模態信息對文本閱讀順序進行預測,顯著提升分類結果。

        合合信息智能文字識別服務平臺對存在圖片、表格的復雜文檔進行識別


          同時,合合信息表格結構解析方法在邏輯版面分析中也發揮了重要作用,主要包括自上而下的方法、自下而上的方法以及端到端圖像到標記的方法等。在財報相關表格識別測試中,有線表識別單元格結構準確率高于98%;無線表識別中,在保證表格區域內容的完整性的同時,檢測準確率較傳統方法顯著提升。

          教育、商務、文保,“小”技術有大應用

          近期,中共中央、國務院印發《數字中國建設整體布局規劃》,“數字中國”的建設邁上了新的征程。版面分析是實現文檔信息數字化的重要能力,解決了版面分析的痛點,有助于各界用戶將圖像文檔以數字化的手段更精準地轉化為文檔數據,提升工作效率。

          對于研究人員或學生群體而言,版面分析與OCR技術的結合可以廣泛應用于課件、試卷、作業、學術論文等材料的數字化處理,自動識別和提取多種教育類文檔文本、圖像、公式、表格等元素進行不同場景的應用,簡化教學和學習過程。

          商務場景中,版面分析與OCR技術能自動識別和提取財務數據、圖表、文本等信息,并將印刷財報轉換為可分析的電子數據,在處理不同類型的財務報表時,能夠提升報告分析效率和準確性,幫助相關人員實現公司財務報告、審計報告、年度報告等文件的自動處理和分析。

        合合信息智能文字識別服務平臺對財務文件進行處理


          此外,版面分析相關技術還可作用于文化保護,通過自動識別和提取各種類型書籍的表格、圖像信息,將不同時代、多種印刷版式、多種概念的紙質圖樣按照符合人類理解的格式進行電子化存儲,幫助實現文獻、古籍、報紙、雜志等資料的數字化和知識管理。

          相關研究表明,現階段,針對復雜版面文檔和拍照變形文檔的分析識別仍存在性能不足的情況。這個細小卻重要的技術還需要更多的研究機構及科技企業加入進來,共同推動理論的研究與應用的突破。

        點贊()
        上一條:上海海洋大學“偉大工程”示范黨課開講2023-04-13
        下一條:國家管網:首次盾構隧道內管道油品泄漏應急演練在蘭成功舉辦2023-04-13

        相關稿件

        清華“博士團”齊聚合合信息,共話人工智能技術應用未來 2023-04-04
        10分鐘完成模型開發!合合信息智能文字識別服務平臺亮相1024程序員節 2022-10-25
        挑戰“大師級”閱讀理解,合合信息智能文字識別技術亮相2022世界人工智能大會 2022-09-01
        中國圖象圖形學學會牽手合合信息舉辦“CSIG企業行”活動,共探圖文智能處理技術與多場景應用發展 2023-03-22
        表格識別總是不夠精準?合合信息旗下掃描全能王這樣“解題” 2022-09-21
        國務院國有資產管理委員會 中國企業聯合會 中國企業報 中國社會經濟網 中國國際電子商務網 新浪財經 鳳凰財經 中國報告基地 企業社會責任中國網 杭州網 中國產經新聞網 環球企業家 華北新聞網 和諧中國網 天機網 中貿網 湖南經濟新聞網 翼牛網 東莞二手房 中國經濟網 中國企業網黃金展位頻道 硅谷網 東方經濟網 華訊財經 網站目錄 全景網 中南網 美通社 大佳網 火爆網 跨考研招網 當代金融家雜志 借貸撮合網 大公財經 誠搜網 中國鋼鐵現貨網 證券之星 融易在線 2014世界杯 中華魂網 納稅人俱樂部 慧業網 商界網 品牌家 中國國資報道 金融界 中國農業新聞網 中國招商聯盟 和訊股票 經濟網 中國數據分析行業網 中國報道網 九州新聞網 投資界 北京科技創新企業誠信聯盟網 中國白銀網 炣燃科技 中企媒資網 中國石油化工集團 中國保利集團公司 東風汽車公司 中國化工集團公司 中國電信集團公司 華為技術有限公司 廈門銀鷺食品有限公司 中國恒天集團有限公司 濱州東方地毯集團有限公司 大唐電信科技股份有限公司 中國誠通控股集團有限公司 喜來健醫療器械有限公司 中國能源建設股份有限公司 內蒙古伊利實業集團股份有限公司 中國移動通信集團公司 中國化工集團公司 貴州茅臺酒股份有限公司
        亚洲黄色无码免费网站_亚洲国产精品综合久久久_国产成人观看免费全部完_亚洲日韩精品中文字幕第21页
      1. <u id="j7xcw"><thead id="j7xcw"></thead></u>

        <wbr id="j7xcw"><table id="j7xcw"><button id="j7xcw"></button></table></wbr>
        <u id="j7xcw"></u>

          1. <wbr id="j7xcw"></wbr>
            <input id="j7xcw"></input>
            中文字幕乱码女一区二区三区 | 亚洲欧美另类图片区综合区 | 日本一卡久久伊人 | 一级国产片在线观看免费 | 免费看国产大片AV | 在线视频一区二区三区在线播放 |