現(xiàn)在位置:主頁(yè) > 科技 > 文本提取一秒搞定 華為OCR技術(shù)到底厲害在哪?

文本提取一秒搞定 華為OCR技術(shù)到底厲害在哪?

作者:編輯 ? 時(shí)間:2020-03-24 ? 瀏覽:人次

在生活和工作中,你是不是經(jīng)常會(huì)遇到這樣的情況:培訓(xùn)時(shí),手機(jī)里拍了一堆PPT資料,回去一個(gè)字一個(gè)字手動(dòng)錄入。瀏覽網(wǎng)頁(yè)時(shí),找到了想要的資料,但是發(fā)現(xiàn)“Ctrl+C、Ctrl+V”不起作用,只能截圖先保存著。

而想要把圖片或紙質(zhì)文件上的內(nèi)容變成電子文檔,其實(shí)不需那么繁瑣。華為手機(jī)上的文本提取功能可以快速提取屏幕上的文字,且支持電話號(hào)碼、郵件、網(wǎng)站一步跳轉(zhuǎn),助力高效辦公。

智慧視覺(jué)神操作,分分鐘搞定文本提取

那么,這么好用的文本提取功能到底怎么用?其實(shí)這就要從我們的手機(jī)攝像頭說(shuō)起,可別小瞧了這個(gè)攝像頭,它可是隱藏在手機(jī)里的智慧眼??防?、翻譯、識(shí)物……一掃便知。文字提取功能只是屬于智慧視覺(jué)的一小部分,想要文本提取,就要先打開(kāi)智慧視覺(jué)。

那么如何進(jìn)入智慧視覺(jué)呢?

一是通過(guò)手機(jī)桌面空白處下拉進(jìn)入全局搜索,點(diǎn)擊右上角“智慧視覺(jué)”圖標(biāo);二是打開(kāi)手機(jī)相機(jī),點(diǎn)擊左上角“智慧視覺(jué)”圖標(biāo),三是直接喚醒華為智慧助手小藝說(shuō)“打開(kāi)智慧視覺(jué)”即可。

配圖為EMUI10版本界面圖,不同機(jī)型、版本請(qǐng)以實(shí)物為準(zhǔn)

進(jìn)入智慧視覺(jué)后,在“識(shí)物”模式下,對(duì)著需要提取文字的圖片掃一掃,點(diǎn)擊文字區(qū)域,出現(xiàn)藍(lán)色光標(biāo)后,根據(jù)自己的需要拖選文字,點(diǎn)擊“復(fù)制文字”即可提取相關(guān)文字。

配圖為EMUI10版本界面圖,不同機(jī)型、版本請(qǐng)以實(shí)物為準(zhǔn)

文本提取變簡(jiǎn)單的神器是TA

文本提取功能不僅操作方法簡(jiǎn)單,而且能夠快速且準(zhǔn)確地錄入一些紙質(zhì)文檔,也能夠提取圖片中需要的文字信息,方便大家的工作和生活。對(duì)于能把圖片上的文字一字不漏地提取下來(lái),究竟依賴(lài)的是什么秘密武器?其實(shí)秘密就在OCR技術(shù)。

OCR的秘密都在這里

很多小伙伴會(huì)問(wèn)OCR是什么?其實(shí)OCR即光學(xué)字符識(shí)別(Optical Character Recognition),是一種對(duì)圖片中存在文字的區(qū)域進(jìn)行定位,再將定位的區(qū)域進(jìn)行識(shí)別,并將其轉(zhuǎn)換成計(jì)算機(jī)文字的過(guò)程。在這里的應(yīng)用,就是在智能鏡頭的AR場(chǎng)景里,對(duì)鏡頭所拍攝到畫(huà)面中的文本進(jìn)行定位(檢測(cè))和識(shí)別,最后借助NLP(Natural Language Processing)輸出文本識(shí)別結(jié)果。那么,技術(shù)實(shí)現(xiàn)要經(jīng)過(guò)哪些流程呢?

Step1:檢測(cè)+識(shí)別,O?CR檢測(cè)模型作用凸顯

當(dāng)我們的鏡頭對(duì)準(zhǔn)需要提取文本的材料時(shí),當(dāng)前的畫(huà)面會(huì)以圖片形式送入OCR檢測(cè)模型。在檢測(cè)模型中,圖片首先會(huì)經(jīng)過(guò)負(fù)責(zé)檢測(cè)的卷積神經(jīng)網(wǎng),像人眼睛一樣的卷積神經(jīng)網(wǎng)會(huì)把圖片中的文字信息提取出來(lái)變成特征圖。檢測(cè)模型根據(jù)這些特征圖,預(yù)測(cè)圖片中的哪些區(qū)域是文本區(qū)域,并輸出相應(yīng)坐標(biāo),以便從原圖中截取出來(lái)作為識(shí)別模型輸入。

接下來(lái),負(fù)責(zé)識(shí)別的卷積神經(jīng)網(wǎng)會(huì)對(duì)這些識(shí)別模型進(jìn)行特征提取,提取到的特征信息被送入循環(huán)神經(jīng)網(wǎng),循環(huán)神經(jīng)網(wǎng)就像我們的大腦,會(huì)處理、加工、判斷、推理所獲得的信息,最終得到圖片中的文字信息。

當(dāng)我們的鏡頭對(duì)準(zhǔn)需要提取文本的材料時(shí),當(dāng)前的畫(huà)面會(huì)以圖片形式送入OCR檢測(cè)模型。在檢測(cè)模型中,圖片會(huì)經(jīng)過(guò)檢測(cè)和識(shí)別兩個(gè)環(huán)節(jié),最終得到圖片中的文字信息

Step2:校正+優(yōu)化,OCR是個(gè)完美主義

通常情況下,檢測(cè)和識(shí)別出的文本通常需要再次核對(duì)以保證其正確性。這是由于在AR場(chǎng)景中,通過(guò)OCR技術(shù)檢測(cè)到鏡頭畫(huà)面的文字,將文本區(qū)域高亮后展示給用戶(hù),得到的文檔往往都不是很完美,很可能帶有傾斜或重影;而文字追蹤功能保證當(dāng)鏡頭移動(dòng)導(dǎo)致拍攝畫(huà)面抖動(dòng)時(shí),檢測(cè)到的文本區(qū)域保持在原來(lái)的位置不變。

在這基礎(chǔ)上,需先進(jìn)行圖像預(yù)處理,做角度矯正和去噪,接著對(duì)文檔版面進(jìn)行分析,將各個(gè)字符送入訓(xùn)練好的OCR識(shí)別模型進(jìn)行字符識(shí)別,得到結(jié)果,最后還需要對(duì)其進(jìn)行識(shí)別結(jié)果的校正和優(yōu)化。

Step3:定幀后,拖一拖,復(fù)制文字輕松搞定

當(dāng)用戶(hù)希望屏幕畫(huà)面固定不動(dòng),可以點(diǎn)擊檢測(cè)到的文本行,這時(shí)屏幕會(huì)定幀,用戶(hù)可手動(dòng)選擇對(duì)檢測(cè)和識(shí)別到的文字內(nèi)容進(jìn)行拖選,其效果類(lèi)似于在文本文檔里,用鼠標(biāo)對(duì)文本內(nèi)容進(jìn)行拖選。

要實(shí)現(xiàn)文本區(qū)域內(nèi)拖選的功能,就需要用到整行拖選技術(shù)。文字整行拖選技術(shù)主要是根據(jù)OCR檢測(cè)模型輸出文本區(qū)域的坐標(biāo),通過(guò)識(shí)別用戶(hù)的點(diǎn)擊事件,實(shí)時(shí)記錄用戶(hù)點(diǎn)擊的位置,并通過(guò)上層UX對(duì)用戶(hù)拖選到的區(qū)域進(jìn)行高亮。經(jīng)歷一系列的操作,最后把可復(fù)制的文字呈現(xiàn)在用戶(hù)面前。

文本提取有哪些難點(diǎn)與挑戰(zhàn)?

看似簡(jiǎn)單操作的文本提取,實(shí)際要克服的困難可不少。文字的字體、字號(hào)、顏色等不統(tǒng)一,容易被誤識(shí)別;語(yǔ)言種類(lèi)繁多,中文、英文、數(shù)字等多種語(yǔ)言混合出現(xiàn),識(shí)別難度大;識(shí)別時(shí),不可預(yù)測(cè)光線變化、圖片不清、背景復(fù)雜干擾等等,這些都給文本提取帶來(lái)了不小的困難。

對(duì)于上述的困難,基于華為OCR技術(shù)于業(yè)內(nèi)領(lǐng)先的深度學(xué)習(xí)文字定位功能和文字識(shí)別技術(shù),無(wú)論是生活中復(fù)雜多變場(chǎng)景,還是不同光照條件,華為OCR技術(shù)能支持多場(chǎng)景、任意版面的文字識(shí)別提取,具備英文和數(shù)字、多語(yǔ)種(包括中文、日文、韓語(yǔ)、阿拉伯語(yǔ)、英語(yǔ)和歐洲五國(guó)語(yǔ)言等)、以及超過(guò)7000個(gè)常用漢字的簡(jiǎn)繁體識(shí)別能力,同時(shí)還具有多種垂直場(chǎng)景的識(shí)別能力,支持識(shí)別如身份證、銀行卡、名片、駕駛證等,滿(mǎn)足生活中大部分場(chǎng)景的文本提取需求。

OCR技術(shù)作為AI技術(shù)的支撐,是一種強(qiáng)有力的識(shí)別方式。文字提取、識(shí)別物品、掃描習(xí)題、翻譯外文時(shí)大多都需要依靠OCR技術(shù),使用方法簡(jiǎn)單方便。如果你正好有華為手機(jī),不妨體驗(yàn)一下。

轉(zhuǎn)載請(qǐng)保留原文鏈接:http://parkingblocks4less.com/a/keji/2020/0324/42875.html上一篇:上一篇:云從科技姚志強(qiáng):把握人口結(jié)構(gòu)變化帶來(lái)的數(shù)字化機(jī)遇
下一篇:下一篇:沒(méi)有了