現(xiàn)在位置:主頁(yè) > 教育 > 好未來(lái)AI背后的故事——教育OCR“4個(gè)9”的極限追求

好未來(lái)AI背后的故事——教育OCR“4個(gè)9”的極限追求

作者:編輯 ? 時(shí)間:2021-04-15 ? 瀏覽:人次

打開(kāi)題拍拍,首先映入眼簾的是一幅拍照畫(huà)面。當(dāng)你將習(xí)題拍攝入框時(shí),便可立即得到相匹配的題目解析。別看這個(gè)過(guò)程如此迅捷,背后的學(xué)問(wèn)可不簡(jiǎn)單。這個(gè)識(shí)別圖像里文字的技術(shù)叫作OCR,全稱(chēng)是Optical Character Recognition,中文名為光學(xué)字符識(shí)別。

OCR這項(xiàng)技術(shù)其實(shí)并不新鮮,早在1929年德國(guó)科學(xué)家Tausheck便提出了OCR技術(shù)的概念。隨后在六七十年代世界各國(guó)就開(kāi)展了系統(tǒng)的研究。但由于識(shí)別率和設(shè)備成本等問(wèn)題,早期的OCR軟件一直離民用很遠(yuǎn)。進(jìn)入數(shù)字時(shí)代后,幫助機(jī)器理解物理世界成為了時(shí)代命題,OCR作為數(shù)字世界的眼睛,其重要性也在不斷提升,圍繞OCR的技術(shù)日新月異,但大多解決的仍是通用印刷體的識(shí)別問(wèn)題。

教育場(chǎng)景需要的OCR技術(shù)有其特殊之處。學(xué)生將手機(jī)鏡頭對(duì)準(zhǔn)的,往往是一張卷子或者一頁(yè)練習(xí)冊(cè)。同時(shí)入框的不僅有多個(gè)習(xí)題,還會(huì)有很多學(xué)生答題的手寫(xiě)筆跡,甚至還有混在一起的文字與公式包括手寫(xiě)算式。如果沒(méi)有專(zhuān)為教育場(chǎng)景研究的OCR技術(shù),識(shí)別這些特殊場(chǎng)景中的文字往往是很難做到的。因此,好未來(lái)自研出了一套適合智慧教育的OCR技術(shù)。

從零到一,萬(wàn)丈高樓平地起

好未來(lái)AI中臺(tái)成立伊始,就將教育OCR作為重點(diǎn)發(fā)力的研究領(lǐng)域之一。教育OCR包括印刷OCR、手寫(xiě)OCR、公式OCR、表格OCR、版面結(jié)構(gòu)化識(shí)別等等。彼時(shí),無(wú)論學(xué)術(shù)界還是教育行業(yè)內(nèi),都沒(méi)有成熟的公式識(shí)別方案。因此,好未來(lái)AI中臺(tái)將公式識(shí)別技術(shù)作為研究的重點(diǎn),開(kāi)始了從零向一摸索的過(guò)程。

圖片1.png

圖:好未來(lái)OCR技術(shù)應(yīng)用于教育場(chǎng)景的能力類(lèi)型

公式識(shí)別具有鮮明的行業(yè)色彩和行業(yè)壁壘。

公式識(shí)別算法的基礎(chǔ)是數(shù)據(jù)。在這一方面,好未來(lái)多年的教育積累有了用武之地,各年級(jí)、各學(xué)科五花八門(mén)的真實(shí)習(xí)題為AI中臺(tái)提供了充足的數(shù)據(jù)“彈藥”。OCR團(tuán)隊(duì)在短時(shí)間內(nèi)基于CRNN卷積循環(huán)神經(jīng)網(wǎng)絡(luò),一個(gè)識(shí)別場(chǎng)景文字的常用方法,創(chuàng)新研發(fā)出能支持簡(jiǎn)單公式的序列識(shí)別算法和基于公式字符分離的重建識(shí)別算法。這兩大能力,讓AI可以初步理解試卷上的公式和文字,而且可以像人腦一樣從左到右、從上到下地進(jìn)行結(jié)構(gòu)化智能理解。

雖然這時(shí)的識(shí)別準(zhǔn)確率還有待提升,但標(biāo)志著算法研發(fā)進(jìn)入了第二階段——探索印刷公式識(shí)別的最佳方案,提升準(zhǔn)確率。好未來(lái)吸收學(xué)術(shù)界的公式研究成果,在兩個(gè)月內(nèi)通過(guò)數(shù)百萬(wàn)個(gè)數(shù)據(jù)驗(yàn)證算法可行性,最終形成了有特色的算法框架,引入增強(qiáng)語(yǔ)義和避免漂移的網(wǎng)絡(luò)結(jié)構(gòu),并提升算法對(duì)模糊數(shù)據(jù)、多層嵌套數(shù)據(jù)的泛化性。經(jīng)過(guò)攻堅(jiān),此階段的印刷公式識(shí)別在學(xué)生拍照搜題的核心場(chǎng)景中得以應(yīng)用并大幅提升理科題目的搜索正確率。與此同時(shí),好未來(lái)在教育場(chǎng)景的公式數(shù)據(jù)盲測(cè)中達(dá)到領(lǐng)先水平。

好未來(lái)公式識(shí)別的第三階段最具挑戰(zhàn)性。在學(xué)生實(shí)際使用中,還會(huì)出現(xiàn)手寫(xiě)風(fēng)格不同、字跡潦草、隨意多行、字體大小不一和角度傾斜等各種問(wèn)題,特別是低年級(jí)的學(xué)生手寫(xiě)筆跡相比成年人還有顯著差異。

圖片2.png

圖:復(fù)雜的實(shí)際答題圖片,好未來(lái)OCR依然能準(zhǔn)確識(shí)別

AI中臺(tái)與各業(yè)務(wù)線合作,為OCR提供了學(xué)生學(xué)習(xí)和作答的海量且真實(shí)的筆跡數(shù)據(jù),幫助算法實(shí)現(xiàn)數(shù)據(jù)從0到百萬(wàn)的突破。同時(shí),算法也積極開(kāi)展多項(xiàng)創(chuàng)新,不僅實(shí)現(xiàn)多風(fēng)格數(shù)據(jù)遷移和增強(qiáng),也在多行識(shí)別中取得技術(shù)突破并形成技術(shù)優(yōu)勢(shì)。

截至目前,好未來(lái)自研教育OCR已經(jīng)實(shí)現(xiàn)了通用公式識(shí)別,即適用印刷文字與手寫(xiě)文字混合、多行文字與高級(jí)公式混合等復(fù)雜場(chǎng)景,很好地支持了題拍拍的印刷手寫(xiě)一體化拍搜功能。

從90到99.99,行百里者半九十

解決了能力準(zhǔn)確性和多樣性的問(wèn)題,還需要達(dá)成可用性——又要穩(wěn)定又要快。

先從“穩(wěn)定”講起。

在業(yè)內(nèi)有一句話:“搜索的準(zhǔn)確率每提升1,所需的題庫(kù)成本就要以千萬(wàn)計(jì)”。作為一家有18年教學(xué)經(jīng)驗(yàn)和數(shù)據(jù)沉淀的科技教育公司,好未來(lái)將技術(shù)中臺(tái)與前臺(tái)業(yè)務(wù)相結(jié)合,使得技術(shù)人既能快速感知到用戶(hù)需求,又能得到大量教育數(shù)據(jù)的反哺,盡可能以技術(shù)和數(shù)據(jù)驅(qū)動(dòng)降低成本。于是,AI中臺(tái)和題拍拍團(tuán)隊(duì)聯(lián)合,挖掘可以為拍照搜題“提升1”的每一個(gè)技術(shù)點(diǎn)。合作至今,教育OCR為這每一個(gè)“1”展開(kāi)了多項(xiàng)的技術(shù)專(zhuān)題攻堅(jiān),形成一系列的創(chuàng)新實(shí)踐并成功落地。教育OCR永遠(yuǎn)保持對(duì)技術(shù)的追求,持續(xù)開(kāi)拓新的技術(shù)能力,為智慧教育提供技術(shù)支撐。

AI中臺(tái)和題拍拍組成了高度協(xié)同的One team機(jī)制,雙方出專(zhuān)人專(zhuān)項(xiàng)每周一起研究前線最新問(wèn)題,并制定最高標(biāo)準(zhǔn)的可用性推進(jìn)目標(biāo)。雙方達(dá)成了一個(gè)有趣的“對(duì)賭協(xié)議”:在規(guī)定時(shí)間內(nèi),如果AI中臺(tái)每多實(shí)現(xiàn)一個(gè)9即可用性從實(shí)現(xiàn)90到99、再到99.9、99.99……,則由題拍拍團(tuán)隊(duì)提供“美食激勵(lì)”,反之則由AI中臺(tái)承擔(dān)。

雙方以高技術(shù)標(biāo)準(zhǔn)堅(jiān)守教育初心,懷著創(chuàng)業(yè)的激情擼起袖子加油干,當(dāng)遇到難以解決的艱難問(wèn)題時(shí),在線會(huì)議常常從晚上七點(diǎn)不知不覺(jué)就開(kāi)到了半夜兩三點(diǎn)。會(huì)議從公司到地鐵,再開(kāi)到家中,地鐵的速度根本追不上每個(gè)參會(huì)者頭腦風(fēng)暴的速度。

然而當(dāng)99.99可用性目標(biāo)實(shí)現(xiàn)的那一刻,投身其中的研發(fā)老師們反而沒(méi)有預(yù)想中的歡呼雀躍和狂歡慶祝,“大家互相看了看對(duì)方臉上的黑眼圈,腦子里想的是還有更多的技術(shù)挑戰(zhàn)等待去解決,這大概就是水到渠成吧。”一位項(xiàng)目組伙伴回想起那個(gè)時(shí)刻,平靜地說(shuō)。

這是讓每個(gè)參與者都難忘的一段飛馳,非齊心協(xié)力的共創(chuàng)精神無(wú)以到達(dá),如好未來(lái)的價(jià)值觀所言——為熱愛(ài)全力以赴。

千鈞一發(fā),好產(chǎn)品不違人心

再來(lái)講講“快”。

為了盡可能為產(chǎn)品提速,算法的每一模塊都被單獨(dú)拎出來(lái)重構(gòu)提速,資源占用優(yōu)化提升了百分之三十五。好未來(lái)AI中臺(tái)的技術(shù)人用一周時(shí)間便做到了算法層面的毫秒級(jí)響應(yīng)。也就是說(shuō),如果題庫(kù)中已收錄,學(xué)生最慢也可以在一秒以?xún)?nèi)獲得滿(mǎn)意的解答。

好未來(lái)的另一條很重要的價(jià)值觀是:“一切從用戶(hù)出發(fā)”。產(chǎn)品好不好,歸根結(jié)底還是要看能否經(jīng)得起用戶(hù)的考驗(yàn)。

一位媽媽講述了她的真實(shí)故事。

最開(kāi)始,這位母親下載了市面上許多拍照搜題類(lèi)軟件,但是一個(gè)月后,她只留下了題拍拍。這是因?yàn)樗l(fā)現(xiàn),別的拍照搜題的app在搜索整張卷子的題目時(shí),框選每道題的位置都需要手動(dòng)二次調(diào)整校準(zhǔn),而題拍拍可以精準(zhǔn)框選并直接生成每道題的解析,這一個(gè)小小的技術(shù)精進(jìn)卻幫助這位母親節(jié)省了大量輔導(dǎo)孩子的時(shí)間。

這一位用戶(hù)的最終選擇,離不開(kāi)好未來(lái)產(chǎn)研人對(duì)技術(shù)和體驗(yàn)的極致追求。

QQ截圖20210414150511.jpg

圖:自動(dòng)分割框選出不同試題

題拍拍是AI中臺(tái)的一段征程,AI中臺(tái)已將其中“久經(jīng)考驗(yàn)”的教育OCR技術(shù)形成Hawkeye教育通用OCR解決方案,涵蓋中英文識(shí)別和公式識(shí)別,支持手寫(xiě)和印刷,并將支持表格識(shí)別和重建還原,服務(wù)于中英文作文批改、題庫(kù)試卷錄入等更多業(yè)務(wù)場(chǎng)景。據(jù)悉,Hawkeye解決方案在印刷體識(shí)別、手寫(xiě)體識(shí)別、公式識(shí)別、表格識(shí)別、整頁(yè)框選、綜合識(shí)別的六大核心能力指標(biāo)里,已全部處于市場(chǎng)領(lǐng)先水平。

開(kāi)放共創(chuàng),智慧教育全速啟航

好未來(lái)不斷投入對(duì)教育OCR的研究,也吸引著學(xué)術(shù)屆、技術(shù)圈對(duì)教育領(lǐng)域OCR技術(shù)的重視。2020年9月,好未來(lái)就以“教育手寫(xiě)公式識(shí)別”為賽題,依托智慧教育國(guó)家新一代人工智能開(kāi)放創(chuàng)新平臺(tái),聯(lián)合科學(xué)技術(shù)部火炬高技術(shù)產(chǎn)業(yè)開(kāi)發(fā)中心、北京市科學(xué)技術(shù)委員會(huì),舉辦了“第五屆中國(guó)創(chuàng)新挑戰(zhàn)賽·智慧教育專(zhuān)題賽”。

賽事吸引了來(lái)自清華、北大、中科大等高校,阿里、百度等互聯(lián)網(wǎng)企業(yè),以及中科院計(jì)算所、中科院自動(dòng)化所等研究院所約數(shù)百支隊(duì)伍參賽,參賽隊(duì)伍人才濟(jì)濟(jì),涵蓋國(guó)際賽事的冠軍團(tuán)隊(duì)、中國(guó)圖形圖象學(xué)學(xué)會(huì)CSIG常務(wù)理事及專(zhuān)委會(huì)主任等眾多專(zhuān)業(yè)選手與優(yōu)秀的OCR團(tuán)隊(duì)。

比賽中,好未來(lái)為業(yè)界提供了20萬(wàn)張各教育場(chǎng)景下的手寫(xiě)公式訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù),以遠(yuǎn)超各個(gè)開(kāi)源學(xué)術(shù)數(shù)據(jù)集的數(shù)據(jù)體量和復(fù)雜性,為參賽團(tuán)隊(duì)提供了充足的“彈藥”,助推行業(yè)伙伴共同碰撞出手寫(xiě)公式識(shí)別技術(shù)新的發(fā)展方向。

同時(shí),好未來(lái)依托正在承建的智慧教育國(guó)家新一代人工智能開(kāi)放創(chuàng)新平臺(tái),將優(yōu)秀的教育OCR能力逐步面向全行業(yè)開(kāi)放,幫助教育行業(yè)內(nèi)暫時(shí)沒(méi)有AI、沒(méi)有OCR能力的機(jī)構(gòu)和創(chuàng)業(yè)者快速發(fā)展。

而這只是故事的開(kāi)始。在向極致攀登的路上,挑戰(zhàn)只會(huì)更多,沒(méi)有捷徑。愛(ài)和科技,終將指引我們抵達(dá)教育事業(yè)的星辰大海。

轉(zhuǎn)載請(qǐng)保留原文鏈接:http://www.parkingblocks4less.com/a/jiaoyu/20210415/64851.html上一篇:上一篇:房山區(qū)開(kāi)展政法隊(duì)伍教育整頓集中“開(kāi)放日”活動(dòng)
下一篇:下一篇:沒(méi)有了