沃豐科技GaussMind,人人都能理解的深度學習
文章摘要:深度學習(deeplearning),顧名思義,是一種深層次的學習,也是學習的一種。我們先看看人類是如何學習的。以幼兒園教授兒童認識漢字為例,按照漢字從簡單到復雜的順序,讓小朋友反復看每個漢字的各種寫法,并...
深度學習(deep learning),顧名思義,是一種深層次的學習,也是學習的一種。我們先看看人類是如何學習的。
以幼兒園教授兒童認識漢字為例,按照漢字從簡單到復雜的順序,讓小朋友反復看每個漢字的各種寫法,并自己臨摹??吹枚嗔耍匀痪陀涀×恕O麓卧僖姷酵粋€字,就很容易能認出來。
認字時,一定是小朋友的大腦在接受許多遍相似圖像的刺激后,為每個漢字總結出了某種規(guī)律性的東西,下次大腦再看到符合這種規(guī)律的圖案,考試就知道是什么字了。計算機認字時,也要先把每一個字的圖案反復看很多很多遍,然后,在計算機的大腦(處理器加上存儲器)里,總結出一個規(guī)律來,以后計算機再看到類似的圖案,只要符合之前總結的規(guī)律,計算機就能知道這圖案到底是什么字。
圖1:識字類比機器學習
用專業(yè)的術語來說,計算機用來學習的、反復看的圖片叫“訓練數(shù)據(jù)集”;“訓練數(shù)據(jù)集”中,一類數(shù)據(jù)區(qū)別于另一類數(shù)據(jù)的不同方面的屬性或特質,叫做“特征”;計算機在“大腦”中總結規(guī)律的過程,叫“建?!保挥嬎銠C在“大腦”中總結出的規(guī)律,就是我們常說的“模型”;而計算機通過反復看圖,總結出規(guī)律,然后學會認字的過程,就叫“機器學習”。這里大家可能會有疑惑,如果新出現(xiàn)了沒學習過的字,那模型不是永遠不可能得出正確答案嗎?確實是這樣,對于分類問題而言,訓練集中沒有的類別,在測試集中是不會得到該類別的。這跟我們識字一樣,例如我們考試中出現(xiàn)了“淼”這個字,但是我們壓根沒學過,我們可能根據(jù)偏旁猜測,其為“水”的讀音。同樣,機器也會以一種方式進行猜測,而得到答案。
圖2:高考類比機器學習
學習的過程再舉個例子,如上圖2所示,我們高中的時候為了取得優(yōu)異的高考成績,會進行多次的模擬考試,如果答案正確,我們相當開心。如果答案錯誤呢?我們便會尋求他人幫助或者查閱資料等,這個過程就是在積累經驗(也就是在調整誤差);通過查閱資料,我們大腦又進行了思考,認為此時想出的答案是正確的,最終便得到調整后的答案。通過不斷糾正錯誤的答案與對正確答案的歸納總結,逐步加強認知,進而取得優(yōu)異的高考成績。如果讓計算機來參加高考。模擬考試的數(shù)據(jù)叫“訓練集”,電腦總結的規(guī)律叫“模型”,計算機做模擬題總結規(guī)律的過程,叫“建?!?。計算機通過不斷的模擬考試進而模擬出更強規(guī)律取得更高高考成績的過程,就叫“機器學習”,而深度學習是實現(xiàn)機器學習的一種技術手段。深度學習是通過構建具有很多隱層的機器學習模型和海量的訓練數(shù)據(jù),來學習更有用的特征,從而最終提升分類或預測的準確性。也就是說,深度學習的基本構造是神經網絡,而特點是網絡的深度變深了(其實就是隱藏層多了),更加突出特征學習的重要性。
圖3:思考類比模型
類比于人類解決問題的過程,大腦的思考就是深度學習的模型,是一個非常復雜的過程。學者們從生物神經網絡得到靈感,構建了人工神經網絡來幫助電腦完成類似大腦思考的工作也就是構建模型。從根本上說,深度學習和所有機器學習方法一樣,是一種用數(shù)學模型對真實世界中的特定問題進行建模,以解決該領域內相似問題的過程。
圖4:神經網絡
我們現(xiàn)在有了神經網絡,這個網絡究竟是怎樣學習的?其中的權重是如何調節(jié)的?我們可以把神經網絡看成一個給一個輸入就能給一個輸出的黑盒子。在從模擬題學習做高考題的例子中,我們可以認為這個黑盒可以學習到那些組成題的基本的公式或者基礎知識,根據(jù)這些知識便可以順利作出同樣依靠這些公式或者知識的題了。
以教小朋友識別數(shù)字為例。老師會把0到9這十個數(shù)字不厭其煩的教授,直到寫一個數(shù)字,學生便可以讀出這個數(shù)字是幾。而計算機是怎么完成這個任務的呢?如圖所示,輸入手寫的0,計算機是如何能正確將其歸為“0”這一類的。
圖5:手寫數(shù)字0
首先,圖像在計算機中需要被轉換成數(shù)字矩陣的形式,便于計算機識別。如圖6所示,利用14*14的像素數(shù)字矩陣來表示圖片,每個像素點用0-1的數(shù)字表示,顏色越深越接近1,空白的部分便用0表示。
圖6:數(shù)字1的矩陣化
然后我們準備一批標注好的數(shù)據(jù),如圖7所示。圖中可以看到不同人的手寫方式不同,寫數(shù)字有非常多的寫法,但不同的寫法之間仍然有一些相似性,人可以識別出來并且打上標簽,之后利用數(shù)據(jù)進行模型的構建,即從數(shù)據(jù)中發(fā)現(xiàn)數(shù)字隱含的規(guī)律。
圖7:手寫數(shù)字訓練集
根據(jù)模型結構的不同,深度模型有多種不同的構建方式,例如下圖所示的卷積神經網絡(CNN)模型,將手寫數(shù)字3的圖片先經過卷積層(大致思路是用一個卷積核來過濾圖像的各個區(qū)域,得到這些小區(qū)域的特征值)利用卷積核的特性,抽取出手寫數(shù)字的關鍵信息。實際應用中,我們會使用多個卷積核抽取圖片中各個維度的特征,例如垂直邊緣,水平邊緣,數(shù)字輪廓等。之后連接池化層(主要是為了進一步降低維度即降低計算量,下圖中可以看到一個輸入為32*32的矩陣在池化層時已經將數(shù)據(jù)量縮小為5*5),及全連接層(為了預測最終結果,從圖中可以看出經過這一層會將圖片對應到0到9數(shù)字的某一個上進行輸出),共同構建出CNN模型用來預測手寫數(shù)字。目前,在這項任務上準確率已經可以高達99%以上。
圖8:構建CNN模型進行手寫數(shù)字識別
上文形象的敘述了什么是深度學習,并使用兒童學字與中學生參加高考舉例來類比機器如何通過深度學習進行訓練然后預測。之后簡單介紹了使用CNN來構建手寫數(shù)字識別模型。
沃豐科技Udesk是國內領先的智能服務平臺,擁有數(shù)萬家云上企業(yè)用戶,通過整合AI、大數(shù)據(jù)、云計算為企業(yè)提供了一套集文本/?語音機器人、智能質檢、智能助手、全渠道客服、?現(xiàn)場服務、WFO、數(shù)據(jù)分析為一體的全場景智能客戶體驗解決方案。
沃豐科技Udesk客戶有光大銀行、中國人壽、國家電網、故宮博物院、海底撈、星巴克、中青旅耀悅、希爾頓酒店、伊利、蒙牛、自如、巧虎、養(yǎng)樂多、李寧、殼牌、埃克森美孚、史丹利百得、施耐德電氣、OPPO、林肯汽車、順豐等。覆蓋了股份銀行、餐飲、本地生活、旅游等行業(yè)。
沃豐科技Udesk于2018年9月和2020年3月先后完成C輪和C+輪共5.5億人民幣融資,投資方為老虎環(huán)球基金、Coatue、君聯(lián)資本、DCM。
文章為沃豐科技原創(chuàng),轉載需注明來源:http://www.yzny.net.cn/ucm/update/15966
