人工智能時代,你知道機器人的視覺系統如何看世界嗎?
人類透過機器視覺如何看世界?
人類通過機器視覺獲得了無所不在的視頻信息,從視頻娛樂、視頻聊天、實況直播,到企業會議、安防監控、智能制造,人們時刻都在享受視頻帶來的便利與多樣化體驗。
視頻以其直觀、方便、信息詳實等優勢,已成為文字和圖片之外另一種更高級的基本信息載體,在多方面重塑世界的運行方式。
人們通過監控視頻追求安全高效,通過通信視頻追求交互式的溝通,通過娛樂視頻追求超高清、立體的娛樂體驗,這背后都是對高帶寬、低時延、云化、融合、開放的網絡的需求。作為社會各行業數字化轉型的重要使能元素,視頻正從一項基礎業務演變為企業的核心能力。
改變了生產方式
具備“可視”能力的機械臂和機器人在工業4.0時代實現了自動裝配、智能生產,機器的“可視”快速準確地定位潛在的安全漏洞并實時預警,既提高了生產、運營效率,又確保了生產安全。
改變了溝通方式
從手機、平板到電腦、電視,視頻通信的媒介日益豐富,極大提升了個人和企業的通信效率并降低了溝通成本;
改變了娛樂方式
AR/VR等技術在游戲、影視、直播等領域日益走俏,給人們帶來了更具沉浸感和交互感娛樂視頻的立體體驗。
視頻傳遞的信息量是語音文字的幾何倍數,對數據流量和分析能力都構成很大壓力。整個視頻生態還需更智能的視頻處理系統以及更優質的網絡寬帶作為支撐。
機器人視覺如何看世界?
從“看得見”、到“看得清”、走向“看得懂”
視覺智能即通過人工智能后臺支撐的計算機視覺系統
從“看得見”、到“看得清”、走向“看得懂”
人之所以擁有智力,與不停接收外界的信息刺激是息息相關的。想象一個剛出生的嬰兒,其所有的感覺器官都由于疾病失靈了,沒有辦法看、聽、聞、觸摸,在這種情況下,即使大腦在生理上是正常的,也不可能發展出什么智能來。
視覺是人接收的所有信息刺激中非常重要的一部分。由此構建一個人工智能系統,處理好視覺感知同樣是必不可少的。
計算機視覺(Computer Vision)
這類視覺感知被稱為計算機視覺(Computer Vision),簡單定義一下就是,給定一幅或者多幅圖像(就像人類視網膜感光形成的圖像信號),讓機器理解其中的內容——里面有什么東西,它們之間的關系如何,整個圖像信號意味著什么,等等。在5到10年前,包括學術界研究者在內的絕大多數人都會認為,計算機視覺是人工智能的關聯學科,而不是包含關系,人工智能主要面向讓機器掌握學習、知識推理的能力,而計算機視覺則主要負責視覺的感知,是一個更淺層、更前級的東西。
然而,隨著研究的不斷深入,特別是深度學習在計算機視覺領域的一些最新進展,使得人們逐漸認識到,視覺不僅僅是感知層面的東西,大量與語義能力相關的高級智能與視覺是密不可分、息息相關的。
如果能夠解決圖像場景的理解問題,真正的智能也許就不再遙遠。因此可以說,計算機視覺本身蘊含更深遠的通用智能的問題,視覺智能即人工智能。
機器人視覺看世界的難點
計算機一般通過攝像頭來觀察世界,看到(Seeing)和感知到(Perceiving)對計算機來說,存在巨大的不同。
如下圖中,一個字母a的圖像,計算機讀取到的是一串數字。如何讓計算機通過這串數字,知道其代表的是字母a,這就是計算機視覺,也是人工智能需要解決的問題。乍看起來這似乎很簡單。
圖1
但是再看看下面的圖。所有的圖像都代表字母a,人作為智能生物,能夠不費吹灰之力將這些字符讀取出來。而計算機看到的則是完全不同的數字串。
圖2
如何從這些完全不同的數字串中讓計算機產生a這個概念,圖2比圖1難度大了許多。
但這還僅僅是簡單的情況,自然圖像中的字母a可能出現在路牌上、廣告中,與其他不相干的大量背景混雜在一起,光線產生不同變化等等,計算機要從中找到并且理解字母a就更難了。
從上述例子可以看出,計算機視覺的主要任務是從紛繁復雜的圖像像素的變化中,總結并表達出其中不變的因素,即一些固定的概念。而自然界中帶有固定概念的物體,通過光線反射到攝像頭傳感器(可以稱作計算機的視網膜),得到的傳感器的響應(上面例子中所說的數字字符串)則是千變萬化的。從變化的像素到語義的概念,計算機視覺經過
幾十年的發展,通過特征表達和監督學習,取得了長足的進步。還是以字符識別為例,現代的智能系統能夠在數碼相機或手機拍攝的照片中,找到并且識別其中的文字,例如門牌號、餐館的名稱、指示牌等等。這些文字有不同的字體,拍攝的角度有不同的變化,或在不同光線條件下拍攝,仍然能夠被系統識別出來。
深度學習亟需突破
計算機視覺最為關鍵的部分是圖像的特征表達,其本質是找到一個數字串,來代表輸入的圖像。圖像本身對應的數字串,就是一種特征表達,只不過這種表達是像素級別的、非常低級的表達,在圖像代表的概念不變的情況下,稍有風吹草動,對應的數字串則會發生巨大的變化。
我們認為更高級的表達,意味著概念不變的情況下,圖像變化并
不會帶來對應數字串的巨大改變。最高級的表達即是語義概念本身。在深度學習流行之前,大量的計算機視覺研究主要集中在怎樣通過經驗結合數學的方法,來人工設計一種表達。
例如在字符a的識別中,通過觀察可以發現,像素的顏色和a這個概念并不強相關,而由不同的像素組成的邊界,并且由邊界組成的形狀和a這個概念是緊密相連的。
因此,在這里設計一種數字表達,來刻畫像素形成的邊界和形狀是可行的,這能夠克服一定的圖像變化帶來的變量,例如背景顏色的變化,光線的變化等,對于視角的變化也有一定的容忍性。
不過,這種設計往往是具體問題具體分析的,比如設計用來做字符識別的,不能夠用來做動物的識別。對比之下,人類對物體的視覺識別,光線從視網膜射入,經過各級處理之后得到高級概念的通道幾乎是不變的,不會有多套機制來針對不同的概念。如何找到一種方法,使得機器能夠模擬人的神經網絡在特征表達上的特點,即同一種特征表達能夠推廣到很多應用領域,是計算機視覺一直以來的目標。
人工神經網絡
從20世紀40年代開始,人們就考慮通過數學來描述神經元的表現,這是人工神經網絡的起源。到了六七十年代,這一概念迅速發展,但是很快陷入停滯。當時人們設計的神經網絡都比較淺,大概只有兩三層,其表達能力非常有限。如果設計更深的、更多層的網絡,則會導致訓練極其困難。
卷積神經網絡
后來,人們開始注意到一種由很多小的卷積濾波器組成的神經網絡。著名計算機科學家Yann LeCun等人基于此,在80年代設計了一系列更深的神經網絡,達到7~8層,這些神經網絡在當時的條件下,是可以被訓練的。通過在手寫郵政編碼識別上的優異性能,卷積神經網絡逐漸被人們所熟知。經過多年的潛伏和一系列的改進,卷積神經網絡這一工具終于在ImageNet上的大規模自然圖像分類中,大比分領先擊敗了幾乎所有的傳統方法,從而確定了其在圖像識別檢測領域的王者地位。
計算機視覺的深度學習
在當下主流的計算機視覺研究中,深度學習成了必不可少的方法。
由于Google、微軟、Facebook、百度等公司的推動,深度學習在實際問題的解決中扮演越來越重要的角色,在圖像檢索、視頻監控、自動駕駛的視覺感知等應用領域開始成為標準工具。其在產業界的優勢也開始顯現出來。
應用數據的掌握和訓練是產業界的優勢,而訓練大規模神經網絡最重要的一點就是需要海量的數據,經過人的指導,在訓練中提升神經網絡的表達性能。原來訓練人工設計的表達,所需要的數據量一般在幾千到幾萬樣本,大規模神經網絡則需要百萬量級甚至更多的樣本,
例如在自動駕駛的應用中,訓練的視頻樣本甚至可以達到數百萬小時。
這同時提出了一個新的挑戰:面對應用,數據從何而來?以自動駕駛
的視覺感知為例,要精準檢測攝像頭中出現的車輛、人物等目標,需要大量的圖像涵蓋不同的場景。
對于目前主流的監督學習來說,還需要人工將圖像中的人車等目標物體進行標注,再將標注的圖片用來訓練給定結構的神經網絡。主流的神經網絡都包含百萬甚至千萬量級的參數,需要海量的標注數據,由此產生的人力和時間成本都不容忽視,如何有效獲取足夠的樣本成為應用成功的關鍵。
樣本數據的解決方案目前有兩種,
第一種非常直接,是投入資源構建大型圖像數據庫,用來訓練基礎的數據表達。在面對新應用的時候,由于深度神經網絡的特征表達具有通用性,這些數據庫訓練出來的特征表達可以作為基礎應用,擴展到其他領域。目前國際上公開的數據庫ImageNet(image-net.org)走的就是這條路。
然而,通過人工監督進行深度學習的方法,顯然與人識別圖像是有巨大區別的。人只需要非常少量的樣本,就能獲得抽象的概念。這引導深度學習走向。
第二條道路,即所謂的從少量樣本中進行學習,寄希望于神經網絡學來的概念具有可組合性,例如通過車輪和車架的基礎概念模塊組合出獨輪、兩輪自行車的概念;同時具有因果性,即對于概念的組合能夠保持合理的因果結構,例如車輪不能在車架上面;還有自我學習能力。
目前,這一概念還在萌芽階段,如果能夠取得實質意義上的突破,將會使得視覺智能更進一步,也必將促進人工智能的飛躍發展。
計算機視覺的未來應用
激光雷達系統LiDAR、圖像處理和車聯網結合,讓駕駛更安全便捷
協助大型事件活動安全檢查,統計人數現場實時監測
作為人類與人工智能互動的輸入手段
實現在工業制造中的自動化操作和監控
可用于地理建模、醫學圖像分析等
三、利用機器智能視覺看世界
天眼系統
1)實現全網智能“視頻云”,從前端、邊緣到云中心全網分布式智能
通過超高清智能攝像機的多維感知能力,將智能分析處理前移,讓中心更專注于大數據解析、數據挖掘,從海量視頻數據中快速發現價值線索,有效支撐決策判斷;
2)聯網共享,實現異構平臺互聯,極速調閱跨域信息
聯網共享,最大化監控視頻價值, 統一行業標準、利用多協議網關使能異構平臺(公安、交通、旅游)互聯互通。分級分域建設中通過智能關聯實現各平臺視頻極速調閱;
3)通過云化平臺提高資源利用率,實現業務彈性、快速上線
應對視頻監控行業發展新變化,打造云化視頻平臺,優化系統網絡架構,按需靈活分配計算、存儲、網絡資源,提升資源利用率,實現彈性擴展,加快業務上線速度;
4)保障信息安全,防范數據丟失泄漏
加大對視頻監控網絡安全的投入,綜合考慮端、管、云側的安全防護措施,有效保障系統安全、信息安全、數據安全、隱私安全;
5)機器視覺生態化合作,快速集成系統和標準的應用
積極參與生態合作,集成優秀算法和開發通用系統、標準,加速第三方應用快速集成,滿足行業用戶業務的持續演進和發展創新需求。