時間:2023-12-26 10:41:08
引言:易發(fā)表網(wǎng)憑借豐富的文秘實踐,為您精心挑選了九篇計算機視覺前沿技術范例。如需獲取更多原創(chuàng)內(nèi)容,可隨時聯(lián)系我們的客服老師。
最近幾年,自動駕駛成為當下最為熱門的科技領域之一,許多企業(yè)紛紛將目光轉向該領域,諸如谷歌、百度、英特爾、Uber、豐田、本田、福特等科技和車企巨頭都在該領域有相關研究。在國內(nèi),除了高舉無人車大旗的百度,許多創(chuàng)業(yè)公司也在研究自動駕駛技術,圖森互聯(lián)即其中之一。
9月19日,國內(nèi)計算機視覺與人工智能創(chuàng)業(yè)企業(yè)圖森互聯(lián)宣布,他們研發(fā)的計算機視覺與深度學習算法在全球最權威、最具影響力的自動駕駛算法公開排行榜KITTI和Cityscapes評測數(shù)據(jù)集上均獲得世界第一。僅KITTI數(shù)據(jù)集中,圖森互聯(lián)獲得目標檢測三個單項、目標追蹤兩個單項、道路分割四個單項,共計九個單項的全部世界第一。
那么,在當前,自動駕駛技術究竟有哪些等級?市面上的自動駕駛技術都有哪些陣營?產(chǎn)品落地情況又如何?基于這些問題,《汽車觀察》記者對有著十年并行和分布式運算研究經(jīng)歷、曾是淡馬錫國家實驗室研究員、現(xiàn)為圖森互聯(lián)聯(lián)合創(chuàng)始人的南洋理工大學博士郝佳男進行了獨家采訪。以下為部分采訪實錄:
《汽車觀察》:圖森做自動駕駛技術項目的初衷是什么,單純就是看到了這塊的市場需求與前景嗎?
郝佳男:首先,圖森是做圖像識別SaaS起家,在技術上有一定的積累,自動駕駛所用到的計算機視覺感知技術和圖像識別SaaS在很多方面是同源的;另外,對于自動駕駛,特別是主要基于視覺傳感器的自動駕駛,有很高的技術壁壘,圖森能夠很好地發(fā)揮自己的長處;第三,運營車輛對自動駕駛和無人駕駛存在較大的需求,因為自動駕駛和無人駕駛可以極大地減少這些運營車輛企業(yè)的人力成本和潛在的安全風險,而且無人車可以持續(xù)運營,這對企業(yè)來說是生產(chǎn)效率的飛躍。
《汽車觀察》:目前,在國際上自動駕駛技術分為幾個等級?圖森的自動駕駛技術又是幾級的技術?在國內(nèi)外算是一個什么水平?
郝佳男:目前自動駕駛有L1-L5五個等級,L5是人們最期待的完全無人駕駛水平,眾人熟知的谷歌無人駕駛在目前只能算是L4級水平。圖森的主要目標是通過低成本傳感器實現(xiàn)可靠的L3級別無人駕駛。
目前行業(yè)內(nèi)的標桿是以色列的Mobileye。但目前Mobileye量產(chǎn)的芯片依然使用傳統(tǒng)非深度學習算法,因此在一些特定場景中(如車側面、非常見車型等)會出現(xiàn)錯誤。最近Tesla發(fā)生的車毀人亡事故就一個例子。圖森的技術方案基于深度學習構建,能夠?qū)崿F(xiàn)更可靠的性能。
《汽車觀察》:目前的自動駕駛技術有哪幾類?它們的本質(zhì)區(qū)別在哪里?分別有哪些優(yōu)勢?
郝佳男:目前,市面上共有兩種解決方案:一種是計算機視覺為主、毫米波雷達為輔的低價解決方案;另一種是激光雷達為主、以攝像頭為輔的高價解決方案。
以谷歌和百度為代表的是以激光雷達為主、攝像頭為輔的高價解決方案,成本在50萬以上。比如Google的無人駕駛車輛,在這個技術路線中,車輛完全由人工智能來駕駛,可以將車輛的方向盤、油門和剎車去掉,同時,為了增加技術的可靠性,Google無人駕駛汽車以激光雷達為核心,一個64線的激光雷達成本在7萬美元左右,整體解決方案較貴。另外,激光雷達的硬件可靠性一般,也很難達到車規(guī)需求。但是這兩家上市企業(yè)出于市值管理的考慮,在這方面不計成本。對他們來說,新技術所能達到的程度帶來的新聞和公關效力,會大幅地抬高股價。但這種成本過高的技術,在商業(yè)化應用時會比較困難。
而選擇低價解決方案更容易被車廠、受眾所接受。以特斯拉、奔馳、沃爾沃等車廠為代表的漸進型自動駕駛,即先從輔助駕駛開始做起,在特定場景、或是特定的封閉結構化路段適用,做出緊急剎車、自適應巡航、車道保持、自動泊車等動作,后續(xù)涉入高度自動駕駛,即除了結構化路段外,還能在非結構化道路上自動駕駛。
圖森就屬于低價解決方案,即選擇低成本的硬件(毫米波雷達、視覺傳感器、高性能SoC),配合計算機視覺算法來降低總成本。傳感器承擔的精度要求降下來,那么對算法的要求就比較高了。
《汽車觀察》:目前的自動駕駛技術是如何實現(xiàn)自動駕駛的?能實現(xiàn)到怎樣程度的自動駕駛?
郝佳男:自動駕駛系統(tǒng)使用了多種傳感器來感知,其中可視為廣義“視覺”的有超聲波雷達、毫米波雷達、激光雷達(LiDAR)和攝像頭等。毫米波雷達和激光雷達承擔了主要的中長距測距和環(huán)境感知,而攝像頭主要用于交通信號燈、車輛、行人等物體的識別。
攝像頭拍到的視頻其實也是由一幀幀圖像形成。拍下來是一回事,通過計算得出圖像里的行人、車輛、信號燈等結構化數(shù)據(jù)則是另一回事。在過去,這被視為不可想象的任務。但深度學習的發(fā)展讓基于視覺的感知技術獲得了大幅度提升,基于視覺的環(huán)境感知變得可行了。
《汽車觀察》:目前,市面上的自動駕駛技術在產(chǎn)品化的情況如何?有沒有落地的產(chǎn)品正在運營?
郝佳男:對于整個自動駕駛行業(yè)來說,產(chǎn)品化需要漫長的時間,可能需要2-3年的時間。圖森主要還是為主機廠和Tier1(一級零部件供應商)提供以攝像頭為主、配合毫米波雷達和視覺芯片的、低成本的自動駕駛解決方案。
《汽車觀察》:自長安的無人駕駛路試后,國家開始出臺相關禁止自動駕駛路試的政策,這樣一來,整個研發(fā)自動駕駛技術的企業(yè)又該如何測試自己的技術?如何看待國家有關自動駕駛這方面的政策?
團隊背景
海歸博士立志用無人駕駛保障交通安全
MINIEYE致力于打造世界領先的車載視覺感知技術和產(chǎn)品,提供前裝和后裝的ADAS解決方案及產(chǎn)品。其原理是通過攝像頭檢測、識別、追蹤路面物體,即時收集數(shù)據(jù)并加以分析,協(xié)助駕駛員預先察覺到包括追尾、偏離車道、碰撞行人、超速在內(nèi)的潛在路面危險,防患于未然。
MINIEYE創(chuàng)始人及CEO劉國清表示,相關數(shù)據(jù)顯示,中國每年有將近6萬人死于交通事故,而近年來的研究表明,89.1%的事故都是源自于駕駛員的誤判和操作不當。MINIEYE運用計算機視覺技術和先進的算法,可以極大地避免這些事故的發(fā)生。產(chǎn)品上的攝像頭就如MINIEYE的名字一樣,是一顆安裝在車上的“小眼睛”,隨時掃描著路面情況,保障駕駛安全。
從2013年成立至今,MINIEYE團隊已經(jīng)擁有包括海歸博士和優(yōu)秀工程師在內(nèi)的50多名研發(fā)人員。團隊成員中有的畢業(yè)于美國佐治亞理工學院、加州大學、法國科學院、清華大學、中科大等國內(nèi)外知名高校,也有的曾就職于德爾福、意法半導體、Intel、BAT等行業(yè)巨頭。目前其總部位于深圳南山,另在南京設有一個研發(fā)中心和一個數(shù)據(jù)中心。
但你也許沒想到,MINIEYE脫胎于南洋理工大學的實驗室里。2012年,當時正在新加坡南洋理工大學攻讀博士學位的劉國清,主持了新加坡政府媒體發(fā)展局和南洋理工大學聯(lián)合發(fā)起的高級駕駛輔助項目。他在這個項目中看到了高級輔助駕駛和無人駕駛的前景所在,并在次年博士畢業(yè)后拒絕知名科研所的工作,拉著幾個在新加坡的小伙伴,回國創(chuàng)業(yè)。“當時回國,一個是因為國內(nèi)的創(chuàng)業(yè)氛圍比較好;另一個是因為無人駕駛在國內(nèi)的市場非常大,不僅能夠提升駕駛安全,還能夠緩解城市擁堵等問題。”
技術優(yōu)勢
應用深度學習、本地化車輛檢測超過Mobileye
用計算機視覺技術來檢測識別物體已然不新鮮,但深度學習的到來讓計算機視覺技術迅速發(fā)展,檢測識別率大大提高。而MINIEYE使用的正是基于深度學習的視覺感知技術。劉國清解釋說:“傳統(tǒng)的算法是告訴你車的特征,而深度學習是通過大量的圖片來訓練系統(tǒng)自己提取特征,學習特征。這種方法提取的特征更加準確,這是傳統(tǒng)算法無法實現(xiàn)的。”
利用這項技術,MINIEYE目前對車輛和車道線的檢測率均達到99.9%。
除了做到專業(yè)、領先之外,劉國清還力圖體現(xiàn)MINIEYE的差異性,從而在競爭中脫穎而出。劉國清回國之前,仔細研究了國內(nèi)的市場,發(fā)現(xiàn)還是一片空白。但在國際市場上,以色列公司Mobileye已經(jīng)獨占鰲頭,這家公司因為和特斯拉合作而被大眾廣為知曉,目前占有全球ADAS市場約70%的份額。彼時Mobileye還尚未進軍中國市場,但劉國清已經(jīng)未雨綢繆,該如何面對這樣一個強大的對手呢?
“第一個是算法能力要和它相當;第二,我們要走本土化路線,研發(fā)符合中國人駕駛習慣和中國工況的產(chǎn)品。”在國內(nèi)道路上,經(jīng)常能見到一些渣土車、拖車等異型車,這些車輛奇形怪狀,對識別造成了不小的困難,基于國外路況設計的產(chǎn)品在碰到這些車輛時立馬“失明”,無法運作。原因是數(shù)據(jù)庫里面沒有錄入過這些“車”,所以無從提取特征去識別。
劉國清是國內(nèi)第一批堅持走ADAS本土化路線的人,因此從2014年開始,就已經(jīng)著手采集國內(nèi)車輛及車道數(shù)據(jù)。到目前為止,MINIEYE共有45輛數(shù)據(jù)采集車,在北京、深圳、南京等全國幾大城市采集數(shù)據(jù)。每天積累的里程超過一萬多公里,數(shù)據(jù)量約1.5TB。劉國清說:“近年來深度學習的出現(xiàn),大大加速了人工智能行業(yè)的發(fā)展。但深度學習的前提是需要有充足的數(shù)據(jù)量,所以我們很早就開始積累數(shù)據(jù),要盡可能多地覆蓋各種車型、天氣、光照、路況。現(xiàn)在我們在本地化的方向進行得很順利,在對國內(nèi)異型車的檢測方面,已經(jīng)優(yōu)于Mobileye了。”
業(yè)務布局
前后裝市場雙管齊下,從預警進軍控制階段
在市場布局上,MINIEYE的業(yè)務雙管齊下,兼顧前裝及后裝市場。前裝指的是整車出廠時就會裝備電子產(chǎn)品,因此MNIEYE的客戶群體是各大整車廠商。在2015年公司就和美國通用簽署了合作開發(fā)協(xié)議,目前已經(jīng)通過了第一輪定性測試,正在進行定量測試。而在后裝市場上,MINIEYE已經(jīng)和某公交集團達成訂單。據(jù)了解,MINIEYE在之前合作的對象基本是整車廠、Tier1或者公交集團等B端用戶,而在年底,MINIEYE將正式推出第一代后裝產(chǎn)品,除了滿足行業(yè)客戶的需求之外,還希望覆蓋個人C端用戶。
劉國清針對個人用戶做了市場調(diào)研,發(fā)現(xiàn)很多車主對駕駛安全非常重視,對ADAS產(chǎn)品很感興趣,但對這種先進技術不太了解。“我們即將的后裝產(chǎn)品,一方面是希望個人車主使用后給我們一些反饋,讓我們知道用戶的真實需求是什么,哪個功能好用,哪個功能需要繼續(xù)迭代;另一方面,我們也希望對市場起到一個普及作用,讓大家越來越了解這項技術。畢竟ADAS是無人駕駛的基石,有利于讓用戶循序漸進地去擁抱前沿技術。”
目前,C-NCAP已經(jīng)擬將ADAS中的AEB(自動緊急制動)功能納入2018年的評價規(guī)程,這代表著國家政策法規(guī)正在推動ADAS等主動安全功能的普及,無論前裝或后裝市場,都有著巨大的前景。在此利好下,劉國清透露,明年MINIEYE的計劃,一方面是要繼續(xù)迭代算法,和整車廠商進行實車驗證;另一方面是進一步開拓后裝市場,增加營收,利用后裝市場產(chǎn)生的銷售額來覆蓋前裝市場的研發(fā)投入,達到平衡。
“智能硬件”這個概念比較含糊,它其實涵蓋了多種商業(yè)方向,把凡是跟智能有關的都囊括進去不合適。
比如在京東、淘寶上眾籌的智能硬件,屬于消費電子類產(chǎn)品。去年看似挺火,但也沒出什么真正引爆市場的產(chǎn)品。做消費電子類智能硬件,競爭對手眾多,而且技術不是最重要的,品牌、渠道最才是關鍵。你的產(chǎn)品能否到達目標用戶群,你的產(chǎn)品能否滿足用戶對“智能化”較高的期望值,都是現(xiàn)實存在的問題。
到目前為止,北極光創(chuàng)投沒有真正投過消費類的智能硬件項目。我們更關注第二類應用在金融、醫(yī)療、安防等行業(yè)的“智能系統(tǒng)”(可能是硬件,也可能是軟件),跟巨頭行業(yè)結合的,有更大的發(fā)展機會。
需要提醒的是,做智能系統(tǒng)的思路不是設想某種智能化功能,再推廣到行業(yè),而是在有場景、有合作對象的前提下,為垂直行業(yè)提供智能化技術,這樣才知道應用的意義和重點。比如IB M的人工智能系統(tǒng),直指醫(yī)療活動的核心環(huán)節(jié),通過對比疾病的治療歷史、遺傳數(shù)據(jù)、診療影像等,給每位患者個性化的診斷建議。另外,隨著人工智能視覺算法的進步,在美國有人開發(fā)醫(yī)學影像的智能識別系統(tǒng),也是跟醫(yī)院一起做。
從今年的發(fā)展趨勢來看,會有更多原來做機器學習、計算機視覺的人投身各個細分行業(yè)開發(fā)智能系統(tǒng)。我們在這個領域布局比較早,比如汽車智能化就是其中一個看好的方向。但同時,這是個進展非常緩慢的市場,不是一兩年就能出成果。我們有耐性去等待,因為通過前沿技術重構行業(yè)價值鏈,更值得期待。
講述人:戈壁投資合伙人徐晨
市場上的很多智能硬件,其實就是在傳統(tǒng)消費電子之上增加了數(shù)據(jù)收集和數(shù)據(jù)反饋的功能而已。但消費者購買的時候只是把它作為輔助功能去考慮,光靠打智能化和數(shù)據(jù)的概念并不能真正吸引用用戶。何況消費電子是以渠道為驅(qū)動的,而銷售渠道很難差異化。換言之,同類產(chǎn)品之間很難產(chǎn)生實際性的差異并獲得用戶的持續(xù)關注度。按消費電子的發(fā)展路徑,很快就會進入低毛利的階段,加上小米、樂視在打造智能硬件的生態(tài)系統(tǒng),論壇品牌實力,任何小創(chuàng)業(yè)公司都難以比拼得過。我預計,消費電子類智能硬件接下來會面臨洗牌。
(1.清華大學電子工程系,北京100084;2.英特爾(中國)有限公司,北京100()13)
摘要:媒體與認知實驗課程是清華大學電子工程系在課程改革中提出的一門全新的核心必修課程。文章首先闡述該課程的特點,然后介紹基于英特爾RealSense設備及微軟Kinect設備開發(fā)的一套探索前沿型實驗教學平臺,分別說明基于手勢識別的博弈游戲?qū)嶒烅椖亢突谧藙葑R別的組合拍照實驗項目,指出通過這些前沿的基于交叉學科的智能感知技術和內(nèi)容,學生可以掌握成為本領域高層次專業(yè)人才必需的各項基本技能和專業(yè)知識。
關鍵詞 :RealSense;媒體認知;智能感知;機器學習;人機交互
文章編號:1672-5913(2015)15-0108-03 中圖分類號:G642
基金項目:英特爾一清華媒體與認知實驗教學項目( 202023011)。
第一作者簡介:楊毅,女,高級工程師,研究方向為數(shù)字信號處理,yangyy@mail.tsinghua.edu.cn。
1 背景
媒體與認知實驗課程借鑒包括美國MIT大學、CMU大學、Stanford大學、英國倫敦大學學院等在內(nèi)的國外著名大學跨媒體信息處理、入機交互與感知技術、虛擬現(xiàn)實及信號處理領域?qū)嶒灲虒W課程的特點,并結合清華大學電子工程系在該領域研究的基礎、優(yōu)勢和創(chuàng)新性成果,有針對性地將已有科研成果轉化為教學實驗課中的教學內(nèi)容,通過建設一套完整、全面的涵蓋人機感知交互、媒體信息處理、虛擬現(xiàn)實及信號處理領域的探索前沿型實驗教學平臺,培養(yǎng)學生的智能感知技術開發(fā)能力;同時,采用集體創(chuàng)新培養(yǎng)和個人研究探索相結合的方式,最終達到理工與人文、技術與藝術、感知與思考的高度融合,成為具有國際一流水平的、兼具科研創(chuàng)新能力和探索精神的領軍型人才。
實驗教學課程內(nèi)容及平臺涉及的主要研究內(nèi)容包括媒體數(shù)據(jù)獲取與人機交互、生物特征識別、語音識別及情感理解、虛擬交互行為分析等。該實驗課程力圖建設成為達到國際水平的智能感知技術實驗教學課程及項目平臺。通過該實驗課程的建立,學生能夠了解國際科學界及工業(yè)界最前沿的媒體認知及智能感知技術熱點和難點問題,利用平臺的基礎設施和設備構建并實施多種解決方案。跨行業(yè)、跨領域、跨學科的媒體認知及智能感知類前沿綜合實驗課程,通過借助智能感知及人機交互知識作為工具和手段解決媒體信息處理、虛擬現(xiàn)實及人機交互的問題,充分挖掘和激發(fā)理工科背景知識較佳的電子工程系學生在交叉學科和前沿技術方面的實力和潛力。
2 媒體與認知實驗課程特點
媒體與認知實驗設計開發(fā)了一套以實時智能感知技術為基礎的探索前沿型實驗教學平臺,該平臺在設備和設計內(nèi)容方面均與國際水平接軌,具有教學互促、知識延伸、技能拓展的特點。項目平臺涵蓋跨媒體信息處理、人機交互與感知技術、虛擬現(xiàn)實等領域的設備和技術,力圖成為與國際接軌的探索前沿型實時智能感知實驗教學平臺。
該課程涉及的技術和研究方向均為國內(nèi)外智能感知技術領域各大高校和科研院所的研究熱點及難點,將這些研究內(nèi)容引入實驗教學,可以引導本科學生開闊科研視野、堅定科研信念和明確科研方向。通過構建與國際最新研發(fā)技術水平相當?shù)膶嶒炂脚_,學生能夠了解國際領先的媒體認知及信號處理知識和技能,利用該平臺的基礎設備構建并實施多種解決方案;教學最終達到培養(yǎng)掌握國際領先技術、具有突出創(chuàng)新實踐能力和持續(xù)探索精神的高素質(zhì)人才的目的。
該平臺內(nèi)容主要面向各年級本科生及碩士研究生,與基礎核心課、專業(yè)限選課等課程配套,逐步形成層次清晰、逐級擴展的具有創(chuàng)新探索前沿性質(zhì)的智能感知技術教學實驗課程體系。
3 基于手勢識別的媒體認知實驗項目
人機交互的雙向信息流動是以媒體感知和處理為核心的。人將用戶感覺和效應通道傳遞的交互意圖在計算機內(nèi)表示為文本、語音、圖形、圖像等多媒體信息。人到機( human to computer)信息流動是多媒體信息的獲取及識別過程,計算機處理的信息需要以文本、語音、圖形、圖像等用戶理解概念所需的多媒體信息形式展現(xiàn)出來;機到人( computer to human)的信息流動是多媒體信息的合成和呈現(xiàn)過程,機器利用感知及推理對來自用戶感覺和效應通道的跨媒體信息進行識別、集成和協(xié)調(diào),獲取用戶動作和行為習慣、偏好及其他相關信息,以人類易理解的多媒體信息方式為用戶提供輸出信息,從而提供不受時空限制而效能最大化的個性化計算服務。
美國Stanford大學電子工程系提出一種基于Kinect的手勢識別方法,通過Kinect獲取RGB圖像信息和深度數(shù)據(jù),采用SURF變換算法實現(xiàn)高準確度的手勢識別。西班牙馬德里卡洛斯大學機器人實驗室( Robotics Lab,Univ. Carlos IIIof Madrid Leganes,Spain)針對傳統(tǒng)的手勢識別系統(tǒng)受光照條件影響導致計算量大、訓練過程長等問題,根據(jù)RGB-D攝像頭獲取的深度數(shù)據(jù)建立人手的骨骼模型,從三維骨骼模型中提取手勢的時域信號,采用有限狀態(tài)機對手勢不同狀態(tài)下的方向進行編碼,采用基于模板的分類器識別出手勢。瑞士蘇黎世聯(lián)邦理工大學計算機視覺實驗室( Computer Vision Lab,ETH Zurich,Zurich,Switzerland)提出一種基于Haarlet的手勢識別系統(tǒng),根據(jù)微軟Kinect設備獲取的深度信息檢測手勢的三維指向,將手勢轉換為交互命令,提高了人與機器人交互的自然性。
石頭、剪子、布、蜥蜴、史波克( Rock-Paper-scissors-Lizard-Spock)是一種由石頭、剪子、布延伸出來的博弈論猜拳游戲,在石頭、剪子、布基礎上增加了兩種手勢,減少了原來石頭、剪子、布游戲和局的幾率。該游戲的手勢及輸贏說明如圖1所示(圖來自百度圖片搜索)。
英特爾的RealSense設備是一種能通過采集視覺、深度,音頻等多種媒體信息獲得手勢、語音等表征意圖的智能感知設備,可以廣泛應用于自然互動、沉浸式協(xié)作與創(chuàng)作等創(chuàng)新應用,能夠幫助開發(fā)人員在游戲、娛樂和內(nèi)容創(chuàng)建交互方面實現(xiàn)新的突破。該實驗項目通過利用全新的英特爾三維智能感知設備RealSense,可以實現(xiàn)上述手勢識別的智能感知功能。該實驗設置多種難度,將簡單難度設置為電腦隨機出拳;針對高等難度則需要學習用戶的出拳模式并構建一個馬爾科夫模型,電腦針對用戶的出拳模式進行相應出拳。基于RealSense識別的5種手勢如圖2所示,可以看出ReaISense設備對不同手勢的區(qū)分度較高。
4 基于姿勢識別的媒體認知實驗項目
人體的三維模型包含足夠的信息以描述人體的運動特征,對于體感交互設計而言,姿態(tài)識別、動作識別、手勢識別非常重要。微軟推出的Kinect設備與計算機軟件開發(fā)包一起使用,為企業(yè)和開發(fā)者提供創(chuàng)建交互式應用程序的基礎,允許開發(fā)者借助微軟或語言開發(fā)相關應用,提供骨豁跟蹤、人臉跟蹤、語音識別技術等底層功能。基于Kinect設備開發(fā)的平臺和應用獲得了不錯的效果。藝術家通過人體組合姿勢構成英文里的各種字母形象,如圖3所示。
該實驗項目通過利用Kinect實現(xiàn)人體字母造型識別,在造型匹配某個特定字母或組合時觸發(fā)拍照,解決在實際拍照過程中為了擺出某一特定造型需要多次重復大量拍攝的問題。基本思路是利用Kinect的人體識別功能,在攝像頭獲得的圖像中提取出人置信息,然后將人置信息在本地程序中與預設的目標造型進行匹配,只有當匹配程度到達一定值的時候,程序才觸發(fā)拍攝事件并將圖像保存。系統(tǒng)由5個模塊組成:初始化、人體識別、計算匹配度、圖形顯示和拍照觸發(fā)。其中,初始化模塊屬于主窗口類,內(nèi)部由時間進行關聯(lián),其他模塊各為一類,分別通過調(diào)用函數(shù)和嵌入窗體的方式使用,其算法框架如圖4所示。系統(tǒng)運行過程中,計算出的匹配數(shù)值會直接顯示在屏幕上,同時彈出提示字幕,向用戶反饋其姿勢準確程度。
關鍵詞:MCLA;計算機教學;教學研究;教學改革
中圖分類號:G642 文獻標識碼:B
1引言
高校計算機教育的過程中,難點知識的教和學是困擾著教師和學生的重要問題,對于難點知識教學方法的研究,引起了廣大高校計算機教師的重視,其研究成果已經(jīng)在高校計算機教育中起到了越來越重要的作用。難點知識一般分布在學生的專業(yè)基礎課和專業(yè)選修課中,這些知識點往往理論性較強,需要較好的數(shù)學基礎才能一次性掌握,這些知識點往往是某一門課程或某個研究方向的核心或者基礎,如果不能很好地掌握,又影響到后續(xù)知識的學習和研究的開展。類似的知識點如:“數(shù)據(jù)結構”中的“最短路徑”和“KMP算法”、“計算機視覺”中的“各向異性擴散的偏微分方程(PDEs)”、“編譯原理”中的“有限自動機”、“面向?qū)ο蟪绦蛟O計”中的“多態(tài)性”、“計算機網(wǎng)絡”中的“七層協(xié)議的實現(xiàn)”等。
提升難點知識的教學效果顯得非常重要,但是傳統(tǒng)的教學方法中,由于各種因素的影響,往往采用從理論到實踐的教學過程。首先講解知識的數(shù)學背景,然后闡述其理論框架,接下來講解該框架中的相關公理或者定理,推出一系列公式,最后加以應用。在這種背景下,由于學生知識儲備的差異性,以及學生聽課狀態(tài)的波動性,這種教學方法往往造成部分學生在學習的過程中,無法理解他們看起來很高深理論,從而失去學習興趣,放棄后續(xù)學習,靠做題應付考試,最終即使得到高分,對知識點知其然不知
其所以然,更不要說進行創(chuàng)新。實踐證明,該方法確實導致部分學生無法清楚地掌握知識的實質(zhì),造成了教學過程中的無用功和教學資源的浪費。
為了克服以上方法的不足之處,我們借鑒了國外著名教育機構的教學方法,將其引入到我們的教學過程中去。MCLA(Model Centered Learning Architecture)教學法來源于印度國家信息技術學院(印度NIIT),該教學方法的基礎是:以“模型”為中心,通過完成“模型”來講解理論,在該學院的教學中起到了巨大的作用。本文針對計算機難點知識教學過程中遇到的問題,結合相關經(jīng)驗,將MCLA教學方法應用到教學過程中去,以“圖像處理中的各向異性擴散的偏微分方程”的講解為案例,闡述MCLA方法在教學過程中的應用。實踐證明,該教學方法能夠加強學生對知識的理解,取得了較好的教學效果。文章最后還對該方法適用的
范圍進行了討論。
2傳統(tǒng)教學方法的問題
難點知識在高校計算機教育中,不僅對于學生是學習難點,而且對于教師也是講授難點。它難就難在理論性強,數(shù)學基礎要求較高,教師即使能夠熟練精通地掌握,由于學生數(shù)學知識儲備的差異,學生就不一定能掌握;即使學生數(shù)學知識儲備足夠,由于聽課狀態(tài)波動,如果興趣不高也會無法聽懂,造成知識的遺落;教師將自己會的知識教給學生,學生卻沒學會,不能不說是教學資源的巨大浪費。
2.1教學案例描述
本文以“計算機視覺”中的“各向異性擴散的偏微分方程”為例,來闡述這個問題。
“計算機視覺”是高校計算機專業(yè)的一門專業(yè)選修課,對于即將攻讀研究生并從事模式識別和圖像處理的學生,是一門基礎性課程。“各向異性擴散的偏微分方程”屬于計算機視覺中的前沿技術,一般在書本的后半部分講授。在此之前,學生已經(jīng)學習了圖像處理的基本知識,如基本的圖像存儲、變換、濾波以及常見的圖像特征提取方法。
在計算即視覺中,“各向異性擴散的偏微分方程”最簡單的情況是用于圖像的平滑。在平滑圖像的過程中,能夠較好地保持邊緣。該框架下,圖像的平滑被假定類似于化學物質(zhì)的擴散過程,圖像的灰度(化學物質(zhì))將隨著時間的變化而變化(擴散)。在某一個時間點,變化后的圖像(擴散的結果)就是試圖得到的平滑后的圖像。描述如下:
設 表示一幅二維灰度圖像, 為像素點 處的灰度值。 表示圖像隨著時間 變化的狀態(tài),具有邊界停止功能的方程中,圖像隨著時間變化的狀態(tài)或者圖像的平滑過程被如下的擴散方程描述:式中, 為散度算子, ,是 的空間梯度。在這里, 必須是個減函數(shù),當 較大,擴散必須很小,圖像的邊緣得到保持; 較小,擴散應該很大,圖像將會得到平滑。對于 的設計對系統(tǒng)的正確工作起著決定性的作用,一般可令:
從以上數(shù)學模型可以看出, ,為非增函數(shù),當點 位于圖像灰度變化不大的區(qū)域,即 的值相對較小的時候, 的值相對較強;反之,在圖像的邊緣點上, 的值相對較大,則擴散速度相對較小。 為梯度門限,是一個正數(shù)。 的值小于 時,擴散過程進行,當 接近 時,擴散過程停止。
實際處理過程中,輸入的圖像為二維圖像,必須能夠?qū)D像的處理過程進行離散化。一般采用如下形式:
其中, 是離散采樣圖像上的像素點 在 時刻的灰度值, 是時間離散步長,常量 ,決定了擴散的速度。 的下標 表示 的計算與像素 和 相關。 表示像素 的空間鄰域, 表示鄰域像素點的個數(shù)(如在8鄰域情況下,取 =8),將圖像梯度沿著特定的方向近似為:
最后的實驗中,我們可以采用一些需要平滑的圖像,分別用傳統(tǒng)的低通濾波的方法和PDEs方法進行平滑,來檢測其平滑效果。
2.2傳統(tǒng)講授方法及其效果
傳統(tǒng)方法在講授的過程中,一般采用如下步驟:
(1) 首先講解“各向異性擴散的偏微分方程”的作用:在平滑圖像的過程中,能夠較好地保持邊緣,但也能對其它部分作平滑。
(2) 講解“各向異性擴散的偏微分方程”的數(shù)學模型,特別強調(diào)擴散方程以及其中參數(shù)、算子的選擇。
(3) 對該模型進行離散化。
(4) 最后舉例說明“各向異性擴散的偏微分方程”在實際中的應用,并一定的實例讓學生閱讀,最后布置習題。
該方法在步驟(1)中,確實提到了“各向異性擴散的偏微分方程”的作用,激起學生的興趣。但是可惜的是,這個興趣只是在學生腦海里面逗留了片刻,就被后面大量的數(shù)學公式淹沒了。除了少數(shù)比較認真的學生能夠保持興趣,將這些數(shù)學公式緊扣其作用,其它學生一旦遇到聽不懂的內(nèi)容,便放棄學習了。結果只能是教師一直在講課,卻只有部分學生能夠理解教師的講解。當然,最后的實例,大部分學生都會閱讀,也能讀懂,對于練習,也能模仿習題進行編程實現(xiàn),最后應付考試。但對于該習題和前面講解的數(shù)學公式之間有什么關系,學生是很難理解的。我們知道,理論的創(chuàng)新都是來源于知識點的抽象表達,如果那些原理沒有理解清楚,即使學生升入研究生進行科學研究,也無法進行創(chuàng)新。
針對這種方法,我們在南京某大學設計了一個實驗,隨機抽取50名計算機應用技術專業(yè)的本科學生,選修了“計算機視覺”的課程,并且已經(jīng)學習了“各向異性擴散的偏微分方程”的前續(xù)知識,我們用此方法進行講解,得到的問卷如表1所示。
從上表可以看出,96%的學生對該知識點的作用還是了解的,也就是說從課程開始學生還是有興趣的,但是自從對數(shù)學公式無法理解之后,直接影響了后面知識的理解,更不要說創(chuàng)新了。
3MCLA教學法的實踐
MCLA(Model Centered Learning Architecture)是基于模型的學習方法,該方法在教師引導下的獨立解決實際問題。其步驟如下:
(1) 教師根據(jù)知識點內(nèi)容,結合實際應用情況,對學生進行知識點的概況介紹,提出一個典型案例,激起學生興趣。
(2) 教師用所設計的案例,采用任務驅(qū)動的示范性教學。將知識點隱含到每一個任務中,使得學生更容易接受相關的知識內(nèi)容。
(3) 當教師在用系統(tǒng)的方法完成各項任務,成功解決問題時,學生在一旁觀察以通過觀察思考形成一種行之有效的思維方式。
(4) 布置類似的案例,引導學生進行實踐。
(5) 引導學生進行創(chuàng)新探索,并能針對所探索的結果進行演講。
MCLA的獨特之處在于,它不但要教會學生如何在實際問題中應用所學的知識和培養(yǎng)其專業(yè)技能,而且也要培養(yǎng)學生信息搜索和分析的能力、團隊合作的能力以及對所學知識達到綜合性理解和應用的能力。這有助于學生提高在技術探索和創(chuàng)新方面的技能,并使其成為一種習慣。
3.1教學過程
(1) 提出模型
在該過程中,教師首先不講解“各向異性擴散的偏微分方程”的作用,而提出一個實際圖像處理中遇到的一個問題:在出版、公安、醫(yī)學、控制等應用系統(tǒng)中,往往需要使用計算機來實現(xiàn)字符的正確識別。字符識別的過程一般是針對字符圖像輸入,運用一系列的識別算法得到正確的結果。但是,由于各種因素的影響,輸入圖像的真實性可能會受到一些損害。比如,字符可能由于分辨率不足而失真,最典型的就是字符的斷裂和缺口,如圖1所示。
由此提出一個問題:怎樣將缺口的部分連接起來?引起學生討論,激發(fā)學生興趣。
由于學生已經(jīng)學習了前續(xù)知識,不少學生可能會提到可以將圖像進行低通濾波,即:通過將圖像變平滑、模糊,用以造成字符黑色邊緣擴散,擴散之后看能否將缺口部分連起來。
于是,教師采用低通濾波方法,利用已有的程序,將該圖像進行濾波,圖2是截止頻率為80時的高斯低通濾波器得到的結果。
學生可能對該方法的效果沒有一個客觀的認識,可以提醒學生:從上圖可以看出,利用高斯低通濾波器可以較好地解決字符斷裂和缺損的問題,斷裂部分基本連接起來了,為后期的特征提取打下良好的基礎,它實際上是一個圖像平滑的過程。但是,從圖2我們可以看出,輸出的圖像雖然在斷裂處有了明顯的改進,但其邊緣卻產(chǎn)生了過度的模糊,從而在某種程度上可能丟失一些特征信息。此外,一個更為嚴重的后果是,針對某些線條比較密的字符,對圖像的平滑可能會造成線條的互相干涉,如 e字母,上半部分已經(jīng)進行了過度的模糊,給后期的工作帶來一些障礙。因此,尋找一種既可以對字符的斷裂進行復原,又可以保證不會將字符圖像邊緣進行過度平滑的方法就非常重要。由此引出“各向異性擴散的偏微分方程”,并提出它的作用:在垂直于字符邊緣的方向不進行平滑,在沿著字符邊緣的方向進行平滑。
(2) 建立任務
任務:將圖1的斷裂字符,斷裂部分盡量連接起來,但又不要過度模糊。
任務的核心:在將字符進行平滑的時候,在垂直于字符邊緣的方向少進行平滑,在沿著字符邊緣的方向進行平滑。
任務難點:
① 怎樣知道一個像素點是否在字符邊緣?
② 怎樣確定垂直于字符的邊緣的方向和沿著字符邊緣的方向?
③ 怎樣進行平滑?
這些問題都可以讓學生在課堂上討論。
(3) 講解知識
針對第一個問題,怎樣知道一個像素點是否在字符邊緣?可以引導學生提出“圖像灰度變化率”的概念。在邊緣處,垂直于邊緣的方向,圖像灰度變化率是最大的,再次引導學生將其用數(shù)學模型表示:即梯度;而平行于邊緣的方向,字體內(nèi)部,圖像的背景,灰度變化率最小。
于是,問題變成:在梯度較大的位置,圖像不要進行平滑,梯度較小的位置,圖像進行平滑。第二個問題得到解決。
通過和學生的互動討論,由此引出如下公式(具體表達式的含義已在上節(jié)敘述,此處不再重復):
并可以強調(diào), 應該是一個關于梯度的減函數(shù),因為當 較大,擴散必須很小,圖像的邊緣得到保持; 較小,擴散應該很大,圖像將會得到平滑。并可以說明,這就是偏微分方程里面最簡單的“各向異性擴散的偏微分方程”,也就是本節(jié)課要講解的內(nèi)容。到此為止學生的興趣就完全被調(diào)用起來了。更重要的是學會了將實踐問題抽象為數(shù)學理論的方法。
接下來講解 的選取,選取各種關于梯度 的減函數(shù)讓學生評價,最后引出比較經(jīng)典的選取方式:
說明理由,并對 的意義稍作說明。
這些內(nèi)容講解完畢,就可以進行離散化,解決第三個問題,在這里可以讓學生進行討論離散化過程,得出如上節(jié)的離散化公式。
最后教師可以用該方法做一個實驗,圖3即為實驗效果,可讓學生和圖2的作比較。
(4) 學生實踐
通過上一步的講解,學生基本了解了“各向異性擴散的偏微分方程”進行圖像處理的方法和性質(zhì),并通過案例建立了感性認識,該步驟中可以布置一個類似的案例讓學生回去練習。并讓學生設計不同的函數(shù) 進行測試,觀察其效果。
(5) 創(chuàng)新搜索與演講
在布置作業(yè)的過程中,可以另外讓學生搜索一下當前偏微分方程在圖像處理方面的其它的一些應用,最好能夠
提出創(chuàng)新觀點,將學生分為每5人1組,各選擇不同的方面,如圖像平滑、圖像分割、圖像去噪等等。在接下來的課程中,進行演講,讓學生加深認識,培養(yǎng)其創(chuàng)新能力。
3.2教學效果
針對這種方法,我們也設計了一個實驗,另外隨機抽取50名計算機應用技術專業(yè)的本科學生,選修了“計算機視覺”的課程,并且已經(jīng)學習了“各向異性擴散的偏微分方程”的前續(xù)知識,我們用MCLA方法進行講解,得到的問卷如表所示:
表2MCLA教學方法效果
說明 完全理解(%) 一般理解(%) 無法理解(%)
從上表可以看出,在MCLA方法應用于教學實踐之后,學生對該知識點的掌握程度大大加強,并且具有的創(chuàng)新意念更加活躍。
4結束語
該文介紹了MCLA(Model Centered Learning Architecture)教學法在高校計算機難點知識教學中的應用,針對計算機難點知識教學過程中遇到的問題,結合相關經(jīng)驗,將MCLA教學方法應用到教學過程中去,以“各向異性擴散的偏微分方程(PDEs)的圖像處理”的講解為案例,闡述MCLA方法在教學過程中的應用。實踐證明,該教學方法能夠加強學生對知識的理解,取得了較好的教學效果。
該方法對教師提出了更高的要求。首先,教師應該對知識點特別熟悉,并能和相關應用案例聯(lián)系起來;另外,并不是每一個知識點都能夠?qū)ふ业较鄳陌咐?不過可以指出的是,在計算機專業(yè)的課程中,大多數(shù)知識點都是有案例可循的。
參考文獻:
[1] 覃華,蘇一丹. 印度NIIT教學法及其在高校教學中應用的研究[J]. 廣西大學學報, 2004(9):73-78.
[2] 俞仲文. 關于發(fā)展高等技術教育的若干思考[J]. 高等工程教育研究, 2005(2):18-22.
[3]Perona P,Malik J.Scale space and Edge Detection Using An isotropic Diffusion[J].IEEE Trans on PAMI, 1990;12(7); 1629-1639.
[4] 郭克華,劉傳才,楊靜宇. 有損字符圖像復原的偏微分方程方法[J]. 計算機工程與應用, 2007, 43(8):24-27.
[5]Milan Sonka,Vaclav Hlavac,Roger Boyle. Image Processing,Analysis,and Machine Vision[M]. 2nd ed.Beijing:Posts&Telecom Press,2003:69-72.
The Design and Implement of the Basis of Applications of MCLA in Difficult Computer Knowledge Teaching
GUO Ke-hua ,LI Min
(School of Information Science & Engineering, Central South University, Changsha 410083, China)
【關鍵詞】視頻監(jiān)控;現(xiàn)狀;系統(tǒng)設計;發(fā)展趨勢
一、前言
隨著人們對安全需求的不斷提升,使得視頻監(jiān)控系統(tǒng)成為維護社會穩(wěn)定和人員安全的有效手段,隨著該項技術的發(fā)展,視頻監(jiān)控系統(tǒng)經(jīng)歷了由簡單到全面的發(fā)展過程。
二、視頻監(jiān)控系統(tǒng)的應用現(xiàn)狀
根據(jù)視頻監(jiān)控系統(tǒng)構成所表現(xiàn)出的功能差異,將其具體劃分為三個階段。即模擬視頻監(jiān)控、半數(shù)字化視頻監(jiān)控以及全數(shù)字化視頻監(jiān)控。
截至到目前為止,視頻監(jiān)控系統(tǒng)已經(jīng)將模擬視頻監(jiān)控淘汰,數(shù)字化的視頻監(jiān)控成為時代主流產(chǎn)品。雖然中小企業(yè)基于成本考量會選擇半數(shù)字化視頻監(jiān)控系統(tǒng),但受到社會發(fā)展要素以及需求層面的影響,未來的視頻監(jiān)控市場依舊屬于數(shù)字化視頻監(jiān)控系統(tǒng)。數(shù)字化視頻監(jiān)控系統(tǒng)之所以流行,是因為其自身具備獨特優(yōu)勢,符合現(xiàn)階段的發(fā)展要求。數(shù)字化的視頻監(jiān)控系統(tǒng)實現(xiàn)視頻信號傳輸?shù)姆绞街饕腔诰W(wǎng)絡,現(xiàn)階段局域網(wǎng)絡的完善,為其提供了良好的信號傳輸通道。并且其自身系統(tǒng)性的功能拓展,升級與維護也十分便捷。
同時,在上述優(yōu)勢分析完成之后,其基礎優(yōu)勢還包括失真率低、精度較高、傳輸性能好、抗干擾能力強等。視頻監(jiān)控系統(tǒng)的應用,已經(jīng)在安防領域取得顯著成效,在遠程教學、遠程通信、可視電話等方面的運用也取得初步成效。嚴新金(2010)、王維(2012)在研究中分別基于鐵路以及學校的數(shù)字化視頻監(jiān)控系統(tǒng)的應用進行探究,從數(shù)字化視頻監(jiān)控系統(tǒng)的基本原理出發(fā),探索優(yōu)化措施及應用方法,實現(xiàn)了視頻監(jiān)控系統(tǒng)在鐵路與學校領域的運用。
三、視頻監(jiān)控系統(tǒng)設計
1、系統(tǒng)硬件結構
系統(tǒng)所使用的硬件平臺為友善之臂的Tiny6410開發(fā)板。該開發(fā)板的核心芯片為三星的S3C6410處理器,該處理器具有低功率、高性價比、高性能的優(yōu)點。內(nèi)部集成有硬件編解碼器,支持MPEG4、H.263以及H.264格式的編解碼。開發(fā)板有3路USBHost的USB口,可以滿足本設計所需。攝像頭使用羅技的一款C270高清USB攝像頭,采集的圖片有YUV和MJPEG格式。4G無線網(wǎng)卡使用中興的一款ME3760V2上網(wǎng)卡模塊。系統(tǒng)硬件結構如圖1所示。
圖1系統(tǒng)結構圖
2、系統(tǒng)軟件設計
系統(tǒng)采用的操作系統(tǒng)為Linux系統(tǒng)。Linux操作系統(tǒng)具有體積小、系統(tǒng)開源、移植方便的優(yōu)點,被廣泛應用在移動設備上。本設計采用的Linux內(nèi)核版本為Linux-2.6.38。為了調(diào)試方便,測試階段采用宿主機掛載根文件的形式。宿主機為裝有Fedo-ra14的PC機,通過網(wǎng)線、串口和開發(fā)板連接。通過裁剪移植完成了針對于開發(fā)板工作的最小u-boot、kernel和根文件系統(tǒng)。在裁剪內(nèi)核時,需要添加對UVC格式的USB攝像頭的驅(qū)動支持以及4G上網(wǎng)模塊的驅(qū)動及通信協(xié)議支持。
四、網(wǎng)絡視頻應用性能的關鍵技術
1、網(wǎng)絡視頻壓縮編碼
這一技術是將互聯(lián)網(wǎng)的應用空間、使用時間以及視覺等占用進行壓縮,即對視頻圖像、移動物體時間、信息編碼、圖像紋理圖案相同或相近特征進行相關性壓縮,以便騰出更多的有用空間存儲更大的信息。在信息學的理論角度來說,視頻壓縮分為無損壓縮和有損壓縮。一般無損壓縮都會按照2:1到5:1的范圍比例進行不失真的壓縮,保持原圖像的真實,例如:指紋圖像和醫(yī)學圖像等。而有損壓縮就會大比例地縮小,使原圖與壓縮后的圖像不一致,只能通過解壓縮的手段,恢復圖像的本來面貌。比例通常規(guī)定為100:1至200:1的范圍。
2、網(wǎng)絡視頻傳輸
視頻技術與網(wǎng)絡通信技術是通過高性能視頻采集芯片的傳輸,使視頻采集系統(tǒng)的性能變得穩(wěn)定、可靠,使網(wǎng)絡視頻傳輸技術發(fā)展得更好。目前比較先進的傳輸解碼器就是太網(wǎng)的嵌入式高清視頻編解碼器的設計研究,由視頻采集模塊、視頻編碼及傳輸模塊等部分組成,調(diào)用高性能的主控芯片,運行高清視頻編碼器的應用程序,制作多線程間鏈表通信機制,實現(xiàn)視頻數(shù)據(jù)重組,完成圖像的解碼程序,將瀏覽器收集到的數(shù)據(jù)采用嵌入式反饋到Web的頁面上,遠程控制設備的功能也得到了實現(xiàn)。
3、網(wǎng)絡視頻服務器
網(wǎng)絡視頻服務器就是將模擬信號轉為IP信號,進行數(shù)字、圖像視頻處理技術,嵌入計算機系統(tǒng),快速處理來自本地數(shù)字信息,圖像清晰,達到視頻監(jiān)控系統(tǒng)遠程、實時、集中管理的作用。網(wǎng)絡視頻監(jiān)控系統(tǒng)將是網(wǎng)絡視頻服務器未來的發(fā)展趨勢,智能化技術、高清化技術、集成化技術是視頻監(jiān)控系統(tǒng)的最前沿技術,不但掃清了以往不適宜的網(wǎng)絡障礙,而且還拓展了新型技術體現(xiàn)它的未來發(fā)展前景。
五、視頻監(jiān)控系統(tǒng)的發(fā)展趨勢
1、現(xiàn)有視頻監(jiān)控系統(tǒng)弊端
傳統(tǒng)的視頻監(jiān)控系統(tǒng),雖然在數(shù)字化技術的支撐下,實現(xiàn)了應用范圍的廣泛性,但針對普及廣度與覆蓋面因素,依舊無法滿足多用戶的需求,造成覆蓋范圍相對狹窄。在地域覆蓋層面,通常僅限于當?shù)氐谋O(jiān)控;而針對用戶群體覆蓋層面,則通常集中在政府、交通、銀行、公安、電力以及石油等產(chǎn)業(yè),大范圍普及并未得以實現(xiàn)。究其根本,主要是受到視頻監(jiān)控系統(tǒng)的成本、實效性、維護等多方面因素的影響。在未來發(fā)展中,研究領域應該充分地發(fā)揮出理論優(yōu)勢,將研究的范圍擴大,為全面普及食品監(jiān)控奠定基礎。
2、傾向于智能化視頻監(jiān)控系統(tǒng)
針對當前視頻監(jiān)控系統(tǒng)的發(fā)展趨勢進行分析,視頻監(jiān)控系統(tǒng)已經(jīng)逐漸傾向于智能化視頻監(jiān)控系統(tǒng)方向。計算機技術、信息處理技術、圖像技術使得視頻監(jiān)控系統(tǒng)圖像自動檢測、視頻信號分析成為可能,綜合運用計算機視覺算法,為視頻監(jiān)控系統(tǒng)提供了良好的發(fā)展環(huán)境,適應了環(huán)境變化的基本要求。現(xiàn)代技術手段的支持,為視頻監(jiān)控系統(tǒng)的指令操作、數(shù)據(jù)信息以及工作效率的提升奠定基礎,一步一步地邁向智能化發(fā)展道路。吳炬(2011)結合自動化檢測以及診斷技術,分析這兩項技術的具體運用,為未來視頻監(jiān)控系統(tǒng)的快速發(fā)展埋下伏筆。陸鵬飛(2011)、信師國(2010)將網(wǎng)絡作為研究基礎,依據(jù)網(wǎng)絡自身的復雜性以及多樣性的特點,在網(wǎng)絡平臺探索視頻監(jiān)控系統(tǒng)的發(fā)展,研究方向更加傾向于智能化的視頻監(jiān)控系統(tǒng)。
3、未來智能視頻監(jiān)控系統(tǒng)難點
徐占武(2013)對視頻監(jiān)控系統(tǒng)應用以及發(fā)展中依舊明確指出未來智能化視頻監(jiān)控系統(tǒng)的工作難點與重點。認為智能化視頻監(jiān)控技術的出現(xiàn),源于對計算機視覺技術的研究,在該基礎之上發(fā)展智能化視頻監(jiān)控系統(tǒng),具體難點及要點需要基于以下幾個方面進行分析:
(1)對視頻監(jiān)控系統(tǒng)的要求提升,不單單要求自動、連續(xù)的工作,還要求保持較高的工作效率。結合視頻監(jiān)控系統(tǒng)的具體實踐,監(jiān)控系統(tǒng)的應用環(huán)境十分復雜,應用環(huán)境所呈現(xiàn)出的多樣性,為視覺技術帶來了更高的要求。
(2)視頻監(jiān)控系統(tǒng)針對運動目標,受到目標多樣性的影響。在進行運動解析、分類甄別工作方面難度較大。
(3)智能化目標的具體實現(xiàn),要求不同視頻監(jiān)控系統(tǒng)能夠?qū)崿F(xiàn)連接,需要大范圍攝像機之間的協(xié)同工作。但如何運用多臺視頻監(jiān)控系統(tǒng)對運動目標進行綜合解析,在執(zhí)行與操作環(huán)節(jié)依舊存在一定的難度。
(4)視頻監(jiān)控數(shù)據(jù)的存儲問題成為智能化實現(xiàn)的一大阻礙,在制定視頻監(jiān)控的過程中會產(chǎn)生大量的數(shù)據(jù),視頻信息本身占用大量空間的現(xiàn)象十分嚴重,智能化之后如果覆蓋范圍得到提升,勢必造成海量數(shù)據(jù)存儲出現(xiàn)問題。
六、結束語
綜上所述,盡管當前視頻監(jiān)控系統(tǒng)還存在一些問題,帶隨著信息技術、計算機技術的發(fā)展,視頻監(jiān)控系統(tǒng)的智能化將成為發(fā)展趨勢。
參考文獻
所謂智能制造,是將物聯(lián)網(wǎng)、大數(shù)據(jù)、云計算等新一代信息技術與先進自動化技術、傳感技術、控制技術、數(shù)字制造技術結合,實現(xiàn)工廠和企業(yè)內(nèi)部、企業(yè)之間和產(chǎn)品全生命周期的實時管理和優(yōu)化的新型制造系統(tǒng)。
智能產(chǎn)品具有監(jiān)測、控制、優(yōu)化和自主等四個方面的功能。而智能生產(chǎn)是指以智能制造系統(tǒng)為核心,以智能工廠為載體,通過在工廠和企業(yè)內(nèi)部、企業(yè)之間以及產(chǎn)品全生命周期形成以數(shù)據(jù)互聯(lián)互通為特征的制造網(wǎng)絡,實現(xiàn)生產(chǎn)過程的實時管理和優(yōu)化。
此次世界智能制造大會抓住智能制造這一世界經(jīng)濟熱點,洞察當下全球前沿技術的競爭點,融政產(chǎn)學研為一爐予以共同關注。世界制造業(yè)正在經(jīng)歷一場變革、一場進化,生產(chǎn)將變得更加聰明,效率也就更高。此次大賓朋滿座,說明企業(yè)對智能制造充滿渴望,產(chǎn)業(yè)發(fā)展充滿動力。這場大會是科技思維的饕餮盛宴,必將碰撞出大機遇。
智能制造是中國制造業(yè)由大轉強的核心戰(zhàn)略選擇,更是中國經(jīng)濟增長變速換擋走向新里程的標志。歷經(jīng)30多年的高速發(fā)展,中國在2015年已成為世界制造業(yè)第一大國,建成了世界上門類最為齊全的現(xiàn)代制造業(yè)體系,中國制造業(yè)一直是國家經(jīng)濟發(fā)展的重心,一度使中國成為世界工廠的代名詞,創(chuàng)造過無數(shù)讓國人引為榮耀的輝煌。然而,中國制造在發(fā)展質(zhì)量、創(chuàng)新能力、品牌塑造方面,與發(fā)達國家相比仍有較大差距,大而不強的問題一直是急需破解的瓶頸,依托資源消耗和人力成本低廉的路徑選擇越來越艱難,低端的傳統(tǒng)優(yōu)勢日趨衰弱,向著東南亞的新一輪國際產(chǎn)業(yè)轉移凸顯中國制造大而不強的尷尬。中國制造亟待在科技創(chuàng)新、智能制造的引領中強筋壯骨,在著力提升生產(chǎn)率的轉型中浴火重生,以獲得經(jīng)濟中高速增長。
如果說過去3年中國制造在轉型中“熱身”,試圖打開一扇窗戶向外瞧,那么這場大會就是一個全新的里程碑――以最先進的智能制造思想武裝自己,開辟新的航程。
智能制造給世界帶來新活力,給中國帶來新發(fā)展。瓦特的蒸汽機,在轟鳴聲中不但改變了他自己貧病交加的命運,也把整個人類帶進了工業(yè)社會,解放了生產(chǎn)力,促進了社會進步。喬布斯的“蘋果”,一機在手,包攬世界,億萬網(wǎng)民在刷屏中進入移動互聯(lián)時代,也助燃了信息化火焰燃遍全球。中國也在歡呼聲中見證“神九上天,蛟龍入海”的神奇,驚嘆中國制造尖端技術的鬼斧神功,制造業(yè)的數(shù)字化、網(wǎng)絡化、智能化為中國經(jīng)濟發(fā)展安裝了強勁的翅膀。
智能制造為世界經(jīng)濟提供新動能,提高生產(chǎn)率。世界經(jīng)濟不景氣,增長下向風險的警報一直未能解除,亟需轉變發(fā)展方式,期待新動能除舊布新、改天換地。唯有人工智能等科技生產(chǎn)擔當此重任,大幅提高生產(chǎn)率,促進經(jīng)濟的發(fā)展。依托自然語言處理、計算機視覺、機器學習等這些人工智能核心領域技術的發(fā)展,以生態(tài)科技、智能機器人、無人車、無人機等為代表的人工智能技術已漸趨成熟。由此撬動的相關產(chǎn)業(yè)鏈也將迎來巨大市場機會,可估商業(yè)利益至少在萬億量級。
智能制造將掀起新一輪企業(yè)淘汰浪潮。在歐美和日本有成百上千家百年企業(yè),但中國很多企業(yè)卻做著做著就夭折了,這與企業(yè)家的胸懷和眼光有密切關系。企業(yè)家要站得高,看得遠,轉型中高端才能有長久的生命力。這一輪智能制造大潮,讓傳統(tǒng)企業(yè)倍感壓力,跟上了,企業(yè)就往上走;跟不上,就要趴下去。
【關鍵詞】智能時代;云計算;安全架構
一、前言
當今世界,新一輪的科技革命和產(chǎn)業(yè)變革正在持續(xù)深入,工業(yè)互聯(lián)網(wǎng)、智能制造、人工智能、大數(shù)據(jù)、物聯(lián)網(wǎng)等領域正在加速布局,“智能時代”企業(yè)信息系統(tǒng)最顯著的變化是虛擬化、數(shù)字化一切、軟件定義,促使企業(yè)信息化的不斷發(fā)展,公司信息化資產(chǎn)數(shù)量日趨增多、系統(tǒng)的關聯(lián)性和復雜度不斷增強,使企業(yè)信息安全形勢日益嚴峻,信息安全防護工作面臨前所未有的困難和挑戰(zhàn)。為了更好監(jiān)控和保障信息系統(tǒng)運行,及時識別和防范安全風險,同時滿足國家和行業(yè)監(jiān)管要求,保證信息安全管理工作的依法合規(guī),企業(yè)亟需建立一個全數(shù)據(jù)、集中管理的企業(yè)安全平臺,做到事前預警、事中監(jiān)控、事后分析以及響應,全面的提升信息安全管理與防護水平。
二、智能時代的變化趨勢
我們正處在一個變革的時刻,“智能”是這個時代最顯著的標志。在今年春天首屆世界智能大會上馬云提出,智能時代有三個最主要的要素:互聯(lián)網(wǎng)、大數(shù)據(jù)、云計算;李彥宏也指出,未來30年推動社會進步的動力,就是智能科技的進步;浪潮董事長孫丕恕表示,智能從實現(xiàn)形式上就是要通過物聯(lián)網(wǎng)、互聯(lián)網(wǎng)將企業(yè)生產(chǎn)數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)和企業(yè)自身的管理數(shù)據(jù)全部打通,實現(xiàn)無邊界信息流和大數(shù)據(jù)分析。由此看來,一個企業(yè)走向智能化首先要完成業(yè)務在線化和流程服務軟件化,然后完成應用軟件的SaaS(Software-as-a-Service)化,從而助企業(yè)實現(xiàn)智能生產(chǎn)、智能維護、智慧服務。1.安全技術的變化基于云計算、虛擬化、大數(shù)據(jù)、智能制造、移動辦公的持續(xù)推進,都是基于企業(yè)信息基礎架構所實施的,開放式計算環(huán)境和更靈活的支持架構,要求安全技術隨之匹配發(fā)展,才能適應新環(huán)境,新技術下的安全需求。中國工程院倪光南院士在《云安全的思考》主題演講中指出,云安全一定會呈現(xiàn)出多維度、多層次、跨領域、多學科技術交叉等方面的特征。對于云計算的安全保護,需要一個完備體系,從技術、監(jiān)管、法律三個層面上,形成可感知、可預防的智能云安全體系。2.企業(yè)智能架構從應用架構上看,未來的應用都是角色化、場景化的,可連接互聯(lián)網(wǎng)資源,全員應用,實現(xiàn)移動化和智能化。虛擬化、數(shù)字化一切、軟件定義促使企業(yè)信息架構的變革,以業(yè)務為導向和驅(qū)動,在企業(yè)管理、集成等方向上提供基礎共性平臺,為企業(yè)快速構建和集成應用軟件提供基礎支持,從而實現(xiàn)工程經(jīng)驗模塊化、產(chǎn)品實際協(xié)同化、項目流程一體化結構,實現(xiàn)由統(tǒng)一業(yè)務層、統(tǒng)一界面構架層、應用系統(tǒng)層、統(tǒng)一工作臺面、大數(shù)據(jù)分析、云計算層組成的一種新模式。在企業(yè)IT系統(tǒng)的業(yè)務基礎機構層面,引入先進的統(tǒng)一軟件平臺,為上層應用開發(fā)提供統(tǒng)一標準,接口和規(guī)范,同時基于“平臺+組件”的架構實現(xiàn)各類應用的組合和復用,助企業(yè)實現(xiàn)數(shù)字化轉型。3.云架構在人工智能一日千里的時代,云計算已成為產(chǎn)業(yè)革新的原動力、新型管理的主平臺、人工智能的強載體。在新的云時代,整個社會都在發(fā)生數(shù)字化的迭代。云成為數(shù)字化最重要的基礎架構。騰訊董事局主席兼首席執(zhí)行官馬化騰指出:“用云量將成為一個重要的經(jīng)濟指標,能夠衡量一個行業(yè)數(shù)字經(jīng)濟發(fā)展程度。”他還表示:“傳統(tǒng)企業(yè)的未來就是在云端用人工智能處理大數(shù)據(jù)。”“云+AI”是當前最主流的方向,其核心包括三項核心能力(計算機視覺、智能語音識別、自然語言處理)。在計算機視覺領域?qū)崿F(xiàn)開放OCR識別、人臉核身、圖片處理等多項智能云服務;在智能語音識別領域?qū)崿F(xiàn)語音轉文字、語音合成、聲紋識別、情緒識別等功能;在自然語言處理領域,以“數(shù)據(jù)+算法+系統(tǒng)”為核心,提供毫秒級響應的個性化服務。
三、企業(yè)信息安全措施
VMware首席執(zhí)行官帕特•基辛格表示:“抵御安全攻擊,響應速度不是核心,而是如何將支離破碎的安全保護進行更有效的整合,實現(xiàn)安全架構的簡化,這才是企業(yè)安全轉型的關鍵。”安全技術在智能時代必須跟上發(fā)展的變化,“智慧安全”的理念正在深入,著力點從網(wǎng)絡系統(tǒng)安全、數(shù)據(jù)安全深入到業(yè)務應用安全等各個層面,AI防火墻、態(tài)勢感知平臺、云安全產(chǎn)品、企業(yè)移動化信息安全管理平臺、智慧眼監(jiān)控雷達、業(yè)務應用安全審計平臺成為保護企業(yè)信息安全的前沿技術。1.企業(yè)數(shù)據(jù)的安全阿里巴巴董事局主席馬云說:“數(shù)據(jù)是新能源。”隨著數(shù)據(jù)量的持續(xù)增長,應用數(shù)量不斷增加,數(shù)據(jù)將成為社會創(chuàng)新的重要驅(qū)動力。隨著“網(wǎng)絡強國戰(zhàn)略”、“互聯(lián)網(wǎng)+”行動計劃、大數(shù)據(jù)戰(zhàn)略的推進,網(wǎng)絡安全風險和威脅也進入到企業(yè):非對稱的業(yè)務流量、定制化的應用程序、需要被路由到計算層之外并達到數(shù)據(jù)中心周邊的高流量數(shù)據(jù)、跨多個虛擬化應用,以及地理上分散的移動應用,都造成數(shù)據(jù)泄露的機會,隨著中央網(wǎng)絡安全和信息化領導小組的成立,信息安全已上升到國家安全層面。因此數(shù)據(jù)保護十分重要,最好的選擇是本源的防護,既做到保護數(shù)據(jù)本源的同時,又能靈活應對各種安全環(huán)境的需求。而符合這種要求的安全技術就是基于專業(yè)的安全分析模型和大數(shù)據(jù)管理工具,可準確、高效地感知整個網(wǎng)絡的安全狀態(tài)以及變化趨勢,通過企業(yè)本地部署安全大數(shù)據(jù)分析平臺,打通云端情報與本地設備的聯(lián)動,形成情報觸發(fā)預警,預警觸發(fā)防護的閉環(huán)。對外部的攻擊與危害行為可以及時的發(fā)現(xiàn),并采取相應的響應措施,保障企業(yè)信息系統(tǒng)安全。2.企業(yè)網(wǎng)絡安全2016年,在“4.19講話”中再一次強調(diào)網(wǎng)絡安全建設的重要性,并提出:“要樹立正確的網(wǎng)絡安全觀,加快構建關鍵信息基礎設施安全保障體系,全天候全方位感知網(wǎng)絡安全態(tài)勢,增強網(wǎng)絡安全防御能力和威懾能力,要加快網(wǎng)絡立法進程,完善依法監(jiān)管措施,化解網(wǎng)絡風險。此外根據(jù)網(wǎng)絡安全法相關規(guī)定,我們也可以看出,網(wǎng)絡安全法在原有信息系統(tǒng)安全等級保護制度的基礎上,創(chuàng)新了網(wǎng)絡安全等級保護的工作方法,企業(yè)的信息安全建設需在原有信息系統(tǒng)安全等級保護制度建設的基礎上,將新技術新應用帶來的重要信息系統(tǒng)建設諸如云計算、移動互聯(lián)、物聯(lián)網(wǎng)、工業(yè)控制、大數(shù)據(jù)等領域的國家關鍵信息基礎設施建設都納入國家安全等級保護制度進行管理,將風險評估、安全監(jiān)測、通報預警、應急演練、災難備份、自主可控等重點措施也納入了國家網(wǎng)絡安全等級保護制度的管理范疇。企業(yè)緊跟網(wǎng)絡技術的發(fā)展,以“智慧安全2.0戰(zhàn)略”為指導,將“智慧安全”的核心從網(wǎng)絡系統(tǒng)安全、數(shù)據(jù)安全深入到業(yè)務應用安全等各個層面。現(xiàn)在已可以采用AI、機器學習、行為分析等技術手段進行動態(tài)分析、靜態(tài)分析、異常檢測、深度解析等手段,更有效地防范未知威脅。3.物聯(lián)網(wǎng)安全預計到2021年,全球?qū)⒂谐^460億臺設備,傳感器和執(zhí)行器連接在一起,更廣闊,更強大和更穩(wěn)定的物聯(lián)網(wǎng)時代即將到來,并且最終將給企業(yè)帶來全新業(yè)務方式。物聯(lián)網(wǎng)(IoT)為企業(yè)創(chuàng)新提供了廣闊的前景。企業(yè)通過監(jiān)控、分析收集來的數(shù)據(jù)量,來確保業(yè)務的正常發(fā)展。其中數(shù)據(jù)大都是從傳感器、應用、門禁系統(tǒng)、配電單元、UPS、發(fā)電機和太陽能電池板產(chǎn)生的數(shù)據(jù),但隨著這些應用的增長,物聯(lián)網(wǎng)帶給企業(yè)的安全風險也很大。要應對物聯(lián)網(wǎng)的安全挑戰(zhàn),企業(yè)應從智能設備的離線安全、入網(wǎng)安全、在線安全等維度進行整體安全檢測與防護,在云端接入大數(shù)據(jù)感知威脅和安全態(tài)勢分析平臺,獲取威脅情報;在本地端通過減少威脅“檢測時間(TTD)”,即減少發(fā)生威脅到發(fā)現(xiàn)威脅的時間差,縮短檢測時間,可有效限制攻擊者的操作空間,和最大限度減少損失。①及時更新基礎設施和應用,讓攻擊者無法利用公開的漏洞;②利用集成防御對抗復雜性,采取平衡防御與主動應對的安全控制;③密切監(jiān)控網(wǎng)絡流量(這在網(wǎng)絡流量模式可預測性非常高的IoT環(huán)境中非常重要);④追蹤物聯(lián)網(wǎng)設備如何接觸網(wǎng)絡并與其他設備進行交互(例如,如果物聯(lián)網(wǎng)設備正在掃描其他設備,則可能是表示惡意活動的紅色警報)。
四、結論
神州控股董事局主席郭為對未來的預測時說:“云計算將成為未來主流IT運算模式,大數(shù)據(jù)會成為最重要核心資源;自上而下的創(chuàng)新將是智能時代推動社會進步的主流方式,借助云計算、大數(shù)據(jù)這兩項關鍵技術實現(xiàn)互聯(lián)網(wǎng)化、協(xié)同化和智能化。”智能是我們這個時代的標志,對于企業(yè)信息化來說,它的路很長,首先要完成核心業(yè)務在線化和所有的業(yè)務流程服務軟件化,然后完成應用軟件的SaaS(Soft-as-a-Service)化,當企業(yè)的核心業(yè)務完全建立在互聯(lián)網(wǎng)上,并有軟件SaaS平臺驅(qū)動,企業(yè)才能夠向智能化方向演進——低成本積累大數(shù)據(jù),并通過數(shù)據(jù)分析進行商業(yè)決策,最終向?qū)崟r數(shù)據(jù)分析、實時智能商業(yè)決策演進。由此,企業(yè)信息智能化任重道遠,從現(xiàn)在開始制定適當?shù)陌踩呗裕源思涌霫T新趨勢的適應能力,在不斷采用新技術的過程中建立適合企業(yè)的安全管理系統(tǒng),做到覆蓋企業(yè)安全運維的所有場景,監(jiān)視安全威脅,預測安全風險。
參考文獻
[1]維克多•邁克熱•舍恩伯格.大數(shù)據(jù)時代:生活、工作與思維的大變革[M].浙江人民出版社.
關鍵詞:人工智能;引擎;大數(shù)據(jù);CPU;FPGA
DOI:10.3969/j.jssn.1005-5517-2017-2.006
1 2016年人工智能迎來了春天
2016年人工智能(A1)進入了第三個。2016年3月9-15日,谷歌AlphaGo(阿爾法狗)以4:1的成績擊敗世界圍棋冠軍李世石職業(yè)九段,意義非常重大。因為過去機器主要做感知,現(xiàn)在出現(xiàn)了認知,這是人工智能的關鍵所在。
8個月后,2016年12月29日~2017年1月4日,AlphaGo的升級版――谷歌Master(大師)在30秒快棋網(wǎng)測中,以60勝0負1和的成績,橫掃柯潔、古力、聶衛(wèi)平、樸廷桓、井山裕太等數(shù)十位中日韓世界冠軍與頂級高手。從此以后,也許人類以后就沒有和Master進行圍棋比賽的機會了!除了圍棋,人工智能下一步將在國際象棋、中國象棋等棋類方面發(fā)展。
撲克牌方面,專家水平的人工智能首次戰(zhàn)勝一對一無限注德州撲克人類職業(yè)玩家,而且DeepStack讓機器擁有知覺。
人工智能還能玩游戲。其意義很重大,平時環(huán)境中很難得到一些數(shù)據(jù),因為游戲相當于虛擬社會,例如“星際爭霸2”是復雜的虛擬社會,如果人工智能在這個虛擬社會中能戰(zhàn)勝人,這將是非常了不起的,未來可涉及到高級決策,在軍事上很有用處。2016年11月5日,谷歌DeepMind宣布與暴雪合作開發(fā)人工智能,挑戰(zhàn)實時戰(zhàn)略視頻游戲“星際爭霸2”。這件事情的意義非常重大。下一步可以用于軍事上的高級戰(zhàn)略決策。
無人駕駛方面,2016年11月15日,“在第三屆世界互聯(lián)網(wǎng)大會”期間,18輛百度“云驍”亮相烏鎮(zhèn)子夜路,在3.16公里的開放城區(qū)道路上自主行駛。2016年特斯拉Autopilot 2.0問世,該軟件只需要八千美元,就可讓軟件駕駛汽車。所有特斯拉新車將安裝“具有完全自動駕駛功能”的該硬件系統(tǒng),并可通過OTA(空中下載技術)進行軟件升級;自動駕駛功能從L2(二級,半無人駕駛)直接跳躍到L4/L5();2017年底之前,特斯拉車將以完全自動駕駛模式從洛杉磯開往紐約。Uber提出在城區(qū)大范圍無人駕駛出租車試運行,Uber 2016年9月14日在美國匹茲堡市推出城區(qū)大范圍無人駕駛出租車免費載客服務并試運行,先期已測試近2年,說明無人駕駛真正落地了。
為何無人駕駛很重要?因為人工智能是無人駕駛的核心。除了百度、特斯拉、Uber,谷歌Waymo也在做自動駕駛測試。此外,沃爾沃、福特、寶馬、百度、英特爾等全球約20多家企業(yè)公開宣布,4年以后的2021年將會是無人駕駛/自動駕駛元年,部分5AE L4車將會實現(xiàn)量產(chǎn)。
計算機視覺
針對ImageNet ILSVRC測試比賽的1 000種物體識別,Deep CNN超過了人類的識別能力。人是5.1%(如圖1),2016年2月23日谷歌人工識別的評測是3.08%。ImageNetILSVRC中有1000種物體,例如猴子、馬、飛機、坦克等約1500萬張照片、包含2.2萬類種不同物體。深度學習一般能做到52層,極深度學習(very deep lea rning)現(xiàn)在已經(jīng)做到1000層。
在ILSVRC 2016國際評測中,包括視覺物體檢測、視覺物體定位、視頻物體檢測、場景分類、場景解析等性能均有提高。值得一提的是,在此次大會上,中國團隊大放異彩,幾乎包攬了各個項目的冠軍(圖2)。
人工智能語義分割
基于全卷積神經(jīng)網(wǎng)絡FCN的路面/場景像素級語義分割取得重要進展。為此,我們可以分割大部分道路。
人工智能唇語專家
看電視時把聲音關掉,靠嘴唇說話的變化來識別談話內(nèi)容,這種能力機器識別率已經(jīng)超過人類。例如2016年12月,英國牛津大學與谷歌DeepMind等研發(fā)的自動唇讀系統(tǒng)LipNet,對GRID語料庫實現(xiàn)了95.2%的準確率;對BBC電視節(jié)目嘉賓進行唇語解讀,準確率為46.8%,遠遠超過專業(yè)的人類唇語專家(僅為12.4%)。
人工智能人臉識別
人臉識別可以達到產(chǎn)品級別,例如支付寶的刷臉成功率超過了人類。如圖3,人的水平為97.40,百度為99.77。因此可以進行產(chǎn)品體驗。2017年1月6日,百度人工智能機器人“小度”利用其超強人類識別能力,以3:2險勝人類最強大腦代表王峰。
語音識別
目前的社交新媒體和互動平臺中,Al虛擬助手和Al聊天機器人正在崛起。一天,美國GIT(佐治亞理工大學)的一個課堂上來了一位助教,教師講完課后說:“大家有問題就問助教吧”。這位助教原來是個會眨眼睛的機器人!這時學生們才知道每天網(wǎng)上給他們答疑解惑的是人工智能,此前學生們也感到很吃驚,這位助教非常敬業(yè),晚上還在發(fā)Email。
人工智能語音合成
指從文本聲音到真實聲音,可以自動翻譯成英文。2016年9月19日,谷歌DeepMind推出WaveNet,實現(xiàn)文本到美式英語或中國普通話的真實感語音合成。
人工智能速記員
包括語音識別和NLP(自然語言處理)。2016年10月17日,微軟的語音識別系統(tǒng)實現(xiàn)了5.9%的詞錯率(WER),媲美人類專業(yè)速記員,且錯誤率更低;中國科大訊飛也有語音輸入法。
人工智能翻譯
中國人往往從小學到讀博士都在學英語。現(xiàn)在,谷歌、微軟和百度等公司在做人工智能翻譯。以谷歌為例,2016年9月27日,谷歌的神經(jīng)機器翻譯系統(tǒng)(GNMT)實現(xiàn)了多語種翻譯,較之傳統(tǒng)方法,英譯西班牙翻譯錯誤率下降了87%,英譯漢下降了58%,漢譯英下降了60%,已接近人工翻譯的水平。也許今后學外語沒那么重要了,人們可戴著耳機,耳機能直接翻譯成各語言。
人工智能對抗訓練
Goodfellow(2014)提出的生成式對抗網(wǎng)絡(GAN),為半監(jiān)督學習/舉一反三式的學習發(fā)展提供新思路,2016年發(fā)展迅速。目前是監(jiān)督式學習,需要依靠大數(shù)據(jù),因此大數(shù)據(jù)需要非常完備。而人是舉一反三式的學習。例如人沒有見過飛機,看過幾張照片就可以把世界上所有飛機都認出;目前的大數(shù)據(jù)驅(qū)動的深度學習方式,是把世界上所有飛機照片都看過才行。現(xiàn)在進行舉一反三的半監(jiān)督或無監(jiān)督式學習,思路是采用對抗的方法,一個網(wǎng)絡造假,另一網(wǎng)絡鑒別照片是真是假,通過對抗式的學習來共同進步(如圖4)。
人工智能引擎
芯片三巨頭
英特爾、英偉達和高通全部轉到了人工智能上。為此英偉達的股票漲了幾倍。英特爾也在大搞人工智能。高通為了進入人工智能領域,收購了恩智浦,恩智浦此前收購了飛思卡爾。
現(xiàn)在出現(xiàn)了基于超級GPU/TPU集群的離線訓練,采用超級GPU/TPu集群服務器,例如英偉達的深度學習芯片Tesla P100及DGX-1深度學習計算機,谷歌數(shù)據(jù)中心的TPU。
終端應用采用GPU/FPGA-based DPU,例如英特爾Apollo Lake A3900的“智能互聯(lián)駕駛艙平臺”,高通驍龍的820A處理器。
通用人工智能與認知智能
1997年,lBM的超級電腦程序“深藍”擊敗國際象棋大師加里?卡斯帕羅夫;2011年2月,IBM的自動問答系統(tǒng)在美國最受歡迎的智力競答電視節(jié)目“危險邊緣”中戰(zhàn)勝了人類冠軍:IBM的沃森醫(yī)生在某些細分疾病領域已能提供頂級醫(yī)生的醫(yī)療診斷水平,例如胃癌診斷。
可見,1.AlphaGo和Master等已可橫掃人類圍棋職業(yè)頂尖高手,下一步,將能下中國象棋等所有棋類,此外還可以打牌、炒股等,即什么都可以干,是強人工智能。2.人工智能已成為無人駕駛汽車商業(yè)落地的關鍵。3.視覺物體識別、人臉識別、唇語識別等在許多國際公開評測中,達到或超過人類的水平;4.速記等語音識別已可媲美人類;5.包括神經(jīng)機器翻譯在內(nèi)的自然語言處理,性能也大幅度提升;6.生成式對抗網(wǎng)絡得到極大關注。
目前,發(fā)展通用人工智能成為普遍共識。
2 社會極大關注
未來,可能很多工作就會消失了。
人工智能引起社會的極大關注和熱議,人工智能發(fā)展很快;而且人工智能的學習速度快,很勤奮,未來可以達到人類所有的智能,這時到達了從強人工智能到超越人工智能的奇點;人工智能有超越人類智能的可能;理論上,人工智能還可以永生。
這也引起了很多人們的擔憂。奇點到來、強人工智能、超人工智能、意識永生、人類滅絕等聳人聽聞的觀點出現(xiàn),引起包括霍金、蓋茨和馬斯克等在內(nèi)的世界名人對人工智能發(fā)展的擔憂。在每年的世界人工智能大會上,專門有一個論壇探討人工智能與法律、倫理及人類未來的會場。
現(xiàn)在,人工智能工業(yè)的OpenAI成立。
2016年全社會對人工智能的極大關注,可能是2016年AI的最大進展!
在半監(jiān)督/無監(jiān)督學習、通用人工智能方面,人工智能具有舉一反三,并有常識、經(jīng)驗、記憶、知識學習、推理、規(guī)劃、決策,甚至還有動機。這最后一點有點恐怖,人是有意識和動機的,機器做事也有動機,太可怕了。
智能學習進步很快,AIpha Go八個月后就可以戰(zhàn)勝所有圍棋手,因為它能每天24小時學習、不吃不喝地學習,比人強多了。
因此,在經(jīng)歷了60年“三起兩落”的發(fā)展后,以深度學習為主要標志的人工智能正迎來第3次偉大復興,這次引起社會尤其是產(chǎn)業(yè)界高強度的關注。因為上世紀60年代和80年代,人工智能沒有達到這樣的水平。
硅谷精神教父、預言家凱文?凱利說,未來人工智能會成為一種如同電力一樣的基礎服務。斯坦福大學推出了“人工智能百年研究”首份報告――《2030年的人工智能與生活》。
3人工智能上升為國家發(fā)展戰(zhàn)略
有人認為第四次工業(yè)革命即將由人工智能與機器人等引爆。英國政府認為,人工智能有望像19世紀的蒸汽機革命那樣徹底改變我們的生活,甚至人工智能給人類社會帶來的變革與影響,有可能遠遠超過蒸汽機、電力和互聯(lián)網(wǎng)帶來的前三次工業(yè)革命。
智能制造、無人駕駛汽車、消費類智能機器人、虛擬助手、聊天機器人、智能金融、智能醫(yī)療、智能新聞寫作、智能律師、智慧城市等可能被人工智能代替。人工智能將無處不在,可望替換人類的部分腦力勞動,一些職業(yè)會被取代或補充,一些新的行業(yè)又會誕生,例如18世紀出現(xiàn)了紡織工人,之后汽車代替了馬車等。因此,我們將經(jīng)歷從“互聯(lián)網(wǎng)+”到“人工智能+”。
中國“互聯(lián)網(wǎng)+”與“中國制造2025”國家發(fā)展戰(zhàn)略的實施,對人工智能的巨大需求在迅速增長。未來2-5年,人工智能應用與產(chǎn)業(yè)發(fā)展將迎來爆發(fā)期。
中國政府在《“互聯(lián)網(wǎng)+”人工智能3年行動實施方案》提出:計劃在2018年形成千億級人工智能產(chǎn)業(yè)應用規(guī)模。201 7年1月10日,科技部部長萬鋼稱,將編制完成人工智能專項規(guī)劃,加快推進人工智能等重大項目的立項論證。
美國政府在2016年10月13日出臺了《為人工智能的未來做好準備》的報告,提出了23條建議措施。同一天,美國政府又出臺了《國家人工智能研發(fā)戰(zhàn)略規(guī)劃》,提出了7大重點戰(zhàn)略方向。美國參議院于2016年11月30日召開了關于人工智能的首次國會聽證會,主題是“人工智能的黎明”,認為中國是對美國人工智能全球領導地位的一個真正威脅。在2016年12月20日美國白宮了《人工智能、自動化與經(jīng)濟》報告,考察了人工智能驅(qū)動的自動化將會給經(jīng)濟帶來的影響,并提出了國家的三大應對策略方向。可見,奧巴馬把人工智能看作其政治遺產(chǎn)之一(注:另一個是Cyber空間)。
英國政府2016年12月了《人工智能:未來決策的機遇與影響》的報告,關注人工智能對社會創(chuàng)新與生產(chǎn)力的促進作用,論述如何利用英國人工智能的獨特優(yōu)勢,增強英國國力。
日本政府2017年開始,要讓人工智能與機器人推動第四次工業(yè)革命。
4 我國對策
應以深度卷積神經(jīng)網(wǎng)絡為核心,全面開展計算機視覺、語音識別和自然語言等人工智能產(chǎn)品的開發(fā)與大規(guī)模產(chǎn)業(yè)化應用。這需要大數(shù)據(jù)、計算平臺/計算引擎、人工智能算法、應用場景等飛速發(fā)展,另外還需要資源、資金、人才。在方法上,選定垂直細分領域最重要。
面向若干細分垂直領域,建立大數(shù)據(jù)中心。實現(xiàn)大數(shù)據(jù)采集、清洗、標簽、存儲、管理與交易,建立大數(shù)據(jù)源公共基礎設施與垂直領域知識庫。專有大數(shù)據(jù)是人工智能產(chǎn)業(yè)制勝的關鍵和法寶。中國企業(yè)必須開始特別關注大數(shù)據(jù)的采集與利用。其重要性如同原油―樣,跨國企業(yè)視之為戰(zhàn)略資源!
強力開展人工智能芯片與硬件平臺的研發(fā)。包括基于FPGA的深度學習芯片;類腦芯片與憶阻器件;建立國家級人工智能超算中心。