談話人:楊志宏 視覺(jué)求索公眾號(hào)編輯朱松純 加州大學(xué)洛杉磯分校UCLA統(tǒng)計(jì)學(xué)和計(jì)算機(jī)科學(xué)教授
時(shí)間: 2016年10月
楊: 朱教授,你在計(jì)算機(jī)視覺(jué)領(lǐng)域耕耘20余年,獲得很多獎(jiǎng)項(xiàng), 是很資深的研究人員。近年來(lái)你又涉足認(rèn)知科學(xué)、機(jī)器人和人工智能。受 《視覺(jué)求索公眾號(hào)》編輯部委托,我想與你探討一下計(jì)算機(jī)視覺(jué)的起源,這個(gè)學(xué)科是什么時(shí)候創(chuàng)建的, 有哪些創(chuàng)始和代表人物。兼談一下目前熱門的人工智能。
朱: 好, 我們首先談一下為什么需要討論這個(gè)問(wèn)題。 然后, 再來(lái)探討一下計(jì)算機(jī)視覺(jué)的三個(gè)重要人物David Marr, King-Sun Fu, Ulf Grenander以及他們的學(xué)術(shù)思想。我認(rèn)為他們是這個(gè)領(lǐng)域的主要?jiǎng)?chuàng)始人、或者叫有重要貢獻(xiàn)的奠基人物。
第一節(jié): 為什么要追溯計(jì)算機(jī)視覺(jué)的源頭, 這有什么現(xiàn)實(shí)意義?
中國(guó)有句很有名的話:“一個(gè)民族如果忘記了歷史,她也注定將失去未來(lái)?!?/span> 我認(rèn)為這句話對(duì)一個(gè)學(xué)科來(lái)講,同樣發(fā)人深省。我們先來(lái)看看現(xiàn)實(shí)的狀況吧。
首先,假設(shè)你當(dāng)前是一個(gè)剛剛進(jìn)入計(jì)算機(jī)視覺(jué)領(lǐng)域的研究生,很快你會(huì)有一種錯(cuò)覺(jué),覺(jué)得這個(gè)領(lǐng)域好像就是5年前誕生的。 跟蹤最新發(fā)表的視覺(jué)的論文,很少有文章能夠引用到5年之前的文獻(xiàn),大部分文獻(xiàn)只是2-3年前的,甚至是1年之內(nèi)的?,F(xiàn)在的信息交換比較快,大家都在比一些 Benchmarks,把結(jié)果掛到arXiv 網(wǎng)上發(fā)布。 很少有一些認(rèn)真的討論追溯到10年前,20年前, 或30年前的一些論文,提及當(dāng)時(shí)的一些思想和框架性的東西?,F(xiàn)在大家都用同樣的方法,只是比拼,你昨天是18.3%的記錄(錯(cuò)誤率),我今天搞到17.9%了。大家都相當(dāng)短視,那么研究生畢業(yè)以后變成了博士,可能也會(huì)帶學(xué)生做研究,他只知道這幾年的歷史和流行的方法的話,怎么可能去傳承這個(gè)學(xué)科,讓其長(zhǎng)期健康發(fā)展呢?特別是等當(dāng)前這一波方法退潮之后,這批人就慢慢失去了根基和源創(chuàng)力。這是一個(gè)客觀的現(xiàn)象。
其次,還有一個(gè)現(xiàn)象是,隨著視覺(jué)與機(jī)器學(xué)習(xí)結(jié)合,再混合到人工智能的這么一個(gè)社會(huì)關(guān)注度很高的領(lǐng)域去以后,目前各種工業(yè)界,資本、投資界都往這里面來(lái)炒作。所以,你可以在互聯(lián)網(wǎng)上看到各種推送的文字,什么這個(gè)大師,那個(gè)什么牛人、達(dá)人說(shuō)得有聲有色,一大堆封號(hào)。中國(guó)是有出“大師”的肥沃的土壤的,特別是在這個(gè)萬(wàn)眾創(chuàng)新、浮躁的年代。 這些文字在混淆公眾的視聽(tīng)。也有的是一些中國(guó)的研究人員、研究生, 半懂不懂,寫出來(lái)一些, 某某梳理機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)和人工智能的歷史大事。說(shuō)得神乎其神。我的大學(xué)同學(xué)把這種帖子轉(zhuǎn)發(fā)給我,讓我擔(dān)憂。
楊:這大多是以學(xué)術(shù)的名義寫的軟文,看起來(lái)像學(xué)術(shù)文章,實(shí)際上就是帶廣告性質(zhì)的,一般都是說(shuō)創(chuàng)投、創(chuàng)業(yè)公司里的人,帶著資本的目的,帶商業(yè)推廣性質(zhì)的。
朱: 我甚至不排除有些教授,比如與硅谷結(jié)合很緊密的、在IT公司或者風(fēng)投公司兼職的,有意識(shí)地參與、引領(lǐng)這種炒作。
這對(duì)我們的年輕學(xué)生其實(shí)是很致命的,因?yàn)樗麄儾涣私膺@背后的動(dòng)機(jī), 缺乏免疫力。而且現(xiàn)在年輕人和公眾都依賴短平快的社交媒體,很少去讀專業(yè)文獻(xiàn)。當(dāng)公眾的思想被這些文字占領(lǐng)了,得出錯(cuò)誤的社會(huì)性的共識(shí),變成了 false common sense, 對(duì)整個(gè)社會(huì), 甚至對(duì)學(xué)術(shù)界,都會(huì)產(chǎn)生長(zhǎng)久的負(fù)面沖擊。
這就形成了新時(shí)代的皇帝的新裝。我們需要對(duì)這種現(xiàn)象發(fā)聲, 做一些嚴(yán)肅的探討。所以,正本清源有著重要的現(xiàn)實(shí)意義。
第二節(jié):計(jì)算機(jī)視覺(jué)和人工智能、機(jī)器學(xué)習(xí)的關(guān)系
楊:談到這里,我想先問(wèn)一下計(jì)算機(jī)視覺(jué)和人工智能是什么關(guān)系?還有機(jī)器學(xué)習(xí)這三個(gè)東西。
朱:人工智能是在60年代中后期起步的。一直到80年代,翻開(kāi)它的教科書,就是一些啟發(fā)式搜索,研究最多的是下棋, 從國(guó)際象棋一直到最近的圍棋,都是比較抽象的表達(dá)。棋盤的位置是有限的、下棋的動(dòng)作也是有限的, 沒(méi)有感知和動(dòng)作執(zhí)行的不確定性。 所有的問(wèn)題都變成一個(gè)圖搜索的問(wèn)題,教科書上甚至出現(xiàn)了一個(gè)通用圖搜索算法號(hào)稱可以解決任何人工智能問(wèn)題。當(dāng)時(shí)視覺(jué)問(wèn)題還沒(méi)引起大家重視。我這里有一份1966 年7月 的 MIT AI 實(shí)驗(yàn)室的第100號(hào)報(bào)告(備忘錄memo 100),很短,題目叫做“The Summer Vision Project”。這個(gè)備忘錄的基本意思就是暑假的時(shí)候找?guī)讉€(gè)學(xué)生構(gòu)造一個(gè)視覺(jué)系統(tǒng)。他們當(dāng)時(shí)可能就覺(jué)得這個(gè)問(wèn)題基本上是不需要做什么研究的。所以你就一個(gè)暑假,幾個(gè)人一起寫個(gè)程序,就把它干掉算了?,F(xiàn)在說(shuō)起來(lái),當(dāng)然是個(gè)笑話。
人的大腦皮層的活動(dòng), 大約70%是在處理視覺(jué)相關(guān)信息。視覺(jué)就相當(dāng)于人腦的大門,其它如聽(tīng)覺(jué)、觸覺(jué)、味覺(jué)那都是帶寬較窄的通道。視覺(jué)相當(dāng)于八車道的高速, 其它感覺(jué)是兩旁的人行道。如果不能處理視覺(jué)信息的話,整個(gè)人工智能系統(tǒng)是個(gè)空架子,只能做符號(hào)推理,比如下棋、定理證明, 沒(méi)法進(jìn)入現(xiàn)實(shí)世界。所以你剛才問(wèn)到的人工智能和計(jì)算機(jī)視覺(jué)的關(guān)系,視覺(jué),它相當(dāng)于說(shuō)芝麻開(kāi)門。大門就在這里面,這個(gè)門打不開(kāi), 就沒(méi)法研究真實(shí)世界的人工智能。
到80年代,人工智能, 連帶機(jī)器人研究就跌入了低谷, 所謂的冬天。那個(gè)時(shí)候,很多實(shí)驗(yàn)室都改名字了, 因?yàn)槟貌坏浇?jīng)費(fèi)了。 客觀來(lái)說(shuō),80年代, 一個(gè)微型計(jì)算機(jī)的它的內(nèi)存只有640K字節(jié),還不到一兆(1MB一百萬(wàn)字節(jié)),我們現(xiàn)在一張圖像,隨便就是幾個(gè)兆的大小,它根本無(wú)法讀入一張圖像,還談什么理解呢?等到我做博士論文的時(shí)候(1992-1996),我導(dǎo)師把當(dāng)時(shí)哈佛機(jī)器人實(shí)驗(yàn)室最好的SUN工作站給我用,也就是32兆字節(jié)。我們實(shí)驗(yàn)室花了25萬(wàn)美元構(gòu)建了一個(gè)圖像采集系統(tǒng),因?yàn)楫?dāng)時(shí)沒(méi)有數(shù)字照相機(jī)??梢赃@么說(shuō),一直到90年代中期的時(shí)候,我們基本上不具備研究視覺(jué)這個(gè)問(wèn)題的硬件條件和數(shù)據(jù)基礎(chǔ)。只能用一些特征點(diǎn)的對(duì)應(yīng)關(guān)系做射影幾何,用一些線條做形狀分析。因?yàn)閳D像做不了,所以80年代計(jì)算機(jī)視覺(jué)的研究,很大部分是做幾何。
楊:90 年代后,就是數(shù)字照相機(jī)大量生產(chǎn)了。
朱:在90年代的末期的時(shí)候,發(fā)生了一個(gè)叫做感知器的革命。帶動(dòng)了大數(shù)據(jù)和機(jī)器學(xué)習(xí)的蓬勃發(fā)展。
楊:那機(jī)器學(xué)習(xí)與計(jì)算機(jī)視覺(jué)的關(guān)系呢?
朱:計(jì)算機(jī)視覺(jué)是一個(gè)domain, 它有很多問(wèn)題要研究, 就像物理學(xué)。 而機(jī)器學(xué)習(xí)基本是一個(gè)方法和工具,就像數(shù)學(xué)和統(tǒng)計(jì)學(xué)。 這個(gè)名詞的興起應(yīng)該還是最近的事情, 在我看來(lái),是來(lái)自于兩股人馬。 80年代人工智能走入低谷后,迎來(lái)了人工神經(jīng)網(wǎng)絡(luò)的一個(gè)高潮, 所謂的從符號(hào)主義到連接主義的過(guò)渡。在中國(guó)80年代與氣功、人體科學(xué)一起走紅,但這基本是曇花一現(xiàn)。到了90年代初, 退潮之后,就開(kāi)始搞 NIPS這個(gè)會(huì)議, 引入統(tǒng)計(jì)的方法來(lái)做。還有一股就是做模式識(shí)別的一些工程人員EECS 背景的。 按道理來(lái)說(shuō), 這個(gè)領(lǐng)域應(yīng)該叫做 統(tǒng)計(jì)學(xué)習(xí) (Statistical Learning),因?yàn)樗姆椒ǘ际怯筛怕式y(tǒng)計(jì)領(lǐng)域拿來(lái)的。這些人中的領(lǐng)軍人物很有商業(yè)頭腦, 把統(tǒng)計(jì)和物理的數(shù)理模型, 改名叫做機(jī)器, 比如**模型(model)就叫**機(jī)(machine),把一些層次模型(hierarchical model)說(shuō)成是“網(wǎng)”(net)。這樣,搞出了幾個(gè)“機(jī)”和“網(wǎng)”之后, 這個(gè)領(lǐng)域就有了地盤。另一方面,我的那些做統(tǒng)計(jì)的同事們也都老實(shí)、圖個(gè)清靜,不與他們?nèi)?zhēng)論, 也大多無(wú)力去爭(zhēng)。當(dāng)然,統(tǒng)計(jì)學(xué)領(lǐng)域也有不少人參與了機(jī)器學(xué)習(xí)的浪潮。簡(jiǎn)單說(shuō),機(jī)器學(xué)習(xí)中的 “機(jī)器”就是統(tǒng)計(jì)模型,“學(xué)習(xí)”就是用數(shù)據(jù)來(lái)擬合模型。 是由做計(jì)算機(jī)的人搶占了統(tǒng)計(jì)人的理論和方法,然后,應(yīng)用到視覺(jué)、語(yǔ)音語(yǔ)言等 domains。 我在計(jì)算機(jī)和統(tǒng)計(jì)兩個(gè)系當(dāng)教授, 看得一清二楚。 這個(gè)問(wèn)題我以后可以專門討論。
這個(gè)機(jī)器學(xué)習(xí)的群體在2000年之后,加上大量數(shù)據(jù)的到來(lái),很快就成長(zhǎng)了, 商業(yè)上取得很大的成功。機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺(jué)大概有百分之六七十是重合的。順便說(shuō)一句,2019年我們兩個(gè)領(lǐng)域會(huì)在一起在洛杉磯開(kāi)CVPR 和 ICML年會(huì), 我是CVPR19的大會(huì)主席。因?yàn)閷W(xué)習(xí)搞來(lái)搞去,最豐富的數(shù)據(jù)是在視覺(jué)(圖像和視頻)。現(xiàn)在這次機(jī)器學(xué)習(xí)的一些大的動(dòng)作和工程上的推廣工作,還是從計(jì)算機(jī)視覺(jué)這邊開(kāi)始的。
楊:謝謝你講述人工智能,計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)的關(guān)系。下面我們回到本次訪談的主題。剛才說(shuō)了這個(gè)感知器革命是90年代以后,出了很多的數(shù)據(jù)要處理了。那么為什么馬爾(Marr)在70年代末思考的問(wèn)題,在面對(duì)我們當(dāng)今處理這個(gè)數(shù)據(jù)的時(shí)候, 還有意義?就是說(shuō)馬爾用了什么方法?什么思路框架?使它有生命力?
朱:好,就回到1975-1980年這個(gè)時(shí)間段。我們今天的主題是想初步探討一下計(jì)算機(jī)視覺(jué)的起源。我們這個(gè)領(lǐng)域也沒(méi)有一個(gè)統(tǒng)一的教科書來(lái)談這個(gè)事情。我認(rèn)為視覺(jué)的起源,可以追溯到三個(gè)人,David Marr, King-Sun Fu 和Ulf Grenander。這三個(gè)人代表三個(gè)完全不同的方面,為計(jì)算機(jī)視覺(jué)這個(gè)領(lǐng)域奠定了基礎(chǔ)。
楊:好, 我們逐個(gè)來(lái)介紹吧。
第三節(jié):視覺(jué)的開(kāi)創(chuàng)者之一:David Marr 的學(xué)術(shù)思想
朱: David Marr 【1945-1980】,中文音譯為馬爾, 他奠定了這個(gè)領(lǐng)域叫做Computational Vision計(jì)算視覺(jué),這包含了兩個(gè)領(lǐng)域: 一個(gè)就是計(jì)算機(jī)視覺(jué)(Computer Vision),一個(gè)是計(jì)算神經(jīng)學(xué)(Computational Neuroscience)。他的工作對(duì)認(rèn)知科學(xué)(CognitiveScience)也產(chǎn)生了很深遠(yuǎn)的影響,我們計(jì)算機(jī)視覺(jué)CV,第一屆國(guó)際會(huì)議ICCV 1987年就以David Marr的名字來(lái)命名最佳論文獎(jiǎng), 而且一直到2007年之前的20年間, 是CV唯一的獎(jiǎng)項(xiàng)和最高的榮譽(yù),兩年一次。認(rèn)知科學(xué)年會(huì) (CogSci)也設(shè)有一個(gè) Marr Prize給最佳的學(xué)生論文。這三個(gè)領(lǐng)域在80-90年代走得很近, 最近十多年交叉越來(lái)越少了。就是說(shuō),原來(lái)都是親戚,表兄弟, 現(xiàn)在很少有人在之間走動(dòng)了。
Marr 1972年從劍橋大學(xué)畢業(yè),博士論文是從理論的角度研究大腦功能,具體來(lái)說(shuō),是研究的小腦, 主管運(yùn)動(dòng)的Cerebellum。1973年受MIT 人工智能實(shí)驗(yàn)室主任Minsky的邀請(qǐng), 開(kāi)始是做訪問(wèn)學(xué)者(博士后)。 1977年轉(zhuǎn)為教職。 可是, 1978年冬診斷得了急性白血病。1980年轉(zhuǎn)為正教授不久就去世了, 時(shí)年35歲。他在得知來(lái)日無(wú)多后,就趕緊整理了一本書,就叫 “Vision:A Computational Investigation into the HumanRepresentation and Processing of Visual Information”, 《視覺(jué):從計(jì)算的視角研究人的視覺(jué)信息表達(dá)與處理》。他去世后由學(xué)生和同事修訂,1982年出版。
楊:“Vision”2010年再版了,再版了以后在亞馬遜仍然是賣得很好。
朱:它是個(gè)經(jīng)典的東西。我是1989年冬天本科三年級(jí)從中科大認(rèn)知科學(xué)實(shí)驗(yàn)室的老師那里,讀到這本書的中文譯本。因?yàn)槿狈Ρ尘爸R(shí),我當(dāng)時(shí)基本讀不懂。因?yàn)槭侵形?,每句話都明白,但是一段話就不知道是什么意思了。在過(guò)去的20多年中, 我每隔1-2年都會(huì)再翻一翻這本書。后來(lái)我和同事花了大約8年時(shí)間,將他的一些思路轉(zhuǎn)化成數(shù)理模型,比如primal sketch。
楊:這個(gè)人生故事是可以拍電影的。
朱:的確。 很多年前我與他的大弟子 Shimon Ullman飯桌上談到這段歷史, 他說(shuō)當(dāng)時(shí)大家到處找藥,就是救不過(guò)來(lái)。當(dāng)年這是一個(gè)30多歲正值科學(xué)頂峰的、交叉學(xué)科的領(lǐng)軍人物。順便說(shuō)一句, 當(dāng)年中日友好,1984播放日本電視劇《血疑》, 那是萬(wàn)人空巷, 感人至深。里面的大島幸子(三口百惠飾)得的就是同樣的病。可惜, 目前計(jì)算機(jī)視覺(jué)這個(gè)領(lǐng)域,你如果去問(wèn)學(xué)生的話,他們很多人都沒(méi)聽(tīng)說(shuō)過(guò)David Marr?!班福肫饋?lái)了,好像有個(gè)Marr獎(jiǎng)吧”??墒悄闳?wèn)認(rèn)知科學(xué)、神經(jīng)科學(xué)的人,他們基本上對(duì)Marr非常的清楚。這也是我所擔(dān)心的, 計(jì)算機(jī)視覺(jué)的發(fā)展太工程化、功利化了,逐步脫離了科學(xué)的范疇。這是短視和危險(xiǎn)的。最近又受到機(jī)器學(xué)習(xí)來(lái)的沖擊。我這里順便說(shuō)一句, Marr 對(duì)我的另外一個(gè)間接的影響。他1973年來(lái)到MIT, 就租住在JayantShah的房子里, Shah 與 Minsky很熟, 他當(dāng)時(shí)是研究代數(shù)幾何(Algebraic geometry)的。 而我導(dǎo)師Mumford也是研究代數(shù)幾何的, 并獲得1974年的菲爾茲獎(jiǎng)。他們兩人很熟,后來(lái)在Shah的影響下,Mumford轉(zhuǎn)入計(jì)算機(jī)視覺(jué), 他們從提取物體邊緣開(kāi)始 (boundarydetection),也就是產(chǎn)生了著名的 Mumford-Shah 模型,搞圖像處理的應(yīng)用數(shù)學(xué)人員基本都是從這個(gè)模型開(kāi)始做。這是后話。關(guān)于這段歷史,我們以后可以展開(kāi)談。:好, 那么 Marr的學(xué)術(shù)貢獻(xiàn)是什么呢?
<>朱:在我看來(lái),David Marr對(duì)我們這個(gè)學(xué)科最主要的貢獻(xiàn)有三條。從而基本上可以說(shuō),定義了這個(gè)學(xué)科的格局。第一條,就是說(shuō)在那個(gè)時(shí)代,60年代開(kāi)始的時(shí)候大家已經(jīng)很多人研究視覺(jué)神經(jīng)生理學(xué)、心理學(xué)問(wèn)題。也有人做一些邊緣檢測(cè)的工作。但是,視覺(jué)到底要解決哪些問(wèn)題?是怎么實(shí)現(xiàn)的?大家莫衷一是,談不清楚,那么David Marr的第一個(gè)貢獻(xiàn)就是分出了三個(gè)層次。他說(shuō), 要解決這個(gè)問(wèn)題,可以把它分成計(jì)算(其實(shí)應(yīng)該說(shuō)成是表達(dá))、算法、和實(shí)現(xiàn)三層次。首先,在表達(dá)的層次,我們問(wèn)一下這是個(gè)什么問(wèn)題呢?如何把它寫成一個(gè)數(shù)學(xué)問(wèn)題。任務(wù)是什么?輸出是什么?這是獨(dú)立于解決問(wèn)題的方法的。其次,對(duì)這個(gè)數(shù)學(xué)問(wèn)題去求解時(shí),可以選擇不同的算法, 可以并行或者串行。再次,一個(gè)算法如何在硬件上實(shí)現(xiàn),可以用CPU,DSP, 或者神經(jīng)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)。 很多觀察到的心理學(xué)和神經(jīng)科學(xué)的現(xiàn)象都是跟系統(tǒng)硬件有關(guān)的東西,比如說(shuō)人的一些注意機(jī)制,記憶力。這些應(yīng)該從表達(dá)層面剔除。這樣, 視覺(jué)就可以從純粹的理論、計(jì)算的角度來(lái)研究了。我們可以參考心理學(xué)和神經(jīng)科學(xué)的結(jié)論, 但這不是主要的。 打個(gè)比方,要造飛機(jī), 可以參考鳥類的結(jié)構(gòu), 但關(guān)鍵還是建立空氣動(dòng)力學(xué),才能從根本上解釋這個(gè)現(xiàn)象, 并創(chuàng)造各種飛行器, 走得更遠(yuǎn)。
楊:他這么一說(shuō),今天看來(lái)好像很自然的可以理解了,但是在當(dāng)時(shí),可能沒(méi)有多少人,是把問(wèn)題這樣分解的。
!important;">:當(dāng)時(shí)分不開(kāi)。因?yàn)楫?dāng)時(shí)站在像神經(jīng)科學(xué)和認(rèn)知科學(xué)角度,是拿一些實(shí)驗(yàn)現(xiàn)象來(lái)說(shuō)事,但是不知道這個(gè)現(xiàn)象是在哪一層出現(xiàn)的。
比如神經(jīng)網(wǎng)絡(luò)和目前的深度神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí),他們的模型(表達(dá))、算法、和實(shí)現(xiàn)的結(jié)構(gòu)三層 是混在一起的。就變成一個(gè)特用的計(jì)算設(shè)備, 算法就是由這個(gè)結(jié)構(gòu)來(lái)實(shí)現(xiàn)的。當(dāng)它性能不好的時(shí)候,到底是因?yàn)楸磉_(dá)不對(duì),還是算法不對(duì),還是實(shí)現(xiàn)不對(duì)? 這個(gè)不好分析了,目前的神經(jīng)網(wǎng)絡(luò),或者是機(jī)器學(xué)習(xí),深度學(xué)習(xí),它的本源存在這個(gè)問(wèn)題。
以前我們審稿的時(shí)候,會(huì)追問(wèn)論文貢獻(xiàn)是提出了一個(gè)新的模型?還是一個(gè)新的算法?在哪一個(gè)層級(jí)上你有貢獻(xiàn),必須說(shuō)得清清楚楚。2012年,我作為國(guó)際計(jì)算機(jī)視覺(jué)和模式識(shí)別年會(huì)(CVPR)的大會(huì)主席, 就發(fā)生一個(gè)事件。收到神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)學(xué)派的一個(gè)領(lǐng)軍人物 LeCun的抱怨信,他的論文報(bào)告了很好的實(shí)驗(yàn)結(jié)果, 但是審稿的三個(gè)人都認(rèn)為論文說(shuō)不清楚到底為什么有這個(gè)結(jié)果, 就拒稿。他一氣之下就說(shuō)再也不給CVPR投稿了,把審稿意見(jiàn)掛在網(wǎng)上以示抗議。2012 年是個(gè)轉(zhuǎn)折點(diǎn)。
現(xiàn)在呢?隨著深度學(xué)習(xí)的紅火, 這三層就又混在一塊去了。 一般論文直接就報(bào)告結(jié)果, 一堆表格、曲線圖。我就是這么做,然后再這么做,我在某些個(gè)數(shù)據(jù)集上提高了兩個(gè)百分點(diǎn),那就行了。你審稿人也別問(wèn)我這個(gè)東西里面有什么貢獻(xiàn),哪個(gè)節(jié)點(diǎn)代表是什么意思,你別問(wèn),我也不知道。那算法收斂了嗎?是全局收斂還是一個(gè)局部收斂?我也不知道,但是我就提高了兩個(gè)百分點(diǎn)。>楊:或者要用多少數(shù)據(jù)來(lái)訓(xùn)練材料才能夠呢?
楊:明白。
朱:我們現(xiàn)在很多人研究這個(gè)智能,比如說(shuō)分類問(wèn)題。他都是從谷歌的一些應(yīng)用,比如搜索圖片、廣告投放,變成分類問(wèn)題。 從而忽視了更大的本質(zhì)問(wèn)題。如果說(shuō)人工智能往前發(fā)展機(jī)器人,要從機(jī)器人的角度來(lái)用視覺(jué)的話,那么它就有很多不同的任務(wù)。我現(xiàn)在做飯,我在打球,我在欣賞風(fēng)景,這個(gè)時(shí)候我看到的東西是完全不一樣的。我怎么樣通過(guò)這千千萬(wàn)萬(wàn)的任務(wù),而不是簡(jiǎn)單一個(gè)分類,來(lái)驅(qū)動(dòng)我的計(jì)算的過(guò)程,來(lái)找到我的需求,來(lái)支持我目前的任務(wù),這是一個(gè)巨大的研究的方向。David Marr的思想,到今天,反而意義非常重大,因?yàn)榇蠹椰F(xiàn)在一窩蜂的去搞深度學(xué)習(xí),把這些基本東西給忘掉了。但是這才是人工智能和機(jī)器人視覺(jué)的長(zhǎng)遠(yuǎn)發(fā)展方向。
我前兩年給過(guò)幾個(gè)談話,說(shuō)研究視覺(jué)要從一個(gè)agent(執(zhí)行者)的角度,帶著任務(wù)進(jìn)來(lái)的這么一個(gè)人或機(jī)器人,主動(dòng)地去激發(fā)視覺(jué)。
目前的計(jì)算機(jī)視覺(jué)的研究還有一大部分是由視頻監(jiān)控的應(yīng)用來(lái)驅(qū)動(dòng)的,比如說(shuō)我檢測(cè)一些異?,F(xiàn)象,看這個(gè)人是男還是女?那這也是一種被動(dòng)的,就是說(shuō)它只是在看,沒(méi)有去做。要去做的話,就涉及到因果關(guān)系和更多的不確定性。所以現(xiàn)在的研究生覺(jué)得,他整天在做機(jī)器學(xué)習(xí), 就在調(diào)參數(shù),就在跟別人比拼百分之幾的性能。 一些公司的研究所就報(bào)道, 他們?cè)谀衬硢?wèn)題(數(shù)據(jù)集)上國(guó)際領(lǐng)先了,排名第一了。他們自己也覺(jué)得這個(gè)研究沒(méi)多少意思。那是因?yàn)樗麄儧](méi)有接觸到這些基本的問(wèn)題上來(lái)。
楊:他們可能還沒(méi)有發(fā)現(xiàn)這個(gè)問(wèn)題本身是多么有趣。
朱:因?yàn)樽鳛橐粋€(gè)科學(xué)來(lái)發(fā)展的話,那它就是要認(rèn)認(rèn)真真的來(lái)做,把這個(gè)理清楚。當(dāng)前的火熱來(lái)源于工業(yè)界, 工業(yè)界沒(méi)有多少耐心資助他們的研究人員去做科學(xué)研究,大家很現(xiàn)實(shí)。 那么,David Marr先談這么多好不好?以后我們可能還會(huì)繼續(xù)深入談的。>楊:好。那我們第二個(gè)人就談一下傅京孫。
>第四節(jié):視覺(jué)的開(kāi)創(chuàng)者之二:傅京孫(King-Sun Fu)的學(xué)術(shù)思想