去年十月份,馬云成立阿里巴巴達(dá)摩院,三年拿出1000億布局前沿技術(shù)的研究,并對它提出三個(gè)要求,“活得要比阿里巴巴長”、“服務(wù)全世界至少20億人口”、“面向未來用科技解決未來的問題”。
在過去的9個(gè)月中,阿里達(dá)摩院也陸續(xù)傳出來自各方的技術(shù)大牛加盟;公布了正在研發(fā)中的AI芯片Ali-NPU;研發(fā)出量子電路模擬器“太章”,率先實(shí)現(xiàn)81量子比特(40層)的模擬;應(yīng)用在上海地鐵站的語音購票等消息,但整個(gè)達(dá)摩院(正如其名)還隱匿在云霧中。
日前,達(dá)摩院的業(yè)務(wù)終于揭開面紗,四大業(yè)務(wù)板塊公諸于眾。
一、圍繞人、物、空間推動(dòng)機(jī)器視覺落地
阿里達(dá)摩院機(jī)器智能技術(shù)實(shí)驗(yàn)室資深算法專家謝宣松分享了計(jì)算機(jī)視覺在產(chǎn)業(yè)中的應(yīng)用,主要圍繞人(醫(yī)療視覺)、物(行業(yè)視覺)、空間(城市大腦)、設(shè)計(jì)(視覺生成)幾個(gè)維度來展開。謝宣松談到,圍繞人、物、空間來做一些機(jī)器視覺,目的是協(xié)助人提高效率。
第一種是診斷內(nèi)容肉眼可分辨,正常&故障樣本充足,對漏報(bào)有一定的容忍度。這種場景就很適合機(jī)器來做,比如對鐵路螺母是否松動(dòng)的監(jiān)測。第二種是人肉眼難以發(fā)現(xiàn),可根據(jù)情況用機(jī)器視覺作為代替。第三種是故障樣本極少,但造成事故的結(jié)果又很嚴(yán)重,這時(shí)可以用機(jī)器視覺輔助人工檢測。
限定了邊界后,就可以尋找技術(shù)落地的場景了,比如阿里基于視頻分析,可以自動(dòng)進(jìn)行鋼圈安全監(jiān)測,實(shí)測精度在95%以上;再比如通過目標(biāo)檢測和行為分析,對豬的疫情等進(jìn)行預(yù)警,前一段阿里云用AI養(yǎng)豬種瓜,也是風(fēng)靡互聯(lián)網(wǎng)圈。
阿里是以電商起家的,廣告需求廣泛存在于淘寶商戶中,尤其是雙十一這樣的購物節(jié)設(shè)計(jì)需求大量存在。阿里特意構(gòu)建了設(shè)計(jì)知識圖譜,通過視覺生成來生成廣告效果圖。
其中最典型的應(yīng)用就是魯班系統(tǒng)在淘寶中的應(yīng)用。謝宣松談到,雙十一天貓、淘寶上大量的banner圖片,其中很大一部分都是系統(tǒng)自動(dòng)自動(dòng)生成的。比如去年雙十一用AI產(chǎn)圖2.5億張,累計(jì)產(chǎn)圖10億張。身為設(shè)計(jì)師的你看到這一結(jié)果是否會(huì)亞歷山大呢?
二、量子計(jì)算中長期的布局
時(shí)下火熱的一個(gè)概念就是量子計(jì)算,因?yàn)榱孔佑?jì)算機(jī)一旦取得突破,在算力上就會(huì)遠(yuǎn)遠(yuǎn)高于經(jīng)典計(jì)算機(jī),從而帶來算力革命,但這一現(xiàn)象短期內(nèi)很難發(fā)生。
正如阿里達(dá)摩院量子實(shí)驗(yàn)室的量子科學(xué)家徐華所言,通用量子計(jì)算機(jī)發(fā)展前路漫漫,近期我們期待可以解決特定問題的量子芯片,以及針對量子系統(tǒng)進(jìn)行模擬的量子芯片。
今年3月份,谷歌提出72個(gè)比特的芯片方案。而后5月份,阿里量子實(shí)驗(yàn)室團(tuán)隊(duì)基于阿里的計(jì)算能力,實(shí)現(xiàn)了81量子比特的模擬。但徐華總結(jié)到,目前的量子霸權(quán)象征意義大于實(shí)際意義,因?yàn)楸旧斫鉀Q不是通用計(jì)算問題,只能算是技術(shù)發(fā)展過程當(dāng)中的一個(gè)個(gè)里程碑。
三、機(jī)器翻譯
阿里國際化的生命線機(jī)器翻譯是利用計(jì)算機(jī)將一種自然語言專為為另一轉(zhuǎn)自然語言的過程。這項(xiàng)技術(shù)已經(jīng)有60年的歷史,但在最近30年才可以使用。
阿里達(dá)摩院機(jī)器智能技術(shù)實(shí)驗(yàn)室研究員葛妮瑜分享了他們在機(jī)器翻譯技術(shù)中的探索與應(yīng)用,她將機(jī)器翻譯稱為阿里國際化的生命線,因?yàn)榘⒗飮H電商、即時(shí)通訊(釘釘)、旅游(飛豬)等場景存在大量的翻譯需求。
與谷歌的通用神經(jīng)機(jī)器翻譯不同的是,阿里的機(jī)器翻譯更加聚焦在國際電商、即時(shí)通訊、旅游上,采用神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯(NMT)、統(tǒng)計(jì)機(jī)器翻譯(SMT)等多模型結(jié)合的方式進(jìn)行翻譯,目前已覆蓋21種語言,48個(gè)翻譯方向。
葛妮瑜介紹,目前阿里機(jī)器翻譯服務(wù)100+業(yè)務(wù)場景,日均調(diào)用7.5億次,全年翻譯字符數(shù)超過120萬億,應(yīng)用于電商平臺、物流、支付、云計(jì)算、社交等。
四、推行業(yè)語音識
別語音識別是一種常見的將語音轉(zhuǎn)換為文字的技術(shù),目前各家做語音識別的公司都號稱通用語音識別準(zhǔn)確率達(dá)到95%以上,但是在細(xì)分場景、特殊領(lǐng)域中,這一識別率會(huì)大大下降。
阿里達(dá)摩院機(jī)器智能技術(shù)實(shí)驗(yàn)室高級算法專家雷鳴分享到,得益于更強(qiáng)大的計(jì)算能力,以及更多更真實(shí)的數(shù)據(jù),語音識別正在快速發(fā)展,并且工業(yè)界正在成為創(chuàng)新的主流。
目前谷歌、微軟、百度等都采用通用識別的技術(shù),與其不同的是,阿里則重點(diǎn)布局了行業(yè)語音識別、IoT語音識別和新零售語音識別。
在具體應(yīng)用方面,阿里的語音技術(shù)已經(jīng)廣泛應(yīng)用在家庭、車載、公共空間。比如家庭的智能音箱,上汽榮威RX5中的車載語音交互技術(shù)。