新智元作者:王嘉俊 王婉婷 張巨巖
圣誕前夕,新智元盤點(diǎn)了全球最好人機(jī)交互技術(shù)(來(lái)自 Gartner 技術(shù)曲線),并把它們分為五大類:
1、科技誕生的促動(dòng)期(On the Rise)
2、過(guò)高期望的峰值(At the Peak)
3、泡沫化的低谷期(Sliding Into the Trough)
4、穩(wěn)步爬升的光明期(Climbing the Slope )
5、實(shí)質(zhì)生產(chǎn)的高峰期(Entering the Plateau)
注:技術(shù)成熟度曲線又叫技術(shù)循環(huán)曲線,或者直接叫做炒作周期,是指新技術(shù)、新概念在媒體上曝光度隨時(shí)間的變化曲線。
從 PC 到互聯(lián)網(wǎng)再到移動(dòng)互聯(lián)網(wǎng),IT 產(chǎn)業(yè)的快速發(fā)展背后是基礎(chǔ)設(shè)施和核心技術(shù)的進(jìn)步。但我們也注意到,一項(xiàng)技術(shù)真正改變?nèi)祟惿睿€是來(lái)自人機(jī)交互模式的創(chuàng)新。
回顧過(guò)去我們姑妄言之,未來(lái) 5 年 IT 產(chǎn)業(yè)的核心推動(dòng)力,來(lái)自于人機(jī)交互的變革。
談到人機(jī)交互,我們總能想到一些經(jīng)典的例子:例如喬布斯推出的 iPod,讓音樂(lè)真正可以成為便攜之物;而后又推出了觸控式的 iPhone,完全顛覆了過(guò)去鍵盤式手機(jī)的模式。這背后當(dāng)然有喬布斯偏執(zhí)的天才藝術(shù)家氣質(zhì),但不可否認(rèn)的是,iPhone 成功的背后是各種傳感器價(jià)格大幅下降,觸控技術(shù)的成熟和3G、4G 網(wǎng)絡(luò)的普及。而現(xiàn)在,語(yǔ)音技術(shù)的突破更帶動(dòng)智能人機(jī)交互的發(fā)展,科大訊飛在語(yǔ)音識(shí)別和合成技術(shù)上有強(qiáng)大的國(guó)際競(jìng)爭(zhēng)力,連續(xù) 10 年蟬聯(lián) Blizzard Challenge 英語(yǔ)合成國(guó)際評(píng)測(cè)第一,語(yǔ)音合成、語(yǔ)音識(shí)別和自然語(yǔ)言理解技術(shù)全球第一。
iPhone 和 iPod 的成功,我們認(rèn)為是核心技術(shù)的成熟、在產(chǎn)品進(jìn)行用戶體創(chuàng)新以及天才領(lǐng)導(dǎo)人物共同作用的結(jié)果。
不過(guò)這也提出啟示:未來(lái)的偉大產(chǎn)品,很可能也是這樣的模式。我們認(rèn)為在知識(shí)產(chǎn)權(quán)和核心數(shù)據(jù)變得越發(fā)重要的時(shí)代,下一個(gè)巨頭級(jí)企業(yè),一定是在核心技術(shù)上能掌握主導(dǎo)權(quán),然后產(chǎn)品上的用戶體驗(yàn)上小步快跑,快速迭代。
回到人機(jī)交互的變革,我們面臨著萬(wàn)物互聯(lián)的時(shí)代。手機(jī)、可穿戴設(shè)備、智能家居等,我們要處理各種各樣的設(shè)備、信息和數(shù)據(jù)。在這個(gè)過(guò)程中,我們認(rèn)為未來(lái)核心的人機(jī)交互,是以語(yǔ)音交互為主,觸摸手勢(shì)為輔,依托于人工智能技術(shù),能夠智能的和你稀缺的注意力資源進(jìn)行互動(dòng)。
科大訊飛的發(fā)展歷程和我們談到的核心技術(shù)突破 + 產(chǎn)品上用戶體驗(yàn)創(chuàng)新有很多相同之處。
科大訊飛總裁劉慶峰在接受采訪時(shí)提到:
“創(chuàng)新應(yīng)該為大波浪+小波浪,也就是核心源頭技術(shù)突破+用戶體驗(yàn)微創(chuàng)新。換言之,中國(guó)人工智能的發(fā)展,一定要用核心技術(shù)的突破。如果掌握不了主導(dǎo)權(quán),產(chǎn)業(yè)越大風(fēng)險(xiǎn)越大。”
“在推動(dòng)人類未來(lái)需要什么樣的技術(shù)?我覺(jué)得未來(lái)最核心的是兩條;一條是誰(shuí)能夠在用戶界面中提供自然便捷的方式?第二,誰(shuí)能理解我們的需求?抓住這兩條才能有效的布局未來(lái)發(fā)展。”
科大訊飛研究院院長(zhǎng)胡郁表示說(shuō),“我們不是一家跟風(fēng)的企業(yè),我們只是在等待一個(gè)機(jī)會(huì),用技術(shù)和實(shí)力去爭(zhēng)取自己的話語(yǔ)權(quán)。我們也希望向世界證明,中國(guó)的企業(yè)依靠核心技術(shù)創(chuàng)新和系統(tǒng)技術(shù)創(chuàng)新也可以贏得應(yīng)有的尊重。”
下周一(12 月 21 日14:30-16:30)是科大訊飛的年度發(fā)布會(huì),有國(guó)際前沿重量級(jí)的人機(jī)交互產(chǎn)品發(fā)布。我們看到深耕語(yǔ)音技術(shù)的科大訊飛,在產(chǎn)品的用戶體驗(yàn)上也下足了功夫。新智元邀請(qǐng)您參加 2015 科大訊飛年度發(fā)布會(huì)的微信群直播,這次直播由新智元主辦,讓我們一起探秘語(yǔ)音和人工智能的現(xiàn)狀和未來(lái)趨勢(shì)。
以下是新智元對(duì) 33 項(xiàng)人機(jī)交互技術(shù)進(jìn)行的詳細(xì)梳理,文末有發(fā)布會(huì)參加方式。
虛擬個(gè)人助理 Virtual Personal Assistants
虛擬個(gè)人助理是一種軟件形式的助理,可以為你完成一些工作或是提供一些服務(wù)。這些工作和服務(wù)依賴于用戶輸入信息、位置信息、以及從各種網(wǎng)絡(luò)資源中獲取信息的能力(比如天氣情況、路況、新聞、股價(jià)、用戶日程、商品零售價(jià)等等)。Apple的Siri、Google的Google Now、Amazon Echo、微軟的Cortana、三星的S Voice、黑莓的Assistant、HTC的Hidi、Facebook的M等等都有虛擬個(gè)人助理的功能。
生物聲學(xué)傳感 Bioacoustic Sensing
生物聲學(xué)是一個(gè)生物學(xué)和聲學(xué)交叉的領(lǐng)域。生物聲學(xué)傳感的應(yīng)用之一就是皮膚輸入(skinput),這種微軟研究院開(kāi)創(chuàng)的技術(shù)通過(guò)生物聲學(xué)來(lái)定位手指點(diǎn)擊到的皮膚位置。整合微型投影儀(pico-projector)以后,它能夠在人類身體表面投影出可以直接操作的、圖形式的用戶界面。人們總是希望設(shè)備能夠越來(lái)越小的同時(shí)操作界面不要隨之縮小,皮膚輸入為這樣的目標(biāo)提供了一種很有潛力的方法。
步態(tài)識(shí)別 Gait Recognition
步態(tài)識(shí)別是一種生物測(cè)量學(xué)的技術(shù),測(cè)量身體的移動(dòng)、生物力學(xué)、肌肉運(yùn)動(dòng)等等方面。運(yùn)用步態(tài)識(shí)別的方法,可以根據(jù)每個(gè)人獨(dú)特的步態(tài)將他與其他人區(qū)分開(kāi),所以可以作為一種非侵入式、無(wú)需對(duì)方配合的識(shí)別方法。在一定的距離上也可以完成對(duì)人類的步態(tài)識(shí)別,這就讓它非常適合用來(lái)在犯罪現(xiàn)場(chǎng)辨別嫌疑人。醫(yī)療領(lǐng)域同樣可以用到步態(tài)識(shí)別,比如,通過(guò)對(duì)于步態(tài)的識(shí)別可以在帕金森癥和多發(fā)性硬化癥等病癥的早期階段就將它們鑒別出來(lái)。
腦機(jī)接口 Brain-Computer Interface
腦機(jī)接口是在人或動(dòng)物的大腦與外部設(shè)備間建立直接的信息交換通路。腦機(jī)接口通常直接與輔助、增強(qiáng)、或是修復(fù)人類的認(rèn)知和感覺(jué)運(yùn)動(dòng)能力聯(lián)系在一起。腦機(jī)接口領(lǐng)域的研究主要關(guān)注神經(jīng)義肢(neuroprosthetics)的應(yīng)用,目標(biāo)在于修復(fù)受損的聽(tīng)力、視力、以及運(yùn)動(dòng)能力。大腦皮層的可塑性讓來(lái)自植入式義肢的信號(hào)可以被大腦當(dāng)作自然產(chǎn)生的信號(hào)來(lái)處理。腦機(jī)接口未來(lái)在中風(fēng)恢復(fù)、意識(shí)障礙(Disordersof Consciousness)等方面有許多應(yīng)用前景。
增強(qiáng)人類能力 Human Augmentation
增強(qiáng)人類能力指的是任何運(yùn)用自然或是人工的方法來(lái)克服人類能力局限性的努力。這一方面現(xiàn)有的技術(shù)在生理方面有提升肌體表現(xiàn)的藥物、強(qiáng)力的外骨骼、器官移植等等,在精神方面有強(qiáng)化認(rèn)知等能力的藥物、計(jì)算機(jī)和互聯(lián)網(wǎng)等讓人類的行動(dòng)更有效率的工具等等。未來(lái)將會(huì)出現(xiàn)的技術(shù)包括成熟的人類基因編輯、基因治療、腦機(jī)接口、神經(jīng)植入裝置等等,意識(shí)上傳、外部大腦皮層(exocortex)等技術(shù)也并非沒(méi)有可能。
立體顯示 Volumetric Displays
立體顯示是指形成一個(gè)物體的3D影像,與傳統(tǒng)屏幕上用深淺的效果在2D平面模擬3D圖像是不同的。絕大多數(shù)(如果不是全部的話)立體顯示不是采用自由立體技術(shù)(autostereoscopic),就是采用多視點(diǎn)技術(shù)(automultiscopic),以此創(chuàng)造出裸眼可見(jiàn)的3D影像。立體顯示在人機(jī)交互中有廣闊的應(yīng)用前景,有一些對(duì)于用立體顯示進(jìn)行人機(jī)交互在速度和準(zhǔn)確度上的優(yōu)勢(shì)、創(chuàng)造全新的圖形交互界面、用立體顯示增強(qiáng)醫(yī)療應(yīng)用等方面的研究。
非醫(yī)療用途的植入式芯片 Chip Implants for Nonmedical Applications
植入式芯片是一種裝在硅酸鹽玻璃中的集成芯片識(shí)別裝置或是射頻識(shí)別收發(fā)裝置。通常植入的芯片會(huì)包含唯一的識(shí)別ID,可以用來(lái)與外部數(shù)據(jù)庫(kù)里的信息(比如個(gè)人身份、醫(yī)療記錄、聯(lián)系信息等)相連。在未來(lái),如果植入式芯片帶有GPS功能,那么就能準(zhǔn)確地捕捉到這個(gè)人所在位置的經(jīng)緯度、海拔高度、他的移動(dòng)速度以及移動(dòng)方向。這將讓定位失蹤者、逃犯等成為可能。但是,也有人指出,這種技術(shù)可能會(huì)帶來(lái)政治壓迫,因?yàn)檎軌蛲ㄟ^(guò)植入式芯片來(lái)追蹤和迫害人權(quán)運(yùn)動(dòng)者、勞工維權(quán)人士、政治對(duì)手等;而罪犯也能利用它來(lái)跟蹤并騷擾那些受害者,奴隸主們可能會(huì)用它來(lái)防止奴隸逃跑,那些虐待兒童的人也可能用它來(lái)確定孩子們的位置、然后實(shí)施綁架。
電震動(dòng) Electrovibration
電震動(dòng)現(xiàn)象可以被追溯到1954年的意外發(fā)現(xiàn)。當(dāng)時(shí)的研究者們報(bào)告說(shuō),覆蓋著一層薄絕緣層的導(dǎo)電表面,通電后,當(dāng)干燥的手指在表面上滑動(dòng)時(shí)會(huì)有一種獨(dú)特的橡膠觸感。電震動(dòng)效應(yīng)通過(guò)給手指上的觸覺(jué)接收神經(jīng)以錯(cuò)誤的信號(hào)來(lái)達(dá)到效果。現(xiàn)在,基于電震動(dòng)的原理,已經(jīng)有人開(kāi)發(fā)出了力反饋觸摸屏,能夠?yàn)橛|摸屏提供類似實(shí)體按鍵的觸覺(jué)反饋。這種技術(shù)還有可能為盲人帶來(lái)全新的閱讀設(shè)備。
智能機(jī)器人 Smart Robots
到目前為止,在世界范圍內(nèi)還沒(méi)有一個(gè)統(tǒng)一的智能機(jī)器人定義。大多數(shù)專家認(rèn)為智能機(jī)器人至少要具備以下三個(gè)要素:一是感覺(jué)要素,用來(lái)認(rèn)識(shí)周圍環(huán)境狀態(tài);二是運(yùn)動(dòng)要素,對(duì)外界做出反應(yīng)性動(dòng)作;三是思考要素,根據(jù)感覺(jué)要素所得到的信息,思考出采用什么樣的動(dòng)作。智能機(jī)器人根據(jù)其智能程度的不同,又可分為三種:工業(yè)機(jī)器人、初級(jí)智能機(jī)器人和高級(jí)智能機(jī)器人。工業(yè)機(jī)器人,它只能死板地按照人給它規(guī)定的程序工作;初級(jí)智能機(jī)器人,具有象人那樣的感受,識(shí)別,推理和判斷能力。高級(jí)智能機(jī)器人除了包括初級(jí)機(jī)器人的能力外通過(guò)學(xué)習(xí),總結(jié)經(jīng)驗(yàn)來(lái)獲得修改程序的原則,這種機(jī)器人擁有一定的自動(dòng)規(guī)劃能力,能夠自己安排自己的工作。這種機(jī)器人不需要人的照料,完全獨(dú)立的工作,故稱為高級(jí)自律機(jī)器人。
情感探測(cè)/識(shí)別 Emotion Detection / Recognition
情感識(shí)別是一種辨別人類情感的過(guò)程,大部分時(shí)候是辨別面部表情(當(dāng)然,聲音的聲調(diào)、速度、強(qiáng)度等參數(shù)也能表達(dá)情感)。人類的情感識(shí)別能力是自動(dòng)加工的,而計(jì)算機(jī)識(shí)別情感的能力也有了一些例子,比如軟銀的情感機(jī)器人Pepper。對(duì)于陪伴型機(jī)器人而言,情感的探測(cè)識(shí)別將是不可或缺的能力之一;除此之外,情感識(shí)別也能幫助廣告商和內(nèi)容商更有效率地進(jìn)行傳播,就像Affectiva做的那樣。
肌肉計(jì)算機(jī)接口 Muscle-Computer Interface
肌肉計(jì)算機(jī)接口是一種無(wú)需通過(guò)直接操作物理設(shè)備(比如鼠標(biāo)、鍵盤等等)就能獲取人類輸入的信息的技術(shù)。這種交互技術(shù)可以直接感受到人類的肌肉電活動(dòng)并進(jìn)行解碼,讓人們?cè)诿χ渌聞?wù)的時(shí)候也能進(jìn)行信息輸入。比如,將信號(hào)接收器放在你前臂上的話——這些肌肉控制著你手指的運(yùn)動(dòng)——它就能準(zhǔn)確地探測(cè)到你手指的運(yùn)動(dòng),而軟件可以將這些信號(hào)轉(zhuǎn)換為手指的姿勢(shì),讓計(jì)算機(jī)像理解常規(guī)的鍵盤輸入、鼠標(biāo)輸入、觸屏輸入一樣理解手指的運(yùn)動(dòng)意味著什么。
量化自我 Quantified Self
量化自我指的是運(yùn)用科技來(lái)獲取一個(gè)人每日生活的各種數(shù)據(jù),包括輸入(inputs,比如,吃掉的食物、周圍的空氣質(zhì)量),狀態(tài)(states,比如,情緒、喚醒水平、血氧含量),以及表現(xiàn)(包括精神上和身體上的表現(xiàn))。這種通過(guò)可穿戴設(shè)備達(dá)到的自我監(jiān)控和自我感知,也被稱為記錄生命日志(lifelogging)。它讓人們能夠通過(guò)量化指標(biāo)來(lái)了解自身,也讓數(shù)據(jù)收集變得更廉價(jià)、更便利。睡眠質(zhì)量監(jiān)控、情緒監(jiān)控、以及體重監(jiān)控都是常見(jiàn)的用途。
用戶體驗(yàn)平臺(tái) UXPs
用戶體驗(yàn)平臺(tái)(user experienceplat form)整合一系列技術(shù)來(lái)為用戶和一組應(yīng)用程序——或是內(nèi)容、服務(wù)、其它用戶等——提供一種交互。一個(gè)用戶體驗(yàn)平臺(tái)包括門戶、混搭工具(mashup tools)、內(nèi)容管理、搜索、豐富互聯(lián)網(wǎng)應(yīng)用程序(RIA)工具、數(shù)據(jù)分析、合作、社交等元素。它可以是一套產(chǎn)品,也可以是一個(gè)單獨(dú)的產(chǎn)品。用戶體驗(yàn)平臺(tái)將會(huì)為網(wǎng)站、移動(dòng)端應(yīng)用程序、以及未來(lái)新出現(xiàn)的渠道創(chuàng)造出高效、高忠誠(chéng)度的用戶體驗(yàn)。
柔性顯示器 Flexible Display
柔性顯示器是一種可彎曲的顯示器,不同與傳統(tǒng)電子設(shè)備上平板式的顯示器。它主要用兩種方式實(shí)現(xiàn):電子紙(electronic paper),或是有機(jī)發(fā)光二極體(OLED)。最近幾年,無(wú)數(shù)電子消費(fèi)品制造商都對(duì)柔性顯示器流露出濃厚的興趣,嘗試將這種技術(shù)應(yīng)用在電子閱讀器、移動(dòng)電話、以及其它電子產(chǎn)品上,比如諾基亞和三星都展出過(guò)柔性顯示屏的概念手機(jī)。
語(yǔ)音到語(yǔ)音翻譯 Speech-to-Speech Translation
語(yǔ)音到語(yǔ)音翻譯就是用計(jì)算機(jī)系統(tǒng)實(shí)現(xiàn)持不同語(yǔ)言的說(shuō)話人之間的話語(yǔ)翻譯的過(guò)程。由于語(yǔ)音識(shí)別技術(shù)和口語(yǔ)理解技術(shù)的提高,語(yǔ)音翻譯研究越來(lái)越傾向于探索真實(shí)對(duì)話場(chǎng)景下自然口語(yǔ)風(fēng)格的話語(yǔ)翻譯技術(shù),因此,語(yǔ)音翻譯一般又稱口語(yǔ)翻譯(Spoken language translation, SLT),或?qū)υ挿g(Spoken dialogue translation)。語(yǔ)音翻譯需要讓電腦克服復(fù)雜多變的口語(yǔ)輸入,復(fù)雜的工作環(huán)境與含有錯(cuò)誤信息的字符串的輸入,國(guó)際上相應(yīng)領(lǐng)域的系統(tǒng)有CMU的JANUS-III,日本ATR的MATRIX,德國(guó)Verbnobil系統(tǒng),商業(yè)系統(tǒng)有Transclick、SpeechGear、AppTek、Spoken Translation公司的相應(yīng)產(chǎn)品等。
機(jī)器學(xué)習(xí) Machine Learning
機(jī)器學(xué)習(xí)是計(jì)算機(jī)科學(xué)中從人工智能的模式識(shí)別和計(jì)算學(xué)習(xí)理論(computational learning theory)中演化出的一個(gè)子領(lǐng)域,用算法來(lái)從數(shù)據(jù)中進(jìn)行學(xué)習(xí)、最終能夠?qū)?shù)據(jù)做預(yù)測(cè)。這些算法通過(guò)從輸入的樣例數(shù)據(jù)中建立起模型來(lái)作出數(shù)據(jù)驅(qū)動(dòng)的預(yù)測(cè)或是決策。微軟劍橋研究院院長(zhǎng)Christopher M. Bishop認(rèn)為機(jī)器學(xué)習(xí)和模式識(shí)別“是對(duì)同一個(gè)領(lǐng)域的兩種角度的稱呼”機(jī)器學(xué)習(xí)被應(yīng)用在許多難以設(shè)計(jì)和編寫明顯算法(explicit algorithms)的任務(wù)中,包括垃圾郵件過(guò)濾、光學(xué)字符識(shí)別、搜索引擎、以及計(jì)算機(jī)視覺(jué)。
可穿戴設(shè)備 Wearables
可穿戴設(shè)備指的是融合了計(jì)算機(jī)技術(shù)和高級(jí)電子技術(shù)的衣物和飾品。可穿戴設(shè)備主要有兩種應(yīng)用方向:個(gè)人應(yīng)用,或者是商務(wù)應(yīng)用。無(wú)論是哪一種應(yīng)用方向,在功能上一般屬于健康狀況跟蹤、導(dǎo)航、媒體設(shè)備、交流工具等等中的一種。可穿戴設(shè)備的持有量正在迅速增長(zhǎng):智能腕帶已經(jīng)成為一種相當(dāng)普及的產(chǎn)品,而智能手表市場(chǎng)也已有三星、Apple、華為等公司介入。
眼動(dòng)控制 Gaze Control
眼動(dòng)控制指的是一個(gè)人通過(guò)移動(dòng)眼睛的注視點(diǎn)來(lái)影響電腦的行動(dòng)。這包括了測(cè)量用戶視覺(jué)注視點(diǎn)的角度或位置(通常用攝像頭完成),以及從一些可用的、投射到這些位置的功能中進(jìn)行選擇。一些研究表明眼動(dòng)控制可以應(yīng)用于控制無(wú)人機(jī)、繪畫軟件等活動(dòng);瑞典的眼動(dòng)儀器生產(chǎn)商Tobii也推出了可以用眼動(dòng)控制的windows 8 系統(tǒng)——相比與單純的觸屏控制,觸屏和眼動(dòng)控制的結(jié)合讓用戶能夠更容易地操控計(jì)算機(jī),比如通過(guò)眨眼來(lái)代替按下鼠標(biāo)鍵。