當(dāng)前位置：湖北世紀(jì)喬豐塑業(yè)有限公司>>塑料系列>>武漢小區(qū)垃圾桶，小區(qū)垃圾桶價(jià)格

武漢小區(qū)垃圾桶，小區(qū)垃圾桶價(jià)格

返回列表頁

參考價(jià): ￥ 65

訂貨量: ≥1 臺

具體成交價(jià)以合同協(xié)議為準(zhǔn)

產(chǎn)品型號

品牌

廠商性質(zhì)其他

所在地

在線詢價(jià) 收藏產(chǎn)品查看聯(lián)系電話

聯(lián)系方式：吳經(jīng)理查看聯(lián)系方式

更新時(shí)間：2023-08-30 10:30:35瀏覽次數(shù)：49次

聯(lián)系我時(shí)，請告知來自環(huán)保在線

產(chǎn)品分類 品牌分類

  塑料系列

全部產(chǎn)品列表

暫無信息

湖北世紀(jì)喬豐塑業(yè)有限公司

經(jīng)營模式：其他

商鋪產(chǎn)品：2006條

所在地區(qū)：

聯(lián)系人：吳經(jīng)理

詢價(jià) 給他留言

產(chǎn)品簡介

產(chǎn)品描述品牌武漢世紀(jì)喬豐塑膠制品有限公司型號分類垃圾桶材質(zhì)塑料重量7.3kg箱裝數(shù)量60升垃圾桶顏色橘紅顏色橙黃顏色波點(diǎn)顏色鈷藍(lán)顏色紅色顏色黃色產(chǎn)品性能收納規(guī)格490*410*650mm厚度多尺寸容積12L以上加工定制是產(chǎn)地武漢　　其他名字：1、可回收垃圾箱；2、廚余垃圾箱；3、有害垃圾箱；4、其他垃圾箱

詳細(xì)介紹

產(chǎn)品描述

品牌	武漢世紀(jì)喬豐塑膠制品有限公司	型號	分類垃圾桶
材質(zhì)	塑料	重量	7.3kg
箱裝數(shù)量	60升垃圾桶	顏色	橘紅
顏色	橙黃	顏色	波點(diǎn)
顏色	鈷藍(lán)	顏色	紅色
顏色	黃色	產(chǎn)品性能	收納
規(guī)格	490410650mm	厚度	多尺寸
容積	12L以上	加工定制	是
產(chǎn)地	武漢

　　其他名字：1、可回收垃圾箱；2、廚余垃圾箱；3、有害垃圾箱；4、其他垃圾箱。

　　編者按：本文來自“"，審校：**。。據(jù)外媒報(bào)道，對于澳大利亞人馬克·塞拉斯（MarkSerrels）來說，親身駕駛特斯拉ModelX四天，并非是為了對這款“未來之車"進(jìn)行性能測試，而是一次生死攸關(guān)的體驗(yàn)。對于從未駕駛過ModelX的塞拉斯來說，駕駛它就像在操作一部巨大的、可移動(dòng)充電的iPhone。下面就是塞拉斯的親身經(jīng)歷：我不是個(gè)善于開車的人。我考試五次不及格。當(dāng)我20歲的時(shí)候，我在爆胎的情況下繼續(xù)開出了5公里，卻沒有注意到任何問題。有一次，我試圖給汽車加油，卻忘了把蓋子蓋好，引發(fā)了一系列壯觀的事件：在一個(gè)炎熱的周日下午，我的汽車引擎在墨爾本市中心發(fā)生爆炸。所以，當(dāng)我決定利用ModelX進(jìn)行為期四天的試駕時(shí)，我感到非常緊張。之所以決定親身體驗(yàn)這款車型，是因?yàn)槲覀冎溃瑥募夹g(shù)角度來看，特斯拉制造出了很棒的汽車，但是在現(xiàn)實(shí)的家庭生活中會發(fā)生什么呢？作為“未來之車"，ModelX本質(zhì)上就是個(gè)巨大的、可移動(dòng)的、可充電的iPhone。特斯拉的服務(wù)人員把鑰匙遞給我，然后把我?guī)У轿乙_的那輛ModelX所在的地方。她禮貌地叫我開門，不過我停了下來。這輛車看起來很時(shí)髦，流線光滑，沒有明顯的邊緣和縫隙。我就像是個(gè)拿著棍子的**，而ModelX就像我要對付的巨石。我笨拙地拖著腳，因?yàn)槲也恢廊绾伍_車門。準(zhǔn)豪華車型我不做有關(guān)汽車方面的評論，也從來沒有開過“豪華車"。我目前擁有一輛2006年的豐田Rav4，但它更像是成SUV的垃圾桶。這不是開玩笑，坐在司機(jī)的座位上，我經(jīng)常能聞到垃圾的氣味，但畢竟生活要繼續(xù)下去，我逐漸習(xí)慣于將其當(dāng)成是正常的事情。當(dāng)你有一輛被設(shè)計(jì)用來將孩子從A點(diǎn)運(yùn)送到B點(diǎn)的汽車時(shí)，你的車就是一個(gè)有輪子的、經(jīng)過美化的垃圾箱。座位之間有餅干，地板上散落著香蕉皮，還有尿布、各種奇怪的棍子，甚至還有破了的小傘。在這種背景下，時(shí)尚、具有未來范兒的特斯拉ModelX不禁讓人感覺超凡脫俗。踩下加速器，我的突觸就像被強(qiáng)迫喂過冰鎮(zhèn)果汁的穴居人那樣酸爽。我坐在一輛從未來被送回到現(xiàn)代的汽車?yán)铮疑砩系拿恳桓w維，從器官到骨骼上的肌肉，都因恐懼和興奮而震動(dòng)。在ModelX的有個(gè)巨大的平板電腦，它對我的動(dòng)作有所回應(yīng)。我不需要和方向盤較勁。我加速，車子就會按照指令行事，并以“是的，主人"回應(yīng)。此外，ModelX聞起來沒有垃圾的味道。顯然，這是一款豪華SUV。我無法將它與其他在這一領(lǐng)域爭奪的豪華SUV進(jìn)行比較。我只知道，這輛車感覺比我開過的任何車都更具未來感，我被這個(gè)從未來送來的奇怪東西弄糊涂了，它想要把我們從化石燃料和“"手中拯救出來，讓我們重新回到石器時(shí)代。特斯拉的服務(wù)人員問我，是否還有其他問題。我回答說：“只有一個(gè)。"而且這是個(gè)很重要的問題。大約六個(gè)月前，我在高速公路上開車時(shí)，我兩歲的兒子想出了如何打開乘客車門的辦法。當(dāng)時(shí)我正以96公里的時(shí)速開車。我想問的是：“如何才能啟動(dòng)兒童鎖？"接下來就是我大腦中的每一根纖維遭受轟炸的時(shí)刻。使用特斯拉的平板電腦，我們在一套極其嚴(yán)格的設(shè)置中艱難地尋找“兒童鎖"。這讓我想起了從iOS切換到安卓系統(tǒng)時(shí)的場景，并試圖弄清楚如何關(guān)閉Facebook通知。你知道這是顯而易見的(至少在事后看來如此)，但當(dāng)時(shí)你正在的信息海洋中滾動(dòng)，這讓人有些喘不過氣來的感覺。你可以調(diào)整懸掛，可以調(diào)整方向盤，可以讓你的座位變得暖和，可以在巨大的平板電腦上玩雅達(dá)利游戲。但現(xiàn)在我只想確保，我的孩子們不會因意外而。這是我們的車嗎？在那一整天，我始終期待著接長子放學(xué)的瞬間，我等不及要看他對特斯拉新車的反應(yīng)了。我的小兒子沒啥反應(yīng)，他才2歲，除了毀掉房子里所有值錢的東西外，他無法真的給出有意義的見解。當(dāng)我把他從托兒所接走的時(shí)候，他悄悄地爬上了自己的汽車座椅，就像什么都沒改變一樣，就像我們的垃圾桶Rav4并沒有突然被來自未來的汽車所取代那樣。在特斯拉ModelX上安裝法定的兒童座椅相對容易，但有一種奇怪的不和諧之處。在價(jià)值8.62萬美元)的豪華汽車上無縫安裝上可供兒童吃喝拉撒的座椅，怎么看都有點(diǎn)兒怪異。就像是在看一幅荷蘭錯(cuò)覺藝術(shù)大師埃舍爾（MCEscher）的畫，我茫然地盯著坐在特斯拉里的兒子，等待著這幅圖像開始變得更有意義。接到五歲的兒子時(shí)，事情終于有了變化。這是我所希望的，他帶著“驚嘆"向它走去。他氣喘吁吁地問：“這是我們的車嗎？"我們繞道去了高速公路。此前，在特斯拉服務(wù)人員的指導(dǎo)下，我被告知如何讓汽車進(jìn)入無人駕駛狀態(tài)。他們的建議是“只在高速公路上用它"，而我打算接受這個(gè)建議。這是我**次使用它，有特斯拉代表坐在旁邊，我感覺相當(dāng)舒服。舒舒服服地把自己的生活交到這款智能組件的手中。我和后面的孩子們會有什么感覺？當(dāng)這種場景在以后的生活中成為常態(tài)時(shí)，我會有什么感覺？至少在現(xiàn)在看來，我覺得一切都很不錯(cuò)。我開車上了高速公路，并按了加速鍵。我的孩子們在后面沒完沒了地要求“走得更快些"，“去麥當(dāng)勞吃晚飯"，還為了一個(gè)空水瓶打架，于是我拉了兩次“自動(dòng)駕駛儀"開關(guān)，進(jìn)入無人駕駛狀態(tài)，以便把雙手從方向盤上拿開，默默地祈禱死亡的甜蜜釋放。孩子們錯(cuò)了嗎？有時(shí)候，我們很難擺脫一種感覺，那就是我們在浪費(fèi)子孫后代能夠享用的資源。在我體驗(yàn)自動(dòng)駕駛儀的那天，當(dāng)我的孩子們在后座上爭吵不休時(shí)，1000多名兒童在悉尼參加，這是全國范圍內(nèi)的“第四次罷工氣候行動(dòng)"(Strike4ClimateAction)的一部分。全國各地（如墨爾本、巴拉拉特、凱恩斯、紐卡斯?fàn)枴㈢晁梗┑暮⒆觽冸x開教室，**在氣候變化問題上無所作為。這很鼓舞人心。這些孩子不能投票，他們沒有辦法選舉或罷免做出可能會毀掉他們未來的決定的人，但他們共同找到了一種讓人們聽到他們聲音的方法。澳大利亞**斯科特·莫里森(ScottMorrison)批評了活動(dòng)。他曾把煤塊帶到議會，并說“我們不支持我們的學(xué)校變成議會"，希望學(xué)校里“少些積極主義"。事實(shí)上，孩子們是對的。當(dāng)我回到家，把特斯拉ModelX倒進(jìn)車庫時(shí)，附近的孩子們從自行車上跳了下來。他們聚在一起，驚掉了的下巴。一個(gè)孩子說：“一看到它，我就給媽媽發(fā)了短信。"另一個(gè)人開始喋喋不休地說出特斯拉的型號，就像他自己就是埃隆·馬斯克(ElonMusk)一樣。一個(gè)住在馬路對面的小孩而告訴我，他是個(gè)特斯拉的超級粉絲。這些孩子不再把保時(shí)捷的海報(bào)貼在墻上，而是掛上了特斯拉跑車Roadster的海報(bào)。當(dāng)ModelX的鷹翼門打開時(shí)，孩子們甚至尖叫起來。在他們父母的允許下，我把他們都帶去兜風(fēng)。在整個(gè)過程中，他們就像一群的鬣狗那樣高聲吠叫著。這不是我的車街對面的那個(gè)中年人隨后走了過來，并毫不客氣地指出，這種電動(dòng)汽車沒用。的確，我一周吃六次肉，我們正在毀滅所生活的世界。冰蓋正在融化，加州野火肆虐，只有在像特斯拉ModelX這樣的車?yán)锊拍芎粑礁蓛舻目諝狻Ｎ业闹心赅従哟_信，一輛車不起作用，普通人買不起它。當(dāng)我打開ModelX的鷹翼門時(shí)，我對所有盯著它的人說了相同的話：“這不是我的車，我只是借用幾天而已。"同時(shí)，提醒大家我很正常，這里沒什么可看的。2018年，埃隆·馬斯克(ElonMusk)被處以2000萬美元的罰款，并被迫辭去特斯拉董事長一職，此前他被指控在Twitter上誤導(dǎo)投資者。他目前正被一名英國潛水員，這名潛水員英勇地營救了被困在水下洞穴中的泰國兒童，但卻被馬斯克稱為“戀童癖者"。馬斯克還在喬·羅根(JoeRogan)的播客上吸**，然后在Twitter上漫不經(jīng)心地表示，他堅(jiān)信每周應(yīng)該工作80小時(shí)，可能需要多達(dá)100小時(shí)來“改變世界"，他似乎沒有意識到自己公司在員工待遇方面的聲譽(yù)不佳。簡而言之，2018年是埃隆·馬斯克(ElonMusk)從“鋼鐵俠"變成“問題人士"的一年。所以當(dāng)我說“不是我的車"時(shí)，既有不愿被看作是“在學(xué)校里炫耀漂亮新車的大人物"的意思，也有不愿惹麻煩的意思，因?yàn)楹芏嗳爽F(xiàn)在似乎不喜歡馬斯克。周六，我從悉尼開車到堪培拉，這基本上是一條長達(dá)320公里的直線，單調(diào)乏味。但在特斯拉ModelX車中，時(shí)間似乎過得更快。我感覺很舒服。我已經(jīng)調(diào)整了我的座位，設(shè)定了自己的特殊規(guī)格，并保存為檔案。使用了氣候控制功能意味著，悉尼夏季太陽的熾熱不會穿透到車中。汽車被設(shè)置為智能型巡航控制。我在看平板電腦，它記錄了我的電池使用情況，估計(jì)在目前的情況下，我能以這個(gè)速度行駛多少公里。數(shù)字顯示，我可以很舒適地到達(dá)堪培拉。在車的后座上，孩子們在爭論聽哪首音樂。我們終滿足于《忍者》的主題曲，并重復(fù)播放。“我們被真空封在一個(gè)奇怪的夢里，外面的世界一片混亂"，我當(dāng)時(shí)就是這么想的。如果澳大利亞的灌木叢突然變成燃燒的地獄，如果有人終投下了，如果海洋上升并吞噬了我們所有人，在這輛車?yán)铮谶@一刻，我們將是后的人之一。

　　兩用垃圾桶，是指一種兼具垃圾桶與簸箕兩種功能的新型垃圾桶，該垃圾桶大致具有一概呈Ｌ型的容器本體，本體上方設(shè)有一垃圾投入口及一自動(dòng)復(fù)歸的蓋板，使用者輕壓蓋板將垃圾投入垃圾桶內(nèi)時(shí)，蓋板可自動(dòng)將投入口封閉，以達(dá)到整潔衛(wèi)生的要求，容器本體下方一側(cè)向前延伸成一斜面袋口，該袋口設(shè)有一可向內(nèi)掀起的活動(dòng)蓋，可掃入垃圾而又不使垃圾掉出，活動(dòng)蓋一側(cè)另設(shè)一缺口，可在連動(dòng)桿向上拉起后，連動(dòng)桿前端的鉤柄移位至缺口處，使活動(dòng)蓋可向內(nèi)或向外掀動(dòng)，以利垃圾桶內(nèi)的垃圾倒出，可當(dāng)直接掃入垃圾的簸箕以及可倒垃圾的兩用垃圾桶。這款垃圾桶仿佛一個(gè)被鋒利的**沿對角線削成兩半的中空長方體。而因?yàn)榭斩床⑽刺幱陂L方體的正中間，所以，只要將其90度放倒，即可讓垃圾桶變身簸箕，方便了垃圾的清掃和收納。

　　編者按：本文來自微信公眾號“S先生"（ID：TheMisterS），作者M(jìn)ingke，。原題目《人工智障2:你看到的AI與智能無關(guān)》前言大家好，我又出來懟人了。兩年前，寫了一篇文章《為什么現(xiàn)在的人工智能助理都像人工智障》，當(dāng)時(shí)主要是懟“智能助理們"。這次呢則是表達(dá)“我不是針對誰，只是現(xiàn)在所有的深度學(xué)習(xí)都搞不定對話AI"，以及“你看都這樣了，那該怎么做AI產(chǎn)品"。-閱讀門檻-時(shí)間：這篇真的太長了（近3萬字）根據(jù)預(yù)覽同學(xué)們的反饋，通常**次閱讀到Part3時(shí)，會消耗很多精力，但讀完P(guān)art3才發(fā)現(xiàn)是精華（同時(shí)也是燒腦的部分）。請大家酌情安排閱讀時(shí)間。可讀性：我會在內(nèi)容里邀請你一起思考（無需知識），所以可能不適合通勤時(shí)間閱讀。你的閱讀收益取決于在過程中思考的參與程度。適合人群：對話智能行業(yè)從業(yè)者、AIPM、關(guān)注AI的投資人、對AI有強(qiáng)烈興趣的朋友、關(guān)心自己的工作會不會被AI代替的朋友；關(guān)于鏈接：閱讀本文時(shí)，無需閱讀每個(gè)鏈接里的內(nèi)容，這并不會影響對本文的理解。-關(guān)于“人工智障"四個(gè)字-上一片文章發(fā)出后，有朋友跟我說，標(biāo)題里的“人工智障"這個(gè)詞貌似有點(diǎn)offensive。作為學(xué)語言出身的，我來解釋一下這個(gè)原因：開始呢，我是在跟一位企業(yè)咨詢顧問聊人工智能這個(gè)賽道的現(xiàn)狀。因?yàn)閷υ捠怯糜⒄Z展開的，當(dāng)時(shí)為了表達(dá)我的看法“現(xiàn)在的智能助理行業(yè)正處在一種難以逾越的困境當(dāng)中"，我就跟她說“CurrentlyallthedigitalassistantsareArtificial-Intelligentlychallenged"。她聽了之后哈哈一笑。“intelligentlychallenged"同時(shí)也是英文中對智障的委婉表達(dá)。假設(shè)不了解這個(gè)常識，她就可能忽略掉這個(gè)梗，盡管能明白核心意思，只是不會覺得有什么好笑的。那么信息在傳遞中就有損失。寫文章時(shí)，我把這個(gè)信息翻譯成中文，就成了“人工智障"。但是因?yàn)橹形恼Z法的特性，有些信息就lostintranslation了。比如實(shí)際表達(dá)的是“一種困境的狀態(tài)"而不是“一件事"。（順便說一下，中文的智障，實(shí)際上是政治正確的稱呼，詳見特殊會的用詞方法。）為什么要寫那么多字來解釋這個(gè)措辭？因?yàn)椴煌娜耍匆娤嗤淖郑矔玫讲煌睦斫狻＿@也是我們要討論的重點(diǎn)之一。那么，我們開始吧。Part1對話智能的表現(xiàn)：智障:ITU2017年10月，上圖這個(gè)叫Sophia的機(jī)器人，被沙特阿拉伯授予了正式的公民身份。公民身份，這個(gè)評價(jià)比圖靈測試還要牛。何況還是在沙特，他們才剛剛允許女性開車不久（2017年9月頒布的法令）。Sophia經(jīng)常參加各種會、“發(fā)表演講"、“接受采訪"，比如去對話，表現(xiàn)出來非常類似人類的言談；去和WillSmith拍MV；接受GoodmorningBritain之類的主流媒體的采訪；甚至公司創(chuàng)始人參加JimFallon的訪談時(shí)一本正經(jīng)的說Sophia是“basicallyalive"。Basicallyalive.要知道，西方的吃瓜群眾都是看著《》長大的，前段時(shí)間還看了《西部世界》。在他們的世界模型里，“機(jī)器智能會覺醒"這個(gè)設(shè)定是遲早都會發(fā)生的。普通大眾開始嚇得瑟瑟發(fā)抖。不僅開始擔(dān)心自己的工作是不是會被替代，還有很多人開始擔(dān)心AI會不會統(tǒng)治人類，這樣的話題展開。“未來已來"，很多人都以為真正的人工智能已經(jīng)近在咫尺了。只是，有些人可能會注意到有些不合理的地方：“等等，人工智能都要威脅人類了，為啥我的Siri還那么蠢？"Source:DumbAndDumber:ComparingAlexa,Siri,CortanaAndTheGoogleAssistant,Forbes,May2018我們來看看到2018年末在對話智能領(lǐng)域，各方面究竟發(fā)展的如何了。“不要日本菜"我在2016年底做過一個(gè)測試，對幾個(gè)智能助理提一個(gè)看似簡單的需求：“推薦餐廳，不要日本菜"。只是各家的AI助理都會給出一堆餐廳推薦，全是日本菜。2年過去了，在這個(gè)問題的處理上有進(jìn)展么？我們又做了一次測試：結(jié)果是依然沒有解決。“不要"兩個(gè)字被所有助理一致忽略了。為什么要關(guān)注“不要"兩個(gè)字？之前我去到一家某非常有名的智能語音創(chuàng)業(yè)公司，聊到這個(gè)問題時(shí)，他家的PM顯出疑惑：“這個(gè)邏輯處理有什么用？我們后臺上看到用戶很少提出這類表達(dá)啊。"聽到這樣的評論，基本可以確定：這家公司還沒有深入到服務(wù)對話領(lǐng)域。場景方面，一旦深入進(jìn)服務(wù)領(lǐng)域里的多輪對話，很容易會遇到類似這樣的表達(dá)：“我不要這個(gè)，有更便宜的么？"。后臺沒有遇到，只能說用戶還沒開始服務(wù)就結(jié)束了。場景方面與AI公司的domain選擇有關(guān)。但是在技術(shù)方面，則是非常重要的。因?yàn)檫@正是真正智能的核心特點(diǎn)。我們將在part2&3詳細(xì)聊聊這個(gè)問題。現(xiàn)在先拋個(gè)結(jié)論：這個(gè)問題解決不了，智能助理會一直智障下去的。“ToC團(tuán)隊(duì)轉(zhuǎn)ToB"自從2015年幾個(gè)重要的深度學(xué)習(xí)在當(dāng)中火了起來，大小公司都想做“Her"這樣面對個(gè)人消費(fèi)者的通用型智能助理（ToC類產(chǎn)品的目標(biāo)）。一波熱錢投給有希望的種子隊(duì)伍（擁有Fancy背景）之后，全滅。目前為止，在2C這方面的所有商用產(chǎn)品，無論是還是創(chuàng)業(yè)公司，全部達(dá)不到用戶預(yù)期。在人們的直覺里，會認(rèn)為“智能助理"，處理的是一些日常任務(wù)，不涉及的需求，應(yīng)該比“智能專家"好做。這是延續(xù)“人"的思路。推薦餐廳、安排行程是人人都會做的事情；卻只有少數(shù)受過訓(xùn)練的人能夠處理金融、醫(yī)療問診這類問題。而對于現(xiàn)在的AI，情況正好相反。現(xiàn)在能造出在圍棋上打敗柯潔的AI，但是卻造不出來能給柯潔管理日常生活的AI。隨著toC助理賽道的崩盤，ToBornottoB已經(jīng)不再是問題，因?yàn)橐呀?jīng)沒得選了，只能ToB。這不是商業(yè)模式上的選擇，而是技術(shù)的限制。目前ToB，特別是限定領(lǐng)域的產(chǎn)品，相對ToC類產(chǎn)品更可行：一個(gè)原因是領(lǐng)域比較封閉，用戶從思想到語言，不容易發(fā)揮跑題；另一方面則是數(shù)據(jù)充分。只是ToB的公司都很容易被當(dāng)成是做“外包"的。因?yàn)榭蛻羰且粋€(gè)個(gè)談下來的，項(xiàng)目是一個(gè)個(gè)交付的，這意味著增長慢，靠人堆，沒有復(fù)利帶來的指數(shù)級增長。大家紛紛表示不開心。這個(gè)“幫人造機(jī)器人"的業(yè)務(wù)有點(diǎn)像“在網(wǎng)頁時(shí)代幫人建站"。轉(zhuǎn)成ToB的團(tuán)隊(duì)經(jīng)常受到資本的質(zhì)疑：“你這個(gè)屬于做項(xiàng)目，怎么規(guī)模化呢？"要知道，國內(nèi)的很多投資機(jī)構(gòu)和里面的投資經(jīng)理入行的時(shí)間，是在國內(nèi)的移動(dòng)互聯(lián)起來的那一波。“Scalability"或者“高速增長"是體系里重要的指標(biāo)，沒有之一。而做項(xiàng)目這件事，就是Casebycase，要增長就要堆人，也就很難出現(xiàn)指數(shù)級增長。這就有點(diǎn)尷尬了。“你放心，我有SaaS！哦不，是AIaaS。我可以打造一個(gè)平臺，上面有一系列工具，可以讓客戶們自己組裝機(jī)器人。"然而，這些想做技能平臺的創(chuàng)業(yè)公司，也沒有一個(gè)成功的。短期也不可能成功。YannLeCun對AIaas的看法主要的邏輯是這樣的：你給客戶提供工具，但他需要的是雕像——這中間還差了一個(gè)雕塑家。佐證就是那些各家試圖開放“對話框架"給更小的，甚至是服務(wù)提供者，幫助他們“3分鐘開發(fā)出自己的AI機(jī)器人"，具體就不點(diǎn)名了。自己都開發(fā)不出來一個(gè)讓人滿意的產(chǎn)品，還想抽象一個(gè)范式出來讓別人沿用你的（不work的）框架？不過，我認(rèn)為MLaaS在長期的成功是有可能的，但還需要行業(yè)發(fā)展更為成熟的時(shí)候，現(xiàn)在為時(shí)尚早。具體分析我們在后面Part5會談到。“音箱的成功和智能的失敗"對話這個(gè)領(lǐng)域，另一個(gè)比較火的賽道是智能音箱。各大主要科技公司都出了自己的智能音箱，騰訊叮當(dāng)、阿里的天貓精靈、小米音箱、國外的Alexa、Google的音箱等等。作為一個(gè)硬件品類，這其實(shí)是個(gè)還不錯(cuò)的生意，基本屬于制造業(yè)。不僅出貨不差，還被寄予期望，能夠成為一個(gè)生態(tài)的生意——核心邏輯看上去也是充滿想象力的：超級終端：在后移動(dòng)時(shí)代，每家都想像iphone一樣搶用戶的入口。只要用戶習(xí)慣使用語音來獲得咨詢或者服務(wù)，甚至可以像Xbox/ps一樣，硬件賠錢賣，軟件來掙錢；用語音做OS：打造各類語音的技能，然后通過大量“離不開的技能"反哺這個(gè)OS的市場占有；提供平臺：像Xcode一樣，給提供應(yīng)用開發(fā)的工具和分發(fā)平臺、提供使用服務(wù)的流量。可是，這些技能使用的實(shí)際情況是這樣的：Source:Statista萬眾期待的killerapp并沒有出現(xiàn)；基本沒有商業(yè)服務(wù)型的應(yīng)用；技能都沒賺到錢，也不知道怎么；大部分高頻使用的技能都沒有商業(yè)價(jià)值——用戶用的多的就是“查天氣"沒有差異性：智能的差異嘛基本都沒有的事兒。“皇帝的新人工智能"回過頭來，我們再來看剛剛那位沙特阿拉伯的公民，Sophia。既然剛剛提到的那么多公司投入了那么多錢和科學(xué)家，都搞成這樣，憑什么這個(gè)Sophia能一鳴驚人？因?yàn)镾ophia的“智能"是個(gè)**。可以直接引用YannLeCun對此的評價(jià)，“這是鬼扯"。簡單來說，Sophia是一個(gè)帶喇叭的木偶——在各種大會上的發(fā)言和采訪的內(nèi)容都是人工撰寫，然后用人人都有的語音合成做輸出。卻被宣傳成為是其“人工智能"的自主意識言論。這還能拿“公民身份"，可能是人類公民被黑的慘的一次。這感覺，好像是我家的橘貓被一所985大學(xué)授予了土木工程學(xué)士學(xué)位。其實(shí)對話系統(tǒng)里，用人工來撰寫內(nèi)容，或者使用模版回復(fù)，這本來就是現(xiàn)在技術(shù)的現(xiàn)狀（在后面我們會展開）。但刻意把“非智能"的產(chǎn)物說成是“智能"的表現(xiàn)，這就不對了。考慮到大部分吃瓜群眾是通過媒體渠道來了解當(dāng)前技術(shù)發(fā)展的，跟著炒作的媒體（比如被點(diǎn)名的TechInsider）都是這場**的共犯。這些不知道是無知還是無良的文科生，真的沒有做好新聞工作者份內(nèi)的調(diào)查工作。近這股妖風(fēng)也吹到了國內(nèi)的韭菜園里。Sophia出現(xiàn)在了王力宏的一首講AI的MV里；然后又2018年11月跑去給大企業(yè)站臺。真的，行業(yè)內(nèi)認(rèn)真做事兒的小伙伴，都應(yīng)該站出來，讓大家更清晰的知道現(xiàn)在AI——或者說機(jī)器學(xué)習(xí)的邊界在哪兒。不然甲方爸爸們信以為真了，突然指著sophia跟你說，“別人都能這么自然，你也給我整一個(gè)。"你怕不得裝個(gè)真人進(jìn)去？對了，說到這兒，確實(shí)現(xiàn)在也有：用人——來成人工智能——來模擬人，為用戶服務(wù)。Source:TheGuardian國內(nèi)的案例典型的就是銀行用的大堂機(jī)器人，其實(shí)是真人在遠(yuǎn)程語音（所謂Telepresence）。美國有X.ai，做基于的日程管理的。只是這個(gè)AI到了下午5點(diǎn)就要下班。當(dāng)然，假如我是這些**背后，被質(zhì)疑的時(shí)候，我還可以強(qiáng)行拉回人工智能上：“這么做是為了積累真正的對話數(shù)據(jù)，以后用來做真的AI對話系統(tǒng)識別的訓(xùn)練。"這么說對外行可能是毫無破綻的。但是真正行業(yè)內(nèi)干正經(jīng)事的人，都應(yīng)該像傅盛那樣站出來，指明這些做法是**：“沒有一家能做出來......做不到，一定做不到"。人家沙特是把AI當(dāng)成人，這些套路是把人當(dāng)成AI。然后大眾就開始分不清楚究竟什么是AI了。“人工智能究竟（tmd）指的是什么？"另一方面，既然AI現(xiàn)在的那么蠢，為什么馬一龍(ElonMusk)卻說“AI很有可能毀滅人類"；霍金甚至直接說“AI可能是人類文明里糟糕的事件"。而在另一邊，F(xiàn)acebook和Google的**科學(xué)家卻在說，現(xiàn)在的AI都是渣渣，根本不需要擔(dān)心，甚至應(yīng)該重做。大家該相信誰的？一邊是要去火星的男人，和說不定已經(jīng)去了火星的男人；另一邊是當(dāng)前兩家科技的人物。其實(shí)他們說的都對，因?yàn)檫@里說到的“人工智能"是兩碼事。馬一龍和霍金擔(dān)心的人工智能，是由人造出來的真正的智能，即通用人工智能（AGI,ArtificialGeneralIntelligence）甚至是超級智能（SuperIntelligence）。而YannLeCun和Hinton指的人工智能則是指的當(dāng)前用來實(shí)現(xiàn)“人工智能效果"的技術(shù)（基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)）。這兩位的觀點(diǎn)是“用這種方式來實(shí)現(xiàn)人工智能是行不通的"。兩者本質(zhì)是不同的，一個(gè)指的是結(jié)果，一個(gè)指的是（現(xiàn)在的）過程。那么當(dāng)我們在討論人工智能的時(shí)候，究竟在說什么？JohnMcCathyJohnMcCathy在1956年和MarvinMinsky，NathanielRochester以及ClaudeShannon在達(dá)特貌似研討會上打造了AI這個(gè)詞，但是到目前為止，學(xué)界工業(yè)界并沒有一個(gè)統(tǒng)一的理解。根本的問題是目前人類對“智能"的定義還不夠清楚。何況人類本身是否是智能的**體現(xiàn)，還不一定呢。想想每天打交道的一些人：）一方面，在大眾眼中，人工智能是“人造出來的，像人的智能"，比如Siri。同時(shí)，一個(gè)AI的水平高低，則取決于它有多像人。所以當(dāng)Sophia出現(xiàn)在公眾眼中的時(shí)候，普通人會很容易被蒙蔽（甚至能通過圖靈測試）。Oracle對AI的定義也是“只要是能讓計(jì)算機(jī)可以模擬人類行為的技術(shù)，都算！"而另一方面，從字面上來看“ArtificialIntelligence"，只要是人造的智能產(chǎn)品，理論上都算作人工智能。也就是說，一個(gè)手持計(jì)算器，盡管不像人，也應(yīng)算是人工智能產(chǎn)品。但我相信大多數(shù)人都不會把計(jì)算器當(dāng)成是他們所理解的人工智能。這些在認(rèn)識上不同的解讀，導(dǎo)致當(dāng)前大家對AI應(yīng)用的期望和評估都有很多差異。再加上還有“深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)"這些概念紛紛跟著人工智能一起出現(xiàn)。但是各自意味著什么，之間是什么關(guān)系，普通大眾都不甚了解。“沒關(guān)系，韭菜不用懂。"但是想要割韭菜的人，**能搞清楚吧。連有些投資人自己也分不清，你說怎么做判斷，如何投項(xiàng)目？當(dāng)然是投胸大的。以上，就是到2018年末，在對話領(lǐng)域的人工智能的現(xiàn)狀：智能助理依然智障；大部分ToB的給人造機(jī)器人的都無法規(guī)模化；對話方面沒有像AlphaZero在圍棋領(lǐng)域那樣的讓人震驚的產(chǎn)品；沒有商業(yè)上大規(guī)模崛起的跡象；有的是一團(tuán)渾水，和渾水摸魚的人。為什么會這樣？為什么人工智能在圖像識別，人臉識別，下圍棋這些方面都那么快的進(jìn)展，而在對話智能這個(gè)領(lǐng)域卻是如此混亂？既然你都看到這里了，我相信你是一個(gè)愿意探究本質(zhì)的好同志。那么我們來了解，對話的本質(zhì)是什么；以及現(xiàn)在的對話系統(tǒng)的本質(zhì)又是什么。Part2當(dāng)前對話系統(tǒng)的本質(zhì)：填表“AIthinks,manlaughs"Source:TheGlobeandMail有一群小雞出生在一個(gè)農(nóng)場，無憂無慮安心地生活。雞群中出現(xiàn)了一位科學(xué)家，它注意到了一個(gè)現(xiàn)象：每天早上，食槽里會自動(dòng)出現(xiàn)糧食。作為一名優(yōu)秀的歸納法信徒(Inductivist)，這只科學(xué)雞并不急于給出結(jié)論。它開始全面觀察并做好記錄，試圖發(fā)現(xiàn)這個(gè)現(xiàn)象是否在不同的條件下都成立。“星期一是這樣，星期二是這樣；樹葉變綠時(shí)是這樣，樹葉變黃也是這樣；天氣冷是這樣，天氣熱也是這樣；下雨是這樣，出太陽也是這樣！"每天的觀察，讓它越來越興奮，在心中，它離真相越來越接近。直到有一天，這只科學(xué)雞再也沒有觀察到新的環(huán)境變化，而到了當(dāng)天早上，雞舍的門一打開，它跑到食槽那里一看，依然有吃的！科學(xué)雞，對他的小伙伴，志在必得地宣布：“我預(yù)測，每天早上，槽里會自動(dòng)出現(xiàn)食物。明天早上也會有！以后都會有！我們不用擔(dān)心餓死了！"經(jīng)過好幾天，小伙伴們都驗(yàn)證了這個(gè)預(yù)言，科學(xué)雞驕傲的并興奮的把它歸納成“早起的小雞有食吃定理"。正好，農(nóng)場的農(nóng)夫路過，看到一只興奮的雞不停的咯咯叫，他笑了：“這只雞很可愛哦，不如把它做成叫花雞好了"。科學(xué)雞，卒于午飯時(shí)間。在這個(gè)例子里，這只羅素雞（BertrandRussell’schicken）只對現(xiàn)象進(jìn)行統(tǒng)計(jì)和歸納，不對原因進(jìn)行推理。而主流的基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)特別是深度學(xué)習(xí)，也是通過大量的案例，靠對文本的特征進(jìn)行歸類，來實(shí)現(xiàn)對識別語義的效果。這個(gè)做法，就是羅素雞。目前，這是對話式人工智能的主流技術(shù)基礎(chǔ)。其主要應(yīng)用方向，就是對話系統(tǒng)，或稱為Agent。之前提到的智能助理Siri，Cortana，GoogleAssistant以及行業(yè)里面的智能客服這些都算是對話智能的應(yīng)用。“對話智能的黑箱"這些產(chǎn)品的交互方式，是人類的自然語言，而不是圖像化界面。圖形化界面（GUI）的產(chǎn)品，比如網(wǎng)頁或者APP的產(chǎn)品設(shè)計(jì)，是所見即所得、界面即功能。對話智能的交互（CUI,ConversationalUI）是個(gè)黑箱：終端用戶能感知到自己說出的話（輸入）和機(jī)器人的回答（輸出）——但是這個(gè)處理的過程是感覺不到的。就好像跟人說話，你并不知道他是怎么想的。每一個(gè)對話系統(tǒng)的黑箱里，都是自由發(fā)揮的天地。雖說每家的黑箱里面都不同，但是**層的思路，都萬變不離其宗，核心就是兩點(diǎn)：聽人話（識別）講人話（對話管理）。如果你是從業(yè)人員，那么請回答一個(gè)問題：你們家的對話管理是不是填槽？若是，你可以跳過這一節(jié)（主要科普填槽是怎么回事），請直接到本章的第五節(jié)“當(dāng)前對話系統(tǒng)的局限"。“AI如何聽懂人話？"對話系統(tǒng)這個(gè)事情在2015年開始突然火起來了，主要是因?yàn)橐粋€(gè)技術(shù)的普及：機(jī)器學(xué)習(xí)特別是深度學(xué)習(xí)帶來的語音識別和NLU(自然語言理解)——主要解決的是識別人講的話。這個(gè)技術(shù)的普及讓很多團(tuán)隊(duì)都掌握了一組關(guān)鍵技能：意圖識別和實(shí)體提取。這意味著什么？我們來看一個(gè)例子。在生活中，如果想要訂，人們會有很多種自然的表達(dá)：“訂"；“有去上海的航班么？"；“看看航班，下周二出發(fā)去紐約的"；“要出差，幫我查下"；等等等等可以說“自然的表達(dá)"有無窮多的組合（自然語言）都是在代表“訂"這個(gè)意圖的。而聽到這些表達(dá)的人，可以準(zhǔn)確理解這些表達(dá)指的是“訂"這件事。而要理解這么多種不同的表達(dá)，對機(jī)器是個(gè)挑戰(zhàn)。在過去，機(jī)器只能處理“結(jié)構(gòu)化的數(shù)據(jù)"（比如關(guān)鍵詞），也就是說如果要聽懂人在講什么，必須要用戶輸入的指令。所以，無論你說“我要出差"還是“幫我看看去北京的航班"，只要這些字里面沒有包含提前設(shè)定好的關(guān)鍵詞“訂"，系統(tǒng)都無法處理。而且，只要出現(xiàn)了關(guān)鍵詞，比如“我要退訂"里也有這三個(gè)字，也會被處理成用戶想要訂。自然語言理解這個(gè)技能出現(xiàn)后，可以讓機(jī)器從各種自然語言的表達(dá)中，區(qū)分出來，哪些話歸屬于這個(gè)意圖；而那些表達(dá)不是歸于這一類的，而不再依賴那么死板的關(guān)鍵詞。比如經(jīng)過訓(xùn)練后，機(jī)器能夠識別“幫我推薦一家附近的餐廳"，就不屬于“訂"這個(gè)意圖的表達(dá)。并且，通過訓(xùn)練，機(jī)器還能夠在句子當(dāng)中自動(dòng)提取出來“上海"，這兩個(gè)字指的是目的地這個(gè)概念（即實(shí)體）；“下周二"指的是出發(fā)時(shí)間。這樣一來，看上去“機(jī)器就能聽懂人話啦！"。這個(gè)技術(shù)為啥會普及？主要是因?yàn)闄C(jī)器學(xué)習(xí)領(lǐng)域的學(xué)術(shù)氛圍，導(dǎo)致重要的論文基本都是公開的。不同團(tuán)隊(duì)要做的是考慮具體工程實(shí)施的成本。后的效果，就是在識別自然語言這個(gè)領(lǐng)域里，每家的基礎(chǔ)工具都差不多。在意圖識別和實(shí)體提取的準(zhǔn)確率，都是百分點(diǎn)的差異。既然這個(gè)工具本身不是核心競爭力，甚至你可以用別家的，大把可以選，但是關(guān)鍵是你能用它來干什么？“DuetotheacademicculturethatMLcomesfrom,prettymuchalloftheprimaryscienceispublishedassoonasit’screated-almosteverythingnewisapaperthatyoucanreadandbuildwith.Butwhatdoyoubuild?"——BenedictEvans（A16Z合伙人）在這方面，顯而易見的價(jià)值，就是解放雙手。語音控制類的產(chǎn)品，只需要聽懂用戶的自然語言，就去執(zhí)行這個(gè)操作：在家里要開燈，可以直接說“開燈"，而不用去按開關(guān)；在車上，說要“開天窗"，天窗就打開了，而不用去找對應(yīng)的按鈕在哪里。這類系統(tǒng)的重點(diǎn)在于，清楚聽清哪個(gè)用戶在講是什么。所以麥克風(fēng)陣列、近場遠(yuǎn)場的抗噪、聲紋識別講話的人的身份、ASR（語音轉(zhuǎn)文字），等等硬件軟件的技術(shù)就相應(yīng)出現(xiàn)，向著前面這個(gè)目標(biāo)不斷優(yōu)化。“講人話"在這類應(yīng)用當(dāng)中，并不那么重要。通常任務(wù)的執(zhí)行，以結(jié)果進(jìn)行反饋，比如燈應(yīng)聲就亮了。而語言上的反饋，只是一個(gè)**作用，可有可無。但是任務(wù)類的對話智能，往往不止是語音控制這樣一輪交互。如果一個(gè)用戶說，“看看明天的"——這表達(dá)正常，但無法直接去執(zhí)行。因?yàn)槿鄙賵?zhí)行的必要信息：1）從哪里出發(fā)？和2）去哪里？如果我們希望AIAgent來執(zhí)行這個(gè)任務(wù)，一定要獲得這兩個(gè)信息。對于人來完成這個(gè)業(yè)務(wù)的話，要獲得信息，就得靠問這個(gè)用戶問題，來獲得信息。很多時(shí)候，這樣的問題，還不止一個(gè)，也就意味著，要發(fā)起多輪對話。對于AI而言，也是一樣的。要知道“去哪里"=Agent問用戶“你要去哪里？"要知道“從哪里出發(fā)"=Agent問用戶“你要從哪里出發(fā)呢？"這就涉及到了對話語言的生成。“AI如何講人話？"決定“該說什么話"，才是對話系統(tǒng)的核心——無論是硅基的還是碳基的智能。但是深度學(xué)習(xí)在這個(gè)版塊，并沒有起到什么作用。在當(dāng)前，處理“該說什么"這個(gè)問題，主流的做法是由所謂“對話管理"系統(tǒng)決定的。盡管每一個(gè)對話系統(tǒng)背后的“對話管理"機(jī)制都不同，每家都有各種理解、各種設(shè)計(jì)，但是萬變不離其宗——目前所有任務(wù)類對話系統(tǒng)，無論是前段時(shí)間的Googleduplex，還是智能客服，或者智能助理，核心的對話管理方法，有且僅有一個(gè)：“填槽"，即Slotfilling。如果你并不懂技術(shù)，但是又要迅速知道一家做對話AI的水平如何，到底有沒有黑科技(比如剛剛開始看AI領(lǐng)域的做投資的朋友)，你只需要問他一個(gè)問題：“是不是填槽？"如果他們（誠實(shí)地）回答“是"，那你就可以放下心來，黑科技尚未出現(xiàn)。接下來，能討論的范圍，無非都是產(chǎn)品設(shè)計(jì)、工程實(shí)現(xiàn)、如何解決體驗(yàn)和規(guī)模化的困境，這類的問題。基本上該智障的，還是會智障。要是他們回答“不是填槽"，而且產(chǎn)品的效果還很好，那么就有意思了，值得研究，或者請速速聯(lián)系我：）那么這個(gè)“填槽"究竟是個(gè)什么鬼？嗯，不搞開發(fā)的大家可以簡單的把它理解為“填表"：好比你要去銀行辦個(gè)業(yè)務(wù)，先要填一張表。如果這張表上的空沒有填完，柜臺**姐就不給你辦。她會紅筆給你圈出來：“必須要填的空是這些，別的你都可以不管。"你全部填好了，再遞給**姐，她就去給你辦理業(yè)務(wù)了。還記得剛剛那個(gè)的例子么？用戶說“看看明天的"，要想執(zhí)行“查"，就得做以下的步奏，還要按順序來：1.ASR：把用戶的語音，轉(zhuǎn)化成文字。2.NLU語義識別：識別上面的文字，屬于（之前設(shè)定好的）哪一個(gè)意圖，在這里就是“訂"；然后，提取文字里面的實(shí)體，“明天"作為訂票日期，被提取出來啦。3.填表：這個(gè)意圖是訂，那么就選“訂"這張表來填；這表里有三個(gè)空，時(shí)間那個(gè)空里，就放進(jìn)“明天"。（這個(gè)時(shí)候，表里的3個(gè)必填項(xiàng)，還差兩個(gè)：“出發(fā)地"和“到達(dá)地"）4.開始跑之前編好的程序：如果差“出發(fā)地"，就回“從哪里走啊？"；如果差“目的地"，就回“你要去哪里？"（NLG上打引號，是因?yàn)椴⒉皇钦嬲饬x上的自然語言生成，而是套用的對話模版）5.TTS：把回復(fù)文本，合成為語音，播放出去在上面這個(gè)過程當(dāng)中，1和2步奏都是用深度學(xué)習(xí)來做識別。如果這個(gè)環(huán)節(jié)出現(xiàn)問題，后面就會連續(xù)出錯(cuò)。循環(huán)1-5這個(gè)過程，只要表里還有空要填，就不斷問用戶，直到所有的必填項(xiàng)都被填完。于是，表就可以提交**姐（后端處理）了。后端看了要查的條件，返回滿足這些條件的情況。Agent再把查詢結(jié)果用之前設(shè)計(jì)好的回復(fù)模板發(fā)回給用戶。順便說一下，我們經(jīng)常聽到有些人說“我們的多輪對話可以支持xx輪，多的時(shí)候有用戶能說xx輪"。現(xiàn)在大家知道，在任務(wù)類對話系統(tǒng)里，“輪數(shù)的產(chǎn)生"是由填表的次數(shù)決定的，那么這種用“輪數(shù)多少"來衡量產(chǎn)品水平的方法，在這個(gè)任務(wù)類對話里里無意義。一定要有意義，也應(yīng)該是：在達(dá)到目的、且不影響體驗(yàn)的前提下，輪數(shù)越少越好。在當(dāng)前，只要做任務(wù)類的多輪對話，基本跑不掉填表。5月的時(shí)候，GoogleI/O發(fā)布了Duplex的錄音Demo，場景是GoogleAssistant代替用戶打電話去訂餐廳，和店員溝通，幫助用戶預(yù)定位子。值得注意，這并不是Livedemo。Google'sAssistant.CREDIT:GOOGLE那Google的智能助理（后稱IPA）又怎么知道用戶的具體需求呢？跑不掉的是，用戶還得給GoogleAssistant填一張表，用對話來交代自己的具體需求，比如下面這樣：圖中左邊是一個(gè)使用GoogleAssistant訂餐廳的真實(shí)案例，來自TheVerge。“當(dāng)前對話系統(tǒng)的局限"我剛剛花了兩千來個(gè)字來說明對話系統(tǒng)的通用思路。接下來，要指出這個(gè)做法的問題還記得之前提到的“不要日本菜"測試么？我們把這個(gè)測試套用在“訂"這個(gè)場景上，試試看：“看看明天去北京的航班，東航以外的都可以"，還是按步奏來：1.ASR語音轉(zhuǎn)文字，沒啥問題；2.語義識別，貌似有點(diǎn)問題-意圖：是訂，沒錯(cuò)；-實(shí)體提取：跟著之前的訓(xùn)練來；-時(shí)間：明天-目的地：北京-出發(fā)地：這個(gè)用戶沒說，一會得問問他...等等，他說的這個(gè)“東航以外的都可以"，指的是啥？之前沒有訓(xùn)練過與航空公司相關(guān)的表達(dá)啊。沒關(guān)系，咱們可以把這個(gè)表達(dá)的訓(xùn)練加上去：東航=航司。多找些表達(dá)，只要用戶說了各個(gè)航空公司的名字的，都訓(xùn)練成航司這個(gè)實(shí)體好啦。另外，咱們還可以在填表的框里，添加一個(gè)航司選擇，就像這樣（黃色部分）：（嗯，好多做TOB的團(tuán)隊(duì)，都是掉在這個(gè)“在后面可以加上去"的坑里。）但是，這么理所當(dāng)然的訓(xùn)練之后，實(shí)體提取出來的航司卻是“東航"——而用戶說的是“東航以外的"，這又指的哪個(gè)（些）航司呢？“要不，咱們做點(diǎn)Trick把‘以外’這樣的邏輯單獨(dú)拿出來手工處理掉？"——如果這個(gè)問題可以這么容易處理掉，你覺得Siri等一干貨色還會是現(xiàn)在這個(gè)樣子？難度不在于“以外"提取不出來，而是在處理“這個(gè)以外，是指哪個(gè)實(shí)體以外？當(dāng)前基于深度學(xué)習(xí)的NLU在“實(shí)體提取"這個(gè)技術(shù)上，就只能提取“實(shí)體"。而人能夠理解，在這個(gè)情況下，用戶是指的“排除掉東航以外的其他選擇"，這是因?yàn)槿顺俗觥皩?shí)體提取"以外，還根據(jù)所處語境，做了一個(gè)對邏輯的識別：“xx以外"。然后，自動(dòng)執(zhí)行了這個(gè)邏輯的處理，即推理，去進(jìn)一步理解，對方真正指的是什么（即指代）。而這個(gè)邏輯推理的過程，并不存在于之前設(shè)計(jì)好的步奏（從1到5）里。更麻煩的是，邏輯的出現(xiàn)，不僅僅影響“實(shí)體"，還影響“意圖"：“hiSiri，別推薦餐廳"——它還是會給你推薦餐廳；“hiSiri，除了推薦餐廳，你還能推薦什么？"——它還是會給你推薦餐廳。中文英文都是一樣的；Googleassistant也是一樣的。想要處理這個(gè)問題，不僅僅是要識別出“邏輯"；還要正確判斷出，這個(gè)邏輯是套用在哪個(gè)實(shí)體，或者是不是直接套用在某一個(gè)意圖上。這個(gè)判斷如何做？用什么做？都不在當(dāng)前SLU的范圍內(nèi)。對這些問題的處理，如果是集中在一些比較封閉的場景下，還可以解決個(gè)七七八八。但是，如果想要從根本上、泛化的處理，希望一次處理就解決所有場景的問題，到目前都無解。在這方面，Siri是這樣，GoogleAssistant也是這樣，任意一家，都是這樣。為啥說無解？我們來看看測試。“用圖靈測試來測對話系統(tǒng)沒用"一說到對人工智能進(jìn)行測試，大部分人的**反應(yīng)是圖靈測試。5月GoogleI/O大會的那段時(shí)間，我們團(tuán)隊(duì)正在服務(wù)一家企業(yè)，為他們規(guī)劃基于AIAgent的服務(wù)。在發(fā)布會的第二天，我收到這家客戶的TechOffice的好心提醒：Google這個(gè)像真人一樣的黑科技，會不會現(xiàn)有的技術(shù)方案？我的回答是并不會。話說GoogleDuplex在發(fā)布會上的demo確實(shí)讓人印象深刻，而且大部分看了Demo的人，都分辨不出打電話去做預(yù)定的是不是真人。“這個(gè)效果在某種意義上，算是通過了圖靈測試。"Google母公司的Chairman說googleduplex可以算過了圖靈測試了由于圖靈測試的本質(zhì)是“欺騙"(Agameofdeception，詳見TobyWalsh的論文)，所以很多人批評它，這只能用來測試人有多好騙，而不是用來測智能的。在這一點(diǎn)上，我們在后文Part4對話的本質(zhì)中會有更多解釋。人們被這個(gè)Demo騙到的主要原因，是因?yàn)楹铣傻恼Z音非常像真人。這確實(shí)是Duplex牛的地方：語音合成。不得不承認(rèn)，包括語氣、音調(diào)等等模擬人聲的效果，確實(shí)是讓人嘆為觀止。只是，單就在語音合成方面，就算是做到，在本質(zhì)上就是一只**——多可以騙騙Alexa（所以你看活體識別有多么重要）。只是，Google演示的這個(gè)對話系統(tǒng)，一樣處理不了邏輯推理、指代這類的問題。這意味著，就它算能過圖靈測試，也過不了WinogradSchemaChallenge測試。相比圖靈測試，這個(gè)測試是直擊深度學(xué)習(xí)的要害。當(dāng)人類對句子進(jìn)行語法分析時(shí)，會用真實(shí)世界的知識來理解指代的對象。這個(gè)測試的目標(biāo)，就是測試目前深度學(xué)習(xí)欠缺的常識推理能力。如果我們用WinogradSchemaChallenge的方法，來測試AI在“餐廳推薦"這個(gè)場景里的水平，題目會是類似這樣的：A.“四川火鍋比日料更好，因?yàn)樗芾?B.“四川火鍋比日料更好，因?yàn)樗焕?AI需要能準(zhǔn)確指出：在A句里，“它"指的是四川火鍋；而在B句里，“它"指的則是日料。還記得在本文Part1里提到的那個(gè)“不要日本菜測試"么？我真的不是在強(qiáng)調(diào)“回字有四種寫法"——這個(gè)測試的本質(zhì)，是測試對話系統(tǒng)能不能使用簡單邏輯來做推理（指代的是什么）。而在WinogradSchemaChallenge中，則是用世界知識（包括常識）來做推理：如果系統(tǒng)不知道相應(yīng)的常識（四川火鍋是辣的；日料是不辣的），就沒有推理的基礎(chǔ)。更不用說推理還需要被準(zhǔn)確地執(zhí)行。有人說，我們可以通過上下文處理來解決這個(gè)問題。不好意思，上面這個(gè)常識根本就沒有出現(xiàn)在整個(gè)對話當(dāng)中。不在“上文"里面，又如何處理？對于這個(gè)部分的詳細(xì)解釋，請看下一章（Part3對話的本質(zhì)）。盡管指代問題和邏輯問題，看上去，在應(yīng)用方面已經(jīng)足夠致命了；但這些也只是深度學(xué)習(xí)表現(xiàn)出來的諸多局限性中的一部分。哪怕更進(jìn)一步，再過一段時(shí)間，有一家AI在WinogradSchemaChallenge拿了的正確率，我們也不能期望它在自然語言處理中的表現(xiàn)如同人一樣，因?yàn)檫€有更嚴(yán)重和更本質(zhì)的問題在后面等著。“對話系統(tǒng)更大的挑戰(zhàn)不是NLU"我們來看問題表現(xiàn)在什么地方。現(xiàn)在我們知道了，當(dāng)人跟現(xiàn)在的AI對話的時(shí)候，AI能識別你說的話，是靠深度學(xué)習(xí)對你說出的自然語言進(jìn)行分類，歸于設(shè)定好的意圖，并找出來文本中有哪些實(shí)體。而AI什么時(shí)候回答你，什么時(shí)候反問你，基本都取決于背后的“對話管理"系統(tǒng)里面的各種表上還有啥必填項(xiàng)沒有填完。而問你的話，則是由產(chǎn)品經(jīng)理和代碼小哥一起手動(dòng)完成的。那么，這張表是誰做的？或者說，是誰決定，對于“訂"這件事，要考慮哪些方面？要獲得哪些信息？需要問哪些問題？機(jī)器又是怎么知道的？是人。是產(chǎn)品經(jīng)理，準(zhǔn)確點(diǎn)說。就像剛才的“訂"的案例，當(dāng)用戶問到“航司"的時(shí)候，之前的表里并沒有設(shè)計(jì)這個(gè)概念，AI就無法處理了。要讓AI能處理這樣的新條件，得在“訂"這張表上，新增加“航空公司"一欄（黃色部分）。而這個(gè)過程，都得人為手動(dòng)完成：產(chǎn)品經(jīng)理設(shè)計(jì)好后，工程師編程完成這張表的編程。所以AI并不是真的，通過案例學(xué)習(xí)就自動(dòng)理解了“訂"這件事情，包含了哪些因素。只要這個(gè)表還是由人來設(shè)計(jì)和編程實(shí)現(xiàn)的，在產(chǎn)品層面，一旦用戶稍微談及到表以外的內(nèi)容，智障的情況就自然出現(xiàn)了。因此，當(dāng)Googleduplex出現(xiàn)的時(shí)候，我并不那么關(guān)心Googleduplex發(fā)音和停頓有多像一個(gè)人——實(shí)際上，當(dāng)我觀察任意一個(gè)對話系統(tǒng)的時(shí)候，我都只關(guān)心1個(gè)問題：“是誰設(shè)計(jì)的那張表：人，還是AI？"只是，深度學(xué)習(xí)在對話系統(tǒng)里面，能做的只是識別用戶講出的那句話那部分——嚴(yán)格依照被人為訓(xùn)練的那樣（監(jiān)督學(xué)習(xí)）。至于其他方面，比如該講什么話？該在什么時(shí)候講話？它都無能為力。但是真正人們在對話時(shí)的過程，卻不是上面提到的對話系統(tǒng)這么設(shè)計(jì)的，而且相差十萬八千里。人的對話，又是怎么開展的？這個(gè)差異究竟在哪里？為什么差異那么大？所謂深度學(xué)習(xí)很難搞定的地方，是人怎么搞定的呢？畢竟在這個(gè)星球上，我們自身就是70億個(gè)的自然語言處理系統(tǒng)呢。我們需要了解要解決的問題，才可能開展解決問題的工作。在對話領(lǐng)域，我們需要知道人們對話的本質(zhì)是什么。下一章比較燒腦，我們將討論“思維"這件事情，是如何主導(dǎo)人們的對話的。Part3人類對話的本質(zhì)：思維“對話的終目的是為了同步思維"你是一位30出頭的職場人士，每天上午9點(diǎn)半，都要過辦公樓的旋轉(zhuǎn)門，進(jìn)大堂的，然后刷工牌進(jìn)電梯，去到28樓，你的辦公室。今天是1月6日，平淡無奇的一天。你剛進(jìn)電梯，電梯里只有你一個(gè)人，正要關(guān)門的時(shí)候，有一個(gè)人匆忙擠進(jìn)來。進(jìn)來的快遞小哥，他進(jìn)電梯時(shí)看到只有你們兩人，就說了一聲“你好"，然后又低頭找樓層按鈕了。你很自然的回復(fù)：“你好"，然后目光轉(zhuǎn)向一邊。兩邊都沒什么話好講——實(shí)際上，是對話雙方認(rèn)為彼此沒有什么情況需要同步的。人們用語言來對話，其終的目的是為了讓雙方對當(dāng)前場景模型（Situationmodel）保持同步。（大家先了解到這個(gè)概念就夠了。更感興趣的，詳情請見Towardaneuralbasisofinteractivealignmentinconversation）。Theinteractive-alignmentmodel(basedonPickeringandGarrod,2004)上圖中，A和B兩人之間發(fā)展出來所有對話，都是為了讓紅框中的兩個(gè)“Situationmodel"保持同步。Situationmodel在這里可以簡單理解為對事件的各方面的理解，包括Context。不少做對話系統(tǒng)的朋友會認(rèn)為Context是僅指“對話中的上下文"，我想要指出的是，除此以外，Context還應(yīng)該包含了對話發(fā)生時(shí)人們所處的場景。這個(gè)場景模型涵蓋了對話那一刻，除了明文以外的所有已被感知的信息。比如對話發(fā)生時(shí)的天氣情況，只要被人感知到了，也會被放入Context中，并影響對話內(nèi)容的發(fā)展。A:“你對這個(gè)事情怎么看？"B:“這天看著要下雨了，咱們進(jìn)去說吧"——盡管本來對話內(nèi)容并沒有涉及到天氣。對同一件事情，不同的人在腦海里構(gòu)建的場景模型是不一樣的。(想要了解更多，可以看Situationmodelsinlanguagecomprehensionandmemory.Zwaan,R.A.,&Radvansky,G.A.(1998).)所以，如果匆忙進(jìn)電梯來的是你的項(xiàng)目老板，而且假設(shè)他和你（多半都是他啦）都很關(guān)注近的新項(xiàng)目進(jìn)展，那么你們要開展的對話就很多了。在電梯里，你跟他打招呼：“張總，早！"，他會回你“早啊，對了昨天那個(gè)…"不待他問完，優(yōu)秀如你就能猜到“張總"大概后面要聊的內(nèi)容是關(guān)于新項(xiàng)目的，這是因?yàn)槟阏J(rèn)為張總對這個(gè)“新項(xiàng)目"的理解和你不同，有同步的必要。甚至，你可以通過昨天他不在辦公室，大概漏掉了這個(gè)項(xiàng)目的哪些部分，來推理你這個(gè)時(shí)候應(yīng)該回復(fù)他關(guān)于這個(gè)項(xiàng)目的具體什么方面的問題。“昨天你不在，別擔(dān)心，客戶那邊都處理好了。打款的事情也溝通好了，30天之內(nèi)搞定。"——你看，不待張總問完，你都能很棒的回答上。這多虧了你對他的模型的判斷是正確的。一旦你對對方的情景模型判斷失誤，那么可能“沒打中點(diǎn)上"。“我知道，昨天晚上我回了趟公司，小李跟我說過了。我是要說昨天晚上我回來辦公室的時(shí)候，你怎么沒有在加班呀？小王，你這樣下去可不行啊…"所以，人們在進(jìn)行對話的過程中，并不是僅靠對方上一句話說了什么（對話中明文所包含的信息）就來決定回復(fù)什么。而這和當(dāng)前的對話系統(tǒng)的回復(fù)機(jī)制非常不同。“對話是思想從高維度向低維的投影"我們假設(shè)，在另一個(gè)平行宇宙里，還是你到了辦公樓。今天還是1月6日，但2年前的今天，你與交往了5年的女友分手了，之后一直對她念念不忘，也沒有交往新人。你和往日一樣，進(jìn)電梯的，剛要關(guān)門的時(shí)候，匆忙進(jìn)來的一個(gè)人，要關(guān)的門又打開了。就是你2年前分手的那位前女友。她進(jìn)門時(shí)看到只有你們兩，她抬頭看了一下你，然后又低頭找樓層電梯了，這時(shí)她說：“你好"。請問你這時(shí)腦袋里是不是有很多信息洶涌而過？這時(shí)該回答什么？是不是類似“一時(shí)不知道該如何開口"的感覺？這個(gè)感覺來自（你認(rèn)為）你和她之間的情景模型有太多的不同（分手2年了），甚至你都無法判斷缺少哪些信息。有太多的信息想要同步了，卻被貧瘠的語言困住了。在信息豐富的程度上，語言是貧瘠的，而思想則要豐富很多“Languageissketchy,thoughtisrich"(Newperspectivesonlanguageandthought，LilaGleitman,TheOxfordHandbookofThinkingandReasoning；更多相關(guān)討論請看,Fisher&Gleitman,2002;Papafragou,2007)有人做了一個(gè)比喻：語言和思維的豐富程度相比，是冰山的一角。我認(rèn)為遠(yuǎn)遠(yuǎn)不止如此：對話是思想在低維的投影。如果是冰山，你還可以從水面上露出來的部分反推水下大概還有多大。屬于維度相同，但是量不同。但是語言的問題在，只用聽到文字信息，來反推講話的人的思想，失真的情況會非常嚴(yán)重。為了方便理解這個(gè)維度差異，在這兒用3D和2D來舉例：思維是高維度（立體3D的形狀），對話是低維度（2D的平面上的陰影）。如果咱們要從平面上的陰影的形狀，來反推，上面懸著的是什么物體，就很困難了。兩個(gè)陰影的形狀一模一樣，但是上面的3D物體，可能不同。對于語言而言，陰影就像是兩個(gè)“你好"在字面上是一模一樣的，但是思想里的內(nèi)容卻不同。在見面的那一瞬間，這個(gè)差異是非常大的：你在想（圓柱）：一年多不見了，她還好么？前女友在想（球）：這個(gè)人好眼熟，好像認(rèn)識…“挑戰(zhàn)：用低維表達(dá)高維"要用語言來描述思維有多困難？這就好比，當(dāng)你試圖給另一位不在現(xiàn)場的朋友，解釋一件剛剛發(fā)生過的事情的時(shí)候，你可以做到哪種程度的還原呢？試試用語言來描述你今天的早晨是怎么過的。當(dāng)你用文字完整描述后，我一定能找到一個(gè)事物或者某個(gè)具體的細(xì)節(jié)，它在你文字描述以外，但是卻確實(shí)存在在你今天早晨那個(gè)時(shí)空里。Source:TheChallenger比如，你可能會跟朋友提到，早飯吃了一碗面；但你一定不會具體去描述面里一共有哪些調(diào)料。傳遞信息時(shí)，缺少了這些細(xì)節(jié)(信息)，會讓聽眾聽到那碗面時(shí)，在腦海里呈現(xiàn)的一定不是你早上吃的“那碗面"的樣子。這就好比讓你用平面上（2D）陰影的樣子，來反推3D的形狀。你能做的，只是盡可能的增加描述的視角，盡可能給聽眾提供不同的2D的素材，來盡量還原3D的效果。為了解釋腦中“語言"和“思想"之間的關(guān)系（與讀者的情景模型進(jìn)行同步），我畫了上面那張對比圖，來幫助傳遞信息。如果要直接用文字來描述，還要盡量保全信息不丟失，那么我不得不用多得多的文字來描述細(xì)節(jié)。（比如上面的描述中，尚未提及陰影的面積的具體大小、顏色等等細(xì)節(jié)）。這還只是對客觀事物的描述。當(dāng)人在試圖描述更情緒化的主觀感受時(shí)，則更難用具體的文字來表達(dá)。比如，當(dāng)你看到AngelinaJordan這樣的小女生，卻能唱出Iputaspellonyou這樣的歌的時(shí)候，請嘗試用語言描述你的主觀感受。是不是很難？能講出來話，都是類似“鵝嚶"這類的？這些文字能代表你腦中的感受的多少部分？1%？希望此時(shí)，你能更理解所謂“語言是貧瘠的，而思維則要豐富很多"。那么，既然語言在傳遞信息時(shí)丟失了那么多信息，人們?yōu)槭裁蠢斫馄饋恚孟駴]有遇到太大的問題？“為什么人們的對話是輕松的？"假設(shè)有一種方式，可以把此刻你腦中的感受，以不失真的效果傳遞給另一個(gè)人。這種信息的傳遞和上面用文字進(jìn)行描述相比，豐富程度會有多大差異？可惜，我們沒有這種工具。我們主要的交流工具，就是語言，靠著對話，來試圖讓對方了解自己的處境。那么，既然語言這么不，又充滿邏輯上的漏洞，信息量又不夠，那么人怎么能理解，還以此為基礎(chǔ)，建立起來了整個(gè)文明？比如，在一個(gè)餐廳里，當(dāng)服務(wù)員說“火腿三明治要買單了"，我們都能知道這和“20號桌要買單了"指代的是同樣的事情(Nuberg,1978)。是什么讓字面上那么大差異的表達(dá)，也能有效傳遞信息？人能通過對話，有效理解語言，靠的是解讀能力——更具體的點(diǎn)，靠的是對話雙方的共識和基于共識的推理能力。當(dāng)人接收到低維的語言之后，會結(jié)合引用常識、自身的世界模型（后詳），來重新構(gòu)建一個(gè)思維中的模型，對應(yīng)這個(gè)語言所代表的含義。這并不是什么新觀點(diǎn)，大家熟悉的開復(fù)老師，在1991年在蘋果搞語音識別的時(shí)候，就在采訪里科普，“人類利用常識來幫助理解語音"。當(dāng)對話的雙方認(rèn)為對一件事情的理解是一樣的，或者非常接近的時(shí)候，他們就不用再講。需要溝通的，是那些（彼此認(rèn)為）不一樣的部分。當(dāng)你聽到“蘋果"兩個(gè)字的時(shí)候，你過去建立過的蘋果這個(gè)模型的各個(gè)維度，就被引用出來，包括可能是綠或紅色的、味道的甜、大概拳頭大小等等。如果你聽到對方說“藍(lán)色的蘋果"時(shí)，這和你過去建立的關(guān)于蘋果的模型不同（顏色）。思維就會產(chǎn)生一個(gè)提醒，促使你想要去同步或者更新這個(gè)模型，“蘋果為什么是藍(lán)色的？"還記得，在Part2里我們提到的那個(gè)測試指代關(guān)系的WinogradSchemaChallenge么？這個(gè)測試的名字是根據(jù)TerryWinograd的一個(gè)例子而來的。“議員們拒絕給者頒發(fā)許可證，因?yàn)樗麄僛害怕/提倡]暴力。"當(dāng)[害怕]出現(xiàn)在句子當(dāng)中的時(shí)候，“他們"指的應(yīng)該是議員們；當(dāng)[提倡]出現(xiàn)在句子當(dāng)中的時(shí)候，“他們"則指的是“者"。1.人們能夠根據(jù)具體情況，作出判斷，是因?yàn)楦鶕?jù)常識做出了推理，“議員害怕暴力；者提倡暴力。"2.說這句話的人，認(rèn)為這個(gè)常識對于聽眾應(yīng)該是共識，就直接把它省略掉了。同理，之前（Part2）我們舉例時(shí)提到的那個(gè)常識（“四川火鍋是辣的；日料不是辣的"），也在表達(dá)中被省略掉了。常識（往往也是大多數(shù)人的共識）的總量是不計(jì)其數(shù)，而且總體上還會隨著人類社會發(fā)展的演進(jìn)而不斷新增。例子1，如果你的世界模型里已經(jīng)包含了“華農(nóng)兄弟"（你看過并了解他們的故事），你會發(fā)現(xiàn)我在Part2開始的例子，藏了一個(gè)梗（做成叫花雞）。但因?yàn)椤叭A農(nóng)兄弟"并不是大多數(shù)人都知道的常識，而是我與特定人群的共識，所以你看到這句話時(shí)，獲得的信息就比其人多。而不了解這個(gè)梗的人，看到那里時(shí)就不會接收到這個(gè)額外的信息，反而會覺得這個(gè)表達(dá)好像有點(diǎn)點(diǎn)奇怪。例子2，創(chuàng)投圈的朋友應(yīng)該都有聽說過Elevatorpitch，就是30秒，把你要做什么事情講清楚。通常的案例諸如：“我們是餐飲界的Uber"，或者說“我們是辦公室版的Airbnb"。這個(gè)典型結(jié)構(gòu)是“XX版的YY"，要讓這句話起到效果，前提條件是XX和YY兩個(gè)概念在發(fā)生對話之前，已經(jīng)納入到聽眾的模型里面去了。如果我給別人說，我是“對話智能行業(yè)的麥肯錫"，要能讓對方理解，對方就得既了解對話智能是什么，又了解麥肯錫是什么。“基于世界模型的推理"場景模型是基于某一次對話的，對話不同，場景模型也不同；而世界模型則是基于一個(gè)人的，相對而言長期不變。對世界的感知，包括聲音、視覺、嗅覺、觸覺等感官反饋，有助于人們對世界建立起一個(gè)物理上的認(rèn)識。對常識的理解，包括各種現(xiàn)象和規(guī)律的感知，在幫助人們生成一個(gè)更完整的模型：世界模型。無論、或者對錯(cuò)，每一個(gè)人的世界模型都不一樣，有可能是觀察到的信息不同，也有可能是推理能力不一樣。世界模型影響的是人的思維本身，繼而影響思維在低維的投影：對話。讓我們從一個(gè)例子開始：假設(shè)現(xiàn)在咱們一起來做一個(gè)不那么智障的助理。我們希望這個(gè)助理能夠推薦餐廳酒吧什么的，來應(yīng)付下面這樣的需求：當(dāng)用戶說：“我想喝點(diǎn)東西"的時(shí)候，系統(tǒng)該怎么回答這句話？經(jīng)過Part2，我相信大家都了解，我們可以把它訓(xùn)練成為一個(gè)意圖“找喝東西的店"，然后把周圍的店檢索出來，然后回復(fù)這句話給他：“在你附近找到這些選擇"。恭喜，咱們已經(jīng)達(dá)到Siri的水平啦！但是，剛剛我們開頭就說了，要做不那么智障的助理。這個(gè)“喝東西的店"是奶茶點(diǎn)還是咖啡店？還是全部都給他？嗯，這就涉及到了推理。我們來手動(dòng)模擬一個(gè)。假設(shè)我們有用戶的Profile數(shù)據(jù)，把這個(gè)用上：如果他的偏好中愛的飲品是咖啡，就給他推薦咖啡店。這樣一來，我們就可以更“個(gè)性化"的給他回復(fù)了：“在你附近找到這些咖啡店"。這個(gè)時(shí)候，咱們的AI已經(jīng)達(dá)到了不少“智能系統(tǒng)"喜歡鼓吹的個(gè)性化概念——“千人千面"啦！然后我們來看這個(gè)概念有多蠢。一個(gè)人喜歡喝咖啡，那么他一輩子的任意時(shí)候就都要喝咖啡么？人是怎么處理這個(gè)問題的呢？如果用戶是在下午1點(diǎn)這么問，這么回他還好；如果是在晚上11點(diǎn)呢？我們還要給他推薦咖啡店么？還是應(yīng)該給他推薦一個(gè)酒吧？或者，除此之外，如果今天是他的生日，那么我們是不是該給他點(diǎn)不同的東西？或者，今天是圣誕節(jié)，該不該給他推薦熱巧克力？你看，時(shí)間是一個(gè)維度，在這個(gè)維度上的不同值都在影響給用戶回復(fù)什么不同的話。時(shí)間和用戶的Profile不同的是：1.時(shí)間這個(gè)維度上的值有無限多；2.每個(gè)刻度還都不一樣。比如雖然生日是同一個(gè)日期，但是過生日的次數(shù)卻不重復(fù)；除了時(shí)間這個(gè)維度以外，還有空間。于是我們把空間這個(gè)維度疊加（到時(shí)間）上去。你會發(fā)現(xiàn)，如果用戶在周末的家里問這個(gè)問題（可能想叫奶茶外賣到家？），和他在上班時(shí)間的辦公室里問這個(gè)問題（可能想出去走走換換思路），咱們給他的回復(fù)也應(yīng)該不同。光是時(shí)空這兩個(gè)維度，就有無窮多的組合，用"ifthen"的邏輯也沒法全部手動(dòng)寫完。我們造機(jī)器人的工具，到這個(gè)需求，就開始捉襟見肘了。何況時(shí)間和空間，只是世界模型當(dāng)中顯而易見的兩個(gè)維度。還有更多的，更抽象的維度存在，并且直接影響與用戶的對話。比如，人物之間的關(guān)系；人物的經(jīng)歷；天氣的變化；人和地理位置的關(guān)系（是經(jīng)常來出差、是當(dāng)?shù)赝林⑹?*次來旅游）等等等等。咱們聊到這里，感覺還在聊對話系統(tǒng)么？是不是感覺有點(diǎn)像在聊推薦系統(tǒng)？要想效果更好，這些維度的因素都要疊加在一起進(jìn)行因果推理，然后把結(jié)果給用戶。至此，影響人們對話的，光是信息（還不含推理）至少就有這三部分：明文（含上下文）場景模型（Context）世界模型。普通人都能毫不費(fèi)力地完成這個(gè)工作。但是深度學(xué)習(xí)只能處理基于明文的信息。對于場景模型和世界模型的感知、生成、基于模型的推理，深度學(xué)習(xí)統(tǒng)統(tǒng)無能為力。這就是為什么現(xiàn)在炙手可熱的深度學(xué)習(xí)無法實(shí)現(xiàn)真正的智能（AGI）的本質(zhì)原因：不能進(jìn)行因果推理。根據(jù)世界模型進(jìn)行推理的效果，不僅僅體現(xiàn)上在對話上，還能應(yīng)用在所有現(xiàn)在成為AI的項(xiàng)目上，比如自動(dòng)駕駛。經(jīng)過大量訓(xùn)練的自動(dòng)駕駛汽車，在遇到偶發(fā)狀況時(shí)，就沒有足夠的訓(xùn)練素材了。比如，突然出現(xiàn)在路上的嬰兒車和突然滾到路上的垃圾桶，都會被視為障礙物，但是剎不住車的情況下，一定要撞一個(gè)的時(shí)候，撞哪一個(gè)？又比如，對侯世達(dá)(DouglasHofstardler)而言，“駕駛"意味著當(dāng)要趕著去一個(gè)地方的時(shí)候，要選擇超速還是不超速；要從堵車的高速下來，還是在高速上慢慢跟著車流走...這些決策都是駕駛的一部分。他說：“世界上各方面的事情都在影響著“駕駛"這件事的本質(zhì)"。“人腦有兩套系統(tǒng)：系統(tǒng)1和系統(tǒng)2"關(guān)于“系統(tǒng)1和系統(tǒng)2"的詳情，請閱讀Thinking,FastandSlow,byDanielKahneman，一本非常好的書，對人的認(rèn)知工作是如何展開的進(jìn)行了深入的分析。在這兒，我給還不了解的朋友介紹一下，以**本文前后的觀點(diǎn)。心理學(xué)家認(rèn)為，人思考和認(rèn)知工作分成了兩個(gè)系統(tǒng)來處理：系統(tǒng)1是快思考：無意識、快速、不怎么費(fèi)腦力、無需推理系統(tǒng)2是慢思考：需要調(diào)動(dòng)注意力、過程更慢、費(fèi)腦力、需要推理系統(tǒng)1先上，遇到搞不定的事情，系統(tǒng)2會出面解決。系統(tǒng)1做的事情包括:判斷兩個(gè)物體的遠(yuǎn)近、追溯聲音的來源、完形填空("我愛北京天安")等等。順帶一提，下象棋的時(shí)候，一眼看出這是一步好棋，這個(gè)行為也是系統(tǒng)1實(shí)現(xiàn)的——前提是你是一位優(yōu)秀的玩家。對于中國學(xué)生而言，你突然問他：“7乘以7"，他會不假思索的說：“49！"這是系統(tǒng)1在工作，因?yàn)槲覀冊谛W(xué)都會背99乘法表。這個(gè)49并非來自計(jì)算結(jié)果，而是背下來的（反復(fù)重復(fù)）。相應(yīng)的，如果你問：“3287x2234等于多少？"，這個(gè)時(shí)候人就需要調(diào)用世界模型中的乘法規(guī)則，加以應(yīng)用（計(jì)算）。這就是系統(tǒng)2的工作。另外，在系統(tǒng)1所設(shè)定的世界里，貓不會像狗一樣汪汪叫。若事物違反了系統(tǒng)1所設(shè)定的世界模型，系統(tǒng)2也會被激活。在語言方面，YoshuaBengio認(rèn)為系統(tǒng)1不做與語言有關(guān)的工作；系統(tǒng)2才負(fù)責(zé)語言工作。對于深度學(xué)習(xí)而言，它更適合去完成系統(tǒng)1的工作，實(shí)際上它根本沒有系統(tǒng)2的功能。關(guān)于這兩個(gè)系統(tǒng)，值得一提的是，人是可以通過訓(xùn)練，把部分系統(tǒng)2才能做的事情，變成系統(tǒng)1來完成的。比如中國學(xué)生得經(jīng)過“痛苦的記憶過程"才能熟練掌握99乘法表，而不是隨著出生到長大的自然經(jīng)驗(yàn)，慢慢學(xué)會的。但是這里有2個(gè)有意思的特征：1.變成系統(tǒng)1來處理問題的時(shí)候，可以節(jié)約能量。人們偏向相信自己的經(jīng)驗(yàn)，是因?yàn)槟X力對能量的消耗很大，這是一個(gè)節(jié)能的做法。2.變成系統(tǒng)1的時(shí)候，會犧牲辯證能力，因?yàn)橄到y(tǒng)1對于邏輯相關(guān)的問題一無所知。“我做這個(gè)事情已經(jīng)幾十年了"這種經(jīng)驗(yàn)主義思維就是典型案例。想想自己長期積累的案例是如何在影響自己做判斷的？“單靠深度學(xué)習(xí)搞不定語言，現(xiàn)在不行，將來也不行"在人工智能行業(yè)里，你經(jīng)常會聽到有人這么說“盡管當(dāng)前技術(shù)還實(shí)現(xiàn)不了理想中的人工智能，但是技術(shù)是會不斷演進(jìn)的，隨著數(shù)據(jù)積累的越來越多，終將會實(shí)現(xiàn)讓人滿意的人工智能。"如果這個(gè)說法，是指寄希望于僅靠深度學(xué)習(xí)，不斷積累數(shù)據(jù)量，就能翻盤——那就大錯(cuò)特錯(cuò)了。無論你怎么優(yōu)化“馬車"的核心技術(shù)（比如更壯、更多的馬），都無法以此造出汽車(下圖右)。對于大眾而言，技術(shù)的可演進(jìn)性，是以宏觀的視角看人類和技術(shù)的關(guān)系。但是發(fā)動(dòng)機(jī)的演化和馬車的關(guān)鍵技術(shù)沒有半點(diǎn)關(guān)系。深度學(xué)習(xí)領(lǐng)域的3大牛，都認(rèn)為單靠深度學(xué)習(xí)這條路（不能終通向AGI）。感興趣的朋友可以沿著這個(gè)方向去研究:GeoffreyHinton的懷疑：“我的觀點(diǎn)是都扔掉重來吧"YoshuaBengio的觀點(diǎn)：“如果你對于這個(gè)每天都在接觸的世界，有一個(gè)好的因果模型，你甚至可以對不熟悉的情況進(jìn)行抽象。這很關(guān)鍵......機(jī)器不能，因?yàn)闄C(jī)器沒有這些因果模型。我們可以手工制作這些模型，但是這遠(yuǎn)不足夠。我們需要能發(fā)現(xiàn)因果模型的機(jī)器。"YannLeCun的觀點(diǎn)：“Alearningpredictiveworldmodeliswhatwe’remissingtoday,andinmyopinionisthebiggestobstacletosignificantprogressinAI."至于深度學(xué)習(xí)在將來真正的智能上扮演的角色，在這兒我引用GaryMarcus的說法：“Idon’tthinkthatdeeplearningwon’tplayaroleinnaturalunderstanding,onlythatdeeplearningcan’tsucceedonitsown."“解釋人工智障產(chǎn)品"現(xiàn)在，我們了解了人們對話的本質(zhì)是思維的交換，而遠(yuǎn)不只是明文上的識別和基于識別的回復(fù)。而當(dāng)前的人工智能產(chǎn)品則無法實(shí)現(xiàn)這個(gè)效果。那么當(dāng)用戶帶著人類的世界模型和推理能力來跟機(jī)器，用自然語言交互時(shí)，就很容易看到破綻。Sophia是一個(gè)技術(shù)上的**（凡是鼓吹Sophia是真AI的，要么是不懂，要么是忽悠）；現(xiàn)在的AI，都不會有真正的智能（推理能力什么的不存在的，包括Alphago在內(nèi)）；只要是深度學(xué)習(xí)還是主流，就不用擔(dān)心AI統(tǒng)治人類；對話產(chǎn)品感覺用起來智障，都是因?yàn)橄胩^思維，直接模擬對話（而現(xiàn)在也只能這樣）；“用的越多，數(shù)據(jù)越多，智能會越強(qiáng)，產(chǎn)品就會越好，使用就會越多"——對于任務(wù)類對話產(chǎn)品，這是一個(gè)看上去很酷，實(shí)際上不靠譜的觀點(diǎn)；一個(gè)AIagent，能對話多少輪，毫無意義；toC的助理產(chǎn)品做不好，是因?yàn)榻鉀Q不了“如何獲得用戶的世界模型數(shù)據(jù)，并加以利用"這個(gè)問題；toB的對話智能公司為何很難規(guī)模化？（因?yàn)閳鼍澳Ｐ褪鞘謩?dòng)生成的）先有智能，后有語言：要做到真正意義上的自然語言對話，至少要實(shí)現(xiàn)基于常識和世界模型的推理能力。而這一點(diǎn)如果能實(shí)現(xiàn)，那么我們作為人類，就可能真的需要開始擔(dān)心前文提到的智能了。不要用NLP評價(jià)一個(gè)對話智能產(chǎn)品：年底了，有些媒體開始出各種AI公司榜單，其中有不少把做對話的公司分在NLP下面。這就好比，不要用觸摸屏來衡量一款智能手機(jī)。在這兒我不是說觸摸屏或者NLP不重要(Essential)，反而因?yàn)樘匾耍@個(gè)環(huán)節(jié)成為了每一家的標(biāo)配，以至于在這方面基本已經(jīng)做到頭了，差異不過1%。對于一個(gè)對話類產(chǎn)品而言，NLU盡管重要，但只應(yīng)占個(gè)整體配件的5-10%左右。更進(jìn)一步來說，甚至意圖識別和實(shí)體提取的部分用大廠的，產(chǎn)品間差異也遠(yuǎn)小于對話管理部分的差距。真正決定產(chǎn)品的是剩下的90%的系統(tǒng)。到此，是不是有一種絕望的感覺？這些學(xué)界和行業(yè)的大牛都沒有解決方案，或者說連有把握的思路都沒有。是不是做對話智能這類的產(chǎn)品就沒戲了？上限就是這樣了么？不是。對于一項(xiàng)技術(shù)而言，可能確實(shí)觸底了；但是對于應(yīng)用和產(chǎn)品設(shè)計(jì)而言，并不是由一個(gè)技術(shù)決定的，而是很多技術(shù)的結(jié)合，這里還有很大的空間。作為產(chǎn)品經(jīng)理，讓我來換一個(gè)角度。我們來研究一下，既然手中的工具是這些，我們能用他們來做點(diǎn)什么？Part4AI產(chǎn)品的潛力在于設(shè)計(jì)“AI的歸AI，產(chǎn)品的歸產(chǎn)品"《ThePrestige》2006，劇照有一部我很喜歡的電影，ThePrestige，里面講了一個(gè)關(guān)于“瞬間移動(dòng)"的魔術(shù)。對于觀眾而言，就是從一個(gè)地方消失，然后瞬間又從另一個(gè)地方出現(xiàn)。**個(gè)魔術(shù)師，成功的在舞臺上實(shí)現(xiàn)了這個(gè)效果。他打開舞臺上的右邊的門，剛一進(jìn)去的一瞬間，就從舞臺左邊的門出來了。對觀眾而言，這符合他們的期望。第二個(gè)魔術(shù)師在觀眾席里，看到效果后驚呆了，他感覺這根本毫無破綻。但是他是魔術(shù)師——作為一個(gè)產(chǎn)品經(jīng)理——他就想研究這個(gè)產(chǎn)品是怎么實(shí)現(xiàn)的。但是魔術(shù)行業(yè)里，不受人待見的，就是魔術(shù)揭秘。影片后，他得到了答案（劇透預(yù)警）：所有的工程機(jī)關(guān)、升降機(jī)、等等，都如他所料的藏在了舞臺下面。但真正的核心是，**個(gè)魔術(shù)師一直隱藏著自己的另一個(gè)雙胞胎兄弟。當(dāng)他打開一個(gè)門，從洞口跳下舞臺的那一刻，雙胞胎的另一位就馬上從另一邊升上舞臺。看到這里，大家可能就恍然大悟：“原來是這樣，雙胞胎啊！"這感覺是不是有點(diǎn)似曾相識？在本文Part2，我們聊到把對話系統(tǒng)的黑箱打開，里面就是填一張表的時(shí)候，是不是有類似的感覺？對話式人工智能的產(chǎn)品（對話系統(tǒng)）就像魔術(shù)，是一個(gè)黑箱，用戶是以感知來判斷價(jià)值的。“我還以為有什么黑科技呢，我是雙胞胎我也可以啊。"其實(shí)這并不容易。我們先不說魔術(shù)的舞臺里面的工程設(shè)計(jì)，這個(gè)魔術(shù)難的地方是如何能在魔術(shù)師的生活中，讓另一個(gè)雙胞胎在大眾視野里消失掉。如果觀眾們都知道魔術(shù)師是雙胞胎，就很可能猜到舞臺上的魔術(shù)是兩個(gè)人一起表演的。所以這個(gè)雙胞胎，一定不能出現(xiàn)在大眾的“世界模型"里。為了讓雙胞胎的另一個(gè)消失在大眾視野里，這兩兄弟付出了很多代價(jià)，身心磨，絕非一般人能接受的，比如共享同一個(gè)老婆。這也是我的建議：技術(shù)不夠的時(shí)候，設(shè)計(jì)來補(bǔ)。做AI產(chǎn)品的同學(xué)，不要期待給你智能。要是真的有智能了，還需要你干什么？人工智能產(chǎn)品經(jīng)理需要設(shè)計(jì)一套龐大的系統(tǒng)，其中包括了填表、也當(dāng)然包括深度學(xué)習(xí)帶來的意圖識別和實(shí)體提取等等標(biāo)準(zhǔn)做法、也包括了各種可能的對話管理、上下文的處理、邏輯指代等等。這些部分，都是產(chǎn)品設(shè)計(jì)和工程力量發(fā)揮的空間。“設(shè)計(jì)思路的基礎(chǔ)"我需要強(qiáng)調(diào)一下，在這里，咱們講的是AI產(chǎn)品思路，不是AI的實(shí)現(xiàn)思路。對于對話類產(chǎn)品的設(shè)計(jì)，以現(xiàn)在深度學(xué)習(xí)的基礎(chǔ)，語義理解應(yīng)該只占整個(gè)產(chǎn)品的5%-10%；而其他的，都是想盡一切辦法來模擬“傳送"這個(gè)效果——畢竟我們都知道，這是個(gè)魔術(shù)。如果只是識別就占了你家產(chǎn)品的大量心血，其他的不去拉開差異，基本出來就是智障無疑。在產(chǎn)品研發(fā)方面上，如果研發(fā)團(tuán)隊(duì)能提供多種技術(shù)混用的工具，肯定會增加開發(fā)團(tuán)隊(duì)和設(shè)計(jì)的發(fā)揮空間。這個(gè)做法也就是DL(DeepLearning)GOFAI(GoodOldFashionedAI)的結(jié)合。GOFAI是JohnHaugeland首先提出的，也就是深度學(xué)習(xí)火起來之前的symbolicAI，也就是專家系統(tǒng)，也就是大多數(shù)在AI領(lǐng)域的人都看不起的“ifthen…"DLGOFAI這個(gè)前提，是當(dāng)前一切后續(xù)產(chǎn)品設(shè)計(jì)思路的基礎(chǔ)。“DesignPrinciple：存在即為被感知"“存在即為被感知"是18世紀(jì)的哲學(xué)家GeorgeBerkeley的名言。加州大學(xué)伯克利分校的命名來源也是為了紀(jì)念這位唯心主義大師。這個(gè)意思呢，就是如果你不能被感知到，你就是不存在的！我認(rèn)為“存在即為被感知"是對話類AI產(chǎn)品的Designprinciple。對話產(chǎn)品背后的智能，是被用戶感知到而存在的。直到有一天AI可以代替產(chǎn)品經(jīng)理，在那之前，所有的設(shè)計(jì)都應(yīng)該圍繞著，如何可以讓用戶感覺和自己對話的AI是有價(jià)值的，然后才是聰明的。要非常明確自己的目的，設(shè)計(jì)的是AI的產(chǎn)品，而不是AGI本身。就像魔術(shù)的設(shè)計(jì)者，給你有限的基礎(chǔ)技術(shù)條件，你能組裝出一個(gè)產(chǎn)品，體驗(yàn)是人們難以想到。同時(shí)，也要深刻的認(rèn)識到產(chǎn)品的局限性。魔術(shù)就是魔術(shù)，并不是現(xiàn)實(shí)。這意味著，在舞臺上的魔術(shù)，如果改變一些重要的條件，它就不成立了。比如，如果讓觀眾跑到舞臺的頂上，從上往下看這個(gè)魔術(shù)，就會發(fā)現(xiàn)舞臺上有洞。或者“瞬間移動(dòng)"的不是這對雙胞胎中的一個(gè)，而是一個(gè)觀眾跑上去說，“讓我來瞬間移動(dòng)試試"，就穿幫了。NarrowAI的產(chǎn)品，也是一樣的。如果你設(shè)計(jì)好了一個(gè)Domain，無論其中體驗(yàn)如何，只要用戶跑到Domain的邊界以外了，就崩潰了。先設(shè)定好產(chǎn)品邊界，設(shè)計(jì)好“越界時(shí)給用戶的反饋"，然后在領(lǐng)域里面，盡可能的模擬這個(gè)魔術(shù)的效果。假設(shè)Domain的邊界已經(jīng)設(shè)定清晰了，哪些方面可以通過設(shè)計(jì)和工程的力量，來大幅增加效果呢？其實(shí)，在“Part3對話的本質(zhì)"里談到的與思維相關(guān)的部分，在限定Domain的前提下，都可以作為設(shè)計(jì)的出發(fā)點(diǎn)：你可以用GOFAI來模擬世界模型、也可以模擬場景模型、你可以Fake邏輯推理、可以Fake上下文指代——只要他們都限定在Domain里。“選擇合適的Domain"成本（工程和設(shè)計(jì)的量）和給用戶的價(jià)值并不是永遠(yuǎn)成正比，也根據(jù)不同的Domain的不同。比如，我認(rèn)為現(xiàn)在所有的**機(jī)器人都沒有什么價(jià)值。開放Domain，沒有目標(biāo)、沒有限定和邊界，對用戶而言，會認(rèn)為什么都可以聊。但是其自身“場景模型"一片空白，對用戶所知的常識也一無所知。導(dǎo)致用戶稍微試一下，就碰壁了。我把這種用戶體驗(yàn)稱為“每次嘗試都容易遇到挫折"。可能，有些Domain對回復(fù)的內(nèi)容并不那么看重。也就并不需要那么強(qiáng)壯的場景模型和推理機(jī)制來生成回復(fù)內(nèi)容。我們假設(shè)做一個(gè)“樹洞機(jī)器人"，可以把產(chǎn)品定義是為，扮演一個(gè)好的聽眾，讓用戶把心中的壓力煩惱傾訴出來。:BradleyUniversityOnline這個(gè)產(chǎn)品的邊界，需要非常明確的，在用戶剛剛接觸到的時(shí)候，強(qiáng)化到用戶的場景模型中。主要是系統(tǒng)通過一些語言的反饋，鼓勵(lì)用戶繼續(xù)說。而不要鼓勵(lì)用戶來期望對話系統(tǒng)能輸出很多正確且有價(jià)值的話。當(dāng)用戶做出一些陳述之后，可以跟上一些對“場景模型"依賴較小，泛泛的話。“我從來沒有這么考慮過這個(gè)問題，你為什么會這么想呢？"“關(guān)于這個(gè)人，你還有哪些了解？"“你覺得他為什么會這樣？"……這樣一來，產(chǎn)品在需求上，就大幅減輕了對“自然語言生成"的依賴。因?yàn)檫@個(gè)產(chǎn)品的價(jià)值，不在回復(fù)的具體內(nèi)容是否，是否有價(jià)值上。這就同時(shí)降低了對話背后的“場景模型"、“世界模型"、以及“常識推理"這些高維度模塊的需求。訓(xùn)練的素材嘛，也就是某個(gè)特定分支領(lǐng)域（比如職場、家庭等）的心理咨詢師的對話案例。產(chǎn)品定義上，這得是一個(gè)Companion型的產(chǎn)品，不能真正起到理療的作用。當(dāng)然，以上并不是真正的產(chǎn)品設(shè)計(jì)，僅僅是用一個(gè)例子來說明，不同的Domain對背后的語言交互的能力要求不同，進(jìn)而對更后面的“思維能力"要求不同。選擇產(chǎn)品的Domain時(shí)，盡量遠(yuǎn)離那些嚴(yán)重依賴世界模型和常識推理，才能進(jìn)行對話的場景。有人可能說，你這不就是Sophia的做法么？不是。這里需要強(qiáng)調(diào)的是Sophia的核心問題是欺騙。產(chǎn)品是想忽悠大眾，他們真的做出了智能。在這里，我提倡的是明確告訴用戶，這就是對話系統(tǒng)，而不是真的造出了智能。這也是為什么，在我自己的產(chǎn)品設(shè)計(jì)中，如果遇到真人和AI同時(shí)為用戶服務(wù)的時(shí)候（產(chǎn)品上稱為HybridModel），我們總是會偏向明確讓用戶知道，什么時(shí)候是真人在服務(wù)，什么時(shí)候是機(jī)器人在服務(wù)。這么做的好處是，控制用戶的預(yù)期，以避免用戶跑到設(shè)計(jì)的Domain以外去了；不好的地方是，你可能“聽上去"沒有那么酷。所以，當(dāng)我說“存在即為被感知"的時(shí)候，強(qiáng)調(diào)的是對價(jià)值的感知；而不是對“像人一樣"的感知。“對話智能的核心價(jià)值：在內(nèi)容，不在交互"多年前，還在英國讀書的時(shí)候，我曾經(jīng)在一個(gè)非常有名歷史悠久的秘密結(jié)社里工作。我對當(dāng)時(shí)的那位照顧會員需求的大管家印象深刻。你可以想象她好像是“美國運(yùn)通黑卡服務(wù)"的超級禮賓，她有兩個(gè)超能力：1.Resourceful，會員的奇葩需求都能想盡辦法的實(shí)現(xiàn)：一個(gè)身在法蘭克福的會員半夜里遇到急事，臨時(shí)想盡快回倫敦，半夜沒有航班了，打電話找到大管家求助。后大管家找到另一個(gè)會員的朋友借了私人飛機(jī)，送他一程，凌晨回到了倫敦。2.Mind-reading，會員想要什么，無需多言：“Oliver，我想喝點(diǎn)東西…"“當(dāng)然沒問題，我待會給你送過來。"她也不需要問喝什么，或者送到哪里。人人都想要一個(gè)這樣的管家。**俠需要Alfred；鋼鐵俠需要Javis；西奧多需要Her（盡管這哥們后來走偏了）；iPhone需要Siri；這又回到了我們在Part1里提到的，AI的toC產(chǎn)品是智能助理。但是，人們需要這個(gè)助理的根本原因，是因?yàn)槿藗冃枰膶υ捘芰γ矗窟@個(gè)世界上已經(jīng)有70億個(gè)自然語言對話系統(tǒng)了（就是人），為什么我們還需要制造更多的對話系統(tǒng)？我們需要的是對話系統(tǒng)后面的思考能力，解決問題的能力。而對話，只是這個(gè)思考能力的交互方式（ConversationalUserInterface）。如果真能足夠聰明的把問題提前解決了，用戶甚至連話都不想說。我們來看個(gè)例子。我知道很多產(chǎn)品經(jīng)理已經(jīng)把這個(gè)iPhone初代發(fā)布的東西講爛了。但是，在這兒確實(shí)是一個(gè)非常好的例子：我們來探討一下iPhone用虛擬鍵盤代替實(shí)體鍵盤的原因。普通用戶，從直觀的視角，能得出結(jié)論：這樣屏幕更大！需要鍵盤的時(shí)候就出現(xiàn)，不需要的時(shí)候就消失。而且還把看上去挺復(fù)雜的產(chǎn)品設(shè)計(jì)給簡化了，更好看了。甚至很多產(chǎn)品經(jīng)理也是這么想的。實(shí)際上，這根本不是硬件設(shè)計(jì)的問題。原因見下圖。其實(shí)喬布斯在當(dāng)時(shí)也講的很清楚：物理鍵盤的核心問題是，（作為交互UI）你不能改變它。物理交互方式（鍵盤）不會根據(jù)不同的軟件發(fā)生改變。如果要在手機(jī)上加載各種各樣的內(nèi)容，如果要?jiǎng)?chuàng)造各種各樣的軟件生態(tài)，這些不同的軟件都會有自己不同的UI，但是交互方式都得依賴同一種（物理鍵盤無法改變），這就行不通了。所以，實(shí)際代替這些物理鍵盤的，不是虛擬鍵盤，而是整個(gè)觸摸屏。因?yàn)閕Phone（當(dāng)時(shí)的）將來會搭載豐富的生態(tài)軟件內(nèi)容，就必須要有能與這些還沒出現(xiàn)的想法兼容的交互方式。在我看來，上述一切都是為了豐富的內(nèi)容服務(wù)。再一次的，交互本身不是核心，它背后搭載的內(nèi)容才是。但是在當(dāng)初看這個(gè)發(fā)布會的時(shí)候，我是真的沒有g(shù)et到這個(gè)點(diǎn)。那個(gè)時(shí)候真的難以想象，整個(gè)移動(dòng)互聯(lián)時(shí)代會誕生的那么多APP，都有各自不同的UI，來搭載各式各樣的服務(wù)。你想想，如果以上面這些實(shí)體鍵盤，讓你來操作大眾點(diǎn)評、打開地圖、Instagram或者其他你熟悉的APP，是一種怎樣的體驗(yàn)？更有可能的是，只要是這樣的交互方式，根本設(shè)計(jì)不出剛才提到的那些APP。與之同時(shí)，這也引申出一個(gè)問題：如果設(shè)備上，并沒有多樣的軟件和內(nèi)容生態(tài)，那還應(yīng)該把實(shí)體鍵設(shè)計(jì)成觸摸和虛擬的方式么？比如，一個(gè)挖掘機(jī)的交互方式，應(yīng)該使用觸屏么？甚至對話界面？“對話智能解決重復(fù)思考"同樣的，對話智能的產(chǎn)品的核心價(jià)值，應(yīng)該在解決問題的能力上，而不是停留在交互這個(gè)表面。這個(gè)“內(nèi)容"或者“解決問題的能力"是怎么體現(xiàn)的呢？工業(yè)革命給人類帶來的巨大價(jià)值在于解決“重復(fù)體力勞動(dòng)"這件事。經(jīng)濟(jì)學(xué)家TylerCowen認(rèn)為，“什么行業(yè)的就業(yè)人越多，這個(gè)工種就會創(chuàng)造更大的商業(yè)價(jià)值。"他在AverageIsOver這本書里描述到：“20世紀(jì)初，美國就業(yè)人口多的是農(nóng)民；二戰(zhàn)后的工業(yè)化、第三產(chǎn)業(yè)的發(fā)展，再加上婦女解放運(yùn)動(dòng)，就業(yè)人工多的工種變成**商業(yè)的文字工作者比如秘書助理呼叫中心（文員，信息輸入）。1980/90年代的個(gè)人計(jì)算機(jī)，以及Office的普及，大量秘書，助理類工作消失。"這里提及的工作，都是需要大量重復(fù)的工作。而且不停的演變，從重復(fù)的體力，逐步到重復(fù)的腦力。從這個(gè)角度出發(fā)，對一個(gè)場景背后的“思考能力"沒有把控的AI產(chǎn)品，會很快被代替掉。的，就是典型意義上的智能客服。在市場上，有很多這樣的智能客服的團(tuán)隊(duì)，他們能夠做對話系統(tǒng)（詳見Part2），但是對這各領(lǐng)域的思考，卻不甚了解。我把“智能客服"稱為“前臺**姐"——無意冒犯，但是前臺**姐的主要工作和技能并沒有關(guān)系。他們重要的技能就是對話，準(zhǔn)確點(diǎn)說是用對話來“路由"——了解用戶什么需求，把不合適的需求過濾掉，再把需求轉(zhuǎn)給專家去解決。但是對于一個(gè)企業(yè)而言，客服是只嘴和耳，而專家才是腦，才是內(nèi)容，才是價(jià)值。客服有多不核心？想想大量被外包出去的呼叫中心，就知道了。與這類客服機(jī)器人產(chǎn)品對應(yīng)的，就是專家機(jī)器人。一個(gè)專家，必定有識別用戶需求的能力，反之不亦然。你可以想象一個(gè)企業(yè)支付給一個(gè)客服多少薪資，又支付給一個(gè)專家多少薪資？一個(gè)專家需要多少時(shí)間培訓(xùn)和準(zhǔn)備才能上崗，客服**姐呢？于此同時(shí)，能力是這個(gè)機(jī)構(gòu)的核心，而客服不是。正因?yàn)槿绱耍芏嗳苏J(rèn)為，人工的呼叫中心，以后會被AI呼叫中心代替掉；而我認(rèn)為，用AI做呼叫中心的工作，是一個(gè)非常短暫的過渡型方案。很快代替人工呼叫中心的，甚至代替AI呼叫中心，是具備交互能力的專家AI中心。在這兒，“專家"的意義大于“呼叫"。在經(jīng)歷過工具化帶來的產(chǎn)能爬坡和規(guī)模效應(yīng)之后，他們成本差不多，但是卻很多。比如他直接鏈接后端的供給系統(tǒng)的同時(shí)，還具備領(lǐng)域的推理能力，也能與用戶直接交互。NLP在對話系統(tǒng)里解決的是交互的問題。在人工智能產(chǎn)品領(lǐng)域里，給與一定時(shí)間，掌握技能的團(tuán)隊(duì)一定能對話系統(tǒng)；而掌握對話系統(tǒng)的團(tuán)隊(duì)則很難掌握技能。試想一下在幾年前，移動(dòng)互聯(lián)剛剛出現(xiàn)的時(shí)候，會做app的，去幫銀行做app；而幾年之后銀行都會自己開發(fā)app，而干不了銀行的事。在這個(gè)例子里，做AI產(chǎn)品定義的朋友，你的產(chǎn)品**是要代替（或者**）某個(gè)領(lǐng)域?qū)＜遥欢灰闇?zhǔn)那些過渡性崗位，比如客服。從這個(gè)角度出發(fā)，對話智能類的產(chǎn)品核心的價(jià)值，是進(jìn)一步的代替用戶的重復(fù)思考。Workonthemindnotthemouth.哪怕已經(jīng)是在解決腦袋的問題，也盡量去代替用戶系統(tǒng)2的工作，而不只是系統(tǒng)1的工作。在你的產(chǎn)品中，加入級的推理；幫助用戶進(jìn)行抽象概念與具象細(xì)節(jié)之間的轉(zhuǎn)化；幫助用戶去判斷那些出現(xiàn)在他的模型中，但是他口頭還沒有提及的問題；考慮他當(dāng)前的環(huán)境模型、發(fā)起對話時(shí)所處的物理時(shí)空、過去的經(jīng)歷；推測他的心態(tài)，他的世界模型。先解決思考的問題，再盡可能的轉(zhuǎn)化成語言。Part5AIPM“缺了什么？"2018年10月底，我在慕尼黑為企業(yè)客戶做onsitesupport。期間與客戶的各個(gè)BU、市場老板們以及自身的研發(fā)團(tuán)隊(duì)交流對話AI的應(yīng)用。作為的汽車品牌之一，他們也在積極尋求AI在自身產(chǎn)品和服務(wù)上的應(yīng)用。不缺技術(shù)人才。盡管作為傳統(tǒng)行業(yè)的大象，可能會被外界視為不擅長AI，其實(shí)他們自身并不缺少NLP的研發(fā)。當(dāng)我跟他們的NLP團(tuán)隊(duì)交流時(shí)，發(fā)現(xiàn)基本都有世界名校的PHD。而且，在閉門的供應(yīng)商大會上，基本所有的科技大廠和咨詢公司都在場了。就算實(shí)在搞不了，也大有人排著隊(duì)的想幫他們搞。創(chuàng)新的意愿強(qiáng)烈。在我接觸過的大企業(yè)當(dāng)中，特別是傳統(tǒng)世界當(dāng)中中，這個(gè)企業(yè)是非常重視創(chuàng)新的。經(jīng)過移動(dòng)互聯(lián)時(shí)代，丟掉的陣地，他們是真心想一點(diǎn)點(diǎn)搶回來，并試圖所在的行業(yè)，而不是follow別人的做法。不僅僅是像“傳統(tǒng)的大企業(yè)創(chuàng)新"那樣做一些不痛不癢的POC，來完成創(chuàng)新部門的KPI。他們則真的很積極地推進(jìn)AI的商業(yè)化，而且勇于嘗試改變過去和Techprovider之間的關(guān)系。這點(diǎn)讓我印象深刻，限于保密條款，在此略過細(xì)節(jié)。（關(guān)于國際巨型企業(yè)借新技術(shù)的初創(chuàng)團(tuán)隊(duì)之手來做式創(chuàng)新，也是一個(gè)很有意思的話題，以后新開一個(gè)Topic。）數(shù)據(jù)更多。那么傳統(tǒng)的優(yōu)勢就在于，真正擁有業(yè)務(wù)場景和實(shí)際的數(shù)據(jù)。賣出去的每一臺產(chǎn)品都是他們的終端，而且開始全面聯(lián)網(wǎng)和智能化。再加上，各種線下的渠道、海量的客服，其實(shí)他們有能力和空間來搜集更完整的用戶生命周期數(shù)據(jù)。當(dāng)然，作為硬幣的另一面，百年品牌也自然會有嚴(yán)重的歷史牽絆。機(jī)構(gòu)內(nèi)部的合規(guī)、采購流程、數(shù)據(jù)的管控、BU之間的數(shù)據(jù)和行政壁壘也是跑不掉的。這些環(huán)節(jié)的Tradeoff確實(shí)大大的影響了對上述優(yōu)勢的利用。但是缺少的還是產(chǎn)品定義能力。如果對話智能的產(chǎn)品定義失敗，后面的執(zhí)行就算是的，出來的效果也是智障。有些銀行的AI機(jī)器人就是例子：立項(xiàng)用半年，競標(biāo)用半年，開發(fā)用一年，然后上線跑一個(gè)月就因?yàn)樘老戮€了。但這其實(shí)并不是傳統(tǒng)行業(yè)的特點(diǎn)，而是目前所有玩家的問題——互聯(lián)網(wǎng)或科技公司的對話AI產(chǎn)品也逃不掉。可能互聯(lián)網(wǎng)企業(yè)還自我感覺良好，在這產(chǎn)品設(shè)計(jì)部分，人才不缺了——畢竟“人人都是產(chǎn)品經(jīng)理"嘛。但在目前，咱們看到的互聯(lián)網(wǎng)公司出來的產(chǎn)品也都是差不多的效果，具體情況咱們在Part2里已經(jīng)介紹足夠多了。我們來看看難點(diǎn)在哪里。AI產(chǎn)品該怎么做定義呢？也就是，需要怎樣的產(chǎn)品才能實(shí)現(xiàn)商業(yè)需求。技術(shù)部門往往主要關(guān)注技術(shù)實(shí)現(xiàn)，而不背商業(yè)結(jié)果KPI；而業(yè)務(wù)部門的同事對AI的理解又很有限，也就容易提出不合適的需求。關(guān)鍵是，在做產(chǎn)品定義時(shí)，你想要描述“我想要一個(gè)這樣的AI，它可以說…"的時(shí)候你會發(fā)現(xiàn)，因?yàn)槭菍υ捊缑妫愀緹o法窮盡這個(gè)產(chǎn)品的可能性。其中一個(gè)具體細(xì)節(jié)就是，產(chǎn)品文檔該怎么寫，這就足夠挑戰(zhàn)了。“對話AI產(chǎn)品的管理方法"先給結(jié)論：如果還想沿用管理GUI產(chǎn)品的方來管理對話智能產(chǎn)品，這是不可能的。從行業(yè)角度來看，沒有大量成功案例，就不會有流水線；沒有流水線，就沒有基于流水線的項(xiàng)目管理。也就是說，從1886年開始**輛現(xiàn)代汽車出現(xiàn)，到1913年才出現(xiàn)**條流水線——中間有27年的跨度。再到后來豐田提出TheToyotaWay，以精益管理(LeanManagement)來快速迭代（類似敏捷開發(fā)）以盡量避免浪費(fèi)，即Kaizen(改善)，這已經(jīng)是2001年的事情了。這兩天和其他也在給大企業(yè)做對話的同行交流的時(shí)候，聽到很多不太成功的產(chǎn)品案例，歸結(jié)起來幾乎都是因?yàn)椤爱a(chǎn)品Scope定義不明"，導(dǎo)致項(xiàng)目開展到后面根本收不了尾。而且因?yàn)楣δ苤g的耦合緊密，連線都上不了（遇到上下文對話依賴的任務(wù)時(shí)，中間環(huán)節(jié)一但有缺失，根本走不通流程）。這些都是行業(yè)早期不成熟的標(biāo)志。“對話AI產(chǎn)品的DesignPrinciple尚未出現(xiàn)"對話智能領(lǐng)域相對視覺類的產(chǎn)品，有幾個(gè)特性上的差異：1）是產(chǎn)品化遠(yuǎn)不如視覺類AI成熟；2）深度學(xué)習(xí)在整個(gè)系統(tǒng)里扮演的角色雖然重要，但是還是很少，遠(yuǎn)不夠撐起來有價(jià)值的對話系統(tǒng)；3）產(chǎn)品都是黑箱，目前在行業(yè)中尚無比較共同認(rèn)可的設(shè)計(jì)標(biāo)準(zhǔn)。APP發(fā)展到后面，隨著用戶的使用習(xí)慣的形成，和業(yè)界內(nèi)成功案例的“互相交流"，逐步形成了一些設(shè)計(jì)上的共識，比如下面這一排，右邊紅圈里的“我"：但是，從2007年iPhone發(fā)布，到這些移動(dòng)產(chǎn)品的設(shè)計(jì)規(guī)范逐步形成，也花了近6、7年時(shí)間，且不提這是圖形化界面。到如今，這類移動(dòng)設(shè)備上的產(chǎn)品設(shè)計(jì)標(biāo)準(zhǔn)已經(jīng)成熟到，如果在設(shè)計(jì)師不遵循一些設(shè)計(jì)思路，反而會引起用戶的不習(xí)慣。只是對話系統(tǒng)的設(shè)計(jì)規(guī)范，現(xiàn)在談還為時(shí)尚早。到這里，結(jié)合上述兩個(gè)點(diǎn)（對話AI產(chǎn)品的管理方法、設(shè)計(jì)規(guī)范都不成熟），也就可以解釋為什么智能音箱都不智能。因?yàn)橹悄芤粝涞谋澈蠖际且惶住凹寄艽蛟炜蚣?，給，希望能用這套框架來制作各種“技能"。而“對話技能類平臺"在目前根本走不通。任何場景一旦涉及到明文識別以外的，需要對特定的任務(wù)和功能進(jìn)行建模，然后再融合進(jìn)多輪對話管理里的場景，以現(xiàn)在的產(chǎn)品成熟程度，都無法抽象成有效的設(shè)計(jì)規(guī)范。現(xiàn)在能抽象出來的，都是非常簡單的上下文管理（還記得Part2里的“填表"么？）。我就舉一個(gè)例子，絕大部分的技能平臺，根本就沒有“用戶生命周期管理"的概念。這和服務(wù)流程是兩碼事，也是很多機(jī)器人智障的諸多原因之一。因?yàn)樯婕暗教?xì)節(jié)和的部分，咱們暫且不展開。也有例外的情況：技能全部是語音控制型，比如“關(guān)燈開燈"“開空調(diào)25度"。這類主要依賴明文識別的技能，也確實(shí)能用框架實(shí)現(xiàn)比較好的效果。但這樣的問題在于，開放給沒有意義：這類技能既不需要多樣的產(chǎn)品化；從這類開發(fā)中也根本賺不到錢——幾乎沒有商業(yè)價(jià)值。另一個(gè)例外是大廠做MLaaS類平臺，這還是很有價(jià)值的。能解決對深度學(xué)習(xí)的需求，比如意圖識別、分詞、實(shí)體提取等**層的需求。但整個(gè)識別部分，就如我在Part3&4里提到的，只應(yīng)占到任務(wù)對話系統(tǒng)的10%，也而已。剩下的90%的工作，也是真正決定產(chǎn)品價(jià)值的工作，都得自己搞。他們會經(jīng)歷些什么？我隨便舉幾個(gè)簡單的例子（行業(yè)外的朋友可以忽略）：如果你需要訓(xùn)練一個(gè)意圖，要生成1000句話來做素材，那么“找100個(gè)人，每人寫10句"的訓(xùn)練效果要遠(yuǎn)好于“找10個(gè)人，每人寫100句"；是用場景來分意圖、用語義來分意圖和用謂語來拆分意圖，怎么選？這不僅影響機(jī)器人是否能高效支持“任務(wù)"之間的跳轉(zhuǎn)，還影響訓(xùn)練效率、開發(fā)成本；有時(shí)候意圖的訓(xùn)練出錯(cuò)，是訓(xùn)練者把自己腦補(bǔ)的內(nèi)容放進(jìn)去了；話術(shù)的重要性，不僅影響用戶看著舒不舒服，更決定了他的回復(fù)的可能性——以及回復(fù)的回復(fù)的可能性——畢竟他說的每一句后面的話，都需要被識別后，再回復(fù)；如果你要給一個(gè)電影院做產(chǎn)品，**用圖形化界面，而不要用語言來選座位：“現(xiàn)在空著的座位有，**排的1，2，3，4…."這些方面的經(jīng)驗(yàn)和技巧數(shù)都數(shù)不完，而且還是淺顯、皮毛的部分。你可以想象，對話智能的設(shè)計(jì)規(guī)范還有多少路要走——記得，每個(gè)產(chǎn)品還是黑箱，就算出了好效果，也看不到里面是怎么設(shè)計(jì)的。“一個(gè)合適的AIPM"當(dāng)真正的人工智能實(shí)現(xiàn)之后，所有產(chǎn)品經(jīng)理所需要做的思考，都會被AI代替。所以，真正的人工智能也許是人類后的一個(gè)發(fā)明。在那一天之前，對話智能產(chǎn)品經(jīng)理的工作，是使用各種力量來創(chuàng)造智能給人的感覺。AIPM一定要在心中非常明確“AI的歸AI，產(chǎn)品的歸產(chǎn)品"。做工具的和用工具的，出發(fā)點(diǎn)是不同。應(yīng)該是帶著做產(chǎn)品的目的，來使用AI；千萬不要出現(xiàn)“AIPM是來實(shí)現(xiàn)AI的"這樣的幻覺。我們都熟悉，PM需要站在“人文和技術(shù)的十字路口"來設(shè)計(jì)產(chǎn)品。那么對話智能的AIPM可能在這方面可能人格分裂的情況更，以至于甚至需要2個(gè)人來做配合成緊密的產(chǎn)品小組——我認(rèn)為一個(gè)優(yōu)秀的對話智能產(chǎn)品經(jīng)理，需要在這三個(gè)表現(xiàn)優(yōu)秀：1.懂商業(yè)：就是理解價(jià)值對話產(chǎn)品的價(jià)值一定不在對話上，而是通過對話這種交互方式（CUI）來完成背后的任務(wù)或者解決具體問題。一個(gè)本來就很強(qiáng)的APP，就不要想著去用對話重新做一遍。反而是一些APP/WEB還沒有能很好解決的問題，可以多花點(diǎn)時(shí)間研究看看。這方面在Part4里的對話智能的核心價(jià)值部分，當(dāng)中有詳細(xì)闡述，在這里就不重復(fù)了。2.懂技術(shù)：理解手中的工具（深度學(xué)習(xí)GOFAI）一個(gè)大廚，應(yīng)該熟悉食材的特性；一個(gè)音樂家，應(yīng)該熟悉樂器的特征；一個(gè)雕塑家，應(yīng)該熟悉手中的鑿子。大家工具都差不多，成果如何，取決于藝術(shù)家。現(xiàn)在，AIPM手中有深度學(xué)習(xí)，那么就應(yīng)該了解它擅長什么和不擅長什么。以避免提出太過于荒謬的需求，導(dǎo)致開發(fā)的同學(xué)向你發(fā)起攻擊。了解深度學(xué)習(xí)的特性，會直接幫助我們判斷哪些產(chǎn)品方向更容易出效果。比如，做一個(gè)推薦餐廳的AI，就比做一個(gè)下圍棋的AI難太多了。下圍棋的產(chǎn)品成功，并不需要人類理解這個(gè)過程，接受這個(gè)結(jié)果就行。而推薦一個(gè)餐廳給用戶，則必須要去模擬人的思維后，再投其所好。人們在想要推薦餐廳的時(shí)候，通過對話，了解他的需求（不能問太多，特別是顯而易見的問題，比如他在5點(diǎn)的時(shí)候，你問他要定幾點(diǎn)的餐廳）對于圍棋而言，每次（單次）輸入的可能性只有不超過棋盤上19x19=361種可能性；一局棋的過程盡管千變?nèi)f化，我們可以交給深度學(xué)習(xí)的黑箱；后決定所需要的信息，全部呈現(xiàn)在棋盤上的落子上，盡管量大，但與落子以外的信息毫無關(guān)系，全在黑箱里，只是這個(gè)黑箱很大。后，輸出的結(jié)果的可能性只有兩種：輸或者贏。對于推薦餐廳。每次輸入的信息，實(shí)際并不包含決策所需要的全部信息（無法用語言表達(dá)所有相關(guān)的影響因素，參考Part3里世界模型部分）；而且輸出的結(jié)果是開放的，因?yàn)橥扑]的餐廳，既不可被量化，更不存在的對錯(cuò)。了解CUI的特性后，不該用對話的就不要強(qiáng)上對話交互；有些使用對話成本非常高，又很不Robustic的環(huán)節(jié)，同時(shí)用戶價(jià)值和使用頻次又很低的，就要考慮規(guī)避——咱們是做產(chǎn)品的，不是實(shí)現(xiàn)真正的AI的，要分清楚。3.懂人：心理和語言這可能是當(dāng)前對話類產(chǎn)品重要的地方，也是拉開和其他產(chǎn)品設(shè)計(jì)的核心部分。也可能是中年人做產(chǎn)品的第二春。對心理的理解，指的是當(dāng)用戶在說話的時(shí)候，對他腦中的模型的理解。英文中“Readtheroom"就是指講話之前，先觀察一下了解周圍聽眾的情況，揣摩一下他們的心理，再恰當(dāng)?shù)恼f話。比如，講話的時(shí)候，是否聽眾開始反復(fù)的看表？這會讓直接影響對話的進(jìn)程。你有遇到過和某人對話起來感覺很舒服的么？這個(gè)人，不僅僅是語言組織能力強(qiáng)，更重要的則是他對你腦中的對話進(jìn)程的把握，以及場景模型，甚至對你的世界模型有把握。他還知道怎么措辭，會更容易讓你接受，甚至引導(dǎo)（Manipulate）你對一些話題的放棄，或者是加強(qiáng)。對話系統(tǒng)的設(shè)計(jì)也是一樣的。哪些要點(diǎn)在上文中說過？哪些類型的指代可以去模擬？如果是文字界面，用戶會不會拉回去看之前的內(nèi)容？如果是語音界面，用戶腦中還記不記得住？如果記得住，還強(qiáng)調(diào)，會感覺重復(fù)；如果記不住，又不重復(fù)，會感覺困惑。對語言的理解，則是指對口語特性的理解。我知道FrederickJelinek說的“每當(dāng)我開除一個(gè)語言學(xué)家，Speech識別的準(zhǔn)確率就會增高"。只是，現(xiàn)在根本沒有真正意義上的自然語言生成（NLG），因?yàn)闆]有真正的思維生成。所以，任務(wù)類的對話的內(nèi)容，系統(tǒng)不會自然產(chǎn)生，也無法用深度學(xué)習(xí)生成。對于AIPM而言，要考慮的還是有很多語言上的具體問題。一個(gè)回復(fù)里，內(nèi)容會不會太長？要點(diǎn)該有幾個(gè)？謂語是否明確，用戶是否清晰被告知要做什么？條件又是什么？這樣的回復(fù)，能引發(fā)多少種可能的問詢？內(nèi)容措辭是否容易引起誤解（比如因?yàn)槁牨姷谋尘安煌赡軙胁煌慕庾x）？從這個(gè)角度而言，一個(gè)好的對話系統(tǒng)，必定出自一個(gè)很能溝通的人或者團(tuán)隊(duì)之手。能為他人考慮，心思細(xì)膩，使用語言的能力高效，深諳人們的心理變化。對業(yè)務(wù)熟悉，能洞察到用戶的Context的變化，而其格調(diào)又幫助用戶控制對話的節(jié)奏，以終解決具體問題。Part6可見的未來是現(xiàn)狀的延續(xù)“過渡技術(shù)"在幾周前，我與行業(yè)里另一家做對話的CEO討論行業(yè)的將來。當(dāng)我聊到“深度學(xué)習(xí)做對話還遠(yuǎn)達(dá)不到效果"的態(tài)度時(shí)，他問我：“如果是悲觀的，那么怎么給團(tuán)隊(duì)希望繼續(xù)往前進(jìn)呢？"其實(shí)我并不是悲觀的，可能只是更客觀一點(diǎn)。既然深度學(xué)習(xí)在本質(zhì)上搞不定對話，那么現(xiàn)在做對話AI的實(shí)現(xiàn)方式，是不是個(gè)過渡技術(shù)？這是一個(gè)好問題。我認(rèn)為，用現(xiàn)在的技術(shù)用來制作AI的產(chǎn)品，還會持續(xù)很長時(shí)間，直到真正智能的到來。如果是個(gè)即將被替代或者的技術(shù)，那就不應(yīng)該加碼投入。如果可以預(yù)見未來，沒人想在數(shù)碼相機(jī)崛起的前期，加入柯達(dá)；或者在LED電視普及之前，重金投入在背投電視的研發(fā)上。而且難以預(yù)測的不僅僅是技術(shù)，還有市場的發(fā)展趨勢。比如在中國，作為無現(xiàn)金支付方式，還沒來得及覆蓋足夠多的支付場景，就被移動(dòng)支付斷了后路。而現(xiàn)在的對話智能所使用的技術(shù)，還遠(yuǎn)沒到這個(gè)階段。ClaytonM.Christensen在《創(chuàng)新者的窘境》里描述了每個(gè)技術(shù)的三個(gè)階段：**個(gè)階段，緩步爬坡；第二個(gè)階段開始迅猛發(fā)展，但是到接近發(fā)展的高地（進(jìn)步減速）的時(shí)候，另一個(gè)式技術(shù)可能已經(jīng)悄悄萌芽，并重復(fù)著**個(gè)技術(shù)的發(fā)展歷程；第三個(gè)階段，則進(jìn)入發(fā)展瓶頸，并終被新技術(shù)下圖黑色部分，為書中原圖：而當(dāng)前對話AI的技術(shù)，還在**階段（藍(lán)色旗幟位置）稱不上是高速發(fā)展，還處于探索的早期。黑箱的情況，會使得這個(gè)周期（**階段）可能比移動(dòng)時(shí)代更長。以當(dāng)前的技術(shù)發(fā)展方向，結(jié)合學(xué)術(shù)界與工業(yè)界的進(jìn)展來看，第二個(gè)技術(shù)還沒有出現(xiàn)的影子。但是同樣因?yàn)樯疃葘W(xué)習(xí)在對話系統(tǒng)中，只扮演的一小部分角色，所以大部分的空間，也是留給大家探索和成長的空間。換句話來講，還有很多發(fā)展的潛力。前提是，我們在討論對話類的產(chǎn)品，而不是實(shí)現(xiàn)AI本身。只是，這個(gè)階段的對話AI，還不會達(dá)到人們在電影里看到的那樣，能自如的用人類語言溝通。2）服務(wù)提供者崛起的機(jī)會因?yàn)樯鲜龅募夹g(shù)發(fā)展特點(diǎn)，在短期的將來，數(shù)據(jù)和設(shè)計(jì)是對話智能類產(chǎn)品的壁壘，技術(shù)不是。只是這里說的數(shù)據(jù)，不是指的用來訓(xùn)練的數(shù)據(jù)。而是供給端能完成服務(wù)的數(shù)據(jù)；能夠照顧用戶整個(gè)生命周期的數(shù)據(jù)；是當(dāng)對話發(fā)生的時(shí)候，用戶的明文以外的數(shù)據(jù)這些數(shù)據(jù)；影響用戶腦中的環(huán)境模型、影響對任務(wù)執(zhí)行相關(guān)的常識推理數(shù)據(jù)，等等。而隨著IOT的發(fā)展，服務(wù)提供者，作為與用戶在線下直接打交道的一方，是有可能掌握這些數(shù)據(jù)。他們能在各個(gè)Touchpoint去部署這些IOT設(shè)備，來搜集環(huán)境數(shù)據(jù)。并且，由他們決定要不要提供這些數(shù)據(jù)給平臺方。但是，往往這些行業(yè)里的玩家都是歷史悠久、行動(dòng)緩慢。其組織機(jī)構(gòu)龐大，而且是組織結(jié)構(gòu)并不是為了創(chuàng)新而設(shè)計(jì)，而是圍繞著如何能讓龐大的軀干不用思考，高速執(zhí)行。而這也正是互聯(lián)網(wǎng)企業(yè)和創(chuàng)業(yè)企業(yè)的機(jī)會。3）超級終端與入口之爭對話智能類的產(chǎn)品必須搭載在硬件終端上。很多相關(guān)的硬件嘗試，都是在賭哪個(gè)設(shè)備能夠成為繼手機(jī)之后的下一個(gè)超級終端。就好像智能手機(jī)作為計(jì)算設(shè)備，代替了PC的地位一樣。畢竟，在移動(dòng)時(shí)代，搶到了超級終端，就搶到了用戶獲取服務(wù)的入口。在入口的基礎(chǔ)之上，才是各個(gè)應(yīng)用。如果對話智能發(fā)展到足夠好的體驗(yàn)，并能覆蓋更多的服務(wù)領(lǐng)域時(shí)，哪一個(gè)終端更有可能成為下一個(gè)超級終端呢？智能音箱、帶屏幕的音箱、車載設(shè)備甚至車機(jī)、穿戴設(shè)備等等都可以搭載對話智能。在5G的時(shí)代，更多的計(jì)算交給云端，在本地設(shè)備上留下能耗較低的OS和基礎(chǔ)設(shè)施，I/O交給麥克風(fēng)和音頻播放就完成了。credit:Pixabay因此任意一個(gè)聯(lián)網(wǎng)設(shè)備，都可能具備交互和傳遞服務(wù)的能力，進(jìn)一步削弱超級終端的存在。也就是說，作為個(gè)人用戶，在任意一個(gè)聯(lián)網(wǎng)設(shè)備上，只要具備語音交互和聯(lián)網(wǎng)能力，都可能獲得服務(wù)。特別是一些場景依賴的商業(yè)服務(wù)，如酒店、**、辦公室等等。隨著這些入口的出現(xiàn)，在移動(dòng)時(shí)代的以流量為中心的商業(yè)模式，可能將不再成立。而新的模式可能誕生，想象一下，每一個(gè)企業(yè)，每一個(gè)品牌都會有自己的AI。一個(gè)或是多個(gè)，根據(jù)不同的業(yè)務(wù)而產(chǎn)生；對內(nèi)部員工服務(wù)或者協(xié)助其工作，同時(shí)也接待外部的客服，管理整個(gè)生命周期從注冊成這家企業(yè)的用戶開始，到后（不幸地）中斷服務(wù)為止。只是這個(gè)發(fā)展順序是，先有服務(wù)，再有對話系統(tǒng)——就好像人，是有腦袋里的想法，再用對話來表達(dá)。結(jié)語在本文中，所有與技術(shù)和產(chǎn)品相關(guān)的討論，都是在強(qiáng)調(diào)一個(gè)觀點(diǎn)：一個(gè)產(chǎn)品是由很多技術(shù)組合而成。我不希望傳達(dá)錯(cuò)誤的想法，類似“深度學(xué)習(xí)不重要"之類的；相反，我是希望每一類技術(shù)都得到正確的認(rèn)識，畢竟我們離真正的人工智能還有距離，能用上的都有價(jià)值。作為AI從業(yè)者，心中也會留有非理性的希望，能早日見證到人造的智能的到來。畢竟，如果真正的智能出現(xiàn)了，可能產(chǎn)品經(jīng)理（以及其他很多崗位）就解放了（或者被摧毀了）。這或許就是人類的后一個(gè)發(fā)明。本文開始于慕尼黑，終成稿于北京，斷斷續(xù)續(xù)耗時(shí)接近3個(gè)月。期間與很多大企業(yè)，行業(yè)內(nèi)的創(chuàng)業(yè)者，還有一些資本的同學(xué)溝通交流。在此表示感謝，就不一一點(diǎn)名啦。