柳傳志也以自己的經歷,勉勵創業者保持“專注”:
身邊很多朋友賺了很多錢,我也可以賺很多錢。當年96、97年民生銀行投資的時候,我被認為最有可能第一個投資的,但我沒投。據別人替我估算,如果當時投了那 1 億多,現在的回報是 2000 多億,我覺得我不必后悔,身邊不斷有這樣的事兒出現,你說它是好事,它是壞事?這還真不好說,因為我投資賺了這筆錢以后,我也許會想去投房地產、去做別的更多的事,電腦這條路可能做不成,也許到最后什么都可能做不成。
李開復談語音識別技術
李開復是第二名上場的嘉賓。眾所周知,李開復是著名語音識別技術專家,談到語音識別,當然少不了由他來現身說法。
事實上,在訊飛發布會之前,李開復曾在微博上對市面上存在的眾多“中國 Siri”提出四個疑問:
1)智能手機主界面是手觸,語音助手解決了什么真正用戶需求和痛處?2)如何克服后臺海量數據學習技術門檻?全球只有一個公司有這個技術。3)應用誰開發?自己開難擴張,用別人的應用整合不佳影響體驗,4)語音服務器和帶寬成本較大,如何克服?
今天發布會結束后,李開復更新微博:“訊飛語點推出后,2、4由訊飛解決了”。
事實上,在之前科大訊飛向愛范兒提供的獨家稿件中,訊飛一一回答了四個問題,3 月 22 日發布會用實際產品進行了回應。詳細內容見文末引用部分。
李開復的“爐邊談話”提供了很多“專家式”的內容。簡單整理成問答形式如下。
問:我們看到訊飛語音識別的技術已經非常成熟,那么你認為“應用”的空間在哪里,未來語音識別技術還有什么挑戰?
李開復:云端識別技術,訊飛已經解決了。“應用”在哪里?這并不是一些專家在實驗室里拍腦袋就能想到的。大家可以來試,可以在訊飛的云平臺上試一試,可能成功的會比較少,但能夠摸索到成功的應用的概率也會增加。
語音技術方面,主要挑戰還有三方面:
一、語音識別相對容易,但語義理解相對困難。讓軟件聽懂容易,但理解會比較難。
二、如果能在一定程度上做到語義理解,那么怎么樣讓開發者介入不用太花時間?
三、用戶體驗的期望值。語音是人類最自然交流的方式——與多點觸摸不同,一旦人們開始使用語音交互,會有比較大的心理預期:我愛怎么說就怎么說,你應該能理解,這是一個比較長久的挑戰。這中間,應該有巧妙方式來降低這種感受。
問:語音技術里面,是不是使用的人越多,語音技術也會愈加成熟?
李開復:當然了,更多人參與,獲得更多自動回饋,可以實現一個良性的正向循環方。一個人能力有限,一億用戶,每人使用 3 秒鐘,就是 3 億秒,這個數據量是龐大的。實際應用中,正確的輸入可以被視作是“一次正確訓練和學習”,吸收改進;一個錯誤的結果,比如訂餐時識別錯誤取消訂單,可以視作“不正確的學習”,同樣吸收改進。
但這個比“聽寫”更困難:錯了,是語音錯了還是語義錯了,或者其中一個正確、一個錯誤;對了,是語音對了語義對了,或者其中一個正確、一個錯誤。當回饋量大于累計量和使用量,可以讓我們邁出一大步。
問:什么樣的語音應用是用戶期待和接受的?
李開復:我認為有三個方向。1,相對是語音識別,而非深度語義理解的應用,或者說“淺語義,深語音”。比如聽寫(Demo 中有提到教育領域的聽寫測試、KTV 評分、發短信、日程提醒),——輸入法也很重要,這個比較保險。
2,娛樂性應用,比如 Siri 這樣的調侃調戲類應用。這種識別錯了也無傷大雅,很愛使用。蘋果很聰明,用調侃 Siri 錄了很多語音,然后慢慢把真正的應用做好。
3,在一些“眼忙手忙”的場景,這個時候語音需求就會很大,比如駕車的時候,這時候是不能多點觸控的,這算一個“剛性需求”的場所。
在這里我建議開發者:想把語音放進來的時候,不是那么容易,因為語音的 API 和語音的用戶體驗,比一般的 API 要難很多,比如百科全書類、地圖、本地商家,O2O,線上模式拉來線下消費,因為有語義部分在里面,要花很多時間去把它調好,不能用簡單的 API 隨便聯接起來。
附:科大訊飛對李開復“中國 Siri 路在何方”的回應稿件
第一,語音助手能夠解決什么真正的用戶需求?
大多數人提到 Siri,第一印象就是調戲 Siri,但如果一個產品只是用來“調戲”,那這個產品充其量只能算是玩具,而不是人們所必須使用的語音助手。所以,Siri 的定位應該是解決用戶的真正需求和痛處。
可惜,目前 Siri 的模仿者大多視這個需求而不見,而是關注如何才能更好的“調戲”用戶。相信只有真正做到解決用戶需求的產品,才能夠獲得用戶長久的喜愛,希望國內的開發者能夠注意這個問題。
Siri 想要實用,就必須調用開放數據的平臺,而中國卻沒有 Wolfram Alpha 這種引擎,所以中文 Siri 想要真正解決用戶需求,只能一家一家去談,比如找大眾點評、百科等。這是創業公司做不來的,而大公司(百度、騰訊等)來做,可能又存在利益沖突。
第二,如何克服后臺海量數據學習技術門檻?
雖然李開復老師說全球只有一個公司有這個技術,而我們也不知道這個公司具體是指哪一個。但據我了解,在語音識別方面,科大訊飛是做的不錯的,訊飛語音輸入法的識別率已經達到 85% 以上。而且他們的語音識別是基于云計算實現的,應該是具備數據學習能力的。
除了語音識別,還有一個難題是語義理解,這也是中文 Siri 的核心難題。讓機器真正理解人的語言,這是一件很困難的事。就目前來看,蘋果在英文方面都沒有很好解決,不然也不會有用戶要告蘋果虛假宣傳了。但蘋果可以依靠“調戲”用戶獲得大量語料,然后學習后提升可用度。