“Siri中文版”科大訊飛發布語音云平臺(2)_IT新聞

“Siri中文版”科大訊飛發布語音云平臺(2)

發表于：2012-03-23來源：愛范兒作者：愛范兒點擊數：標簽：Siri中文版科大訊飛語音云

柳傳志也以自己的經歷，勉勵創業者保持專注：身邊很多朋友賺了很多錢，我也可以賺很多錢。當年96、97年民生銀行投資的時候，我被認為最有可能第一

　　柳傳志也以自己的經歷，勉勵創業者保持“專注”：

　　身邊很多朋友賺了很多錢，我也可以賺很多錢。當年96、97年民生銀行投資的時候，我被認為最有可能第一個投資的，但我沒投。據別人替我估算，如果當時投了那 1 億多，現在的回報是 2000 多億，我覺得我不必后悔，身邊不斷有這樣的事兒出現，你說它是好事，它是壞事?這還真不好說，因為我投資賺了這筆錢以后，我也許會想去投房地產、去做別的更多的事，電腦這條路可能做不成，也許到最后什么都可能做不成。

　　李開復談語音識別技術

　　李開復是第二名上場的嘉賓。眾所周知，李開復是著名語音識別技術專家，談到語音識別，當然少不了由他來現身說法。

　　事實上，在訊飛發布會之前，李開復曾在微博上對市面上存在的眾多“中國 Siri”提出四個疑問：

　　1)智能手機主界面是手觸，語音助手解決了什么真正用戶需求和痛處?2)如何克服后臺海量數據學習技術門檻?全球只有一個公司有這個技術。3)應用誰開發?自己開難擴張，用別人的應用整合不佳影響體驗，4)語音服務器和帶寬成本較大，如何克服?

　　今天發布會結束后，李開復更新微博：“訊飛語點推出后，2、4由訊飛解決了”。

　　事實上，在之前科大訊飛向愛范兒提供的獨家稿件中，訊飛一一回答了四個問題，3 月 22 日發布會用實際產品進行了回應。詳細內容見文末引用部分。

　　李開復的“爐邊談話”提供了很多“專家式”的內容。簡單整理成問答形式如下。

　　問：我們看到訊飛語音識別的技術已經非常成熟，那么你認為“應用”的空間在哪里，未來語音識別技術還有什么挑戰?

　　李開復：云端識別技術，訊飛已經解決了。“應用”在哪里?這并不是一些專家在實驗室里拍腦袋就能想到的。大家可以來試，可以在訊飛的云平臺上試一試，可能成功的會比較少，但能夠摸索到成功的應用的概率也會增加。

　　語音技術方面，主要挑戰還有三方面：

　　一、語音識別相對容易，但語義理解相對困難。讓軟件聽懂容易，但理解會比較難。

　　二、如果能在一定程度上做到語義理解，那么怎么樣讓開發者介入不用太花時間?

　　三、用戶體驗的期望值。語音是人類最自然交流的方式——與多點觸摸不同，一旦人們開始使用語音交互，會有比較大的心理預期：我愛怎么說就怎么說，你應該能理解，這是一個比較長久的挑戰。這中間，應該有巧妙方式來降低這種感受。

　　問：語音技術里面，是不是使用的人越多，語音技術也會愈加成熟?

　　李開復：當然了，更多人參與，獲得更多自動回饋，可以實現一個良性的正向循環方。一個人能力有限，一億用戶，每人使用 3 秒鐘，就是 3 億秒，這個數據量是龐大的。實際應用中，正確的輸入可以被視作是“一次正確訓練和學習”，吸收改進;一個錯誤的結果，比如訂餐時識別錯誤取消訂單，可以視作“不正確的學習”，同樣吸收改進。

　　但這個比“聽寫”更困難：錯了，是語音錯了還是語義錯了，或者其中一個正確、一個錯誤;對了，是語音對了語義對了，或者其中一個正確、一個錯誤。當回饋量大于累計量和使用量，可以讓我們邁出一大步。

　　問：什么樣的語音應用是用戶期待和接受的?

　　李開復：我認為有三個方向。1，相對是語音識別，而非深度語義理解的應用，或者說“淺語義，深語音”。比如聽寫(Demo 中有提到教育領域的聽寫測試、KTV 評分、發短信、日程提醒)，——輸入法也很重要，這個比較保險。

　　2，娛樂性應用，比如 Siri 這樣的調侃調戲類應用。這種識別錯了也無傷大雅，很愛使用。蘋果很聰明，用調侃 Siri 錄了很多語音，然后慢慢把真正的應用做好。

　　3，在一些“眼忙手忙”的場景，這個時候語音需求就會很大，比如駕車的時候，這時候是不能多點觸控的，這算一個“剛性需求”的場所。

　　在這里我建議開發者：想把語音放進來的時候，不是那么容易，因為語音的 API 和語音的用戶體驗，比一般的 API 要難很多，比如百科全書類、地圖、本地商家，O2O，線上模式拉來線下消費，因為有語義部分在里面，要花很多時間去把它調好，不能用簡單的 API 隨便聯接起來。

　　附：科大訊飛對李開復“中國 Siri 路在何方”的回應稿件

　　第一，語音助手能夠解決什么真正的用戶需求?

　　大多數人提到 Siri，第一印象就是調戲 Siri，但如果一個產品只是用來“調戲”，那這個產品充其量只能算是玩具，而不是人們所必須使用的語音助手。所以，Siri 的定位應該是解決用戶的真正需求和痛處。

　　可惜，目前 Siri 的模仿者大多視這個需求而不見，而是關注如何才能更好的“調戲”用戶。相信只有真正做到解決用戶需求的產品，才能夠獲得用戶長久的喜愛，希望國內的開發者能夠注意這個問題。

　　Siri 想要實用，就必須調用開放數據的平臺，而中國卻沒有 Wolfram Alpha 這種引擎，所以中文 Siri 想要真正解決用戶需求，只能一家一家去談，比如找大眾點評、百科等。這是創業公司做不來的，而大公司(百度、騰訊等)來做，可能又存在利益沖突。

　　第二，如何克服后臺海量數據學習技術門檻?

　　雖然李開復老師說全球只有一個公司有這個技術，而我們也不知道這個公司具體是指哪一個。但據我了解，在語音識別方面，科大訊飛是做的不錯的，訊飛語音輸入法的識別率已經達到 85% 以上。而且他們的語音識別是基于云計算實現的，應該是具備數據學習能力的。

　　除了語音識別，還有一個難題是語義理解，這也是中文 Siri 的核心難題。讓機器真正理解人的語言，這是一件很困難的事。就目前來看，蘋果在英文方面都沒有很好解決，不然也不會有用戶要告蘋果虛假宣傳了。但蘋果可以依靠“調戲”用戶獲得大量語料，然后學習后提升可用度。

原文轉自：http://www.kjueaiud.com

軟件測試 > 軟件測試新聞 > IT新聞 >