強者更強,掌握了人工智慧和巨量數據的科技巨頭將讓初創公司難以立足
文章推薦指數: 80 %
新的一周,谷歌(Google)又公開了一項創紀錄的新人工智慧研究。
這一次,研究的成果向我們提示了當前人工智慧繁榮下的一項重要業務動態。
傳統上人們認為,消費者和社會經濟日益倚重的科技公司生態系統通過顛覆來保持創新、杜絕壟斷,小公司也正是憑藉這種顛覆過程打敗大企業。
然而,一旦科技行業的競爭成敗繫於由巨量數據驅動的機器學習系統,打敗一家科技巨頭可能要比以往任何時候都更困難。
谷歌在周一發布了新論文的預印版本,其中描述了該公司跟卡內基梅隆大學(Carnegie Mellon
University,以下簡稱CMU)成本高昂的合作項目。
他們的圖像識別實驗在整整兩個月里整合了50個強大的圖形處理器,並使用了一個前所未有的龐大圖集,其中包含了3億張經過標記的圖片(圖像識別領域大多數研究工作所使用的標準圖集僅包含100萬張圖片)。
該實驗項目旨在測試,能否通過向算法饋入更多的數據來使其得出更準確的圖像識別結果,而不是對現有的算法設計進行調整。
答案是:可以。
在谷歌和CMU的研究人員使用規模龐大的新數據集對一套標準的圖像處理系統進行訓練之後,他們稱,系統在數項標準測試中得到了新的高分——這些測試旨在評估軟體解讀圖像的能力,比如識別照片中的對象。
研究人員饋入的數據量跟圖像識別算法的準確性之間存在著明確的關聯。
這些發現在某種程度上解答了一個在人工智慧學界流傳的問題,即我們能否僅僅通過向現有算法饋入更多的數據來獲得更強大的性能。
該研究揭示,即便本身就具備極大的規模,更多的數據也還是會帶來更強大的性能表現。
這表明,成為谷歌、Facebook或微軟(Microsoft)那樣掌握大量數據的公司,其好處遠遠超過我們此前的設想。
圖像處理系統基於谷歌包含3億張圖片的巨大數據集進行學習,這並未產生巨大的好處——從100萬張圖片到3億張圖片,系統識別對象能力的得分僅僅提升了3個百分點——但論文作者表示,他們認為可以通過調整軟體更好地適應超大型數據集來擴大這種優勢。
即便事實證明情況並非如此,但在科技行業當中,很小的優勢也可能造成重要影響。
比如,就自動駕駛汽車視覺技術的準確性來說,每一點增益都是至關重要的;而對一款能夠創收數十億美元的產品而言,小小的效率提升將能產生滾雪球效應。
在聚焦人工智慧的公司當中,囤積數據已經作為一種防禦性戰略相沿成習。
谷歌、微軟以及其他公司已經開源了大量軟體,乃至硬體設計,但卻收緊了對那些能夠讓軟、硬體工具發揮作用的數據的控制。
科技公司確實公開了一些數據:去年,谷歌發布了一個採集自700多萬段YouTube視頻的大型數據集,Salesforce也開放了一個取自維基百科(Wikipedia)的數據集以幫助算法分析語言。
但盧克·德奧利維拉(Luke de
Oliveira)表示——他是人工智慧研發實驗室Manifold的合伙人,同時也是勞倫斯伯克利國家實驗室(Lawrence Berkeley National Lab)的訪問研究員——(如你所想)這些被公開的數據通常不會對潛在競爭對手提供太大的價值。
「它們從來不是那種對一款產品持續市場地位具有重要影響的數據集,」他說道。
谷歌和CMU的研究人員倒是說,他們希望自己關於「巨數據」價值的最新研究成果能夠起到促進作用,催生出谷歌規模的更大開源圖像數據集。
「我們真誠地希望,這項研究能夠啟發計算機視覺技術領域的人士,讓他們不要低估數據的價值,並共同努力來創建規模更大的數據集,」研究人員寫道。
來自CMU的阿比納夫·古普塔(Abhinav Gupta)參與了這項研究,他表示,有一個選項是跟通用視覺數據基金會(Common
Visual Data Foundation)合作,這是一家得到Facebook和微軟支持的非營利機構,曾經發布開源的圖像數據集。
與此同時,在一個擁有更多數據就能讓算法變得更智能的世界中,那些缺少數據的公司如果想要生存下去,就必須要富有創造性。
初創公司DataRobot的執行長傑里米·亞齊(Jeremy
Achin)猜測,隨著機器學習變得對越來越多的公司和行業舉足輕重,一種見於保險行業的模式可能在更大範圍內流行起來,即眾多小保險公司(認真地)把各自數據「拼」到一起,以使其風險預測能夠匹敵那些規模更大的競爭對手。
讓機器學習不再那麼渴求數據,這方面的進步有可能顛覆人工智慧的數據經濟學;優步(Uber)去年就收購了一家從事相關研究的公司。
但現在,後來者仍然有可能試著避開人工智慧巨頭公司慣有的數據優勢。
Fast.ai是一家致力於讓機器學習變得更易於訪問的公司,其聯合創始人蕾切爾·托馬斯(Rachel
Thomas)表示,初創公司可以在通常由網際網路巨頭把持的領域之外找到應用機器學習技術的地方,就比如說農業。
「我不確信這些巨頭公司一定在所有領域占據著優勢,在很多特定領域中,根本沒有人在收集數據,」她如是說。
即便是人工智慧領域的巨頭也有盲點。
翻譯:何無魚
來源:WIRED
造就:劇院式的線下演講平台,發現最有創造力的思想