close

AlphaGo2.0挑戰柯潔 花式「虐狗」隻是AI商用前奏

原標題:AlphaGo2.0挑戰柯潔 花式「虐狗」隻是AI商用前奏





當李開復博士召喚母校卡內基梅隆大學(Carnegie Mellon University)開發的德撲人工智能程序冷撲大師(Libratus),與“中國龍之隊”對抗結束,宣佈人類零勝慘敗79萬分時。“老東傢”Google在4月10日同一天,選擇北京天壇附近的中國棋院與中國圍棋協會、浙江體育局正式宣佈——AlphaGo2.0來中國瞭,與它有關的中國烏鎮?圍棋峰會將在5月23日-27日在烏鎮舉行。

發佈會明確瞭AlphaGo2.0與圍棋現排名世界第一的柯潔九段進行三番賽對弈(此前都是五番賽),這一從去年夏天就“被謠言”的消息,終於在各方的期待中變為瞭現實。



AI進化者:AlphaGo、Master、AlphaGo2.0

和“機器人圈”類似的人工智能(AI)和機器人領域的從業者,都對2016年3月李世石與AlphaGo的對決印象深刻。這場“人機大戰”讓AI從幕後走向瞭臺前,幾乎每一位地球人都意識到瞭AI的發展已經走進瞭日常生活,未來,還將顛覆我們的生活。

追根溯源,AlphaGo是一款由Google旗下DeepMind團隊研發的圍棋人工智能程序。“破解智能,用它來讓世界變得更好”是打開DeepMind官網後,清晰可見的口號,DeepMind公司早在2014年就以4億英鎊的價格被谷歌收購,今時今日仍是Google截至目前在歐洲地區的最大收購案。而在Google之前,包括特斯拉創始人馬斯克、Facebook創始人紮克伯格在內的許多矽谷大佬們也都曾向DeepMind拋出過橄欖枝。



人工智能程序AlphaGo首次被大眾熟知是在2015年,因其在沒有讓子的前提下以5:0擊敗中國旅歐職業棋手、歐洲冠軍樊麾。

隨後,AlphaGo以4:1戰勝世界圍棋名將李世石,這場被稱為全球頂級“人機大戰”的對抗中,AlphaGo的實力首次被世人真正認可。

但是,圍棋界人士也表示,李世石心態上準備不足,在比賽中未必發揮出真實的最高水準。

DeepMind創始人Demis Hassabis在賽後也表達,希望AlphaGo能與中國的高水平棋手對弈,比如柯潔。但因為種種原因頂尖對決被推遲,這才有瞭文章前Demis Hassabis的辟謠。

AlphaGo在未能“華山論劍”的時間裡,江湖還是有它的各種傳說,比如“化身” Master標註為韓國九段,在圍棋網站弈城與野狐上不斷發起挑戰,先後擊敗瞭包括世界冠軍常昊、時越、羋昱廷、唐韋星、古力在內的諸多好手,以及“韓國第一人”樸廷桓與“日本第一人”井山裕太都敗北。世界排名第一的柯潔也在與Master的對抗中敗下陣來。直到最後,Master宣佈自己就是AlphaGo,而代為執子的就是AlphaGo團隊的黃士傑博士!

在結束瞭Master的測試後,DeepMind團隊於在1月下旬宣佈推出新版“AlphaGo”,也就是這次來中國的AlphaGo 2.0。這一版本的升級亮點是——摒棄人類棋譜,即僅通過監督學習和強化學習,再度進化出新的“圍棋機器人”。

柯潔將遭遇一個全新的、更強大的對手。



AlphaGo是來自“未來的人”。我會盡我全力去對決。我站在瞭歷史變革的節點,不會說:輸瞭無所謂。不管它有多強大,我都不會言敗。——柯潔說

AlphaGo為什麼能不斷贏?

AlphaGo下圍棋的原理和人類有相似之處,一是判斷局部,二是把握全局。DeepMind在Nature雜志上發表過一篇論文,有過比較細節的介紹。

AlphaGo總體上由兩個不同功能的“大腦”即深度神經網絡組成:策略網絡(Policy network)和價值網絡(Value network)。

對弈中,AlphaGo的兩個“大腦”協同工作。策略網絡將棋盤上的局勢作為輸入信息,並對所有可行的落子位置生成一個概率分佈。然後,訓練出一個價值網絡,對自我對弈進行預測,淘汰掉不值得深入計算的走法,協助前者提高運算效率,可以理解為棋局評估器。然後,AlphaGo將這兩個“大腦”整合進行基於概率的蒙特卡羅樹搜索(MCTS)中,做出最終的決定。

當然兩個大腦能如此靈活配合,最重要的原因是,數據的累積,即不斷的對戰下棋,與高手對決、與“自己”下棋。Nature雜志曾經評價:“人類在下棋時有一個劣勢,在長時間比賽後,他們會犯錯,但機器不會。而且人類或許一年能玩1000局,但機器一天就能玩100萬局。”也就是說,與人類棋手對決的AlphaGo是人類以往所有棋手“經驗”的總和再加上機器與機器對決經驗的總和。

但是,AlphaGo就不不會輸嗎?並不竟然,從原理上來說,在大數據時代,更加復雜且更加強大的深度學習模型能深刻揭示海量數據裡所承載的復雜而豐富的信息,並對未來或未知事件做更精準的預測。但是,深度學習也有瓶頸——延遲反饋的問題。

所以AlphaGo下圍棋也不是深度學習包下所有的,它還有強化學習的一部分,反饋是直到最後那一步才知道你的輸贏。還有很多其他的學習任務都不一定是深度學習才能來完成的。

AlphaGo下圍棋背後的DeepMind 方法其實就是深度學習和強化學習混合體,被稱為“深度強化學公家機關水肥清運習(deep reinforcement learning)”。簡單來說,在這之中,深度學習是主體,強化學習各軍營單位抽肥解決瞭延時反饋的問題。

那麼此次,“百尺竿頭更進一步”的AlphaGo2.0還會繼續贏柯潔嗎?似乎結果並不重要,而是……過程,比如究竟柯潔所代表的的人類頂級水平,在面對新版AlphaGo通過大量自我對弈棋局產生的經驗時會怎樣?柯潔的體會如何?有哪些精彩瞬間。

不過值得一提的是,這次AlphaGo來華比賽的趣味性更大,不僅有與柯潔的三番賽對弈,更有配對賽和團隊賽,所謂配對賽就是兩位棋手分別與AlphaGo組隊,然後互搏;團隊賽則是由五位中國頂尖棋手合作,組成“棋手大腦團”,共同對戰AlphaGo。

下圍棋就是AlphaGo的訓練目的嗎?

深度強化學習的應用其實很廣,下棋是一個重要的場景,另外,在機器人的路徑規劃和任務完成上也應用瞭強化學習。除瞭這些之外,強化學習的應用面還有很多,可以用在很多反饋上,但這個反饋並不一定是馬上可以得到的,比如醫療領域,對藥品和醫療方案的反饋,就是一個很好的例子。這是目前工業界最流行的觀點,也是此前“機器人圈”采訪第四范式等公司時獲得的信息。

其實,在發起瞭一系列與圍棋世界大師的對決,收獲瞭“史上最強機器人圍棋選手”美譽的同時,DeepMind並沒有閑著,此前已經有消息說,目前DeepMind正在與英國NHS(國傢醫療服務體系)進行合作,並已經成立瞭“DeepMind健康”項目,並希望通過技術手段,幫助有意向參與的醫護人員提高服務質量。或許在圍棋選手後,DeepMind的下一個創造就是“機器人醫生”。從下棋到醫療,未來人工智能還將在教育、金融、安防等諸多領域產生商業價值。

英國著名詩人亞歷山大?波普曾經寫過一首贊美牛頓的詩:“自然和自然界的規律,隱藏在黑暗裡。上帝說:讓牛頓去吧!於是,一切成為光明。”

牛頓來瞭,利用模型歸納總結過去記錄的現象,發展出瞭理論科學。

DeepMind出現瞭,隨著數據量的高速增長,人工智能可以分析總結、自我學習,機器人與AI將改變一切。



對於AlphaGo2.0與柯潔一戰,你有何觀點,樓下這些隊,你站哪裡?

圍觀網友:

無所謂派~~

知乎ID司空摘星:作為當代頂尖的棋手,看到史上最強的圍棋機器,想和它下幾局棋不是很正常的一件事麼?我覺得這和什麼人類尊嚴關系不大,柯潔就是單純地想要下棋而已,畢竟柯潔可能是最後一個和阿法狗下棋的人瞭,和這樣的高手切磋的機會以後也不多瞭

廣告狗派~~

知乎ID凝墨灑淚霧灑南殿:這場比賽的意義並不如李世乭那場。雖然柯潔對李世乭戰績這一點穩穩壓著對手,但他們倆終究還是一個層次的選手。所以這場對決無非是讓AlphaGo再玩一次罷瞭。它的意義更在於谷歌對中國市場的需求,讓這場比賽為自己在中國做一個更大的廣告而已。至於對科技,人類的影響……對李世乭那場已經把該影響的都影響完瞭。

進化論派~~

知乎ID劉知遠:唯一的意義也許就是讓我們看到AlphaGo的進步能有多快多大。

棋手獲益派~~

知乎ID張珺:AlphaGo與柯潔的比賽必然會第一時間成為棋手們的學習或參考模板,但至於能否促進棋界整體水平提升就很難瞭解。如果通過與AlphaGo的比賽,能讓棋手們知道自己和「理論最強」還差多少,那影響就非常大,因為這樣的話一個穩定版本的AlphaGo足以成為衡量棋手實力的標桿。

來源:機器人圈返回搜狐,查看更多

責任編輯:

聲明:本文由入駐搜狐號的作者撰寫,除搜狐官方賬號外,觀點僅代表作者本人,不代表搜狐立場。

閱讀 ()

台中通馬桶價錢

台灣電動床工廠 電動床

台灣電動床工廠 電動床

AUGI SPORTS|重機車靴|重機車靴推薦|重機專用車靴|重機防摔鞋|重機防摔鞋推薦|重機防摔鞋

AUGI SPORTS|augisports|racing boots|urban boots|motorcycle boots

arrow
arrow

    rft559pz13 發表在 痞客邦 留言(0) 人氣()