AlphaZero

Зьвесткі зь Вікіпэдыі — вольнай энцыкляпэдыі
Гэта састарэлая вэрсія гэтай старонкі, захаваная ўдзельнікам Taravyvan Adijene (гутаркі | унёсак) у 18:53, 3 студзеня 2018. Яна можа істотна адрозьнівацца ад цяперашняй вэрсіі.
(розьн) ← Папярэдняя вэрсія | Цяперашняя вэрсія (розьн) | Наступная вэрсія → (розьн)

«AlphaZero» — кампутарная праграма распрацоўкі кампаніі «DeepMind» (ва ўласнасьці Google), наступнік альгарытму «AlphaGo Zero». У адрозьненьне ад апошняй, распрацаваная з магчымасьцю гульні ня толькі ў го, але таксама ў шахі й сёгі.

5 сьнежня 2017 року «DeepMind» выпусьціў праграму «AlphaZero», якая на працягу наступных 24 гадзінаў прааналізавала правілы ўсіх трох гульняў і перамагла ўсе кампутарныя праграмы-чэмпіёны: Stockfish (шахі), elmo (сёгі) і 3-хдзённую вэрсію праграмы AlphaGo Zero (го). Дзеля трэніроўкі «AlphaZero» карысталася «саманавучаньнем» з дапамогай 5000 TPU першага пакаленьня і навучаньнем нэўронных сетак з дапамогай 64-х TPU другога пакаленьня, пры гэтым ня маючы доступу да дэбютных ці эндшпільных кнігаў.

Матч паміж «AlphaZero» і «Stockfish 8» са 100 гульняў скончыўся на карысьць першай з вынікам 28 перамогаў, 0 паразаў і 72 нічыі. У адрозьненьне ад «Stockfish» і «elmo», якія за сэкунду знаходзяць 70 мільёнаў і 35 мільёнаў пазыцыяў адпаведна, «AlphaZero» шукае ўсяго 80 000 пазыцыяў, кампэнсуючы гэта глыбінёй нэўроннай сеткі, каб абраць найбольш аптымальныя варыянты.

У матчы ў сёгі супраць «elmo» «AlphaZero» перамог у 90 партыях са ста, прайграў 8 разоў і двойчы згуляў унічыю. У гульні з «AlphaGo Zero» у го «AlphaZero» перамог у 60 партыях і прайграў у 40.

Крыніцы

Вонкавыя спасылкі