从码农以及星际爱好者视角看AlphaStar完胜人类职业玩家

by leelight · Published January 25, 2019 · Updated January 25, 2019

1. AlphaStar

北京时间01.24凌晨2:00，DeepMind的伦敦总部，《星际争霸2》游戏人工智能AlphaStar首秀。DeepMind是全球人工智能领军，AlphaGo和AlphaZero的创造者，这里就不多介绍了。星际2作为一款当今世界最复杂的即时战略游戏，含经济运营，兵伐诡道，战争迷雾以及瞬息万变的策略，自2016年起，就被DP当做一个攻克目标。相比之下，围棋棋盘是固定的，双方是摊开了局面战斗；而星际2类似于真实战争，作战双方不知道对方的经济详细情况和所有战略战术—-一句话，战场无法预测，没有套路！

星际2解说 Artosis 与 Rotterda全程解说。首先问了暴雪的游戏总监Tim Morten：“为什么那么热切和DeepMind合作？”

答：“星际2是当今水平最高竞技游戏，也是人工智能研究的里程碑。”

“暴雪作为合作伙伴意味着什么？”

答：“我们团队非常困难地开发了一款特殊版本的星际2，作为工具公开发布，同时也和SP紧密合作。这个特殊版本和普通版不同，但是规则相同，适合SP研究。最大的不同就是，我们在游戏研究中必须大量预先设置比如live surfing，所以我们今天将观看的都是比赛回放录播，你知道，实时比赛必须从选手视角直播。”

Artosis接着问了DP的研究合作领导Oriol Vinyals：“为什么选择星际作为AI研究目标？”

答：“DP的研究任务就是人工智能，所以找一个检验标准很重要，在开展任务之前，用来检验算法和Agent。这是我们研究的第一个电脑游戏，就像围棋那样。但星际和其它游戏相比它最突出的挑战就是，很明显下一步对我们的AI Agent来说，挑战的等级很高，我在这个图里高光标注了。”

首先是“信息类型”不完美，意思是Agent不知道也无法预测人类选手现在在做什么。不像围棋，如果你不是大师，将容易输掉比赛。正如我展示的，这对我们是个很大的挑战。”

Oriol接着说了过去两年DP做了什么样的研究。他们并不是第一个意识到星际是AI中一个重要研究领域的团队，下面图中可以看到过去15年AI发展历程。2003年即时战略游戏RTS就被视作AI研究方向，2009年就有开源机构研究第一版星际Blood War。过去八年取得不少进展，许多团队开发了Bot和Agent玩游戏，并且玩得不错。他也亲自参与了早期的游戏竞赛AIIDE，甚至被要求作为职业玩家和其他Bot对抗，还因此发现了bug。

PS：2015年已有关于星际Bot的论文 StarCraft Bots and Competitions。

AlphaStar早期就公开资源和工具，每个人都能参与。整个团队做了巨大的努力，才开发了能全程完整玩星际的第一个版本。

接下来Rotterda对Oriol的访问，就是今天比赛录像的相关科普了。

比赛都是2018年12月进行的，只有一张1v1地图上：Catalyst LE。神族VS神族。赛制五局三胜。

接着第一个人类玩家Dario Wünsch（TLO ）出场，来自暴雪推荐给DP做合作的职业战队Liquid。他是个德国职业虫族玩家。

TLO说了下他和DP合作的起因，并和Oriol讨论过如何让比赛公平。Rotterda也问了我们观众要问的：“作为虫族玩家，比赛中用神族什么感觉？”

答：“我做了大量的赛前准备，玩了100多场神族，不算专业级别，但在星际天梯赛里也算Top 1%水平了。”

今天将播放TLO和AlphaStar之间五场比赛中的两场，人类捍卫尊严的比赛回放正式开始！

2. TLO vs AlphaStar

2-1. 第一场

作为星际爱好者，我看不出AI开局和人类玩家有什么不同：造水晶，建筑，probe探路，侦查敌情，前期小骚扰。前五分钟，双方资源人口以及兵力相差不大，AI略为优势。

第五分钟开始，AI开始追猎正面压制TLO的第二基地，双方互秀了一波微操作。但AI的造兵能力这时开始显现，第六分钟兵力已是TLO近乎三倍(28:10)。AI持续优势兵力压制，TLO开始拉上probe抵抗，开局7:06时，TLO打出了gg。

解说员惊诧了，请出DP的研究合作领导David Silver，他说DP是经过几个月研究后才第一次打败人类职业选手。TLO吐槽自己都不知怎么回事，但作为神族的确犯了一些错误。但即使第一场失败，他当时还是非常自信能赢下一场。

2-2. APM

解说员 Artosis开始询问APM（Action Per Minute），玩家操作手速–这也是观众的的疑问，万一比赛规则不对等怎么办，毕竟电脑的APM可以每秒无上限啊。David 解释，他们做了公平性处理，让AI模拟人类玩家手速。从下图可以看出，AI的APM中数平均值是低于人类选手的。况且星际并不是靠手速获胜的，而是靠策略。

有的观众抓图说AI的APM有时远超人类，比如下图。

但我仔细看了回放，战斗时双方APM几乎是持平的，而且人类也会高于AI，这一块是相对公平的。

2-3. AI游戏视角(战争迷雾)

David 接着解释AI是以什么样的视角来玩游戏的，并不是我们想的地图全开的模式。类似于上帝视角模式，AI会鸟瞰整个地图，但它的所有视觉只限于它的移动单位所能看到的当前视野的合集，其它地区还是被战争迷雾所覆盖。

人类玩家在操作单位并展现其可视区域时，会做其它的区域点击操作，比如资源掌控，兵力生产时会移动玩家的可视区域。DP分析了这些，模拟了人类这些视觉切换操作，最终设置了AI现有的APM。

Oriol说AI不关心当下发生了什么，不像人类有输赢的概念以及心情变化，所以五场比赛对AI来说都是独立的。TLO接着说了他第二场比赛失利的过程，他采取的防御式打法未能奏效。

2-4. 第三场

这局TLO坚持到了中前期间，比赛中AI用裂光球神乎其神，几乎弹无虚发，非常有效地大量杀伤了TLO的部队。双方在路口拉锯式作战，AI的操作非常强，稍有劣势就后撤，稍有优势就压制，经常有神操作出现。TLO也采取了空投骚扰，小股部队潜入等战术，对战局未产生影响。AI的总人口，资源，兵力，始终都是压制TLO的，14分钟是，AI的兵力几乎是TLO的两倍，胜利天平很明显倾向AI。两分钟后TLO打出gg。

3. AlphaStar League

DP是如何训练AI的，David 做了解释。DP称此训练过程为AlphaStar联赛，第一步，学习数据来自人类在星际联赛里的比赛数据。用神经网络学习这些数据，然后每一个子状况，新的Agent会fork它，包括之前的Agent，加入到AlphaStar联赛内。

联赛之间的Agent再互相PK，学习。

这样神经网络就会持续升级。

神经网络升级到最终选出某个阶段，某个策略可以打败其它所有策略。

神经网络继续升级。

过程中加上额外配置Personal Learning Ojbect 个人学习模块，比如某些特殊的操作，生产某些特殊兵种，最终学习得出最优策略。

最后产生五个Agent用于比赛，TLO等于是在和五个不同的顶级选手在打比赛。

AlphaStar学习了大量人类选手各类奇特打法，比如农民快攻，炮台快攻。每场比赛的Agent都是预先设置好的，不会随着比赛动态适应并变化。相当于一个人在一场比赛中用固定战术在和TLO打。AlphaStar总共花了七天学习人类联赛，第一阶段学了三天，学习的是联赛白金选手的比赛。这七天的学习数据量，相当于人类学习200年！

4. MaNa vs AlphaStar

Oriol分享了DP开发团队的对此站胜利喜悦，他表示团队在短暂庆祝之后将再接再厉。接着顶级玩家MaNa上场，波兰人，真正的神族玩家。

但作为神族选手，他好像也没有占什么优势，先输了两局（没有播出）。DP团队做了个视觉流程图来解释神经网络激活原理，对原理感兴趣的最好去看这一段原视频解说或者DP科普文。

4-1. 第三局

前期MaNa发展正常，但硬抗AI的兵力压制非常辛苦，双方实力差不多持平。但五分钟后AI的空军出现后，占局就逐渐向AI有利的方向发展了，人类几乎之后被按着在地上摩擦，8:02 MaNa打出gg。

4-2. 第四局

MaNa这局表现得很强势，但是短兵相接时，AI对追猎的微操作太强了，红血的追猎被不停地瞬移到阵型后方，人类很难对AI的部队造成战斗减员。导致AI兵力越来越多，人类兵力越打越少，12:48，人类gg。

不出所料，MaNa也输了之后的最后一局。

至此人类10:0全军覆没。

看到这我有点纠结，从人类玩家角度，非常沮丧，我还不愿相信AI能在星际这种策略无穷的游戏中获胜；但做为程序员，我又很高兴看到AI技术发展的这一个巨大的里程碑。

这时直播中间插播了一段DP开发团队的采访记录，以及日常开发视频，很有热血感染力。

5. 人类挽回一点颜面

直播最后，加赛一场，DP更改了AI的之前的上帝视角模式，改成游戏玩家视角模式。就是说AI模拟Agent“看到”的视觉范围和人类类似，只是面前这个屏幕大小而已。还特别强调了这个技术还未成熟，处于测试阶段（可能意思是就算输了，人类也别高兴）。

MaNa终于在这局为人类挽回了一点颜面，通过大量偷袭一步步占据优势，最终大获全胜。但比赛中明显看出AI在调兵遣将上出现了很大的失误，很可能因为这是测试版？

我和同是星际爱好者的码农朋友讨论了下。

AI的APM设置可以说公平。
AI上帝视角对于顶级玩家来说也不算太大优势，因为他们非常关注左下角鸟瞰地图[下图]和游戏中的声音预警。但也有朋友认为最后一场的AI游戏玩家视角，才算真正公平，因为来回切换视角很费时。
这十盘比赛前期ai都是靠微操作碾压人类，人类由于生理极限不能长期维持亢奋状态，无法撑到发挥人类战略大局观的优势的中后期。
比赛二位选手都是欧洲玩家，与亚洲玩家比，欧洲玩家大多胜在资源掌控和大局观，欧亚对抗赛中欧洲玩家经常后期翻盘。如果换成亚洲玩家，可能第3点上前期AI不占优势。
比赛五局中，人类每局都相当于在和不同的Agent打，这也算公平，毕竟职业玩家都有私藏多种杀手锏，相当于一个人用了五种打法。

6. 赛后

DeepMind创始人，AlphaGo之父Demis Hassabis在推特上发文，满是掩饰不住的骄傲：这是游戏人工智能的一个里程碑，第一个干掉人类顶级选手的系统，这展示了我们的牛逼，我们也测试了新的产品原型：游戏玩家视角接口。谢谢选手MaNa，我们将继续努力。星际是个非常复杂的游戏，我很激动，因为AlphaStar背后的技术可以应用于很多场景，比如天气预报以及天气模型等…….相关论文将很快发布

7. 期待

WCS星际争霸2全球总冠军芬兰选手Serral将于2月15日，为了人类尊严与AlphaStar决战。谁胜谁负，我们拭目以待。

所有比赛录像可以下载：https://deepmind.com/research/alphastar-resources/

关于AlphaStar的研究资料：https://deepmind.com/blog/alphastar-mastering-real-time-strategy-game-starcraft-ii/

Tags: Essay

leelight says:

at 10:11 pm

1-10落败，5分钟崩盘！星际2职业高手史上首次被AI击溃，AlphaStar一战成名
https://wallstreetcn.com/articles/3475788

Reply

Cookie	Duration	Description
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

从码农以及星际爱好者视角看AlphaStar完胜人类职业玩家

You may also like...

1 Response

Leave a Reply Cancel reply

Meta

Categories

从码农以及星际爱好者视角看AlphaStar完胜人类职业玩家

1. AlphaStar

2. TLO vs AlphaStar

2-1. 第一场

2-2. APM

2-3. AI游戏视角(战争迷雾)

2-4. 第三场

3. AlphaStar League

4. MaNa vs AlphaStar

4-1. 第三局

4-2. 第四局

5. 人类挽回一点颜面

6. 赛后

7. 期待

Related posts:

You may also like...

德国有没有互联网产业？

程序员焦虑语言和框架，是因为没掌握核心？

结对编程到底行不行得通

1 Response

Leave a Reply Cancel reply

Meta

Categories