自助网站系统,优设网页设计,哪家电商平台质量最好,网站推广目标关键词是什么意思想起来第一次玩RTS游戏#xff0c;就是框住一大群兵进攻#xff0c;看他们把对面消灭干净……我接触的第一款游戏是《傲世三国》那会儿是小学#xff0c;后来高中接触了魔兽地图编辑器#xff0c;我发现自己喜欢直接看属性而省去争论和试验的步骤——我喜欢能一眼看透的感觉…想起来第一次玩RTS游戏就是框住一大群兵进攻看他们把对面消灭干净……我接触的第一款游戏是《傲世三国》那会儿是小学后来高中接触了魔兽地图编辑器我发现自己喜欢直接看属性而省去争论和试验的步骤——我喜欢能一眼看透的感觉。
这篇博客都是务虚的没啥干货全是不算成熟的想法和思考。
【本篇将以“单位”来统一对实体、兵力、对象、算子等的称呼】
一、策略的描述
研究生的课题是“人机结合的智能体构建方法”于是我回忆起了这些东西但好像真的没认真考虑过什么是策略怎么才能取胜我不喜欢枯燥的练习游戏水平。
我先是用极限法想到是不是即时战略的兵极端抽象后就是下棋那种回合制一种局面仅有固定的策略和解法比如中国象棋的残局
还一个问题涉及博弈论和社会关系计算的我如何制作一个可以模拟这些过程、看到质点如何成为如此策略的平台工具 1.行为建模
1)有限状态机
petri网络和基于有限状态机的规则推理 2)行为树
ROS机器人的操作系统中常常使用行为树 2.驱动方式
这部分我采用魔兽地图编辑器的思路来描述。
魔兽地图编辑器以下简称WE 每个触发分为3个东西【事件、条件、动作】 1)时间驱动
这个是某个仿真引擎中的虚函数它的两个触发条件就是时间和事件。
2)事件驱动
这个是最常用的比如”任意单位被攻击“然后条件是”被攻击的单位拥有技能【反击螺旋】“最后动作是”随机数触发如果触发了选定范围形成单位组对单位组施加伤害被攻击的单位播放旋转动画“。
3)连锁反应的推理驱动
这个也就是经由其他触发器来引发这个触发启动的。 二、游戏和平台的构建
大战略战役战术小队单兵技术……
钢铁雄心、骑马与砍杀大地图与战场的分割指挥下令、魔兽争霸……在不同层面有不同的战斗表现方式但是面面俱到的话玩家不可能学的过来而挫败。
一种战术是如何描述的策略是如何描述和执行的
1.环境交互
研究庙算平台后我对这个平台做出了一些自己粗略的印象编写规则式ai
赋予算子反应行动然后再检查条件再赋予行动。
基础的行动就是我们可以执行的指令行动序列就是要产出的东西。 2.强化学习 智能体Agent 强化学习的本体作为学习者或者决策者。 { 策略Policy策略是从状态到动作的一个映射智能体根据策略来选取动作。 价值函数 Value Function用价值函数来评估当前状态的好坏程度。 模型Model智能体对环境的建模即对环境的动力学进行建模。 {状态转移概率、奖励函数} } 环境 强化学习智能体以外的一切主要由状态集合组成。 状态环境、智能体、信息 一个表示环境的数据状态集则是环境中所有可能的状态。 动作 智能体可以做出的动作动作集则是智能体可以做出的所有动作。 奖励 智能体在执行一个动作后获得的正/负反馈信号奖励集则是智能体可以获得的所有反馈信息。 目标 智能体自动寻找在连续时间序列里的最优策略而最优策略通常指最大化长期累积奖励。 因此强化学习实际上是智能体在与环境进行交互的过程中学会最佳决策序列。 序列决策 按时间顺序进行一系列决策是一种动态的决策方式可用于随机性或不确定性动态系统最优化。 马尔可夫决策问题就属于序列决策问题。 另起一个智能体分类 1、根据智能体的学习内容我们可以把智能体分为如下三类 基于策略policy based的智能体 直接学习策略不需要学习价值函数。基于价值value based的智能体 学习价值函数通过价值函数隐式地得到策略。演员-评论家Actor Critic的智能体 是基于策略和基于价值的结合既学习策略也学习价值函数。 2、根据智能体是否需要对环境动力学进行建模可以把智能体分为如下两类 基于模型model based的智能体 通过对环境进行建模以此来学习策略或价值函数。不于模型model free的智能体 不需要对环境建模通过学习价值函数和策略函数进行决策。 第一讲 强化学习介绍 - 知乎 (zhihu.com) 3.炼丹深度学习拟合
对于可以清楚描述的数学问题不需要炼丹对于尚不清楚的只能炼丹让ai帮我们试。 三、从玩家角度入手
我想到了如下几个东西。
1.术语 快攻牺牲经济和科技的发展尽可能在初期就全力建造部队击败对手为了加快速度经常需要把产兵建筑偷偷造在对手的基地附近还可以派出部分甚至所有农民来协助进攻。Timing一波预测对手的兵力薄弱期通过固定的运营策略在这些时间点集结出尽可能强大的兵力发动总攻并且往往伴随着关键科技的恰巧升级完成。压制派出部队前压占对手的一些便宜或者把对手压在家里无法开矿而自己则趁机扩张。骚扰派出高机动单位、空中单位或者运输局运载部队尽量避开敌方主力而去击杀对方的农民从而打击他的经济。控图处于均势时在战线上四处游走进行充分的侦查了解敌方主力位置和构成等待时机进攻或者骚扰。偷经济认为敌方不会细致侦查时偷偷在较远的位置开出分矿铤而走险来获得经济优势。偷科技牺牲兵力或者经济从而提早研发关键科技来获得进攻Timing的提前大后期前中期侧重于防守和扩张并构筑大量防守建筑来稳定战线最终在良好的经济和科技支撑下造出大量高级部队来蚕食消灭对手。这样一局比赛往往要很久比如“城市化”战术甚至有打过7个多小时的...换家在正面对抗能力不如对手时充分发挥游击战的思想避开敌方部队的锋芒在对方进攻时绕到他家中进行互拆这个战术最能体现出星际2的复杂性和选手的应变能力。 以上战术的术语来自AlphaStar的游戏——星际争霸2 AI综述_星际 op ai-CSDN博客 2.熟练的玩家
打王者荣耀多了就会发现即使是moba也可以看成是“回合制”由于对英雄的操控已经十分熟悉影响较大的因素除非超常的反应是技能cd和自己在打团时的位置了。抛开发育和补兵之类的只聚焦于团战那就是一个策略游戏了。
除此之外我看到一篇sky对魔兽争霸3的评价在熟悉游戏后只要游戏没有更新打法和策略都会趋向于固定的几种。这个就很像我理解中的机器学习搜索出的博弈论中的纳什均衡。 3.boss怪的套路、脚本外挂
想到这个是因为想起了《只狼》这种游戏的boss一般都是有固定套路的boss只要能动起来别太机制就行。
星际争霸2因为谷歌的DeepMind与暴雪开源了人工智能研究环境of星际争霸2这样才诞生出的第一个战胜职业玩家的AI——AlphaStar。 PySC2 GitHub 链接 暴雪星际争霸 API 我想搞点事情但是没找到合适的开源项目我的想法是【如果改变了属性和游戏规则比如虽然都是黑白棋但是”围棋“和”五子棋“规则下训练出的AI一定不一样】
嗯……我觉得我可以试着单独做一个rts游戏交互层和显示层分离专门提供给机器学习自定义技能和行为组合以及自驱动的智能体单位 但是策略加入多了就变成了slg游戏如何做好过渡……又是一个问题。 四、如何让玩家更好的操控局面
有一个基础想法作为公理:身经百战的高排名大神玩家的总结一定是有价值的因为事实证明小白玩家是打不过大神玩家的。人肉机器学习 1.把人嵌入到过程中
我先想到的还是“下令”这是最基础的想法编写程序从汇编写到最后也就到了一个函数执行、命令行执行脚本的状态。我有理由相信这就是人机交互的最稳固形式。
从游戏来说骑马与砍杀中就有梗“f1f3”就是下令“全体士兵冲锋”。在古代战争电影中也是将帅下令来进行战争活动。
把人带入过程这么想来回合制是最方便的方式。但是由于实际的反应速度和局面信息差而不可能是真正的回合制只能接近于这种“理想状态”。 2.行动的构建
从基础的行动单元移动、攻击到一些基础指令的组合扩展走A再到复杂的技能操作组成的连招比如魔兽世界的宏——这些是计策之外的东西。 计策回到最开始就是一个残局的求解。从残局逆推以我的粗略见解一整局的斗争行为无非是扩充了局面的形成过程以及其中的博弈行为。涉及了很多东西发育-出装-技巧-团战等。 五、游戏之外
科技是第一生产力降本增效靠的不是单纯的压榨人加班应该是优化人力结构安排对的人到对的事的这种小幅提升以及根本的基础实现方式置换反应制铝变成电解反应、电子管到晶体管的大幅度突破。
这些东西怎么从游戏这个模拟的世界的镜子来让我们自己看清楚当下最该做什么呢