云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

网站空间_进击的巨人第二季百度云_9元

小七 141 0

数据库管理_怎么选_人工智能是干嘛的

随着深度强化学习成为实现AGI(又名人工通用智能)的最热门策略之一,越来越多的库被开发出来。但是根据你的需要选择最好的可能是一项艰巨的任务。近年来,我们看到了深度强化学习的创新加速。例如,2016年用AlphaGo击败围棋冠军,2017年击败OpenAI和PPO,2018年凭借UberAI GoExplore和OpenAI RND重新崛起好奇心驱动的学习代理,以及最终击败世界上最好的Dota玩家的OpenAI Five。因此,许多深度强化学习型图书馆被开发出来,云服务器好用吗,很难选出最好的图书馆。在Dataiku,我们在探索深度强化学习在推荐系统中的应用时遇到了这个问题。因此,我们需要对不同的库进行基准测试以比较它们,并希望分享我们的排名。 标准为了选择库,我们定义了一些我们认为最重要的标准:实现了最先进的RL算法良好的文档/教程和示例在你自己的环境中工作易于修改的易读代码定期更新和活跃的社区支撑张力板其他特征的存在(例如矢量化环境)矢量化环境是一种进行多进程训练的方法;我们不是在一个环境中训练我们的代理,而是在n个环境中训练它(因为通过使用更多的并行环境,我们允许我们的代理比在一个环境中经历更多的情况)。在本文的第一部分,我们将基于这些标准分析每个库。然后,淘客基地,在第二部分中,我们将构建一个简单的代理,它可以使用两个最好的库来学习行走。KerasRL(2.3/5)KerasRL是一个用Keras建造的深层加固库。最先进的RL方法✅ ✅ ❌ ❌ ❌深度Q学习(DQN)及其改进(决斗,双)确定性梯度策略(DDPG)连续DQN(CDQN或NAF)交叉熵法深莎莎缺少两个重要的因素:参与者批评方法(如A2C和A3C)和最近策略优化。易于启动✅ ✅ ✅ ✅ ❌代码中充满了注释,可以帮助您理解甚至是最晦涩的函数。将numpy作为np导入进口健身房从keras.型号顺序导入从沥青层导入致密、活化、压平从keras.优化器导入Adam从注册代理人.dqn导入DQNAgent从rl.政策导入BoltzmannQPolicy从rl.存储器导入顺序内存环境名称='CartPole-v0'#获取环境并提取操作数。环境=健身房。品牌(环境名称)np.随机.种子(123个)环境种子(123个)nb_动作=环境行动空间.n#接下来,我们构建一个非常简单的模型。模型=顺序()模型.add(展平(输入形状=(1,比购返利,)+环境观测空间.形状)模型.add(密实(16))模型.add(激活("relu")模型.add(密实(16))模型.add(激活("relu")模型.add(密实(16))模型.add(激活("relu")模型.add(密集(nb_作用)模型.add(激活("线性")打印(模型.摘要())#最后,我们配置和编译我们的代理。您可以使用每个内置的Keras优化器和#甚至是指标!内存=顺序内存(限制=50000,窗口长度=1)策略=BoltzmannQPolicy()dqn=DQNAgent(模型=模型,nb_actions=nb_actions,memory=memory,nb_steps_warmup=10,目标_model_update=1e-2,policy=policy)编译(Adam(lr=1e-3),指标=['mae'])#好吧,企业内部软件,现在是时候学点东西了!我们把这里的训练想象成表演,但是#训练速度慢了很多。您可以使用#Ctrl+C。dqn.配合(env,nb_steps=50000,visualize=True,verbose=2)#训练结束后,我们节省最后的重量。保存重量('dqn{{}}uweights.h5f'。格式(环境名称),overwrite=True)#最后,评估我们的算法5集。dqn.试验(env,nb_集=5,visualize=True)查看原始文章\u benchmark1.py托管❤ 通过GitHub代码非常容易阅读,并且演示了代理、策略和内存之间的良好分离。有文件,但仍不完整。缺少对每个可定义参数的解释。轻松插入您自己的环境✅ ❌ ❌ ❌ ❌图书馆不是为不可知论者设计的。因此,如果要使用自己的环境,则需要修改代理。易于修改代理✅ ✅ ✅ ✅ ✅非常简单;您只需在另一个实现之后创建一个新代理,然后将其添加到rl.代理.社区和更新✅ ❌ ❌ ❌ ❌代码似乎不再被维护了(上一次更新是4个月前,还有很多等待的PR)。张力板支架❌ ❌ ❌ ❌ ❌Tensorboard支持未实现。其他特性✅ ✅ ✅ ❌ ❌包括一个矢量化环境系统。KerasRL共识:由于一组非常好的实现,它本可以成为Keras最好的RL库。不幸的是,由于缺少更新、新的体系结构和可视化工具,您肯定应该使用另一个库。张力计(4.1/5) Tensorforce是一个基于Tensorflow的深度强化学习框架。它是一个基于组件的模块化设计库,可用于研究和工业应用。由于RL算法和应用程序的分离(从而使其不受输入和输出结构类型的影响,并且与应用程序环境交互),该库有很大的潜力成为最好的RL库之一。但由于他们目前正在进行重大改造,我们需要拭目以待。最先进的RL方法✅ ✅ ✅ ✅ ❌深度Q学习(DQN)及其改进(决斗,双)普通政策梯度(PG)连续DQN(CDQN或NAF)演员评论家(A2C,A3C)信任域策略优化(TRPO)最近策略优化(PPO)此库缺少软角色批评家实现(SAC)易于启动✅ ✅ ✅ ❌ ❌很容易开始使用简单的例子。有文档,但不完整,大多数算法都没有详细说明。易于插入到您自己的环境中✅ ✅ ✅ ✅ ✅Tensorforce提供文档帮助您插入自己的环境。许多环境已经存在(OpenAI gym、OpenAI retro、DeepMind Lab等)。易于理解和修改代码✅ ✅ ✅ ✅ ❌由于模块化设计,体系结构的每个部分都是不同的(网络、模型、流道等)。您也可以通过修改网络规范轻松修改网络。但是,代码缺少注释。社区和更新✅ ✅ ✅ ❌ ❌目前,该团队正在对框架进行重大修订(非稳定)。有一个很好的社区(2303位明星和47位投稿人)张力板支架✅ ✅ ✅ ✅ ✅实现了Tensorboard支持。OpenAI基线(2.2/5) OpenAI基线包含了一个使用Tensorflow的RL代理的最佳实现之一。但是由于缺少文档或注释代码,修改代理或添加我们自己的环境的困难,我们决定不使用此版本。我们后来发现有一个更好的分支叫做稳定基线。OpenAI基线是一个非常强大的库,但是不能满足您自己的需要。如果你想用OpenAI gym复古环境快速测试,它更像一个完美的黑盒子。最先进的RL方法✅ ✅ ✅ ✅ ❌A2C级宏碁阿克特DDPG公司DQN公司盖尔她多酚氧化酶TRPO公司OpenAI基线不包含其最新的创新,例如RND(随机网络蒸馏)代理。易于启动✅ ✅ ❌ ❌ ❌首先,使用python命令和helper来定义我们可以指定的所有参数。python-m基线.运行-alg=ppo2-env=BipedalWalker-v2-num_-timesteps=2500-num_-env=1-save_-path=./models/BipedalWalker-保存视频间隔=100但是,由于缺少文档,开始可能会很棘手。轻松插入您自己的环境✅ ❌ ❌ ❌ ❌由于缺少文档,折扣返利,实现您自己的环境可能非常具有挑战性。易于理解和修改代码✅ ❌ ❌ ❌ ❌由于缺乏文件和有用的评论,修改工作非常困难。社区和更新✅ ✅ ✅ ❌ ❌有很好的更新和欺骗