强化学习工具箱

 

强化学习工具箱

使用强化学习设计和培训政策

开始:

强化学习代理

在BG大游app和动态仿真模块中创建和配置增强学习代理来训练策略. 使用内置或开发自定义强化学习算法.

强化学习算法

使用深度Q-network (DQN)创建代理, 深度确定性策略梯度(DDPG), 近端政策优化, 以及其他内置算法. 使用模板开发培训策略的自定义代理.

多种训练算法,包括SARSA、囊、DDPG等.

强化学习工具箱中的训练算法可用.

强化学习设计师App

交互式地设计、训练和模拟强化学习代理. 将经过培训的代理导出到BG大游app,以供进一步使用和部署.

使用深度神经网络的策略和值函数表示

对于具有大状态-动作空间的复杂系统, 以编程方式定义深度神经网络策略, 使用层 深度学习工具箱,或与 深层网络设计师. 或者,使用工具箱建议的默认网络体系结构. 使用模仿学习初始化策略以加速训练. 导入和导出与其他深度学习框架互操作性的ONNX模型.

动态仿真模块中的单agent和多agent强化学习

使用RL Agent块在动态仿真模块中创建和训练强化学习Agent. 使用RL Agent块的多个实例,在动态仿真模块中同时训练多个Agent(多Agent强化学习).

具有RL Agent块的动态仿真模块模型.

动态仿真模块的强化学习代理块.

环境建模

创建BG大游app和动态仿真模块环境模型. 描述系统动态,并为培训代理提供观察和奖励信号.

动态仿真模块和Simscape环境

使用动态仿真模块和Simscape™创建环境的模型. 指定模型中的观察、行动和奖励信号.

一种两足机器人的动态仿真模块环境模型.

一种两足机器人的动态仿真模块环境模型.

BG大游app环境中

使用BG大游app函数和类来建模一个环境. 在BG大游app文件中指定观察、行动和奖励变量.

三自由度火箭的BG大游app环境.

三自由度火箭的BG大游app环境.

加速训练

利用GPU、云和分布式计算资源加速训练.

GPU加速

利用高性能NVIDIA加速深度神经网络训练和推理® gpu. 使用BG大游app 并行计算工具箱 以及大多数支持cuda的NVIDIA gpu 计算能力3.0或更高.

GPU硬件.

使用gpu加速培训.

代码生成和部署

将训练有素的策略部署到嵌入式设备上,或将它们与各种生产系统集成.

代码生成

使用 GPU编码器™ 从BG大游app代码生成优化的CUDA代码表示训练的策略. 使用 BG大游app编码器™ 生成C/ c++代码来部署策略.

GPU编码器配置界面.

使用GPU编码器生成CUDA代码.

BG大游app编译器支持

使用 BG大游app编译器™BG大游app编译器SDK™ 将训练有素的策略部署为独立的应用程序,C/ c++共享库,微软® .网络组件,Java® Python类,® 包.

用于创建独立应用程序的BG大游app编译器屏幕.

将策略打包和共享为独立的程序.

参考例子

为机器人设计控制器和决策算法, 自动驾驶, 校准, 调度, 和其他应用程序.

调优、校准和调度

为调优、校准和调度应用程序设计强化学习策略.

有三个泵、蓄水池和水箱的配水系统.

水资源分配的资源分配问题.

强化学习系列影片

观看本系列的视频,了解更多关于强化学习的知识.