深度强化学习核心技术实战培训班
人工智算法工程师人才培养通知
各企事业单位、高等院校及科研院所:
随着科技的快速发展,人工智能俨然成了当今社会的关注焦点。而在人工智能的发展上,深度学习、强化学习、迁移学习等成为了科学界、工业界研究和应用的热点。在实际研究和应用过程当中,研究人员逐渐发现了深度学习单独应用的缺点,如没有决策能力,不可推理等。而深度强化学习,作为一种崭新的机器学习方法,同时具有感知能力和决策能力,它是深度学习与强化学习的结合,二者的结合涵盖众多算法、规则、框架,并广泛应用于机器人控制、多智能体、推荐系统、多任务迁移等众多领域,具有极高的研究与应用价值。
为积极响应科研及工作人员需求,根据国务院《国家中长期人才发展规划纲要(2010-2020年)》和工信部《促进新一代人工智能产业发展三年行动计划(2018-2020年)》
中国管理科学研究院职业资格认证培训中心(http://www.cnzgrz.org.cn )特举办“深度强化学习核心技术理论与应用研修班”。并由工业和信息化部全国网络与信息技术考试管理中心进行《人工智能算法工程师》(高级)岗位能力培训证书认证。本次培训采用理论+全实战培训模式。针对前沿的深度强化学习方法及应用进行了全面的讲解,同时进行深入的案例分析,帮助学员掌握和利用深度强化学习进行具体工作的开展。
本次培训由北京中科软博信息技术研究院和北京中际英才文化传媒有限公司具体承办。通知如下:
一、主讲专家:
中国科学院计算技术研究所、清华大学、北京大学、西安交通大学等科研机构和大学的高级专家,拥有丰富的科研及工程技术经验,长期从事人工智能、深度学习、强化学习、迁移学习、对抗性网络、计算机视觉等领域的教学与研究工作。
二、时间地点:
2021年04月23日—2021年04月26日 远程在线培训
2021年04月23日—2021年04月26日 北京*机房上课
(第一天全天报到,授课三天,机房上课)
三、参加对象:
各省市、自治区从事人工智能、机器学习、计算机视觉、自然语言处理、无人机、无人艇、无人车、机器人、智能体、多智能体、兵棋推演、自动驾驶、能源分配、编队控制、航迹规划、路由规划等领域相关的企事业单位技术骨干、科研院所研究人员和高等院校相关专业教学人员及在校研究生等相关人员。
四、培训目标:
1、能够把握强化学习的技术发展趋势,可以熟练掌握强化学习核心技术、仿真实践技巧,同时针对科研项目工作中存在的疑难问题进行分析讲解和专题讨论,有效的提升学员解决复杂问题的能力;
2、掌握单智能体深度强化学习。
3、掌握多智能体深度强化学习。
4、掌握多任务深度强化学习。
5、掌握强化学习应用领域Gym Retro游戏平台、机器人控制、计算机视觉、自然语言处理。
6、实现Gym、Ray仿真环境。
7、实际体验Q Learning实验、DQN实验、DDPG实验。
8、为复杂系统的感知决策问题提供解决思路。
五、课程体系:
一、强化学习概述 |
1.强化学习、强化学习问题.
2.强化学习的主要任务、数学模型.
3.强化学习的主要内容.
4.强化学习算法分类 |
二、马尔科夫决策过程 |
1.马尔科夫决策过程
2.MDP基本元素:策略、回报、值函数、状态行为值函数
3.贝尔曼方程
4.最优策略
实操案例教学:构建机器人找金币和迷宫的环境 |
三、蒙特卡罗方法 |
1.蒙特卡罗策略评估
2.蒙特卡罗策略改进
3.基于蒙特卡罗的强化学习
4.同策略和异策略
实操案例教学:利用蒙特卡罗方法实现机器人找金币和迷宫 |
四、基于模型的强化学习 |
1.多摇臂问题的数学描述.
2.多摇臂问题的最优策略求解方法.
3. Markov 决策过程的定义及相关概念.
4. 掌握Bellman 方程.
5. 基于表的强化学习问题.
6. 动态规划的基本概念.
7. 值迭代算法.
8. 策略迭代算法.
实操案例教学:基于模型的强化学习实践操作 |
五、基于采样-估计的强化学习 |
1.基于Monte Carlo 方法、时序差分、TD(λ)方法的策略评估.
2.同策略和异策略评估算法.
3.基于Monte Carlo 方法、时序差分、TD(λ)方法的策略控制.
4.掌握同策略和异策略控制算法.
实操案例教学:
Python, Gym,游戏及仿真环境,游戏BlackJack |
六、基于逼近理论的强化学习 |
1.基于随机梯度下降法的值函数逼近方法.
2.批处理值函数逼近方法.
3.直接求解参数化策略的优势.
4.最优参数问题的数学模型及优化方法,了解梯度方法的优势.
5.策略梯度的计算.
6.REINFORCE 原理
7. 经典算法AC 算法的原理.
实操案例教学:REINFORCE gym-CartPole
实操案例教学:AC算法 gym-CartPole |
七、从强化学习到深度强化学习 |
1.基于值函数逼近方法(强化学习)
2.基于值函数逼近方法(深度学习与强化学习的结合)
3.策略梯度方法(强化学习)
4.Alpha Go(深度学习与强化学习的结合) |
八、深度强化学习 |
1.深度强化学习简介、原理
2.DQN 原理.
3. DDPG原理
实操案例教学:
DQN 雅达利-打砖块
实操案例教学:DDPG |
九、多任务深度强化学习 |
1.多任务学习简介
2.知识提纯法
3.分布式训练法
实操案例教学:
3D第一人称迷宫游戏 |
十、分层深度强化学习 |
1.分层强化学习简介
2.分层强化学习原理
实操案例教学:
starcraft无人机集群对抗 蒙特祖玛的复仇 |
十一、多智能体强化学习 |
1.多智能体强化学习相关概念.
2.基于平均场的多智能体强化学习算法.
3.MADDPG原理
实操案例教学:MeanField DQN 无人机大战
实操案例教学:MADDPG
OpenAI Multi-Agent Particle Environments |
十二、辅助课程 |
1.疑难解答、分组讨论;
2.学后交流、微信群、QQ群建立;
3.项目合作、技术咨询;
4.体验32小时GPU训练 |
六、培训费用:
A类,每人4580元(含报名费、培训费、资料费、A类证书费、课后32小时GPU训练费)
B类,每人5180元(含报名费、培训费、资料费、B类证书费、课后32小时GPU训练费)
注:住宿可统一由会务组进行安排,费用自理。
七、颁发证书:参加相关培训并通过考试的学员,可以获得:
A类,由中国管理科学研究院职业资格认证培训中心颁发的《深度强化学习开发与应用工程师》(高级)专业技能资格证书,官方网站查询,该证书可作为有关单位专业技术人员能力评价、考核和任职的重要依据。
B类,由工业和信息化部全国网络与信息技术考试管理中心颁发的《人工智能算法》工程师(高级)岗位能力培训证书,可通过官方网站查询或扫描证书上方的二维码查询,该证书直接纳入国家人才数据库,可作为人工智能从业人员职业岗位能力考核的证明,可作为岗位聘用、任职、定级和晋升职务的重要依据;该证书并可作为申请职业技能鉴定时接受过相关职业技能培训的证明;可作为专业技术人员继续教育证明。(加上A类共两本证书)。
注:请学员带两寸彩照两张(背面注明姓名)、身份证复印件和学历证明复印件各两张。
八、联系方式:
联系人: 期涛(老师)
手机(微信同号):15210196261
电话:010-56129268
网址:http://www.cnzgrz.org.cn
E_mail:cashq_ict@vip.163.com
官方咨询QQ:513692711
强化学习QQ交流群群号: 872395038(加群备注:期涛邀请)
上一篇:深度迁移学习(TransferLearning)核心技术实战培训班
下一篇:医学影像组学及人工智能案例结合实践培训班