资源行业动态 DeepRacer 顶级深度强化学习挑战赛

DeepRacer 顶级深度强化学习挑战赛

2020-02-28 | |  92 |   0

原标题: "DeepRacer" ——顶级深度强化学习挑战赛

来源:AI研习社     链接:https://www.yanxishe.com/blogDetail/14604


AWS DeepRacer 是一款 1:18 赛车,它提供了一种用强化学习 (RL) 解决自动驾驶技术的平台。RL 是一种先进的机器学习 (ML) 技术,它采用了与其他机器学习方法不同的方法来训练模型。它的强大之处在于,它不需要任何标记的训练数据就可以学习非常复杂的行为,并且可以在优化长期目标的同时做出短期决策。有了 AWS DeepRacer,现在可通过自动驾驶亲身体验 RL、实验和学习。通过基于云的 3D 赛车模拟器开始使用虚拟汽车和赛道,并获得真实体验,可以将训练有素的模型部署到 AWS DeepRacer 中与好友比赛,或参与全球 AWS DeepRacer 联盟。

来参加比赛吧,抱的奖金和荣誉归来,并有机会晋级到 Invent 2019 上的 AWS DeepRacer 锦标赛,赢得梦寐以求的 AWS DeepRacer 奖杯。2019挑战赛正在进行中——踏上赛道,在线参加每月一次的模拟巡回赛比赛,或者亲自参加世界各地的顶级巡回赛比赛。

image.png

image.pngimage.png

image.png

image.png

01.gif

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

有关如何参赛,积分,奖品的所有信息和规则。在每次Virtual Circuit比赛之后以及每次Summit Circuit比赛之后,您将根据您的最快单圈时间获得积分。积分将在Summit Circuit比赛中与Virtual Circuit比赛分开进行汇总

积分计算如下:

  - 以秒为单位的最大分数减去1000圈数,小数点后三位。

  - 每场比赛的得分=最大(1000圈)

  - 例如,如果排行榜上记录的最快单圈时间为10.500秒,您将获得989.500分。1000-10.500 = 989.5000

每场比赛结束后,无论是在Summit Circuit还是Virtual Circuit,您的更新聚合点都将显示在AWS DeepRacer联盟排名中。使用排行榜顶部的搜索栏找到您的位置。

例如,如果你以最快的单圈时间10.500秒参加新加坡峰会,然后以最快的单圈时间9.753秒参加首尔峰会,你的总得分为1979.747。

  

(1000-10.500)+(1000-9.753)= 1979.747

积分将在整个赛季累积,可以通过参加多场比赛来提高分数并攀升整个赛道排行榜,从而改善您的模型以及由此产生的单圈时间。可参加的比赛数量没有限制!

image.png

image.png

image.png

借助 AWS DeepRacer 控制台,您可以按照内置模板来训练和评估 AWS DeepRacer 模型。


使用 AWS DeepRacer 控制台训练自动驾驶赛车的强化学习模型

  1. 登录 AWS DeepRacer 控制台 。

  2. 在 AWS DeepRacer 主页上,选择 Get started (入门) 并在 Get started with reinforcement learning (强化学习入门) 页面上执行以下操作:

    如果您以前有使用 AWS DeepRacer 的经验,则可以跳过此步骤,改为在主导航窗格上选择 Reinforcement learning (强化学习),然后选择 Create model (创建模型)

    1. 如果这是您首次使用 AWS DeepRacer,请在 Account resources (账户资源) 下,选择 Create resources (创建资源)

    2. 如果您是刚开始使用强化学习,请在 Introduction to reinforcement learning (强化学习简介) 下选择 Learn RL (学习 RL) 来熟悉强化学习。

    3. 在 Create a reinforcement learn (RL) model (创建强化学习 (RL) 模型) 下,选择 Create model (创建模型) 以开始创建您的第一个 AWS DeepRacer 模型。

  3. 在 Create model (创建模型) 页面上,执行以下操作来开始训练您的 AWS DeepRacer 模型:

    1. 要刷新您的账户资源,请选择 Account resources (账户资源) 下的 Reset resources (重置资源)。此操作强制重新创建或重新关联您的账户需要的资源。

      ...............等等,详见末尾链接

image.png

image.png

AWS DeepRacer 奖励函数将词典对象作为输入。


def reward_function(params) :
    reward = ...
    return float(reward)


params 词典对象包含以下键/值对:


{
    "all_wheels_on_track": Boolean,    # flag to indicate if the vehicle is on the track
    "x": float,                        # vehicle's x-coordinate in meters
    "y": float,                        # vehicle's y-coordinate in meters
    "distance_from_center": float,     # distance in meters from the track center 
    "is_left_of_center": Boolean,      # Flag to indicate if the vehicle is on the left side to the track center or not. 
    "heading": float,                  # vehicle's yaw in degrees
    "progress": float,                 # percentage of track completed
    "steps": int,                      # number steps completed
    "speed": float,                    # vehicle's speed in meters per second (m/s)
    "steering_angle": float,           # vehicle's steering angle in degrees
    "track_width": float,              # width of the track
    "waypoints": [[float, float], … ], # list of [x,y] as milestones along the track center
    "closest_waypoints": [int, int]    # indices of the two nearest waypoints.
}


all_wheels_on_track

类型:Boolean

范围:True|False

一个 Boolean 标记,指示车辆是在赛道上还是偏离赛道。如果车辆的任一车轮位于赛道边界外,则将车辆视为偏离赛道 (False)。如果车辆的所有车轮都在两个赛道边界内,则将车辆视为在赛道上 (True)。下图显示了在赛道上的车辆。

image.pngimage.png

image.png

在训练了模型之后,使用 AWS DeepRacer 控制台评估其性能。在 AWS DeepRacer 中,性能指标是按照训练模型指示的推理操作,完成赛道所需的时间。

要使用 AWS DeepRacer 控制台评估训练模型,请按照以下步骤操作。

  1. 在您模型的详细信息页面上的 Evaluation (评估) 部分下,选择 Start evaluation (启动评估)

    您只能在模型处于 Ready (就绪) 状态时开始评估。训练完成后,模型便已就绪。在未完成训练时,如果模型的训练最终到达了失败位置,模型也可能处于就绪状态。

image.png

image.png

当您的 AWS DeepRacer 车辆沿赛道自动行驶时,它会通过安装在前方的摄像头捕捉环境状态,并根据观察结果采取行动。您的 AWS DeepRacer 模型是一项将观察结果和行动映射到预期奖励的函数。训练您的模型是要找到或学习最大化预期奖励的函数,这使得经优化的模型能够规定您的车辆可以采取哪些行动(速度和转向角对)以便车辆从头到尾都沿赛道行驶。

在实际应用中,该函数由一个神经网络表示,该网络的训练包括找到给定观察到的环境状态序列下的最佳网络权重和相应的车辆行动。最优性的基本标准由模型的奖励函数描述,该函数鼓励车辆在不造成交通事故或违规的情况下合法而有效地行驶。简单的奖励函数可以返回 0(如果车辆在赛道上)、-1(如果车辆不在赛道上)和 +1(如果车辆到达终点)。利用此奖励函数,车辆会因离开赛道而收到惩罚,并因到达目的地而获得奖励。

例如,假设您想让车辆在不偏离直线赛道的情况下行驶。当车辆加速和减速时,车辆可左右转向以避开障碍物或保持在赛道内。在有时限的竞赛中,您希望车辆行驶得更快。但是在高速行驶时转向过大很容易导致车辆偏离赛道。转向过小可能无法帮助避免与障碍物或其他车辆相撞。一般来说,最佳操作是以较低的速度进行较大的转向或沿较锐利的曲线较小转向。为了鼓励这种行为,您的奖励函数必须分配一个正分数来奖励高速下的较小转向,或分配一个负分数来惩罚高速下的大转向。类似地,奖励函数可以对沿着更直的路线加速或接近障碍物时减速返回正奖励。

THE END

免责声明:本文来自互联网新闻客户端自媒体,不代表本网的观点和立场。

合作及投稿邮箱:E-mail:editor@tusaishared.com

上一篇:国际巨头压境过后,国内ADAS市场能否等来一个新秀?

下一篇:加州发布自动驾驶报告:百度阿波罗平台超越Waymo,丰田倒数第一

用户评价
全部评价

热门资源

  • 国内人才报告:机...

    近日,BOSS 直聘职业科学实验室 &BOSS 直聘研究院...

  • AI使物联网更智能...

    看到微软对物联网和人工智能的结合感兴趣是一个明...

  • 推荐一批学习自然...

    这里推荐一批学习自然语言处理相关的书籍,当然,...

  • 安防智能化大势下...

    大部分传统安防设备不仅拍摄视野有限,而且无法事...

  • 20亿创业基金、10...

    近日,杭州举办了建设国家新一代人工智能创新发展...