中国电子企业协会

没有人喜欢在红灯前等待。但有信号灯的十字路口对司机来说不仅仅是个小麻烦，并且车辆在等待信号灯变化时会存在浪费燃料以及排放温室气体的情况。如果驾驶者可以精确地安排他们的行程从而使他们每次都能直接通过红绿灯会怎么样呢？

虽然这可能只是人类司机在特别幸运的情况下发生，但它可以也由使用AI控制其速度的自主车辆更稳定地实现。

在一项新研究中，麻省理工学院(MIT)的科学家们展示了一种机器学习的方法。该方法可以学习控制一队自主车辆，当它们接近并通过一个有信号灯的十字路口时能够保持交通顺畅。

根据模拟结果，他们的方法可以减少燃料消耗和排放，与此同时还能提高平均车速。如果道路上的所有汽车都是自主的，那么该技术就会得到最好的结果，但即使只有25%的汽车使用他们的控制算法，它仍会带来巨大的燃料和排放效益。

“这是一个非常有趣的地方，它可以进行干预。没有人的生活会因为他们被堵在一个十字路口而变得更好。在很多其他气候变化干预措施中有一个预期的生活质量差异，所以那里有一个进入的障碍，”这项研究的论文高级作者CathyWu指出。据悉，他是土木与环境工程系GilbertW.Winslow职业发展助理教授，也是数据、系统和社会研究所(IDSS)和信息与决策系统实验室(LIDS)的成员。

LIDS和电气工程与计算机科学系的研究生VindulaJayawardana都是该研究的论文第一作者。该研究将在欧洲控制会议上发表。

错综复杂的十字路口

虽然人类可能会不假思索地驶过绿灯，但十字路口可能会出现数十亿种不同的情况，具体取决于车道的数量、信号灯的运作方式、车辆的数量和速度、行人和骑车人的存在等等。

解决交*口控制问题的典型方法是使用数学模型来解决一个简单、理想的交*口。这在纸面上看起来不错，但在现实世界中很可能站不住脚，因为那里的交通模式往往是混乱的。

对此，Wu和Jayawardana换了个角度思考，他们用一种被称为深度强化学习的无模型技术来处理这个问题。强化学习是一种试验和错误的方法，控制算法学习做出一系列的决定。当它找到一个好的序列时它就会得到奖励。通过深度强化学习，算法利用神经网络学到的假设找到通往良好序列的捷径--即使有数十亿的可能性。

这对于解决像这样的长线问题很有用。Wu指出，控制算法必须在一个较长的时间段内向车辆发出500条以上的加速指令。另外她还补充道：“而且我们必须在我们知道我们已经很好地缓解了排放并以良好的速度到达十字路口之前得到正确的顺序。”

不过这里还存在一个问题，那就是研究人员想让系统能学习一种策略以减少燃料消耗并限制对旅行时间的影响。这些目标可能是相互冲突的。

“为了减少旅行时间，我们希望汽车开得快，但为了减少排放，我们希望汽车慢下来或根本不动。这些相互竞争的奖励可能会让学习代理人感到非常困惑，”Wu说道。

虽然解决这个问题的普遍性很有挑战性，但研究人员采用了一种被称为奖励塑造的技术来进行变通。通过奖励塑造，他们给系统一些它自己无法学习的领域知识。在这种情况下，每当车辆完全停止时，他们就对系统进行惩罚，这样它就会学会避免这种行为。

交通测试

一旦研究人员开发出一种有效的控制算法，他们就会使用一个具有单一交*口的交通模拟平台对其进行评估。该控制算法被应用于一个由联网的自主车辆组成的车队，这些车辆可以跟即将到来的交通信号灯进行通信以接收信号灯的相位和时间信息并观察其周围环境。该控制算法告诉每辆车如何加速和减速。

当车辆接近十字路口时，他们的系统并没有造成任何走走停停的交通。在模拟中，更多的汽车在单一绿灯阶段通过，这超过了模拟人类司机的模型。当跟其他同样旨在避免走走停停的交通的优化方法相比，他们的技术带来了更大的燃料消耗和排放减少。如果路上的每辆车都是自主的，那么他们的控制系统可以减少18%的燃料消耗和25%的二氧化碳排放，与此同时将行驶速度提高20%。

Wu表示：“一次干预有20％至25％的燃料或排放减少，这真的令人难以置信。但我觉得有趣的是，也是我真正希望看到的，是这种非线性的比例。如果我们只控制25%的车辆，这给我们带来50%的燃料和排放减少的好处。这意味着我们不必等到我们达到100%的自动驾驶车辆才能从这种方法中获益。”

接下来，研究人员希望研究多个交*口之间的互动效应。另外，他们还计划探索不同的交*口设置如车道数量、信号灯、计时等如何影响出行时间、排放和燃料消耗。此外，他们还打算研究当自动驾驶车辆和人类司机共享道路时他们的控制系统会如何影响安全。

虽然这项工作仍处于早期阶段，但Wu认为这种方法在近期内可以更可行地实施。

MIT研究人员利用AI来帮助自动驾驶汽车避免在红灯前空转

热点观察