
在一座巨大的自动化仓库内,数百台机器人沿着通道快速穿行,收集和分发物品以满足源源不断的客户订单。在这个繁忙的环境中,即使是小的交通堵塞或轻微碰撞也可能雪球般地发展成大规模的速度下降。
为了避免这种效率低下的雪崩效应,来自麻省理工学院和科技公司Symbotic的研究人员开发了一种新方法,能够自动保持机器人车队的顺畅运行。他们的方法根据拥堵的形成情况学习在每个时刻哪些机器人应该优先通行,并适应性地优先处理即将被困的机器人。通过这种方式,系统可以提前重新规划机器人路线以避免瓶颈。
该混合系统利用深度强化学习这一强大的人工智能方法来解决复杂问题,确定哪些机器人应该被优先考虑。然后,一个快速可靠的规划算法向机器人发送指令,使它们能够在不断变化的条件下快速响应。
在受实际电商仓库布局启发的模拟中,这种新方法比其他方法的吞吐量提高了约25%。重要的是,该系统能够快速适应具有不同数量机器人或不同仓库布局的新环境。
"在制造业和物流业中,有很多决策问题公司依赖于人类专家设计的算法。但我们已经证明,利用深度强化学习的力量,我们可以实现超越人类的性能。这是一种非常有前景的方法,因为在这些巨大的仓库中,即使是2%或3%的吞吐量增长也能产生巨大影响,"麻省理工学院信息与决策系统实验室研究生、这项新方法论文的主要作者韩征说。
与韩征共同参与这项研究的还有信息与决策系统实验室博士后马一宁、Symbotic公司的Brandon Araki和陈京凯,以及资深作者吴凯蒂,她是麻省理工学院土木与环境工程系和数据、系统与社会研究所1954级职业发展副教授,也是信息与决策系统实验室成员。该研究今天发表在《人工智能研究期刊》上。
重新规划机器人路线
在电商仓库中同时协调数百台机器人绝非易事。
这个问题特别复杂,因为仓库是一个动态环境,机器人在达到目标后会持续接收新任务。当它们离开和进入仓库时需要被快速重新指导。
公司通常利用人类专家编写的算法来确定机器人应该在何时何地移动,以最大化它们能处理的包裹数量。
但如果出现拥堵或碰撞,公司可能别无选择,只能关闭整个仓库数小时来手动解决问题。
"在这种情况下,我们无法精确预测未来。我们只知道未来可能会发生什么,比如进来的包裹或未来订单的分布。规划系统需要在仓库运营进行时适应这些变化,"韩征说。
麻省理工学院的研究人员使用机器学习实现了这种适应性。他们首先设计了一个神经网络模型来观察仓库环境并决定如何为机器人设置优先级。他们使用深度强化学习训练这个模型,这是一种试错方法,模型在模拟实际仓库的仿真中学习控制机器人。该模型因做出增加整体吞吐量同时避免冲突的决策而获得奖励。
随着时间推移,神经网络学会了高效协调多个机器人。
"通过与受真实仓库布局启发的仿真进行交互,我们的系统接收反馈,我们用这些反馈使其决策更加智能。训练好的神经网络可以适应具有不同布局的仓库,"韩征解释说。
该系统设计用于捕捉每个机器人路径中的长期约束和障碍,同时考虑机器人在仓库中移动时的动态交互。
通过预测当前和未来的机器人交互,该模型计划在拥堵发生之前就予以避免。
在神经网络决定哪些机器人应该获得优先级后,系统采用经过验证的规划算法告诉每个机器人如何从一点移动到另一点。这种高效算法帮助机器人在不断变化的仓库环境中快速反应。
这种方法的结合是关键。
"这种混合方法建立在我团队关于如何在机器学习和经典优化方法之间实现两全其美的工作基础上。纯机器学习方法仍然难以解决复杂的优化问题,然而人类专家设计有效方法极其耗时耗力。但是,以正确的方式结合使用专家设计的方法可以极大地简化机器学习任务,"吴说。
克服复杂性
研究人员训练好神经网络后,他们在与训练时所见不同的模拟仓库中测试了系统。由于工业仿真对这个复杂问题来说效率太低,研究人员设计了自己的环境来模拟实际仓库中发生的情况。
平均而言,他们基于学习的混合方法在每个机器人交付的包裹数量方面比传统算法和随机搜索方法的吞吐量高出25%。他们的方法还能生成可行的机器人路径规划,克服了传统方法造成的拥堵。
"特别是当仓库中机器人密度上升时,复杂性呈指数级增长,这些传统方法很快就开始失效。在这些环境中,我们的方法效率更高,"韩征说。
虽然他们的系统距离实际部署还很遥远,但这些演示突出了在仓库自动化中使用机器学习指导方法的可行性和好处。
未来,研究人员希望在问题表述中包含任务分配,因为确定哪个机器人完成每项任务会影响拥堵情况。他们还计划将系统扩展到拥有数千台机器人的更大仓库。
这项研究由Symbotic资助。
Q&A
Q1:这个新的机器人交通管理系统是如何工作的?
A:该系统采用混合方法,首先使用深度强化学习训练神经网络模型来观察仓库环境并决定机器人优先级,然后利用高效的规划算法告诉每个机器人具体如何移动。系统能够预测机器人交互并在拥堵发生前进行规划避免。
Q2:相比传统方法,这个系统的效果如何?
A:在模拟测试中,这个基于学习的混合方法比传统算法和随机搜索方法的吞吐量提高了约25%。特别是在机器人密度较高的环境中,传统方法很快失效,而新方法效率更高。系统还能快速适应不同的仓库布局和机器人数量。
Q3:深度强化学习在这个系统中起什么作用?
A:深度强化学习是系统的核心技术,用于训练神经网络模型。通过试错方法,模型在模拟实际仓库的环境中学习控制机器人,因做出增加整体吞吐量同时避免冲突的决策而获得奖励,最终学会高效协调多个机器人。