
《汽车工程》2026年第1期发表了北京理工大学高端汽车集成与控制全国重点实验室研究成果"基于策略可靠性评估的燃料电池汽车DRL-ECMS能量管理方法研究"一文。论文以燃料电池汽车为研究对象,提出了一种基于策略可靠性评估的能量管理方法。首先建立了一种智能学习与模型优化深度融合的能量管理策略离线训练架构,利用最大熵行动者-评论家(SAC)算法实时决策等效燃料消耗最小策略(ECMS)的最优等效因子。然后设计了一种策略可靠性评估机制,利用集成策略网络模型定量评估能量管理策略决策的可靠性,并基于可靠性阈值在线校准等效因子,保证安全动作的可解释性。试验结果表明,相比SAC和常规自适应ECMS,所提出的SAC-ECMS训练架构将燃料经济性分别提升了4.32%和7.82%;在陌生测试工况下,策略可靠性评估机制能够将燃料经济性进一步提升2.87%,并具备实时计算性能。
一、研究背景
燃料电池汽车加氢时间短、行驶里程长、无污染物排放,具有广阔的发展前景。为燃料电池汽车开发可靠的能量管理策略是提升整车燃料经济性的关键。尽管基于深度强化学习的能量管理策略在训练之后能够取得理想的燃料经济性,但该方法本质上是一种数据驱动方法,其存在一个固有弊端,即难以预防不可靠的策略行为。集成网络模型技术能够有效解决此问题,已在自动驾驶、风力发电、空调控制等领域得到了应用,为评估能量管理策略可靠性提供了可行依据。为此,文章以燃料电池汽车为研究对象,提出了一种基于策略可靠性评估的能量管理方法,通过将智能学习方法与模型优化方法的优势相结合,并对策略可靠性进行定量评估,在提高了智能能量管理策略优化效果的同时增强了其可解释性。
二、研究内容
1. 燃料电池客车动力系统建模:试验车型为一款燃料电池公交客车,基于构型分析结果,建立动力系统功率平衡方程;同时,基于台架试验数据,建立面向能量管理的动力系统仿真模型,为能量管理策略开发提供模型基础。

图1 动态测试工况

图2 燃料电池氢耗模型

图3 电机效率模型
2. 策略可靠性评估能量管理方法:在能量管理策略训练阶段,将SAC算法与ECMS方法的优势相结合:SAC智能体与ECMS环境持续交互,基于观测状态,选择等效因子为控制动作;ECMS利用决策等效因子计算瞬时最优功率分配结果。在能量管理策略测试阶段,设计策略可靠性在线评估机制,利用集成网络模型定量评估能量管理策略的可靠性;提出风险动作在线修正方法,基于动作可靠性阈值对等效因子进行在线校准,有效规避风险动作,保证安全动作的可解释性。

图4 基于策略可靠性评估的能量管理方法架构
三、研究结果
1.离线训练结果:采用基于实车道路速度数据合成的综合样本工况作为训练工况,用于验证所提SAC-ECMS离线训练架构的优化性能。结果表明,SAC-ECMS智能体在探索30回合后便可稳定收敛,且收敛后能够取得98.38%的全局最优效果,比SAC和A-ECMS的燃料经济性分别提升了4.32%和7.82%。

图5 训练工况



图6 SAC-ECMS收敛过程

图7 燃料电池工作点分布
表1 离线训练的燃料经济性对比

2. 在线测试结果:采用两种不同的测试工况,用于验证所提基于策略可靠性评估的能量管理策略在测试阶段的实时优化效果。结果表明,即使测试工况与训练工况存在差异,基础动作的不确定性也基本可保持在较低水平。在两种测试工况下,大部分时间的可靠性度量并未超过其阈值,说明集成动作在多数情况下是安全可靠的。所提能量管理策略的燃料电池功率分布与全局最优结果最为接近,大多数工作点集中分布在10~30 kW的高效工作区。在两种测试工况下,策略可靠性评估机制能够将SAC@ECMS的燃料经济性进一步提升2.87%和2.93%,使所提能量管理策略的燃料经济性分别达到了全局最优的97.60%和96.98%;执行单个控制步的平均计算时间分别为5.16 ms和5.05 ms,展现出了显著的实时应用潜力。


图8 测试工况


图9 测试工况下的基础动作不确定性


图10 测试工况下的策略可靠性


图11 测试工况下的燃料电池工作点分布统计


图12 测试工况下的燃料经济性对比


图13 所提能量管理策略的在线计算时间
四、创新点与意义
文章提出了一种基于策略可靠性评估的能量管理方法,该方法将智能学习与模型优化进行深度融合,利用集成策略网络模型对策略可靠性进行定量评估,并根据可靠性阈值对风险动作进行在线修正。文章方法相较于传统智能学习方法和模型优化方法能够在提高智能能量管理策略优化效果的同时增强其可解释性,并具备实时计算性能,具有重要的理论意义和工程应用价值。
上一篇:震裕科技旗下汽车部件公司增资至9.1亿 增幅约38%
下一篇:没有了