首页 创业指南 致富视频 网上开店 养殖视频 范文大全 创业项目开店经验创业杂谈如何创业技术资料创业防骗项目分析微信营销农村创业投资理财
  • 致富经
  • 农广天地
  • 致富早班车
  • 乡约
  • 科技苑
  • 农业电商
  • 农业要闻
  • 地方动态
  • 食品安全
  • 深度
  • 独家
  • 基于专家示范深度强化学习的光伏系统MPPT控制

    时间:2023-04-16 13:20:05 来源:东东创业网 本文已影响 东东创业网手机站

    相关热词搜索:

    王逸轩,戴宇轩

    (上海电力大学自动化工程学院,上海 200090)

    影响太阳电池阵发电功率的因素主要为温度与辐照度。为了提高经济性,电池阵需要在不同环境条件下尽可能输出最大功率。最大功率点跟踪(maximum power point tracking,MPPT)是利用适宜算法控制电子装置对太阳电池阵的端电压及输出电流进行实时调节,动态跟踪极值使其运行在最大功率点附近的功率控制技术。

    国内外学者们提出过许多MPPT 控制算法。第一类是基于参数选择的间接控制法,其中常见的间接控制算法是开路电压法与短路电流法。这类算法的优点是简单易行,缺点是鲁棒性差,不能适应任何变化[1]。第二类算法是基于采集数据的直接控制法,常见的算法是扰动观察法(P&O)[2]、电导增量法(INC)等。这类算法复杂性低且面对环境稳定的情况效果较好,但它们在最大功率点附近会产生持续的震荡,面对环境条件变化的情况会缺乏鲁棒性从而降低运行效率。第三类算法是基于智能控制的算法,例如基于模糊逻辑规则的算法[3]、基于神经网络的控制算法[4]等。这类算法往往需要更多的先验知识作为信息,成为了近年来MPPT 控制算法研究的热门方向。

    在第三类算法中,文献[5]提出了改进的粒子群MPPT 控制算法,它通过提升太阳电池阵输出功率的寻优速度和动态性能,能够更好地适应复杂外部环境。文献[6]使用改进麻雀搜索算法对MPPT 阵列进行建模和仿真,该算法快速准确地找到最大功率点,取得了良好的效果。

    近年来,深度强化学习(deep reinforcement learning,DRL)技术被学者们应用于光伏系统的MPPT 控制算法中。为了获得高精度的输出电压并优化MPPT 动态效率,强化学习算法中的动作空间调整为连续动作空间[7]。文献[8]提出了一种DDPG 的强化学习算法用于将深度强化学习(DRL)离散域的动作空间扩展到连续域。然而文中的训练模型具有两处缺陷,其一是没有考虑复杂环境的变化,面对环境变化的鲁棒性较差;
    其二是采用DDPG 算法直接训练MPPT 问题时收敛速度慢甚至无法收敛,导致训练时间过长。针对上述问题,本文采用了基于专家示范深度确定性策略梯度算法的MPPT控制算法,一方面提升MPPT 动态效率,另一方面加快了模型的收敛速度。

    图1 是太阳电池的单二极管模型。Iph是电池照射太阳光后产生的电流,IDS是流过二极管的电流,VDS是二极管两端电压,Ish为通过分流并联电阻Rsh的电流,I为太阳电池的输出电流。当环境温度与光照强度不变时,太阳光产生的电流Iph保持不变,可以看作一个恒流源。

    图1 太阳电池单二极管模型

    太阳电池输出电流I的表达式为:

    二极管电流IDS的表达式为:

    式中:I0为二极管饱和电流;
    q为单位电荷;
    K为玻尔兹曼常数;
    T为开氏温度;
    η为二极管的理想因子,一般取值1~2,理想二极管因子为1。

    光生电流Iph受到太阳辐照度G与环境温度T的影响,关系式见式(3)。

    式中:Iscr为短路电流;
    Ki为环境温度影响因子;
    Tr为环境温度参考值。

    二极管饱和电流I0见表达式(4)。

    式中:IRS为二极管反向饱和电流;
    Eg为二极管的带隙能量。

    太阳电池阵通常由若干个太阳电池经过串并联后组成。假设一个太阳电池阵包含N个并联的太阳电池电路,每个电路由M个单体太阳电池串联构成,则太阳电池阵输出电流Ism见式(5)。

    从式(5)可以看出,电池阵输出特性主要受到环境温度T、太阳辐照度G的影响。图2(a)~(d)分别展示了在恒定环境温度改变太阳辐照强度与恒定太阳辐照强度改变环境温度条件下的输出I-V与P-V特性曲线。

    图2 温度、光照条件变化时光伏特性曲线

    深度强化学习是在强化学习的基础上将具有强大表征能力的深度学习与具有决策能力的强化学习相结合,使动作序列空间与状态值空间映射为深度学习神经网络,以便处理高维度的动作与状态[9]。对于本文中研究的光伏系统MPPT问题,使用深度神经网络来表征光伏系统在不同状态下的价值函数,再结合强化学习算法根据价值函数决策出当前时刻的电压变化量。深度强化学习中的相关术语以及表达式如下[10]:

    价值函数V为从该状态开始的马尔科夫决策过程获得的总期望:

    状态动作值函数Qπ(s,a)表示在状态s下根据策略π 采取某个动作a时获得的收获的期望:

    深度确定性策略梯度算法(DPPG)是以演员-批评家(actor-critic)为基础[11],针对连续动作空间的离线无模型算法。DDPG 算法共有四个网络,它们分别是演员网络、演员目标网络、批评家网络和批评家目标网络。状态动作值函数和动作函数分别由深度神经网络Q(st,at|θQ)和μ(st|θμ)训练得到,其中,θQ与θμ对应了批评家网络和演员网络中的各层各节点的权值与偏差矩阵。

    批评家网络参数的更新通过最小化损失函数L(θQ)来实现,见式(8)。

    式中:yt为预期回报;
    rt为当前状态动作下的奖励;
    γ为衰减率,一般取0.9~1。

    演员网络的参数θμ可以通过梯度方法更新,见式(10)。

    式中:?为偏导数;
    J为演员网络参数关于回报期望的分布;
    ρβ为状态st所服从的分布。

    批评家目标网络与演员目标网络通过软更新方式改变参数。两个目标网络分别设置更新率τ,当一次训练结束时,目标网络向原始网络的参数更新τ%,保留(1-τ)%的网络参数不变。

    考虑到控制的目标输出电压是一个连续变量,本文首先采用DDPG 算法来控制MPPT 过程,其次加入专家示范的方法来解决DDPG 算法中训练时间过长、收敛难度大的问题。

    3.1 状态空间与状态扩张

    DDPG 算法中的状态采用温度T、光照G、电压V、功率P四个不同的量[12],其中电压和功率包含最近连续的三个时刻(t,t-1,t-2)的值。状态矩阵S如下所示:

    为了增加专家示范的适应性,需要对状态作出如下调整:

    式中:I为电流值,I(t)=P(t)/V(t);
    ΔP为功率变化值,ΔP(t)=P(t)-P(t-1)。

    调整后的状态矩阵与之前相比增加了四个元素,主要用于提高算法中的网络对专家示范经验的适应性以及神经网络对特征的识别能力。同时,这四个元素是由电压与功率经过线性变换得出,一旦前八个状态量确定,后四个状态量也随之确定,因而本质上算法中的状态维度并未发生改变。

    3.2 动作空间

    光伏系统MPPT 控制中被控对象是输出电压,因此动作需要选取与电压有关的变量。本算法采用电压的变化量作为动作值,通过获取当前的状态判断接下来电压的增减以完成最大功率点的持续跟踪。动作空间A的表示如下:

    式中:ΔVmin为电压减少量阈值;
    ΔVmax为电压增加量阈值。

    3.3 奖励函数

    本文针对光伏系统MPPT 控制的实际特点设计了分段式奖励函数:

    采用分段式奖励函数使得强化学习任务的难度分解,在未完成任务时也能获得部分奖励,与稀疏奖励对比,这样的方式增加了模型收敛的可能性。

    3.4 神经网络及超参数

    本文中评论家网络结构为一个输入层,三个隐藏层和一个输出层。输入层和隐藏层之间以及输出层和隐藏层之间使用线性激活函数,隐藏层之间使用ReLU 非线性激活函数。演员网络结构为一个输入层、两个隐藏层和一个输出层。各层之间的激活函数与评论家网络相同。ED-DDPG 算法的神经网络超参数见表1。

    表1 神经网络超参数

    3.5 专家示范(expert demonstration)

    DDPG 算法在训练时存在缺陷,如消耗资源多和消耗资源多训练数据不足等。消耗资源多指在使用深度强化学习DDPG 算法训练网络时,会消耗大量的时间以及硬件资源;
    训练数据不足指算法训练过程中,由于缺少先验知识、环境的维度空间复杂等问题,DDPG 算法在探索过程中难以完成最大功率点跟踪任务。后者将导致从环境获取的反馈奖励构成的序列存入经验池后无法有效引导算法中的神经网络向正确的梯度方向收敛,从而形成了一个恶性循环。

    本文采用“专家示范”的思想[13]从而加快DDPG 算法的收敛速度,选择扰动观察法P&O 作为专家示范的经验来源。首先使用一个拥有P&O 策略的智能体在强化学习环境中交互,将交互得到的数据传入强化学习经验池中。强化学习算法基于经验池中的专家经验训练一个近似P&O 策略的策略网络,再进行随机搜索不断优化策略。

    基于专家示范的深度确定性策略梯度算法(ED-DDPG)训练过程如下:

    首先,训练系统中预先设置了专家示范回合数。当训练回合数小于专家示范回合数时,专家示范智能体使用传统算法P&O 作为专家策略作出动作并与环境进行交互。随后将动作-状态序列直接存入强化学习经验池中,这些经验会在每一次智能体与环境交互时用于训练强化学习智能体中的演员网络与评论家网络。其中演员网络的策略梯度更新修正见式(16)。

    式中:?为偏导数;
    μed为专家示范策略;
    μ为演员网络策略;
    J为演员网络参数关于回报期望的分布;
    N为批处理数;
    Q为价值函数;
    s为状态;
    a为动作。

    当训练回合数大于专家示范回合数时,本算法根据DDPG 算法中的策略选择动作。值得注意的是,此时的演员网络与评论家网络的参数经过了专家经验的训练而不是随机初始化的参数。最后,神经网络在与环境若干回合的交互中训练网络得到收敛速度更快、获取奖励更大的MPPT 动作策略。ED-DDPG 算法的示意图见图3。

    图3 ED-DDPG算法示意图

    图3 中左侧部分为演员网络与评论家网络的结构示意图,中间虚线框部分为本算法的决策与网络更新部分,通过强化学习环境中得到的状态基于演员-评论家的决策机制下获得对应的动作,并将经验池中抽取的序列更新演员-批评家网络的参数。右侧部分为强化学习环境与经验池,强化学习环境由太阳电池等效模型构建而成,由环境产生的状态与算法决策部分产生的动作将被存入经验池中用于更新网络。

    4.1 算法有效性验证

    4.1.1 EN50530 标准

    IEC/EN50530 定义了不同的测试模式[14]:

    (1) 低辐照度到中辐照度的不同速率往复变化,从100 W/m2到500 W/m2的变化,最慢800 s,最快8 s。

    (2) 中辐照度到高辐照度的不同速率往复变化,从300 W/m2到1 000 W/m2的变化,最慢70 s,最快7 s。

    4.1.2 动态MPPT 效率

    根据NB/T 32004-2013 标准,静态最大功率跟踪效率计算公式如下:

    式中:ΔTj为PMPP,PVS,i的采样间隔;
    UDC,i与IDC,i为输出电压、电流采样值;
    ΔTi为输出电压电流的采样间隔;
    PMPP,PVS,i为太阳电池阵中获得的理论最大功率输出。

    4.1.3 算法对比实验

    本文针对上述标准对基于专家示范的深度确定性策略梯度算法(ED-DDPG)进行仿真验证,以对比实验的方式进行。对比的算法为传统MPPT 控制方法扰动观察法(P&O)以及深度确定性策略梯度算法(DDPG)的MPPT 控制方法。

    EN50530 标准下的两个测试模式以最快与最慢两种速度作为仿真环境,分别对三种MPPT 控制算法进行仿真验证,获得的结果见图4。

    图4 基于EN50530的四种环境变化对比曲线

    表2 总结了在四种辐照变化模式下三种MPPT 算法的动态MPPT 效率。可以看出ED-DDPG 算法的动态效率对比传统算法有显著提高,与普通DDPG 算法相比略有提高,动态MPPT 效率平均达到97.3%。

    表2 不同辐照条件下各算法效率 %

    4.2 算法鲁棒性验证

    本文所提ED-DDPG 算法的鲁棒性仿真实验见图5。实验中采用随机的温度和光照强度组合,每秒阶梯变化1 次;
    在运行过程中设定环境有10%可能性给智能体反馈错误的状态。共进行了3 组实验,每组实验采取不同的初始点,最终三组结果以及平均值见表3。

    图5 算法鲁棒性实验图(实验二)

    表3 算法鲁棒性实验结果表

    ED-DDPG 算法在剧烈的环境变化以及错误信息干扰下仍然能够拥有93.53%的MPPT 动态效率,证明本算法具有强鲁棒性,符合实际应用需求。

    4.3 专家示范对DDPG 算法收敛性影响测试

    本实验对ED-DDPG 算法与普通MPPT 算法分别进行MPPT 的训练任务,最终比较两者的收敛速度。图6 是专家示范DDPG 算法与普通DDPG 算法收敛性对比图。可以看出ED-DDPG 算法收敛速度更快,且随着训练时间的增加收敛稳定性比普通DDPG 算法更强。

    图6 专家示范DDPG算法与普通DDPG算法收敛性对比图

    4.4 衰减率γ 测试

    对于强化学习而言,衰减率γ的选择意味着总回报中当前奖励与未来奖励的比重,一般取0.9~1 之间的值。衰减率取值的选择影响算法的收敛性能,采用强化学习中常用的三种衰减率0.90、0.93、0.95 进行对比实验,比较ED-DDPG 算法的收敛性能。

    衰减率γ的对比图如图7所示。当衰减率取0.93时获得的奖励曲线稳定时奖励值最大,当衰减率减少时奖励曲线波动较大,当衰减率增大时,奖励曲线的稳定值小于衰减率为0.93时奖励的稳定值。因此采用0.93作为本文所提算法衰减率。

    图7 γ不同取值下的收敛对比

    基于专家示范的深度强化学习DDPG 算法提出了一种光伏系统最大功率点跟踪的算法。根据仿真结果,本文所提出的MPPT 控制算法与传统方法相比在动态效率上有明显的提高,与普通DDPG 算法相比在硬件资源的消耗与收敛速度方面有明显的优势;
    ED-DDPG 算法在鲁棒性验证时证明了其对于外界环境的变化具有很强的鲁棒性,适用于复杂环境条件下的光伏系统最大功率点跟踪。

    猜你喜欢太阳电池鲁棒性控制算法荒漠绿洲区潜在生态网络增边优化鲁棒性分析农业机械学报(2020年2期)2020-03-09基于确定性指标的弦支结构鲁棒性评价中华建设(2019年7期)2019-08-27基于ARM+FPGA的模块化同步控制算法研究制造技术与机床(2017年6期)2018-01-19基于非支配解集的多模式装备项目群调度鲁棒性优化项目管理技术(2016年12期)2016-06-15非接触移动供电系统不同补偿拓扑下的鲁棒性分析西南交通大学学报(2016年6期)2016-05-04一种反向多结GaAs太阳电池背反射器的研究电源技术(2016年9期)2016-02-27几种新型钙钛矿太阳电池的概述云南师范大学学报(自然科学版)(2015年5期)2015-12-26光对聚合物太阳电池的影响电源技术(2015年5期)2015-08-22柔性砷化镓太阳电池电源技术(2015年7期)2015-08-22一种优化的基于ARM Cortex-M3电池组均衡控制算法应用电源技术(2015年9期)2015-06-05
    • 创业指南
    • 网上开店
    • 养殖视频
    • 理财
    • 政策
    • 技术
    • 致富视频

    推荐访问