報(bào) 告人:付俊杰 教授
報(bào)告題目:基于模型加速安全強(qiáng)化學(xué)習(xí)的無(wú)人車(chē)軌跡跟蹤控制
報(bào)告時(shí)間:2025年05月17日(周六)上午10:30
報(bào)告地點(diǎn):騰訊會(huì)議411-195-263
主辦單位:數(shù)學(xué)與統(tǒng)計(jì)學(xué)院、數(shù)學(xué)研究院、科學(xué)技術(shù)研究院
報(bào)告人簡(jiǎn)介:
付俊杰,東南大學(xué)教授,博導(dǎo),教育部國(guó)家高層次人才,江蘇省杰出青年基金獲得者。2011年及2017年于北京大學(xué)工學(xué)院分別獲學(xué)士和博士學(xué)位。2017年至今于東南大學(xué)任教。主要研究方向包括輸入飽和多智能體分布式協(xié)同控制、分布式協(xié)同避障、分布式模型預(yù)測(cè)控制、多智能體安全強(qiáng)化學(xué)習(xí)等。至今共發(fā)表(含接收)SCI期刊論文50余篇,出版中文專(zhuān)著2部,英文專(zhuān)著章節(jié)1篇。申請(qǐng)國(guó)家發(fā)明專(zhuān)利11項(xiàng)(已授權(quán)6項(xiàng))。主持國(guó)防項(xiàng)目、教育部裝備預(yù)研聯(lián)合基金、江蘇省杰出青年基金項(xiàng)目、國(guó)家自然科學(xué)基金面上及青年項(xiàng)目等。曾獲2022年中國(guó)指揮與控制學(xué)會(huì)科學(xué)技術(shù)進(jìn)步一等獎(jiǎng)(排2/15),2023年亞太神經(jīng)網(wǎng)絡(luò)學(xué)會(huì)青年研究獎(jiǎng),2022 ICUS 最佳會(huì)議論文獎(jiǎng)(排1/2)等。擔(dān)任國(guó)際SCI期刊The Innovation、 Intelligence and Robotics、無(wú)人系統(tǒng)技術(shù)等青年編委,IEEE SMC Magazine編委。目前為中國(guó)指揮與控制學(xué)會(huì)網(wǎng)絡(luò)科學(xué)與工程專(zhuān)委會(huì)副總干事、IEEE Senior Member。
報(bào)告摘要:
對(duì)于復(fù)雜環(huán)境下存在動(dòng)力學(xué)不確定性的無(wú)人車(chē)系統(tǒng)安全軌跡跟蹤控制問(wèn)題,傳統(tǒng)自適應(yīng)或者擾動(dòng)補(bǔ)償控制方法通常依賴(lài)于未知?jiǎng)恿W(xué)及外界擾動(dòng)項(xiàng)的一些先驗(yàn)信息,而魯棒控制方法通常依賴(lài)于擾動(dòng)上界并且控制輸入具有一定保守性?;趶?qiáng)化學(xué)習(xí)方法的軌跡跟蹤控制可以降低對(duì)系統(tǒng)動(dòng)力學(xué)及環(huán)境信息的依賴(lài),僅利用在線(xiàn)交互數(shù)據(jù)即可實(shí)現(xiàn)對(duì)控制策略的學(xué)習(xí)與訓(xùn)練。然而,強(qiáng)化學(xué)習(xí)過(guò)程中的探索步驟對(duì)于無(wú)人車(chē)運(yùn)行過(guò)程中的安全性構(gòu)成威脅,且強(qiáng)化學(xué)習(xí)算法通常需要大量樣本才能實(shí)現(xiàn)策略網(wǎng)絡(luò)收斂,可能帶來(lái)過(guò)高的訓(xùn)練成本。本報(bào)告介紹近期提出的一種基于模型加速安全強(qiáng)化學(xué)習(xí)的無(wú)人車(chē)軌跡跟蹤控制方法,能夠?qū)崿F(xiàn)策略網(wǎng)絡(luò)訓(xùn)練過(guò)程中無(wú)人車(chē)系統(tǒng)的高安全性以及大幅提升策略網(wǎng)絡(luò)訓(xùn)練速度。