详情

基于机器学习的无人车群协同技术的开发与设计

申报人:施纪彤 申报日期:2023-03-19

基本情况

2023
基于机器学习的无人车群协同技术的开发与设计 盲选
创新训练项目
工学
计算机类
B、学生来源于教师科研项目选题
创新类
2023-04
2024-04
本项目采用了深度强化学习来训练无人车群,使其安全与稳定。现实存在无人车群与有人驾驶车混合的情况,因此需要设置系统,使各无人车能自动形成车群,与有人车隔离。在行驶过程中,无人车通过卷积神经网络(CNN)与LSTM 循环神经网络相结合做出决策。在训练过程中,挑选合适的数据集进行训练,并且设定确切的初始值和合适的奖惩机制。拟用稀疏奖励和 MAPPO 算法,让无人车更加倾向于做群体利益最大化。
参与蓄电池废液无害化排放的相关实验。

指导教师苗国英副教授自2009年以来,一直从事多智能体系统的协调控制的研究。比较熟悉多智能体系统的协调控制研究现状、前沿动态以及需要解决的问题,具体的科研情况如下:

1.主持并完成多项省级和国家级项目,其中包括国家自然科学基金青年项目(No.61503189)一项、主持江苏省自然科学基金青年项目(No. BK20150926)一项、主持国家自然科学基金面上项目(No.62073169)一项、 中国博士后基金(No.2016M591745)一项、 江苏省博士后基金(No.1501039B)一项等。

2. 在多智能体领域,取得了一系列创新性研究成果,指导教师苗国英副教授以第一作者在国内外主流期刊发表十余篇论文。同时,积极指导多名本科生和研究生撰写发明专利、实用新型和软著等。

3.基于在多智能体领域的突出的科研成果,指导教师苗国英副教授荣获江苏省自动化学会科学技术奖、以及中国自动化学会二等奖。

导师提供相关知识、技术的指导。
校级

项目成员

序号 学生 所属学院 专业 年级 项目中的分工 成员类型
施纪彤 雷丁学院 地理信息科学(中外合作办学) 2021 负责人,基于Unity或Unreal建立交通模型,编写算法
章学敏 雷丁学院 数据科学与大数据技术(中外合作办学) 2021 基于MAPPO算法对于无人车群的训练,编写相关算法
陈润怡 雷丁学院 数据科学与大数据技术(中外合作办学) 2021 基于Pytorch收集信息算法的实现,编写相关算法
顾嘉璐 雷丁学院 数据科学与大数据技术(中外合作办学) 2022 建立合适的数据集
顾清扬 雷丁学院 大气科学(中外合作办学) 2022 进行数据分析

指导教师

序号 教师姓名 教师账号 所属学院 是否企业导师 教师类型
苗国英 002497 自动化学院

立项依据

针对无人驾驶车协同控制问题,设计一种机器学习的防碰撞技术使无人驾驶车辆能稳定有序地运行在车道上并且不发生碰撞。我们希望无人车能够在各种场景下执行任务时灵活快速的处理各类情况,如自动发现可能与汽车发生碰撞的车辆、行人或其他障碍物体,发出警报或同时采取制动等措施,以避免碰撞的发生;对于无人车群中无人车的驶入,驶离能够快速变化阵型,达到无人车群团队利益的最大化等。无人驾驶技术将会方便人们生活,同时推进安全生产领域改革发展,助力中国发展。

1.无人机车群所面临的环境进行计算机建模,包括无人自动驾驶本身建模,有人驾驶本身模型,常见交通状况建模。

2.使用基于 Pytorch 的卷积神经网络和 LSTM 循环神经网络的深度学习算法,以及AC 框架中的 MAPPO 强化学习算法。

3.将第2点中的深度学习以及强化学习算法应用于第1点中构建的虚拟环境模拟学习,进行在线的策略和模拟迭代。

4.将算法部署在无人小车模型或 Unity,Unreal 上构建的虚拟模型测试和调优。

 

随着汽车技术的飞速发展,汽车逐渐成为人们生活中必不可少的交通工具。伴随着城市人口数量的增加,城市交通问题也逐渐凸显。同时,环境污染、道路拥堵等问题也对人们的生活产生了巨大的消极影响。在此背景下,无人驾驶技术受到了越来越多的关注。而随着车载信息服务技术、车辆控制技术、通信与定位技术等相关技术的飞速发展,无人驾驶技术也逐渐由理论走向实际,由科研走向民用,从而为人们带来更加舒适、便捷的交通出行方式。从目前的情况来看,车辆在高速行驶时,驾驶员对于车辆的操控是由方向盘来完成的。在这种情况下,一旦发生意外,驾驶员很容易由于操作失误而引发事故。随着社会对交通安全问题的日益重视,在实际操作中越来越多的人认为采用车辆自动控制系统能够避免事故的发生。

除此之外,在城市中行驶的车辆是由多辆车组成的车队,而不是单个车辆。根据多车协同控制原理,当某辆车出现问题时,车辆间能够及时进行信息传递和交换,从而保证车辆始终处于安全运行状态。因此,本项目提出了一种基于车群协同控制的无人驾驶方案。该方案可以有效避免由于驾驶员操作失误所引起的交通事故问题和城市道路交通拥堵问题,从而实现智能交通系统运行状态下的交通安全。

目前,国外对于无人驾驶的研究已经有了多年的历史,并且已经取得了较为丰富的成果。国内对于无人驾驶的研究起步较晚,但是发展十分迅速,从2005年开始,国内陆续有科研机构在相关领域开展了相关研究。无人驾驶车群目前已经成为世界范围内多个国家和地区的热点研究方向。在国内,各大高校和企业在这一领域均有较多研究成果。同时,百度、华为等科技公司也在这一领域展开了深入研究。

总而言之,我国的无人驾驶车群发展时间较短,但是发展速度十分迅猛无人驾驶技术仍然存在不足。目前,国内外主要通过车载传感器来实现无人驾驶车辆的自动控制,这种方式不仅成本高、容易出错,而且难以在恶劣环境下使用。而将无人驾驶车辆与移动信息服务系统相结合,可以在很大程度上提高无人驾驶车辆的可靠性与安全性。这也使本项目关于基于机器学习的无人驾驶车群这一主题的研究变得很有意义和社会价值。

无人驾驶技术是新一代信息技术与交通运输深度融合的产物,是交通运输行业转型升级的重要标志,在智能交通领域具有重要地位。无人驾驶车辆在出行中发挥着重要的作用,其发展将为出行效率带来根本性的变化。而机器学习是目前智能交通系统中重要的技术,并且取得了显著的进展。如果将机器学习与智能交通系统结合起来,可以更好地实现更高质量的交通运输。换句话说,机器学习正在推动无人驾驶车技术的发展。

当前,我国正处于社会转型升级和信息化发展的关键时期,无人驾驶技术是推进国家智能交通系统(ITS)战略实施、实现我国社会经济可持续发展、构建安全高效交通运输体系的重要技术支撑。智能交通系统建设和发展,对于构建安全、便捷、绿色、高效的现代化综合交通运输体系有效提升我国交通基础设施总体水平和综合运输能力,促进经济社会发展具有重要意义。因此,加快推进无人驾驶技术创新应用具有十分重要的现实意义和深远的历史意义。

1.运用卷积神经网络(CNN)以及 LSTM 循环神经系统,实现无人车群对于路况的观测与预测。

2.运用基于 AC 框架的 MAPPO 算法进行训练,并使用合适的数据集进行训练,使其可以灵活地应对各种交通情况,如图1。


     图1 基于机器学习的无人车群协同技术

技术路线  

  深度强化学习是将深度学习与强化学习相结合。它利用了深度学习进行数据特征提取,处理高维数据。强化学习进行决策控制、自我博弈。从而达到,大规模数据的分析处理与集群系统的智能决策与控制,如图2。


                       图2 输入与最终决策效果图

 步骤一 利用深度学习提取天气,车辆数据,路况等环境信息

1.1采用CNN 卷积神经网络对图像数据进行处理,其中分为三层,如同3。

                                                                                               图3 卷积神经网络


1.1.1输入层

将原始数据或其他算法预处理后的数据输入到卷积神经网络中。对于 n*n的黑白图片,CNN 的输入为二维神经元,对于 RGB 格式的图片,CNN 的输入为3*n*n的三维神经元。

1.1.2卷积层

通过卷积核的过滤提取出图片中局部的特征。拟采用以几个小滤波器卷积层

的组合进行操作。选择尺寸为3*3的小尺寸滤波器,并采用零填充,以确保不会

改变输入数据在空间维度上的尺寸和防止图片边缘信息过快损失。

1.1.3池化层

对图片进行降维,减少训练参数的数量,降低卷积层输出的特征向量的维度;保留最有效的图片信息,减少干扰的传递。

以下为拟采用的池化方法:

最大池化:对一个4×4特征图邻域内的值,用一个2×2的过滤器,步长为2进行扫描,将75%的激活数据丢弃,选择最大值输出到下一层。

1.1.4全连接层

处于卷积神经网络的尾部,以提取特征,进行分类。

 

1.2 采用LSTM 循环神经网络对摄像头的视频和音频进行处理LSTM 中含有三种门,如图4。


            图4 LSTM 循环神经网络



1.2.1输入门

决定当前时刻网络的输入有多少保存到单元状态。确保没有无关内容进入记忆。当前时刻的单元状态c_t的计算:由上一次的单元状态c_t-1按元素乘以遗忘门f_t,再用当前输入的单元状态 c_t 按元素乘以输入门i_t,再将两个积加和,从而把当前的记忆 c_t和长期的记忆c_t-1组合在一起,形成了新的单元状态c_t。

1.2.2输出门

控制单元状态有多少输出到 LSTM 的当前输出值,其控制了长期记忆对当前输出的影响,可以使用 tanh 作为激活函数。

1.2.3遗忘门

决定了上一时刻的单元状态有多少保留到当前时刻。

1.2.4对于每一项门,设置其权重矩阵和偏置项。使用 sigmoid 作为激活输入门和遗忘门的函数,sigmoid 函数值越接近于1,受到重视程度就越高;反之,越接近于0,受到程度就越低。根据受到的重视程度选择数据进行记忆。

 

步骤二 拟采用强化学习的 MAPPO 算法,训练车群之间的完全合作

1.3 MAPPO 算法

1.3.1 设置一个公用的奖惩机制,如表 1 所示;

 
       表1 基于机器学习的无人驾驶车群的协调控制的奖惩机制

基于机器学习的无人驾驶车群的协调控制的奖惩机制

单元种类

奖惩

奖惩项目

奖惩值

奖惩备注

行为意图

单辆无人车单元

奖励

探测

奖励

5.0

若该辆无人驾驶汽车能及时发现异常无人车,其获得探测奖励。

鼓励单辆无人驾驶汽车实时感知周围环境、及时发现故障或失控无人车的行为

及时避让

奖励

7.0

若正常行驶的无人车能够及时避让异常无人车,不会与异常车发生碰撞,其获得及时避让奖励。

鼓励正常行驶的无人驾驶汽车及时避让故障或失控车的行为

惩罚

未及时探测

惩罚

-5.0

若该辆无人驾驶汽车未能及时发现异常无人车,给予其未及时探测惩罚。

鼓励无人驾驶汽车实时感知周围环境的行为

未及时避让

惩罚

-8.0

若正常行驶的无人车没有能够及时避让异常无人车,从而导致与异常车的碰撞,给予其未及时避让惩罚。

鼓励无人车及时采取措施避让故障车的行为

无人车群单元

奖励

及时变化阵型奖励

6.6

若无人车群中的一辆车或有人车突然发生故障或失控,车群将其视为障碍物,及时变化阵型,及时远离异常车,给予及时变化阵型奖励。

鼓励无人车群及时变化阵型的行为

实时调整间距奖励

6.0

若无人车群中的一辆车或有人车突然发生故障或失控,其余正常行驶的车辆应当使用合适的算法迅速增大与异常车的间距,以免与其碰撞,给予实时调整间距奖励。

鼓励无人车群依据实际情况实时调整车与车之间的间距的行为。

惩罚

未及时变化

阵型

惩罚

-6.6

若无人车群中的一辆车或有人车突然发生故障或失控,车群没有将其视为障碍物,未及时变化车群的阵型,从而加大了与其碰撞的概率,给予其未及时变化阵型惩罚。

鼓励无人车群及时变化阵型的行为

未及时调

整间距

惩罚

-6.0

若无人车群中的一辆车或有人车突然出现异常,其余正常行驶的车辆未能选用合适的算法增大与异常车的间距,从而加大了与其碰撞的概率,给予其未及时调整间距惩罚

鼓励无人车群实时调整车与车之间的间距的行为。

所有单元

惩罚

未及时感知

异常

惩罚

-8.0

若无人车和有人车没有能够及时发现异常车辆,给予其未及时感知异常惩罚。

鼓励道路上所有车辆及时发现、感知出现异常车辆。

 

出界

惩罚

-1.5

若有车辆突然跑出了我们预先划定的范围,给予其出界惩罚。

鼓励道路上所有车辆不跑出我们预先划定的界限

1.3.2 每个无人车都有其单独的 actor-critic 网络,当无人车对环境做出一个动作时,环境会给出相应的反馈给 actor 网络与 critic 网络,通过不断优化critic 网络,较好的拟合出动作价值函数,根据动作价值得到较优的车辆协同策略,来指导actor网络执行行为决策,actor网络依据环境给出的反馈和critic的打分情况进行下一步的操作;

1.3.3 选择混合式算法框架。训练初步阶段,无人车会将自身的状态观测数据传递给中心控制器,中心控制器得到全局状态后对模型进行训练,得到最优分散控制策略后传给智能体。训练结束后,智能体不再与中心控制器通信,可以基于自己的局部观测状态通过自己的动作策略函数来产生最优动作。

为了更加清晰的表示步骤一与步骤二的内容,计划书中将以图展示过程。以下为基于机器学习的无人车群协调技术的系统图与基于机器学习的无人车群协调技术的流程图分别由图5和图6表示。


          图5 基于机器学习的无人车群协调技术的系统图


             图6 基于机器学习的无人车群协调技术的流程图



拟解决问题

拟解决主要通过车载传感器来实现无人驾驶车辆的自动控制成本高、容易出错,而且难以在恶劣环境下使用的问题。

 

 

预期成果

形成研究报告或发表省级论文1篇或软件著作权1项或申请专利1项。

20234-20236月:完成系统设计方案。

20237-20239月:学习无人车群协调控制技术等相关知识及编程语言。

202310-202312月:搭建模型测试并改进,申请专利或投稿论文。

20241-20243月:结题,形成报告。

 

  目前该项目研究已经具备了多智能体强化学习的基础,强化学习属于机器学习中的一个重要的分支。其主要内容涵盖了多个智能体(在该项目中为无人车群)通过与周围环境进行交互来学习,并通过完整的数据集和环境模型来进行计算。其次,强化学习使用马尔科夫决策过程的架构,凭借对于无人车群周围环境的感知、动作实施、最终获得回报,定义无人驾驶汽车群体之间的交互关系和影响。该项目还具备深度学习的基础,其包含了 Pytorch、CNN 卷积神经网络以及 LSTM循环神经网络。此外,该项目还使用 MAPPO 算法的稀疏奖励和后台的监督系统,以达到训练团队的利益最大化。

  深度强化学习(即 DRL)技术目前在无人驾驶汽车群中的发展已十分成熟,DRL是一种机器学习算法,它将深度学习和强化学习的特点相结合。深度强化学习技术的在深度学习的特征表示能力表现出了高超的能力,它同时还能利用强化学习不断试错的学习方式来求得最优的方法和策略。

  现阶段,传统的控制方式,其包含传统的感知周围环境技术、路径规划技术以及相对于独立的功能模块为主的决策控制策略,这也是近几年较为成熟的对于无人驾驶汽车群的安全性研究的技术和策略。

  目前,建立于深度神经网络(DNN)的端到端的无人驾驶汽车的控制方式的发展也较为成熟。该技术输入无人驾驶汽车的传感数据,凭借深度神经网络精湛的非线性表达能力,能够直接输出对于无人驾驶汽车群的控制指令。

已具备的条件

  该项目的指导老师是自动化学院的副教授,在多智能体强化学习方面十分精通,对于该项目的研究拥有丰富的知识和经验,可以很好地带领我们团队进行进一步的研究和发展。

  外部的实验条件也都基本具备。

尚缺少的条件和方法

  需提高无人驾驶汽车群的反应和响应速度,并在此基础上建立更加完善的数据集。

  进一步提高该系统对于道路上各种各样的行车状况的适应度。

经费预算

开支科目 预算经费(元) 主要用途 阶段下达经费计划(元)
前半阶段 后半阶段
预算经费总额 6000.00 开展相关项目研发任务、购买用于项目研发的元器件以及进行软硬件测试 4800.00 1200.00
1. 业务费 4100.00 开展与研究该项目有关的各种业务 3200.00 900.00
(1)计算、分析、测试费 1000.00 计算并分析数据,测试软硬件的性能 800.00 200.00
(2)会议、差旅费 2500.00 举行小组会议、开展研究调查 2000.00 500.00
(3)文献检索费 0.00 0.00 0.00
(4)论文出版费 600.00 出版论文 400.00 200.00
2. 实验装置试制费 0.00 0.00 0.00
3. 材料费 1900.00 购买用于该项目研发的元器件和小型硬件 1600.00 300.00

项目附件

  • 雷丁学院 基于机器学习的无人车群协同技术的开发与设计 施纪彤.docx
    下载
结束