"\345\274\200\351\242\230/\351\231\210\344\275\220\347\216\223-\346\226\207\347\214\256\347\273\274\350\277\260\350\241\250.pdf"

2025-04-14 15:53:36 +08:00 · 2025-04-14 15:53:36 +08:00 · 82fdc0e21c
commit 82fdc0e21c
parent c8b925fd01
5 changed files with 0 additions and 0 deletions
--- a/中期/陈佐玓-中期报告-最终.pdf
+++ b/中期/陈佐玓-中期报告-最终.pdf
@ -1,311 +0,0 @@
           电子科技大学
 专业学位研究生学位论文中期考评表
 攻读学位级别： □博士        ☑硕士
 培 养 方 式： ☑全日制      □非全日制
 专业学位类别及领域：         电子信息
 学  院：       信息与软件工程学院
 学  号：        202222090508
 姓  名：          陈佐玓
 论 文 题 目： 基于 RGB-D 相机的物体级语义
               SLAM 算法研究
 校内指导教师：      王治国
 校外指导教师：        梁熙
 填 表 日 期： 2024 年 9 月 15 日
   电子科技大学研究生院
 一、已完成的主要工作                                     年 12 月 21 日
 1.开题报告通过时间： 2023
 2. 课程学习情况
 是否已达到培养方案规定的学分要求 □是 ☑否
 3. 论文研究进展
 从理论分析或计算部分、实验实践（或实证）工作等方面进行总结（可续页）
 1.理论分析
 在视觉 SLAM 系统中，位姿估计与地图构建密切相关，其中最重要的一个优化步骤是
 Bundle Adjustment（BA）。BA 通过最小化观测到的重投影误差来优化相机位姿和地图点的
 位置。然而，SLAM 系统中的 BA 通常分为三种：Motion-Only BA、Local BA 和 Full BA。
 这些优化方法在一定程度上提升了跟踪和建图的精度。然而，随着环境复杂度的增加，系统
 在处理不规则场景时的表现仍有提升空间。
 Motion-Only Bundle Adjustment (MOBA) 通常用于追踪阶段（tracking stage），即每一帧
 的相机位姿估计过程中。MOBA 的主要作用是通过优化相机的位姿，在保持地图点不变的
 前提下，最小化观测到的重投影误差，从而提高跟踪的精度和系统的鲁棒性。
              {<7B><><EFBFBD><EFBFBD><EFBFBD><EFBFBD>,        <20><><EFBFBD><EFBFBD><EFBFBD><EFBFBD>}  =     argmin     ∑<><E28891><EFBFBD><EFBFBD><EFBFBD><EFBFBD>∈<EFBFBD><E28888><EFBFBD><EFBFBD><EFBFBD><EFBFBD>     <20><><EFBFBD><EFBFBD><EFBFBD><EFBFBD>  (∥∥<E288A5><E288A5><EFBFBD><EFBFBD><EFBFBD><EFBFBD>(<28><><EFBFBD><EFBFBD><EFBFBD><EFBFBD>⋅)  −  <20><><EFBFBD><EFBFBD><EFBFBD><EFBFBD>(⋅)(<28><><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD>  +  <20><><EFBFBD><EFBFBD><EFBFBD><EFBFBD>)∥∥Σ2)      (1)
                                         <20><><EFBFBD><EFBFBD><EFBFBD><EFBFBD>,<2C><><EFBFBD><EFBFBD><EFBFBD><EFBFBD>
 其中ρ是稳健的 Huber 损失函数，Σ是与关键点尺度相关的协方差矩阵。<E998B5><E38082><EFBFBD><EFBFBD><EFBFBD><EFBFBD>(⋅)是投影函
 数分为单目<EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD>m和校正双目<EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD>s 。
 Local Bundle Adjustment (Local BA) 主要用于局部地图优化阶段（local mapping stage）。
 在这个阶段，Local BA 通过同时优化当前关键帧、与其相连的共视关键帧及其关联的地图
 点，从而提高局部地图的精度。它的作用是减少局部区域中的累积误差，保证局部关键帧的
 位姿和地图点的位置更加一致和精确。
 {<7B><><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD>, <20><><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD>,  <20><><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD>|<7C><><EFBFBD><EFBFBD><EFBFBD><EFBFBD>  ∈  <20><><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD>,  <20><><EFBFBD><EFBFBD><EFBFBD><EFBFBD>  ∈  <20><><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD>}  =  argmin           ∑<><E28891><EFBFBD><EFBFBD><EFBFBD><EFBFBD>∈<EFBFBD><E28888><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD>∪<EFBFBD><E288AA><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD>     ∑<><E28891><EFBFBD><EFBFBD><EFBFBD><EFBFBD>∈<EFBFBD><E28888><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD>    <20><><EFBFBD><EFBFBD><EFBFBD><EFBFBD>(<28><><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD>)  (2)
                                                   <20><><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD>,<2C><><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD>,<2C><><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD>
                                        <20><><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD> = ∥∥<E288A5><E288A5><EFBFBD><EFBFBD><EFBFBD><EFBFBD>(<28><><EFBFBD><EFBFBD><EFBFBD><EFBFBD>⋅) − <20><><EFBFBD><EFBFBD><EFBFBD><EFBFBD>(⋅)(<28><><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD> + <20><><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD>)∥∥2Σ
                                                                                                             (3)
 其中 R∈SO(3)表示相机的方向 和<><E5928C><EFBFBD><EFBFBD><EFBFBD><EFBFBD> ∈ ℝ3是相机位置，最小化世界坐标中匹配的 3D 点
 <EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD> ∈ ℝ3 和关键点<E994AE><E782B9><EFBFBD><EFBFBD><EFBFBD><EFBFBD>(<28><><EFBFBD><EFBFBD><EFBFBD><EFBFBD>⋅)之间的重投影误差，无论是单目<E58D95><E79BAE><EFBFBD><EFBFBD><EFBFBD><EFBFBD>m<EFBFBD><6D><EFBFBD><EFBFBD><EFBFBD><EFBFBD> ∈ ℝ2还是双目<E58F8C><E79BAE><EFBFBD><EFBFBD><EFBFBD><EFBFBD>s<EFBFBD><73><EFBFBD><EFBFBD><EFBFBD><EFBFBD> ∈ ℝ3都是在关键
 帧中匹配上的点。
 随着时间的推移和轨迹的扩展，系统在构建地图时不可避免地会累积一些小的误差。虽
 然局部 BA 可以对局部地图进行优化，但它无法纠正整个地图的全局误差。当系统检测到回
 环时，意味着机器人或相机已经回到了之前的某个位置，这时可以利用这个约束对全局地图
 进行一次完整的优化，从而调整关键帧和地图点的位置，使地图更准确、更一致。Full Bundle
 Adjustment (Full BA) 是一种全局优化方法，主要用于系统检测到回环（loop closure）之后的
 阶段。其目的是对整个地图中的所有关键帧和地图点进行联合优化，以最小化全局范围内的
 重投影误差。
 传统的 SLAM 中 BA 主要依赖于关键帧和地图点的优化，而忽略了场景中更高层次的
 结构信息。通过在优化过程中结合物体级别的语义信息，SLAM 系统可以更好地理解场景中
 的物体与相机之间的关系，改善地图构建的准确性。引入物体的几何和语义信息，可以在不
 同尺度上为系统提供更多约束，尤其是在纹理缺乏或重复场景中，物体的存在可以作为稳定
 的特征参考，增强系统的鲁棒性。此外，物体的识别和跟踪能够帮助系统识别有意义的场景
 结构，改进地图的语义表达，从而提高系统在复杂环境下的表现。这种物体感知不仅有助于
 提高相机位姿估计的精度，还能够为后续的任务（如导航或对象交互）提供更加可靠的环境
                                                               2
 模型。
      本课题设计的 SLAM 系统中引入了物体的概念。在 SLAM 系统中加入物体，并且将使
 用物体信息对 SLAM 系统的 BA 优化、回环检测等添加更多的约束信息。通过关联好的物
 体对 SLAM 系统的精度和鲁棒性进行一定的提升，并且构建一个物体语义地图，图 1 是具
 体的结构图：
 语义分割
            物体信息
            物体关联                        定位与跟踪  语义地图
      Obj2
                                  Obj3
                     Obj1
      Obj4        Obj5
      图 1 结构流程图
      2.研究进展（一）
      在本课题中，使用 ROS（Robot Operating System）作为进程间通信的框架，实现 SLAM
 与 YOLOv8 实例分割网络的协同工作。在 SLAM 线程中，通过 ROS 节点发布需要处理的图
 像作为话题，并在图像到达时将对应的标志设置为 true，从而通知其他线程开始处理图像数
 据。与此同时，在一个独立的线程中运行 YOLOv8 实例分割网络，对发布的话题图像进行
 分析，检测预训练好的物体类别，并提取相应的 mask。
      YOLOv8 在实时场景下具有很高的检测效率，能快速识别和分割图像中的目标对象。然
 而，单纯依赖 YOLOv8 生成的 mask 在物体边界上可能存在一定的不精确，尤其是在物体边
 缘复杂或背景干扰较大的情况下，物体与背景的分割可能不够清晰。这种现象在机器人实际
 应用中会影响 SLAM 的准确性，进而对机器人的环境感知和导航产生负面影响。
      为了解决这一问题，本课题对 YOLOv8 生成的 mask 进行了进一步处理。具体来说，本
 课题使用聚类算法对 mask 的边界区域进行细化处理。由于物体与背景之间通常存在一定的
 深度差异，可以通过对深度信息进行聚类分析来优化物体边界。深度聚类不仅可以帮助识别
 物体的真实轮廓，还能有效区分复杂场景中物体与背景的过渡区域，从而提升 mask 在边缘
 区域的准确性。
 实例分割                                    深度聚类
                                             图 2 获取物体的 mask
      通过这种方法，可以提升 SLAM 系统对环境中物体的感知精度。该处理流程通过将
 YOLOv8 的实例分割与深度聚类相结合，实现了对物体边界的更精确描绘，从而提高对观测
 到的物体的表现。
                                                                               3
      3.研究进展（二）
      在本课题中，构建了一个专门的物体数据库，用于存储过程中相机观测到的已识别物体。
 该数据库不仅用于保存物体的相关信息，还用于处理物体的关联问题，即如何正确地将新观
 测到的物体与数据库中的物体进行匹配和关联。本课题将物体关联问题分为两类：同一物体
 的关联和不同物体之间的关联。
      首先，当相机观测到一个物体时，系统会将其与数据库中已有的物体进行匹配。如果在
 数据库中找到了与当前观测相符的物体，认为这是同一个物体的重复观测。为了确保关联的
 准确性，系统会根据已有的观测数据，应用一定的策略来进一步优化同一物体的关联过程。
 这包括了物体的点云信息如点云数量、点云的 3D 包围框等。
                                                               Tc1,c2
                                                                                                                       obj1
                                         图 3 两次观测到同一个物体示意
      如图 3 所示，当相机运动到两个位置 C1 和 C2 时观测到同一个物体 Obj1，需要在这个
 Obj1 物体与数据库匹配后，使用当前的 Obj1 的点云数据与匹配的物体点云进行融合更新。
      如果观测到的物体在数据库中未能匹配到任何已有物体，就将其视为一个新物体。在这
 种情况下，该物体将被添加到数据库中，并赋予唯一的标识。同时，系统还会对新物体与数
 据库中其他物体的关系进行更新，这意味着不仅要将新物体纳入数据库，还需要评估其与已
 有物体之间的潜在关联，例如基于物体的空间位置、类别或功能进行进一步的分析和分类。
                                                                                             Tc2,c3
 Tc1,c2
        obj2
                                                                                                                       obj1
                                              图 4 观测到新物体示意图
      如图 4 所示，当相机运动到 C3 位置时，观测到了新的物体 Obj2，这时 Obj2 在物体数
 据库中检测不到对应的物体，则新增一个物体信息。
      图 5 是一个物体和其他邻近物体的关联关系图。对于一个物体需要维护其和另外 k 个
 （这里设置的 4）最近物体的关联，使用的是物体之间的欧氏距离进行计算，维护每个物体
 最近的 5 个物体。
                                                                               4
 Obj2
                          Obj3
                                               Obj1
                                                                              Obj6
                                Obj4
                                                             Obj5
                                                 图 5 不同物体的关联
      最后对于构建的物体数据库最后会输出一个语义地图，其中包含了识别到的物体信息。
 对于其中某一帧图片成为关键帧之后就会将其中的物体进行关联判断，其中一帧图片如图 6
 所示。
 识别                              物体
                                                 图 6 物体构建示意图
      图 6 所示，这一帧在 YOLOv8 线程中检测到了有椅子和电视两个类别的物体，会在数
 据库中更新对应的物体点云或者是新增物体点云，并且在最后输出的物体点云地图上，对
 其使用 3D 的包围框、物体 label 以及物体点云中心位置等信息进行区分标识。
 4. 阶段性研究成果
 按《研究生学位论文撰写格式规范》的格式要求分类填写与学位论文相关的阶段性研究成果，
 例如期刊论文、会议论文、科研获奖、专利、制定标准等，限填第一作者或导师为第一作者
 时的第二作者成果，其中已录用、已投稿或拟投稿的在括号内注明（可续页）
    5
 二、存在的主要问题和解决办法
 1.未按开题计划完成的研究工作，研究工作存在的原理性、技术性难题以及在实验条件等方
 面的限制（可续页）
      1.物体 mask 的准确获取问题
      使用聚类的方式对 YOLOv8 分割得到的 mask 进行更进一步的分割可能对于不同的物
 体，结果上不一定有很好的提升，而且在物体复杂或者边缘很不规则时仅使用深度信息可能
 会导致过度分割的结果，得到错误的结果。
      2.物体如何加入后端优化问题
      准确分割表示的物体对于 SLAM 系统也是一个可用的信息，可以用于估计相机位姿中
 的优化项，也能够在 SLAM 系统中对于回环检测过程添加新的约束项，不同物体之间的关
 联关系能有效的对于一个场景中的物体进行检测，判断场景中的相似性。但是如何加入到后
 端的优化当中，并且能发挥出相应的作用，还需要设计一个可用的优化策略。
      3.物体点云的准确性的优化问题
      同一个物体在不同角度的观测中如何被认定为是同一物体，需要设计一个相应的策略，
 让物体的判断更加准确。
 2.针对上述问题采取何种解决办法，对学位论文的研究内容及所采取的理论方法、技术路线
 和实施方案的进一步调整，以及下一步的研究研究计划（可续页）
      针对上述的问题，后续的解决方案路线：
      1.对于物体的 mask 边缘分割需要使用一些其他的信息，比如颜色信息，或者更换处理
 mask 边缘的策略，比如尝试使用 canny 边缘检测策略、全链接条件随机场对物体 mask 的边
 缘进行进一步的分割。
      2.物体位姿加入优化项的最小二乘中，作为一个可优化的项。并且认为相同的场景下，
 获取到的物体他们对于其他物体的关联关系是一致的，所以可以通过物体的关联关系匹配上
 相同的场景，检测出回环情况。
      3.融合同一物体的不同观测角度时，需要考虑到物体点云的位置，以及大小，这需要使
 用到物体大小的先验知识，并且对于判断物体位置的差异阈值需要在实验当中选定优化。
 下一步研究计划：            完成内容
   起止年月             完成物体级语义 SLAM 算法，完成专利 1 篇。
   2024.09-2024.11  完成 SLAM 算法的优化改进以及语义 SLAM 系统开发。
   2024.11-2025.01  撰写并完成硕士学位论文初稿。
   2025.01-2025.02  完成硕士学位论文修改提升。
   2025.02-2025.05  完成硕士学位论文答辩。
   2025.05-2025.06
                    6
 三、中期考评审查意见
 1.导师对工作进展及研究计划的意见：
 进展符合预期，研究计划合理可行。
 校内导师（组）签字：                                            2024 年 9 月 20 日
 校外导师签字：                                               2024 年 9 月 20 日
 2.中期考评专家组意见
 考评日期     2024.09.20  考评地点                         国际创新中心 B 栋一楼会议室 B105
                                                  腾讯会议:479-687-638
 考评专家 杨远望、庄杰、李耶
 考评成绩     合格 票        基本合格 票                       不合格 票
         □通过         □原则通过                        □不通过
 结论
                  通 过：表决票均为合格
                  原则通过：表决票中有 1 票为基本合格或不合格，其余为合格和基本合格
                  不 通 过：表决票中有 2 票及以上为不合格
 对学位论文工作进展以及下一步研究计划的建议，是否适合继续攻读学位：
 研究工作进展正常，计划可行，适合继续攻读学位。
                     专家组签名：
                                                        年月日
 3.学院意见：
                     负责人签名：                             年月日
                                               7
--- a/开题/陈佐玓-开题报告pptV1.1.pptx
+++ b/开题/陈佐玓-开题报告pptV1.1.pptx
--- a/开题/陈佐玓-开题报告表
+++ b/开题/陈佐玓-开题报告表
@ -1,540 +0,0 @@
           电子科技大学
 专业学位研究生学位论文开题报告表
 攻读学位级别： □博士    ☑硕士
 培 养 方 式： ☑全日制  □非全日制
 专业学位类别及领域： 电子信息
 学  院： 信息与软件工程学院
 学  号：        202222090508
 姓  名：          陈佐玓
 论 文 题 目： 基于 RGB-D 相机的物体级语义
               SLAM 算法研究
 校内指导教师：        王治国
 校外指导教师：        梁熙
 填 表 日 期： 2023 年 12 月 14 日
   电子科技大学研究生院
 一、学位论文研究内容
 课题类型 □应用基础研究 ☑应用研究
 课题来源 □纵向         □横向     ☑自拟
   学位论文的研究目标、研究内容及拟解决的关键性问题（可续页）
   1.研究目标
   语义 SLAM(Semantic SLAM)是 SLAM(Simultaneous Localization and Mapping)技术
   的一种发展形式，它在传统 SLAM 的基础上引入了语义信息，即对环境中物体的语义
   理解。这使得机器不仅能够感知周围环境的几何结构，还能理解环境中不同物体的语
   义关系，从而提高对环境的高层次理解能力。语义 SLAM 中，使用目标识别算法通常
   会输出物体的 2D 检测框，然而这些框通常包含物体周围的前景和背景部分，而且物
   体在检测框中的占比可能较小，可能存在较多的噪声。这种情况可能对物体的整体形
   状等信息造成干扰，影响构建准确的物体表示。因此，研究从 2D 检测框中精确分割出
   物体与背景信息，以提高物体构建的精准性。这一过程的目标是有效消除噪声，使物
   体的表示更为准确和可靠。
   在物体被检测时，可能是在不同角度和外观条件下被观察到，导致形状、颜色等
 学 特征出现较大差异。这种情况下，检测到的物体与在语义地图上构建的 3D 物体可能
   被错误地判断为不同的实体从而导致算法对物体位姿的估计错误，同时重复构建同一
 位
   个物体最终导致构建的语义地图失效，无法正常使用。研究物体的数据关联，以提高
 论
   语义地图的可用性。通过强化物体数据之间的联系，可以更准确地将不同视角和外观
 文
   下的物体关联为同一实体，从而改善语义地图的一致性和准确性。
 研
   语义 SLAM 还需要构建包含语义信息的地图。也就是说地图中的区域不仅有几何
 究
   属性，还具有语义标签，例如墙壁、椅子、桌子等。研究如何在语义地图中高质量地
 内
   表示物体，能提供更为精确的位置和语义信息，为上层的应用提供更为强大的支持。
 容
   通过提高对物体的高质量表示，可以增强机器人对环境的感知和理解能力，使其更准
   确地识别和定位各类物体，为智能机器人在不同任务和场景中的应用提供更可靠的基
   础数据。
   2.研究内容
         语义 SLAM 不仅仅侧重于几何结构的感知，还注重对环境语义信息的理解。在实
   际场景中，算法识别到的 2D 检测框中包含的背景信息可能对物体信息的准确使用造
   成一定的干扰，影响不同观测角度下的同一物体的数据关联，导致物体建模不准确。
   通过有效地去除背景干扰并确保物体之间的正确关联，可以改善物体建模的准确性和
   一致性，从而提高整体系统对场景的理解和表示。主要的研究内容包括：
         1. 基于深度和灰度值的物体前景分割方法
         这一问题针对图像中检测到的物体，通过利用背景与物体的深度值、灰度值的不
   一致性，实现对物体的像素级层面分割。该方法的实质是检测图像中深度值或灰度值
   发生显著变化的像素点，将其视为物体的边界，从而实现对物体的精准分割。这种方
                      1
 法通过捕捉边缘信息的突变，有效地识别出物体的形状和轮廓，为后续的物体建模和
 识别提供了更为准确的基础。基于深度的物体前景分割
      2. 基于静态特征点的数据关联方法
      在语义 SLAM 中，解决静态物体的数据关联问题旨在对不同图像中的静态物体进
 行判断，确保同一物体的不同观测不会被孤立地重新构建。这一问题的核心在于通过
 算法分析和识别，对同一静态物体的观测点进行准确的关联融合，从而在现有地图的
 基础上对物体进行修改。此过程需要综合考虑几何和语义信息，以保障对静态物体的
 观测关联的准确性和鲁棒性，以提高系统对环境的感知和地图构建的精度。
      3. 基于目标识别的物体准确重建方法
      精准的物体重建有助于 SLAM 系统对于自身的定位，以及对环境的感知理解。通
 过目标识别所得的语义信息以及物体位置信息等在语义地图上重建出准确的物体。其
 实质是断动态物体在先前帧中的状态，从而在整个时间序列中重建出静态物体的位置
 和形状。
 3.拟解决的关键性问题
      1）静态物体前景分割边界不准确问题
      在目标检测输出的物体检测框中，背景信息作为一个潜在的干扰噪声，对于物体
 的重建会产生显著的影响。背景信息的存在可能导致物体的形状、轮廓和纹理等特征
 受到干扰，进而影响物体重建时的准确性和系统的鲁棒性。针对这一问题，计划研究
 更精确的前景分割方法，通过利用图像的深度、灰度等信息，辅助前景分割，以获取
 更精准的分割结果，提高物体重建的精度，减少背景干扰对系统性能的影响，为语义
 地图的构建提供更可靠的基础。
      2）静态物体数据关联不一致性问题
      在语义 SLAM 中，静态物体的数据关联涉及将在不同时间获得的观测数据正确关
 联起来，以确保系统对环境的持续理解和地图构建。针对这一问题，除了考虑几何信
 息外，还需要考虑物体的语义信息。其中的主要问题是确保语义一致性。由于环境中
 可能存在语义相似的物体，如相似的家具或结构，系统需要能够正确地将观测到的语
 义标签与先前的数据关联起来，同时避免将不同物体错误地关联在一起。因此静态物
 体数据的有效关联能保证对环境的正确感知和地图构建的完整。
      3）语义地图静态物体重建准确性较差问题
      传统 SLAM 系统主要侧重于几何信息，而在语义地图中准确重建静态物体则需要
 更深层次的语义理解。静态物体的精准重建要求系统能够区分不同物体的类别、准确
 标记其位置，并将其在语义地图中恢复出真实的形状和特征。针对这一问题，需要涉
 及到解决物体遮挡、视角变化和光照变化等方面的问题，以确保语义地图不仅包含准
 确的几何属性，还能反映物体的语义信息。因此，精准的重建物体能为机器人提供更
 全面、准确的环境理解。
                                                                     2
 二、学位论文研究依据
 学位论文的选题依据和研究意义，国内外研究现状和发展态势；选题在理论研究或实际应用
 方面的意义和价值；主要参考文献，以及已有的工作积累和研究成果。（2000 字）
 1.选题依据和研究意义
      同时定位与建图(Simultaneous Localization and Mapping, SLAM)近年来成为基础研究领
 域，因为它有望解决与自我探索型人工智能移动机器人领域相关的大多数问题[1]。例如，无
 需对其所探索的环境有任何先验知识且无需任何人为干扰即可进行探索的能力、机器人在城
 市搜索救援、地下采矿、水下监视和行星探索等许多应用领域。SLAM 是实现机器人在未知
 环境中实时进行自身位置估计和地图构建的关键技术。其主要目标在于使机器人能够，动态
 感知周围环境、精确定位自身位置，并在这一过程中构建地图。SLAM 系统涵盖了多种类型，
 可以分为基于激光雷达的激光 SLAM、基于相机的视觉 SLAM(VSLAM)、基于惯性测量单
 元的惯性 SLAM 等多种类型。
      随着技术的发展，移动机器人有了越来越复杂的应用场景，对环境的感知能力提出了更
 多的要求。而深度学习的出现与快速发展， Segnet[2]、YoLo 系列[3]等神经网络为 SLAM 系
 统提供了应对更复杂环境能力以及自身定位精度的提升。SLAM 结合语义分析算法，借助语
 义信息，我们可以将数据关联从传统的像素级别升级到物体级别，提高机器人对环境的感知
 能力，一方面可以先验性的判断部分动态目标进行处理，另一方面提高了 SLAM 算法在回
 环检测，位姿优化等部分的精确度，而且对场景的语义分析还有利于机器人的自主理解和人
 机交互等功能。然而目前的语义 SLAM 对于语义地图的构建并不完善，需要对静态物体的
 数据进行正确关联，重建一个更加精细的物体因此对于语义 SLAM 的检测物体的准确前景
 分割、静态物体的数据正确关联、语义地图上物体的精准重建、等工作是需要的。
 2.国内外研究现状和发展趋势
      SLAM 技术是机器人领域中一个重要的研究方向，其目标是使移动机器人在未知环境中
 能够实时进行自身位置估计和地图构建。Cesar Cadena 等人将 SLAM 发展历程分为了三个阶
 段，经典时代(1986-2004)、算法时代(2004-2015)以及鲁棒感知时代(2015-现在) [4]。在经典时
 代，引入了 SLAM 的主要概率公式，包括基于扩展卡尔曼滤波器、RaoBlackwellized 粒子
 滤波器和最大似然估计等方法；此外，这个时期还涵盖了与效率和强大的数据关联相关的基
 本挑战。Durrant-Whyte 和 TimBailey 的两项工作[5,6] 对经典时代的早期发展和主要公式结论
 进 行 了 详 细 回 顾 ， 内 容 基 本 全 面 覆 盖 了 整 个 经 典 时 代 的 发 展 。 接 着 是 算 法 时 代 ， Gamini
 Dissanayake 等人的工作[7]回顾内容涵盖这个时期的一些发展，并提出了一些 SLAM 面临的
 一些挑战。目前，我们正处于鲁棒感知时代，其中涉及到一些新的挑战如，鲁棒性能、高层
 次理解、资源感知和任务感知、驱动推理。
      传统的 SLAM 主要依赖于昂贵的激光雷达、IMU 等传感器进行环境感知。通过几何特
 征点的提取和匹配，传统 SLAM 系统能够实现机器人的定位和环境地图构建。然而，这些
 传感器通常较昂贵，限制了 SLAM 系统的广泛应用。随着技术的发展，视觉 SLAM(Visual
 SLAM)开始出现，利用相机等视觉传感器进行环境信息的获取，推动了 SLAM 技术的更广
 泛应用，并催生了多种经典算法。2013 年 Salas-Moreno 等人提出的 SLAM++[8]是物体级
                                                                                3
 SLAM 领域的最早的代表作；2015 年，Mur-Artal 等人提出的 ORB-SLAM[9] 是一种基于特
 征的单目 SLAM 系统，可以在小型和大型、室内和室外环境中实时运行，成为模块化 SLAM
 领域的一项重要工作，很多后续出现的基于特征匹配的 SLAM 系统都是由 ORB-SLAM 发展
 而来。如 Mur-Artal 等人接下来提出的 ORB-SLAM2[10]，在保持框架整体性的基础上，对一
 些细节进行了改进，使其能够适用于更多种类的相机，包括深度相机和双目相机，此外，跟
 踪线程中引入了预处理模块，最后有一个全局 BA(Bundle adjustment)提高系统的鲁棒性；
 ORB-SLAM3[11]在此基础之上耦合了惯导 IMU、加入了融合估计以及子地图功能。另一方面，
 Tong Qin 等人提出的 VINS[12,13]系列是不同于 ORB-SLAM 的又一经典框架。支持多种视觉
 惯性传感器类型包括 IMU、GPS 等。在此算法基础上也提出了很多新算法，Seungwon Song
 等人提出的 DynaVINS[14]，设计了一个鲁棒 BA 来丢弃一些异常的特征。
      SLAM 框架早期是建立在静态假设成立的基础上，即认为环境中的所有物体都是静态不
 动的，唯一移动的物体是传感器本身。这种假设导致在存在动态物体的环境中，位姿估计容
 易变得不准确，甚至在高度动态的环境中可能完全失效。为了解决这一问题，提出了动态场
 景下的 SLAM，即动态 SLAM。动态 SLAM 将环境中的物体分为了动态和静态两类来进行
 区分。在一些动态 SLAM 中，动态物体被剔除，不纳入位姿估计计算当中。例如，Daniela
 Esparza 等人提出的 STDyn-SLAM[15]采用对极几何的方法，通过建立当前帧和上一帧光流,
 根据对极几何约束判断是否为动态点，从而将动态点剔除；Wu 等人提出的 YOLO-SLAM[16]
 将物体检测与 RANSAC 算法相结合，以去除动态物体。另一方面，一些 SLAM 框架采用
 不同的策略，将动态物体位姿进行估计并纳入到优化中，一同用来估计相机位姿。
      传统 SLAM 系统主要依赖于几何信息，在某些场景下可能限制了对环境的深度理解。
 随着深度学习技术的兴起，VSLAM 系统得到了显著的改进。深度学习方法被广泛用于图像
 特征提取、深度图的生成、对抗性训练，可以提高 SLAM 系统的鲁棒性等性能。深度学习为
 VSLAM 系统获取更多的环境语义信息，增强对环境的高层次理解能力，从而更好的感知环
 境。在 SLAM 系统中加入语义信息，可以形成语义 SLAM(Semantic SLAM)。语义 SLAM 利
 用深度学习网络对物体进行分割，能更好的识别可能的动态物体，同时构建出包含语义信息
 的地图，在导航和环境交互等方面有更好的效果。2017 年 Martin R¨unz 等人提出的 Co-
 Fusion[17]利用 SharpMask[18]将场景分割成不同的对象(使用运动或语义线索)，同时跟踪和重
 建真实的 3D 形状，并随时间推移改进物体在地图上的模型。2018 年 Martin R¨unz 等人进
 行改进，提出了 Mask-Fusion[19]，使用 MASK-RCNN[20]网络对场景中的不同对象进行识别，
 并在 SLAM 线程之外添加了一个用于分割的语义线程，以提高系统的实时性。2022 年
 Shuhong Cheng 等人提出的 SG-SLAM[21]在 ORB-SLAM2 的基础框架上添加了两个新的并行
 线程：一个用于获取 2D 语义信息的对象检测线程和一个语义地图线程，然后利用语义信息
 和几何信息快速剔除动态点，使用静态特征点进行位姿估计，将静态物体构建到语义地图中。
      语义 SLAM 代表了 SLAM 技术在理解和应用语义信息方面的进一步演进，为机器在真
 实世界中更智能、更有感知力地行动提供了新的可能性。
 3.理论研究和实际应用方面的意义和价值
      在理论研究方面，语义 SLAM 的深度融合将传统 SLAM 与深度学习技术相结合，拓展
 了环境感知的深度和广度，为机器在复杂场景中的理解提供了更丰富的语义信息。其能够处
                                                                               4
 理动态环境，通过引入语义信息提高系统在现实场景中的鲁棒性，并实现高层次的环境理解。
 此外，语义 SLAM 涉及多传感器融合，如相机、激光雷达、IMU 等，为机器提供全面、多
 维度的感知数据。
      在实际应用方面，语义 SLAM 为智能导航领域提供了更智能的环境感知和理解能力，
 使机器能够更安全、高效地导航。在自动驾驶中，语义 SLAM 通过对道路上的交通标识、行
 人、车辆等进行语义分析，提供了更精准的环境感知，提高了驾驶安全性。在增强现实应用
 中，语义 SLAM 为虚拟对象与真实世界的交互提供准确的定位和语义信息，提升了用户体
 验。此外，语义 SLAM 在环境监测领域也发挥着关键作用，帮助机器更全面地理解环境，适
 应各种复杂情况。
      语义 SLAM 的发展不仅推动了 SLAM 技术的理论进步，也为各种智能系统提供了更强
 大、灵活的环境感知和理解能力，使得机器能够在复杂、动态的现实世界中更加智能和适应
 性强。
 4.主要参考文献
      [1] A. R. Khairuddin, M. S. Talib and H. Haron, "Review on simultaneous localization and
 mapping (SLAM)," 2015 IEEE International Conference on Control System, Computing and
 Engineering (ICCSCE), Penang, Malaysia, 2015, pp. 85-90, doi: 10.1109/ICCSCE.2015.7482163.
      [2]V. Badrinarayanan, A. Kendall and R. Cipolla, "SegNet: A Deep Convolutional Encoder-
 Decoder Architecture for Image Segmentation," in IEEE Transactions on Pattern Analysis and
 Machine Intelligence, vol. 39, no. 12, pp. 2481-2495, 1 Dec. 2017, doi:
 10.1109/TPAMI.2016.2644615.
      [3] J. Redmon, S. Divvala, R. Girshick and A. Farhadi, "You Only Look Once: Unified, Real-
 Time Object Detection," 2016 IEEE Conference on Computer Vision and Pattern Recognition
 (CVPR), Las Vegas, NV, USA, 2016, pp. 779-788, doi: 10.1109/CVPR.2016.91.
      [4]C. Cadena et al., "Past, Present, and Future of Simultaneous Localization and Mapping:
 Toward the Robust-Perception Age," in IEEE Transactions on Robotics, vol. 32, no. 6, pp. 1309-
 1332, Dec. 2016, doi: 10.1109/TRO.2016.2624754.
      [5] H. Durrant-Whyte and T. Bailey, "Simultaneous localization and mapping: part I," in IEEE
 Robotics & Automation Magazine, vol. 13, no. 2, pp. 99-110, June 2006, doi:
 10.1109/MRA.2006.1638022.
      [6] T. Bailey and H. Durrant-Whyte, "Simultaneous localization and mapping (SLAM): part
 II," in IEEE Robotics & Automation Magazine, vol. 13, no. 3, pp. 108-117, Sept. 2006, doi:
 10.1109/MRA.2006.1678144.
      [7]G. Dissanayake, S. Huang, Z. Wang and R. Ranasinghe, "A review of recent developments
 in Simultaneous Localization and Mapping," 2011 6th International Conference on Industrial and
 Information Systems, Kandy, Sri Lanka, 2011, pp. 477-482, doi: 10.1109/ICIINFS.2011.6038117.
      [8] R. F. Salas-Moreno, R. A. Newcombe, H. Strasdat, P. H. J. Kelly and A. J. Davison,
 "SLAM++: Simultaneous Localisation and Mapping at the Level of Objects," 2013 IEEE
 Conference on Computer Vision and Pattern Recognition, Portland, OR, USA, 2013, pp. 1352-1359,
                                                                               5
 doi: 10.1109/CVPR.2013.178.
      [9] R. Mur-Artal, J. M. M. Montiel and J. D. Tardós, "ORB-SLAM: A Versatile and Accurate
 Monocular SLAM System," in IEEE Transactions on Robotics, vol. 31, no. 5, pp. 1147-1163, Oct.
 2015, doi: 10.1109/TRO.2015.2463671.
      [10] Y. Diao, R. Cen, F. Xue and X. Su, "ORB-SLAM2S: A Fast ORB-SLAM2 System with
 Sparse Optical Flow Tracking," 2021 13th International Conference on Advanced Computational
 Intelligence (ICACI), Wanzhou, China, 2021, pp. 160-165, doi:
 10.1109/ICACI52617.2021.9435915.
      [11] C. Campos, R. Elvira, J. J. G. Rodríguez, J. M. M. Montiel and J. D. Tardós, "ORB-
 SLAM3: An Accurate Open-Source Library for Visual, Visual–Inertial, and Multimap SLAM," in
 IEEE Transactions on Robotics, vol. 37, no. 6, pp. 1874-1890, Dec. 2021, doi:
 10.1109/TRO.2021.3075644.
      [12] T. Qin, P. Li and S. Shen, "VINS-Mono: A Robust and Versatile Monocular Visual-Inertial
 State Estimator," in IEEE Transactions on Robotics, vol. 34, no. 4, pp. 1004-1020, Aug. 2018, doi:
 10.1109/TRO.2018.2853729.
      [13] Qin, T., Pan, J., Cao, S., and Shen, S., “A General Optimization-based Framework for
 Local Odometry Estimation with Multiple Sensors”, <i>arXiv e-prints</i>, 2019.
 doi:10.48550/arXiv.1901.03638.
      [14]S. Song, H. Lim, A. J. Lee and H. Myung, "DynaVINS: A Visual-Inertial SLAM for
 Dynamic Environments," in IEEE Robotics and Automation Letters, vol. 7, no. 4, pp. 11523-11530,
 Oct. 2022, doi: 10.1109/LRA.2022.3203231.
      [15] D. Esparza and G. Flores, "The STDyn-SLAM: A Stereo Vision and Semantic
 Segmentation Approach for VSLAM in Dynamic Outdoor Environments," in IEEE Access, vol. 10,
 pp. 18201-18209, 2022, doi: 10.1109/ACCESS.2022.3149885.
      [16] Wu, W., Guo, L., Gao, H. et al. YOLO-SLAM: A semantic SLAM system towards dynamic
 environment with geometric constraint. Neural Comput & Applic 34, 6011–6026 (2022).
 https://doi.org/10.1007/s00521-021-06764-3
      [17] M. Rünz and L. Agapito, "Co-fusion: Real-time segmentation, tracking and fusion of
 multiple objects," 2017 IEEE International Conference on Robotics and Automation (ICRA),
 Singapore, 2017, pp. 4471-4478, doi: 10.1109/ICRA.2017.7989518.
      [18] Lin, TY. et al. (2014). Microsoft COCO: Common Objects in Context. In: Fleet, D., Pajdla,
 T., Schiele, B., Tuytelaars, T. (eds) Computer Vision – ECCV 2014. ECCV 2014. Lecture Notes in
 Computer Science, vol 8693. Springer, Cham. https://doi.org/10.1007/978-3-319-10602-1_48
      [19] M. Runz, M. Buffier and L. Agapito, "MaskFusion: Real-Time Recognition, Tracking and
 Reconstruction of Multiple Moving Objects," 2018 IEEE International Symposium on Mixed and
 Augmented Reality (ISMAR), Munich, Germany, 2018, pp. 10-20, doi:
 10.1109/ISMAR.2018.00024.
      [20] He, K., Gkioxari, G., Dollár, P., and Girshick, R., “Mask R-CNN”, <i>arXiv e-prints</i>,
 2017. doi:10.48550/arXiv.1703.06870.
                                                                               6
      [21] S. Cheng, C. Sun, S. Zhang and D. Zhang, "SG-SLAM: A Real-Time RGB-D Visual
 SLAM Toward Dynamic Scenes With Semantic and Geometric Information," in IEEE Transactions
 on Instrumentation and Measurement, vol. 72, pp. 1-12, 2023, Art no. 7501012, doi:
 10.1109/TIM.2022.3228006.
 4. 已有的工作积累和研究成果
      1）研究生阶段，学习了 SLAM 的基础知识，在 SLAM 方向有一定基础。
      2）在自己的 PC 机上搭建环境，使用单目、双目以及深度相机测试过 ORB-SLAM2 和
 ORB-SLAM3 框架进行稀疏建图，并修改代码使用数据集进行稠密建图的测试。
                                               图 1 单目实时稀疏建图
                                           图 2 数据集构建稠密点云地图
      3）简单了解过一些目标识别的算法理论，在目标识别方面有一定的基础
                                                                               7
 三、学位论文研究计划及预期目标
 1.拟采取的主要理论、研究方法、技术路线和实施方案（可续页）
 1.拟采取的主要理论
      SLAM 系统通常包括五个模块：传感器数据、前端里程计、后端优化、回环检测以及建
 图。
 传感器数据      前端         后端        建图
       视觉里程计      非线性优化
                                              回环检测
                                                 图 3 SLAM 系统流程
      在 SLAM 中传感器有激光雷达、相机、惯性测量单元等，主要为整个 SLAM 系统获取
 环境数据并做一些预处理。前端视觉里程计在相邻图像之间追踪特征点或特征描述符的运
 动，从而推断相机的位姿变化。后端非线性优化后端不同时刻视觉里程计测量的相机位姿，
 以及回环检测的信息，以最小化误差，提高对机器人轨迹和环境地图的估计精度，得到全局
 一致的轨迹和地图。回环检测判断机器人是否到达过先前的位置。如果检测到回环，它会把
 信息提供给后端进行处理。建图部分根据估计的轨迹，建立与任务要求对应的地图。
 2. 研究方法
      1）文献法
      通过文献查询，尤其是关注相关领域具有显著影响力的会议和期刊上近期发表的文章，
 深入了解了语义 SLAM 的最新研究方向。在这个过程中，系统性地总结与语义 SLAM 相关
 的问题、技术等关键内容。通过交流和深入探讨，对这些文献中采用的方法进行了研究和分
 类，以更全面、深入的视角理解语义 SLAM 领域的最新发展趋势。这一过程不仅可以加深
 对当前研究方向的理解，也为进一步的研究和创新提供了有益的参考和启示。
      2）实验法
      通过对文献中采用的方法进行复现，整理实验数据，并对比各种算法的实验结果，从数
 据上直观地评估这些算法。通过实践的过程，不仅可以加深对各种算法的理解，还可以提炼
 并形成对这些算法性能和特性的深刻认识。这样的实验过程不仅有助于积累经验，提升实际
 操作的能力，还为提出新的算法改进的思路奠定基础。动手复现算法，还能够更全面地理解
 算法的细节，从而为今后的研究提供更坚实的实验基础。
 3.技术路线和实施方案
               8
 本论文的总体框架如图 4 所示：        SLAM系统            语义地图
                  目标检测                   深度图像输入
                                          3D物体恢复
        RGB图像输入
                                            点云地图
 目标检测             特征提取           局部地图       物体重建
                                   局部BA
 静态物体语            静态物体前
   义信息              景分割         关键帧剔除
                  物体关联
 等待新图像                跟踪          回环检测
                                回环检测和
                    关键帧
                  相机位姿              修正
                                全局BA和更
                                   新地图
                                                      图 4 算法框架
      室内静态场景下的语义 SLAM 算法研究需要关注静态物体的准确的前景信息静态物体
 的数据关联以及静态物体的准确重建等关键技术方面。主要需要研究物体的前景分割算法、
 静态特征点关联物体以及物体之间的关联、物体在地图上的精准表示等。
      图 4 描述的语义 SLAM 的整体框架，主要分三个模块，目标检测模块、SLAM 系统模
 块以及语义地图模块。目标检测模块对物体进行分割，精确获取目标 2D 检测框，以及物体
 标签等语义信息。SLAM 框架系统接收目标检测部分的输入，获取物体的大致位置信息以及
 对应的语义信息，通过深度、灰度等信息精确分割出物体。语义地图模块将 2D 的物体正确
 关联到 3D 物体，并附上语义信息之后，将其重建在全局地图上。
                         9
 2.研究计划可行性，研究条件落实情况，可能存在的问题及解决办法（可续页）
 1.研究计划可行性
      根据文献调研的结果，当前的 SLAM 系统已经成功将目标识别算法融入系统中，以提
 供更多的信息来对物体进行一定的重建、参与整体优化，从而辅助 SLAM 系统进行更准确
 的自身位姿估计。在实际应用中，对动态物体的判断表现出较好的效果。一些 SLAM 系统
 采用 MSK-RCNN 网络进行像素级掩码分割，还有使用诸如 YoLo 等框架进行目标识别，仅
 获取物体的 2D 检测框信息。
      除了利用语义信息，一些文献中还探讨了使用几何信息的方法。通过一系列算法，如极
 线约束、运动不一致性、深度不一致性等，利用特征点的深度、位置信息来判断连续帧中匹
 配点是否发生了移动。综合利用语义和几何信息的方法为 SLAM 系统提供了更多判断动态
 物体的手段，为提高系统鲁棒性和环境理解能力提供了有效途径。
 2.研究条件
      1）深度摄像机 Astra Pro，是一个单目结构光相机，有一个 RGB 摄像头、一个 IR 摄像
 头以及一个深度处理芯片和麦克风。
      2）rk-3588 开发板，集成了 4 个高性能的 CPU 核心和 4 个低功耗 CPU 核心，同时内置
 了一个高频率的 GPU 和一个 NPU 协处理器。
      3）使用的数据集，如 KITTI、TUM、shibuya 等。
 3.可能存在的问题及解决办法
      1）静态物体前景分割不准确问题
      目标检测框中含有丰富的背景信息，特别是在目标与背景相似或有重叠的情境下，使用
 前景分割算法对物体进行背景分离可能导致物体边界分割的不够精确。直接使用目标检测的
 结果检测框时，就会受到背景的混淆，导致对物体的建模产生较大的误差。针对这个问题，
 可以利用边界上像素点深度值和灰度值的不一致性来进行物体边界的优化。通过分析深度和
 灰度在物体与背景过渡区域的变化，可以更精确地确定物体的边界。从而优化物体边界的分
 割结果，为后续的物体重建和场景理解提供更准确的信息。
      2）物体太近导致的数据关联错误问题
      当多个物体距离非常近或者由于前后遮挡而导致它们的目标框重叠时，可能导致物体关
 联的错误，从而影响物体在优化、重建等过程中的精确度。针对这个问题，可以利用物体上
 的特征点前后匹配结果，借助刚性物体上特征点相对不改变的特性，以及物体运动的一致性
 等条件，对物体进行更精确的分离和重建。
                                                                              10
 3.研究计划及预期成果                                        完成内容
              起止年月                    研究静态物体的前景分割算法
         2023.12-2024.02                  研究静态物体关联方法
 研 2024.02-2024.04              研究物体在语义地图上的准确重建方法
 究                        优化算法，实现更好的效果，发表学术论文一篇
 计 2024.04-2024.06               进行实验，获取数据，发表专利一篇
 划 2024.06-2024.09
                                      完成毕业论文并准备毕业答辩
         2024.09-2024.12
         2024.12-2025.03
   1.预期创新点
         1）提出基于深度和灰度值的静态物体前景分割方法
         2）提出物体数据关联关系的方法
         3）提出高质量构建 3D 语义物体的方法
   2.成果形式
   (1) 学术论文
 预  发表一篇高质量的学术论文。
 期  (2) 专利
 创  申请专利不少于一篇。
 新  (3) 论文
 点  撰写硕士学位论文一篇。
 及
 成
 果
 形
 式
                          11
 四、开题报告审查意见
 1.导师对学位论文选题和论文计划可行性意见，是否同意开题：
 同意开题
 校内导师（组）签字：
                                          2023 年 12 月 25 日
 校外导师签字：
                                          2023 年 12 月 25 日
 2.开题报告考评组意见
 开题日期     2023.12.21  开题地点
 考评专家 庄杰，游长江，朱学勇
 考评成绩     合格 票        基本合格 票       不合格 票
         □通过         □原则通过        □不通过
 结  论 通 过：表决票均为合格
      原则通过：表决票中有 1 票为基本合格或不合格，其余为合格和基本合格
      不 通 过：表决票中有 2 票及以上为不合格
                              12
 考评组对学位论文的选题、研究计划及方案实施的可行性的意见和建议：
         考评组签名：
 3.学院意见：              年月日
                     年月日
         负责人签名：
                 13
--- a/开题/陈佐玓-开题考评纪录表.pdf
+++ b/开题/陈佐玓-开题考评纪录表.pdf
@ -1,40 +0,0 @@
 附件三
 信息与软件工程学院专业学位硕士研究生（含非全日制）
         学位论文开题考评记录表
 姓名： 陈佐玓          学号：                               202222090508
 论文题目： 基于 RGB-D 相机的物体级语义 SLAM 算法研究
     论文选题类型                                        是             否
 软件工程项目类：论文选题源于实际软件工程项目
 应用基础研究(或预研专题)类：论文选题具有明确软件应用背景的
 应用基础研究(或预研专题)
     学位论文开题评阅内容                                    是             否
 软件工程项目类：论文选题是否具有明确的软件工程背景
 应用基础研究类：论文选题是否有相应的研究成果(论文、专利或
 原型系统)为支撑
 论文所拟定题目表述是否清晰，实现目标是否明确，与拟研究或解
 决工程问题是否一致，且无歧义。
 开题报告中所拟定的研究内容是否具体、与实现目标是否一致
 研究内容和工程工作量是否足够，符合专业学位硕士研究生的培养
 专业要求
 开题报告是否体现作者对基础理论和专业知识的应用
                                           总体评阅意见
                 考评组签名：
                         日期：
--- a/开题/陈佐玓-文献综述表.pdf
+++ b/开题/陈佐玓-文献综述表.pdf
@ -1,370 +0,0 @@
 电子科技大学专业学位硕士研究生  学位论文文献综述
 姓名：陈佐玓 学号：202222090508  工程领域：电子信息
 综述题目：基于 RGB-D 相机的物体级语义 SLAM 算法研究
 导师意见：
 校内导师：
 企业方导师：
            基于 RGB-D 相机的物体级语义 SLAM 算法研究
                                   文献综述
 摘要： 传统 SLAM 系统主要依赖于几何信息，然而，在实际应用中，对环境进
 行深度理解所需的信息不仅仅包括几何结构，还需要对环境中不同物体的语义信
 息有更精准的认知。深度学习技术，充分利用图像中的语义信息，不仅能够感知
 环境的形状，还能精准认知其中的不同物体及其语义含义。这种技术的引入为语
 义 SLAM 系统注入了更为高级的理解能力，使机器能够更全面地理解和应对复
 杂的现实世界场景，为智能机器人在导航、交互等任务中提供了更强大的感知和
 认知基础。这一演进推动了 SLAM 技术的发展，将其从传统的几何定位演变为
 对语义信息更敏感的感知系统。
 关键词：目标检测、SLAM、语义、物体重建
 一、研究背景
      由 于 对 机 器 人 在 未 知 环 境 中 实 时 感 知 和 导 航 的 现 实 需 求 ， SLAM
 （Simultaneous Localization and Mapping）开始被研究者提出。自 1986 年首次提
 出以来，SLAM 引起了众多研究人员的广泛关注，并在机器人、虚拟现实等领域
 迅速发展。 SLAM 是指基于位置和地图的自我定位，以及基于自我定位构建增
 量地图。主要用于解决机器人在未知环境中移动时的定位和地图构建问题[1]。
 SLAM 作为一项基础技术，早期已应用于移动机器人定位与导航。随着计算机技
 术（硬件）和人工智能（软件）的发展，机器人研究受到越来越多的关注和投入。
 许多研究人员致力于让机器人变得更加智能。 SLAM 被认为是促进移动机器人
 真正自主的关键。然而，传统 SLAM 主要关注几何信息，对于动态物体和语义
 理解的处理存在一定的局限性。随着对机器人系统功能的不断提升以及对更丰富
 环境理解的需求，语义 SLAM 在广泛的关注之下出现。语义 SLAM 引入语义信
 息，使机器不仅能够理解环境的几何结构，还能够对不同物体进行语义区分，从
 而更全面、深入地理解环境。
 如图 1 所示，视觉 SLAM 和语义 SLAM 相关论文的引用次数正在迅速增加。
 尤其是在 2017 年左右，视觉 SLAM 和语义 SLAM 的引用量猛增。传统的 VSLAM
 研究已经取得了许多进展。为了使机器人能够从更高的层面感知周围环境，语义
 VSLAM 的研究受到了广泛的关注。近年来，语义 SLAM 受到越来越多的关注。
           视觉SLAM  语义SLAM
     6000
     5000
     4000
 引用数  3000
     2000
     1000
       0
           1905
                1905
                     1905
                          1905
                               1905
                                    1905
                                         1905
                                              1905
                                                    1905
                                                         1905
                                                              1905
                                                                   1905
                                                                        1905
                                                                             1905
                                                                                  1905
                                图 1 关于语义 SLAM 的论文数
      视觉 SLAM（VSLAM）由于其传感器成本低廉、易于与其他传感器融合、
 环境信息更丰富等优点而得到迅速发展。传统的基于视觉的 SLAM 研究已经取
 得了许多成果，但在充满挑战的环境中可能无法达到预期的结果[2]。语义 SLAM
 引入神经网络获取图像中的语义信息，辅助 SLAM 系统的进行。但是需要考虑
 目标检测的耗时问题、识别准确率以及物体的构建等问题。
      语义 SLAM 系统由两个基本组件构成：语义提取器和现代 V-SLAM 框架。
 具体来说，语义信息的提取和导出主要经过两个过程，目标检测和语义分割[3]。
 目标检测主要分为有两个阶段：(1) 获取对象的二维位置；(2)分类对象。目标检
 测用于确定相关目标的 2D 位置以及分类，语义分割是在像素级层面进行目标像
 素的获取。V-SLAM 框架整体分为五个部分，如图 2 所示。
 传感器数据          前端      后端                                                               建图
           视觉里程计   非线性优化
                                       回环检测
                                         图 2 SLAM 流程框架
      前端视觉里程计在相邻图像之间追踪特征点或特征描述符的运动，从而推断
 相机的位姿变化。后端非线性优化后端不同时刻视觉里程计测量的相机位姿，以
 及回环检测的信息，以最小化误差，提高对机器人轨迹和环境地图的估计精度，
 得到全局一致的轨迹和地图。回环检测判断机器人是否到达过先前的位置。如果
 检测到回环，它会把信息提供给后端进行处理。建图部分根据估计的轨迹，建立
 与任务要求对应的地图。
 二、研究现状
 2.1 SLAM 发展阶段
      SLAM 技术是机器人领域中一个重要的研究方向，其目标是使移动机器人在
 未知环境中能够实时进行自身位置估计和地图构建。Cesar Cadena 等人将 SLAM
 发展历程分为了三个阶段，如图 3 所示，经典时代(1986-2004)、算法时代(2004-
 2015)以及鲁棒感知时代(2015-现在) [4]。在经典时代，引入了 SLAM 的主要概
 率公式，包括基于扩展卡尔曼滤波器、RaoBlackwellized 粒子滤波器和最大似然
 估计等方法；此外，这个时期还涵盖了与效率和强大的数据关联相关的基本挑战。
 Durrant-Whyte 和 TimBailey 的两项工作[5,6] 对经典时代的早期发展和主要公式
 结论进行了详细回顾，内容基本全面覆盖了整个经典时代的发展。接着是算法时
 代，Gamini Dissanayake 等人的工作[7]回顾内容涵盖这个时期的一些发展，并提
 出了一些 SLAM 面临的一些挑战。目前，我们正处于鲁棒感知时代，其中涉及
 到一些新的挑战如，鲁棒性能、高层次理解、资源感知和任务感知、驱动推理。
                                                                       SLAM的基本特性：
                                                                       可观测性
                                                                       收敛性
                                                                       一致性
                                                                       稀疏性实现高效 SLAM 求解器
                                                                        开源SLAM库
 1986-2004         2004-2015     2015-现在
 经典时期            算法分析时期       鲁棒感知时期
 概率公式：                        新需求：
 扩展卡尔曼滤波器 (EKF)               鲁棒的性能
 粒子滤波器(RBPF)                  高层次的理解
 最大似然估计(MLE)                  资源意识
                             任务驱动的感知
 挑战：
 效率
 鲁棒的数据关联
                                        图 3 SLAM 的发展时期
 2.2 SLAM 分类
      1.视觉 SLAM
      传统的 SLAM 主要依赖于昂贵的激光雷达、IMU 等传感器进行环境感知。
 通过几何特征点的提取和匹配，传统 SLAM 系统能够实现机器人的定位和环境
 地图构建。然而，这些传感器通常较昂贵，限制了 SLAM 系统的广泛应用。随着
 技术的发展，视觉 SLAM(Visual SLAM)开始出现，利用相机等视觉传感器进行
 环境信息的获取，推动了 SLAM 技术的更广泛应用，并催生了多种经典算法。
 2015 年，Mur-Artal 等人提出的 ORB-SLAM[8] 是一种基于特征的单目 SLAM
 系统，可以在小型和大型、室内和室外环境中实时运行，成为模块化 SLAM 领
 域的一项重要工作，很多后续出现的基于特征匹配的 SLAM 系统都是由 ORB-
 SLAM 发展而来。Mur-Artal 等人接下来提出的 ORB-SLAM2[9]，在保持框架整
 体性的基础上，对一些细节进行了改进，使其能够适用于更多种类的相机，包括
 深度相机和双目相机，此外，跟踪线程中引入了预处理模块，最后有一个全局
 BA(Bundle adjustment) 提高系统的鲁棒性；ORB-SLAM3[10]在此基础之上耦合
 了惯导 IMU、加入了融合估计以及子地图功能。另一方面，Tong Qin 等人提出的
 VINS[11,12]系列是不同于 ORB-SLAM 的又一经典框架，支持多种视觉惯性传感
 器类型包括 IMU、GPS 等。
      2.动态 SLAM
      SLAM 框架早期是建立在静态假设成立的基础上，即认为环境中的所有物体
 都是静态不动的，唯一移动的物体是传感器本身。这种假设导致在存在动态物体
 的环境中，位姿估计容易变得不准确，甚至在高度动态的环境中可能完全失效。
 为了解决这一问题，提出了动态场景下的 SLAM，即动态 SLAM(Dynamic SLAM)。
 动态 SLAM 将环境中的物体分为了动态和静态两类来进行区分。在一些动态
 SLAM 中，动态物体被剔除，不纳入位姿估计计算当中。例如，Seungwon Song
 等人提出的 DynaVINS[13]同时估计相机姿势并丢弃与运动前验明显偏离的动态
 对象的特征；Berta Bescos 等人提出的 DynaSLAM[14]通过物体掩码和角度差、
 深度信息来判断物体的状态，并只使用静态区域且非动态物体掩膜的 ORB 特征
 点进行相机位姿估计；Daniela Esparza 等人提出的 STDyn-SLAM[15]采用对极几
 何的方法，通过建立当前帧和上一帧光流, 根据对极几何约束判断是否为动态点，
 从而将动态点剔除。对于连续两帧匹配上的特征点，计算点与极线的距离，如公
 式(1)所示。
         <20><><EFBFBD><EFBFBD><EFBFBD><EFBFBD>(<28><><EFBFBD><EFBFBD><EFBFBD><EFBFBD>′, <20><><EFBFBD><EFBFBD><EFBFBD><EFBFBD>′) = <20><><EFBFBD><EFBFBD><EFBFBD><EFBFBD>′<EFBFBD><E280B2><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD>  (1)
         √(<28><><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD>)21+(<28><><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD>)22
 其中<EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD>(<28><><EFBFBD><EFBFBD><EFBFBD><EFBFBD>′, <20><><EFBFBD><EFBFBD><EFBFBD><EFBFBD>′)就是计算的距离，(<28><><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD>)1和(<28><><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD>)2表示极线元素。由于噪声的存在，
 静态的特征点有一定的概率不在极线上，所以设定距离阈值，大于阈值的认为是
 动态点。
      另一方面，一些 SLAM 框架采用不同的策略，将动态物体位姿进行估计并
 纳入到优化中，一同用来估计相机位姿。如，Yuheng Qiu 等人提出的 AirDOS[16]
 将刚性和运动约束引入模型铰接对象，引入简单而有效的刚性和运动约束一般动
 态铰接物体。通过联合优化相机位姿、物体运动和物体三维结构，来纠正相机位
 姿估计；Shichao Yang 等人提出的 Cubeslam[17] 联合优化摄像机、物体和点的姿
 态。物体可以提供远距离的几何和比例约束，以改进摄像机的姿态估计。待优化
 的最小二乘问题如式(2)所示。
     <20><><EFBFBD><EFBFBD><EFBFBD><EFBFBD>∗,  <20><><EFBFBD><EFBFBD><EFBFBD><EFBFBD>∗,  <20><><EFBFBD><EFBFBD><EFBFBD><EFBFBD>∗  =   lim ⁡      ∑<><E28891><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD>,<2C><><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD>,<2C><><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD>     ∥ <20><><EFBFBD><EFBFBD><EFBFBD><EFBFBD>(<28><><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD>, <20><><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD>) ∥Σ2<CEA3><32><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD>+
                                                         +∥ <20><><EFBFBD><EFBFBD><EFBFBD><EFBFBD>(<28><><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD>, <20><><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD>) ∥2Σ<32><CEA3><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD>
                         {<7B><><EFBFBD><EFBFBD><EFBFBD><EFBFBD>,<2C><><EFBFBD><EFBFBD><EFBFBD><EFBFBD>,<2C><><EFBFBD><EFBFBD><EFBFBD><EFBFBD>}                                                 ⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡(2)
                         ∥ <20><><EFBFBD><EFBFBD><EFBFBD><EFBFBD>(<28><><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD>, <20><><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD>) ∥Σ2<CEA3><32><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD>
 其中 C 表示相机、O 表示物体、P 表示特征点，三个信息共同进行优化。
 3.语义 SLAM
 传统 SLAM 系统主要依赖于几何信息，在某些场景下可能限制了对环境的
 深度理解。随着深度学习技术的兴起，V-SLAM 系统得到了显著的改进。深度学
 习方法被广泛用于图像特征提取、深度图的生成、对抗性训练，可以提高 SLAM
 系统的鲁棒性等性能。深度学习为 V-SLAM 系统获取更多的环境语义信息，增
 强对环境的高层次理解能力，从而更好的感知环境。在 SLAM 系统中加入语义
 信息，可以形成语义 SLAM(Semantic SLAM)。语义 SLAM 利用深度学习网络对
 物体进行分割，能更好的识别可能的动态物体，同时构建出包含语义信息的地图，
 在导航和环境交互等方面有更好的效果。2017 年 Martin R¨unz 等人提出的 Co-
 Fusion[18]利用 SharpMask[19]将场景分割成不同的对象（使用运动或语义线索），
 同时跟踪和重建真实的 3D 形状，并随时间推移改进物体在地图上的模型。2018
 年 Martin R¨unz 等人进行改进，提出了 Mask-Fusion[20]，使用 MASK-RCNN[21]
 网络对场景中的不同对象进行识别，并在 SLAM 线程之外添加了一个用于分割
 的语义线程，以提高系统的实时性。2022 年 Shuhong Cheng 等人提出的 SG-
 SLAM[22]在 ORB-SLAM2 的基础框架上添加了两个新的并行线程：一个用于获
 取 2D 语义信息的对象检测线程和一个语义地图线程，然后利用语义信息和几何
 信息快速剔除动态点，使用静态特征点进行位姿估计，将静态物体构建到语义地
 图中。
 语义 SLAM 的崛起标志着 SLAM 技术在智能感知领域的巨大飞跃。传统
 SLAM 侧重于通过传感器获得环境的几何信息，而语义 SLAM 则将其推向一个
 更为智能化的阶段，引入了对环境中物体语义信息的理解。这不仅使机器能够感
 知到物体的存在，更能够理解它们的含义和相互关系。在自主导航方面，语义
 SLAM 不仅关注机器人在空间中的位置，还注重周围环境中物体的语义理解，使
 机器能够更智能地避障和与环境进行交互。总体而言，语义 SLAM 为各种机器
 人和智能系统赋予了更深层次的感知能力，使它们能够更加智能地与真实世界互
 动。这种技术的进步不仅为科技发展注入新的活力，更为未来智能化社会的建设
 带来了更为广阔的前景。
                                     参考文献
 [1]G. Deng, J. Li, W. Li and H. Wang, "SLAM: Depth image information for mapping and inertial
 navigation system for localization," 2016 Asia-Pacific Conference on Intelligent Robot Systems
 (ACIRS), Tokyo, Japan, 2016, pp. 187-191, doi: 10.1109/ACIRS.2016.7556210.
 [2] W. Chen et al, "An Overview on Visual SLAM: From Tradition to Semantic," Remote Sensing,
 vol. 14, (13), pp. 3010, 2022. Available: https://www.proquest.com/scholarly-journals/overview-
 on-visual-slam-tradition-semantic/docview/2686170995/se-2.                  DOI:
 https://doi.org/10.3390/rs14133010.
 [3] Xia L, Cui J, Shen R, Xu X, Gao Y, Li X. A survey of image semantics-based visual simultaneous
 localization and mapping: Application-oriented solutions to autonomous navigation of mobile
 robots. International Journal of Advanced Robotic Systems. 2020;17(3).
 doi:10.1177/1729881420919185.
 [4]C. Cadena et al., "Past, Present, and Future of Simultaneous Localization and Mapping: Toward
 the Robust-Perception Age," in IEEE Transactions on Robotics, vol. 32, no. 6, pp. 1309-1332, Dec.
 2016, doi: 10.1109/TRO.2016.2624754.
 [5] T. Bailey and H. Durrant-Whyte, "Simultaneous localization and mapping (SLAM): part II," in
 IEEE Robotics & Automation Magazine, vol. 13, no. 3, pp. 108-117, Sept. 2006, doi:
 10.1109/MRA.2006.1678144.
 [6] H. Durrant-Whyte and T. Bailey, "Simultaneous localization and mapping: part I," in IEEE
 Robotics & Automation Magazine, vol. 13, no. 2, pp. 99-110, June 2006, doi:
 10.1109/MRA.2006.1638022.
 [7]G. Dissanayake, S. Huang, Z. Wang and R. Ranasinghe, "A review of recent developments in
 Simultaneous Localization and Mapping," 2011 6th International Conference on Industrial and
 Information Systems, Kandy, Sri Lanka, 2011, pp. 477-482, doi: 10.1109/ICIINFS.2011.6038117.
 [8] R. Mur-Artal, J. M. M. Montiel and J. D. Tardós, "ORB-SLAM: A Versatile and Accurate
 Monocular SLAM System," in IEEE Transactions on Robotics, vol. 31, no. 5, pp. 1147-1163, Oct.
 2015, doi: 10.1109/TRO.2015.2463671.
 [9] Y. Diao, R. Cen, F. Xue and X. Su, "ORB-SLAM2S: A Fast ORB-SLAM2 System with Sparse
 Optical Flow Tracking," 2021 13th International Conference on Advanced Computational
 Intelligence (ICACI), Wanzhou, China, 2021, pp. 160-165, doi:
 10.1109/ICACI52617.2021.9435915.
 [10] C. Campos, R. Elvira, J. J. G. Rodríguez, J. M. M. Montiel and J. D. Tardós, "ORB-SLAM3:
 An Accurate Open-Source Library for Visual, Visual–Inertial, and Multimap SLAM," in IEEE
 Transactions on Robotics, vol. 37, no. 6, pp. 1874-1890, Dec. 2021, doi:
 10.1109/TRO.2021.3075644.
 [11] T. Qin, P. Li and S. Shen, "VINS-Mono: A Robust and Versatile Monocular Visual-Inertial State
 Estimator," in IEEE Transactions on Robotics, vol. 34, no. 4, pp. 1004-1020, Aug. 2018, doi:
 10.1109/TRO.2018.2853729.
 [12] Qin, T., Pan, J., Cao, S., and Shen, S., “A General Optimization-based Framework for Local
 Odometry Estimation with Multiple Sensors”, <i>arXiv e-prints</i>, 2019.
 doi:10.48550/arXiv.1901.03638.
 [13] S. Song, H. Lim, A. J. Lee and H. Myung, "DynaVINS: A Visual-Inertial SLAM for Dynamic
 Environments," in IEEE Robotics and Automation Letters, vol. 7, no. 4, pp. 11523-11530, Oct. 2022,
 doi: 10.1109/LRA.2022.3203231.
 [14] B. Bescos, J. M. Fácil, J. Civera and J. Neira, "DynaSLAM: Tracking, Mapping, and Inpainting
 in Dynamic Scenes," in IEEE Robotics and Automation Letters, vol. 3, no. 4, pp. 4076-4083, Oct.
 2018, doi: 10.1109/LRA.2018.2860039.
 [15] D. Esparza and G. Flores, "The STDyn-SLAM: A Stereo Vision and Semantic Segmentation
 Approach for VSLAM in Dynamic Outdoor Environments," in IEEE Access, vol. 10, pp. 18201-
 18209, 2022, doi: 10.1109/ACCESS.2022.3149885.
 [16] Qiu, Y., Wang, C., Wang, W., Henein, M., and Scherer, S., “AirDOS: Dynamic SLAM benefits
 from Articulated Objects”, <i>arXiv e-prints</i>, 2021. doi:10.48550/arXiv.2109.09903.
 [17] S. Yang and S. Scherer, "CubeSLAM: Monocular 3-D Object SLAM," in IEEE Transactions
 on Robotics, vol. 35, no. 4, pp. 925-938, Aug. 2019, doi: 10.1109/TRO.2019.2909168.
 [18] M. Rünz and L. Agapito, "Co-fusion: Real-time segmentation, tracking and fusion of multiple
 objects," 2017 IEEE International Conference on Robotics and Automation (ICRA), Singapore,
 2017, pp. 4471-4478, doi: 10.1109/ICRA.2017.7989518.
 [19] Lin, TY. et al. (2014). Microsoft COCO: Common Objects in Context. In: Fleet, D., Pajdla, T.,
 Schiele, B., Tuytelaars, T. (eds) Computer Vision – ECCV 2014. ECCV 2014. Lecture Notes in
 Computer Science, vol 8693. Springer, Cham. https://doi.org/10.1007/978-3-319-10602-1_48
 [20] M. Runz, M. Buffier and L. Agapito, "MaskFusion: Real-Time Recognition, Tracking and
 Reconstruction of Multiple Moving Objects," 2018 IEEE International Symposium on Mixed and
 Augmented Reality (ISMAR), Munich, Germany, 2018, pp. 10-20, doi:
 10.1109/ISMAR.2018.00024.
 [21] He, K., Gkioxari, G., Dollár, P., and Girshick, R., “Mask R-CNN”, <i>arXiv e-prints</i>, 2017.
 doi:10.48550/arXiv.1703.06870.
 [22] S. Cheng, C. Sun, S. Zhang and D. Zhang, "SG-SLAM: A Real-Time RGB-D Visual SLAM
 Toward Dynamic Scenes With Semantic and Geometric Information," in IEEE Transactions on
 Instrumentation and Measurement, vol. 72, pp. 1-12, 2023, Art no. 7501012, doi:
 10.1109/TIM.2022.3228006.