commit d1ceafe362c58f17b43431172d0ce42b53609e3f
Author: 杨思洁 <1065715764@qq.com>
Date:   Thu Oct 17 20:46:32 2024 +0800

    上传文件至 2024-10-17
    
    2024-10-17组会汇报内容

diff --git a/2024-10-17/report_1017.md b/2024-10-17/report_1017.md
new file mode 100644
index 0000000..0a9ba8f
--- /dev/null
+++ b/2024-10-17/report_1017.md
@@ -0,0 +1,45 @@
+# 2024-10-17感知智能组会汇报
+# 一、近期工作
+## 1.论文阅读
+### 1）其他领域
+* 在之前对于遮挡图像补全的探索上阅读了三维重建有关的Vid2Avatar和Wild2Avatar论文，试图对我们自己的方法进行启示。
+* 三维重建方向的论文主要依赖于对象的几何轮廓，还需要使用三维信息，但我们是基于二维图像考虑，结合Wild2Avatar方法的思路，针对二维图像和MAE可以从以下部分进行考虑：
+    * 由于二维图像中存在遮挡的不规则性，可以考虑边缘检测/轮廓提取对遮挡部分进行提取；
+    * 利用二维图像中阴影层次，比如光照、纹理的变化，引入深度估计网络；
+    * 引入语义，针对遮挡的部分或部位进行划分；
+    * 引入注意力机制；
+### 2）MAE相关
+* 对之前所看过的MAE相关文章进行阅读，找是否可以直接使用的预训练模型。
+    * MixMAE：针对两个图像进行输入变成混合图像，再将这两张图像分别重建，避免处理无效掩码区域：将遮挡/非遮挡图像进行输入，添加边缘检测模块，但可能和原文章结构不符；
+    * UM-MAE：针对多尺度的特征，引入Pyramid-based ViT为编码器，使用单一输入：如果只使用遮挡后的图像，或许需要引入语义和注意力；
+* 其他方面的论文还在探索
+
+## 2.文章调研
+针对近两年各大顶会和期刊寻找图像补全/语义补全/遮挡补全方向
+大致着眼于：denoising、diffusion、image generation、image reconstruction、inpainting方面，目前针对网络结构的调研还在持续中
+
+# 二、未来规划
+## 1.文章调研
+继续调研，完成对该类方向的信息搜索和整理收集
+## 2.项目代码
+按照上面的想法对预训练模型进行更改
+## 3.反思思考
+我们针对的方法是面向2D-image的生成，像Wild2Avatar方法是面向3D-video去进行遮挡部分的还原，主要设计三维重建方面的知识，需要利用各个角度下的三维位置信息和像素进行预测。
+
+MAE相关的衍生方向有很多，关于很多下游任务也有实现，MAE只是一个预训练框架，可以进行改变。
+* 着重研究：之前看过的几篇MAE有关的论文是怎么对MAE进行更改的，有什么不同之处，在什么方面进行了应用，实验是怎样的，参数量是怎样的
+* 如果要将我们的方法和MAE进行结合，要怎么结合？
+
+思考下可行性：
+* 对Encoder的增强：在原先的基础上+特征提取器，比如边缘检测/深度估计，因为遮挡是不规则的
+* 引入Attention：通过多层注意力机制处理全局上下文
+* 结合Sub-task：语义分割、边缘检测。是否需要引入语义有关的模块来对图像中的类别进行更好分析
+* 对数据的处理：data augmentation去模拟遮挡，噪声？人为遮挡？
+
+使用子任务去复现：
+* 加模块去看提升？——需要考虑下游任务吗？需要在遮挡行人重识别上去做吗？
+* 考虑耗费的gpu资源
+
+明确我们要做的具体目标是？
+* 针对行人去做：前景和背景的分离？如果针对行人去做，是否需要对行人进行姿态估计？如何预测？
+* 不针对行人，只泛指一般图像去做？
\ No newline at end of file