add notes
This commit is contained in:
		
							parent
							
								
									3987f5cbce
								
							
						
					
					
						commit
						eb12a657bb
					
				| @ -1,11 +1,33 @@ | ||||
| # 2D-Generation | ||||
| Stable Diffusion3 | ||||
|     Stable Diffusion3:《Scaling Rectified Flow Transformers for High-Resolution Image Synthesis》 | ||||
|  | ||||
| * 在线网站:https://stability.ai/stablediffusion3 | ||||
| * 论文链接:https://stability.ai/news/stable-diffusion-3-research-paper | ||||
| * 模型链接:https://stability.ai/news/stable-diffusion-3-medium | ||||
| 2024年2月22日,Stability AI发布早期预览版的Stable Diffusion 3,这是Stability AI性能最强大的文图生成模型,大大提高了在多主题提示、图像质量和拼写能力方面的表现。 | ||||
| 
 | ||||
| 扩散模型通过反转数据到噪声的正向路径来从噪声中创建数据,并已成为处理高维感知数据(如图像和视频)的强大生成建模技术。Rectified flow是一种最近提出的生成模型形式,它将数据和噪声连接在一条直线上。尽管其具有更好的理论性质和概念上的简单性,但它尚未被明确确定为标准实践。 | ||||
| 
 | ||||
| # 3D-Generation | ||||
| Wonder3D | ||||
|     Wonder3D | ||||
| * 论文链接:https://arxiv.org/abs/2310.15008 | ||||
| * 代码链接:https://github.com/xxlong0/Wonder3D | ||||
| 
 | ||||
| 随着扩散模型的提出,3D 生成领域取得了长足进步。从单张图片重建出 3D 几何是计算机图形学和 3D 视觉的基础任务,在 VR、游戏、3D 内容生成、机器人领域有广泛的应用。由于该任务是不适定的,需要推理出可见和不可见区域的 3D 几何结构。该种能力的构建需要大量的 3D 世界的知识。 | ||||
| 
 | ||||
| 部分工作(如 DreamField, DreamFusion, Magic3D)需要通过 score distillation sampling 来蒸馏 2D 图像扩散模型或视觉语言模型的先验知识,从文本或图像创建出 3D 模型。尽管这些方法的结果很吸引人,但都面临着两个问题:效率和一致性。 | ||||
| 
 | ||||
| 效率问题:为了生成一个满意的 3D 模型,这些基于 SDS 的方法的优化过程通常需要数万次迭代,包括全图渲染和扩散模型的推理,导致每次形状优化可能需要几个小时。需要对每个候选形状进行多次迭代优化,每次迭代都需要评估和调整模型参数。 | ||||
| 一致性问题:2D 先验模型在每次迭代时只考虑一个视角,使得每个视角都接近于输入图像,这会造成生成的 3D 形状不一致,如 Janus 问题。 | ||||
| 
 | ||||
|     “Janus problem”(雅努斯问题)是在3D内容创建领域,尤其是基于文本或图像提示生成3D模型时遇到的一个特定问题。这个问题通常指的是,当使用2D图像扩散模型或视觉语言模型来生成3D模型时,模型可能无法准确捕捉文本提示中特定视角的信息,导致生成的3D模型在不同视图下出现不一致性,例如,一个物体的正面视图特征(如面部或头部)错误地出现在其他视图中,从而产生多面或不一致的3D模型。 | ||||
| 
 | ||||
| Wonder3D 的新方法,它是一种从单视图 3D 重建的新方法,与以往方法不同,这种方法侧重于生成多视图一致的法线贴图和彩色图像。为了解决保真度、一致性、泛化性和效率的问题,它用了一个跨域扩散模型,这是一种能同时处理两种不同类型数据(法线和颜色)的模型。核心思想是扩展 stable diffusion,对两个不同域(法线和色彩)的协同分布来建模。Domain switcher 允许扩散模型根据需要生成法线贴图或彩色图像,增加了模型的灵活性。跨域注意力机制则在这两个域之间传递信息,提升生成图像的一致性和质量。为了从生成的视图中稳定地提取表面,作者提出了一种几何感知的法线融合算法。这种算法对不准确性具有鲁棒性,并能够重建干净、高质量的几何形状。 | ||||
| 
 | ||||
|  | ||||
| 
 | ||||
| # Video Generation | ||||
| KLING | ||||
|     KLING | ||||
| 
 | ||||
| #  | ||||
| # NLP Tasks | ||||
|     SEDD | ||||
| @ -1,33 +1,22 @@ | ||||
| # Diffusion | ||||
| Introduced by Ho et al. in Denoising Diffusion Probabilistic Models https://arxiv.org/pdf/2006.11239v2 | ||||
|  | ||||
|  | ||||
| ## 1.Description | ||||
| 
 | ||||
| ## 2.Background | ||||
| 各式各样的深度生成模型最近都表现出了高质量样本数据模式:生成对抗网络GANs、自回归模型、流和变分自编码器VAE已经合成出了图像和样本 | ||||
| 
 | ||||
| 扩散模型(Diffusion Probabilistic model)是一个参数化马尔可夫链 | ||||
| 扩散模型通过一个特殊的退化过程,逐步地恢复图像,它采用了一个前向马尔可夫链和反向马尔可夫链。在扩散模型中,正向过程涉及一个马尔可夫链,它将数据逐步转化为噪声。 | ||||
| 
 | ||||
| ## 3.Papers & Methods | ||||
| *  | ||||
| * | ||||
| * | ||||
| * | ||||
| 
 | ||||
| ## 4.Networks | ||||
| 
 | ||||
| 
 | ||||
| ## 5.Comparision | ||||
| | Method | Venue | | | | ||||
| |--|--|--|--| | ||||
| |  |  |  |    | | ||||
| 
 | ||||
| 
 | ||||
| ## 1.Denoising | ||||
| ### 1)Description | ||||
| 
 | ||||
| ### 2) | ||||
| 
 | ||||
| 
 | ||||
| 
 | ||||
| 
 | ||||
| ## 2.Image Generation | ||||
| 
 | ||||
|  | ||||
| Before Width: | Height: | Size: 188 KiB After Width: | Height: | Size: 188 KiB | 
							
								
								
									
										
											BIN
										
									
								
								Docs/2024-10-25/imgs/StableDiffusion3.png
									
									
									
									
									
										Normal file
									
								
							
							
						
						
									
										
											BIN
										
									
								
								Docs/2024-10-25/imgs/StableDiffusion3.png
									
									
									
									
									
										Normal file
									
								
							
										
											Binary file not shown.
										
									
								
							| After Width: | Height: | Size: 2.0 MiB | 
							
								
								
									
										
											BIN
										
									
								
								Docs/2024-10-25/imgs/Wonder3D.png
									
									
									
									
									
										Normal file
									
								
							
							
						
						
									
										
											BIN
										
									
								
								Docs/2024-10-25/imgs/Wonder3D.png
									
									
									
									
									
										Normal file
									
								
							
										
											Binary file not shown.
										
									
								
							| After Width: | Height: | Size: 984 KiB | 
| @ -1,18 +1,16 @@ | ||||
| # 2024-10-24感知智能组会汇报 | ||||
| # 2024-10-25感知智能组会汇报 | ||||
| # 一、近期工作 | ||||
| ## 1.论文阅读 | ||||
| ### 1)其他领域 | ||||
| 
 | ||||
| ### 2)MAE相关 | ||||
| 
 | ||||
| 
 | ||||
| ## 1.申报书撰写 | ||||
| 2024-10-19~2024-10-21 和芳州一起完成项目申报书的撰写 | ||||
| ## 2.文章调研 | ||||
| 
 | ||||
| 2024-10-22~2024-10-24 进行AIGC相关文章的调研 | ||||
| ## 3.比赛申报 | ||||
| 2024-10-24~2024-10-25 基于师兄给的材料完成比赛的申报 | ||||
| 
 | ||||
| # 二、未来规划 | ||||
| ## 1.文章调研 | ||||
| 
 | ||||
| 继续完成Diffusion部分网络结构的调研,预计在下周输出一份完整文档 | ||||
| ## 2.项目代码 | ||||
| 
 | ||||
| 继续挖掘预训练模型的finetune方法和运用 | ||||
| ## 3.反思思考 | ||||
| 
 | ||||
| 在Image Generation和Image Reconstruction部分找思路,预计在下周输出文档的基础上对现有思路进行整合 | ||||
		Loading…
	
	
			
			x
			
			
		
	
		Reference in New Issue
	
	Block a user