5. 擴散模型 (Diffusion Models)_ 「二, AI 算法簡介」

2024年8月22日
讀畢需時 3 分鐘

已更新：2024年11月5日

把原先的圖案像素擴散打散,再讓AI 識別出在各時間下, 原先每ㄧ像素的大體擴散趨勢, 回朔趨勢還原圖片, 以分析出該類圖片的像素組成特徵。

AI 分析大量有序圖案的像素排列方式, 找出該類圖案像素的組成特徵。

影片原理詳細解釋: 人工智慧博士生告訴你SORA擴散模型究竟是怎麼產生影片的？ https://www.youtube.com/watch?v=FMKa4075VZg&t=512s

穩定擴散架構

UNet 是穩定擴散（Stable Diffusion）中最大組件模型。

生成高質量圖像通常需要多個步驟，通常爲 20 步或更多。

需要大量計算資源。

U-Net

U-Net：圖像分割的深度學習模型引言在醫學影像分析和計算機視覺領域，圖像分割是一項關鍵任務。

U-Net是一種專門設計用於圖像分割的深度學習模型，自2015年由Olaf Ronneberger等人提出以來，已成為該領域的標準架構之一。

本文將探討U-Net的結構、工作原理及其應用。

1.U-Net的基本結構U-Net的名稱源自其獨特的U形架構，包含兩個主要部分：收縮路徑（Encoder）和擴展路徑（Decoder）。

1.1 收縮路徑收縮路徑由一系列卷積層和池化層組成，用於提取圖像的特徵。每一層都包含兩個卷積操作，通常使用ReLU激活函數，並緊接著一個最大池化層。這一過程逐漸減少圖像的空間維度，同時增強特徵的抽象程度。

1.2 擴展路徑擴展路徑則由上採樣（通常使用轉置卷積）和卷積層組成，目的是將特徵圖恢復到與原始圖像相同的尺寸。每次上採樣後，U-Net會將來自收縮路徑的特徵圖與當前層的特徵圖相連接，這一跳躍連接（skip connections）有助於保留高解析度的細節信息。

1.3 最終層

在擴展路徑的最後一層，U-Net使用一個1x1的卷積層來將特徵圖映射到所需的類別數量，這樣可以為每個像素分配一個類別標籤。

2. U-Net的優勢U-Net的設計使其在圖像分割任務中具有多項優勢：

高效性：U-Net能夠在較少的訓練數據上學習，這對於醫學影像等數據稀缺的領域至關重要。

精確度：跳躍連接能夠有效地保留圖像的細節，這對於精確分割邊界至關重要。靈活性：U-Net可廣泛應用於不同類型的圖像分割任務，無論是醫學影像、衛星圖像還是其他類型的圖像。

3. U-Net的應用U-Net在多個領域展現了其卓越的性能，主要包括：

3.1 醫學影像分析在醫學影像領域，U-Net被廣泛用於腫瘤檢測、器官分割等任務。其能夠準確區分病變組織與正常組織，輔助醫生進行診斷

3.2 自然圖像分割U-Net也被應用於自然圖像的物體分割，幫助識別和分割圖像中的特定物體，如道路、建築物等。

3.3 衛星圖像處理在遙感技術中，U-Net可以用於土地覆蓋分類、城市規劃等任務，從衛星圖像中提取重要信息。

4. 影響與未來U-Net的提出不僅提高了圖像分割的準確性，同時也促進了許多後續研究的發展。

許多改進版本和變體如Attention U-Net、ResU-Net等相繼出現，進一步提升了模型的性能。

隨著技術的進步，U-Net的應用範圍將繼續擴展，並在AI醫療、智能交通和環境監測等多個領域發揮重要作用。

UNet 的低分辨率特徵可以在不明顯改變的情况下進行擾動，而對 UNet 高分辨率特徵的小擾動則會降低圖像生成的質量。

時鐘工作架構

高效近似：

通過從之前的步驟進行適應，來高效地近似低分辨率特徵。

訓練適配器

蒸餾過程：

通過對所有去噪步驟的完整 UNet 進行蒸餾。

時鐘工作架構利用擾動魯棒性來節省計算資源，幷且可以提升任何擴散模型的性能（FLOPS 减少超過 1.4 倍）

生成視頻編輯的潜力

穩定擴散架構

給定一個輸入視頻和描述編輯的文本提示，生成一個新視頻。

關鍵挑戰：

1.時間一致性

2.高計算成本

使生成視頻方法在設備端的人工智能中高效

對 FAIRY1（一個視頻到視頻的生成人工智能模型）進行優化

第 1 階段：從錨幀中提取狀態

第 2 階段：在剩餘幀中編輯視頻

在設備上啓用的步驟

在生成視頻或圖像時，優化不同幀之間的關係，以提高效率和一致性
高效的 instructPix2Pix：優化 instructPix2Pix 模型，以减少計算資源消耗幷提高處理速度
圖像/文本引導條件：使用圖像和文本提示來指導生成過程，以便更好地滿足用戶的需求

快速FAIRY 结果

通過顯著减少計算和內存，使生成視頻在設備上變得可行。

5. 擴散模型 (Diffusion Models)_ 「二, AI 算法簡介」

最新文章

Comentarios