免费观看又色又爽又黄的小说免费_美女福利视频国产片_亚洲欧美精品_美国一级大黄大色毛片

輕量php框架模型更新了!大規模視覺表征學習的新時代來了php框架教程

2023-11-11    分類: 網站建設

模型已更新!

經過數十年的基礎研究,視覺識別領域迎來了大規模視覺表示學習的新時代。 預訓練的大規模視覺模型已成為特征學習和視覺應用的基本工具。 視覺表示學習系統的性能在很大程度上受三個主要因素的影響:模型的神經網絡架構、用于訓練網絡的方法和訓練數據。 每個因素的改進都有助于模型整體性能的提高。

神經網絡架構設計的創新一直在表示學習領域發揮著重要作用。 創新互聯架構()對計算機視覺研究產生了重大影響,使得在各種視覺識別任務中使用通用特征學習方法成為可能,而無需依賴人工實現的特征工程。 近年來,最初為自然語言處理而開發的架構因其對不同規模的模型和數據集的適用性而開始廣泛應用于其他深度學習領域。

架構的出現使傳統架構現代化,表明純卷積模型也可以適應模型和數據集的規模變化。 然而,探索神經網絡架構設計空間的最常用方法仍然是監督學習的性能基準測試。

另一種思路是將視覺表示學習的重點從標記監督學習轉移到自我監督預訓練。 自監督算法將掩碼語言建模引入視覺領域,并迅速成為視覺表示學習的流行方法。 然而,自我監督學習通常使用專為監督學習設計的架構,并假設該架構是固定的。 例如,掩碼自動編碼器 (MAE) 使用視覺架構。

一種方法是將這些架構與自我監督學習框架相結合,但面臨一些特定問題。 例如,當與 MAE 結合時會出現一個問題:MAE 具有針對序列處理能力優化的特定編碼器-解碼器設計,這使得計算密集型編碼器專注于那些可見的,從而降低預訓練成本。 但這種設計可能與使用密集滑動窗口的標準設計不兼容。 此外,如果不考慮架構與訓練目標之間的關系seo優化,是否可以實現最佳性能尚不清楚。 事實上,已經表明使用基于掩碼的自監督學習進行訓練是困難的,并且實驗證據表明 ,并且可能在特征學習中發散,影響最終表示的質量。

為此,來自 Meta 和紐約大學的研究人員(包括一位作者劉莊和一位作者謝賽寧)提出在同一框架下共同設計網絡架構和掩碼自動編碼器。 這樣做的目的是讓基于mask的自監督學習能夠擬合模型并得到媲美的結果。

論文地址:

在設計掩碼自動編碼器時,該研究將掩碼輸入視為稀疏集,并使用稀疏卷積來處理可見部分。 這個想法的靈感來自于在處理大規模 3D 點云時使用稀疏卷積。 具體來說,該研究提出實現稀疏卷積,然后在微調時,可以將權重轉換回標準的密集網絡層,無需特殊處理。 為了進一步提高預訓練效率,本研究將解碼器替換為單個解碼器網站制作,使整個設計完全卷積。 研究人員觀察到,加入這些變化后:學習到的特征是有用的,提高了基線結果,但微調后的性能仍然不如基礎模型。

然后,該研究分析了不同訓練配置的特征空間。 當直接對屏蔽輸入進行訓練時,我們發現 MLp 層中存在潛在的特征崩潰 ( ) 問題。 為了解決這個問題,本研究提出添加一個全局響應歸一化層 ( ) 來增強通道之間的特征競爭。 當使用屏蔽自動編碼器對模型進行預訓練時,這種改進最為有效,這表明在監督學習中重用固定架構設計可能不是最佳選擇。

基于以上改進,本研究提出了 V2,它在與掩碼自動編碼器結合時表現出更好的性能。 同時,研究人員發現,V2 在各種下游任務上比 pure 有顯著的性能提升輕量php框架,包括 上的分類任務、COCO 上的目標檢測和 上的語義分割。

方法介紹

全卷積屏蔽自動編碼器

本研究中提出的方法在概念上很簡單,并且以完全卷積的方式運行。 學習信號是通過以高掩蔽率隨機掩蔽原始視覺輸入,然后讓模型從其余部分預測缺失部分來生成的。 整體框架如下圖所示。

該框架由一個基于稀疏卷積的編碼器和一個輕量級解碼器組成,其中自動編碼器的結構是不對稱的。 編碼器僅使用可見像素,而解碼器使用編碼像素和掩碼來重建圖像。 同時,loss只在區域計算。

全局響應標準化

大腦中有許多促進神經元多樣性的機制。 例如,側抑制可以幫助增強激活神經元的反應,增加單個神經元對刺激的對比度和選擇性,同時還增加神經元群體之間反應的多樣性。 在深度學習中,這種形式的橫向抑制可以通過響應歸一化 ( ) 來實現。 該研究引入了一個新的響應歸一化層輕量php框架,稱為全局響應歸一化 (GRN),旨在提高跨通道的對比度和選擇性。 GRN 單元包括三個步驟:1)全局特征聚合,2)特征歸一化,以及 3)特征校準。 如下圖所示,可以將GRN層合并到原始塊中。

研究人員根據實驗發現,在應用GRN時,不需要,可以刪除。 使用這種新的塊設計,該研究創建了各種具有不同效率和容量的模型,他們將其稱為 V2 模型系列,從輕量級 (Atto) 到計算密集型 (Huge)。

為了評估 GRN 的效果,該研究使用該框架來預訓練 V2。 從下圖 3 的可視化和圖 4 的余弦距離分析可以看出,V2 有效地緩解了特征崩潰問題。 余弦距離值一直很高,說明可以通過網絡層傳輸保持特征多樣性。 這類似于使用 MAE 預訓練的 ViT 模型。 這表明在相似的掩碼圖像預訓練框架下,V2 的學習行為與 ViT 相似。

該研究進一步評估了微調性能,結果如下表所示。

當配備 GRN 時,預訓練模型可以顯著優于使用 300 訓練的監督模型。GRN 通過增強特征多樣性來提高表示質量,這對于基于掩碼的預訓練至關重要,而 V1 模型中不存在。 值得注意的是,這種改進是在沒有增加額外參數開銷的情況下實現的,也沒有增加 .

最后,該研究還檢驗了 GRN 在預訓練和微調中的重要性。 如下表2(f)所示,無論是從fine-中移除GRN還是在fine-過程中加入新初始化的GRN,性能都明顯下降,這說明GRN在預訓練和微調中的重要性。

本文標題:輕量php框架模型更新了!大規模視覺表征學習的新時代來了php框架教程
轉載注明:http://m.newbst.com/news3/293753.html

成都網站建設公司_創新互聯,為您提供網站收錄網站導航做網站App設計云服務器定制開發

廣告

聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯

外貿網站建設