過去五年里，AI圖像生成技術(shù)走了多遠(yuǎn)？

AI可以設(shè)計(jì)圖像了，設(shè)計(jì)師和藝術(shù)家會(huì)失業(yè)嗎？

成都創(chuàng)新互聯(lián)-專業(yè)網(wǎng)站定制、快速模板網(wǎng)站建設(shè)、高性價(jià)比集安網(wǎng)站開發(fā)、企業(yè)建站全套包干低至880元,成熟完善的模板庫,直接使用。一站式集安網(wǎng)站制作公司更省心,省錢,快速模板網(wǎng)站建設(shè)找我們，業(yè)務(wù)覆蓋集安地區(qū)。費(fèi)用合理售后完善，十多年實(shí)體公司更值得信賴。

神譯局是36氪旗下的編譯團(tuán)隊(duì)，關(guān)注科技、商業(yè)、職場(chǎng)、生活等領(lǐng)域，重點(diǎn)介紹外國的新技術(shù)、新觀點(diǎn)、新風(fēng)向。

編者按：近年來，AI生成圖像技術(shù)已經(jīng)得到了質(zhì)的飛躍。作者通過介紹人工智能研究組織 OpenAI 的最新圖像生成技術(shù) DALL-E，向讀者們展示過去五年里這項(xiàng)研究的發(fā)展歷程。本文來自Medium，作者Dave Gershgorn，原文標(biāo)題：Take a Look at How Far Image Generation A.I. Has Come in Just 5 Years。

OpenAI （一個(gè)非盈利的人工智能研究組織——譯者注）現(xiàn)在已經(jīng)成為了人工智能工業(yè)體系中最具未來感的原型。

這家由微軟支持的研究機(jī)構(gòu)是創(chuàng)業(yè)孵化器 Y Combinator 的項(xiàng)目，機(jī)構(gòu)創(chuàng)始人是山姆·阿爾特曼（Sam Altman）。該機(jī)構(gòu)以強(qiáng)大的文本生成器 GpT-3 而聞名業(yè)界。近幾年來，它還制造了一個(gè)可以通過自主學(xué)習(xí)解魔方的機(jī)器手，一個(gè)可以譜曲的、為游戲提供復(fù)雜策略的算法。

不久前，OpenAI 又發(fā)布了名叫 DALL-E 的新系統(tǒng)，這是一種可以基于書面文本自動(dòng)生成圖像的系統(tǒng)。例如，輸入文字“牛油果形狀的皮革錢包”，該系統(tǒng)就會(huì)通過這一指令進(jìn)行數(shù)次迭代，最終生成各類圖像。

DALL-E 的名字靈感來自超現(xiàn)實(shí)主義畫家薩爾瓦多·達(dá)利（Salvador Dalí）和動(dòng)畫形象 WALL-E。此次發(fā)布新系統(tǒng)時(shí)，公司并未將系統(tǒng)對(duì)公眾開放，甚至沒有邀請(qǐng)?zhí)囟ǖ拈_發(fā)人員嘗試系統(tǒng)。但其網(wǎng)站上的圖畫表明，該系統(tǒng)已經(jīng)能夠創(chuàng)建極其逼真細(xì)致的圖像了。

DALL-E 還可以生成各種風(fēng)格的圖像，包括插圖和風(fēng)景。它還可以在圖片上生成一些文本，比如在建筑上建立文字標(biāo)志，或者在制作草圖和全彩成品圖之間作區(qū)分。

人工智能研究人員將這種技術(shù)稱之為泛化技術(shù)（generalization，有時(shí)也稱作概念化技術(shù)——譯者注），因?yàn)檫@種技術(shù)意味著算法對(duì)每一項(xiàng)指令多會(huì)進(jìn)行多種風(fēng)格的創(chuàng)作，而不會(huì)滿足于特定的某一種風(fēng)格。

OpenAI 的算法之所以如此熟練，要?dú)w因于兩個(gè)因素。首先，這種算法使用了120億參數(shù)，這使得它能更快的理解文本內(nèi)容。在分析文本的過程中，這120億參數(shù)可以使它生成精確、令人驚嘆的圖像作品。

其次，將圖像和文本資料放進(jìn)算法里也是有講究的。一言蔽之，這些圖像和文本都被轉(zhuǎn)化成了算法更容易理解的文本或Token令牌。

在 OpenAI一篇關(guān)于DALL-E的博客文章上，作者這樣解釋Token令牌：它們代表了一種碎片化的、更易于電腦讀取的概念，一種專門為算法設(shè)計(jì)的語言。這種計(jì)算機(jī)語言字母表包含了16384個(gè)和文本有關(guān)的Token令牌，還有8192個(gè)和圖像有關(guān)的Token令牌。這種將人類可讀文本自動(dòng)轉(zhuǎn)換成機(jī)器可讀文本的方法被稱之為“transformer 模型”。

當(dāng)我們給算法一個(gè)文本或者一個(gè)圖片注釋時(shí)，人類語言會(huì)被轉(zhuǎn)化成不超過256個(gè)Token令牌，圖片會(huì)被轉(zhuǎn)化為最多1024個(gè)Token令牌。這使得算法可以通過較少的文本匹配較復(fù)雜的圖像。

最后，這種算法會(huì)通過分析圖像和圖片注釋進(jìn)行學(xué)習(xí)。通過數(shù)百萬次的迭代，它可以將文本片段和圖像的特點(diǎn)相關(guān)聯(lián)。OpenAI 此次并沒有發(fā)布關(guān)于數(shù)據(jù)集大小和圖像內(nèi)容的相關(guān)信息。

該公司不是第一個(gè)致力于研究文字生成圖像技術(shù)的公司，只不過該公司推出的是算法類別的最新版本，目前來說功能或許是最強(qiáng)大的。雖然公司尚未發(fā)布描述該系統(tǒng)的相關(guān)文章，但該算法的創(chuàng)建者的確在其博客文章中描述了 DALL-E 的前身。通過對(duì)這一算法發(fā)展?fàn)顩r的觀察，我們可以追蹤到這一技術(shù)的發(fā)展?fàn)顩r。

2016年

OpenAI 曾引用了密西根大學(xué)和馬克斯·普朗克研究所的一篇關(guān)于文本生成圖像的研究論文，這篇論文講述了如何通過生成對(duì)抗網(wǎng)絡(luò)（generative adversarial networks, 簡(jiǎn)稱GAN）來生成圖像。簡(jiǎn)言之，這種方式會(huì)使用兩種算法以對(duì)抗的方式生產(chǎn)圖像：第一個(gè)算法生成圖像，如果該圖像不夠真實(shí)，那么第二個(gè)算法就會(huì)駁回圖像。

2017年

一年后，羅格斯大學(xué)、利哈伊大學(xué)和香港中文大學(xué)的研究人員采用了另一種生成對(duì)抗網(wǎng)絡(luò)法，這一次他們將成對(duì)的算法“堆疊”起來。第一組算法對(duì)場(chǎng)景的形狀和顏色布局，然后第二組算法再對(duì)細(xì)節(jié)進(jìn)行細(xì)化。

2019年

到2019年，一個(gè)隸屬于微軟的團(tuán)隊(duì)開始嘗試一種與眾不同的“兩步法”：第一步是生成一個(gè)僅顯示對(duì)象所在位置的地圖，第二步是通過上述地圖，再生成具體的對(duì)象。

2020年

到了去年，艾倫人工智能研究所發(fā)表了一項(xiàng)使用 OpenAI 的Transformer模型所做的研究。在《麻省理工科技評(píng)論》中，凱倫·豪解釋了他們所研發(fā)的“遮蓋法”：他們?cè)谝痪湓捴邪褞讉€(gè)詞藏起來，然后要求模型預(yù)測(cè)被掩蓋的單詞和短語。通過讓算法學(xué)習(xí)這種直觀的跳讀，研究人員發(fā)現(xiàn)圖片生成的質(zhì)量大大提高了。

總結(jié)

通過回顧這些過去的研究事例，我們可以直觀地看到 OpenAI 和 DALL-E 在技術(shù)上的飛躍。這種先進(jìn)的科技已經(jīng)發(fā)展到可怕的地步——在這項(xiàng)技術(shù)展示了不同的牛油果形狀的椅子后，一位叫歐文·威廉姆斯（Owen Williams）的專欄作家表示他想購買這種椅子。

這樣的技術(shù)或許會(huì)在未來使得家具設(shè)計(jì)師、圖像藝術(shù)家或者數(shù)字藝術(shù)家感到恐懼。

譯者：Michiko

文章標(biāo)題：過去五年里，AI圖像生成技術(shù)走了多遠(yuǎn)？
瀏覽地址：http://m.newbst.com/article38/scdipp.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供軟件開發(fā)、微信公眾號(hào)、品牌網(wǎng)站設(shè)計(jì)、微信小程序、關(guān)鍵詞優(yōu)化、外貿(mào)建站

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

免费观看又色又爽又黄的小说免费_美女福利视频国产片_亚洲欧美精品_美国一级大黄大色毛片

過去五年里，AI圖像生成技術(shù)走了多遠(yuǎn)？