AI可以設(shè)計(jì)圖像了,設(shè)計(jì)師和藝術(shù)家會(huì)失業(yè)嗎?
成都創(chuàng)新互聯(lián)-專業(yè)網(wǎng)站定制、快速模板網(wǎng)站建設(shè)、高性價(jià)比集安網(wǎng)站開發(fā)、企業(yè)建站全套包干低至880元,成熟完善的模板庫,直接使用。一站式集安網(wǎng)站制作公司更省心,省錢,快速模板網(wǎng)站建設(shè)找我們,業(yè)務(wù)覆蓋集安地區(qū)。費(fèi)用合理售后完善,十多年實(shí)體公司更值得信賴。
神譯局是36氪旗下的編譯團(tuán)隊(duì),關(guān)注科技、商業(yè)、職場(chǎng)、生活等領(lǐng)域,重點(diǎn)介紹外國的新技術(shù)、新觀點(diǎn)、新風(fēng)向。
編者按:近年來,AI生成圖像技術(shù)已經(jīng)得到了質(zhì)的飛躍。作者通過介紹人工智能研究組織 OpenAI 的最新圖像生成技術(shù) DALL-E,向讀者們展示過去五年里這項(xiàng)研究的發(fā)展歷程。本文來自Medium,作者Dave Gershgorn,原文標(biāo)題:Take a Look at How Far Image Generation A.I. Has Come in Just 5 Years。
OpenAI (一個(gè)非盈利的人工智能研究組織——譯者注)現(xiàn)在已經(jīng)成為了人工智能工業(yè)體系中最具未來感的原型。
這家由微軟支持的研究機(jī)構(gòu)是創(chuàng)業(yè)孵化器 Y Combinator 的項(xiàng)目,機(jī)構(gòu)創(chuàng)始人是山姆·阿爾特曼(Sam Altman)。該機(jī)構(gòu)以強(qiáng)大的文本生成器 GpT-3 而聞名業(yè)界。近幾年來,它還制造了一個(gè)可以通過自主學(xué)習(xí)解魔方的機(jī)器手,一個(gè)可以譜曲的、為游戲提供復(fù)雜策略的算法。
不久前,OpenAI 又發(fā)布了名叫 DALL-E 的新系統(tǒng),這是一種可以基于書面文本自動(dòng)生成圖像的系統(tǒng)。例如,輸入文字“牛油果形狀的皮革錢包”,該系統(tǒng)就會(huì)通過這一指令進(jìn)行數(shù)次迭代,最終生成各類圖像。
DALL-E 的名字靈感來自超現(xiàn)實(shí)主義畫家薩爾瓦多·達(dá)利(Salvador Dalí)和動(dòng)畫形象 WALL-E。此次發(fā)布新系統(tǒng)時(shí),公司并未將系統(tǒng)對(duì)公眾開放,甚至沒有邀請(qǐng)?zhí)囟ǖ拈_發(fā)人員嘗試系統(tǒng)。但其網(wǎng)站上的圖畫表明,該系統(tǒng)已經(jīng)能夠創(chuàng)建極其逼真細(xì)致的圖像了。
DALL-E 還可以生成各種風(fēng)格的圖像,包括插圖和風(fēng)景。它還可以在圖片上生成一些文本,比如在建筑上建立文字標(biāo)志,或者在制作草圖和全彩成品圖之間作區(qū)分。
人工智能研究人員將這種技術(shù)稱之為泛化技術(shù)(generalization,有時(shí)也稱作概念化技術(shù)——譯者注),因?yàn)檫@種技術(shù)意味著算法對(duì)每一項(xiàng)指令多會(huì)進(jìn)行多種風(fēng)格的創(chuàng)作,而不會(huì)滿足于特定的某一種風(fēng)格。
OpenAI 的算法之所以如此熟練,要?dú)w因于兩個(gè)因素。首先,這種算法使用了120億參數(shù),這使得它能更快的理解文本內(nèi)容。在分析文本的過程中,這120億參數(shù)可以使它生成精確、令人驚嘆的圖像作品。
其次,將圖像和文本資料放進(jìn)算法里也是有講究的。一言蔽之,這些圖像和文本都被轉(zhuǎn)化成了算法更容易理解的文本或Token令牌。
在 OpenAI一篇關(guān)于DALL-E的博客文章上,作者這樣解釋Token令牌:它們代表了一種碎片化的、更易于電腦讀取的概念,一種專門為算法設(shè)計(jì)的語言。這種計(jì)算機(jī)語言字母表包含了16384個(gè)和文本有關(guān)的Token令牌,還有8192個(gè)和圖像有關(guān)的Token令牌。這種將人類可讀文本自動(dòng)轉(zhuǎn)換成機(jī)器可讀文本的方法被稱之為“transformer 模型”。
當(dāng)我們給算法一個(gè)文本或者一個(gè)圖片注釋時(shí),人類語言會(huì)被轉(zhuǎn)化成不超過256個(gè)Token令牌,圖片會(huì)被轉(zhuǎn)化為最多1024個(gè)Token令牌。這使得算法可以通過較少的文本匹配較復(fù)雜的圖像。
最后,這種算法會(huì)通過分析圖像和圖片注釋進(jìn)行學(xué)習(xí)。通過數(shù)百萬次的迭代,它可以將文本片段和圖像的特點(diǎn)相關(guān)聯(lián)。OpenAI 此次并沒有發(fā)布關(guān)于數(shù)據(jù)集大小和圖像內(nèi)容的相關(guān)信息。
該公司不是第一個(gè)致力于研究文字生成圖像技術(shù)的公司,只不過該公司推出的是算法類別的最新版本,目前來說功能或許是最強(qiáng)大的。雖然公司尚未發(fā)布描述該系統(tǒng)的相關(guān)文章,但該算法的創(chuàng)建者的確在其博客文章中描述了 DALL-E 的前身。通過對(duì)這一算法發(fā)展?fàn)顩r的觀察,我們可以追蹤到這一技術(shù)的發(fā)展?fàn)顩r。
2016年
OpenAI 曾引用了密西根大學(xué)和馬克斯·普朗克研究所的一篇關(guān)于文本生成圖像的研究論文,這篇論文講述了如何通過生成對(duì)抗網(wǎng)絡(luò)(generative adversarial networks, 簡(jiǎn)稱GAN)來生成圖像。簡(jiǎn)言之,這種方式會(huì)使用兩種算法以對(duì)抗的方式生產(chǎn)圖像:第一個(gè)算法生成圖像,如果該圖像不夠真實(shí),那么第二個(gè)算法就會(huì)駁回圖像。
2017年
一年后,羅格斯大學(xué)、利哈伊大學(xué)和香港中文大學(xué)的研究人員采用了另一種生成對(duì)抗網(wǎng)絡(luò)法,這一次他們將成對(duì)的算法“堆疊”起來。第一組算法對(duì)場(chǎng)景的形狀和顏色布局,然后第二組算法再對(duì)細(xì)節(jié)進(jìn)行細(xì)化。
2019年
到2019年,一個(gè)隸屬于微軟的團(tuán)隊(duì)開始嘗試一種與眾不同的“兩步法”:第一步是生成一個(gè)僅顯示對(duì)象所在位置的地圖,第二步是通過上述地圖,再生成具體的對(duì)象。
2020年
到了去年,艾倫人工智能研究所發(fā)表了一項(xiàng)使用 OpenAI 的Transformer模型所做的研究。在《麻省理工科技評(píng)論》中,凱倫·豪解釋了他們所研發(fā)的“遮蓋法”:他們?cè)谝痪湓捴邪褞讉€(gè)詞藏起來,然后要求模型預(yù)測(cè)被掩蓋的單詞和短語。通過讓算法學(xué)習(xí)這種直觀的跳讀,研究人員發(fā)現(xiàn)圖片生成的質(zhì)量大大提高了。
總結(jié)
通過回顧這些過去的研究事例,我們可以直觀地看到 OpenAI 和 DALL-E 在技術(shù)上的飛躍。這種先進(jìn)的科技已經(jīng)發(fā)展到可怕的地步——在這項(xiàng)技術(shù)展示了不同的牛油果形狀的椅子后,一位叫歐文·威廉姆斯(Owen Williams)的專欄作家表示他想購買這種椅子。
這樣的技術(shù)或許會(huì)在未來使得家具設(shè)計(jì)師、圖像藝術(shù)家或者數(shù)字藝術(shù)家感到恐懼。
譯者:Michiko
文章標(biāo)題:過去五年里,AI圖像生成技術(shù)走了多遠(yuǎn)?
瀏覽地址:http://m.newbst.com/article38/scdipp.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供軟件開發(fā)、微信公眾號(hào)、品牌網(wǎng)站設(shè)計(jì)、微信小程序、關(guān)鍵詞優(yōu)化、外貿(mào)建站
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)