行業(yè)新聞

人工圖像生成器如何幫助機(jī)器人？

時(shí)間：2022-10-30 作者：超級(jí)管理員點(diǎn)擊：954次

　　人工圖像生成器在夢(mèng)想和現(xiàn)實(shí)的交匯處創(chuàng)造出奇幻的場(chǎng)景，在網(wǎng)絡(luò)的每個(gè)角落冒泡。它們的娛樂(lè)價(jià)值體現(xiàn)在不斷擴(kuò)大的異想天開(kāi)和隨機(jī)圖像的寶庫(kù)中，這些圖像是人類設(shè)計(jì)師大腦的間接門(mén)戶。一個(gè)簡(jiǎn)單的文字提示，就會(huì)產(chǎn)生一個(gè)幾乎瞬間的圖像，滿足我們?cè)嫉拇竽X，這種大腦天生就有瞬間的滿足感。

　　雖然看起來(lái)很新，但人工智能產(chǎn)生的藝術(shù)領(lǐng)域可以追溯到20世紀(jì)60年代。前期嘗試用基于符號(hào)規(guī)則的方法制作技術(shù)圖像。盡管解決和解析單詞的模型的開(kāi)發(fā)變得越來(lái)越復(fù)雜，但生成藝術(shù)的爆炸式增長(zhǎng)引發(fā)了圍繞版權(quán)、虛假信息和偏見(jiàn)的辯論，所有這些都陷入了炒作和爭(zhēng)議。

　　電氣和計(jì)算機(jī)科學(xué)系博士生、麻省理工學(xué)院計(jì)算機(jī)科學(xué)和人工智能實(shí)驗(yàn)室(CSAIL)下屬的Yilun Du最近開(kāi)發(fā)了一種新方法，使DALL-E 2等模型更具創(chuàng)意，并具有更好的場(chǎng)景理解能力。在這里，杜描述了這些模型是如何工作的，這種技術(shù)基礎(chǔ)設(shè)施是否可以應(yīng)用于其他領(lǐng)域，以及我們?nèi)绾卧谌斯ぶ悄芎腿祟悇?chuàng)造力之間劃清界限。

　　問(wèn)：人工智能生成的圖像使用一種稱為“穩(wěn)定擴(kuò)散”的模型，在短短幾分鐘內(nèi)將文字變成令人震驚的圖像。但每一個(gè)被使用的圖像，背后通常都有一個(gè)人。那么人工智能和人類創(chuàng)造力的界限是什么？這些模型是如何工作的？

　　答：想象一下你在谷歌搜索上能看到的所有圖片及其相關(guān)模式。這就是這些模特喂的飲食。他們接受了所有這些圖像及其標(biāo)題的訓(xùn)練，以生成類似于它在互聯(lián)網(wǎng)上看到的數(shù)十億張圖像的圖像。

　　假設(shè)一個(gè)模特看過(guò)很多狗的照片。它經(jīng)過(guò)訓(xùn)練，當(dāng)它收到類似的文本輸入提示(如“狗”)時(shí)，它能夠生成一張看起來(lái)與它已經(jīng)看到的許多狗的照片非常相似的照片。現(xiàn)在，在方法論上，這一切是如何運(yùn)作的，可以追溯到一個(gè)非常古老的模型，叫做“基于能源的模型”，它起源于20世紀(jì)70年代或80年代。

　　在基于能量的模型中，構(gòu)建圖像上的能量景觀來(lái)模擬物理耗散以生成圖像。當(dāng)你將一種墨水滴入水中時(shí)，它會(huì)消散，例如，在最后，你會(huì)得到這種均勻的紋理。但如果你試圖逆轉(zhuǎn)這種消散過(guò)程，你會(huì)逐漸重新獲得水中原有的墨點(diǎn)。

　　或者假設(shè)你有一個(gè)非常復(fù)雜的積木塔。如果你用球打它，它會(huì)塌成一堆積木。然后，這堆積木很雜亂，沒(méi)有太多的結(jié)構(gòu)。要恢復(fù)塔，你可以嘗試逆轉(zhuǎn)這一折疊過(guò)程，以生成原始的積木。這些模型以非常相似的方式生成圖像。最初，你有這個(gè)非常好的形象。你從這個(gè)隨機(jī)噪聲開(kāi)始，你基本上學(xué)會(huì)了如何模擬如何逆轉(zhuǎn)這個(gè)過(guò)程，從噪聲回到原始圖像。你試著迭代優(yōu)化這個(gè)圖像，讓它越來(lái)越逼真。

　　就人工智能和人類創(chuàng)造力的界限而言，你可以說(shuō)這些模型實(shí)際上是根據(jù)人的創(chuàng)造力來(lái)訓(xùn)練的?；ヂ?lián)網(wǎng)上有人們過(guò)去創(chuàng)作的各種繪畫(huà)和圖像。這些模型可以被訓(xùn)練來(lái)總結(jié)和生成互聯(lián)網(wǎng)上的現(xiàn)有圖像。所以這些模型更像是人們花費(fèi)了幾百年的創(chuàng)造力的結(jié)晶。

　　同時(shí)，由于這些模型是根據(jù)人類設(shè)計(jì)的內(nèi)容進(jìn)行訓(xùn)練的，所以它們可以制作出與人類過(guò)去所做的非常相似的藝術(shù)作品。他們可以找到藝術(shù)領(lǐng)域的人制作的圖案，但這些模型很難自己實(shí)際生成有創(chuàng)意的照片。

　　如果你試圖輸入“抽象藝術(shù)”或者“獨(dú)特藝術(shù)”這樣的提示，它并沒(méi)有真正理解人類藝術(shù)的創(chuàng)造性方面，相反，這些模型可以說(shuō)是總結(jié)了人們過(guò)去所做的事情，而不是產(chǎn)生新的創(chuàng)造性藝術(shù)。

　　由于這些模型是在互聯(lián)網(wǎng)上的大量圖像上訓(xùn)練的，所以它們中的許多可能受到版權(quán)保護(hù)。你并不知道模型在生成一張新圖片的時(shí)候到底在檢索什么，所以有一個(gè)很大的問(wèn)題，就是如何確定模型是否在使用有版權(quán)的圖片。如果模型在某種意義上依賴于一些有版權(quán)的圖片，那么這些新圖片有版權(quán)嗎？這是另一個(gè)需要解決的問(wèn)題。

　　麻省理工學(xué)院學(xué)生解釋人工智能圖像生成器。鳴謝：麻省理工學(xué)院

　　問(wèn)：你認(rèn)為擴(kuò)散模型生成的圖像編碼了對(duì)自然或物理世界的某種理解，無(wú)論是動(dòng)態(tài)的還是幾何的？有沒(méi)有努力“教”圖像生成器嬰兒很久以前就已經(jīng)學(xué)會(huì)的宇宙基礎(chǔ)知識(shí)？

　　答:他們理解代碼中對(duì)自然和物理世界的一些掌握嗎？我確定。如果你讓一個(gè)模型生成一個(gè)穩(wěn)定的塊配置，它一定會(huì)生成一個(gè)穩(wěn)定的塊配置。如果你告訴它生成一個(gè)不穩(wěn)定的塊配置，它看起來(lái)確實(shí)很不穩(wěn)定?；蛘吣阏f(shuō)“湖邊的一棵樹(shù)”，大致能產(chǎn)生。

　　從某種意義上說(shuō)，這些模型似乎抓住了很大一部分常識(shí)。然而，讓我們遠(yuǎn)離真正理解自然和物理世界的問(wèn)題是，當(dāng)你試圖生成你或我在工作中很容易想象的不尋常的單詞組合時(shí)，這些模型是無(wú)法想象的。

　　例如，如果你說(shuō)，“把叉子放在盤(pán)子上”，這種情況經(jīng)常發(fā)生。如果你要求模型生成這個(gè)，那就簡(jiǎn)單了。如果你說(shuō)，“在叉子上放一個(gè)盤(pán)子”，我們很容易想象它會(huì)是什么樣子。然而，如果你把它放入這些大模型中的任何一個(gè)，你將永遠(yuǎn)不會(huì)在叉子上得到一個(gè)盤(pán)子。相反，你會(huì)在盤(pán)子的頂部得到一個(gè)叉子，因?yàn)槟Ｐ驼趯W(xué)習(xí)總結(jié)它已經(jīng)訓(xùn)練過(guò)的所有圖像。用沒(méi)見(jiàn)過(guò)的詞組合也不能很好的概括。一個(gè)眾所周知的例子是宇航員騎馬，模型可以很容易地完成。但是你說(shuō)一個(gè)宇航員騎馬，還是會(huì)產(chǎn)生一個(gè)騎馬的人。這些模型似乎捕捉到了它們訓(xùn)練的數(shù)據(jù)集中的大量相關(guān)性，但它們實(shí)際上并沒(méi)有捕捉到世界的潛在因果機(jī)制。

　　另一個(gè)常見(jiàn)的例子是，如果你得到一個(gè)非常復(fù)雜的文本描述，比如一個(gè)物體在另一個(gè)物體的右邊，第三個(gè)物體在前面，第三個(gè)或第四個(gè)物體在飛。它實(shí)際上只能滿足一兩個(gè)對(duì)象。這可能部分是因?yàn)橛?xùn)練數(shù)據(jù)，因?yàn)楹苌儆蟹浅?fù)雜的標(biāo)題，但也可能表明這些模型不是非常結(jié)構(gòu)化。

　　可以想象，如果得到非常復(fù)雜的自然語(yǔ)言提示，模型是無(wú)法準(zhǔn)確表示所有組件細(xì)節(jié)的。

　　問(wèn)：你最近提出了一種新方法，使用多種模型來(lái)創(chuàng)建更復(fù)雜的圖像，以便更好地理解生成藝術(shù)。這個(gè)框架在圖像或文本領(lǐng)域之外有潛在的應(yīng)用嗎？

　　答：這些模型的局限性讓我們深受啟發(fā)。當(dāng)你為這些模型提供非常復(fù)雜的場(chǎng)景描述時(shí)，它們實(shí)際上無(wú)法生成與之正確匹配的圖像。

　　一種想法是，既然是固定計(jì)算圖的單個(gè)模型，就意味著你只能用固定的計(jì)算量來(lái)生成圖像。如果您收到極其復(fù)雜的提示，您將無(wú)法使用更多的計(jì)算能力來(lái)生成圖像。

　　如果我向一個(gè)人描述一個(gè)場(chǎng)景，比方說(shuō)，100行長(zhǎng)，而不是一個(gè)場(chǎng)景長(zhǎng)，人類藝術(shù)家可以花更長(zhǎng)的時(shí)間在前者上。這些模型真的沒(méi)有做到這一點(diǎn)的敏感度。然后，我們建議，給定非常復(fù)雜的提示，你實(shí)際上可以將許多不同的獨(dú)立模型組合在一起，并讓每個(gè)單獨(dú)的模型代表你想要描述的場(chǎng)景的一部分。

　　我們發(fā)現(xiàn)這使得我們的模型能夠生成更復(fù)雜的場(chǎng)景，或者更準(zhǔn)確地生成場(chǎng)景的不同方面的場(chǎng)景。此外，這種方法通?？梢詰?yīng)用于各種領(lǐng)域。雖然圖像生成可能是目前最成功的應(yīng)用，但生成模型實(shí)際上已經(jīng)在各個(gè)領(lǐng)域看到了所有類型的應(yīng)用。

　　你可以使用它們來(lái)生成不同的機(jī)器人行為，合成3D形狀，更好地理解場(chǎng)景或設(shè)計(jì)新材料。您可以將多個(gè)所需因素結(jié)合起來(lái)，生成特定應(yīng)用所需的精確材料。

　　我們一直非常感興趣的一件事是機(jī)器人技術(shù)。就像你可以生成不同的圖像一樣，你也可以生成不同的機(jī)器人軌跡(路徑和時(shí)間表)。通過(guò)組合不同的模型，可以生成不同技能組合的軌跡。如果我有一個(gè)跳躍和避障的自然語(yǔ)言規(guī)范，你也可以把這些模型結(jié)合起來(lái)，生成一個(gè)可以跳躍和避障的機(jī)器人軌跡。同樣的，如果我們想要設(shè)計(jì)蛋白質(zhì)，我們可以指定不同的功能或方面——類似于我們使用語(yǔ)言指定圖像內(nèi)容的方式——用類似的語(yǔ)言描述，比如蛋白質(zhì)的類型或功能。然后，我們可以將它們結(jié)合在一起，產(chǎn)生一種新的蛋白質(zhì)，滿足所有這些功能。

　　我們還探索了擴(kuò)散模型在三維形狀生成中的應(yīng)用。您可以使用此方法來(lái)生成和設(shè)計(jì)3D資源。通常，3D資產(chǎn)設(shè)計(jì)是一個(gè)非常復(fù)雜和費(fèi)力的過(guò)程。通過(guò)將不同的模型組合在一起，生成形狀變得更容易，例如“我想要一個(gè)具有這種風(fēng)格和高度的四條腿的3D形狀”，這可能會(huì)使3D資產(chǎn)設(shè)計(jì)的某些部分自動(dòng)化。

特別聲明：文章僅代表作者個(gè)人觀點(diǎn)，不代表麗泰的觀點(diǎn)和立場(chǎng)。如果侵犯到您的權(quán)益，版權(quán)或其他問(wèn)題請(qǐng)及時(shí)聯(lián)系我們，我們會(huì)第一時(shí)間處理。

下面流水痒好想要男人,粉嫩虎白扒开视频毛女片,老师在办公室里给我开除了,性高朝久久久久久久3小时

行業(yè)新聞

相關(guān)產(chǎn)品

人工圖像生成器如何幫助機(jī)器人？

相關(guān)新聞