ChatGPT Images 1.5: Ez az OpenAI nagy ugrása a képek terén

  • A ChatGPT Images elindítja a GPT Image 1.5 modellt, amely akár négyszer gyorsabb és jobb utasításkövetéssel rendelkezik.
  • Az új eszköz lehetővé teszi a feltöltött fényképek precíz szerkesztését, megőrizve a megvilágítást, a kompozíciót és az arcvonásokat.
  • Jelentős javulás a képeken belüli szöveggenerálásban és a sok arcot vagy apró részleteket tartalmazó összetett jelenetekben.
  • Az OpenAI elindítja saját Képek szekcióját a ChatGPT-ben, amely mostantól a legtöbb felhasználó számára elérhető API-n keresztül.

ChatGPT képek

A mesterséges intelligencia által vezérelt képgenerálás a technológiai óriások közötti verseny egyik leglátványosabb megnyilvánulásává vált. úgy döntött, hogy lép egy mélyreható frissítéssel ChatGPT képek, az integrált vizuális készítő rendszerét, egy olyan környezetben, ahol olyan modellek, mint a Google Nano Banana Pro-ja, uralták a beszélgetések nagy részét.

Ezzel a bevezetéssel a ChatGPT mögött álló vállalat azt szeretné, hogy eszköze ne csak egy egyszerű csevegőkiegészítő legyen, hanem teljes értékű funkcióként működjön. egy valódi integrált kreatív stúdió, gyorsabb, pontosabb és egy olyan felülettel, amelyet a nulláról úgy terveztek, hogy képekkel is működjön, ne pedig csak szöveggel.

Új GPT Image 1.5 modell: sebesség és pontosság, mint védjegyei

A frissítés lényege, hogy GPT kép 1.5Az OpenAI új zászlóshajó modellje képekhez. A cég azt állítja, hogy akár ...-ig képes vizuális tartalmat generálni négyszer gyorsabb mint az előző verzió, ami a gyakorlatban különösen csúcsidőben és mobileszközökön észrevehető, ahol korábban nem volt ritka, hogy az alkalmazásváltáskor a folyamat megszakadjon vagy örökké tartson.

A teljesítmény mellett a legfontosabb fejlesztés az utasításkövetésben rejlik. A rendszer pontosabban értelmezi az utasításokat. komplex utasítások és pontos térbeli kapcsolatokígy az olyan kérések, mint egyetlen tárgy megváltoztatása, a világítás beállítása vagy egy személy ruházatának módosítása, már nem okoznak váratlan változásokat a jelenet többi részében.

Az OpenAI elmagyarázza, hogy a GPT Image 1.5-öt úgy képezték ki, hogy a kulcsfontosságú képelemeket állandó szinten tartsa, például arc identitás, általános kompozíció vagy színpalettamég több láncolt szerkesztési kör után is. Ez a szempont különösen releváns professzionális felhasználás esetén, ahol a vizuális konzisztencia nem szeszély, hanem követelmény.

Pont- és láncszerkesztés: csak a lényeges dolgokat változtasd meg

Az egyik terület, ahol a korábbi modellek kudarcot vallottak, az volt meghatározott területek célzott szerkesztéseEgy kalap cseréje, a világítás beállítása vagy egy elem hozzáadása a háttérhez az egész jelenet újrakeveréséhez vezethet. Az új ChatGPT Images közvetlenül kezeli ezt a problémát.

A modell képes arra, hogy elemek hozzáadása, eltávolítása, kombinálása, keverése és transzponálása ugyanazon a képen belül, miközben az összes többi fontos komponens stabil marad. A gyakorlatban ez azt jelenti, hogy olyan műveleteket lehet kérni, mint például: egy ing színének megváltoztatása, egy sapka módosítása, egy közlekedési tábla beállítása vagy egy teherautó tűzoltóautóvá alakítása a környezet többi részének torzítása nélkül.

A telefonhívások közbeni viselkedést is megerősítették lánckiadásokEddig egy harmadik vagy negyedik módosítás általában azt eredményezte, hogy a modell teljesen „újra feltalálta” a képet. A GPT Image 1.5-tel az eszköz sokkal megbízhatóbban megőrzi a stílust, a pózt és a jelenetet, így ugyanazon az alapon iterálhat anélkül, hogy minden módosításnál a nulláról kellene kezdenie.

Kreatív átalakulások: szelfitől filmplakátig

A technikai pontosságon túl az OpenAI a ChatGPT Images-et kifejezetten kreatív területekre emeli. A rendszer lehetővé teszi a felhasználók számára, hogy feltöltsék saját fotójukat, és egy viszonylag egyszerű utasítással másodpercek alatt megkapják a képet. hiteles átalakított változatokEgy 90-es évekbeli reklámtól kezdve egy téli jeleneten át egy cyberpunk esztétikájú japán városig.

A modell képes újraalkotni is sajátos művészeti stílusok, például klasszikus filmplakátokat, anime stílusú illusztrációkat vagy történelmi kinézetű kompozíciókat, tiszteletben tartva az eredeti személy főbb jellemzőit. Az ötlet az, hogy a felhasználó nagyon különböző kontextusokban „láthassa” magát anélkül, hogy elveszítené az érzést, hogy ugyanarról a személyről van szó.

Ez a megközelítés emlékeztet arra, amit a Nano Banana modellek már kínáltak, de az OpenAI megpróbálja megkülönböztetni magát azzal, hogy a következőkre fogad. jobban kontrollált fogalmi transzformációkahol a rendszer megőrzi az alapfotó lényegét, miközben a ruházatot, a környezetet, a világítást vagy a korszakot jelentős vizuális koherenciával változtatja.

A ChatGPT Images búcsút int a sárgás stílusnak és javítja az összetett jeleneteket

Hosszú ideig viszonylag könnyű volt azonosítani, hogy egy képet a ChatGPT korai verzióival készítettek-e: ezek voltak túlsúlyban. meleg tónusok, krémes felületek és egy bizonyos sárgás árnyalat amely feltárta mesterséges eredetét. Az OpenAI által bemutatott belső összehasonlítások és független tesztek alternatívákkal összehasonlítva, mint például Bing Image CreatorÚgy tűnik, ez a tulajdonsága elmaradt.

Az új modell kínál egy semlegesebb és változatosabb színspektrumEzáltal a képek jobban hasonlítanak a hagyományos fényképekhez, kivéve, ha a felhasználó kifejezetten másképp kéri a promptban. Ez segít abban, hogy a képek kevésbé „márkásnak” tűnjenek, és hasznosabbak legyenek olyan helyzetekben, ahol a realizmusra vagy a meglévő fényképészeti anyaggal való integrációra van szükség.

A képviselet terén is történtek fejlesztések. sok apró elemet tartalmazó jelenetekpéldául tömegek vagy részletgazdag hátterek. A nagy csoportokban az arcok most jobban elkülönülnek egymástól, természetesebb pózokkal és arckifejezésekkel, és a tipikus hibák, mint például a kéznyomok, az apró ecsetvonások vagy a furcsa ismétlődések, csökkennek.

A ChatGPT Images lehetővé teszi szöveg beszúrását a képekbe: ugorj be plakátokat, infografikákat és maketteket

A képen belüli olvasható szöveg generálása történelmileg a generatív mesterséges intelligencia egyik Achilles-sarka volt. Az OpenAI azt állítja, hogy a GPT Image 1.5 jelentős lépést tesz előre ezen a területen, a következővel: sokkal következetesebb tipográfiai megjelenítés mint a korábbi verziókban.

A modell képes kezelni sűrű, kis szövegblokkokEz megnyitja az utat poszterek, infografikák, újságoldal-makettek vagy táblázatokat és markdown-típusú formátumokat tartalmazó tervek készítése előtt, olyan olvashatósági szinttel, amely bár nem tökéletes, de inkább használható ahhoz, hogy intenzív retusálás nélkül is használható legyen.

A marketing, oktatás, e-kereskedelem vagy digitális tartalom területén dolgozók számára ez a fejlesztés a ráfordított idő csökkentését jelenti. javítsa ki a hibás betűket vagy a hiányos szavakatAzokban a helyzetekben, ahol világos, publikálásra kész üzenetekkel rendelkező vizuális anyagok előállítására van szükség, az a tény, hogy maga a modell viszonylag tiszta szöveget generál, megkülönböztető tényezővé válik.

Új felhasználói élmény: külön Képek részleg a ChatGPT-ben

A frissítés nem áll meg a modellnél; a használatának módját is befolyásolja. Az OpenAI egy új funkcióval bővítette a ChatGPT oldalsávját. egy külön részleg, melynek neve „Képek”Ez mind a mobilalkalmazásra, mind a webes verzióra vonatkozik. A cél az, hogy a vizuális élményt elkülönítsék a hagyományos csevegéstől, és megkönnyítsék a navigációt azok számára, akik nem akarnak bonyolult utasításokkal bajlódni.

Ebből az új térből a felhasználó megtalálja előre definiált stílusok, trendjavaslatok és sablonok Az olyan gyakori feladatoknál, mint az üdvözlőlapok írása, régi fényképek restaurálása, különböző művészeti stílusok közötti váltás vagy ugyanazon termék variációinak létrehozása, ez a megközelítés csökkenti a belépési korlátokat a műszaki tapasztalattal nem rendelkezők számára.

Egy másik gyakorlati szempont, hogy a Képek rész úgy működik, mint központosított adattár a felhasználó összes vizuális alkotásából. Innen könnyebb áttekinteni a korábbi verziókat, megismételni egy stílust új tartalommal, vagy folytatni egy már létrehozott kép szerkesztését, ami különösen hasznos a folyamatos munkafolyamatokban.

A szemet gyönyörködtető kiegészítőtől a vizuális munkaeszközig

Az OpenAI maga is elismeri, hogy eddig a ChatGPT-n belüli képgenerálás inkább egy extra figyelemfelkeltő egy szöveges felületen belül amely szilárd vizuális munkakörnyezetként szolgál. Ezzel a frissítéssel a vállalat minőségi ugrást kíván tenni: a közösségi médiában használt „teszt” képekről egy valós folyamatokban használható eszközre kíván áttérni.

A konzisztencia és az iteráció javulása közvetlen hatással van olyan ágazatokra, mint a design, marketing, e-kereskedelem vagy márkaépítésAzok a vállalatok, amelyeknek ugyanazt a kreatív koncepciót több formátumhoz kell adaptálniuk, egy termék variációit kell tesztelniük, vagy a logók és vállalati elemek konzisztenciáját több száz darabon keresztül kell fenntartaniuk, egyértelmű előnyt találnak az ilyen típusú kontrollban.

Európában működő kreatív platformok, például webszerkesztők és felhőalapú tervezőeszközökMár integrálják ezeket a modelleket a munkafolyamataikba. Ezen a területen az OpenAI elkötelezettsége egy átfogóbb vizuális környezet iránt jól illeszkedhet mind a grafikai anyagok gyártását felgyorsítani kívánó kkv-k, mind a nagyvállalatok belső kommunikációs csapatai számára.

A ChatGPT képek elérhetősége felhasználók, vállalkozások és fejlesztők számára

Az OpenAI megkezdte az új ChatGPT Images bevezetését a következőhöz: a platform legtöbb felhasználója, beleértve az ingyenes fiókkal rendelkezőket isSok felhasználó már most is lát értesítést az alkalmazás megnyitásakor, amely felkéri őket a képfunkció kipróbálására, valamint egy új, dedikált fület az oldalsó menüben a használat központosításához.

Az üzleti szektorban a vállalat megerősítette, hogy az üzleti és vállalati fiókokhoz való speciális hozzáférést fokozatosan vezetik be, a hangsúlyt a belső integrációkra helyezve. professzionális munkafolyamatokAzon európai szervezetek számára, amelyek már használják a ChatGPT-t belső feladatokhoz, ez azt jelenti, hogy kiterjeszthetik a használatát a szövegről az ugyanazon hitelesítő adatokkal létrehozott grafikus anyagokra is.

Ezzel párhuzamosan a GPT Image 1.5 elérhető a következőn keresztül: OpenAI APIEz lehetővé teszi a fejlesztők számára, hogy képgenerálási és -szerkesztési funkciókat integráljanak saját alkalmazásaikba. A vállalat kijelenti, hogy a képbevitel és -kivitel költsége körülbelül 20%-kal alacsonyabb az előző modellhez képest, ami jelentős előnyt jelent a nagyszabású projektek vagy a szűkös haszonkulcsokkal működő szolgáltatások esetében.

Verseny a Nano Banana Pro-val és más vizuális modellekkel

Az OpenAI lépése intenzív versenyhelyzetben történik. A Google erőltette Nano Banana Pro mint az egyik vezető vizuális generatív modell, integrálva kreatív eszközeinek ökoszisztémájába és az övéhez kapcsolódik Ikrek család, ami világszerte fellendítette használatát.

Ez a helyzet a [nem egyértelmű] jelenség kialakulásához vezetett néhány versengő szolgáltatásban. szigorú korlátozások az ingyenes felhasználók számáraPéldául a naponta generálható képek számának csökkentésével, részben a nagy kereslet miatt. Ezzel szemben az OpenAI a szélesebb körű elérés, a nagyobb sebesség és a kifinomultabb szerkesztési környezet kombinációjára fogad, hogy megtartsa és vonzza a felhasználókat.

Eközben más szereplők, mint például az xAI a Grok chatbotjával vagy különféle képspecialisták, a ... érdekében küzdenek. a vizuális generálás központi fronttá válik a felhasználók figyelméért folytatott harcban. Az OpenAI stratégiája magában foglalja a ChatGPT „all-in-one alkalmazásként” való konszolidációját, ahol a keresés, a hang, a szöveg, a képek és a videók egyetlen belépési ponton belül jelennek meg.

Az új ChatGPT Images segítségével az OpenAI fontos lépést tesz afelé, hogy… érettebb vizuális eszközGyorsabb és pontosabb modell, differenciáltabb felület és egyértelműen a valós munkához igazított szerkesztési lehetőségek mind személyes, mind szakmai környezetben. Az még várat magára, hogy ezek a fejlesztések milyen mértékben integrálódnak a spanyol és európai felhasználók és vállalkozások mindennapi életébe, de az üzenet egyértelmű: a kép már nem csupán egy szórakoztató kiegészítő a csevegésben, hanem a ChatGPT ökoszisztéma központi elemévé vált.

ChatGPT képek létrehozása
Kapcsolódó cikk:
A ChatGPT most képeket generál a GPT-4o segítségével: minden, amit tudnia kell