ChatGPT 5.5: Ez az OpenAI új ugrása az autonómia, a költségek és a professzionális felhasználás terén

  • A ChatGPT 5.5 a GPT-5.4-hez képest javítja az érvelési teljesítményt, az autonómiát és a számítógép-használatot, miközben hasonló késleltetést tart fenn.
  • Kiválóan teljesít az ágensprogramozásban, az irodai munkában, az adatelemzésben és a tudományos kutatásban, és kulcsfontosságú referenciaértékekben is kiemelkedő eredményeket ér el.
  • A tokenenkénti ár emelkedik, de a nagyobb hatékonyság és az alacsonyabb fogyasztás azt jelenti, hogy az összetett feladatokban az effektív költség alacsonyabb lehet.
  • Az OpenAI erősíti a kiberbiztonságot és a biológiát, és telepíti a GPT-5.5-öt és annak Pro verzióját Plus, Pro, Business és Enterprise felhasználók számára.

ChatGPT5.5

Az OpenAI újabb merész kijelentést tett az indítás de GPT-5.5, a modell, amely a ChatGPT legújabb generációját sokkal magasabb autonómia- és érvelési szintre helyezi Az eddig látottak alapján a cég a legintuitívabb és legalkalmasabb rendszerként mutatja be az összetett feladatok elejétől a végéig történő kezelését, csökkentve az állandó felhasználói felügyelet szükségességét.

Ez a lépés egy időben jön Verseny a vezető szerepért a generatív mesterséges intelligencia területénMivel az Anthropic és a Google is felgyorsítja saját modelljei fejlesztését, a GPT-5.5 először a ChatGPT és a Codex platformokon indul fizetős felhasználók számára, és a programozás, az irodai munka, a tudományos kutatás és a valós számítógép-használat terén elért fejlesztéseket ötvözi, de... Az áremelkedés, amelyet az OpenAI a tokenek használatának figyelemre méltó hatékonyságával próbál igazolni.

Mi a GPT-5.5, és milyen szerepet játszik az OpenAI stratégiájában?

Az OpenAI szerint A GPT-5.5 új lépést jelent a fenntartható gondolkodás és a számítógéppel végzett önálló munka terénA modellt hosszú, többlépéses feladatok elvégzésére tervezték: képes rendezetlen utasításokat fogadni, azokat lebontani, megtervezni, hogy mit tegyen először, eszközöket választani és kezelni, áttekinteni saját eredményeit, és folytatni a munkát akkor is, ha kétértelműségek vannak az utasításban.

A cég mesterséges intelligenciájaként definiálja. eddig a legintuitívabbAhelyett, hogy egyszerűen csak elszigetelt kérdésekre válaszolna, a GPT-5.5 ágensként működik: kontextust tart fenn a kiterjedt folyamatok során, navigál az információk között a weben, parancsokat hajt végre, dokumentumokat és irodai alkalmazásokat kezel, és előre strukturált eredményeket ad vissza, amelyek készen állnak a professzionális környezetben való használatra.

A bevezetés tartalmaz egy GPT-5.5 Pro verzió, összetettebb feladatokra tervezve Már vannak olyan felhasználói, akiknek szigorúbb válaszokra van szükségük olyan területeken, mint a jog, az üzleti élet, az oktatás vagy a haladó adatelemzés. A ChatGPT egy módot is kínál GPT-5.5 gondolkodáskülönösen nehéz programozási, kutatási vagy információelemzési problémákra tervezték.

A számítógép autonómiája és valós használata: a chatbottól a munkaügynökig

Az OpenAI egyik nagy tétje a GPT-5.5 azon képessége, hogy... önálló vállalkozó ügynök a számítógépen. A modell képes információkat keresni, eldönteni, hogy mi releváns, forrásokat kombinálni, szoftvereket és eszközöket sorban működtetni, és szétszórt anyagokat hasznos termékekké alakítani anélkül, hogy a felhasználónak aprólékosan meg kellene határoznia az egyes lépéseket.

A mindennapi életben ez olyan feladatokban nyilvánul meg, mint például összetett dokumentumok, táblázatok vagy prezentációk létrehozásaSzerződések áttekintése, jelentések készítése, adatbázisok elemzése vagy kiterjedt összefoglalók létrehozása több fájlból. A cég azt állítja, hogy a GPT-5.5 gyorsabban megérti a felhasználó igényeit, és a munka nagyobb részét maga kezeli, mint a korábbi verziók.

A változás szemléltetésére az OpenAI belső példákat említ: pénzügyi csapatok Codex és GPT-5.5 segítségével több tízezer adóbevallást vizsgálnak felül Sokkal rövidebb idő alatt a kommunikációs osztályok automatizálják a pontozást és a kockázati keretrendszereket nagyszámú kérés esetén, vagy a marketing és termékterületek jelentősen csökkentették az időszakos jelentésekre fordított időt az automatizált munkafolyamatoknak köszönhetően.

Teljesítmény az ágensi programozásban és a szoftverfejlesztésben

A GPT-5.5 a programozás és az OpenAI által „ágenskódolásnak” nevezett folyamat fejlesztéseit mutatja be – a mesterséges intelligencia használatát ágensként, amely a kódot írja, hibakeresi és karbantartja a teljes körűen. Fejlesztői környezetekben a modell képes kezelni a nagy adattárakat, összetett refaktorálásokat javasolni, azonosítani a hibák forrását, és előre jelezni, hogy a rendszer mely részeit érinti a változás.

A benchmarkban Terminálpad 2.0, amely összetett parancssori munkafolyamatokat mér, a GPT-5.5 egy 82,7%, egyértelműen felülmúlva a GPT-5.4-et, és ezt kevesebb token felhasználása mellett teszi. SWE-Pad ProA valós GitHub-problémák megoldására összpontosítva a modell eléri a 58,6%és a belső értékelésben Szakértői SWE, olyan feladatokkal, amelyek becsült emberi ideje körülbelül 20 óra, szintén meghaladja elődjét.

A korai verziókat tesztelő mérnökök rámutatnak, hogy A GPT-5.5 jobban megérti az összetett rendszerek általános architektúrájátA belső tesztek során olyan eseteket említenek, mint a több száz változtatással járó ágösszevonások, amelyek körülbelül húsz perc alatt megoldódtak, az alrendszerek szinte teljes újratervezése (például egy kommentrendszer egy együttműködő szerkesztőben), vagy a korábban sokkal több iterációt igénylő hibák korai észlelése.

A Codexben, az OpenAI szoftverfejlesztési környezetében a GPT-5.5 kontextuális ablaka akár 400 000 tokenig is terjedhet, így nagyon nagy kódbázisokkal is képes dolgozni. Emellett gyors móddal is rendelkezik, amely körülbelül [szükséges tokenek száma] generál. 1,5-szer gyorsabb, bár magasabb tokenenkénti költséggel, azok számára készült, akik számára a válaszadási sebesség fontos.

Tudásalapú munka, üzleti és mindennapi irodai használat

A szoftverfejlesztésen túl a GPT-5.5-öt professzionális irodai, tanácsadási vagy adatelemzési környezetben végzett munkához tervezték. Az OpenAI azt állítja, hogy ugyanazok a képességek, amelyek javítják a programozást, most lehetővé teszik a hatékonyabb dokumentációs és elemzési feladatok elvégzését.

A benchmarkban GDP-érték, amely a meghatározott szakértői munka elvégzésének képességét méri fel 44 foglalkozásA GPT-5.5 egy 84,9% helyes válaszok vagy döntetlenek száma. OSWorld-VerifiedEgy teszt, amelynek célja annak ellenőrzése, hogy a modell képes-e autonóm módon kezelni a valós számítási környezeteket, a következő eredményt adja: 78,7%. -Ban Tau2-pad Telekommunikáció, amely a telekommunikációs szektor ügyfélszolgálatára összpontosít, eléri a 98% anélkül, hogy módosítani kellene a promptot, ami a támogatási forgatókönyvekben a magas teljesítményt jelzi.

Vállalati használatra az OpenAI kiemeli, hogy Alkalmazottaik több mint 85%-a használja a Codexet hetente olyan területeken, mint a mérnöki tudományok, a pénzügy, a marketing, az adatkezelés vagy a termékek. Az olyan esetek, mint a heti jelentések automatizálása, amely hetente öt-tíz órát takarít meg személyenként, jól mutatják, hogy a vállalat milyen előnyöket tulajdonít az új modellnek, amikor azt integrálják az üzleti folyamatokba.

Tudományos kutatás, biológia és haladó matematika

A tudományos kutatás egy másik központi téma a GPT-5.5 prezentációban. Az OpenAI azokat a munkafolyamatokat célozza meg, ahol szükséges. hipotézisek feltárása, bizonyítékok gyűjtése, feltételezések tesztelése, eredmények értelmezése és a következő kísérletről való döntés, egy olyan környezet, amelyben a tartós kontextuális érvelés kulcsfontosságú.

Olyan teszteken, mint GeneBenchA biológiai és genetikai feladatokra összpontosító GPT-5.5 javítja a GPT-5.4 eredményeit, és a variáns... GPT-5.5 Pro Még magasabb pontszámokat ér el. BixBenchA bioinformatikára és a kvantitatív biológiára összpontosító új modell a vállalat által szolgáltatott információk szerint a legjobb teljesítményt nyújtja a mindeddig publikált adatokkal rendelkező rendszerek között.

Az OpenAI még a haladó matematikában való felhasználásra is példákat hozott, ahol a A GPT-5.5 belső verziója együttműködött egy új, átlón kívüli Ramsey-számokkal kapcsolatos teszt keresésében.Ezt később a Lean formális asszisztens segítségével ellenőrizték. A vállalat ezt az esetet példaként mutatja be arra, hogy a modell nemcsak kódot vagy magyarázatokat generál, hanem matematikai érvelésekhez is hozzájárulhat összetett területeken.

Gyakorlati szempontból olyan kutatók beszámolóit említik, akik a GPT-5.5 Pro-t használták a következőkre: több tízezer változót és jelentős számú mintát tartalmazó génexpressziós adathalmazok elemzéserészletes jelentések, új elemzési szempontok és kulcsfontosságú kérdések megszerzése egy olyan időkereten belül, amely számításaik szerint sokkal hosszabb lenne, ha kizárólag emberi munkaerővel foglalkoznának vele.

Késleltetés, érvelési idő és tokenhatékonyság

A GPT-5.5 megjelenése mögött egy állandó üzenet rejlik: Növeli a modell intelligenciáját anélkül, hogy a válaszidőt rontaná.Az OpenAI azt állítja, hogy az új rendszer valós környezetben a tokenenkénti késleltetése megegyezik a GPT-5.4-ével, annak ellenére, hogy nagyobb képességekkel rendelkezik, ami szokatlan a nagyobb és összetettebb modelleknél.

Az egyik kulcsfontosságú pont az összetett feladatok elvégzéséhez szükséges érvelési időA korábbi verziókkal összehasonlító korai felhasználók arról számoltak be, hogy a korábban 20-40 percnyi munkát igénylő folyamatok most mindössze három-négy perc alatt megoldódnak, fenntartva – sőt, javítva – a válaszok minőségét.

Ez a nyereség nemcsak a nyers sebességből származik, hanem a jobb tokenkezelésA GPT-5.5 kevesebb tokent igényel a GPT-5.4-hez hasonló vagy jobb eredmények eléréséhez, így csökken mind a teljes feldolgozási idő, mind az egyes munkafolyamatokhoz kapcsolódó költségek. Nagy lekérdezési volumenű vagy intenzív automatizálású forgatókönyvek esetén ez a különbség döntő fontosságú lehet.

Az OpenAI elmagyarázza, hogy a késleltetés fenntartása érdekében a következőket kellett tennie: a következtetés integrált rendszerként való újratervezéseA GPT-5.5-öt közösen tervezték, képezték ki és telepítették a legmodernebb NVIDIA hardveralapú infrastruktúrán (GB200 és GB300 NVL72), és magát a GPT-5.5-öt és a Codex-et használták a terheléselosztás és a particionálási heurisztikák optimalizálására, több mint 20%-os tokengenerálási sebességnövekedéssel a rendszereiken.

Árak, tényleges költség és összehasonlítás a GPT-5.4-gyel

Bár a GPT-5.5 a következő helyen található: magas árkategória tokenenkéntAz OpenAI ragaszkodik ahhoz, hogy a gyakorlatban gazdaságosabb lehet, mint elődje és néhány versenytársa. Ennek oka a következők kombinációja: nagyobb tokenhatékonyság és kevesebb újrapróbálkozási igény vagy korrekciók.

Az API-ban a GPT-5.5-re vonatkozóan jelentett referenciaárak a következők: 5 dollár millió bemeneti tokenenként és 30 dollár millió kimeneti tokenenkéntakár egymillió tokent is elérő kontextuális ablakkal. Például GPT-5.5 Pro, az árak emelkednek 30 dollár/millió token bekerült és 180 dollár/millió token kikerültegyértelműen azokat a felhasználási módokat célozza meg, ahol a válaszadás hozzáadott értéke meghaladja a költségeket.

Az OpenAI olyan módokat is kínál, mint például Kötegelt és rugalmas szállítás, a standard ár körülbelül feléért.és egy Prioritási mód, amely a költséget 2,5-szeresére növeli a magasabb várakozási sor prioritásáért és a rövidebb válaszidőkért cserébe. A vállalat elismeri, hogy a GPT-5.5 nominálisan drágább, mint a GPT-5.4, de azzal érvel, hogy a feladatonként szükséges tokenek számának csökkenése és a rövidebb érvelési idő igazolja a költségeket. Csökkenthetik az összetett projektek összköltségét más modellekhez képest..

A piacon ez a szabályozás a GPT-5.5-öt a korábbi OpenAI modellek fölé, de a csúcskategóriás alternatívák mögé helyezi, amelyek a prezentáció során megosztott becslések szerint a gyakorlatban ötször-tízszer drágábbak lehetnek, ha figyelembe vesszük az ár, a felhasznált tokenek és az eredmény minőségének kombinációját.

Hosszú kontextus és teljesítmény az érvelési referenciaértékekben

A GPT-5.5 egy másik látható fejlesztése a következő: nagyon kiterjedt kontextusokkal való munka a fonal elvesztése nélkülOlyan tesztekben, mint például Graphwalks BFS 1Ma modell eléri a 45,4% a GPT-5.4 esetében mért 9,4%-hoz képest, és OpenAI MRCR v2 512K és 1M tokenek közötti kontextusok esetén erre emelkedik 74,0%, szemben az előző verzió 36,6%-ával.

Az absztrakt érvelés területén a GPT-5.5 rögzít egy 95,0% az ARC-AGI-1-ben és 85,0% az ARC-AGI-2-ben, jelentős fejlesztésekkel a GPT-5.4-hez képest. A haladó tudásteszteken, mint például GPQA gyémántRendkívül nehéz kérdésekre összpontosítva, 93,6%és olyan értékelésekben, mint Az emberiség utolsó vizsgája Külső eszközök használata esetén meghaladja az 50%-ot.

Az OpenAI hangsúlyozza, hogy ezek közül az értékelések közül sokat már elvégeztek nagyon magas szintű gondolkodási konfigurációkat tartalmazó kutatási környezetekEzért az eredmények kissé eltérhetnek azoktól, amelyeket a ChatGPT felhasználók éles környezetben érzékelnek. Ennek ellenére a vállalat azt az elképzelést szeretné közvetíteni, hogy a GPT-5.5 egy… Gyakorlati ugrás a valós feladatokban, nem csak a referenciatáblázatok tudományos fejlesztése.

Biztonság, kiberbiztonság és felelős használat

A képességek növekedése a következők megerősítését vonja maga után: biztonsági intézkedésekAz OpenAI kijelentette, hogy a GPT-5.5 a valaha volt legfejlettebb védelmi rendszerével indul, miután belső és külső értékeléseken, speciális készültségi keretrendszereken, valamint kiberbiztonsági és biológiai szakemberekkel folytatott „red teaming” folyamatokon esett át.

Ennek keretén belül Felkészültségi keretrendszerA cég a GPT-5.5 képességeit a következőképpen osztályozza: Biológia, kémia és kiberbiztonság „magas” szintenanélkül, hogy elérné a „Kritikus” szintet. Ennek ellenére elismeri, hogy a modell hatékonyabb, mint a GPT-5.4 a sebezhetőségek felkutatásában és kihasználásában, ezért telepített szigorúbb osztályozók az érzékeny kérésekhez és mechanizmusok az ismételt kockázatos felhasználások ellen, ami egyes technikai felhasználók számára korlátozóbb lehet.

Ezzel párhuzamosan az OpenAI célja, hogy bővítse a hozzáférést a fejlettebb képességekhez a következők számára: ellenőrzött védekező felhasználások olyan programokon keresztül, mint Megbízható hozzáférés a kiberbiztonsághozEzek az eszközök kifejezetten a kritikus infrastruktúra védelméért felelős szervezeteknek szólnak. Az ötlet az, hogy hatékony védelmi eszközöket biztosítsanak a potenciális támadó felhasználások elleni ellenőrzés enyhítése nélkül.

A biológiai kutatás területén a vállalat olyan kezdeményezéseket indított, mint például jutalmazási programok a modell viselkedésében bekövetkező biológiai hibák észleléséért, azzal a céllal, hogy a tudományos közösség segítsen azonosítani a hibákat és javítani a biztosítékokat a szélesebb körű bevezetés előtt.

A GPT-5.5 elérhetősége és telepítése a termékekben

Megkezdődött a GPT-5.5 telepítése a következő célra: ChatGPT és Codex Plus, Pro, Business és Enterprise felhasználókmind személyes, mind vállalati környezetben. A Codexnél a modell integrálva van a szoftverfejlesztési munkafolyamatokba, kibővített kontextusablakkal és gyors reagálási módokkal.

La GPT-5.5 Pro verzió Fokozatosan aktiválódik a Pro, Business és Enterprise felhasználók számára, akiknek extra részletességre és pontosságra van szükségük, különösen a szabályozott vagy nagy kockázatú területeken, ahol a hibák költségesek lehetnek. A ChatGPT-ben a felhasználók olyan speciális lehetőségeket is kezdenek látni, mint például GPT-5.5 gondolkodás összetett kutatási vagy elemzési problémák esetén.

Az API-val kapcsolatban az OpenAI a következőkön dolgozik: Integrálja a GPT-5.5 és a GPT-5.5 Pro csomagokat a válaszok és csevegéskiegészítések végpontjaiba a kontextuális ablakok száma eléri az egymillió tokent. A vállalat jelezte, hogy a hozzáférést bővíteni fogják, amint teljesülnek a belső biztonsági és infrastrukturális kapacitási követelmények, így a fejlesztők integrálhatják a modellt saját alkalmazásaikba, amint ez a fázis befejeződik.

A GPT-5.5 érkezése a ChatGPT fejlődésének egy új szakaszát jelenti: A hangsúly a szöveg egyszerű generálásáról a digitális feladatok átfogó automatizálására helyeződik át, olyan autonómabb modellekre, amelyek hosszabb ideig képesek érvelni és valós rendszereken dolgozni, magasabb árak és a biztonsággal és irányítással kapcsolatos egyre növekvő vita árán.Egy olyan európai kontextusban, ahol a mesterséges intelligencia szabályozása fejlődik, és a vállalatok a hatékonyságra törekszenek anélkül, hogy elveszítenék az irányítást, a szervezetek, fejlesztők és adminisztrációk által a GPT-5.5 használatának bevezetése – vagy korlátozása – ugyanolyan releváns lehet, mint az új modellt kísérő referenciaértékek.

ChatGPT ügynök
Kapcsolódó cikk:
ChatGPT ügynök: Az OpenAI autonóm ügynökökké válik az összetett feladatok automatizálása érdekében