Kokeilin äskettäin Clauden uutta 3.5 Sonnet -mallia, joka on Anthropicin tähän mennessä tehokkain tekoälymalli ja jonka yhtiö väittää voivan ylittää kilpailijansa, kuten OpenAI:n ChatGPT. Tämä on rohkea väite, jota Anthropic tukee melko vaikuttavilla vertailuarvoilla.
Uudessa mallissa on myös näkökyky, jonka avulla voit toimittaa sille kuvia ja asiakirjoja ja poimia niistä tietoa. Ja se voi ymmärtää tunteita, kuten huumoria, paremmin samalla kun se on paljon nopeampi. Kaikki nämä elementit tekevät Claude 3.5:stä merkittävän kilpailijan uudelle GPT-40-käyttöiselle ChatGPT:lle, joka on myös multimodaalinen AI-malli.
Kuten Sonnet, ChatGPT-40 voi käyttää visioon perustuvia tuloja tekstipohjaisten tulojen lisäksi vastausten antamiseen. Se on yhtä hyvä ongelmanratkaisussa ja hänellä on samanlaiset keskustelukyvyt. Koska molemmat uudet mallit ovat niin lähellä toisiaan suorituskyvyn ja suorituskyvyn suhteen, kaikkien mielessä on kysymys, kumpi näistä kahdesta on parempi? Vastatakseni tähän päätin vertailla molempia malleja yksityiskohtaisesti.
Tietojen poimiminen asiakirjoista
Tekoälytyökaluja käytetään usein poimimaan tietoja asiakirjoista, kuten PDF-tiedostoista, ja tekemään niistä sitten yhteenveto; joten päätin ensin tarkistaa, kumpi kahdesta mallista voisi tehdä tämän tehokkaammin. Valmistelin sitä varten PDF-dokumentin kattoneliöistä, jonka olin kirjoittanut jokin aika sitten, ja latasin sen ChatGPT:hen ja Claudeen.
Sitten annoin heille kehotteen: summarize this document and provide me with the most important points discussed in it.
Tässä on mitä löysin. Uusi Claude-malli oli paljon nopeampi kuin ChatGPT ja alkoi tuottaa vastausta heti pyyntöni lähettämisen jälkeen. Se myös seurasi kehotusta tarkemmin ja listasi tärkeät kohdat numeroidussa luettelossa. Jos sinulla ei ole aikaa ja haluat vain vilkaista, mitä asiakirja sisältää, tarvitset tämän.
Vaikka olin hitaampi kuin Claude, pidin tässä tapauksessa parempana ChatGPT:n vastausta. Se ei vain luetteloi asiakirjan tärkeimpiä kohtia, vaan myös jakoi ne eri osiin, kuten Määritelmä ja tärkeys, Laskenta jne.
Jos haluat löytää tiettyä tietoa asiakirjassa käsitellyn aiheen tietystä näkökulmasta, ChatGPT:n tapa toimia näyttää olevan hyödyllisempi. Sinun ei tarvitse käydä läpi kaikkia kohtia, vaan voit vain katsoa tarvittavaa osaa. Tiedot tarjotaan tavalla, joka on helpompi käydä läpi ja sulattaa.
Näkökyvyn testaus
Koska yksi sekä Claude 3.5:n että ChatGPT-40:n tärkeimmistä kohokohdista on niiden kyky käyttää visuaalista syötettä ja tarjota tietoja sen perusteella, päätin testata sitä seuraavaksi pyytämällä heitä noudattamaan käsinkirjoitettuja ohjeita niiden litteroinnin jälkeen. Pyysin tekoälymalleja kirjoittamaan lyhyen runon, joka on samanlainen kuin Aesopoksen ”The Ant and the Cricket”.
Vaikka en täsmentänyt sitä kirjallisesti, halusin tuotoksen olevan runon inspiroima, mutta eri hahmoilla. Claude pyysi minua ensin vahvistamaan käsinkirjoitetun pyyntöni ja jatkoi sen jälkeen. Tulos oli melko hyvä, hyvin lähellä alkuperäistä runoa, mutta siinä oli samat hahmot. AI-chatbot kysyi minulta myös, halusinko erilaista lähestymistapaa tai muutoksia runoon sen jälkeen, kun se oli kirjoittanut runon.
ChatGPT ei vaatinut minua vahvistamaan pyyntöäni, mutta jatkoi sen suorittamista välittömästi. Sen kirjoittama runo oli myös erittäin vaikuttava, ja se korvasi alkuperäisen luomuksen muurahaisen ja sirkan mehiläisellä ja perhosella, mitä Claude ei tehnyt. Minusta ChatGPT:n versio oli myös runollisempi.
Transkriptiossa on siis pieni ero tuloksissa, mutta molemmat osaavat tulkita ja ymmärtää käsinkirjoitetun ja painetun tekstin erittäin hyvin, vaikka kuvat eivät olisikaan kovin selkeitä. Nämä tehokkaat näköominaisuudet tarkoittavat myös sitä, että voit käyttää näitä työkaluja tietojen keräämiseen kaavioista ja kaavioista, mikä tekee niistä sopivia matemaattisiin tehtäviin.
Kuvien kuvaus: Koska molemmat mallit pystyvät myös poimimaan tietoa kuvista, minun piti myös kokeilla sitä. Annoin Claudelle ja ChatGPT:lle kuvan trooppisesta saaresta ja pyysin heitä kuvaamaan sitä. Kuten näette, Claude tarjoaa elävän kuvauksen kuvasta, joka kuvaa jokaista etualalla ja taustalla olevaa elementtiä erittäin selkeästi, jopa ne, joita en itse huomannut.
Clauden lause- ja sanavalinnat kuvaa kuvaamaan tuntuivat myös vaikuttavammilta ja tekivät oikeutta kuvalle. Se kuvaa hienosti värejä, valaistusta ja välittää kuvan tuottaman yleisen seesteisyyden ja rauhallisuuden tunteen.
Tulokset olivat monimutkaisempia ChatGPT:n tapauksessa, joka pystyy kuvaamaan kuvia, vaikkakaan ei yhtä hyvin kuin Clauden. OpenAI:n mallilla on taipumus tehdä virheitä lisäämällä siihen elementtejä, joita ei ole, mikä osoittaa, että se voi silti hallusinoida. Lisäksi se yritti alun perin kuvata kuvaa sen otsikon perusteella sen sijaan, mitä se kuvasi, ja lopulta onnistui useiden yritysten jälkeen.
Silloinkaan kuvaus, jonka sain siitä, ei voinut kestää kynttilää Clauden vastaukselle. Tämä oli melko yllättävää, koska GPT-40:n näköominaisuudet olivat yksi suurimmista kohokohdista, joita OpenAI esitteli julkaisun yhteydessä.
Sisällön luominen ja muokkaaminen
Seuraavaksi yritin nähdä, mikä malli menestyi paremmin sisällön luomisessa. Saadakseni selkeän käsityksen siitä, miten ne toimivat, päätin luoda sisältöä, joka vaatii todellisia tosiasioita ja dataa, sekä kuvitteellista sisältöä, joka nojaisi tekoälymallin luovuuteen.
Ensin pyysin Claudea ja ChatGPT:tä antamaan minulle yksityiskohtaisen artikkelin erilaisista Android-skinoista, koska monet ihmiset haluavat tietää siitä, mutta se on hyvin subjektiivinen aihe, ja jokaisella on oma suosikkinsa. Käytin kehotetta Can you write a detailed article on the different Android skins, such as OneUI, MIUI, ColorOS, etc.?
Ottaen huomioon, kuinka paljon aikaa vietämme älypuhelimiemme parissa, halusin selvittää, kuinka tarkkoja mallit olivat ja kuinka paljon tietoa ne voisivat tarjota kustakin ihosta.
Kuten tavallista, Claude vastasi nopeammin. Se tarjosi yleiskatsauksen, jossa selitettiin, mitä Android-skinit ovat, mikä on mukavaa, mutta sitten yksinkertaisesti luetteli eri skinit niiden tarjoamilla ominaisuuksilla luettelomerkittynä luettelona. Muista, että malli antoi tämän tuloksen, vaikka ilmoitin kehotteessani ”yksityiskohtaisen artikkelin”.
Sitä vastoin ChatGPT loi artikkelille vaikuttavamman otsikon ja sisälsi lyhyen esittelyn. Tämän jälkeen se selitti jokaisen ihon omassa osiossa ja jakaen kunkin yleiskatsaukseen, tärkeimpiin ominaisuuksiin, etuihin ja haitoihin.
Tämä ei ainoastaan tarjoa kattavampaa tietoa, vaan antaa sinulle myös tarkan tiedon siitä, miten eri skinejä verrataan toisiinsa. Lopulta se päätti artikkelin oikeaan johtopäätökseen. Vaikka ChatGPT:n mainitsemien skinien määrä oli pienempi kuin Clauden mainitsemien skinien määrä, tässä laadulla on enemmän merkitystä kuin määrällä.
Vaikka ChatGPT suoriutui tässä tapauksessa paremmin kuin Claude, jälkimmäinen voi myös tuottaa hyvää sisältöä, kuten olen havainnut edellisessä testauksessani. Se voi riippua aiheesta tai tavasta, jolla ilmaistat kehotteen. Siksi annoin molemmille malleille toisen kehotteen, tällä kertaa kehotteen avulla. Write a humorous story about a penguin that wants to fly but ends up getting entangled into funny situations when it attempts to do so.
Se tarjosi minulle myös mahdollisuuden nähdä kuinka mallit ymmärtävät ja osaavat välittää huumoria.
Tällä kertaa tulokset olivat hyvin lähellä toisiaan, ja molemmat mallit loivat aidosti hauskoja tarinoita. Molemmissa tarinoissa oli yhteisiä elementtejä, kuten ironiaa ja fyysistä komediaa. Fiktiossa henkilökohtainen mieltymys on voimakas tekijä, ja kaiken kaikkiaan pidin Clauden tuotosta hieman parempana, varsinkin tapaa, jolla se leikki sanoilla luodakseen huumoria.
Mutta kuten aiemmin mainitsin, ChatGPT:n tarina oli myös hauska lukea ja oli hieman pidempi kuin Clauden. Sen loppu oli myös terveellisempää. Siten sekä Claude että ChatGPT pystyivät luomaan hyvää fiktiivistä sisältöä sisältäen samalla humoristisia elementtejä kehotukseni mukaisesti.
Sisällön muokkaaminen: Sisällön luominen on vain yksi osa prosessia. Saadaksesi todella selville, mitä tekoälymalli voi tehdä sisällön suhteen, sinun on myös testattava sen sisällönmuokkausominaisuudet, mitä jatkoinkin. Tätä tarkoitusta varten toimitin Claudelle ja ChatGPT:lle tekstin sosiaalisesta kaupasta ja annoin heille kehotteen,Can you expand this article while also proofreading and improving it?
Paranessaan artikkelia Claude aloitti esittelyllä, kirjoitti sitten sosiaalisen kaupankäynnin kehityksestä ja seurasi lopuksi muita osioita laajentaen kutakin parhaaksi katsomallaan tavalla. Mallissa käytettiin myös numeroituja luetteloita ja luettelokohtia, joissa katsottiin tarpeelliseksi parantaa luettavuutta.
ChatGPT:n vastaus oli samanlainen kuin sen aikaisemmat vastaukset, joissa se jakoi sisällön eri osioihin eri alaotsikoilla. Se ei käyttänyt luetteloita, mutta piti tiedot kappaleina. Mitä tulee muutoksiin ja parannuksiin, huomasin, että Claude teki artikkeliin rajumpia muutoksia kuin ChatGPT, mutta lopputulos oli myös paljon parempi. Lopulta huomasin, että Sonnetin muokkausominaisuudet olivat tehokkaampia ja sopivat paljon paremmin työnkulkuuni.
Koodauskyky
Tekoälymallien vertailu ei ole täydellinen ilman niiden koodauskykyä. Vaikka Claude on erityisesti kehitetty auttamaan ohjelmoijia kirjoittamaan parempaa koodia nopeasti ja helposti, uusi GPT-40-käyttöinen ChatGPT ei myöskään ole alaspäin koodauksen kannalta.
Testatakseni heidän koodintuotantokykyään pyysin sekä Claudelta että ChatGPT:ltä. Generate code for a simple game that can help beginners learn programming.
Vaikka molemmat kirjoittivat koodin Pythonissa, Claude suoritti koodin luomisen odotetusti nopeammin. Se näytti koko koodin näytön oikealla puolella ja selitti elementtejä, kuten funktiot ja muuttujat vasemmalla.
Pidin eniten Clauden vastauksesta, että se sisälsi myös painikkeen, jonka avulla voit siirtyä koodiin välittömästi, jotta voit helposti tarkistaa sen. Lisäksi chatbot ilmoitti minulle koodin suorittamiseen tarvittavista vaatimuksista ohjeineen. Mitä tulee itse koodiin, se oli melko helppo ymmärtää ja myös toimi täydellisesti, kun testasin sitä.
ChatGPT:n vastaukseen liittyen se pystyi myös luomaan yksinkertaisen mutta toimivan koodin, kuten olin pyytänyt. Koodin alapuolella chatbot tarjosi pelin suorittamiseen tarvittavat vaiheet sekä koodin kattamat käsitteet, mikä helpotti aloittelijoiden ymmärtämistä. Kaiken kaikkiaan tulokset olivat melko samankaltaisia molemmissa malleissa tässä tapauksessa, vaikka Claude selitti enemmän elementtejä ja hänellä oli vaihtoehto, jonka avulla voit pyytää sitä selittämään mitä tahansa koodin osaa yksityiskohtaisesti.
Matemaattiset kyvyt
Lopuksi annoin sekä Claudelle että ChatGPT:lle matemaattisen kysymyksen ratkaistavaksi nähdäkseni kuinka hyvin he menestyivät ja kumpi oli nopeampi. Kysymys sisälsi algebrallisia yhtälöitä, mutta ei ollut erityisen haastava. Molemmat mallit aloittivat selittämällä, mitä tehdä ensimmäisessä vaiheessa, vaikka niiden lähestymistapa oli erilainen. Claude laajensi yhtälöä ja kertoi lopulta minulle, että ongelman ratkaiseminen vaati kokonaan graafisen laskimen tai tietokonealgebrajärjestelmän käyttöä.
Se sanoi kuitenkin, kuinka monta mahdollisia ratkaisuja ongelmaan oli. Sitä vastoin ChatGPT ratkaisi ongelman kokonaisuudessaan ja antoi minulle kaikki mahdolliset ratkaisut siihen. Tämä osoittaa, että mitä tulee matemaattisiin kykyihin, ChatGPT-4o on edellä Sonnetia.
Lopullinen tuomio – Claude Sonnet 3.5 tai ChatGPT-4o: Kuka voitti?
Valinta Claude 3.5:n ja ChatGPT-4o:n välillä ei ole helppoa, mutta lopulta vain yksi voi olla voittaja, ja minulle sen on oltava uusi Sonnet-malli. Se ei ole vain huomattavasti nopeampi kuin ChatGPT, vaan tarjoaa myös tarkempia vastauksia. Pidin erityisesti siitä, kuinka hyvin se pystyi kuvaamaan kuvia ja ryhtymään niihin liittyviin toimiin.
Claude ei myöskään tehnyt hallusinaatioita kertaakaan sen kanssa käydessäni, mikä on toinen puoli sen hyväksi, ja sen vastaukset olivat yleisesti ottaen lähempänä ohjeitani. Vaikka se ei toiminut odotetulla tavalla yhdessä tapauksessa, jossa halusin yksityiskohtaista sisältöä, sen käyttäminen haluttujen tietojen saamiseen oli yleensä helpompaa ja vaati vähemmän vaivaa.
Kokeilemalla sekä Claude 3.5 Sonnetia että ChatGPT-40:tä olen huomannut, että molemmat ovat poikkeuksellisen hyviä tekoälymalleja, jotka ovat suorituskyvyltään hyvin lähellä toisiaan. Vaikka Sonnet suorittaa joitakin tehtäviä paremmin, ChatGPT tuottaa parempia tuloksia toisissa. Sinun tulisi ymmärtää, että sen määrittäminen, mikä on parempi, riippuu henkilökohtaisesta käyttötapauksestasi.
Lisäksi molemmilla ilmaisilla malleilla on rajoitettu kyky tehdä. Joten jos haluat käyttää jompaakumpaa tekoälyä säännöllisesti, suosittelen hankkimaan maksullisen tilauksen parhaan tuloksen saavuttamiseksi.
Vastaa