Google julkaisee Gemini Liven, yrityksen vastauksen ChatGPT:n Advanced Voice Mode -tilaan

Googlen Made by Google -tapahtuma on virallisesti päättynyt, kun yritys lanseerasi Pixel-sarjan lippulaivapuhelimiensa uusimman kokoonpanon. Huhumylly on työskennellyt ahkerasti viime viikkoina sen eteen, että yksi ja monet huhut on vihdoin muutettu todeksi. Lisäksi tapahtumassa oli odotetusti myös enemmän kuin muutama – itse asiassa aika paljon – maininta tekoälystä.

Muun muassa tekoälyn yksi tärkeä ilmoitus on ollut Gemini Liven käynnistäminen. Google julkisti Gemini Liven I/O-konferenssissaan aiemmin tänä vuonna. Se on vihdoin saatavilla Gemini Advanced -tilaajille Androidilla englanniksi, ja uusille kielille ja iOS:lle (Google-sovelluksen kautta) on tulossa pian.

Gemini Liven avulla Gemini pystyy nyt pitämään luonnollisempia, kaksisuuntaisia keskusteluja. Voit myös keskeyttää sen keskellä vastausta, aivan kuten missä tahansa luonnollisessa keskustelussa. Voit siirtyä Gemini-sovellukseen Androidilla keskustellaksesi chatbotin kanssa.

Tämä on samanlainen kuin ChatGPT-sovelluksen Advanced Voice Mode -kokemus, joka on nyt rajoitettu alfaversiona ChatGPT Plus -käyttäjille. Kerrankin Google on asettanut itsensä OpenAI:n edelle julkaisuaikajanalla aloittamalla laajemman käyttöönoton.

Gemini Live on saatavilla myös handsfree-tilassa, joten voit puhua Geminille taustalla tai jopa puhelimen ollessa lukittuna. Voit myös jättää keskustelut keskelle ja palata niihin myöhemmin.

Google julkaisee Gemini Liven 10 uudella äänellä, jotta keskustelusi tekoälyn kanssa voivat tuntua sinulle entistä autenttisemmilta; voit valita sinulle sopivan äänen ja sävyn.

Erityisesti Gemini Live ei voi simuloida mitään muuta ääntä kuin sovelluksessa saatavilla olevia 10 ääntä mahdollisesti tekijänoikeusongelmien välttämiseksi. ChatGPT-4o noudattaa samaa käytäntöä. On yksi alue, jolla Gemini Live ei ole sama kuin ChatGPT-4o:n äänitila. Edellinen ei voi ymmärtää tunteitasi sävelestäsi, mitä OpenAI demosoi chatbotinsa pystyi tekemään.

Lisäksi Gemini Livessä on myös yksi ominaisuus, jota Google esitteli I/O-konferenssissa ja joka ei ole käytettävissä julkaisun yhteydessä. Kyllä, puhumme multimodaalisista tuloista. Jos et tiedä mikä se oli, älä huoli. Tässä yhteenveto: Multimodaalisilla tuloilla Gemini Live voi ottaa puhelimesi kamerasta syötteitä (sekä valokuvia että videoita) reaaliajassa ja vastata kysymyksiin tai auttaa sinua osoittamaan osoittamasi kohteet. Voit esimerkiksi osoittaa sen johonkin DJ-laitteeseen ja pyytää sitä tunnistamaan osan nimen tai voit osoittaa sen näytölläsi ja kysyä, mitä jokin koodin osa tekee.

Mutta multimodaaliset ominaisuudet viivästyvät toistaiseksi, ja Google on vain sanonut, että ne saapuvat myöhemmin tänä vuonna, ilman tarkempia tietoja. Mielenkiintoista on, että ChatGPT-4o:n Advanced Voice Mode -tilassa oletetaan myös olevan samanlaisia ominaisuuksia, mutta niitä ei ole myöskään julkaistu rajoitetun alfa-julkaisun yhteydessä.

Erityisesti Gemini Live on askel kohti Googlea, joka saa Project Astran toteutumaan.

Keskustelu chatbotin kanssa on joskus paljon helpompaa kuin kirjoittaminen, varsinkin kun haluat pohtia jotain. Ja Gemini Liven avulla keskustelu voi olla paljon saumattomampaa. Tai jos Made by Google -tapahtuman live-demot ovat osoitus, riittävän saumaton. (Chatbot ilmeisesti hallusinoitui live-demon aikana, ja ”keskeytä Gemini keskelle” -ominaisuutta testattaessa on jonkin verran kitkaa). Katsotaan kuinka käy tosielämässä, vai mitä? Valmistaudu testaamaan Gemini Liveä Pixel-, Samsung- tai muilla Android-laitteillasi tulevien viikkojen aikana tästä päivästä alkaen.