Il 30 novembre 2022 veniva lanciato ChatGPT, un servizio rivoluzionario che non solo ha aperto un nuovo mercato, quello dei chatbot potenziati da modelli di linguaggio di grandi dimensioni, ma ha anche dato avvio ad un’esplosione di nuovi prodotti di intelligenza artificiale generativa.
Infatti, in questi quindici mesi sono stati annunciati software molto diversi tra loro che possono essere di aiuto in un ampio spettro di attività professionali.
Tipologia di software e livello di maturità
To understand the current landscape, we can distinguish generative AI software based on its core function.
- Text to Text: sono quei servizi che permettono di generare testi di vario tipo, sulla base di un’istruzione dell’utente (prompt). Vengono usati per un supporto ad attività di brainstorming, copywriting, analisi, creazione di chatbot e scrittura di codice.
The market for this type of software is quite mature, and is characterized by competition between a number of products such as ChatGPT, Gemini, Claude and Perplexity AI.
- Text to Image: sono software che riescono a generare immagini a partire da una semplice descrizione testuale di ciò che si vuole ottenere. Sono utili per creare ogni tipo di visual per arricchire materiali di marketing, social media post, pubblicazioni.
È un mercato non pienamente maturo perché fatto di prodotti molto eterogenei che spesso non permettono di avere il massimo controllo sull’output finale. Tra i software più interessanti, Midjourney e Leonardo.AI (basato anche sul modello open Stable Diffusion);
- Text to Audio: in questa categoria ricadono due tipologie di prodotti, quelli che si concentrano sulla generazione di voci e quelli che si focalizzano sulla creazione di musica. Leader della prima categoria è ElevenLabs, che ha sviluppato una tecnologia per la clonazione di voci e la generazione di voci sintetiche da usare per lavori di text to speech, speech to text e speech to speech. Della seconda categoria fanno parte prodotti come Mubert e Stable Audio, che permettono di generare musiche sulla base di un input testuale, ma anche Suno che si spinge fino alla generazione di canzoni;
- Text to Video: è il gruppo che comprende quei servizi che consentono di generare video sulla base di una descrizione testuale o di manipolare un video caricato, trasformandone lo stile. I risultati sono ancora poco professionali e realistici, oltre che di breve durata. Ecco perché va classificato come mercato ancora immaturo, ma molto promettente se si guarda alla demo di Sora, un nuovo modello di IA sviluppato da OpenAI. Il leader di questo segmento è Runway. Interessante anche HeyGen, che si concentra sulla generazione di video-presentazioni con avatar sintetici o clonati da persone reali;
- Text to 3D: è il settore più embrionale, formato da prodotti che riescono a generare oggetti tridimensionali o ambienti 3D grazie ad una descrizione iniziale.
What can we expect in the coming months?
Già oggi, alcuni strumenti di IA vengono utilizzati da freelance, agenzie e aziende per rendere più efficienti alcuni task come la creazione di testi e di immagini. Nel 2024 sempre più tool entreranno nella cassetta degli attrezzi dei professionisti per almeno three reasons:
- Ubiquità: nel senso che molte funzioni di IA che ora sono attivabili usando applicazioni dedicate, saranno disseminate in software già utilizzati da milioni di persone (Microsoft 365, Adobe Suite, ecc.);
- Specialization:: appariranno tool più verticali, specializzati in campi specifici (finanziario, legale, ecc.) che saranno più affidabili rispetto a quelli “general purpose”;
- Sophistication:: gli strumenti attuali miglioreranno e acquisiranno nuove capacità come quella di gestire contemporaneamente più tipologie di input e output (multimodalità) o di compiere task completi (agenti);