Ieri sera abbiamo seguito il tanto atteso Google I/O, e come annunciato, sono
state presentate tutte le novità che ruotano attorno all'intelligenza
artificiale, in quella che Sundar Pichai ha definito "The Gemini Era".. un'era
sempre più multimodale, e sempre più "long context", che mantiene Gemini 1.5 Pro
come flagship model.
L'evento è stato una lunga carrellata (quasi stordente) di applicazioni
rivoluzionarie in cui emerge, ancora una volta, la vera forza di Google:
l'integrazione dell'AI generativa in ogni elemento del suo vasto ecosistema.
Google I/O 2024: la live completa
--------------------------------------------------------------------------------
I 10 ESEMPI CHIAVE
Quella che segue è la mia selezione dei 10 esempi più significativi presentati
durante l'evento.
1) VEO, IL MODELLO DEDICATO ALLA GENERAZIONE VIDEO
Un potente modello text-to-video che, nella visione di Google, consentirà ai
registi di creare riprese cinematografiche attraverso prompt testuali.
Può generare video di alta qualità con risoluzione 1080p che possono superare il
minuto di durata, con un'ampia gamma di stili cinematografici e visivi.
Esempi di video generati con Veo - Google DeepMind
Il modello sarà disponibile su VideoFX e la proiezione futura lo vede integrato
anche su YouTube per la creazione di shorts.
La pagina che segue è l'approfondimento nel sito web di Google DeepMind.
Veo
Veo is our most capable video generation model to date. It generates
high-quality, 1080p resolution videos that can go beyond a minute, in a wide
range of cinematic and visual styles.
Google DeepMind
--------------------------------------------------------------------------------
2) L'INTEGRAZIONE NATIVA DELL'AI NELLA RICERCA
Google sta trasformando radicalmente l'esperienza di ricerca, integrando
tecnologie avanzate di AI per semplificare e arricchire l'interazione degli
utenti con il web, rendendo la ricerca più intuitiva e adattata alle esigenze
personali.
L'evoluzione della ricerca online
Le nuove funzionalità consentiranno di formulare domande complesse in una sola
ricerca, integrando capacità di ragionamento a più step e pianificazione.
Sarà possibile personalizzare l'esperienza per semplificare il linguaggio o
dettagliarlo maggiormente. Utile per chi si avvicina a nuovi argomenti o per
spiegazioni a un pubblico giovane.
Attraverso le nuove capacità di pianificazione direttamente nella ricerca,
Google mira ad aiutare gli utenti a creare programmi (es. per dieta e vacanze),
con possibilità di customizzazione.
Verrà introdotto un nuovo formato di pagina dei risultati organizzata dall'AI,
con l'obiettivo di facilitare l'esplorazione di idee con titoli e box generati
che categorizzano i contenuti in modo innovativo.
Sarà possibile effettuare ricerche basate su video, ampliando ulteriormente le
capacità di search visuale.
L'approfondimento nel blog di Google.
Generative AI in Search: Let Google do the searching for you
We’re bringing AI Overviews to everyone in the U.S. and adding new gen AI
experiences to take more of the legwork out of searching.
GoogleLiz Reid
--------------------------------------------------------------------------------
3) PROJECT ASTRA: IL FUTURO DEGLI AI ASSISTANT
Un progetto dedicato alla creazione di agenti AI universali che possono
interagire in modo naturale e immediato, comprendendo e rispondendo al contesto
dinamico del mondo reale.
Project Astra - Google DeepMind
Non permette soltanto l'interazione con l'acquisizione della fotocamera in
real-time, ma addirittura di interagire con il video nello schermo, ad esempio
indicando gli elementi di interesse.
> Davvero emozionante l'utilizzo del sistema
> attraverso gli smart glasses e la voce.
Gli aggiornamenti recenti alla famiglia di modelli Gemini da parte di Google
indicano passi significativi verso sistemi più veloci, efficienti e capaci di
interazioni multimodali avanzate, spianando la strada per assistenti AI
futuristici e onnipresenti.
L'approfondimento nel blog di Google.
Gemini breaks new ground with a faster model, longer context, AI agents and more
We’re sharing updates across our Gemini family of models and a glimpse of
Project Astra, our vision for the future of AI assistants.
GoogleDemis Hassabis
--------------------------------------------------------------------------------
4) IMAGEN 3: IL NUOVO MODELLO TEXT-TO-IMAGE
Imagen 3 rappresenta un significativo avanzamento nella tecnologia di
generazione di immagini da input testuale, con migliorie sostanziali nella
qualità visiva, nella comprensione dei prompt e in termini di sicurezza,
promettendo una più ampia applicabilità e integrazione nei prodotti e servizi di
Google.
Imagen 3: il nuovo modello text-to-image
Il sistema si basa sulle ultime innovazioni di Google DeepMind per la sicurezza
e la responsabilità, includendo watermarking digitale, impercettibile all'occhio
umano ma rilevabile per l'identificazione.
Watermarking AI-generated text and video with SynthID
Announcing our novel watermarking method for AI-generated text and video, and
how we’re bringing SynthID to key Google products
Google DeepMind
Imagen 3 avrà presto le funzionalità della versione precedente, come inpainting
e outpainting, e verrà integrato nei prodotti Google come Gemini, Workspace e
Ads.
L'approfondimento dal sito web di Google DeepMind.
Imagen 3
Imagen 3 is our highest quality text-to-image model, capable of generating
images with even better detail, richer lighting and fewer distracting artifacts
than our previous models.
Google DeepMind
--------------------------------------------------------------------------------
5) GEMINI 1.5 PRO È ORA DISPONIBILE PER TUTTI
Disponibile per tutti e con un'espansione della finestra di contesto a 2 milioni
di token.
Gemini 1.5 Pro è ora disponibile per tutti
L'approfondimento nel blog di Google.
Get more done with Gemini: Try 1.5 Pro and more intelligent features
Gemini Advanced subscribers will get access to Gemini 1.5 Pro, a 1 million token
context window and more personalized features.
GoogleSissie Hsiao
--------------------------------------------------------------------------------
6) TRILLIUM: UNA NUOVA ARCHITETTURA DI TPU EFFICIENTE E PERFORMANTE
Il lancio delle TPU Trillium di sesta generazione segna un significativo
avanzamento nella tecnologia delle unità di elaborazione di Google, promettendo
notevoli miglioramenti nella velocità di training e nell'efficienza energetica,
essenziali per il futuro dello sviluppo di modelli di intelligenza artificiale
su larga scala.
Trillium: una nuova architettura di TPU efficiente e performante
Questa generazione di TPU raggiunge un impressionante aumento di 4,7 volte
rispetto alle prestazioni di calcolo di picco per chip della versione
precedente.
L'approfondimento nel blog di Google Cloud.
Introducing Trillium, sixth-generation TPUs | Google Cloud Blog
The new sixth-generation Trillium Tensor Processing Unit (TPU) makes it possible
to train and serve the next generation of AI foundation models.
Google Cloud
--------------------------------------------------------------------------------
7) GEMINI 1.5 FLASH
Un modello più leggero, ottimizzato per attività in cui diventano fondamentali
la bassa latenza e i costi.
Gemini 1.5 Flash
Gli sviluppatori possono utilizzarlo con una finestra di contesto di 1 milione
di token su Google AI Studio e Vertex AI.
Gemini Flash
Our lightweight model, optimized for when speed and efficiency matter most, with
a context window of up to one million tokens.
Google DeepMind
--------------------------------------------------------------------------------
8) GENERATIVE MUSIC CON MUSICFX
MusicFX consentirà di liberare il DJ nascosto in ognuno di noi, per creare nuovi
ritmi e composizioni.
Generative Music con MusicFX
Il sistema aiuta a mixare i ritmi combinando generi, strumenti e altro, per dare
vita a storie musicali. È un playground per ispirare la generazione di nuova
musica.
Un approfondimento nel blog di Google.
Introducing VideoFX, plus new features for ImageFX and MusicFX
Today we’re introducing VideoFX, plus new features for ImageFX and MusicFX that
are now available in 110 countries.
GoogleThomas Iljic
--------------------------------------------------------------------------------
9) GEMINI INTEGRATO SU GOOGLE SHEETS
Grazie a questa integrazione sarà possibile interagire con Gemini direttamente
all'interno di Google Sheets, per analizzare i dati nei fogli attraverso il
linguaggio naturale.
Gemini integrato su Google Sheets
La possibilità di organizzare gli allegati di Drive, generare un foglio e
analizzare i dati verrà implementata su Labs entro la fine dell'anno.
Collaborate with Gemini in Google Sheets (Workspace Labs) - Google Docs Editors
Help
With Gemini in Google Sheets, you can: Create tables. Create formulas. Summarize
your files from Drive and emails from Gmail. Feature availability Th
Google Docs Editors Help
--------------------------------------------------------------------------------
10) L'INTEGRAZIONE DI GEMINI ANCHE SU GMAIL, DOCS, CALENDAR
Gemini sarà inserito su Gmail, Docs e Calendar. Gli strumenti funzionano già
bene insieme, ma l'integrazione renderà ancora più semplici le operazioni tra le
applicazioni. Ad esempio sarà possibile riconoscere determinate mail,
organizzandole su Drive e Sheets.
L'integrazione di Gemini anche con Gmail, Docs, Calendar
--------------------------------------------------------------------------------
CONSIDERAZIONI FINALI
Le applicazioni presentate sono assolutamente straordinarie, e vanno oltre ai 10
punti condivisi. Si è parlato, infatti, anche di:
* LearnLM, una famiglia di modelli ottimizzati per l'apprendimento;
* Intelligenza Artificiale responsabile;
* Ask Photos, un nuovo modo per cercare le tue foto con Gemini;
* Android, con un'integrazione di Gemini Nano sui device;
* Vertex AI, con i nuovi modelli integrati e disponibili;
* Gemma, con i nuovi modelli PaliGemma (un VLM) e Gemma 2.
I/O 2024
Here’s a look at everything we announced at Google I/O 2024.
blog.googleThomas Iljic
Tuttavia ho trovato qualche sintomo di frammentazione nell'azione di Google, con
una miriade di progetti basati sull'AI senza dare un riferimento chiaro
all'utente. Chi ha seguito le due ore di diretta, di certo è rimasto
disorientato.. o almeno per me la sensazione è stata questa.
> Useremo Astra, Assistant, SGE o Gemini per una ricerca multimodale? Continuo a
> ripetere che manca davvero un unico assistente centrale per tutto
> l'ecosistema.
Infine, dopo aver visto la naturalezza dell'interazione messa in atto da OpenAI
durante lo Spring Update, per quanto innovativo sia il progetto Astra, rimane
difficile affrontare un altro assistente.
GPT-4o: il più performante, multimodale, e.. gratuito!?
3 riflessioni sulle novità presentate da OpenAI durante lo Spring Update
Alessio PomaroAlessio Pomaro
--------------------------------------------------------------------------------
- GRAZIE -
Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre
persone, condividilo 🙂
ISCRIVITI ALLA NEWSLETTER
Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su
tematiche relative all'intelligenza artificiale.
Iscriviti alla Newsletter
Email sent! Check your inbox to complete your signup.
Gratuita. No Spam. Puoi disiscriverti quando vuoi.Consulta la privacy policy.
Tag - Voice Technology
Probabilmente siamo già saturi delle novità esposte da OpenAI durante lo Spring
Update: ne ha già parlato ogni canale presente online.
Le sintetizzo brevemente nella seconda parte.. prima vorrei condividere 3
riflessioni.
1) IL MIGLIOR MODELLO ESISTENTE GRATUITO
Il cambiamento radicale presentato da OpenAI riguarda l'accesso gratuito al
miglior LLM esistente (GPT-4o) attraverso ChatGPT.
> Da questo momento, chi pagherà un abbonamento per un modello inferiore della
> concorrenza?
Chiaramente, gli utenti ChatGPT Plus continueranno ad avere vantaggi (esempi:
rate limit, priorità, voice), ma sarà sufficiente per evitare che molti di essi
valutino di non mantenere la versione a pagamento? Probabilmente è una scelta
strategica più orientata ai clienti business (API), mantenendo l'accesso
gratuito alla versione Chat, anche se la prospettiva potrebbe cambiare
rapidamente in vista del prossimo modello di nuova generazione (GPT-5 o quello
che sarà).
Se questo modello di business funzionerà per OpenAI, di certo si tratta di una
grande mossa per abbattere i competitor e le motivazioni verso sviluppi di
soluzioni con tecnologia open source (al netto di esigenze specifiche).
2) LA NATURALEZZA DELL'INTERAZIONE
GPT-4o è un modello end-to-end nativamente multimodale. Questo significa che è
in grado di elaborare testo, audio, voce, video e immagini contemporaneamente,
in modo continuo.
Questa evoluzione era abbastanza prevedibile: di fatto, le interazioni tra
esseri umani sono di questo tipo. Gemini Pro di Google, inoltre, ci ha già dato
un assaggio di sistemi di questo tipo (un esempio).
Ma le interazioni vocali (e multimodali) viste durante la presentazione,
mostrano una naturalezza alla quale non siamo abituati, soprattutto se abbiamo
scagliato dalla finestra qualche dispositivo Google Home e/o Alexa.
Possiamo dire addio ai "turni della conversazione" scanditi da segnali acustici
e il dover attendere che l'assistente termini la risposta:
> quello che abbiamo visto è una "vera" conversazione, con la possibilità di
> intervenire mentre l'agente si esprime, ad un ritmo assolutamente paragonabile
> alla comunicazione tra esseri umani.
L'assistente è in grado di interagire con quello che "vede" in real-time
attraverso la camera del dispositivo, e nella versione desktop con i contenuti
presenti nello schermo.
Infine, un aspetto sbalorditivo riguarda il riconoscimento delle emozioni
dell'interlocutore.
> Tutto questo è sufficiente per un utilizzo naturale in ogni ambito?
> Probabilmente non ancora. Ma l'avvicinamento all'obiettivo e il distanziamento
> con ciò che conoscevamo in precedenza è davvero impressionante.
3) LA NATURA DI QUESTI MODELLI.. REMINDER
Come ha detto Sundar Pichai in una recente intervista..
> Sarei sorpreso se i LLM fossero l'unica cosa di cui abbiamo bisogno per fare
> progressi.
Un modello di linguaggio può essere talmente performante da darci perfettamente
la sensazione di “comprensione” e “ragionamento” (e su questo ci siamo quasi),
ma non ha basi logiche solide e affidabili. Questo dobbiamo tenerlo sempre
presente.
Nell'esempio che segue, vediamo due risposte di GPT-4o alla domanda "devo
parlare con l'unico fratello di mio fratello. Come posso fare?". La prima è
completamente fuori luogo, mentre la seconda rappresenta una buona interazione.
Un test di GPT-4o
Questi modelli ottengono punteggi impressionanti su molti benchmark, superano
esami in modo più brillante della media delle persone, ma “cadono” su domande
che richiedono ragionamenti che a chiunque sembrerebbero banali.
Questo rappresenta un problema? No, se ne abbiamo la consapevolezza e li usiamo
laddove possono darci dei reali vantaggi. Questi sistemi, in un certo senso, si
comportano in modo intelligente pur non essendo intelligenti.
--------------------------------------------------------------------------------
UNA SINTESI DELLE NOVITÀ PRESENTATE DA OPENAI
Durante la tanto attesa live di OpenAI, programmata esattamente 24 ore prima
dell'I/O 2024 di Google, Mira Murati (Chief Technology Officer di OpenAI) ha
presentato diverse novità interessanti.
OpenAI Spring Update
Le vediamo in una rapida sintesi.
* GPT-4o ("o" = "omni") è il nuovo flagship model di OpenAI, che sarà
disponibile via ChatGPT (anche nella versione gratuita) e via API.
Chiaramente è anche il modello più performante esistente.
Performance di GPT-4o su diversi benchmark
> it is a very good model (we had a little fun with the name while testing)
> pic.twitter.com/xKIwhKyRGt
>
> — Sam Altman (@sama) May 13, 2024
* 2 volte più veloce, con un costo inferiore del 50%, e con un rate limit di 5
volte superiore rispetto a GPT-4 Turbo.
* Un modello nativamente multimodale, che fonde testo, audio, voice e vision.
* Durante la live, sono state fatte diverse interazioni con l'assistente vocale
di ChatGPT, dimostrando una naturalezza impressionante, eliminando il
concetto dei "turni della conversazione", riconoscendo le emozioni
dell'utente e modificando il tono del dialogo su richiesta.
* È stata presentata una versione desktop di ChatGPT, che può rimanere aperta
in background, dialogare con l'utente, e interagire con gli elementi dello
schermo.
--------------------------------------------------------------------------------
> Se OpenAI chiudesse davvero l'accordo con Apple e riuscisse a implementare un
> GPT-4o distillato sul dispositivo per sostituire Siri..
> beh, ne vedremo delle belle 🙂
--------------------------------------------------------------------------------
- GRAZIE -
Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre
persone, condividilo 🙂
ISCRIVITI ALLA NEWSLETTER
Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su
tematiche relative all'intelligenza artificiale.
Iscriviti alla Newsletter
Email sent! Check your inbox to complete your signup.
Gratuita. No Spam. Puoi disiscriverti quando vuoi.Consulta la privacy policy.
Una rubrica che racconta le novità più rilevanti che riguardano l'Intelligenza
Artificiale, con qualche riflessione.
> Buon aggiornamento,
> e buone riflessioni..
--------------------------------------------------------------------------------
CODEX, RAI 3: ASSISTENTI VIRTUALI EMPATICI
> L'innovazione tecnologica porta con sé
> nuove esperienze, ma anche nuove "insidie".
Nella puntata di Codex andata in onda il 9 aprile su Rai 3 si è parlato di
assistenti virtuali evoluti che possono diventare protagonisti nella vita
privata e intima delle persone.
Mi è stato chiesto come funzionano, e nel servizio lo racconto, in modo
semplice, e con alcuni esempi pratici.
Il mio intervento durante Codex, Rai 3, con Barbara Carfagna e Massimo
Cerofolini
Sono tre gli ingredienti fondamentali che devono accompagnare l'accelerazione
tecnologica che stiamo vivendo:
1. le contromisure tecniche,
2. nuovi sistemi di governance,
3. la cultura su questi sistemi.. o, come viene definita nel servizio,
"educazione digitale".
La puntata completa si può vedere su Rai Play, con Barbara Carfagna e Massimo
Cerofolini.
--------------------------------------------------------------------------------
TEDX PADOVA SALON: BRAINS
> L'AI non genera skill, ma estende e
> potenzia delle competenze già consolidate.
Un TEDx Padova Salon ricco di spunti, idee, innovazione, in una location
d'eccezione (Le Village by CA Triveneto), con dei compagni di viaggio
straordinari: Eleonora Chioda, Margherita Cera, Fabrizio Dughiero, Pietro
Orciuolo.
TEDx Padova Salon - BrAIns
Il mio messaggio di chiusura..
> Portiamo questi concetti [sull'AI generativa] in azienda, e iniziamo a far
> girare il volano. Perché non c'è miglior prompt engineer di chi conosce i
> processi interni, potenziato da questa tecnologia.
--------------------------------------------------------------------------------
META HA RILASCIATO LLAMA 3
Ho iniziato a provare il modello con alcuni prompt del mio benchmark, che
producono output "semplici", ma con istruzioni precise e dettagliate.
Ho testato la generazione di codice, analisi di recensioni, clustering,
sentiment analysis, generazione di title, description e micro copy in ambito
SEO, analisi di video, topic modeling.
Risultato: mentre Llama 2 e anche modelli più evoluti hanno dimostrato diversi
problemi nel rispettare le indicazioni, Llama 3 risponde molto bene su quasi
tutti i test.
I miei test su Llama 3 di Meta
Meta ha rilasciato il modello open source in due dimensioni (8B e 70B di
parametri), con una finestra di contesto di 128k token, e con particolare
attenzione alla sicurezza.
> Sembra che arriverà anche una versione più evoluta da 400B di parametri.
L'utilizzo è possibile anche per uso commerciale, ma con delle restrizioni.
I risultati nei benchmark più comuni sono degni di nota! E sarà presto a
disposizione su tutte le piattaforme e servizi cloud.
Introducing Meta Llama 3: The most capable openly available LLM to date
Today, we’re introducing Meta Llama 3, the next generation of our
state-of-the-art open source large language model. In the coming months, we
expect to share new capabilities, additional model sizes, and more.
> Il modello open più evoluto è arrivato,
> con performance vicine ad alcuni
> modelli proprietari molto noti.
Llama 3 di Meta: performance
--------------------------------------------------------------------------------
L'INTEGRAZIONE DI GEMINI PRO SU BIGQUERY
> Inizia ad emergere la carta vincente
> di Google in ambito di AI generativa:
> l'integrazione nell'ecosistema.
Su BigQuery è possibile creare un modello basato su Gemini Pro, per poi usarlo
sui dati salvati nella piattaforma con semplici query SQL.
Usando le Object Tables, inoltre, si possono anche gestire contenuti
multimediali nei prompt.
> Questo è uno step potente per quanto riguarda l'automazione dei processi,
> aprendo la via all'uso di LLM senza API e programmazione.
E soprattutto, su BigQuery possiamo avere qualunque tipo di dato, incrociando
fonti e creando contesti perfetti per il modello generativo.
L'integrazione di Gemini Pro su BigQuery
I test che ho fatto hanno dato risultati molto interessanti.
L'integrazione di Gemini Pro su BigQuery: la presentazione di Google
--------------------------------------------------------------------------------
OPENAI INTRODUCE API BATCH
> Un sistema per eseguire operazioni non urgenti
> in modo asincrono con un costo inferiore del 50%.
OpenAI introduce API Batch
Le chiamate API vengono effettuate in blocco, con risultati in 24 ore.
Questo è davvero molto interessante per elaborazioni come la generazione di
contenuti, la classificazione e tutto ciò che non necessita di output in
real-time.
Vai alla documentazione
Con queste formule e le performance (e i prezzi) di GPT-4 Turbo, la
competitività anche rispetto a modelli open source (che comunque consumano
risorse) diventa altissima.
--------------------------------------------------------------------------------
VASA-1 DI MICROSOFT
Microsoft ha presentato Vasa-1, un modello in grado di trasformare una singola
immagine statica di un volto e una clip audio in un video realistico con parlato
e lip-sync.
Si tratta di un sistema che, come Vlogger di Google, non lavora su "ritagli" del
volto, ma sulla diffusione del volto completa, considerando dinamiche facciali e
movimenti della testa.
Esempi di Vasa-1 di Microsoft
Permette anche di controllare lo sguardo, la distanza della camera, le emozioni
del soggetto del video.
> L'evoluzione tecnologica è impressionante, come lo saranno i rischi e la
> responsabilità necessaria per gestirli.
Paper ed esempi
--------------------------------------------------------------------------------
INTEGRAZIONI DI MODELLI GENERATIVI SU ADOBE PREMIERE PRO?
Adobe, in un comunicato, mostra delle esplorazioni di integrazione dell'AI
generativa per l'editing dei video su Premiere Pro.
Non solo usando Firefly, ma anche Runway, Pika e Sora di OpenAI per l'estensione
delle riprese.
Integrazioni di modelli generativi su Adobe Premiere Pro
Di certo, le questioni da risolvere per integrazioni di questo tipo non saranno
banali. Adobe, infatti, non condivide proiezioni di implementazione.
> Ma è innegabile che stiamo "annusando" delle modalità di lavoro che, in un
> modo o nell'altro, vedremo in azione nel prossimo futuro.
Adobe previews breakthrough AI innovations to advance professional video
workflows within Adobe Premiere Pro
Adobe Previews Breakthrough AI Innovations to Advance Professional Video
Workflows Within Adobe Premiere Pro
--------------------------------------------------------------------------------
OPENAI RILASCIA LA VERSIONE 2 DELLE API ASSISTANTS
OpenAI potenzia le API Assistants rilasciando la versione 2, diventando un
framework RAG (Retrieval-Augmented Generation) in piena regola.
UNA SINTESI DELLE NOVITÀ
* Fino a 10k file per la knowledge e il retrieval.
* Nuovo archivio vettoriale, con chunking, ed embeddings automatizzati.
* Gestione dei token per ogni "run" con lo status (se la generazione risulta
incompleta è possibile continuarla).
* Per ogni "run" è possibile scegliere lo strumento che deve usare l'assistente
(es. File Search, Code Interpreter o funzioni custom).
* Parametri configurabili, come "temperature" e "top_p".
* Possibilità di usare la modalità JSON, per ottenere risposte in formato json
valido.
* Creazione di thread di conversazioni personalizzate, comprendenti anche la
gestione di file.
Un test su Playground delle nuove API Assistants V2
> Era quello che ci si aspettava e che mancava: maggior flessibilità. E con GPT4
> Turbo a disposizione in produzione, il potenziale è davvero interessante.
Cosa manca ancora ancora? La gestione dei task in modalità multi-agente.
Approfondimento
--------------------------------------------------------------------------------
RAGFLOW, UN FRAMEWORK RAG OPEN SOURCE
Ho provato RAGFlow, un framework RAG (Retrieval-Augmented Generation) open
source dotato di un'interfaccia web based che permette di configurare
completamente il sistema.
* Permette di gestire le knowledge base, configurando la vettorializzazione
(modelli e parametri) e la suddivisione dei dati in "chunk".
* È possibile creare diversi assistenti che usano una o più basi di conoscenza,
gestendo messaggi, system prompt, caratteristiche, soglia di similarità tra
le query e i chunk della knowledge, parametri generici, LLM che gestisce la
conversazione e i risultati della query vettoriale.
Test di RAGFlow, un framework RAG open source
Pur usando un modello di embeddings e un LLM non estremamente evoluti, i
risultati sono già molto interessanti.
Il progetto è su GitHub, e può essere installato ovunque.
GitHub - infiniflow/ragflow: RAGFlow is an open-source RAG (Retrieval-Augmented
Generation) engine based on deep document understanding.
RAGFlow is an open-source RAG (Retrieval-Augmented Generation) engine based on
deep document understanding. - infiniflow/ragflow
GitHubinfiniflow
--------------------------------------------------------------------------------
PERFORMANCE DI LLAMA 3 SU GROQ
Con Llama 3 70B abbiamo un modello open source che..
* può generare 250-300 token al secondo su Groq;
* è già in posizione alta nella Chatbot Arena Leaderboard, a contatto con i
modelli più performanti.
L'evoluzione di queste tecnologie è veloce e impressionante.
Performance di Llama 3 70 B
Assolutamente da provare su Groq.
--------------------------------------------------------------------------------
VIDU SARÀ LA RISPOSTA CINESE A SORA?
Si tratta di un modello Text-To-Video in grado di creare video di 16 secondi a
1080p.
Vidu sarà la risposta cinese a Sora?
> Il sistema è stato sviluppato da Shengshu Technology e dalla Tsinghua
> University.
La qualità non sembra ancora paragonabile agli output di Sora, ma come primo
passo è sorprendente.
--------------------------------------------------------------------------------
APPLE RILASCIA OPENELM
Una famiglia di modelli su misura per elaborazioni sui dispositivi.
Viene usata una nuova architettura definita "layer-wise scaling", che consente
di assegnare meno parametri agli strati iniziali del transformer vicino
all'input, e di aumentarli verso gli strati di uscita.
OpenELM: An Efficient Language Model Family with Open-source Training and
Inference Framework
The reproducibility and transparency of large language models are crucial for
advancing open research, ensuring the trustworthiness of…
Apple Machine Learning Research
> Questo permette di ottimizzare le risorse in base alla complessità delle
> informazioni ad ogni livello.
--------------------------------------------------------------------------------
I RISCHI DERIVANTI DAL DEEPFAKE
Il The Washington Post parla di deepfake e di rischio per le elezioni globali.
Rischio assolutamente concreto.
Credo che questo debba essere uno stimolo per accelerare nuovi sistemi di
governance e la diffusione della cultura su questi sistemi.
Il The Washington Post parla di deepfake e di rischio per le elezioni globali.
Vai al post
Devono migliorare le contromisure tecnologiche e normative da un lato, e il
PENSIERO CRITICO delle persone dall'altro.
> Perché, diciamocelo.. considerando quanto approfondiamo le informazioni, oggi
> bastano titoli ambigui per fare disinformazione e scatenare discussioni sui
> social a non finire. Immaginiamoci cosa potrebbero scatenare output evoluti
> prodotti attraverso l'AI generativa!
--------------------------------------------------------------------------------
OPENVOICE V2 DI MYSHELL: LA CLONAZIONE ISTANTANEA DI UNA VOCE UMANA
MyShell rilascia la versione 2 di OpenVoice, con un aumento della qualità e il
supporto multilingua nativo.
Il sistema consente la clonazione istantanea di una voce umana, con una qualità
notevole.
OpenVoice V2 di MyShell: la clonazione istantanea di una voce umana
La V1 e la V2 sono sistemi open source (MIT license), anche per uso commerciale.
GitHub - myshell-ai/OpenVoice: Instant voice cloning by MyShell.
Instant voice cloning by MyShell. Contribute to myshell-ai/OpenVoice development
by creating an account on GitHub.
GitHubmyshell-ai
--------------------------------------------------------------------------------
MICROSOFT RILASCIA PHI-3
Continua la proliferazione di modelli open e di piccole dimensioni: Microsoft
rilascia Phi-3. In tre formati di parametri: 3.8B, 7B e 14B.
Questi modelli possono funzionare in locale nei dispositivi. Il più piccolo,
quantizzato, anche su uno smartphone.
Prova il modello
> Con training dedicati possono dare ottimi risultati su domini specifici.
Introducing Phi-3: Redefining what’s possible with SLMs | Microsoft Azure Blog
We are excited to introduce Phi-3, a family of small open models offering
groundbreaking performance, developed by Microsoft. Learn more.
Microsoft Azure BlogMisha Bilenko
--------------------------------------------------------------------------------
GEMINI 1.5 PRO CON PROMPT MULTIMODALE (VIDEO)
La multimodalità è un elemento che ormai è parte integrante dell'ultima
generazione di modelli generativi.
In questo esempio uso Gemini 1.5 Pro su Google AI Studio, con un video come
elemento di input.
Gemini 1.5 Pro con prompt multimodale (video)
Il modello risponde a domande generali e specifiche, non solo riguardanti il
parlato, ma anche su elementi visivi che compaiono nel video.
È possibile specificare un system prompt ed elaborare anche immagini, audio e
file.
--------------------------------------------------------------------------------
UN SISTEMA RAG (RETRIEVAL-AUGMENTED GENERATION) BASATO SU LANGGRAPH E LLAMA 3 8B
> Effetto Llama3: ora si può ragionare in modo concreto su applicazioni locali
> ad alte prestazioni.
LangChain presenta un sistema RAG basato su LangGraph e Llama 3 8B (Ollama), con
Nomic AI per gli embeddings, Chroma come DB vettoriale e Tavily AI per la
ricerca web.
langgraph/examples/rag/langgraph_rag_agent_llama3_local.ipynb at main ·
langchain-ai/langgraph
Contribute to langchain-ai/langgraph development by creating an account on
GitHub.
GitHublangchain-ai
Il tutto eseguibile in locale.
> Un LLM open source con performance
> elevate, cambia le regole del gioco.
--------------------------------------------------------------------------------
FINE-TUNING DI GEMINI 1.0 PRO
Google AI Studio permette di fare fine-tuning di Gemini 1.0 Pro.
È possibile usare un CSV di esempi, oppure usare l'interfaccia web (scomoda per
gestire molti dati).
Possono essere impostati alcuni parametri avanzati, ad esempio epochs, learning
rate multiplier e batch size.
Fine-tuning di Gemini 1.0 Pro
Il moltiplicatore del tasso di apprendimento permette di attribuire un peso
diverso ai dati di training, rispetto al training generale del modello di base.
> Interessante per progetti molto specifici.
--------------------------------------------------------------------------------
LA MODALITÀ "MULTI-AGENTE"
> Sviluppare sistemi con LLM in modalità "multi-agente" può migliorarne le
> performance.
Cosa significa? Il task, in pratica, viene eseguito da diversi agenti autonomi
basati su LLM che collaborano tra loro scambiandosi gli output. Ognuno con un
ruolo preciso, con un system prompt specifico, con parametri personalizzati.
Nell'esempio uso AutoGen di Microsoft. Il task viene eseguito da un team di 4
agenti basati su GPT-4 Turbo.
Un esempio dell'utilizzo di AutoGen di Microsoft
> Si potrebbe ottenere lo stesso flusso con diversi GPTs? Sì, però usando un
> sistema come questo, tutto può essere automatizzato, e possono avvenire vere
> interazioni autonome fino a raggiungere l'obiettivo.
--------------------------------------------------------------------------------
COPYRIGHT E AI: CONSISTENT DIFFUSION MEETS TWEEDIE
Un nuovo progetto mostra come sia possibile addestrare modelli di diffusione
(es. Stable Diffusion) attraverso dati "rumorosi" ottenendo comunque performance
elevate.
Questo riduce di molto il problema della memorizzazione di precisi elementi dei
dati di training (es. volti, oggetti, scene), e della conseguente
riproducibilità.
Copyright e AI: Consistent Diffusion Meets Tweedie
> In pratica, il sistema riesce a generare immagini di alta qualità senza avere
> mai "visto" un'immagine pulita, aprendo scenari interessanti.
GitHub - giannisdaras/ambient-tweedie: Official implementation for the paper:
“Consistent Diffusion Meets Tweedie”
Official implementation for the paper: “Consistent Diffusion Meets Tweedie” -
giannisdaras/ambient-tweedie
GitHubgiannisdaras
--------------------------------------------------------------------------------
COME SARÀ TED TRA 40 ANNI?
TED, collaborando con l'artista Paul Trillo e OpenAI, lo racconta con questo
video realizzato con Sora.
> What will TED look like in 40 years? For #TED2024, we worked with artist
> @PaulTrillo and @OpenAI to create this exclusive video using Sora, their
> unreleased text-to-video model. Stay tuned for more groundbreaking AI — coming
> soon to https://t.co/YLcO5Ju923! pic.twitter.com/lTHhcUm4Fi
>
> — TED Talks (@TEDTalks) April 19, 2024
Ad eccezione del logo TED, il video è completamente realizzato dal modello.
> Chiaramente si tratta di una sperimentazione, che mette insieme nuove
> tecnologie e creatività a scopo dimostrativo, per scorgerne le potenzialità.
--------------------------------------------------------------------------------
I COMPUTER DIVENTERANNO PIÙ INTELLIGENTI DI NOI?
I "computer", di certo, diventeranno sempre più abili ad accelerare processi. Ma
quando parliamo di "intelligenza" siamo su piani diversi. Il termine
"intelligenza artificiale" non aiuta nella comprensione di questi aspetti.
Un modello di linguaggio, ad esempio, può essere talmente performante da darci
perfettamente la sensazione di "comprensione" e "ragionamento" (e su questo ci
siamo quasi), ma non ha basi logiche solide e affidabili. Recentemente ho
pubblicato un piccolo esperimento. Ho chiesto a diversi modelli: "devo mettermi
in contatto con l’unico fratello di mio fratello… come posso fare?". Nessuno mi
ha dato una risposta adeguata alla prima interazione.
Questi modelli ottengono punteggi impressionanti su molti benchmark, superano
esami in modo più brillante della media delle persone, ma "cadono" su domande
che richiedono ragionamenti che a chiunque sembrerebbero banali. Questo è un
problema? No, se ne abbiamo la consapevolezza e li usiamo laddove possono darci
dei reali vantaggi.
> Questo fa capire che questi sistemi, in un certo senso, si comportano in modo
> intelligente pur non essendo intelligenti. Gli algoritmi, se gestiti in modo
> adeguato, agiscono con successo, ma non hanno la capacità di agire con
> intelligenza per arrivare al risultato (come farebbe una persona).
In futuro, come dicevo, i modelli diventeranno sempre migliori, le tecnologie
miglioreranno per renderli più affidabili ed efficienti, ma rimarranno strumenti
(sempre più potenti) in grado di accelerare processi.
L'intervista completa su About Bologna:
L’IA può ridefinire la cultura? - *About Bologna
«L’intelligenza artificiale può portare grandi benefici, ma può anche segnare la
fine dell’umanità», ha detto lo scienziato Steven Hawkings. Verità o
catastrofismo? Dal 2014 quando pronunciò questa frase, sono passati 10 anni. La
comunità tecnologica…
*About BolognaLaura Bessega
--------------------------------------------------------------------------------
L'OTTIMIZZAZIONE DELLE PERFORMANCE DEL LLM
In una ricerca di Meta, Cisco e MIT, emerge come, eliminando fino al 40-50%
degli strati di un LLM l'impatto sull'accuratezza è risultato inferiore alle
aspettative.
Il processo di riduzione degli strati va a selezionare quelli meno importanti e
ridondanti, per procedere progressivamente con quelli che influiscono
minimamente nell'output.
Dopo la "potatura", i modelli sono stati affinati per recuperare performance,
mostrando che è possibile ridurre i requisiti di memoria e calcolo mantenendo
un'alta accuratezza, il che indica che potremmo non aver bisogno di modelli così
grandi e complessi come pensavamo.
L'ottimizzazione dei LLM - La ricerca di ricerca di Meta, Cisco e MIT
> In sostanza, questo studio suggerisce che i modelli di AI potrebbero essere
> resi più efficienti e meno costosi, aprendo la strada a un'intelligenza
> artificiale più veloce e accessibile.
Il paper per approfondire
--------------------------------------------------------------------------------
AI INDEX REPORT 2024
Stanford University ha pubblicato il consueto AI Index Report per il 2024.
I TAKE AWAY
1. L'AI batte gli umani in alcuni compiti come la classificazione delle
immagini e il ragionamento visivo, ma resta indietro su compiti più
complessi.
2. L'industria continua a dominare la ricerca sull'AI, con 51 modelli
rilevanti rilasciati, contro i 15 del mondo accademico (nel 2023).
3. I modelli diventano molto più costosi. Secondo il report, l'addestramento
di GPT-4 è costato 78M di dollari, mentre Gemini Ultra 191M di dollari.
4. Gli USA sono in testa nello sviluppo di modelli di AI, rispetto a Cina,
Europa e UK.
5. Mancano sistemi di valutazione e standardizzazione per lo sviluppo
responsabile dell'AI.
6. Gli investimenti in AI Generativa salgono alle stelle, ottuplicando nel
2023 quelli del 2022.
7. L'AI rende i lavoratori più produttivi e migliora la qualità dei risultati,
andando anche a colmare il gap di competenze. Ma senza un'adeguata
supervisione può avere un effetto contrario.
8. Il progresso scientifico accelera ulteriormente grazie agli algoritmi.
9. Il numero di normative sull'AI è in forte aumento negli USA.
10. Le persone sono più consapevoli dell'impatto dell'AI, e questo crea
nervosismo in un gruppo significativo.
AI Index Report per il 2024 - Take away
--------------------------------------------------------------------------------
[RISORSA] RICERCA DI VIDEO SU YOUTUBE E PRODUZIONE CONTENUTI CON GEMINI 1.5 PRO
Il seguente Colab implementa un agente AI che permette di specificare un
argomento ed esegue le seguenti operazioni:
1️. seleziona i migliori video di YouTube;
2️. estrae l'audio;
3️. genera una sintesi di ogni contenuto;
4️. crea un report complessivo.
Utilizza SerpAPI e Gemini 1.5 Pro, e i prompt per il modello possono essere
personalizzati.
Vai al Colab
IL PROGETTO
GitHub - mshumer/ai-researcher
Contribute to mshumer/ai-researcher development by creating an account on
GitHub.
GitHubmshumer
--------------------------------------------------------------------------------
[RISORSA] GUIDE ED ESEMPI DI PROMPT PER GEMINI
Una raccolta di guide ed esempi per iniziare a lavorare con le API di Gemini.
> Dalla repository si possono usare direttamente i Colab per ogni tipo di
> utilizzo, con la possibilità di personalizzare i prompt.
Elaborazione audio, tokenizer, embeddings, gestione file, function calling,
tuning, gestione video, e molto altro.
GitHub - google-gemini/cookbook: A collection of guides and examples for the
Gemini API.
A collection of guides and examples for the Gemini API. - google-gemini/cookbook
GitHubgoogle-gemini
--------------------------------------------------------------------------------
GEMINI CODE ASSIST
Con Gemini Code Assist Google prova a contrastare Microsoft e GitHub Copilot.
> Anche se si integra su Visual Studio, la vedo durissima, visto che l'editor è
> di Microsoft.
Probabilmente l'unico vantaggio attuale è la finestra di contesto più ampia.. ma
quanto durerà?
Gemini Code Assist (in precedenza Duet AI per gli sviluppatori)
Assistente con AI generativa per aiutare gli sviluppatori a creare applicazioni
in modo più rapido, efficace e sicuro.
Google Cloud
E non poteva mancare la consueta confusione sul nome delle soluzioni da parte di
Google.. Gemini Code Assist, Duet AI for developers.. vi prego, fate pace con il
naming!
Gemini Code Assist - Google
--------------------------------------------------------------------------------
VERTEXAI AGENT BUILDER
Lo sviluppo di applicazioni basato sul concetto di interazione tra "agenti"
sembra essere la direzione nello sviluppo di sistemi strutturati.
La soluzione di Google Cloud prende il nome di VertexAI Agent Builder.
Build generative AI experiences with Vertex AI Agent Builder | Google Cloud Blog
Announcing Vertex AI Agent Builder: Helping developers easily build and deploy
generative AI experiences.
Google Cloud
Come funziona? Diciamo che si tratta della risposta a GPTs e API Assistants di
OpenAI. Le funzionalità sono praticamente le stesse: RAG (Retrieval-Augmented
Generation), esecuzione di codice, ricerca online, interazione con servizi
esterni.
> Google conferma il perenne stato di "rincorsa" che lascia sempre una
> sensazione di frammentarietà rispetto alle integrazioni dei competitor (di
> Microsoft, ad esempio).
--------------------------------------------------------------------------------
GROK 1.5 V
X.ai ha rilasciato Grok 1.5 V, un nuovo modello multimodale in grado di gestire
un contesto composto da testo e immagini.
Nei principali benchmark sembra molto vicino a modelli come GPT-4 e Claude 3
Opus.
Grok 1.5 V
> Sarà interessante capire se Grok verrà proposto in modalità open source!
--------------------------------------------------------------------------------
UN APPROCCIO EQUILIBRATO NELL'USO DEI DATI SINTETICI NELLA RICERCA SCIENTIFICA
> Un articolo di Nature assolutamente da leggere.
Mette in guardia sulla tendenza di considerare i modelli di AI come soluzioni
omnicomprensive, sottolineando l'importanza di un approccio equilibrato che
integri dati sintetici e reali, mantenendo la ricerca scientifica radicata nel
"mondo reale" e nell'indagine empirica.
> I dati sintetici possono essere una risorsa preziosa, in contesti in cui i
> dati reali sono incompleti o costosi da raccogliere.
Nature - The perpetual motion machine of AI-generated data and the distraction
of ChatGPT as a ‘scientist’
Ma l'interpretazione va fatta con equilibrio. Il rischio di alimentare i modelli
con dati generati è di spingersi verso un ciclo di conferma invece di avere una
vera innovazione.
The perpetual motion machine of AI-generated data and the distraction of ChatGPT
as a ‘scientist’ - Nature Biotechnology
Nature Biotechnology - The perpetual motion machine of AI-generated data and the
distraction of ChatGPT as a ‘scientist’
NatureJennifer Listgarten
--------------------------------------------------------------------------------
ESTRAZIONE DI DATI DA FILE AUDIO E VIDEO
Estrazione di dati da file audio e video usando Gemini 1.5 Pro attraverso
LangChain?
Estrazione di dati da file audio e video
LA DOCUMENTAZIONE
Audio/Video Structured Extraction | 🦜️🔗 Langchain
Google’s Gemini API offers support for audio and video input, along with
function calling.
🦜️🔗 Langchain
--------------------------------------------------------------------------------
ADOBE AVREBBE ADDESTRATO FIREFLY CON IMMAGINI GENERATE ATTRAVERSO ALTRI MODELLI
> Il tema dei dati di training dei modelli generativi diventa sempre più
> intricato e fuori controllo.
Bloomberg ha pubblicato un post che denuncia il fatto che Adobe avrebbe
addestrato Firefly con immagini generate attraverso altri modelli, come
Midjourney.
L'azienda ha sempre promosso il suo progetto come "commercialmente sicuro"
facendo leva su un addestramento derivante dalle immagini di Adobe Stock.
Adobe’s ‘Ethical’ Firefly AI Was Trained on Midjourney Images
Company promotes its tool as safe from content scraped from the internet.
BloombergRachel Metz
> Ma gli utenti possono caricare immagini generate dall'AI su Adobe Stock..
> quindi..
È sempre più chiaro (oppure no!?) che è davvero necessario accelerare questa
discussione a livello globale?
--------------------------------------------------------------------------------
TRASFORMAZIONE DEI SEGNALI NEURALI IN PARLATO (ECOG-TO-SPEECH)
Un nuovo paper pubblicato su Nature presenta un sistema che trasforma i segnali
neurali in parlato (ECoG-to-speech).
Viene usata una rappresentazione intermedia a bassa dimensione guidata da un
pre-addestramento basato sul solo segnale vocale.
Nel video si sente il confronto tra il parlato originale e quello generato dal
modello che codifica i segnali neurali.
Trasformazione dei segnali neurali in parlato (ECoG-to-speech)
Immaginiamo le applicazioni di queste tecnologie in ambito di deficit
neurologici.
A neural speech decoding framework leveraging deep learning and speech synthesis
- Nature Machine Intelligence
Recent research has focused on restoring speech in populations with neurological
deficits. Chen, Wang et al. develop a framework for decoding speech from neural
signals, which could lead to innovative speech prostheses.
NatureXupeng Chen
Nel testo è disponibile anche una pipeline di decodifica neurale aperta, su
GitHub.
--------------------------------------------------------------------------------
GPT-4 TURBO ESCE DALLA PREVIEW
GPT-4 Turbo esce dalla preview e diventa disponibile (anche con Vision) in
versione stabile via API.
Questa è una buona notizia per chi ha automazioni in produzione, perché i costi
possono scendere in modo importante.
GPT-4 Turbo esce dalla preview
> Ma attenzione: consiglio di verificare gli output prima di switchare, perché
> dai miei test il comportamento è leggermente diverso.
--------------------------------------------------------------------------------
COME FUNZIONA CHATGPT? UNA SPIEGAZIONE DETTAGLIATA
Per chi vuole approfondire in dettaglio il funzionamento di ChatGPT, spiegato in
modo semplice e passo dopo passo, consiglio questo post.
> Le dinamiche possono essere estese a qualunque LLM.
È un post lungo, ma affascinante.. che permette di acquisire una consapevolezza
maggiore di questi sistemi.
What Is ChatGPT Doing … and Why Does It Work?
Stephen Wolfram explores the broader picture of what’s going on inside ChatGPT
and why it produces meaningful text. Discusses models, training neural nets,
embeddings, tokens, transformers, language syntax.
Stephen WolframNicos Kekchidis
--------------------------------------------------------------------------------
GENERALIZZAZIONE DEI CONCETTI DEI LLM: UNO STUDIO
I modelli generativi sono abili a generalizzare i concetti al di fuori della
dimensione di addestramento? In realtà NO.. è "solo" questione di quantità di
dati di training.
Lo studio presenta diversi test che mostrano come le performance "zero-shot" dei
modelli aumentano linearmente con un aumento esponenziale dei dati.
E chiaramente la capacità dei modelli migliora grazie anche alla presenza di
dati simili ai test nei dataset di addestramento.
Torniamo su un concetto che ho raccontato all'AI Festival:
> Prima o poi, la sete di dati di questi sistemi supererà ciò che è disponibile.
> Se vogliamo spingerci verso qualcosa che si avvicina maggiormente al concetto
> di AGI (Artificial General Intelligence), probabilmente servono approcci
> algoritmici alternativi.
No “Zero-Shot” Without Exponential Data: Pretraining Concept Frequency
Determines Multimodal Model Performance
Web-crawled pretraining datasets underlie the impressive “zero-shot” evaluation
performance of multimodal models, such as CLIP for classification/retrieval and
Stable-Diffusion for image generation. However, it is unclear how meaningful the
notion of “zero-shot” generalization is for such multimodal models, as it is not
known to what extent their pretraining datasets encompass the downstream
concepts targeted for during “zero-shot” evaluation. In this work, we ask: How
is the performance of multimodal models on downstream concepts influenced by the
frequency of these concepts in their pretraining datasets? We comprehensively
investigate this question across 34 models and five standard pretraining
datasets (CC-3M, CC-12M, YFCC-15M, LAION-400M, LAION-Aesthetics), generating
over 300GB of data artifacts. We consistently find that, far from exhibiting
“zero-shot” generalization, multimodal models require exponentially more data to
achieve linear improvements in downstream “zero-shot” performance, following a
sample inefficient log-linear scaling trend. This trend persists even when
controlling for sample-level similarity between pretraining and downstream
datasets, and testing on purely synthetic data distributions. Furthermore, upon
benchmarking models on long-tailed data sampled based on our analysis, we
demonstrate that multimodal models across the board perform poorly. We
contribute this long-tail test set as the “Let it Wag!” benchmark to further
research in this direction. Taken together, our study reveals an exponential
need for training data which implies that the key to “zero-shot” generalization
capabilities under large-scale training paradigms remains to be found.
arXiv.orgVishaal Udandarao
> Non basterà aumentare le dimensioni dei
> modelli e aumentare la potenza di calcolo.
--------------------------------------------------------------------------------
UNIVERSAL-1: IL MODELLO DI SPEECH RECOGNITION PIÙ PERFORMANTE
Sembra che Universal-1 di Assembly AI sia il modello di speech recognition più
performante esistente.
Addestrato su 12,5 milioni di ore di audio multilingua, è più accurato del 14%
rispetto a Whisper e del 22% rispetto alle API di Azure, AWS e Google.
Universal-1 di Assembly AI: error rate
> Può trascrivere un audio di 1 ora in 38 secondi!
AssemblyAI Research | Building the world’s leading Speech AI models
Explore AssemblyAI’s current research, news, and updates on Speech AI
technology.
AssemblyAI
--------------------------------------------------------------------------------
PERPLEXITY-INSPIRED LLM ANSWER ENGINE
Perplexity, di fatto, è un motore conversazionale: un ibrido che unisce un
motore di ricerca e un LLM. Il concetto è semplice.
Questo progetto permette di creare un sistema molto simile, attraverso Groq,
Mistral, LangChain, Brave, Serper API e OpenAI.
Il sistema restituisce fonti, risposte, immagini, video e domande di follow-up
basate sulle query degli utenti.
GitHub - developersdigest/llm-answer-engine: Build a Perplexity-Inspired Answer
Engine Using Next.js, Groq, Mixtral, Langchain, OpenAI, Brave & Serper
Build a Perplexity-Inspired Answer Engine Using Next.js, Groq, Mixtral,
Langchain, OpenAI, Brave & Serper - developersdigest/llm-answer-engine
GitHubdevelopersdigest
> Un ottimo punto di partenza per chi vuole avere una base di sviluppo evoluta
> di un motore conversazionale.
--------------------------------------------------------------------------------
L'INVESTIMENTO NEI CHIP NVIDIA PER IL TRAINING DEI MODELLI GENERATIVI
In una recente presentazione, la società di venture capital Sequoia ha stimato
che l’industria dell'AI ha speso 50 miliardi di dollari sui chip Nvidia
utilizzati per addestrare modelli di intelligenza artificiale avanzati lo scorso
anno, ma ha generato entrate solo per 3 miliardi di dollari.
Investimenti "normali" per costruire la base per competere.. ma quanto durano le
GPU per mantenere la competitività? Inoltre manca il consumo energetico
nell'equazione.
Inoltre..
> l'uso del calcolo per l'inferenza aumenterà vertiginosamente rispetto al
> training.
L'investimento nei chip Nvidia per il training dei modelli generativi
Di certo, la sfida è interessante. E l'ottimizzazione degli algoritmi sarà una
leva fondamentale.
Approfondimento
--------------------------------------------------------------------------------
VOICECRAFT: EDITING E SINTESI VOCALE
VoiceCraft è un nuovo modello con due funzionalità: editing vocale per
modificare l'audio, e sintesi vocale zero-shot per generare parlato dalle
trascrizioni usando solo pochi secondi di audio di riferimento.
VoiceCraft: editing e sintesi vocale
Gli esempi nel paper rendono molto bene l'idea del livello di che oggi si
raggiunge quasi con semplicità.
VoiceCraft
VoiceCraft: Zero-Shot Speech Editing and Text-to-Speech in the Wild
Puyuan Peng
> Mi sembra ieri quando usavo "Festival" come TTS per il progetto della tesi..
> sono passati diversi anni, oggi sembra tutto banale, ma per me è sempre
> strabiliante.
--------------------------------------------------------------------------------
META ETICHETTERÀ I VIDEO GENERATI ATTRAVERSO L'AI
> "Additional transparency is
> better than censoring content"
Meta, come YouTube, etichetterà i video generati ed editati attraverso l'AI con
la label "Made with AI".
Verranno rilevati automaticamente meta dati, e le persone avranno l'opzione per
specificarlo in fase di caricamento.
L'approccio mi trova d'accordo: la label è molto più "formativa" della censura.
Questo può contribuire ad alzare il livello di cultura generale sull'AI
generativa.
Our Approach to Labeling AI-Generated Content and Manipulated Media | Meta
We will begin labeling a wider range of video, audio and image content as “Made
with AI” when we detect industry standard AI image indicators or when people
disclose that they’re uploading AI-generated content.
MetaMonika Bickert, Vice President of Content Policy
Inizialmente le piattaforme non riusciranno a etichettare tutto precisamente, ma
nel tempo impareranno a farlo. E questa può essere una chiave vincente contro
l'uso malevolo di questi sistemi.
--------------------------------------------------------------------------------
STABLE AUDIO 2.0: GENERAZIONE DI AUDIO DI QUALITÀ
Stability AI ha rilasciato Stable Audio 2.0: un modello in grado di generare
tracce musicali di alta qualità. Fino a 3 minuti di audio a 44,1KHz.
È stata aggiunta la possibilità di usare prompt multimodali che comprendono un
audio in input per integrare il contesto.
Il modello è stato addestrato su un dataset concesso in licenza da AudioSparx, e
incorpora un sistema di riconoscimento per evitare eventuali violazioni di
copyright.
Stable Audio 2.0 di Stability AI
> Un altro grande passo in avanti per la generazione dell'audio.
--------------------------------------------------------------------------------
GPT-3.5 TURBO DIVENTA UTILIZZABILE PER IL FINE-TUNING
OpenAI estende le funzionalità di fine-tuning con GPT-3.5 Turbo per dare la
possibilità ai brand di creare modelli più aderenti a specifici domini.
Tra le novità troviamo la creazione di checkpoint per ogni epoch, un playground
comparativo per valutare le performance dei modelli, integrazioni con
piattaforme di terze parti, metriche di valutazione sull'intero dataset di
training, configurazione degli iperparametri.
Introducing improvements to the fine-tuning API and expanding our custom models
program
We’re adding new features to help developers have more control over fine-tuning
and announcing new ways to build custom models with OpenAI.
Hanno annunciato anche un nuovo programma di fine-tuning assistito, con supporto
di un team di esperti.
--------------------------------------------------------------------------------
[RISORSA] UN COLAB PER GENERARE PROMPT EVOLUTI
Anthropic, nella documentazione, fornisce un Colab Notebook per la generazione
di prompt evoluti.
Si tratta di un sistema efficace, ma anche molto semplice. Più utile ad
acquisire nozioni in ambito di prompt engineering, rispetto all'utilizzo
diretto.
Vai al Colab
Una volta compresa la tecnica, si possono creare prompt molto migliori di quelli
che genera il tool. Ma rimane un'ottima base di partenza.
Un Colab per generare prompt evoluti
Il metodo è perfettamente estendibile a qualunque modello di linguaggio.
--------------------------------------------------------------------------------
CHATGPT E LA NUOVA INDICAZIONE DELLE FONTI
ChatGPT migliora l'indicazione delle fonti dalle quali estrae le risposte
attraverso la navigazione.
Lo annuncia OpenAI con un post su X, ed ecco alcuni esempi.
La nuova indicazione delle fonti di ChatGPT
--------------------------------------------------------------------------------
[RISORSA] UN CENSIMENTO IN CONTINUO AGGIORNAMENTO DI TUTTI I MODELLI GENERATIVI
Ecosystem Graphs di Stanford è una raccolta in continuo aggiornamento che tiene
traccia di tutti i modelli generativi con i riferimenti e le caratteristiche.
Ecosystem Graphs di Stanford
> La versione tabellare è comoda per la consultazione, mentre il grafo mette in
> evidenza le relazioni tra modelli, dataset, applicazioni.
--------------------------------------------------------------------------------
LLM E SICUREZZA: MANY-SHOT JAILBREAKING
Anthropic ha pubblicato una ricerca dal titolo "Many-shot jailbreaking" che
mette in evidenza una tecnica che sfrutta le ampie finestre di contesto dei
modelli per eludere le misure di sicurezza.
LLM e sicurezza: many-shot jailbreaking (Anthropic)
> Il principio è semplicissimo: più esempi (shot) vengono forniti al modello nel
> prompt, e più è possibile influenzarne il comportamento.. ecco perché
> aumentando la finestra di contesto, possono aumentare anche i rischi.
La tecnica è efficace sui modelli di Anthropic e di altre aziende, e implica
l'uso di grandi quantità di testo in configurazioni specifiche per indurre i
modelli a generare risposte potenzialmente dannose, nonostante siano addestrati
per evitarlo.
La ricerca evidenzia la necessità di sviluppare strategie di mitigazione per
affrontare questa vulnerabilità, sottolineando come anche miglioramenti
apparentemente positivi nei modelli di AI possono avere conseguenze impreviste.
Many-shot jailbreaking
Anthropic is an AI safety and research company that’s working to build reliable,
interpretable, and steerable AI systems.
--------------------------------------------------------------------------------
MODIFICA DELLE IMMAGINI GENERATE SU CHATGPT
Nell'interfaccia di ChatGPT è stata integrata la nuova funzionalità di
inpainting per le immagini generate.
Aprendo l'immagine generata, è possibile selezionare un'area e modificarla
attraverso un prompt testuale.
Un esempio di modifica dell'immagine generata su ChatGPT
La modifica interesserà solo la selezione.
--------------------------------------------------------------------------------
CLAUDE 3 OPUS: TEST NELLO SVILUPPO SOFTWARE
È stato selezionato uno dei test del benchmark "SWE-Bench", che contiene
un'estrazione di problemi reali presenti su GitHub.
In 4 minuti, con 37,5k token in input e 2,8k token in output, il modello ha
condotto alla risoluzione del problema.
La stima di risoluzione per uno sviluppatore è di 2-8 ore.
> Cosa fa capire tutto questo? Che questi sistemi, integrati negli editor,
> possono aiutare a migliorare le performance in modo importante.
> I tested Claude 3 Opus on one of the problems on the hardest software
> engineering benchmark for AI — real Github issues.
>
> It took ~4mins with 37.5k input tokens and 2.8k output tokens to *mostly*
> solve it, with only minor hiccups..
>
> This changes software development.
>
> 1/7 pic.twitter.com/YBeNxT9BWu
>
> — Deedy (@deedydas) March 31, 2024
Test di Claude 3 Opus in ambito dello sviluppo software
> Ma NON SOLO.. Possono stimolare la creatività nelle persone, e portare a nuove
> soluzioni che non si sarebbero mai implementate.
--------------------------------------------------------------------------------
- GRAZIE -
Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre
persone, condividilo 🙂
ISCRIVITI ALLA NEWSLETTER
Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su
tematiche relative all'intelligenza artificiale.
Iscriviti alla Newsletter
Email sent! Check your inbox to complete your signup.
Gratuita. No Spam. Puoi disiscriverti quando vuoi.Consulta la privacy policy.