> GPT-5 is a significant step along the path to AGI… a model that is generally
> intelligent.
Così Sam Altman introduce la live di presentazione di GPT-5. Nel momento in cui
ha finito la frase, ho avuto una forte tentazione di stoppare lo streaming.. ma
mi sono sforzato di proseguire.
A valle dell’evento, il mio bilancio è questo:
> GPT-5 è un major update
> solido ma non di rottura.
La presentazione di GPT-5 di OpenAI
È plausibile che abbiano migliorato praticamente tutto: comprensione,
allucinazioni, strumenti, costi.. però non è il salto epocale che la retorica di
apertura lasciava intendere. Anche il messaggio “verso l’AGI” suona come
marketing ambizioso più che come evidenza scientifica: se migliori su molti
benchmark ma resti nel solco della stessa famiglia di (queste) tecniche, è un
progresso importante, non una rivoluzione.
Questo non significa sminuire il lavoro tecnico: l’inferenza è più economica, il
modello sceglie quando attivare componenti di "reasoning" e la lineup è più
granulare (tipologie di modello diverse per casi d’uso diversi). Ma la live è
stata anche penalizzata da visualizzazioni fuorvianti: alcuni grafici avevano
barre che non corrispondevano ai valori e un diagramma sulla “deception” è stato
poi corretto nella documentazione.
La correzione del diagramma dalla presentazione alla documentazione
Sul fronte posizionamento competitivo, la sensazione è di passo avanti, non
balzo in avanti. Dopo l'evento, François Chollet (co-founder di ARC Prize) ha
pubblicato un confronto in cui Grok 4 risulta avanti su ARC-AGI-2, mentre su
ARC-AGI-1 il margine è più sottile; al netto di differenze di costo, il quadro è
di una leadership contesa e per nulla schiacciata.
> Grok 4 is still state-of-the-art on ARC-AGI-2 among frontier models.
>
> 15.9% for Grok 4 vs 9.9% for GPT-5. pic.twitter.com/wSezrsZsjw
>
> — François Chollet (@fchollet) August 7, 2025
Questi dati vanno interpretati con cautela (metodologie, settaggi, versioni
cambiano), ma raffreddano l’idea di un distacco netto.
Infine, qualche scelta narrativa non ha aiutato: tanto "vibe coding" e
storytelling emotivo, meno metodo e ablation. Da utilizzatore, mi sarei
aspettato più dimostrazioni di multimodalità end-to-end (input e output ricchi,
integrazione sensori-attuatori) e un ponte più credibile verso il mondo
fisico/robotico — area in cui altri player stanno spingendo (es. Google e
Nvidia).
> I miglioramenti ci sono e i prezzi non sono fuori mercato; semplicemente non
> abbiamo visto
> “il prossimo paradigma”.
PARLIAMO DEL CONCETTO DI AGI?
Perché la tentazione di chiudere lo streaming non appena Altman ha pronunciato
“AGI”? Perché, probabilmente, i soli LLM non basteranno per raggiungere
l'obiettivo. Continuare a scalare decoder autoregressivi riduce errori ma non
risolve: causalità, generalizzazione out-of-distribution, composizionalità,
pianificazione a lungo raggio, ragionamento simbolico. A questo proposito, ho
più volte menzionato approcci come quello neuro-simbolico, ovvero l'integrazione
di reti neurali e rappresentazioni/strumenti simbolici.
Non è teoria astratta: modelli-strumento come o3, Grok 4, e lo stesso GPT-5,
ovvero quelli con interpreti di codice e reasoners, mostrano che plug-in
simbolici (solver, motori logici, CAS) alzano l’asticella su compiti logici e
strutturati. Google DeepMind, su AlphaFold o AlphaGeometry non applica “solo”
LLM: si tratta di architetture ibride disegnate sul problema, con motori di
ricerca, vincoli e verifiche. La direzione non è “più grande è meglio”, ma “ben
integrato è meglio”: neurale per percepire e proporre, simbolico per verificare,
comporre e generalizzare.
Gli avanzamenti recenti in matematica lo confermano. Seed-Geometry (ByteDance
Seed AI4Math) ha superato AlphaGeometry 2 su 50 problemi IMO di geometria (43 vs
42) e sulle shortlist più dure (22/39 vs 19/39), grazie a un motore simbolico
più veloce, una rappresentazione più compatta delle costruzioni e un ciclo
neurale-simbolico più efficiente. Non è un trucco: è un cambio di passo su
compiti dove la verifica formale conta quanto (o più) della generazione.
Seed-Prover: Deep and Broad Reasoning for Automated Theorem Proving | alphaXiv
View 1 comments: What is the difference between this work and the Gemini
pro?2507.15855
arXiv
Se vogliamo avvicinarci all’AGI, dobbiamo uscire dal monolito: agenti che usano
strumenti e ambienti, memorie strutturate, moduli di pianificazione e
prove/verifiche integrati by design, non come accessori opzionali.
> Il LLM resta il substrato linguistico e percettivo, ma l’intelligenza emerge
> dall’orchestrazione.
LO STATO DEL PROGRESSO DELL’AI
Al netto di GPT-5, stiamo vivendo un’accelerazione storica. Demis Hassabis
(Google DeepMind) descrive un impatto “10 volte più grande, e forse 10 volte più
veloce dell’Industrial Revolution”, con un orizzonte di 5–10 anni per sistemi
con capacità simili all’umano in molti domini. È un’immagine potente, che
richiede di ripensare istituzioni, lavoro, welfare, istruzione e governance.
Non sono solo parole: AlphaFold ha già spostato gli equilibri nella scienza
delle proteine, al punto da valere a Hassabis e Jumper il Nobel per la Chimica
2024 (insieme a David Baker). La portata non è solo tecnica: rendere praticabile
e diffuso ciò che prima richiedeva anni di esperimenti è nuova capacità civile —
scienza più rapida, più aperta, più traducibile in cure e materiali.
Chemistry Nobel goes to developers of AlphaFold AI that predicts protein
structures
This year’s prize celebrates computational tools that have transformed biology
and have the potential to revolutionize drug discovery.
NatureEwen Callaway
Questa accelerazione, però, non è lineare né omogenea. Vediamo frontier models
migliorare, ma spesso in modo irregolare: grandi vittorie in domini strutturati
(biologia, geometria formale), progressi più lenti nella robustezza generale
(ragionamento di buon senso, affidabilità contestuale, autonomia). In parallelo,
cresce l’impatto economico (produttività, automazione di parti di filiere
cognitive) e si amplificano le questioni sociali: distribuzione dei benefici,
sostenibilità energetica, rischi informativi. Il punto non è fermare, ma
governare l’onda: standard aperti, benchmark onesti, evals riproducibili,
trasparenza sui dati e sistemi di verifica incorporati.
Se la traiettoria “10× più grande e più veloce” si confermerà, ci serviranno
nuove idee sul senso del tempo e del valore umano. Non tutto è utilitaristico:
arte, gioco, sport, meditazione potrebbero tornare al centro proprio perché
liberati dal vincolo. Ma questo futuro richiede politiche intenzionali:
redistribuzione, formazione continua, infrastrutture di ricerca e un mercato che
premia la qualità, non solo la spettacolarità in keynote.
Ne ho parlato nei recenti interventi che ho tenuto al TEDx di Bergamo e al WMF
(We Make Future).
Il mio intervento al TEDx di Bergamo
CONCLUSIONI
GPT-5 è un aggiornamento importante, ma “incrementale”. Ha spinto in avanti il
perimetro di ciò che è pratico e abbordabile, senza cambiare le regole del
gioco. Se prendiamo sul serio l’AGI, la strada passa per architetture ibride,
tool use nativo, verifica simbolica e benchmark trasparenti. Nel frattempo, l’AI
continua a permeare scienza, industria e cultura a velocità inaudita: la sfida
non è solo tecnica, è civile. E, finché non vedremo quell’integrazione profonda
che da tempo invoco, manterrò questa posizione: gli LLM sono necessari ma non
sufficienti — e il prossimo salto non sarà solo più grande; sarà diverso.
--------------------------------------------------------------------------------
UNA SINTESI DELLA PRESENTAZIONE
Per chi non avesse visto tutta la presentazione, quello che segue è un riepilogo
che cerca di sintetizzare al meglio le caratteristiche del nuovo sistema di
OpenAI.
Sam Altman durante la presentazione di GPT-5
PANORAMICA SUL MODELLO
GPT-5 è il nuovo modello di punta di OpenAI: più intelligente, più rapido e
soprattutto più utile nelle richieste reali (scrittura, coding, salute,
multimodale). In ChatGPT diventerà il modello di default per tutti; gli utenti
Pro avranno anche GPT-5 Pro (con reasoning più esteso). Il rollout inizia da
subito per gli utenti Free, Plus, Pro, Team; per gli abbonamenti Enterprise ed
Edu arriverà dopo una settimana dalla presentazione.
Gli utenti Free, al raggiungimento delle quote limite, passano a GPT-5 mini.
UN SISTEMA UNIFICATO: ROUTER + "THINKING" QUANDO SERVE
Non bisogna più scegliere tra un modello “veloce” e uno “con reasoning”: GPT-5
integra un modello smart/efficiente, un modello di ragionamento profondo (“GPT-5
thinking”) e un router in tempo reale che decide quale usare in base a
complessità, tipo di conversazione, strumenti necessari e segnali espliciti (es.
“pensa a fondo”). Il router impara da segnali reali (switch tra modelli,
preferenze, misure di correttezza). Al raggiungimento dei limiti subentra una
versione mini. In futuro queste capacità verranno fuse in un unico modello.
PRESTAZIONI E VALUTAZIONI (SOTA)
* Matematica (AIME 2025, senza tool): 94,6%
* Coding: 74,9% su SWE-bench Verified; 88% su Aider Polyglot
* Multimodale: 84,2% su MMMU
* Salute: 46,2% su HealthBench Hard
Con GPT-5 Pro (ragionamento esteso) si ottiene lo stato dell’arte su GPQA
(88,4%, senza tool).
In più, rispetto a o3, GPT-5 “thinking” raggiunge risultati migliori usando
il 50–80% di token di output in meno su varie capacità (ragionamento visivo,
coding agentico, problemi scientifici avanzati).
Prestazioni e valutazioni di GPT-5
AFFIDABILITÀ, ALLUCINAZIONI E "ONESTÀ"
Con ricerca web attiva su prompt rappresentativi, le risposte di GPT-5 sono ~45%
meno soggette a errori fattuali rispetto a GPT-4o; in modalità “thinking” sono
~80% meno soggette a errori rispetto a o3. Su benchmark di fattualità aperta
(LongFact, FActScore) “GPT-5 thinking” riduce le allucinazioni di circa 6×
rispetto a o3.
È anche meno ingannevole: nelle conversazioni reali, le risposte “thinking” che
mostrano comportamenti di “deception” scendono dal 4,8% (o3) al 2,1%.
Lo stile mostra meno "eccesso di consenso", meno emoji inutili, più trasparenza
sui limiti.
SAFE COMPLETIONS
Nuovo addestramento di sicurezza: invece di rifiutare o acconsentire “a
blocchi”, GPT-5 massimizza l’aiuto entro confini di sicurezza. Quando serve,
risponde solo ad alto livello; se deve rifiutare, spiega perché e propone
alternative sicure. Risultato: migliore gestione delle richieste
ambigue/dual-use e meno rifiuti inutili.
BIO/CHIMICA: APPROCCIO PRUDENZIALE
“GPT-5 thinking” è trattato come High capability in bio/chimica nel Preparedness
Framework: 5.000 ore di red-teaming, classificatori always-on, reasoning
monitors e difese multilivello, attive in via precauzionale.
COSA MIGLIORA PER GLI UTENTI CHATGPT
* Scrittura: testi più ricchi e risonanti, migliore gestione di strutture
ambigue (es. verso libero, pentametro giambico senza rima), utile per email,
report, memo.
* Coding: eccelle nel front-end complesso e nel debug di repository grandi;
spesso crea siti/app/giochi belli e responsivi con un solo prompt, con gusto
per spaziatura, tipografia e white-space.
* Salute: punteggi nettamente migliori su HealthBench; risposte più proattive
(segnala rischi, pone domande), adattate a contesto/geografia/livello utente.
Non sostituisce un medico, ma aiuta a capire referti, preparare domande,
valutare opzioni.
* Personalità preimpostate (anteprima di ricerca): Cynic, Robot, Listener,
Nerd, per regolare tono e stile senza prompt artigianali; progettate anche
per ridurre l'eccesso di consenso nei confronti dei messaggi degli utenti.
NOVITÀ MOSTRATE NELLA LIVE
* Voice più naturale, con video, traduzione continua e nuova Study & Learn mode
(es. esercizi guidati, apprendimento delle lingue).
* Memoria e personalizzazione: è stata presentata l'integrazione con Gmail e
Google Calendar per la pianificazione quotidiana; colori personalizzati
dell’interfaccia; anteprima di personalities anche in modalità Voice.
PER SVILUPPATORI E AZIENDE (API)
* Tre modelli: gpt-5, gpt-5-mini, gpt-5-nano. Prezzi indicativi: $1,25 / 1M
token input e $10 / 1M output (GPT-5); $0,25 / $2 (mini); $0,05 / $0,40
(nano). Disponibile via Responses API, Chat Completions e Codex CLI.
* Nuovi controlli:
* reasoning_effort con valore minimal per risposte velocissime con poco
ragionamento;
* verbosity: low/medium/high per controllare la verbosità (quanto il modello
risulta prolisso);
* Custom tools in plain-text (anziché solo JSON) + vincoli con regex/CFG;
tool-call preambles per far spiegare al modello il piano prima delle
chiamate strumento.
* Contesto lungo: fino a 400.000 token totali, con miglioramenti su compiti di
lungo contesto (recupero e ragionamento su input molto estesi).
* Agentic/tool use: grandi progressi su benchmark di tool-calling e
instruction-following; migliore capacità di completare task multi-step,
coordinare strumenti e adattarsi al contesto.
* Variante chat non-reasoning disponibile come gpt-5-chat-latest (stessa
tariffa), utile per latenza più bassa.
IMPLICAZIONI PRATICHE
* Utenti finali: qualità alta “di default”, meno allucinazioni, più "onestà" su
impossibilità o limiti.
* Team e imprese: un sistema di default affidabile per il lavoro quotidiano, e
GPT-5 Pro per compiti critici.
* Developer: meno “prompt gymnastics”. Controlli nativi su
ragionamento/verbosità/formato, tool-calling più robusto, 400k di contesto
per documenti enormi e pipeline complesse.
--------------------------------------------------------------------------------
PRIMI TEST DEL MODELLO
Ho fatto diversi test con il modello GPT-5 Thinking (su ChatGPT e via API) che
riguardano, ad esempio, la generazione di testo, la creazione di dashboard che
derivano dall'analisi di un dataset, output strutturati con contesti in input
molto lunghi dove la precisione è fondamentale, ragionamento, matematica.
Primi test con GPT-5
Ho effettuato anche delle sperimentazioni usando il modello su sistemi agentici,
su infrastrutture già collaudate per altri modelli.
Non avevo dubbi che il risultato sarebbe stato di qualità: l'aumento di
performance è notevole rispetto alle versioni precedenti di OpenAI. Le
performance su task di questo tipo non si discutono, e questo modello, visto
anche il prezzo delle API praticamente identico, va a competere direttamente con
Gemini 2.5 Pro su tutti i fronti.
--------------------------------------------------------------------------------
APPROFONDIMENTI
UNA GUIDA AL PROMPTING PER GPT-5
OpenAI ha pubblicato una guida ufficiale al prompting per GPT-5, pensata per
aiutare sviluppatori e professionisti a ottenere il massimo dal nuovo modello.
La guida approfondisce come costruire prompt efficaci, sottolineando l’elevata
sensibilità di GPT-5 alle istruzioni: è in grado di seguire indicazioni con
estrema precisione, ma proprio per questo diventa cruciale evitare ambiguità o
contraddizioni.
Vengono presentate strategie per bilanciare il grado di autonomia del modello,
regolare il livello di ragionamento (reasoning_effort) e ottimizzare le risposte
(verbosity). Una sezione specifica è dedicata allo sviluppo software, dove GPT-5
si distingue nella scrittura, refactor e generazione di codice, specialmente se
guidato da prompt che ne specificano stile e contesto tecnico.
La guida include esempi concreti, casi d’uso (come Cursor) e buone pratiche come
l’uso di “tool preambles” o tecniche di metaprompting. Un riferimento prezioso
per chi vuole costruire interazioni più robuste, controllabili ed efficienti con
GPT-5.
GPT-5 prompting guide | OpenAI Cookbook
GPT-5, our newest flagship model, represents a substantial leap forward in
agentic task performance, coding, raw intelligence, and steera…
GPT-5 PER GLI SVILUPPATORI
OpenAI presenta un contenuto dedicato agli sviluppatori che illustra GPT-5, il
modello più avanzato per codifica e compiti agentici complessi. Con prestazioni
ai vertici nei benchmark, gestione efficiente di processi multi-turno, recupero
di informazioni da contesti lunghi e riduzione significativa degli errori, GPT-5
offre nuove funzioni API come reasoning_effort, verbosity e Freeform tools, ed è
disponibile in tre varianti per adattarsi a esigenze diverse di prestazioni,
costi e latenza.
Vai al post
--------------------------------------------------------------------------------
- GRAZIE -
Se hai apprezzato il contenuto, puoi
contribuire al progetto con una donazione 🙂
ISCRIVITI ALLA NEWSLETTER
Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su
tematiche relative all'intelligenza artificiale.
Iscriviti alla Newsletter
Email sent! Check your inbox to complete your signup.
Gratuita. No Spam. Puoi disiscriverti quando vuoi.
Consulta la privacy policy.
Tag - GPT-3
Una rubrica che racconta le novità più rilevanti che riguardano l'Intelligenza
Artificiale, con qualche riflessione.
> Buon aggiornamento,
> e buone riflessioni..
--------------------------------------------------------------------------------
FIGURE 01 IN AZIONE CON UN MODELLO DI OPENAI A BORDO
I video di Figure 01 hanno fatto il giro del mondo, con grande stupore.
Ma se ci pensiamo, la multimodalità dei moderni modelli che usiamo ormai
regolarmente è a livelli degni di nota. Non solo GPT-4 con Vision, ma anche
Claude 3, e soprattutto Gemini 1.5 Pro, in grado di processare anche audio e
video senza trascrizioni, con finestre di contesto enormi e grande precisione.
Figure 01: un modello di linguaggio unito alla robotica
Per provare l'esperienza basta caricare delle immagini su ChatGPT e provare a
fare delle domande simili a quelle che vengono poste al robot.
In questa simulazione, ne vediamo un esempio.
Una simulazione usando GPT-4 Vision
Già RT-2 di Google univa un VLM (Vision Language Model) a dati robotici di
qualità con risultati straordinari.
I modelli generativi danno ai robot la "comprensione del mondo", grazie alle
relazioni semantiche derivanti dal training. È così che il robot associa la mela
quando gli viene chiesto "qualcosa mangiare". La componente robotica aggiunge i
movimenti.
> L'altro aspetto innovativo riguarda la quantità di analisi dell'ambiente
> circostante che producono i robot: questo garantisce la reattività alla
> variazione dello scenario.
--------------------------------------------------------------------------------
GEMINI 1.5 PRO: PRIMO TEST
Ho provato Gemini 1.5 Pro, il nuovo modello di Google su AI Studio, processando:
* il video del mio intervento all'AI Festival (20 minuti, in italiano);
* il video della presentazione di Ernie 4 (3 minuti, in cinese).
L'interazione avviene in italiano.
Test di Gemini 1.5 Pro
Come si vede dalle immagini, oltre alle sintesi, pongo domande specifiche, anche
su ciò che compare a video (non solo sul parlato).
Il modello offre risposte abbastanza precise. I tempi di risposta non sono
rapidissimi, ma si tratta dei primi passi verso una multimodalità così evoluta.
> Il concetto di LLM che elabora le trascrizioni dei file multimediali
> scomparirà molto presto. E immaginiamo quando tutto questo avverrà in
> real-time a bordo di un robot.
--------------------------------------------------------------------------------
L'EVOLUZIONE DI OPEN INTERPRETER: LIGHT 01
L'evoluzione di Open Interpreter continua, e presenta 01 Light: un'interfaccia
vocale portatile che può controllare qualunque operazione di un computer remoto.
L'evoluzione di Open Interpreter: Light 01
Può "vedere" lo schermo, utilizzare le applicazioni e apprendere nuove
competenze.
Ma l'aspetto più interessante è che si tratta di un sistema completamente open
source, che può diventare la base di sviluppo di dispositivi e applicazioni
custom.
Nel video si vedono esempi di interazioni (anche strutturate) con il
dispositivo, e il sistema esegue i comandi perfettamente.
È possibile acquistare il dispositivo completo. Per i developers, viene fornito
il progetto completo: software, file CAD, schemi di cablaggio.
> Abbiamo imparato a conoscere sistemi di questo tipo dopo il CES con Rabbit, ma
> in questo caso si apre una parentesi che mette a disposizione un sistema
> pronto allo sviluppo per chiunque.
--------------------------------------------------------------------------------
AI GENERATIVA E CREATIVITÀ
> "Ora abbiamo la possibilità di approfondire storie che prima ritenevamo
> impossibili"
È proprio questo uno degli aspetti interessanti dell'AI generativa applicata
alla creatività.
La possibilità di sperimentare, ottenendo buoni output a costi estremamente
contenuti.
"Air Head", un cortometraggio realizzato usando Sora di OpenAI
Il video mostra un esempio di un cortometraggio realizzato da Shy Kids usando
Sora, dal tiolo "Air Head".
> "As great as Sora is at generating things that appear real - what excites us
> is its ability to make things that are totally surreal"
--------------------------------------------------------------------------------
VOICE ENGINE DI OPENAI
OpenAI presenta un'anteprima di "Voice Engine", il suo modello vocale, che
permette la creazione di voci sintetiche personalizzate.
Ricevendo in input un breve testo e un campione vocale di 15 secondi, riesce a
generare un parlato dal suono naturale, che riproduce la voce.
Navigating the Challenges and Opportunities of Synthetic Voices
We’re sharing lessons from a small scale preview of Voice Engine, a model for
creating custom voices.
In realtà il modello esiste da tempo, e il risultato è quello che possiamo
sentire nell'app mobile di ChatGPT. Ma OpenAI va cauta, per gestire al meglio
queste funzionalità in termini di sicurezza.
> I rischi esistono, ma esistono anche applicazioni che possono migliorare la
> qualità delle esperienze. Trovare il giusto equilibrio sarà determinante.
--------------------------------------------------------------------------------
MIDJOURNEY CONSISTENT CHARACTER
Negli esempi vediamo come si possano mantenere le caratteristiche di un prodotto
nella generazione di immagini attraverso Midjourney.
La funzionalità è "Consistent Character", e si utilizza attraverso il parametro
"cref".
Esempi di applicazioni di Midjourney "Consistent Character"
Nel seguente post, è possibile analizzare un esempio di prompt in cui viene
usata la funzionalità (del creator che ha generato queste immagini).
> Prompt:
>
> A closeup of delicate soap bubbles floating in the air, with a soft pastel
> background that adds to their ethereal beauty. The focus is on capturing the
> intricate details and reflections within each bubble, creating an enchanting
> atmosphere in the style of the artist. A…
>
> — Salma (@Salmaaboukarr) March 27, 2024
> Forse non si ha ancora margine di manovra al 100%, ma i progressi sono
> evidenti.
--------------------------------------------------------------------------------
L'ACCORDO TRA ACCENTURE, AWS E ANTHROPIC
Claude 3 ha superato GPT-4.. ma c'è un aspetto ancora più interessante e
strategico, ovvero l'alleanza tra Anthtopic, AWS e Accenture.
Che mette insieme la generative AI + un sistema cloud che permette qualunque
implementazione immaginabile + un'ampia organizzazione per la system
integration.
Accenture, AWS, Anthropic Collaboration
Anthropic, AWS, and Accenture Team Up to Build Trusted Solutions for Enterprises
Un accordo che va a rispondere al vero problema attuale:
> c’è più richiesta di implementazione che disponibilità di risorse qualificate
> per adattare le soluzioni di intelligenza artificiale generativa alla
> produzione.
--------------------------------------------------------------------------------
A CHE PUNTO SIAMO CON LA QUALITÀ DEL DEEPFAKE?
Dal punto di vista tecnologico il livello è tale da rendere quasi impossibile il
riconoscimento rispetto a un video reale.
Un esempio della qualità dei deepfake realizzabili con l'attuale tecnologia
La necessità di contromisure efficaci rimane altissima.. quanto il bisogno di
alzare il livello di cultura su sistemi che miglioreranno sempre di più.
--------------------------------------------------------------------------------
DBRX DI DATABRICKS
Databricks ha presentato DBRX: un nuovo LLM open dalle performance superiori a
Grok, Mixtral 8x7b e Llama 2 70b, e di poco inferiori a Claude 3 Haiku.
Introducing DBRX: A New State-of-the-Art Open LLM | Databricks
DatabricksThe Mosaic Research Team
Ha un'architettura MoE (Mixture of experts), con circa il 40% delle dimensioni
di Grok (132B di parametri), ed è 2 volte più veloce (in inferenza) di Llama 2.
Uno dei segreti delle performance è la configurazione di MoE: rispetto a Mixtral
e Grok, DBRX usa più "esperti" più piccoli.
È stato addestrato su 12T di token e fornisce una finestra di contesto di 32k
token.
DBRX di Databrick: performance e test
Su task RAG supera GPT-3.5 Turbo.
> La tecnologia migliora, e ormai abbiamo modelli aperti dalle performance
> elevatissime.
--------------------------------------------------------------------------------
UN SEMPLICE FRAMEWORK PER CREARE UN SISTEMA MULTI-AGENTE
"Maestro" è un piccolo framework in cui il prompt viene suddiviso in micro
attività da un agente "manager", e ogni attività viene eseguita da agenti
distinti. Infine il manager revisiona il lavoro svolto dagli agenti per generare
l'output.
Il manager viene gestito da Opus, mentre gli agenti da Haiku.
GitHub - Doriandarko/maestro: A framework for Claude Opus to intelligently
orchestrate subagents.
A framework for Claude Opus to intelligently orchestrate subagents. -
Doriandarko/maestro
GitHubDoriandarko
Se si osserva il codice, è davvero molto semplice (poco più di 150 righe di
Python) e può essere un'ottima base per automazioni interessanti.
> La stessa logica può essere riprodotta con qualunque LLM, usando anche modelli
> più piccoli e open source per i micro task.
--------------------------------------------------------------------------------
CLAUDE 3 OPUS SUPERA GPT-4 NELLA CHATBOT ARENA LEADERBOARD
Credo sia la prima volta che un modello supera il top di OpenAI.
LMSys Chatbot Arena Leaderboard - a Hugging Face Space by lmsys
Discover amazing ML apps made by the community
a Hugging Face Space by lmsys
> La notizia ormai sta spopolando. Ma ci tengo sempre a ricordare che ci stiamo
> riferendo a una tecnologia del 2022.
Chatbot Arena Leaderboard
La vera notizia sono le performance della versione Haiku, disponibile anche su
Perplexity Labs.
--------------------------------------------------------------------------------
COME FUNZIONA LA RICERCA VETTORIALE? UNA SPIEGAZIONE SEMPLICE.
Oggi si parla sempre di più dei sistemi RAG (Retrieval Augmented Generation),
che si basano sull'unione tra LLM e la ricerca vettoriale (embeddings).
Come funziona la ricerca vettoriale? Spiegazione semplice: estrae le
informazioni più simili alla query di ricerca da un database che rappresenta
l'archivio di documenti. Tali informazioni, diventano il contesto per un LLM che
genera la risposta alla query.
L'estrazione delle informazioni avviene, ad esempio, attraverso la "similarità
del coseno", ovvero misurando il coseno dell'angolo tra il vettore che
rappresenta la query e quelli contenuti nel database vettoriale. Il tutto dopo
aver ridotto le dimensioni delle rappresentazioni vettoriali.
È sempre affidabile? Non sempre..
Is Cosine-Similarity of Embeddings Really About Similarity?
Cosine-similarity is the cosine of the angle between two vectors, or
equivalently the dot product between their normalizations. A popular application
is to quantify semantic similarity between high-dimensional objects by applying
cosine-similarity to a learned low-dimensional feature embedding. This can work
better but sometimes also worse than the unnormalized dot-product between
embedded vectors in practice. To gain insight into this empirical observation,
we study embeddings derived from regularized linear models, where closed-form
solutions facilitate analytical insights. We derive analytically how
cosine-similarity can yield arbitrary and therefore meaningless `similarities.′
For some linear models the similarities are not even unique, while for others
they are implicitly controlled by the regularization. We discuss implications
beyond linear models: a combination of different regularizations are employed
when learning deep models; these have implicit and unintended effects when
taking cosine-similarities of the resulting embeddings, rendering results opaque
and possibly arbitrary. Based on these insights, we caution against blindly
using cosine-similarity and outline alternatives.
arXiv.orgHarald Steck
Ecco perché l'unione di questa tecnica ai grafi di conoscenza (knowledge graph)
sembra essere una via molto interessante per aumentare l'affidabilità.
Attraverso i grafi possiamo relazionare i vettori delle parti dei documenti
(chunk). In questo modo possiamo considerare i documenti nel loro insieme, non
solo come una raccolta sparsa si embeddings. E possiamo relazionare i documenti
ad altre informazioni strutturate.
> Sistemi ibridi di questo tipo consentono maggior precisione nella
> determinazione delle relazioni tra le entità comprese le connessioni
> strutturali e temporali.
Knowledge Graphs for RAG
Learn the skills to start or advance your AI career | World-class education |
Hands-on training | Collaborative community of peers and mentors
Knowledge graphs are used in development to structure complex data
relationships, drive intelligent search functionality, and build powerful AI
applications that can reason over different data types. Knowledge graphs can
connect data from both structured and unstructured sources (databases,
documents, etc.), providing an intuitive and flexible way to model complex,
real-world scenarios. Unlike tables or simple lists, knowledge graphs can
capture the meaning and context behind the data, allowing you to uncover
insights and connections that would be difficult to find with conventional
databases. This rich, structured context is ideal for improving the output of
large language models (LLMs), because you can build more relevant context for
the model than with semantic search alone. This course will teach you how to
leverage knowledge graphs within retrieval augmented generation (RAG)
applications. You’ll learn to: Understand the basics of how knowledge graphs
store data by using nodes to represent entities and edges to represent
relationships between nodes. Use Neo4j’s query language, Cypher, to retrieve
information from a fun graph of movie and actor data. Add a vector index to a
knowledge graph to represent unstructured text data and find relevant texts
using vector similarity search. Build a knowledge graph of text documents from
scratch, using publicly available financial and investment documents as the demo
use case Explore advanced techniques for connecting multiple knowledge graphs
and using complex queries for comprehensive data retrieval. Write advanced
Cypher queries to retrieve relevant information from the graph and format it for
inclusion in your prompt to an LLM. After course completion, you’ll be
well-equipped to use knowledge graphs to uncover deeper insights in your data,
and enhance the performance of LLMs with structured, relevant context.
--------------------------------------------------------------------------------
LINEE GUIDA PER UN UTILIZZO RESPONSABILE DELL'AI GENERATIVA
L'Unione Europea, insieme ai paesi dell'European Research Area, ha presentato
delle linee guida per supportare la comunità di ricerca europea nell'utilizzo
responsabile dell'AI generativa.
> Si tratta di un importante riferimento, perché questi sistemi stanno
> rapidamente trovando applicazione in tutti i settori, inclusa la scienza.
Le linee guida enfatizzano la necessità di trasparenza e responsabilità nell'uso
dell'AI, promuovendo l'integrità scientifica e preservando la fiducia pubblica
nella scienza.
Le organizzazioni di ricerca e i finanziatori vengono incoraggiati a facilitare
l'uso responsabile dell'AI generativa e a monitorare attentamente lo sviluppo e
l'applicazione di questi strumenti.
Guidelines on the responsible use of generative AI in research developed by the
European Research Area Forum
Research and innovation news alert: The Commission, together with the European
Research Area countries and stakeholders, has put forward a set of guidelines to
support the European research community in their responsible use of generative
artificial intelligence (AI).
Research and innovation
--------------------------------------------------------------------------------
RAG + MODELLO A 7B: TEST
Come se la caverebbe un LLM "piccolo" per generare la risposta finale di un
sistema RAG?
Il test si basa su un recupero da database vettoriale con embeddings generati
attraverso i modelli di OpenAI.
Una volta estratti i chunk dal db con una query vettoriale, la risposta viene
generata attraverso Mistral 7b.
RAG + modello a 7b: test
Come si vede, funziona abbastanza bene. Sistemi con questa configurazione
potrebbero agire direttamente in locale, anche su uno smartphone, senza
scambiare dati con un modello in cloud.
Tutto bellissimo? Non tutto. Vediamo alcune note.
* Il cuore del sistema si basa sulla qualità della vettorializzazione dei dati.
Più il modello è performante, e più sarà in grado di rappresentare la
semantica dei contenuti.
* Se le risposte necessitano di elaborazione, un modello piccolo non sarà
sempre sufficiente.
--------------------------------------------------------------------------------
COME FUNZIONA L'ARCHITETTURA "DIFFUSION TRANSFORMER" ALLA BASE DI MODELLI COME
SORA E STABLE DIFFUSION 3?
Vediamo una spiegazione semplice.
* L'architettura rappresenta una tecnica innovativa nel campo della generazione
di immagini con l'AI. Immagina che la tecnologia di trasformazione
(transformer) sia come un artista che dipinge un quadro, e i modelli di
diffusione siano come la tecnica che usa per creare l'opera.
* Inizialmente, i modelli di diffusione lavoravano come se l'artista iniziasse
con una tela piena di macchie casuali (rumore) e, passo dopo passo,
rimuovesse queste macchie per rivelare l'immagine finale. La tecnologia
transformer, che prima era usata principalmente per elaborare il testo, ora è
come se desse all'artista un metodo più sofisticato per decidere quali
macchie rimuovere e in quale ordine, migliorando la qualità e l'efficienza
del quadro finale.
* Con "Diffusion Transformer", invece di lavorare direttamente sull'immagine
intera (che richiederebbe molta potenza computazionale), l'artista lavora su
una versione compressa dell'immagine, chiamata spazio latente. È come se
riducesse l'immagine a un insieme più piccolo di elementi essenziali,
rendendo il processo più gestibile.
* Durante il processo di "pittura" (generazione dell'immagine), il transformer
analizza e manipola questi elementi essenziali per rimuovere le macchie
(rumore) e, passo dopo passo, svela l'immagine desiderata. Questo metodo non
solo migliora la qualità delle immagini generate ma lo rende anche più
efficiente, permettendo di creare immagini complesse senza richiedere una
potenza di calcolo eccessiva.
Come funziona Sora?
> In breve, "Diffusion Transformer" è come un artista avanzato che utilizza una
> tecnica raffinata per creare capolavori, rendendo il processo più veloce,
> efficiente e capace di produrre risultati di alta qualità.
--------------------------------------------------------------------------------
SICUREZZA DEI LARGE LANGUAGE MODEL
Un paper davvero interessante! Gli autori hanno rilasciato un metodo per
estrarre informazioni precise dai modelli di linguaggio.
L'attacco estrae la matrice di proiezione dei modelli Ada e Babbage di OpenAI
sfruttando chiamate API (con meno di 20$).
> Stimano che con circa 2k $ si riuscirebbe ad estrarre l'intera matrice di
> proiezione di GPT-3.5 Turbo.
Stealing Part of a Production Language Model
We introduce the first model-stealing attack that extracts precise, nontrivial
information from black-box production language models like OpenAI’s ChatGPT or
Google’s PaLM-2. Specifically, our attack recovers the embedding projection
layer (up to symmetries) of a transformer model, given typical API access. For
under \$20 USD, our attack extracts the entire projection matrix of OpenAI’s Ada
and Babbage language models. We thereby confirm, for the first time, that these
black-box models have a hidden dimension of 1024 and 2048, respectively. We also
recover the exact hidden dimension size of the gpt-3.5-turbo model, and estimate
it would cost under \$2,000 in queries to recover the entire projection matrix.
We conclude with potential defenses and mitigations, and discuss the
implications of possible future work that could extend our attack.
arXiv.orgNicholas Carlini
Lo studio dimostra come sia possibile ottenere informazioni significative su LLM
complessi senza averne un accesso diretto, sollevando questioni sulla sicurezza.
--------------------------------------------------------------------------------
PROMPT ENGINEERING: NOTE INTERESSANTI
Sono davvero contento di leggere questo post di Andrew Ng.
Robots Talk Back, AI Security Risks, Political Deepfakes, and more
I think AI agent workflows will drive massive AI progress this year — perhaps
even more than the next generation of foundation models. This is an important…
Robots Talk Back, AI Security Risks, Political Deepfakes, and more
Parla di tecniche multi agente per usare i LLM per generare contenuti seguendo
un flusso di..
1. generazione di una bozza,
2. valutazione della bozza per mettere in evidenza gli aspetti da migliorare,
3. creazione di una nuova bozza migliorata in base alle valutazioni,
4. fino ad ottenere un risultato soddisfacente.
Prompt Engineering: note interessanti
> Sono contento perché usiamo questa tecnica da molto tempo per contenuti,
> traduzioni e altre elaborazioni, condividendola anche nei nostri seminari.
--------------------------------------------------------------------------------
MM1 E L'AI GENERATIVA DI APPLE
Apple avanza nello sviluppo di sistemi basati sull'AI generativa, e pubblica un
documento di ricerca su MM1.
Si tratta di una famiglia di modelli multimodali addestrati su dati testuali e
visuali.
> Saranno i primi test per la nuova generazione di Siri?
MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training
In this work, we discuss building performant Multimodal Large Language Models
(MLLMs). In particular, we study the importance of various architecture
components and data choices. Through careful and comprehensive ablations of the
image encoder, the vision language connector, and various pre-training data
choices, we identified several crucial design lessons. For example, we
demonstrate that for large-scale multimodal pre-training using a careful mix of
image-caption, interleaved image-text, and text-only data is crucial for
achieving state-of-the-art (SOTA) few-shot results across multiple benchmarks,
compared to other published pre-training results. Further, we show that the
image encoder together with image resolution and the image token count has
substantial impact, while the vision-language connector design is of
comparatively negligible importance. By scaling up the presented recipe, we
build MM1, a family of multimodal models up to 30B parameters, including both
dense models and mixture-of-experts (MoE) variants, that are SOTA in
pre-training metrics and achieve competitive performance after supervised
fine-tuning on a range of established multimodal benchmarks. Thanks to
large-scale pre-training, MM1 enjoys appealing properties such as enhanced
in-context learning, and multi-image reasoning, enabling few-shot
chain-of-thought prompting.
arXiv.orgBrandon McKinzie
--------------------------------------------------------------------------------
CODE INTERPRETER: NON SOLO ESECUZIONE DI SCRIPT
In questo esperimento si vede come sia possibile usare Code Interpreter di
ChatGPT come ambiente, e non solo per l'esecuzione di uno script.
Ho caricato su ChatGPT un JSON contenente tutti i contenuti del mio blog e ho
dato indicazioni per salvare tutti i post in un PDF (uno file ogni post). Il
sistema ha eseguito l'operazione inserendo i file PDF in una directory.
Successivamente, in un altro scambio, ho dato istruzioni per zippare la
directory in modo da scaricare l'archivio.
Code Interpreter: test di esecuzione come ambiente
> Quindi il sistema ha creato la directory e i file in uno spazio temporaneo,
> che diventa parte del contesto per il modello. Successivamente, crea
> l'archivio e permette di scaricarlo.
--------------------------------------------------------------------------------
STABLE VIDEO 3D
Stability AI, con la presentazione di Stable Video 3D dimostra l'avanzamento dei
modelli non solo nella generazione video, ma anche degli oggetti 3D.
Introducing Stable Video 3D: Quality Novel View Synthesis and 3D Generation from
Single Images — Stability AI
When we released Stable Video Diffusion, we highlighted the versatility of our
video model across various applications. Building upon this foundation, we are
excited to release Stable Video 3D. This new model advances the field of 3D
technology, delivering greatly improved quality and multi-view whe
Stability AIAnel Islamovic
L'input è l'immagine di un oggetto. Il sistema genera visualizzazioni multiple
di quell'oggetto per produrre un mesh 3D.
--------------------------------------------------------------------------------
SIMA DI GOOGLE DEEPMIND
Google DeepMind ha presentato SIMA (Scalable Instructable Multiworld Agent), un
sistema che permette a un agente AI generale di comprendere molti "mondi di
gioco" e di seguire istruzioni in linguaggio naturale per eseguire azioni al
loro interno.
SIMA (Scalable Instructable Multiworld Agent) di Google DeepMind
Il sistema è stato istruito attraverso coppie di giocatori, in cui uno dà le
istruzioni e l'altro le esegue nel gioco.
Gli unici input di SIMA sono le immagini dello schermo e le istruzioni per le
azioni da compiere, e usa le uscite di mouse e tastiera per "giocare".. come
farebbe un essere umano.
Tutto questo apre nuovi scenari verso agenti generalisti che si muovono nello
spazio cogliendo istruzioni in linguaggio naturale.
A generalist AI agent for 3D virtual environments
Introducing SIMA, a Scalable Instructable Multiworld Agent
Google DeepMindthe SIMA Team
> Pensiamo ad applicazioni come la robotica, magari in scenari di assistenza per
> persone con disabilità motoria.
--------------------------------------------------------------------------------
GROK VIENE RILASCIATO COME PROGETTO OPEN SOURCE
Forse il rilascio di Grok come modello open source è passato leggermente in
sordina.
Ma si tratta del più grande e performante LLM aperto esistente.
> 314 miliardi di parametri, e grazie all'architettura MoE, tiene 86 miliardi di
> parametri sempre attivi.
Supera LlaMa 2 70B e Mixtral 8x7B nel benchmark MMLU.
GitHub - xai-org/grok-1: Grok open release
Grok open release. Contribute to xai-org/grok-1 development by creating an
account on GitHub.
GitHubxai-org
--------------------------------------------------------------------------------
L'EVOLUZIONE DELLE INFRASTRUTTURE HARDWARE DEDICATE ALL'AI GENERATIVA
Meta, a gennaio, aveva parlato dell'infrastruttura da 600k H100 Nvidia.. ecco il
progetto completo, ed è impressionante.
Building Meta’s GenAI Infrastructure
Marking a major investment in Meta’s AI future, we are announcing two 24k GPU
clusters. We are sharing details on the hardware, network, storage, design,
performance, and software that help us extr…
Engineering at MetaKevin Lee
Da qui nasceranno i futuri modelli, come Llama 3 e i futuri servizi basati
sull'AI, verso un ideale concetto di AGI.
Nel frattempo Nvidia annuncia Blackwell, una nuova architettura che rende le GPU
molto (MOLTO) più veloci, con un consumo molto (MOLTO) inferiore.
Nvidia reveals Blackwell B200 GPU, the “world’s most powerful chip” for AI
Twenty petaflops of AI performance, says Nvidia.
The Verge
> La potenza di calcolo non sarà più un limite. Le performance aumenteranno. Ma
> potrà ancora essere la leva primaria della crescita? Lo scopriremo presto.
--------------------------------------------------------------------------------
VLOGGER DI GOOGLE
Dopo EMO di Alibaba, ecco Vlogger, un modello in grado di generare video di
persone che si esprimono partendo da un'immagine, testo e audio.
Il modello non lavora su un ritaglio del volto, ma genera l'immagine completa,
rendendo l'output più realistico.
Esempi di applicazione di Vlogger
> Non solo generazione, ma anche editing e traduzione.
I video di esempio della pagina di GitHub sono impressionanti.
--------------------------------------------------------------------------------
RAG MULTILINGUA: UN TEST INTERESSANTE
Tutti i contenuti del mio sito web (lingua italiana) sono stati suddivisi in
parti (chunk), trasformati in embeddings e salvati in un database vettoriale
(Pinecone).
Le domande che faccio all'agente, vengono trasformate in embeddings, e con una
query vettoriale nel db vengono estratti i chunk più simili.
Queste parti, grazie alla natura degli embeddings, sono le più "vicine" dal
punto di vista semantico alla query.
Le componenti testuali dei chunk diventano il contesto per il modello di
linguaggio (GPT-4), che, grazie a un system prompt ben strutturato, genera la
risposta.
Esempi di interazione con un sistema RAG in lingue diverse rispetto ai contenuti
della knowledge
Come si vede, però, le domande e le risposte del modello sono in inglese e in
tedesco. Mentre i contenuti della knowledge sono in italiano.
> Si tratta di una dimostrazione del potenziale della ricerca semantica. Ed ecco
> perché spesso dico che, per questi sistemi, la lingua passa in secondo piano.
Pensiamo, ad esempio, a come può potenziarsi il customer service, la
consultazione della manualistica, e la ricerca.
--------------------------------------------------------------------------------
I MODELLI DI LINGUAGGIO A 1 BIT
Cosa sono i LLM a 1 bit e perché sono interessanti per il futuro? Ad esempio
BitNet di Microsoft.
Solitamente i parametri di un modello vengono salvati a 16 o 32 bit. Per questo
non possiamo fare funzionare (ad esempio) GPT-4 in locale: tanti parametri +
dimensioni enormi.
Facendo un rapido calcolo, un modello con 7 miliardi di parametri (7b) ha
bisogno di circa 27GB di memoria.
Nei sistemi a 1 bit, viene usato solo 1 bit (zero o uno) per memorizzare i
parametri. Lo stesso modello dell'esempio precedente, necessità quindi di circa
0,8 GB di memoria.
Modelli di linguaggio a 1 bit
Ecco perché sono sistemi interessanti: possono far funzionare modelli su
dispositivi con poche risorse hw (uno smartphone, ad esempio).
> Quindi equivale alla quantizzazione? NO. La quantizzazione riduce la
> precisione dei parametri, mentre questi modelli rappresentano i parametri in
> un altro modo.
--------------------------------------------------------------------------------
RUNWAY: VOCE, LIP SYNC ED EFFETTI SONORI NEI VIDEO GENERATI
Non poteva mancare Runway in questo trend, con voce e lip sync + effetti sonori
nei video generati.
> Ci siamo: sulle principali piattaforme, ormai possiamo produrre video
> completi.
Runway con voce e lip sync + effetti sonori nei video generati
--------------------------------------------------------------------------------
CONTENUTI "SPAZZATURA" NELLE RICERCHE SCIENTIFICHE
Durante una recente lezione, uno studente mi ha chiesto: "l'utilizzo di questi
sistemi (LLM) potrà determinare l'aumento incontrollato di contenuti spazzatura
online"?
In realtà, se non si accelererà con l'ideazione di nuove modalità di governance,
i rischi possono essere anche maggiori.
La "spazzatura" sta entrando nelle ricerche scientifiche, e ne parla Gary Marcus
in questo post che va assolutamente letto.
The exponential enshittification of science
“Certainly, here is a list of” scientific garbage that may have been partially
written by a factually-challenged bot
Marcus on AIGary Marcus
> Che senso ha produrre una ricerca di scarsa qualità? È una questione di alzare
> le statistiche sulle pubblicazioni?
NOTA IMPORTANTE: spesso si tende ad associare i contenuti di scarsa qualità
direttamente ai LLM, anche in altri ambiti come la SEO.. ma ricordiamoci che i
modelli non pubblicano i contenuti in autonomia.
Dobbiamo agire in fretta.
--------------------------------------------------------------------------------
UN ESEMPIO DI RAPPRESENTAZIONE DEGLI EMBEDDINGS
Una rappresentazione degli embeddings di una selezione di post di The Verge.
I vettori sono relazionati agli URL e a una serie di parole chiave (il tutto
ricavato dalla sitemap del sito web).
Quando faccio le ricerche (nel video), è affascinante vedere come gli URL di
contenuti simili vengono rappresentati vicini nello spazio (3D e 2D).
La riduzione dimensionale avviene attraverso T-SNE, usando diverse interazioni
(si vedono nel video).
> Di fatto è un rudimentale sistema di recommendation che raggruppa i post dello
> stesso argomento.
--------------------------------------------------------------------------------
IL PARLAMENTO EUROPEO APPROVA L'AI ACT
Il Parlamento Europeo ha approvato l'AI Act, e credo sia un grande primo passo
di un percorso di consapevolezza (almeno dei rischi).
Ora è necessario mettere subito in azione i passi successivi, e serve avere già
in mente l'aggiornamento di questo primo passo, perché quando entrerà
effettivamente in vigore lo scenario tecnologico sarà cambiato.
Per i passi successivi, torno sui due concetti che ho condiviso all'AI Festival.
* Governance non è soltanto sinonimo di regolamentazione. Significa anche
creare politiche per lo sviluppo della tecnologia, e strategie per la talent
retention. L'Europa forma più ricercatori ed esperti di Stati Uniti e Cina,
ma gli investimenti di venture capital verso l'Europa sono nettamente
inferiori: abbiamo il talento, ma non può svilupparsi.
* L'Europa riuscirà ad esportare delle regole senza dare il buon esempio?
Alcune slide sull'AI Act dal mio intervento all'AI Festival
> Per dare il buon esempio è necessario giocare la partita, non solo in veste di
> arbitro, ma di player attivo di valore.
--------------------------------------------------------------------------------
CLAUDE 3 SU PERPLEXITY LABS
Nel playground di Perplexity Labs arriva Claude 3 Haiku.
Claude 3 Haiku su Perplexity Labs
Insieme a Mixtral 8x7b e a Mistral Medium formano un parco modelli valido a
disposizione gratuitamente.
--------------------------------------------------------------------------------
OPENAI E LA PARTNERSHIP CON LE MONDE E PRISA MEDIA
> Esserci o non esserci (su ChatGPT)?
Nuova partnership per OpenAI con Le Monde e Prisa Media, che porterà i contenuti
delle testate su ChatGPT, con i riferimenti per accedere direttamente alle
pagine e suggerimenti a post correlati.
Global news partnerships: Le Monde and Prisa Media
We have partnered with international news organizations Le Monde and Prisa Media
to bring French and Spanish news content to ChatGPT.
Ma soprattutto, i contenuti alimenteranno il training dei modelli di OpenAI.
Un indotto costante di dati per algoritmi sempre più ampi e "affamati", e un
altro passo che avvicina ChatGPT ad essere considerato un riferimento per gli
utenti, anche per le notizie fresche.
> Quali testate vorranno mancare in una "nuova piattaforma" di informazione?
--------------------------------------------------------------------------------
"CHARACTER REFERENCE" DI MIDJOURNEY
Quanto è efficace "Character Reference" di Midjourney? Diciamo che è
impressionante, ma non del tutto affidabile.
Un esempio di "Character Reference" di Midjourney
I passi da gigante si stanno avviando e si arriverà a risultati migliori, ma
senza un controllo "chirurgico" sul condizionamento della diffusione, le
applicazioni professionali rimangono difficili.
La nuova funzionalità permette di generare immagini mantenendo la fedeltà nei
tratti del soggetto principale dell'immagine.
Per usarla:
> -cref <URL dell'immagine del soggetto di riferimento> -cw <intensità della
> fedeltà al personaggio da 0 a 100>
--------------------------------------------------------------------------------
EMBEDDINGS: UN ESEMPIO DI VISUALIZZAZIONE
Un esempio di visualizzazione della rappresentazione vettoriale (embeddings) di
un vocabolario di 10k parole.
Embeddings: un esempio di visualizzazione
Come si vede, il sistema riesce a rappresentare la relazione tra le diverse
parole, indicandone la "distanza".
Il modello che viene usato è Word2Vec, un sistema molto noto. Per avere un
riferimento, Word2Vec utilizza 300 dimensioni per rappresentare i concetti,
mentre modelli più evoluti come text-embeddings-3-large di OpenAI usa 3.072
dimensioni.
Questo significa che la capacità di rappresentazione e di correlazione semantica
è estremamente maggiore.
> È grazie a questi sistemi che i moderni LLM riescono ad acquisire una
> conoscenza sorprendente della struttura del linguaggio.
--------------------------------------------------------------------------------
SOUND EFFECTS DI ELEVENLABS
Come funziona Sound Effects di ElevenLabs?
Ho avuto un accesso anticipato alla piattaforma, ed ecco una piccola
dimostrazione.
Un esempio di Sound Effects di ElevenLabs
Basta un prompt testuale, e in qualche secondo si possono ottenere diversi audio
con gli effetti sonori corrispondenti.
> Le implicazioni sono molteplici, ad esempio l'integrazione con la generazione
> di video ed effetti per i podcast.
--------------------------------------------------------------------------------
LA PROMPT LIBRARY DI ANTHROPIC
Nella documentazione di Anthropic si nasconde una risorsa interessante: una
libreria di prompt da usare e studiare.
La prompt library di Anthropic
Analizzandola, ho scoperto che suggeriscono alcune tecniche che uso anch'io.
Vediamo 2 esempi.
* Usano dei tag per separare i componenti del prompt, rendendolo più chiaro.
Esempio: <examples>...</examples>
* Prima della generazione della risposta, fanno produrre al modello una lista
di informazioni rilevanti.
Nota interessante: usano il System Prompt anche per la descrizione del task,
tenendo la prima interazione di "user" molto scarica.
--------------------------------------------------------------------------------
WONDER DYNAMICS: LA SOSTITUZIONE DEI SOGGETTI NEI VIDEO
Il video dell'alieno è stato generato attraverso Sora di OpenAI attraverso un
prompt testuale.
Il video del robot è stato generato sostituendo il soggetto usando Wonder
Dynamics.
Wonder Dynamics: la sostituzione dei soggetti nei video
> Le possibilità e la precisione della generazione e dell'editing video
> aumentano in modo importante.
Le opzioni di editing comprendono l'aggiustamento delle luci, delle proporzioni,
una dinamica precisa dei movimenti delle mani e del corpo, e molto altro.
--------------------------------------------------------------------------------
LA LOTTA PER IL "MODELLO MIGLIORE"
È curioso che si stia lottando sul mezzo punto di benchmark per stabilire il
modello migliore, magari mostrando i dati utili per una buona campagna di
marketing.
Sembra, infatti, che GPT-4 Turbo sia più performante di Claude3 Opus.
Quando Meta rilascerà Llama 3 e OpenAI "scoprirà le carte", avremo un importante
riscontro per capire se stiamo osservando un plateau, e per capire il margine di
miglioramento dei LLM.
> Ma ricordiamoci che, per quanto miglioreranno, la natura di questi sistemi
> rimarrà la stessa.
--------------------------------------------------------------------------------
EFFETTI SONORI SUI VIDEO DI PIKA
Pika segue a ruota il trend dei sistemi di generazione video, e lancia la
possibilità di aggiungere gli effetti sonori ai video generati.
> Il tutto attraverso un prompt testuale oppure direttamente in base al
> contenuto del video.
Esempi di effetti sonori su video generati attraverso Pika
--------------------------------------------------------------------------------
COME FUNZIONA UN SISTEMA RAG (RETRIEVAL AUGMENTED GENERATION)?
Cosa accade quando si effettua una domanda a un sistema RAG (Retrieval Augmented
Generation)?
* La domanda viene trasformata in vettore (embeddings) e una query nel database
vettoriale estrae i vettori più simili.
* La corrispondenza testuale di quei vettori diventa il contesto per un LLM,
che lo rende una risposta testuale.
Nel video è possibile visualizzare graficamente la selezione dei vettori più
simili alla domanda (punti rossi) nel database vettoriale per la domanda "Who
build the Nuerburgring".
Un esempio di ricerca in un database vettoriale
Chiaramente, per ottenere una rappresentazione di questo tipo, si è fatta una
riduzione dimensionale in modo da mantenere le caratteristiche (almeno di
confronto) dei vettori.
> E questa è anche la straordinaria dinamica alla base della "comprensione" del
> linguaggio da parte di un LLM.
--------------------------------------------------------------------------------
IL GARANTE DELLA PRIVACY AVVIA UN'ISTRUTTORIA SU SORA DI OPENAI
Non ho alcun interesse verso OpenAI, ma vorrei capire un aspetto..
Esistono servizi disponibili da tempo per la generazione video da prompt
multimodali evoluti almeno quanto Sora, ad esempio Runway e Pika.
OpenAI presenta Sora (non l'hanno ancora reso disponibile) e viene avviata
un'istruttoria.
Intelligenza artificiale, il Garante privacy avvia istruttoria su “Sora” di
OpenAI. Chieste alla società informazioni su algoritmo che crea brevi video da
poche righe di testo
Garante Privacy
La domanda che mi faccio è..
> stiamo mettendo energie verso una regolamentazione e una governance condivisa?
> E su questo sono il primo a dire (e lo faccio dal momento zero dall'AI
> generativa) che si tratta di un'azione fondamentale.
> Oppure mettiamo "OpenAI" nei titoli perché è notiziabile?
--------------------------------------------------------------------------------
NOVITÀ SU CHATGPT
Due "novità" rilevanti su ChatGPT.
* Dal 19 marzo non sono più disponibili i plugin, a favore dei GPTs.
I plugin di ChatGPT non sono più disponibili a favore dei GPTs
* I messaggi di risposta ora possono essere letti dall'assistente, con la
possibilità di impostare la voce.
I messaggi di risposta di ChatGPT possono essere letti da una voce sintetica
--------------------------------------------------------------------------------
RAG + FINE TUNING: TEST
Ultimamente ho testato questa combinazione, per ottenere una perfetta
formattazione dell'output.
Il fine-tuning di GPT-3.5 Turbo per elaborare l'estrazione dal database
vettoriale permette precisione: l'output è sempre formattato perfettamente.
Ma quanto conviene rispetto a un buon few-shot learning, magari su un modello
più potente?
Per questo tipo di attività, dai test sul recupero, ho avuto risultati migliori
usando GPT-4 con prompt accurati.
Test di fine-tuning e RAG (Retrieval Augmented Generation)
> L'uso del FT ha senso SOLO per attività estremamente specializzate.
--------------------------------------------------------------------------------
AGI (ARTIFICIAL GENERAL INTELLIGENCE) È UN CONCETTO BEN DEFINITO?
> Perché ogni volta che viene rilasciato un nuovo modello, sento parlare di
> AGI!?
AGI è un concetto teorico che non specifica una soglia.. non specifica cosa
significa "general". E trovo difficilissimo che un LLM possa definirsi AGI.
Può essere talmente performante da darci la sensazione di "comprensione" e
ragionamento (e su questo ci siamo quasi), ma non ha basi logiche solide e
affidabili. Questo è un problema? No, se ne abbiamo la consapevolezza.
Un piccolo esempio: questi modelli ottengono punteggi impressionanti su tutti i
benchmark noti, e potrei postare dei flussi logici degni di nota (anche i prompt
che ho usato per ottenerli lo sono, però).
Ma commettono errori su una domanda banale come quella delle immagini che
seguono. Se avessero una componente simbolica, questo non accadrebbe. Per questo
nomino spesso i sistemi neuro-simbolici (che comunque non sono una novità) come
visione "futuristica" dell'AI.
Semplice test di logica usando diversi LLM
NOTA SULLE IMMAGINI
* NO, non è una questione di lingua: ho usato lo stesso prompt anche in inglese
e la risposta non cambia di molto.
* Mi ero promesso di non postare più questi esempi "idioti".. ma possono
aiutare a comprendere meglio questi sistemi.
--------------------------------------------------------------------------------
GARANTIRE UN'AI CHE SERVA IL BENE COMUNE
Mentre l'AI continua a evolversi e a influenzare diversi aspetti della nostra
vita, è cruciale rimanere informati e impegnati nel suo sviluppo.
Solo così possiamo garantire che l'AI serva il bene comune, potenziando la
nostra creatività e produttività, piuttosto che diventare un ostacolo o una
minaccia.
Un TEDx interessante per riflettere su queste tematiche.
Artificial intelligence becomes natural - Noémi Éltető - TEDxTârguMureș
--------------------------------------------------------------------------------
TEST DI GEMINI 1.0 PRO VISION
La multimodalità è ormai una costante nelle nuove generazioni di modelli.
L'API di Gemini risponde bene, in linea con la "visione" dei modelli della
stessa classe (es. GPT-4 e Claude 3).
Nel test si vede un esempio dell'utilizzo delle API dal pannello di Vertex AI,
in cui carico l'immagine di un tavolo, che viene unita al contesto di un prompt
strutturato per generare i dati di ottimizzazione, ovvero gli attributi "alt" e
"title", e la didascalia.
Esempio di utilizzo delle API di Gemini 1.0 Pro con un'immagine nel prompt
I controlli di sicurezza sono un po' troppo invasivi, a volte si attivano anche
laddove non c'è violazione (probabilmente dipende anche dalla lingua), ma sono
regolabili.
Vorrei solo capire perché nella versione chatbot il comportamento (a parità di
prompt) è diverso. O meglio, lo comprendo: l'intenzione è quella di rendere
l'assistente più semplice e "verboso" per l'utente. Però questo è un limite per
gli utenti più evoluti.
--------------------------------------------------------------------------------
ARRIVARE ALL'AGI..
Per chi ha seguito il mio recente intervento all'AI Festival..
Il CEO di Google DeepMind sembra essere molto d'accordo con i concetti che ho
cercato di condividere.
E, come dicevo, presto scorgeremo quel limite.
> La mia convinzione è che per arrivare all’AGI probabilmente ci sarà bisogno di
> molte altre innovazioni oltre alla massimizzazione della scala […]. Penso che
> sia necessario spingere sulle tecniche esistenti per vedere fino a che punto
> arrivano, ma non si otterranno nuove capacità [dell'AI] semplicemente
> scalandole. Non succederà come per magia.
> - Demis Hassabis, in un'intervista a Wired USA
* L'intervista: https://bit.ly/intervista-wired
* Il mio intervento: https://bit.ly/alessio-pomaro-ai-festival
Demis Hassabis - CEO di Google DeepMind
Solo una nota: ho usato il termine AGI perché fa parte della citazione, ma
spesso evito di parlarne. Il motivo? Probabilmente, in questo secolo, dovremo
rivederne il significato diverse volte.. perché i limiti continueranno a
spostarsi: il termine "generale", potenzialmente non ha confini.
--------------------------------------------------------------------------------
TEST DI CLAUDE 3
Anthropic ha rilasciato la nuova famiglia di modelli con il cappello Claude 3:
Opus, Sonnet, e Haiku.
Teoricamente batte GPT-4 su tutti i benchmark, più veloce, con meno errori, più
preciso (99% nel test NIAH), e ovviamente è stata introdotta la multimodalità.
200k token di contesto, con una capacità che può estendersi fino a 1M.
Ho provato Sonnet, ovvero la versione che bilancia velocità e performance.
Com'è andata?
Le risposte sono velocissime. Ho testato diversi prompt di analisi e generazione
di testo, e anche su molte e intricate istruzioni se la cava bene e rispetta le
direttive.
La componente di visione è abbastanza sensibile, e il dettaglio del contesto è
ampio. L'ho testato non solo nella descrizione di un'immagine, ma anche nella
generazione di output mixando istruzioni testuali.
Test di Claude 3 (Sonnet)
Ottimo lavoro Anthropic!
> Ricordo sempre, però, che stiamo confrontando le performance di un modello
> rilasciato da pochissimo con una tecnologia del 2022 (GPT-4).
Sono molto curioso di vedere quanto i prossimi modelli di OpenAI miglioreranno
in questi benchmark. Credo che questo ci farà capire molti aspetti sul futuro
dell'AI.
Introducing the next generation of Claude
Today, we’re announcing the Claude 3 model family, which sets new industry
benchmarks across a wide range of cognitive tasks. The family includes three
state-of-the-art models in ascending order of capability: Claude 3 Haiku, Claude
3 Sonnet, and Claude 3 Opus.
--------------------------------------------------------------------------------
GOOGLE PORTERÀ LA KNOWLEDGE BASE DI STACK OVERFLOW SU GEMINI
La quantità di dati e di potenza di calcolo che le Big Tech hanno (o avranno a
breve) a disposizione ci farà capire molto presto i limiti e il futuro dell'AI
generativa.
Comunque, bel colpo da parte di Google, anche se Microsoft ha tutti gli
sviluppatori nel suo editor.
Google brings Stack Overflow’s knowledge base to Gemini for Google Cloud |
TechCrunch
Developer Q&A site Stack Overflow is launching a new program today that will
give AI companies access to its knowledge base through a new API, aptly
TechCrunchFrederic Lardinois
Queste mosse non riguardano sono Stack Overflow, ma anche Reddit, Automattic
(WordPress), e ne seguiranno altri.
> Della serie.. se non puoi "combatterla", almeno puoi guadagnare "qualcosa".
--------------------------------------------------------------------------------
LA GENERAZIONE VIDEO DI SORA
Prompt per Sora: "fly through tour of a museum with many paintings and
sculptures and beautiful works of art in all styles".
Un esempio di generazione video con SORA
Il video è stato pubblicato da Tim Brooks di OpenAI. È spettacolare (molto!), ma
si possono notare diverse incoerenze spaziali e fisiche.
Questo ci riporta sempre alla natura di questi sistemi: producono output senza
possedere una sorta di "buon senso" o contatto con delle regole solide e
condivise.
Ecco perché spesso parlo di sistemi neuro-simbolici, come proiezione verso il
futuro dell'AI.
--------------------------------------------------------------------------------
GENERAZIONE DI IMMAGINI REAL-TIME
In ambito di evoluzione dell'AI generativa, spesso parlo di "real-time".
> Utopia fino a qualche mese fa, ma quasi realtà oggi.
Questa è l'interfaccia di Freepik: viene digitato il prompt e la generazione
avviene con lo scroll della pagina. Sembra un sistema di "lazy loading", ma in
realtà le immagini sono generate in (quasi) real-time.
L'interfaccia di generazione immagini di Freepik
Potenzialmente, potremo arrivare a generare gli elementi di una pagina web nel
tempo di caricamento della pagina stessa, con una capacità di personalizzazione
incredibile.
--------------------------------------------------------------------------------
CORSO: PROMPT ENGINEERING PER LLAMA 2
Ho fatto il corso dedicato al Prompt Engineering per Llama 2 di DeepLearning.ai
(la piattaforma di Andrew Ng).
È una risorsa interessante per chi vuole approfondire il modello e per chi è "a
secco" di concetti come Zero-Shot prompting, In-Context (o Few-Shot) prompting e
Chain-of-Thought prompting.
Che sono concetti utili per tutti i modelli di linguaggio!
IL CORSO SU LLAMA 2
DLAI - Prompt Engineering with Llama 2
Introduction · Overview of Llama Models · Getting Started with Llama 2 ·
Multi-turn Conversations · Prompt Engineering Techniques · Comparing Different
Llama 2 models · Code Llama · Llama Guard · Walkthrough of Llama Helper Function
(Optional) · Conclusion
DLAI - Learning Platform
Due aspetti mi hanno reso felice.
* Il modulo sul prompt engineering del nostro corso dell'Accademia è
estremamente più approfondito, con esempi molto più concreti ed evoluti.
AI per Agenzie e Team Digital | III edizione: Seminario a cura di Alessio Pomaro
Un Seminario verticale sull’AI per Agenzie e Team Digital condotto da Alessio
Pomaro. L’Accademia di Search On presenta la formazione professionale per i
Senior del Futuro
Accademia
* Nel corso viene espresso un concetto che anch'io curo nel programma, ovvero
l'importanza di considerare il prompt engineering un ciclo di test,
valutazione e ottimizzazione, che permette di rendere il modello e il prompt
un asset per l'automazione dei flussi aziendali.
--------------------------------------------------------------------------------
TEST DI STABLE DIFFUSION 3
Come se la cava Stable Diffusion 3 nei confronti dei più noti Midjourney V6 e
DALL-E 3?
Egregiamente, direi.. e forse con una capacità maggiore di rispettare i dettagli
espressi nel prompt.
Esempi di immagini generate usando Stable Diffusion 3
Nel post che segue, è possibile consultare il test completo, basato su diversi
prompt.
Did Stable Diffusion 3 Just Beat Midjourney V6 and Dall-E3?
I compared the image results of Stable Diffusion 3, Midjourney V6, and Dall-E 3
using similar prompts. Which image generator stands out?
Generative AIJim Clyde Monge
--------------------------------------------------------------------------------
SPOT TV GIAPPONESE REALIZZATO CON L'AI GENERATIVA
Sapevamo che sarebbe accaduto. Questo spot trasmesso dalla TV giapponese è
generato da un modello di AI.
> Provando a ricreare la stessa situazione usando Runway, ad esempio, diciamo
> che si può ottenere una base di partenza da editare in qualche minuto.
Spot della TV giapponese realizzato attraverso l'AI generativa
Per quanto possa piacere o meno, questi sistemi miglioreranno enormemente nei
prossimi mesi, e si arriverà a ottenere questo risultato direttamente dalla
diffusione.
Ovvero, arriveremo ad ottenere dai modelli dei video contenenti prodotti
specifici, con maggior controllo sul processo generativo.
--------------------------------------------------------------------------------
L'EVOLUZIONE DELL'ELABORAZIONE AUDIO-VIDEO
Il sistema voce + lip sync di Pika e EMO (Emote Portrait Alive) di Alibaba sono
due dimostrazioni efficaci di quanto stia crescendo l'elaborazione video ad
opera dell'AI generativa.
È solo il primo sprint, ma nei prossimi mesi prepariamoci a funzionalità e
qualità importanti.
* Pika permette di generare video da prompt multimodale con voce e labbra
sincronizzate dei soggetti.
* EMO, trasforma un'immagine in un video con il soggetto che può parlare..
addirittura cantare una canzone.
Esempi di applicazione di EMO (Emote Portrait Alive) di Alibaba
> I risultati non sono ancora perfetti, ma le potenzialità sono chiarissime
> (come i rischi).
--------------------------------------------------------------------------------
L'INNOVAZIONE SPESSO INIZIA DEL GIOCO!
Come già visto in passato per l'AI, l'innovazione spesso inizia del gioco.
Google DeepMind presenta Genie, un modello che riesce a creare dei "mondi
giocabili" da immagini sintetiche, fotografie o "schizzi".
Genie: Generative Interactive Environments
We introduce Genie, the first generative interactive environment trained in an
unsupervised manner from unlabelled Internet videos. The model can be prompted
to generate an endless variety of action-controllable virtual worlds described
through text, synthetic images, photographs, and even sketches. At 11B
parameters, Genie can be considered a foundation world model. It is comprised of
a spatiotemporal video tokenizer, an autoregressive dynamics model, and a simple
and scalable latent action model. Genie enables users to act in the generated
environments on a frame-by-frame basis despite training without any ground-truth
action labels or other domain-specific requirements typically found in the world
model literature. Further the resulting learned latent action space facilitates
training agents to imitate behaviors from unseen videos, opening the path for
training generalist agents of the future.
arXiv.orgJake Bruce
> Sembra inutile.. ma in realtà è una base per l'addestramento di modelli
> generalisti, andando a simulare uno spazio d'azione coerente.
Esempi di realizzazioni di Genie di Google DeepMind
--------------------------------------------------------------------------------
- GRAZIE -
Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre
persone, condividilo 🙂
ISCRIVITI ALLA NEWSLETTER
Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su
tematiche relative all'intelligenza artificiale.
Iscriviti alla Newsletter
Email sent! Check your inbox to complete your signup.
Gratuita. No Spam. Puoi disiscriverti quando vuoi.Consulta la privacy policy.
Una rubrica che racconta le novità più rilevanti che riguardano l'Intelligenza
Artificiale, con qualche riflessione.
> Buon aggiornamento,
> e buone riflessioni..
--------------------------------------------------------------------------------
AI GENERATIVA, TRA PASSI DA GIGANTE E PASSI "FALSI"
Il mio intervento all'AI Festival 2024.
> Le nostre vite sono sempre più basate sul digitale e su algoritmi di
> intelligenza artificiale.. ed è fondamentale conoscere i pilastri che ci
> sosterranno.
> Dobbiamo essere ottimisti verso il futuro con l'AI a bordo, perché non capita
> spesso di avere l’opportunità di trasformare la realtà intorno a noi in
> maniera così radicale.
In questa prima edizione di AI Festival (14 e 15 febbraio) abbiamo esplorato
insieme i trend presenti e futuri dell’Intelligenza Artificiale, le sue
applicazioni nel mondo dell’imprenditorialità innovativa, il suo contributo
concreto alla sostenibilità e all’inclusione, coinvolgendo professionisti,
istituzioni, cittadini, aziende e startup.
Oltre 6.000 presenze hanno condiviso due giorni di formazione, business meeting
e scoperta, grazie alla convergenza di realtà e competenze differenti, riunite
con un obiettivo comune: costruire un Futuro migliore.
--------------------------------------------------------------------------------
TRASCRIVERE E TRADURRE PODCAST E FILE AUDIO CON WHISPER DI OPENAI
Possiamo farlo con poche righe di codice (anche senza essere esperti di
programmazione).
[RISORSA GRATUITA] Facendo una copia di questo Colab, basterà caricare un file
audio ed eseguire i comandi.
Google Colaboratory
> Gli strumenti open source a disposizione diventano sempre più semplici da
> usare e da integrare.
--------------------------------------------------------------------------------
OPENAI PRESENTA SORA
In arrivo Sora, un modello dedicato ai video targato OpenAI.
Si tratta di un modello di diffusione, e può generare video dalla durata massima
di 1 minuto, in cui viene mantenuta la coerenza.
Sora: Creating video from text
Non solo Text-To-Video, ma anche Image-To-Video, con un'attenzione alla
simulazione del mondo reale in termini di "dinamica".
La qualità dei primi video condivisi è degna di nota, anche se sono quelli di
presentazione. Dovremo testarlo, ma sembra un ottimo inizio.
> I modelli generativi migliorano di giorno
> in giorno, diventando risorse sempre più vicine all'utilizzo professionale.
Esempi di generazione video attraverso SORA di OpenAI
--------------------------------------------------------------------------------
TEST DI MISTRAL LARGE
Ho provato il nuovo modello (nella versione Large), e.. mi ha colpito molto.
Nel tempo ho messo a punto un mio personale benchmark, orientato ad attività di
automazione, e task per i quali uso regolarmente i modelli generativi
(soprattutto via API). Si tratta di prompt anche molto articolati, dove la
qualità e il formato dell'output (precisione) sono determinati.
Test di Mistral Large
Mistral Large è davvero impressionante. Laddove Gemini Ultra 1.0 ha fallito in
modo evidente, questo nuovo modello ha creato output paragonabili a GPT-4.
Nessun altro LLM, fino a questo momento, era riuscito a "comprendere"
determinate istruzioni in modo corretto, ad eccezione di GPT-4 e Claude 2.
> Attualmente, potrei sostituire l'API di GPT-4 con quella di Mistral senza
> particolari accorgimenti, e con costi inferiori a quelli della versione Turbo
> di OpenAI.
Al contrario dei precedenti modelli di Mistral, i nuovi non sono open source!
Sono utilizzabili via API dagli endpoint di Mistral e Azure di Microsoft (con
una partnership pluriennale - non esclusiva - annunciata).
Mossa stellare di Microsoft, verso la diversificazione dei modelli nel suo cloud
e la porta spalancata in Europa. Anche se, secondo me, il modello comparirà
velocemente su AWS e anche su Google Cloud.
Au Large
Mistral Large is our flagship model, with top-tier reasoning capacities. It is
also available on Azure.
Frontier AI in your handsMistral AI
--------------------------------------------------------------------------------
L'EVOLUZIONE DI GEMINI DI GOOGLE: QUALCHE RIFLESSIONE
Un piccolo viaggio e qualche riflessione per fare chiarezza nel grande caos che
sta generando Google nella sua (rin)corsa per la leadership dell'AI Generativa.
> Da Bard a Gemini.. test e confronti con il mondo OpenAI, fino alla domanda:
> "quanti utenti manterranno Gemini Advanced dopo i due mesi di prova?".
L’evoluzione di Gemini di Google: qualche riflessione
Un piccolo viaggio e qualche riflessione per fare chiarezza nel grande caos che
sta generando Google nella sua (rin)corsa per la leadership dell’AI Generativa.
Alessio PomaroAlessio Pomaro
--------------------------------------------------------------------------------
VOCE E LIP SYNC NEI VIDEO GENERATI DALL'AI CON PIKA
Pika introduce voce e Lip Sync per i video generati.
Non sono perfetti, ma è l'inizio di una nuova possibilità abilitata dall'AI.
La voce viene generata attraverso un modello di ElevenLabs.
Voce e Lip Sync nei video generati con Pika
--------------------------------------------------------------------------------
COME FUNZIONA UN SISTEMA RAG?
Proviamo a capirlo in modo semplice.
* Ho caricato in un database vettoriale (Pinecone) una base di conoscenza (file
PDF).
* I contenuti vengono divisi in parti (chunk), e vengono vettorializzati usando
un modello di embeddings di OpenAI.
* I vettori sono sequenze numeriche che rappresentano un testo, e vengono
generati dal LLM.
* L'aspetto interessante dei vettori è che le sequenze numeriche conservano il
significato semantico del testo.
* Quindi, come avviene la ricerca di risposte nella base di conoscenza?
* La domanda che l'utente pone al sistema viene vettorializzata, e il vettore
viene confrontato con quelli nel database vettoriale (una query nel DB).
* Il risultato della query è una lista di chunk. Il testo in quei chunk diventa
il contesto per il LLM.
* Il LLM, elaborando quel contesto, riesce a dare una risposta in linguaggio
naturale all'utente. Il tutto in qualche secondo.
> Tutto questo è estremamente affascinante e pur conoscendo le dinamiche, rimane
> sempre incredibile.
Uno schema per comprendere meglio la natura di un sistema RAG
--------------------------------------------------------------------------------
LARGE WORLD MODEL (LWM)
Dal mondo open source arriva una nuova "bomba", dal laboratorio di ricerca
sull'AI di Berkeley: Large World Model (LWM), una famiglia di modelli
multimodali che lavorano in un ampio contesto.
Possono generare testo, immagini e video, con un contesto fino a 1M di token.
Il cuore del sistema è definito "RingAttention", un processo che ottimizza il
meccanismo di "attenzione" per sequenze lunghe.
LWM batte Gemini Pro nel recupero di informazioni (test dell'ago nel pagliaio) e
si allinea a GPT-4.
> Contesti enormi e precisione elevata sono obiettivi ormai raggiunti, con
> tecniche evolute e affascinanti. Ma l'effort di inferenza si alzano? Da
> capire.
--------------------------------------------------------------------------------
GEMINI SOSTITUIRÀ GOOGLE ASSISTANT?
Con "Hey Google" oggi ci si rivolge a Gemini. E diventa sempre più chiara la
vera forza di Google in ambito di AI Generativa: l'integrazione nel suo vasto
ecosistema.
Ho installato l'app mobile di Gemini e va direttamente a sostituire Assistant,
con relativi comandi vocali.
Una potente funzionalità riguarda l'interazione con i contenuti dello schermo,
che diventano un contesto per il modello di linguaggio. Nell'esempio si vede
come l'assistente sintetizzi una pagina web, ma può rispondere a domande,
generare altri contenuti, ecc..
Mi aspettavo l'integrazione diretta con Lens, ma arriverà.
Durante il Search Marketing Connect 2022 parlai di multimodalità e immaginai la
ricerca del futuro.. è esattamente quella che ho fatto realmente oggi con
Gemini: "dove posso acquistarla?".
Esempi di interazione con Gemini
> Sembra che Google, finalmente, stia convogliando i suoi frammenti basati
> sull'AI in un riferimento unico per gli utenti.
--------------------------------------------------------------------------------
È FINALMENTE ONLINE IL SITO WEB DI STABLE VIDEO!
Con una semplice interfaccia è possibile generare video partendo da un prompt
testuale e un'immagine, gestendo anche i movimenti della camera.
Nel video ho inserito alcune mie creazioni Text-To-Video e altre presentate da
Stability AI.
Stable Video | Generate Videos with AI
Create videos with text or image, turning your concepts into captivating
cinematics.
Stable Video
Dire che la qualità aumenta, ormai credo sia superfluo.
Esempi di generazione video di Stable Video
--------------------------------------------------------------------------------
LA CRESCITA DI NVIDIA E DEL CONSUMO DI GPU PER INFERENZA
Il vero gigante dell'AI? Nvidia, che non scorge ancora competitor concreti
all'orizzonte.
> Il 40% dei carichi di lavoro dei data center che utilizzano GPU Nvidia sono
> stati consumati per inferenza.
> - Colette Kress, executive VP Nvidia.
Si tratta di un cambiamento drammatico rispetto all’inizio del 2023, quando la
maggior parte della capacità della GPU era dedicata al training dei modelli.
Questo significa che le applicazioni utente presto consumeranno la maggior parte
del carico.
La crescita di Nvidia
--------------------------------------------------------------------------------
AI ASSISTANT DI ADOBE
Come dicevamo.. ogni software, ogni piattaforma, ogni CMS integrerà funzionalità
basate sull'AI Generativa.
Adobe lancia AI Assistant per interagire con i documenti che vengono aperti su
Reader e Acrobat.
Riassunti, risposte a domande sui contenuti, citazioni, navigazione
semplificata, ecc..
> Se creiamo servizi senza un valore aggiunto strategico, le piattaforme li
> spazzeranno via con uno schiocco di dita.
Adobe AI Assistant
--------------------------------------------------------------------------------
LA MULTIMODALITÀ DI GEMINI 1.5 PRO
Il lavoro sulla multimodalità di Google su Gemini 1.5 Pro è impressionante.
Nel test, gestisce il recupero di un'informazione in 22 ore di audio (senza
trascrizione) con una precisione del 100%.
Sul confronto della stessa attività sull'audio trascritto di GPT-4 Turbo ho dei
dubbi. Il confronto è con una tecnologia che ormai ha 2 anni (lo rifaremo su
GPT-5?).
E non mi è chiara la modalità di recupero, visto che il contesto di GPT-4 Turbo
è inferiore.
Anche i test sui video lasciano sbalorditi.
La multimodalità di Gemini Pro 1.5
--------------------------------------------------------------------------------
STABLE DIFFUSION 3
Stability AI annuncia Stable Diffusion 3, con performance migliorate nei prompt
multi soggetto, nella qualità e nella capacità di generare testo nelle immagini.
Il sistema combina un'architettura Diffusion Transformer e Flow Matching.
Nelle immagini è possibile vedere un confronto di due immagini che ho generato
con Dall-e 3 con lo stesso prompt.
Confronto tra Stable Diffusion 3 e Dall-e 3
--------------------------------------------------------------------------------
GEMMA: IL NUOVO MODELLO OPEN SOURCE DI GOOGLE
Qualche test di classificazione con Gemma, il nuovo LLM open source di Google
che usa la stessa architettura di Gemini.
Gemma: una nuova famiglia di modelli aperti
Noi di Google crediamo nel rendere l\u0026#x27\u003Bintelligenza artificiale
utile per tutti. Abbiamo una lunga storia di contributi innovativi alla comunità
aperta, come con Tran…
GoogleTris Warkentin
Si tratta della versione più piccola, la 2b, ma è disponibile anche la versione
7b.
I modelli di piccole dimensioni possono essere soluzioni interessanti. Per
classificazione, labeling, fine tuning, in combinazione a modelli più grandi per
l'elaborazione di un contesto, per applicazioni su dispositivi a performance
ridotte.
Test di Gemma 2b di Google
--------------------------------------------------------------------------------
COS'È GROQ?
Groq è una nuova interfaccia che permette di usare un modello open source
(Mixtral 8x7B o Llama 2 70B) a una velocità notevole (500 token/secondo).
La velocità è possibile grazie a una tecnologia personalizzata definita Tensor
Streaming Processor (TSP), che utilizza un'architettura LPU (Linear Processor
Unit).
> Nuova concorrenza per le GPU Nvidia?
Un test di Mixtral 8x7B su Groq
--------------------------------------------------------------------------------
EFFETTI AUDIO PER I VIDEO GENERATI
[sound ON] ElevenLabs annuncia AI Sound Effect, un sistema in grado di applicare
i suoni a un video in base a un prompt testuale.
L'hanno testato sui video generati da Sora, e questo è il risultato.
Gli effetti audio di ElevenLabs generati automaticamente da un algoritmo
Dal punto di vista sperimentale è qualcosa di straordinario. Se questo è
l'output diretto del modello già in questa fase, si aprono davvero nuovi
scenari.
--------------------------------------------------------------------------------
PERCHÉ LA GENERAZIONE DI IMMAGINI E VIDEO ATTRAVERSO L'AI GENERATIVA HA ANCORA
POCHI UTILIZZI INTERESSANTI PER LE AZIENDE?
..se non per blog, post social, elementi creativi.
Il motivo? I modelli sono straordinari e generano output di una qualità
impressionante, ma non sono in grado di rappresentare prodotti o elementi
specifici del brand.
Per ottenere questo tipo di lavorazione, serve andare in profondità e usare i
modelli in flussi che permettono di gestire con un dettaglio elevato il
condizionamento della diffusione.
Nelle immagini si vedono alcuni esempi di generazione Text-To-Image,
Image-To-Image e inpainting attraverso Stable Diffusion, e gestiti in flussi di
ComfyUI.
Esempi di flussi di lavoro di ComfyUI
Agendo su questi flussi, aggiungendo e modificando i nodi (es. usando LoRA,
ControlNet, gligen, ecc.), è possibile gestire e personalizzare la diffusione in
modo da ottenere un output preciso e customizzato.
> Forse è più chiaro il motivo per cui non basta un prompt testuale per
> lavorare, ad esempio, sui prodotti di un e-commerce.
--------------------------------------------------------------------------------
COMFYUI: ANIMATEDIFF + CONTROLNET
Un esempio di generazione video ottenuta con un flusso ComfyUI usando
AnimateDiff e ControlNet, partendo da un video in input.
È perfetto? No. Ma le implicazioni di questi sistemi dal punto di vista della
personalizzazione della comunicazione saranno impressionanti.
--------------------------------------------------------------------------------
COME FUNZIONA SORA DI OPENAI?
Una spiegazione semplice del paper.
* Il sistema lavora sui dati visivi trasformandoli in dati più semplici (spazio
latente).
* I dati dello spazio latente vengono suddivisi in piccole parti (patch), come
fossero i pezzi di un puzzle.
* Durante il training, il modello impara a riconoscere il contenuto delle
patch, e a prevedere come dovrebbero essere le patch "pulite" partendo da
patch "rumorose" (diffusione).
* Quando riceve un prompt testuale o un'immagine in input, Sora mette insieme i
pezzetti del puzzle per rappresentare la richiesta partendo da una
combinazione casuale.
* Infine, le patch generate vengono combinate e trasformate in un video
visibile.
È davvero straordinario pensare a cosa accade "dietro le quinte" quando siamo
difronte all'output.
Video generation models as world simulators
We explore large-scale training of generative models on video data.
Specifically, we train text-conditional diffusion models jointly on videos and
images of variable durations, resolutions and aspect ratios. We leverage a
transformer architecture that operates on spacetime patches of video and image
latent codes. Our largest model, Sora, is capable of generating a minute of high
fidelity video. Our results suggest that scaling video generation models is a
promising path towards building general purpose simulators of the physical
world.
--------------------------------------------------------------------------------
IL PRESENTE E IL FUTURO DELL'INTELLIGENZA ARTIFICIALE
Nell'ultimo numero di PROMPT Magazine, è presente un bellissimo articolo su AI
Festival.
Sono onorato di far parte di quei "visionaries behind the event", insieme a
tutto il team di Search On Media Group.
Nell'articolo c'è anche una lunga intervista che ho avuto il piacere di fare,
insieme a Cosmano Lombardo, Giorgio Taverniti e Marco Quadrella.
L'intervista su PROMPT Magazine
L'articolo completo: https://promptmagazine.it/ai-festival-2024
--------------------------------------------------------------------------------
META PRESENTA V-JEPA
Tra tutte le novità degli ultimi giorni in ambito video, Meta presenta V-JEPA.
Come funziona?
Spiegazione semplificata.
* In fase di addestramento, vengono sottoposti al sistema dei video senza
etichette (nessuno descrive cosa contengono).
* Durante questo processo, vengono nascoste delle parti dei video, e il modello
deve cercare di completare quelle parti.
* Questo processo permette a V-JEPA di "comprendere" meglio i video, imparando,
ad esempio, come si muovono gli oggetti e come interagiscono.
* Il sistema non lavora su tutti i pixel, ma riesce a mettere "attenzione"
nelle parti più importanti delle informazioni visive. Questo lo rende più
efficiente, perché ignora le parti irrilevanti.
* Una volta addestrato, diventa abile nel riconoscere elementi specifici nei
video. Ad esempio se una persona sta correndo (senza che nessuno glie l'abbia
insegnato).
> È come un bambino che impara osservando il mondo.
Immaginiamo le implicazioni di queste evoluzioni nella visione artificiale.
V-JEPA: The next step toward advanced machine intelligence
We’re releasing the Video Joint Embedding Predictive Architecture (V-JEPA)
model, a crucial step in advancing machine intelligence with a more grounded
understanding of the world.
--------------------------------------------------------------------------------
NON SONO CHIARE LE "REGOLE DEL GIOCO": QUESTO È UN PROBLEMA
Il giudice, in questo caso, si basa sull'output del modello. Ma per i LLM, la
vedo abbastanza dura. Nella causa del New York Times hanno lavorato non poco per
far generare a GPT-4 del testo uguale a un articolo da presentare come prova. E
l'articolo era datato.
Quindi i dati possono essere usati per il training a patto che non producano
output identici? Ma ci rendiamo conto di quanto sia improbabile?
Oppure viene punito chi rende pubblico quel contenuto (questo vale anche senza
ChatGPT o simili).
> Ci rendiamo conto che servono nuove riflessioni dedicate a questa nuova era
> tecnologica!? Perché dobbiamo aspettare delle sentenze per avere delle linee
> guida!?
Reuters: OpenAI gets partial win in authors' US copyright lawsuit
--------------------------------------------------------------------------------
GRAPHRAG DI MICROSOFT
Era abbastanza chiaro, ma ora sta diventando concreto: i Knowledge Graph possono
migliorare le performance dei sistemi RAG (Retrieval-Augmented Generation).
Microsoft lancia GraphRAG, un sistema che genera il Knowledge Graph dal set di
dati, e lo sfrutta per migliorare i risultati del modello di linguaggio.
La risposta non deriva dalla similarità vettoriale, ma da entità e relazioni.
GraphRAG: A new approach for discovery using complex information
Microsoft is transforming retrieval-augmented generation with GraphRAG, using
LLM-generated knowledge graphs to significantly improve Q&A when analyzing
complex information and consistently outperforming baseline RAG. Get the
details.
Microsoft ResearchBrenda Potts
--------------------------------------------------------------------------------
CHAT WITH RTX DI NVIDIA
Nvidia ha lanciato "Chat with RTX", un sistema in grado di implementare un
sistema RAG (Retrieval-Augmented Generation) su una knowledge custom e un LLM
open source (es. Llama, Mixtral).
Funziona in locale, su Windows, con una GPU RTX 30/40, e grazie a TensorRT-LLM
accelera notevolmente l'inferenza del LLM.
> Un'anticipazione di una funzionalità dei PC del futuro?
Chat with RTX di Nvidia
--------------------------------------------------------------------------------
UNA MEMORIA PER CHATGPT
OpenAI lancia la memoria per ChatGPT: un sistema che memorizza informazioni
dalle chat per ottenere benefici nelle conversazioni successive.
È una funzionalità interessante: in pratica, funziona come un prompt di sistema
in continua evoluzione.
Ma per che tipo di utilizzo? Per un utilizzo professionale io preferisco avere
il controllo completo delle istruzioni e del contesto per pilotare esattamente
il comportamento.
Sarà comunque gestibile ed escludibile.
Memory and new controls for ChatGPT
We’re testing the ability for ChatGPT to remember things you discuss to make
future chats more helpful. You’re in control of ChatGPT’s memory.
--------------------------------------------------------------------------------
UN CONFRONTO TRA UN ASSISTANT DI OPENAI E UN SISTEMA RAG BASATO SU LANGCHAIN
Un confronto tra un agente realizzato con un "Assistant" di OpenAI con
retrieval, e uno basato su LangChain + GPT4 Turbo + text-embeddings-3 + Chroma.
La knowledge è identica, il system prompt è molto simile.. e le risposte sono
ottime in entrambi i sistemi.
> Se OpenAI renderà più flessibile e configurabile questa modalità di sviluppo,
> credo che diventerà una delle soluzioni di riferimento per il concetto di RAG
> (Retrieval-Augmented Generation).
Un confronto tra un Assistant di OpenAI e un sistema RAG basato su LangChain
--------------------------------------------------------------------------------
LE "RUN INSTRUCTIONS" DI OPENAI
Un esempio di personalizzazione della risposta dell'Assistant di OpenAI in base
al tipo di utente.
Grazie alle "run instructions" possiamo fornire istruzioni di contesto per
ottenere un'esperienza personalizzata in base ai dati dell'utente.
La knowledge per il "retrieval" rimane fissa, ma via API possiamo variare il
comportamento dell'assistente anche per ogni interazione.. ad esempio anche in
base al sentiment della risposta.
Le "run instructions" di OpenAI
--------------------------------------------------------------------------------
L'EVOLUZIONE DELL'AI (PODCAST)
> La tecnologia che conosciamo oggi, nonostante l'aumento dell'efficienza alla
> quale stiamo assistendo, sarà sufficiente per progredire verso uno step
> successivo di sviluppo dell'AI? Oppure avremo bisogno di nuove intuizioni? E
> quali altri ingredienti dovremo mettere in campo?
Ascolta l'episodio di "Revel-AI: Sveliamo i segreti dell'Intelligenza
Artificiale".
--------------------------------------------------------------------------------
UN TEST USANDO LANGCHAIN, GPT-4 TURBO E CHROMA
LangChain con GPT4 Turbo, i nuovi modelli di embeddings (text-embedding-3-large)
di OpenAI, e Chroma come db vettoriale.
Un test su una directory di documenti sul mondo del running, in modalità
"retrieval" + LLM.
Come funzionano questi sistemi?
* I documenti vengono suddivisi in blocchi.
* I blocchi vengono vettorializzati (embeddings) e indicizzati nel db
vettoriale.
* Le query degli utenti vengono vettorializzate e diventano la base per una
ricerca semantica nel db.
* I blocchi risultanti dalla ricerca vengono elaborati dal LLM (nel mio caso
anche con prompt custom) e diventano una risposta per l'utente.
I risultati a volte sono sbalorditivi, ma credo che ci siano margini di
miglioramento enormi dal punto di vista tecnologico, e sistemi come "Activation
Beacon" lo dimostrano.
Un test usando LangChain, GPT-4 Turbo e Chroma
--------------------------------------------------------------------------------
LA RIVOLUZIONE DI YOUTUBE CON L'AI GENERATIVA
Come YouTube sta rivoluzionando il lavoro dei creator sfruttando l'AI
generativa?
1. YouTube Create. Permetterà di manipolare facilmente le clip, migliorare la
qualità audio, abbinare le clip ai ritmi dell'audio.
2. Dream Screen. Genererà sfondi animati attraverso prompt testuali.
3. Strumento di ispirazione. In arrivo in YouTube Studio: analizza i dati del
canale e suggerisce argomenti e strutture video.
4. Strumento di doppiaggio (Aloud). Permetterà di doppiare i video in altre
lingue in pochi clic.
5. Creator Music. Un aggiornamento del tool aggiungerà la ricerca del sound in
linguaggio naturale.
> In pratica si va verso un assistente alla
> creazione sempre a disposizione
Made On YouTube: Empowering anyone to Create on YouTube
Learn about YouTube’s latest AI-powered tools designed to push the boundaries of
creativity, from generative AI backgrounds to insights to spark your next video
ideas.
YouTube Official BlogToni Reid
--------------------------------------------------------------------------------
MITIGAZIONE DEI BIAS STEREOTIPATI NEI MODELLI GENERATIVI DEDICATI ALLE IMMAGINI
Runway pubblica uno studio davvero interessante.
Il concetto è semplice: hanno bilanciato il dataset di training attraverso dati
artificiali in un'operazione definita Diversity Fine Tuning.
Come risultato, la metrica di equità relativa al colore della pelle percepito è
migliorata del 150%. Quella relativa al genere percepito è migliorata del 97.7%.
> Ottimi risultati, ma serve qualcosa di più sistematico di un fine tuning. I
> sistemi neuro-simbolici potrebbero essere interessati come proiezione verso il
> futuro.
Mitigating stereotypical biases in text to image generative systems | Runway
Research
Reimagining creativity with artificial intelligence.
Runway Research
--------------------------------------------------------------------------------
L'INTELLIGENZA ARTIFICIALE NON È LA SOLUZIONE A TUTTI I PROBLEMI
> Impugnando un martello (AI generativa),
> tutto inizia a sembrare un chiodo.
Invece di chiederti come usare l'intelligenza artificiale generativa in azienda,
chiediti cosa devi realizzare.
L'AI può aiutare a esplorare, prevedere, ottimizzare e consigliare.. ma non è la
soluzione per tutti i problemi.
Find the AI Approach That Fits the Problem You’re Trying to Solve
AI moves quickly, but organizations change much more slowly. What works in a lab
may be wrong for your company right now. If you know the right questions to ask,
you can make better decisions, regardless of how fast technology changes. You
can work with your technical experts to use the right tool for the right job.
Then each solution today becomes a foundation to build further innovations
tomorrow. But without the right questions, you’ll be starting your journey in
the wrong place.
Harvard Business ReviewGeorge Westerman,
--------------------------------------------------------------------------------
UN CONFRONTO TRA MODELLI
Un confronto tra output di diversi LLM: GPT4, GPT-3.5, Gemini Plus, Claude 2,
Llama2 70b, Mixtral 8x7b (input identico).
Il task è molto semplice: l'analisi di una recensione. Le risposte sono molto
simili: le sfumature nell'estrazione dei topic derivano da diverse letture del
contesto, ma hanno tutti senso.
> Per operazioni semplici e ricorrenti, i modelli open source eseguiti
> localmente o su istanze private possono essere una risposta di valore.
Un confronto tra diversi modelli di linguaggio
--------------------------------------------------------------------------------
EAGLE 7B: UN NUOVO MODELLO OPEN SOURCE
Eagle 7B è un nuovo attore nel mondo degli LLM open source, che presenta
un'architettura innovativa.
Si discosta dalle tradizionali strutture dei Transformer, optando per un design
basato su RNN.
Risultato: riduce significativamente i costi di inferenza di un fattore 10 -
100.
Il modello eccelle nei benchmark multilingua, surclassando tutti i modelli della
stessa categoria, e avvicinandosi all'abilità di Falcon, Llama 2 e Mistral.
> L'evoluzione dei modelli è anche "efficienza".
🦅 Eagle 7B : Soaring past Transformers with 1 Trillion Tokens Across 100+
Languages (RWKV-v5)
A brand new era for the RWKV-v5 architecture and linear transformer’s has
arrived - with the strongest multi-lingual model in open source today
RWKV Open Source Development BlogEugene Cheah
--------------------------------------------------------------------------------
OPENAI USERÀ I METADATI C2PA PER LE IMMAGINI GENERATE
OpenAI ha annunciato di aver integrato i metadati C2PA nelle immagini generate
con DALL-E 3.
Infatti è già attivo (un esempio nelle immagini che seguono). Tuttavia mi chiedo
a cosa serva.. di certo sono passi in avanti, e lo standard si sta diffondendo,
ma facciamo sicurezza con scudi di carta!?
Ok, ok.. c'è aria di campagna elettorale e serve per dire: "stiamo combattendo
la disinformazione". Ma è chiaro che serve ben altro. Serve un'azione condivisa
a livello globale, e ricerca tecnologica per soluzioni più evolute.
> Inoltre ora DALL-E 3 genera immagini WebP.. perché!?
Chiaramente basta convertire l'immagine in qualunque altro formato, o editarla
nel modo più semplice che si conosca.. e i metadati li salutiamo.
Metadati C2PA nelle immagini generate da DALL-E 3
--------------------------------------------------------------------------------
STYLE REFERENCES DI MIDJOURNEY
Midjourney può replicare lo stile di un'immagine? Sì, con diversi metodi e
comportamenti.
I metodi sono: l'utilizzo del parametro con "Style References" o il prompt
multimodale.
> Uso di Style References: /imagine prompt: your prompt --sref --v 6
Midjourney: Getting Started with Style References
Style References (V6 & Niji 6) vs. Image Prompting. Its effects on aspect ratio,
medium, stylization, and text generation.
BootcampGeeky Animals
--------------------------------------------------------------------------------
UNA RIFLESSIONE SULL'AI ACT
L'AI ACT è un ottimo inizio di un processo di consapevolezza. La strada è
giusta, ma non basterà.
Serviranno politiche a supporto dello sviluppo delle tecnologie e
dell'attrazione dei talenti. Non basterà trattare la compliance delle PMI.
L'Europa forma più ricercatori ed esperti di USA e Cina, ma gli investimenti di
venture capital hanno la direzione contraria.
> Abbiamo il talento, ma non può svilupparsi.
Inoltre, l'Europa riuscirà ad esportare le sue "regole" senza dare il buon
esempio?
Governance, non significa solo regolamentazione. Forse (e me lo auguro) servirà
anche giocare la partita, non solo regolarla.
--------------------------------------------------------------------------------
OPEN LANGUAGE MODEL (OLMO)
Open Language Model (OLMo) è un modello open source aperto in ogni elemento:
dati di training, codice e pesi del modello.
Questi sono passi avanti per quanto riguarda la ricerca che in ambito dell'AI.
Ma è chiaro che il rafforzamento della governance è sempre più necessario.
OLMo - Open Language Model by AI2
OLMo is a series of Open Language Models designed to enable the science of
language models. The OLMo models are trained on the Dolma dataset.
Open Language Model by AI2
--------------------------------------------------------------------------------
HUGGING FACE ASSISTANTS: UN'ALTERNATIVA AI GPTS
Un'alternativa open source a ChatGPT e ai suoi GPTs? Ci pensa Hugging Face.
Attraverso Hugging Chat è possibile interagire con un'interfaccia molto simile a
ChatGPT scegliendo anche il LLM da usare (es. Llama 2 e Mixtral).
HuggingChat
Making the community’s best AI chat models available to everyone.
Nella sezione Assistants si può trovare lo "store" e creare un Assistant
personalizzato (come un GPT).
HuggingChat - Assistants
Browse HuggingChat assistants made by the community.
Assistants
Quali sono i deficit?
1. I modelli sono meno potenti di GPT-4: non aspettiamoci la stessa risposta ai
system prompt che usiamo per i GPTs, soprattutto se progettiamo
l'interattività tra utente e assistente.
2. Non ha "Vision".
3. Non ha un generatore di immagini.
4. Non ha un "code interpreter".
5. Non è possibile caricare una knowledge.
Per le elaborazioni di testo è un'ottima alternativa.
Hugging Face Assistants: un'alternativa ai GPTs
--------------------------------------------------------------------------------
IMMAGINI LIFESTYLE USANDO STABLE DIFFUSION XL
Un esempio di personalizzazione delle immagini attuabile in un e-commerce usando
l'AI Generativa.
Ho generato le immagini "lifestyle" dei prodotti via API sfruttando Stable
Diffusion XL.
Con un prompt testuale viene generato il background, e il prodotto viene
inserito all'interno.
Questo può essere interessante per personalizzazioni che seguono la stagionalità
e le ricorrenze, ma anche per rendere più efficaci alcune campagne
(advertising).
Stable Diffusion XL: immagini "lifestyle"
--------------------------------------------------------------------------------
L'AI GENERATIVA SU GOOGLE MAPS
Google integra l'AI Generativa su Maps, per rispondere a richieste evolute che
vanno anche oltre a indirizzi e luoghi.
Il concetto è semplice: i risultati di una ricerca semantica producono un
contesto, il quale viene gestito da un LLM per dare risposte.
I modelli generativi sono sempre più parte della ricerca online.
A new way to discover places with generative AI in Maps
We’re incorporating generative AI in Maps, to help you discover things to do.
Select U.S. Local Guides begin testing the feature this week.
GoogleMiriam Daniel
--------------------------------------------------------------------------------
RUFUS: IL NUOVO ASSISTENTE VIRTUALE DI AMAZON
Amazon lancia Rufus, un assistente virtuale basato sull'AI generativa per
guidare i clienti nella scelta dei migliori prodotti.
È addestrato su tutta la conoscenza della piattaforma (su prodotti, clienti e
community) e presente nel web.
Probabilmente siamo di fronte a una nuova era nello sviluppo degli assistenti
conversazionali.
Amazon announces Rufus, a new generative AI-powered conversational shopping
experience
With Rufus, customers are now able to shop alongside a generative AI-powered
expert that knows Amazon’s selection inside and out, and can bring it all
together with information from across the web to help them make more informed
purchase decisions.
US About AmazonRajiv Mehta, Vice President, Search and Conversational Shopping,
Amazon
> "Crediamo che l’intelligenza artificiale generativa cambierà praticamente
> tutte le esperienze dei clienti che conosciamo"
Rufus, l'assistente di Amazon
--------------------------------------------------------------------------------
MOONDREAM 1: UN IMPRESSIONANTE VISIONE LANGUAGE MODEL DI PICCOLE DIMENSIONI
Un test di Moondream 1, un Vision Language Model di piccole dimensioni (1.6B)
costruito utilizzando SigLIP, Phi-1.5 e il set di dati di training di LLaVA.
Nel test uso la camera dello smartphone, e il modello descrive in dettaglio la
scena.
GitHub - vikhyat/moondream: tiny vision language model
tiny vision language model. Contribute to vikhyat/moondream development by
creating an account on GitHub.
GitHubvikhyat
Il processo di miglioramento dell'efficienza dei modelli generativi apre scenari
davvero interessanti.
Un test di Moondream 1
--------------------------------------------------------------------------------
IMAGEN 2 DI GOOGLE SU IMAGEFX
Qualche test di Imagen 2 di Google attraverso ImageFX.
In prima battuta, il sistema inizia la fase di ottimizzazione del prompt, in cui
va anche a riconoscere le entità descritte. Successivamente genera un set di
immagini. Ormai la qualità è sottintesa.
Imagen 2 è disponibile anche direttamente su Bard (che nel frattempo è diventato
Gemini), e include il watermarking di SynthID.
Esistono già test che mostrano come prompt generici producono output che
potrebbero essere violazioni di copyright.. la questione rimane aperta, ma non
c'erano dubbi su questo.
Test di Imagen 2 di Google su ImageFX
--------------------------------------------------------------------------------
MIDJOURNEY NIJI V6
Midjourney ha rilasciato Niji V6, una versione specifica dedicata agli anime.
Niji V6
Starting today we’re testing the Niji V6 model (it’s a version of the model
specifically tuned for Eastern / anime aesthetics)
Midjourney v6admin
Il video mostra un'immagine generata con il modello e animata attraverso Runway
Gen 2 da Christopher Fryant.
0:00
/0:03
1×
--------------------------------------------------------------------------------
ACTIVATION BEACON: UN SISTEMA PER AUMENTARE IL CONTESTO DEI LLM
Activation Beacon è un sistema che permette di estendere (di molto) la finestra
di contesto dei LLM.
Nei test è stato usato su Llama 2 estendendo la finestra di token di 100 volte
(400k token), ottenendo risultati migliori nella generazione e nella
"comprensione".
In pratica usa una sorta di "riassunto intelligente" in cui condensa le
informazioni per "ricordarle" in tutto il contesto esteso.
> È come se leggessimo un grosso libro, e per ricordare ogni capitolo durante la
> lettura dei successivi usassimo delle sintesi di qualità.
Soaring from 4K to 400K: Extending LLM’s Context with Activation Beacon
The utilization of long contexts poses a big challenge for large language models
due to their limited context window length. Although the context window can be
extended through fine-tuning, it will result in a considerable cost at both
training and inference time, and exert an unfavorable impact to the LLM’s
original capabilities. In this work, we propose Activation Beacon, which
condenses LLM’s raw activations into more compact forms such that it can
perceive a much longer context with a limited context window. Activation Beacon
is introduced as a plug-and-play module for the LLM. It fully preserves the
LLM’s original capability on short contexts while extending the new capability
on processing longer contexts. Besides, it works with short sliding windows to
process the long context, which achieves a competitive memory and time
efficiency in both training and inference. Activation Beacon is learned by the
auto-regression task conditioned on a mixture of beacons with diversified
condensing ratios. Thanks to such a treatment, it can be efficiently trained
purely with short-sequence data in just 10K steps, which consumes less than 9
hours on a single 8xA800 GPU machine. The experimental studies show that
Activation Beacon is able to extend Llama-2-7B’s context length by $\times100$
times (from 4K to 400K), meanwhile achieving a superior result on both
long-context generation and understanding tasks. Our model and code will be
available at the BGE repository.
arXiv.orgPeitian Zhang
--------------------------------------------------------------------------------
- GRAZIE -
Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre
persone, condividilo 🙂
ISCRIVITI ALLA NEWSLETTER
Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su
tematiche relative all'intelligenza artificiale.
Iscriviti alla Newsletter
Email sent! Check your inbox to complete your signup.
Gratuita. No Spam. Puoi disiscriverti quando vuoi.Consulta la privacy policy.