> GPT-5 is a significant step along the path to AGI… a model that is generally
> intelligent.
Così Sam Altman introduce la live di presentazione di GPT-5. Nel momento in cui
ha finito la frase, ho avuto una forte tentazione di stoppare lo streaming.. ma
mi sono sforzato di proseguire.
A valle dell’evento, il mio bilancio è questo:
> GPT-5 è un major update
> solido ma non di rottura.
La presentazione di GPT-5 di OpenAI
È plausibile che abbiano migliorato praticamente tutto: comprensione,
allucinazioni, strumenti, costi.. però non è il salto epocale che la retorica di
apertura lasciava intendere. Anche il messaggio “verso l’AGI” suona come
marketing ambizioso più che come evidenza scientifica: se migliori su molti
benchmark ma resti nel solco della stessa famiglia di (queste) tecniche, è un
progresso importante, non una rivoluzione.
Questo non significa sminuire il lavoro tecnico: l’inferenza è più economica, il
modello sceglie quando attivare componenti di "reasoning" e la lineup è più
granulare (tipologie di modello diverse per casi d’uso diversi). Ma la live è
stata anche penalizzata da visualizzazioni fuorvianti: alcuni grafici avevano
barre che non corrispondevano ai valori e un diagramma sulla “deception” è stato
poi corretto nella documentazione.
La correzione del diagramma dalla presentazione alla documentazione
Sul fronte posizionamento competitivo, la sensazione è di passo avanti, non
balzo in avanti. Dopo l'evento, François Chollet (co-founder di ARC Prize) ha
pubblicato un confronto in cui Grok 4 risulta avanti su ARC-AGI-2, mentre su
ARC-AGI-1 il margine è più sottile; al netto di differenze di costo, il quadro è
di una leadership contesa e per nulla schiacciata.
> Grok 4 is still state-of-the-art on ARC-AGI-2 among frontier models.
>
> 15.9% for Grok 4 vs 9.9% for GPT-5. pic.twitter.com/wSezrsZsjw
>
> — François Chollet (@fchollet) August 7, 2025
Questi dati vanno interpretati con cautela (metodologie, settaggi, versioni
cambiano), ma raffreddano l’idea di un distacco netto.
Infine, qualche scelta narrativa non ha aiutato: tanto "vibe coding" e
storytelling emotivo, meno metodo e ablation. Da utilizzatore, mi sarei
aspettato più dimostrazioni di multimodalità end-to-end (input e output ricchi,
integrazione sensori-attuatori) e un ponte più credibile verso il mondo
fisico/robotico — area in cui altri player stanno spingendo (es. Google e
Nvidia).
> I miglioramenti ci sono e i prezzi non sono fuori mercato; semplicemente non
> abbiamo visto
> “il prossimo paradigma”.
PARLIAMO DEL CONCETTO DI AGI?
Perché la tentazione di chiudere lo streaming non appena Altman ha pronunciato
“AGI”? Perché, probabilmente, i soli LLM non basteranno per raggiungere
l'obiettivo. Continuare a scalare decoder autoregressivi riduce errori ma non
risolve: causalità, generalizzazione out-of-distribution, composizionalità,
pianificazione a lungo raggio, ragionamento simbolico. A questo proposito, ho
più volte menzionato approcci come quello neuro-simbolico, ovvero l'integrazione
di reti neurali e rappresentazioni/strumenti simbolici.
Non è teoria astratta: modelli-strumento come o3, Grok 4, e lo stesso GPT-5,
ovvero quelli con interpreti di codice e reasoners, mostrano che plug-in
simbolici (solver, motori logici, CAS) alzano l’asticella su compiti logici e
strutturati. Google DeepMind, su AlphaFold o AlphaGeometry non applica “solo”
LLM: si tratta di architetture ibride disegnate sul problema, con motori di
ricerca, vincoli e verifiche. La direzione non è “più grande è meglio”, ma “ben
integrato è meglio”: neurale per percepire e proporre, simbolico per verificare,
comporre e generalizzare.
Gli avanzamenti recenti in matematica lo confermano. Seed-Geometry (ByteDance
Seed AI4Math) ha superato AlphaGeometry 2 su 50 problemi IMO di geometria (43 vs
42) e sulle shortlist più dure (22/39 vs 19/39), grazie a un motore simbolico
più veloce, una rappresentazione più compatta delle costruzioni e un ciclo
neurale-simbolico più efficiente. Non è un trucco: è un cambio di passo su
compiti dove la verifica formale conta quanto (o più) della generazione.
Seed-Prover: Deep and Broad Reasoning for Automated Theorem Proving | alphaXiv
View 1 comments: What is the difference between this work and the Gemini
pro?2507.15855
arXiv
Se vogliamo avvicinarci all’AGI, dobbiamo uscire dal monolito: agenti che usano
strumenti e ambienti, memorie strutturate, moduli di pianificazione e
prove/verifiche integrati by design, non come accessori opzionali.
> Il LLM resta il substrato linguistico e percettivo, ma l’intelligenza emerge
> dall’orchestrazione.
LO STATO DEL PROGRESSO DELL’AI
Al netto di GPT-5, stiamo vivendo un’accelerazione storica. Demis Hassabis
(Google DeepMind) descrive un impatto “10 volte più grande, e forse 10 volte più
veloce dell’Industrial Revolution”, con un orizzonte di 5–10 anni per sistemi
con capacità simili all’umano in molti domini. È un’immagine potente, che
richiede di ripensare istituzioni, lavoro, welfare, istruzione e governance.
Non sono solo parole: AlphaFold ha già spostato gli equilibri nella scienza
delle proteine, al punto da valere a Hassabis e Jumper il Nobel per la Chimica
2024 (insieme a David Baker). La portata non è solo tecnica: rendere praticabile
e diffuso ciò che prima richiedeva anni di esperimenti è nuova capacità civile —
scienza più rapida, più aperta, più traducibile in cure e materiali.
Chemistry Nobel goes to developers of AlphaFold AI that predicts protein
structures
This year’s prize celebrates computational tools that have transformed biology
and have the potential to revolutionize drug discovery.
NatureEwen Callaway
Questa accelerazione, però, non è lineare né omogenea. Vediamo frontier models
migliorare, ma spesso in modo irregolare: grandi vittorie in domini strutturati
(biologia, geometria formale), progressi più lenti nella robustezza generale
(ragionamento di buon senso, affidabilità contestuale, autonomia). In parallelo,
cresce l’impatto economico (produttività, automazione di parti di filiere
cognitive) e si amplificano le questioni sociali: distribuzione dei benefici,
sostenibilità energetica, rischi informativi. Il punto non è fermare, ma
governare l’onda: standard aperti, benchmark onesti, evals riproducibili,
trasparenza sui dati e sistemi di verifica incorporati.
Se la traiettoria “10× più grande e più veloce” si confermerà, ci serviranno
nuove idee sul senso del tempo e del valore umano. Non tutto è utilitaristico:
arte, gioco, sport, meditazione potrebbero tornare al centro proprio perché
liberati dal vincolo. Ma questo futuro richiede politiche intenzionali:
redistribuzione, formazione continua, infrastrutture di ricerca e un mercato che
premia la qualità, non solo la spettacolarità in keynote.
Ne ho parlato nei recenti interventi che ho tenuto al TEDx di Bergamo e al WMF
(We Make Future).
Il mio intervento al TEDx di Bergamo
CONCLUSIONI
GPT-5 è un aggiornamento importante, ma “incrementale”. Ha spinto in avanti il
perimetro di ciò che è pratico e abbordabile, senza cambiare le regole del
gioco. Se prendiamo sul serio l’AGI, la strada passa per architetture ibride,
tool use nativo, verifica simbolica e benchmark trasparenti. Nel frattempo, l’AI
continua a permeare scienza, industria e cultura a velocità inaudita: la sfida
non è solo tecnica, è civile. E, finché non vedremo quell’integrazione profonda
che da tempo invoco, manterrò questa posizione: gli LLM sono necessari ma non
sufficienti — e il prossimo salto non sarà solo più grande; sarà diverso.
--------------------------------------------------------------------------------
UNA SINTESI DELLA PRESENTAZIONE
Per chi non avesse visto tutta la presentazione, quello che segue è un riepilogo
che cerca di sintetizzare al meglio le caratteristiche del nuovo sistema di
OpenAI.
Sam Altman durante la presentazione di GPT-5
PANORAMICA SUL MODELLO
GPT-5 è il nuovo modello di punta di OpenAI: più intelligente, più rapido e
soprattutto più utile nelle richieste reali (scrittura, coding, salute,
multimodale). In ChatGPT diventerà il modello di default per tutti; gli utenti
Pro avranno anche GPT-5 Pro (con reasoning più esteso). Il rollout inizia da
subito per gli utenti Free, Plus, Pro, Team; per gli abbonamenti Enterprise ed
Edu arriverà dopo una settimana dalla presentazione.
Gli utenti Free, al raggiungimento delle quote limite, passano a GPT-5 mini.
UN SISTEMA UNIFICATO: ROUTER + "THINKING" QUANDO SERVE
Non bisogna più scegliere tra un modello “veloce” e uno “con reasoning”: GPT-5
integra un modello smart/efficiente, un modello di ragionamento profondo (“GPT-5
thinking”) e un router in tempo reale che decide quale usare in base a
complessità, tipo di conversazione, strumenti necessari e segnali espliciti (es.
“pensa a fondo”). Il router impara da segnali reali (switch tra modelli,
preferenze, misure di correttezza). Al raggiungimento dei limiti subentra una
versione mini. In futuro queste capacità verranno fuse in un unico modello.
PRESTAZIONI E VALUTAZIONI (SOTA)
* Matematica (AIME 2025, senza tool): 94,6%
* Coding: 74,9% su SWE-bench Verified; 88% su Aider Polyglot
* Multimodale: 84,2% su MMMU
* Salute: 46,2% su HealthBench Hard
Con GPT-5 Pro (ragionamento esteso) si ottiene lo stato dell’arte su GPQA
(88,4%, senza tool).
In più, rispetto a o3, GPT-5 “thinking” raggiunge risultati migliori usando
il 50–80% di token di output in meno su varie capacità (ragionamento visivo,
coding agentico, problemi scientifici avanzati).
Prestazioni e valutazioni di GPT-5
AFFIDABILITÀ, ALLUCINAZIONI E "ONESTÀ"
Con ricerca web attiva su prompt rappresentativi, le risposte di GPT-5 sono ~45%
meno soggette a errori fattuali rispetto a GPT-4o; in modalità “thinking” sono
~80% meno soggette a errori rispetto a o3. Su benchmark di fattualità aperta
(LongFact, FActScore) “GPT-5 thinking” riduce le allucinazioni di circa 6×
rispetto a o3.
È anche meno ingannevole: nelle conversazioni reali, le risposte “thinking” che
mostrano comportamenti di “deception” scendono dal 4,8% (o3) al 2,1%.
Lo stile mostra meno "eccesso di consenso", meno emoji inutili, più trasparenza
sui limiti.
SAFE COMPLETIONS
Nuovo addestramento di sicurezza: invece di rifiutare o acconsentire “a
blocchi”, GPT-5 massimizza l’aiuto entro confini di sicurezza. Quando serve,
risponde solo ad alto livello; se deve rifiutare, spiega perché e propone
alternative sicure. Risultato: migliore gestione delle richieste
ambigue/dual-use e meno rifiuti inutili.
BIO/CHIMICA: APPROCCIO PRUDENZIALE
“GPT-5 thinking” è trattato come High capability in bio/chimica nel Preparedness
Framework: 5.000 ore di red-teaming, classificatori always-on, reasoning
monitors e difese multilivello, attive in via precauzionale.
COSA MIGLIORA PER GLI UTENTI CHATGPT
* Scrittura: testi più ricchi e risonanti, migliore gestione di strutture
ambigue (es. verso libero, pentametro giambico senza rima), utile per email,
report, memo.
* Coding: eccelle nel front-end complesso e nel debug di repository grandi;
spesso crea siti/app/giochi belli e responsivi con un solo prompt, con gusto
per spaziatura, tipografia e white-space.
* Salute: punteggi nettamente migliori su HealthBench; risposte più proattive
(segnala rischi, pone domande), adattate a contesto/geografia/livello utente.
Non sostituisce un medico, ma aiuta a capire referti, preparare domande,
valutare opzioni.
* Personalità preimpostate (anteprima di ricerca): Cynic, Robot, Listener,
Nerd, per regolare tono e stile senza prompt artigianali; progettate anche
per ridurre l'eccesso di consenso nei confronti dei messaggi degli utenti.
NOVITÀ MOSTRATE NELLA LIVE
* Voice più naturale, con video, traduzione continua e nuova Study & Learn mode
(es. esercizi guidati, apprendimento delle lingue).
* Memoria e personalizzazione: è stata presentata l'integrazione con Gmail e
Google Calendar per la pianificazione quotidiana; colori personalizzati
dell’interfaccia; anteprima di personalities anche in modalità Voice.
PER SVILUPPATORI E AZIENDE (API)
* Tre modelli: gpt-5, gpt-5-mini, gpt-5-nano. Prezzi indicativi: $1,25 / 1M
token input e $10 / 1M output (GPT-5); $0,25 / $2 (mini); $0,05 / $0,40
(nano). Disponibile via Responses API, Chat Completions e Codex CLI.
* Nuovi controlli:
* reasoning_effort con valore minimal per risposte velocissime con poco
ragionamento;
* verbosity: low/medium/high per controllare la verbosità (quanto il modello
risulta prolisso);
* Custom tools in plain-text (anziché solo JSON) + vincoli con regex/CFG;
tool-call preambles per far spiegare al modello il piano prima delle
chiamate strumento.
* Contesto lungo: fino a 400.000 token totali, con miglioramenti su compiti di
lungo contesto (recupero e ragionamento su input molto estesi).
* Agentic/tool use: grandi progressi su benchmark di tool-calling e
instruction-following; migliore capacità di completare task multi-step,
coordinare strumenti e adattarsi al contesto.
* Variante chat non-reasoning disponibile come gpt-5-chat-latest (stessa
tariffa), utile per latenza più bassa.
IMPLICAZIONI PRATICHE
* Utenti finali: qualità alta “di default”, meno allucinazioni, più "onestà" su
impossibilità o limiti.
* Team e imprese: un sistema di default affidabile per il lavoro quotidiano, e
GPT-5 Pro per compiti critici.
* Developer: meno “prompt gymnastics”. Controlli nativi su
ragionamento/verbosità/formato, tool-calling più robusto, 400k di contesto
per documenti enormi e pipeline complesse.
--------------------------------------------------------------------------------
PRIMI TEST DEL MODELLO
Ho fatto diversi test con il modello GPT-5 Thinking (su ChatGPT e via API) che
riguardano, ad esempio, la generazione di testo, la creazione di dashboard che
derivano dall'analisi di un dataset, output strutturati con contesti in input
molto lunghi dove la precisione è fondamentale, ragionamento, matematica.
Primi test con GPT-5
Ho effettuato anche delle sperimentazioni usando il modello su sistemi agentici,
su infrastrutture già collaudate per altri modelli.
Non avevo dubbi che il risultato sarebbe stato di qualità: l'aumento di
performance è notevole rispetto alle versioni precedenti di OpenAI. Le
performance su task di questo tipo non si discutono, e questo modello, visto
anche il prezzo delle API praticamente identico, va a competere direttamente con
Gemini 2.5 Pro su tutti i fronti.
--------------------------------------------------------------------------------
APPROFONDIMENTI
UNA GUIDA AL PROMPTING PER GPT-5
OpenAI ha pubblicato una guida ufficiale al prompting per GPT-5, pensata per
aiutare sviluppatori e professionisti a ottenere il massimo dal nuovo modello.
La guida approfondisce come costruire prompt efficaci, sottolineando l’elevata
sensibilità di GPT-5 alle istruzioni: è in grado di seguire indicazioni con
estrema precisione, ma proprio per questo diventa cruciale evitare ambiguità o
contraddizioni.
Vengono presentate strategie per bilanciare il grado di autonomia del modello,
regolare il livello di ragionamento (reasoning_effort) e ottimizzare le risposte
(verbosity). Una sezione specifica è dedicata allo sviluppo software, dove GPT-5
si distingue nella scrittura, refactor e generazione di codice, specialmente se
guidato da prompt che ne specificano stile e contesto tecnico.
La guida include esempi concreti, casi d’uso (come Cursor) e buone pratiche come
l’uso di “tool preambles” o tecniche di metaprompting. Un riferimento prezioso
per chi vuole costruire interazioni più robuste, controllabili ed efficienti con
GPT-5.
GPT-5 prompting guide | OpenAI Cookbook
GPT-5, our newest flagship model, represents a substantial leap forward in
agentic task performance, coding, raw intelligence, and steera…
GPT-5 PER GLI SVILUPPATORI
OpenAI presenta un contenuto dedicato agli sviluppatori che illustra GPT-5, il
modello più avanzato per codifica e compiti agentici complessi. Con prestazioni
ai vertici nei benchmark, gestione efficiente di processi multi-turno, recupero
di informazioni da contesti lunghi e riduzione significativa degli errori, GPT-5
offre nuove funzioni API come reasoning_effort, verbosity e Freeform tools, ed è
disponibile in tre varianti per adattarsi a esigenze diverse di prestazioni,
costi e latenza.
Vai al post
--------------------------------------------------------------------------------
- GRAZIE -
Se hai apprezzato il contenuto, puoi
contribuire al progetto con una donazione 🙂
ISCRIVITI ALLA NEWSLETTER
Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su
tematiche relative all'intelligenza artificiale.
Iscriviti alla Newsletter
Email sent! Check your inbox to complete your signup.
Gratuita. No Spam. Puoi disiscriverti quando vuoi.
Consulta la privacy policy.
Tag - GPT-4
> Immagino che tutti abbiamo provato, almeno una volta nella vita, a preparare i
> popcorn.
Si mette il mais in una padella rovente e si aspetta; all’inizio non accade
nulla, sembra un processo lento. Successivamente, qualche chicco inizia a
scoppiare, e improvvisamente scoppiano insieme tutti gli altri.
Io credo che, per quanto riguarda lo sviluppo e l’integrazione dell’intelligenza
artificiale, oggi siamo proprio in quel momento: abbiamo il mais nella padella
rovente e stiamo iniziando a sentire scoppiare i primi chicchi.
L'inizio di una trasformazione esponenziale - WMF 2025
> Per dirlo senza metafore, credo che siamo all'inizio di una trasformazione
> esponenziale.. non semplicemente veloce: esponenziale.
E iniziamo a percepire qualche segnale.
Oggi, ad esempio, è possibile usare l’AI per comprendere i complessi paper alla
base dell’AI stessa. Ilya Sutskever (co-founder di OpenAI) ha recentemente
pubblicato una selezione dei migliori studi scientifici che riguardano
l'Intelligenza Artificiale e il Machine Learning, e ho usato NotebookLM di
Google per trasformarli in un corso organizzato in lezioni, che permette di
apprendere tutto molto più velocemente.
Vai al Notebook
Gli strumenti migliorano, e accelerano la loro stessa evoluzione, aiutando le
persone ad apprendere e creare nuove conoscenze sempre più rapidamente.
ALPHAEVOLVE: L’AI CHE MIGLIORA L’AI
Un altro segnale importante è rappresentato da AlphaEvolve di Google DeepMind:
un progetto che usa un LLM (Gemini) per scrivere e migliorare codice
autonomamente.
AlphaEvolve: A Gemini-powered coding agent for designing advanced algorithms
New AI agent evolves algorithms for math and practical applications in computing
by combining the creativity of large language models with automated evaluators
Google DeepMindAlphaEvolve team
Nulla di nuovo, giusto? Ormai siamo saturi di modelli dedicati al coding. Ma
andiamo a capire meglio cosa significa.
* Ottimizzazione delle risorse. Ha permesso di recuperare in media lo 0,7%
delle risorse computazionali nei data center Google grazie a nuove euristiche
di scheduling.
* Accelerazione del training dei modelli. L’ottimizzazione dei kernel ha
portato fino al 23% di speedup e una riduzione dell'1% nei tempi di training
dei modelli Gemini.
* Scoperta di nuovi algoritmi. Ha migliorato algoritmi matematici come la
moltiplicazione di matrici 4×4 con 48 moltiplicazioni (il primo miglioramento
dopo 56 anni).
* Ottimizzazione del codice. Ha ottenuto un 32% di speedup nei kernel
FlashAttention e un 15% nei processi di pre/post-processing dei Transformer.
* Ricerca scientifica autonoma. Ha superato lo stato dell’arte nel 20% dei
problemi matematici affrontati, scoprendo nuove costruzioni ottimali
* Semplificazione dell'hardware. Modifiche ai circuiti delle TPU hanno permesso
una riduzione di area e consumi, con soluzioni validate dai progettisti
hardware.
> Chip migliori = modelli più potenti e veloci = chip ancora migliori = modelli
> sempre più potenti = ...
Un chiaro segnale dell’inizio di un momento esponenziale.
--------------------------------------------------------------------------------
INTELLIGENZA E AZIONE
Andiamo ad esplorare la trasformazione che stiamo vivendo attraverso due macro
aree: intelligenza, e azione.
INTELLIGENZA
Oggi l’AI supera già le capacità umane in molti compiti specifici, come il gioco
strategico, la ricerca scientifica, la diagnosi medica, le traduzioni.. e molto
altro.
QUALCHE ESEMPIO?
1) La nuova versione multimodale del sistema di AI diagnostica di Google (AMIE)
ha superato i medici di base su 29 delle 32 caratteristiche cliniche valutate da
specialisti e su 7 delle 9 scale dedicate alla gestione dei dati visivi (come
foto della pelle, ECG e documenti clinici), dimostrando capacità superiori anche
in empatia e accuratezza diagnostica secondo attori-pazienti e medici
specialisti.
AMIE gains vision: A research AI agent for multimodal diagnostic dialogue
2) Un sistema di AI sviluppato da MIT e Harvard ha scoperto una nuova classe di
antibiotici attivi contro batteri resistenti e selettivi per le cellule umane,
dimostrando efficacia in modelli animali e superando i metodi tradizionali
grazie a spiegazioni chimiche interpretabili — una conferma che l’apprendimento
profondo spiegabile può rivoluzionare la scoperta di farmaci, identificando una
delle poche nuove classi di antibiotici emerse negli ultimi 60 anni.
Discovery of a structural class of antibiotics with explainable deep learning -
Nature
An explainable deep learning model using a chemical substructure-based approach
for the exploration of chemical compound libraries identified structural classes
of compounds with antibiotic activity and low toxicity.
NatureFelix Wong
3) Il sistema AlphaDev di DeepMind ha scoperto nuovi algoritmi di ordinamento
che superano gli standard umani in efficienza, portando all’integrazione di
queste soluzioni nella libreria C++ standard di LLVM per la prima volta in oltre
un decennio.
Faster sorting algorithms discovered using deep reinforcement learning - Nature
Artificial intelligence goes beyond the current state of the art by
discovering unknown, faster sorting algorithms as a single-player game using a
deep reinforcement learning agent. These algorithms are now used in the standard
C++ sort library.
NatureDaniel J. Mankowitz
CONVERSAZIONE E RAGIONAMENTO
La macchina oggi è già in grado di conversare in modo indistinguibile dagli
esseri umani, e di produrre dei ragionamenti.
Un recente paper mostra come GPT-4.5 di OpenAI ha superato il Test di Touring
(per quanto possa essere ancora considerato interessante): chi ha fatto il test
era più propenso a credere che il modello fosse umano, rispetto agli altri
partecipanti umani.
Large Language Models Pass the Turing Test
We evaluated 4 systems (ELIZA, GPT-4o, LLaMa-3.1-405B, and GPT-4.5) in two
randomised, controlled, and pre-registered Turing tests on independent
populations. Participants had 5 minute conversations simultaneously with another
human participant and one of these systems before judging which conversational
partner they thought was human. When prompted to adopt a humanlike persona,
GPT-4.5 was judged to be the human 73% of the time: significantly more often
than interrogators selected the real human participant. LLaMa-3.1, with the same
prompt, was judged to be the human 56% of the time -- not significantly more or
less often than the humans they were being compared to -- while baseline models
(ELIZA and GPT-4o) achieved win rates significantly below chance (23% and 21%
respectively). The results constitute the first empirical evidence that any
artificial system passes a standard three-party Turing test. The results have
implications for debates about what kind of intelligence is exhibited by Large
Language Models (LLMs), and the social and economic impacts these systems are
likely to have.
arXiv.orgCameron R. Jones
--------------------------------------------------------------------------------
PAPPAGALLI STOCASTICI?
Dal 2021, grazie a un noto paper dal titolo "On the Dangers of Stochastic
Parrots: Can Language Models Be Too Big?", continuiamo a ripeterci che i Large
Language Model sono dei "semplici" pappagalli stocastici, che non comprendono né
ragionano, ma semplicemente riaggregano sequenze statisticamente probabili di
parole basate su dati di addestramento.
Paper molto più recenti, però, dimostrano che non si limitano a "rigurgitare"
informazioni apprese durante il training, ma possono formulare inferenze
predittive originali.
Large language models surpass human experts in predicting neuroscience results -
Nature Human Behaviour
Large language models (LLMs) can synthesize vast amounts of information. Luo et
al. show that LLMs—especially BrainGPT, an LLM the authors tuned on the
neuroscience literature—outperform experts in predicting neuroscience results
and could assist scientists in making future discoveries.
NatureXiaoliang Luo
Per non parlare dei progressi ottenuti dalle moderne tecniche di "reasoning",
che hanno portato a enormi progressi nei test psicometrici (che vengono usati
per capire le capacità cognitive dei modelli), anche se rimangono aperte molte
sfide.
VERSO UN'INTELLIGENZA ARTIFICIALE GENERALE (AGI)
Il lavoro che i leader tecnologici stanno facendo sui loro modelli, ad esempio
Google DeepMind con Gemini, è orientato a fare passi in avanti verso la
cosiddetta AGI (Artificial General Intelligence). Un’AI in grado di superare le
capacità dell'essere umano non solo su compiti specifici, ma su diversi piani:
su tutti i compiti che normalmente svolgiamo.
Basteranno le tecnologie odierne per raggiungere questi obiettivi? Yann LeCun
(Meta), ad esempio, pensa che serviranno ulteriori sviluppi e architetture.. e,
a questo proposito, ha recentemente presentato V-JEPA 2: un modello che impara a
comprendere e prevedere il mondo costruendo rappresentazioni astratte, invece di
limitarsi a prevedere parole o pixel.
Introducing V-JEPA 2
Video Joint Embedding Predictive Architecture 2 (V-JEPA 2) is the first world
model trained on video that achieves state-of-the-art visual understanding and
prediction, enabling zero-shot robot control in new environments.
Ma anche Google DeepMind sta lavorando su questi concetti. Infatti, un
recentissimo paper di Silver e Sutton si intitola proprio “Welcome to the Era of
Experience”, che delinea il raggiungimento di AGI allo stesso modo: un’AI che
apprenderà dall’esperienza diretta.. in uno stream continuo di dati reali o
simulati, e non da episodi brevi e scollegati (token e pixel).
Vai al paper
--------------------------------------------------------------------------------
AZIONE
Per “azione”, mi riferisco ai concetti di Agentic AI e Physical AI.
Gli Agents sono infrastrutture che consentono alle applicazioni basate su
modelli AI di interagire con sistemi esterni, attraverso API dedicate e nuovi
protocolli come MCP (Model Context Protocol), e di compiere azioni.
> E ormai, esistono server MCP per connettere agenti a qualunque applicazione
> esterna.
GitHub - modelcontextprotocol/servers: Model Context Protocol Servers
Model Context Protocol Servers. Contribute to modelcontextprotocol/servers
development by creating an account on GitHub.
GitHubmodelcontextprotocol
Visa sta addirittura sviluppando Intelligent Commerce, che permetterà agli
agenti di acquistare direttamente per conto nostro.
Visa - Intelligent Commerce
> Nel prossimo futuro, l'AI diventerà sempre di più un mediatore non solo delle
> nostre scelte, ma anche delle nostre azioni.
--------------------------------------------------------------------------------
PHYSICAL AI
> E se i modelli di AI potessero produrre come output non solo testo o chiamate
> API, ma anche azioni fisiche?
Questi robot sono controllati da Gemini Robotics: una versione evoluta del
modello Gemini, lo stesso che usiamo nella chat di Google. Ma invece di
restituire solo risposte testuali, interpreta immagini e istruzioni e le
trasforma direttamente in azioni nel mondo reale: afferrare oggetti, piegare
carta, versare liquidi.
Gemini Robotics: azioni robotiche guidate da istruzioni vocali
> È questo che intendiamo per Physical AI: l’intelligenza artificiale che non
> solo "pensa", ma agisce nel mondo fisico.
Questo è un altro esempio, un robot umanoide di Boston Dynamics, che si muove
nello spazio e svolge mansioni autonomamente.
Un robot umanoide autonomo di Boston Dynamics
Robot che possono essere addestrati direttamente mostrando loro le mansioni da
svolgere. Questo è Gr00t N1 di Nvidia, un sistema che parte dalla dimostrazione
di azioni svolte da un essere umano, usa un ambiente virtuale di simulazione per
produrre enormi quantità di dati sintetici, con i quali viene addestrato il
robot, che sarà poi in grado di agire autonomamente.
Gr00t N1 di Nvidia
--------------------------------------------------------------------------------
Due anni fa si diffuse online questa immagine..
Hey ChatGPT, finish this building...
> Oggi, probabilmente, ci fa ancora sorridere, ma non sembra più uno scenario
> così lontano e improbabile.
--------------------------------------------------------------------------------
UN MOMENTO "POPCORN"
Forse, dopo questo piccolo percorso, è un po' più chiaro perché dicevo che siamo
in un “momento popcorn”.. ovvero in un inizio di trasformazione esponenziale.
Il grande tema è che dobbiamo agire prima possibile per poterlo gestire al
meglio.
> Perché se non mettiamo il coperchio alla padella appena buttiamo il mais,
> presto ci ritroveremo con la cucina che sarà un completo disastro.
COME GESTIRE LA TRASFORMAZIONE
Quali sono gli "ingredienti" della "ricetta" che ci permetterà di gestire la
trasformazione che stiamo vivendo? Ho provato a sintetizzarli, suddividendoli
per "attori coinvolti".
1) LE PERSONE: OGNUNO DI NOI
* Dobbiamo diventare consapevoli prima possibile di questa trasformazione.
Come? Usando la tecnologia (ormai abbiamo mille possibilità di farlo), per
comprenderne il potenziale.
* Dobbiamo alzare l’asticella della dinamicità in ambito lavorativo, perché
quello che ci viene richiesto oggi è un continuo sviluppo di nuove
competenze: legate all’AI, ma anche complementari.
> Le soft skill diventano sempre più hard.
2) LE AZIENDE
* Oggi sentiamo parlare dell'adozione di strategie “AI-first”.. con
affermazioni forti da parte di importanti aziende tecnologiche. Che
successivamente fanno marcia indietro, per poi provare ad accelerare
nuovamente: è chiaro che siamo in un momento di transizione..
* ..e in un momento di transizione, diventano fondamentali percorsi di
re-skilling e up-skilling strategici, per facilitare la dinamicità che viene
richiesta alle persone, e una pianificazione accurata per evitare il rischio
di effettuare scelte troppo brusche che possono diventare dannose nel lungo
periodo.
3) LE ISTITUZIONI
Dovranno mettere l’ingrediente della governance, attraverso:
* politiche e strategie per preparare la società a un mondo che sarà diverso, e
non solo in ambito lavorativo;
* la gestione dello sviluppo tecnologico, per regolarne l’integrazione nella
società in modo che sia sostenibile.
4) I LEADER TECNOLOGICI
Dovranno lavorare sulla trasparenza e l’interpretabilità per i modelli che
sviluppano, in modo da renderli usabili in ogni settore, eliminando o riducendo
le "zone grigie" che caratterizzano queste tecnologie.
Tutti i leader stanno lavorando a questo ingrediente, e Dario Amodei, CEO di
Anthropic ne parla in un post molto interessante.
Dario Amodei — The Urgency of Interpretability
Inoltre, Anthropic ha anche condiviso recentemente uno strumento open source che
traccia i circuiti interni dei LLM per individuare il processo che determina
l’output.
Open-sourcing circuit-tracing tools
Anthropic is an AI safety and research company that’s working to build reliable,
interpretable, and steerable AI systems.
--------------------------------------------------------------------------------
> Questa è la ricetta.. e ci fa capire un concetto importante.. ovvero che il
> cambiamento è, e rimarrà sempre, un’impresa comune.
Come gestire la trasformazione: la ricetta
--------------------------------------------------------------------------------
LA SCELTA È NOSTRA
Il progresso tecnologico non si fermerà, e il nostro mais, nella padella
rovente, scoppierà.
> Sta a noi, collettivamente, attraverso delle scelte consapevoli, far sì che
> possiamo gustarci i popcorn serenamente sul divano.. invece di dover passare
> tutta la serata a ripulire la cucina.
- GRAZIE -
Se hai apprezzato il contenuto, puoi
contribuire al progetto con una donazione 🙂
ISCRIVITI ALLA NEWSLETTER
Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su
tematiche relative all'intelligenza artificiale.
Iscriviti alla Newsletter
Email sent! Check your inbox to complete your signup.
Gratuita. No Spam. Puoi disiscriverti quando vuoi.
Consulta la privacy policy.
> Buon aggiornamento, e buone riflessioni..
--------------------------------------------------------------------------------
TEDX BERGAMO: POTERE
Il 25 maggio avrò l'onore di essere sul palco di TEDx Bergamo 2025, e il tema
centrale sarà "POTERE".
> "POTERE" è la capacità di generare cambiamento. Attraverso l’AI, possiamo
> affrontare sfide globali e aprire strade inedite. Ma c’è un potere ancora più
> intimo e umano: quello di comprendere la trasformazione per decidere come
> viverla e in quale direzione guidarla.
> - Alessio Pomaro
Vai ai Biglietti
--------------------------------------------------------------------------------
WELCOME TO THE ERA OF EXPERIENCE
Un paper (da leggere) in cui i ricercatori di Google DeepMind invitano a
ripensare l'AI:
> non come una copia dell’intelligenza umana, ma come un sistema autonomo che
> impara, pianifica e agisce nel mondo reale.
L'era dell'esperienza permetterà di superare i limiti dell’imitazione e
raggiungere capacità realmente superumane?
Secondo Silver e Sutton, la dipendenza dai dati umani (supervisionati o
preferenziali) sta mostrando i suoi limiti. L’AI ha bisogno di nuovi stimoli,
non più statici, ma dinamici, generati attraverso l’interazione continua con
ambienti reali o simulati.
Gli agenti del futuro non vivranno più in episodi brevi e scollegati, ma in
"stream" di esperienza continua, adattandosi nel tempo e perseguendo obiettivi
di lungo termine. Le ricompense non arriveranno da valutazioni umane, ma da
segnali concreti e misurabili dell’ambiente: salute, apprendimento, scoperta
scientifica.
Non si tratta solo di efficienza, ma di visione. Uscire dal recinto del pensiero
umano, imparare dal mondo, e scoprire strategie o conoscenze che ancora non
esistono.
Vai al paper
> Un salto evolutivo, non solo tecnologico.
--------------------------------------------------------------------------------
LA SPIEGABILITÀ DEI MODELLI DI AI
Com'è noto, Anthropic sta facendo un grande lavoro sulla spiegabilità dei
modelli di AI, condividendo paper e promuovendo delle riflessioni fondamentali.
Il post pubblicato da Dario Amodei richiama con urgenza l'importanza di capire
il funzionamento interno dei modelli prima che diventino troppo potenti. Un
invito ad agire per chiunque lavori sull'AI o abbia a cuore il futuro della
tecnologia, toccando anche argomenti delicati che riguardano la geopolitica ("I
believe that democratic countries must remain ahead of autocracies in AI").
Anche se sembra una mossa ovvia da parte di chi possiede più esperienza di tutti
in quest'ambito (e non possiede il modello più potente), ritengo sia un
documento molto interessante per avere consapevolezza sull'argomento.
Ho provato a sintetizzare i punti principali.
* Amodei racconta come, in dieci anni di lavoro sull'AI, il settore sia passato
da un ambito accademico a una delle questioni più decisive per il futuro
dell'umanità. Anche se l’avanzamento è inarrestabile, possiamo influenzarne
la direzione. Oggi, la vera sfida è l'interpretabilità: capire come
funzionano internamente i sistemi prima che diventino troppo ampi per essere
controllati.
* L'AI generativa prende decisioni che non sappiamo spiegare: a differenza del
software tradizionale, i suoi meccanismi interni emergono spontaneamente,
rendendo difficile prevedere o correggere i comportamenti indesiderati.
* Questa opacità alimenta rischi concreti, come comportamenti ingannevoli o usi
pericolosi. Inoltre, senza spiegazioni comprensibili, l'AI non può essere
applicata in settori critici come finanza o medicina. Se riuscissimo a
"guardare dentro" ai modelli, potremmo prevenire errori e abusi.
* Negli ultimi anni è nata l'interpretabilità meccanicistica, grazie a pionieri
come Chris Olah. Dai primi studi sui modelli visivi si è passati a quelli
linguistici, scoprendo milioni di concetti nascosti, anche se sovrapposti e
complessi. Tecniche come gli autoencoder sparsi stanno aiutando a mappare e
manipolare questi concetti, rendendo visibili anche i "ragionamenti"
attraverso circuiti interni.
* Nonostante i progressi, resta la sfida pratica: applicare l'interpretabilità
per individuare e correggere "difetti" reali nei modelli. Esperimenti interni
mostrano che è possibile.
* Amodei conclude affermando che siamo in una corsa tra l'avanzamento dell'AI e
la nostra capacità di interpretarla. Per vincere, serve: investire nella
ricerca, promuovere la trasparenza, adottare misure geopolitiche.
Vai al post
> Capire i nostri modelli prima che trasformino il mondo è una responsabilità
> che non possiamo rimandare.
--------------------------------------------------------------------------------
AGENTIC AI: UN WEBINAR DI STANFORD
Stanford ha pubblicato un'interessante lezione che riepiloga il funzionamento
dei LLM e arriva fino agli AI Agent.
Agentic AI: un webinar di Stanford
I punti salienti..
* LLM Base: modelli che predicono i token successivi. Addestrati su enormi
testi (pre-training), poi affinati (fine-tuning con SFT/RLHF) per seguire
istruzioni e preferenze umane.
* Limiti dei LLM: possono "allucinare" (dare informazioni errate), hanno
conoscenza limitata nel tempo (knowledge cutoff), non citano fonti, non
accedono a dati privati/real-time e hanno un contesto limitato.
* RAG: fornisce contesto esterno rilevante (da documenti/DB) al LLM per
risposte più accurate e aggiornate.
* Tool Usage: permette ai LLM di usare API esterne o eseguire codice per
accedere a dati real-time o fare calcoli.
* Agentic AI: l'evoluzione dei LLM. Non solo testo, ma sistemi che: ragionano e
pianificano (scompongono compiti), agiscono (usano RAG e Tools per interagire
con l'ambiente), osservano (ricevono feedback dalle loro azioni) iterano (si
adattano in un ciclo azione-osservazione-pianificazione).
* Pattern Agentici, per costruire agenti efficaci: pianificazione, riflessione
(auto-correzione), utilizzo di strumenti e collaborazione multi-agente (più
agenti specializzati).
> In breve, l'Agentic AI combina il ragionamento dei LLM con l'azione nel mondo
> esterno, permettendo di affrontare compiti molto più complessi e interattivi.
--------------------------------------------------------------------------------
"STOP & THINK" DI ANTHROPIC SU UN AGENT DI OPENAI CON O3
In questo esempio ho implementato la dinamica di "Stop & Think" definita da
Anthropic su un Agent di OpenAI, basato su o3.
In pratica, il sistema è configurato per eseguire un task estraendo i dati
necessari attraverso "function calling". Una volta ottenuti i dati, prima di
restituire l'output, usa una funzione di "reasoning", la quale sfrutta il
modello per mettere in atto delle catene di pensiero che verificano i dati,
creano il miglior piano d'azione per procedere, e controllano la conformità in
base alle richieste. Se è tutto conforme, procede con l'output, altrimenti
ripete le operazioni, finché il controllo sarà positivo (o fino al
raggiungimento del numero massimo delle interazioni consentite).
Una dinamica davvero interessante per migliorare la qualità dell'output.
"Stop & Think" di Anthropic su un Agent di OpenAI con o3
> Il porting del codice di Anthropic per usare i modelli di OpenAI sul mio
> esempio è stato generato interamente con Gemini 2.5 Pro. Il modello ha
> prodotto tutto il codice partendo dall'esempio fornito da Anthropic + il
> prompt che usavo in precedenza nel mio progetto, che eseguiva l'operazione in
> un'unica azione.
--------------------------------------------------------------------------------
OPENAI ACADEMY
OpenAI ha lanciato ufficialmente l'AI Academy: una piattaforma formativa
gratuita pensata per chi vuole portare l’AI dal laboratorio alla realtà
operativa.
OpenAI Academy
I contenuti sono pensati per l’uso pratico: automazioni, agenti AI, pipeline con
GraphRAG, Q&A su documenti, integrazioni reali con diversi modelli.
Vai all'Academy
TRA I PUNTI FORTI
* Live coding sessions
* Prompt engineering, fine-tuning, RAG, multimodalità
* Esempi di codice commentato per API, automazioni e gestione dati
* Percorsi ideali per chi è agli inizi o ha esperienza intermedia
--------------------------------------------------------------------------------
LE NOVITÀ DI NOTEBOOKLM DI GOOGLE
Google introduce due novità molto interessanti su NotebookLM.
1) RICERCA ONLINE
Ora è possibile descrivere un argomento e ottenere una selezione di fonti
rilevanti dal web, già riassunte dall'IA e integrabili con un clic al notebook.
La ricerca online su NotebookLM di Google
La nuova funzione "Carica Origini", alimentata da Gemini, permette di
approfondire rapidamente qualsiasi tema e integrarlo con strumenti come
briefing, FAQ e Audio Overviews.
Ho provato lo strumento, e credo sia una funzionalità fantastica per esplorare
gli argomenti. Ho inserito il topic, selezionato le fonti tra quelle suggerite,
fatto richieste, generato note, creato un podcast interattivo.
Vai al post
> Ho detto spesso che l'integrazione dell'AI nel suo ecosistema è la vera forza
> di Google. Verissimo, ma ora hanno anche il modello più performante.
2) AUDIO OVERVIEWS ANCHE IN ITALIANO
Audio Overviews diventa disponibile in più di 50 lingue.
L'italiano è tra queste, e l'ho provato su un notebook che ha come fonte
l'ultimo post di Dario Amodei sull'importanza dell'interpretabilità dell'AI.
Il prompt che ho usato è specifico, indicando l'ambito sul quale concentrarsi
maggiormente.
Audio Overviews in italiano: un test
> Il risultato? Per me è incredibile. Una risorsa davvero interessante.
> Immaginiamo solo la potenzialità per l'aggiornamento personale nelle
> connessioni dei concetti su larga scala.
--------------------------------------------------------------------------------
NON PUÒ ESISTERE LA FIGURA DEL PROMPT ENGINEER
Il WSJ ha condiviso dei dati su un concetto che ho sempre sostenuto: non può
esistere la figura del "prompt engineer". E non si tratta di obsolescenza di una
professione, ma di consapevolezza di un miraggio.
Il WSJ sulla figura del prompt engineer
La motivazione che danno nell'articolo, però, è solo parzialmente centrata. Non
è solo questione di avanzamento dei LLM nella comprensione delle richieste in
linguaggio naturale.
> Il fatto è che la capacità di ottenere l'output desiderato da un agente basato
> sull'AI è una competenza trasversale che potenzia delle hard skill. Se non si
> possiedono quelle hard skill, nessun "mago del prompt" potrà ottenere
> risultati avanzati necessari in ambito professionale.
Vai al post
--------------------------------------------------------------------------------
PROMPT ENGINEERING: IL PAPER DI GOOGLE
Google ha pubblicato un interessante documento sul "Prompt Engineering": una
guida sulla creazione di prompt efficaci.
Prompt Engineering: il paper di Google
Non ci sono novità eclatanti, ma di certo un percorso chiaro e ordinato.
Le parti più interessanti riguardano gli approcci Chain of Thought (CoT) e
ReAct.
* CoT è utile per migliorare l'accuratezza facendo sviluppare al LLM un
"ragionamento" logico.
* ReAct è utile per applicazioni che richiedono interazione con fonti esterne o
task complessi.
Vai al paper
--------------------------------------------------------------------------------
OPENAI: 3 GUIDE PRATICHE DEDICATE ALL'AI
1- A PRACTICAL GUIDE TO BUILDING AGENTS
È pensata per chi vuole costruire agenti AI in grado di svolgere task multi-step
in autonomia. Descrive come scegliere i modelli, integrare strumenti e impostare
istruzioni chiare. Spiega modelli di orchestrazione come il "manager agent" o
sistemi decentralizzati, e introduce i "guardrail" per garantire sicurezza,
privacy e intervento umano nei casi critici.
Vai alla guida
2- IDENTIFYING AND SCALING AI USE CASES
Offre un metodo per scoprire e scalare casi d’uso ad alto impatto. Si parte da
sfide comuni come attività ripetitive, colli di bottiglia di competenze e
ambiguità decisionali, e si esplorano sei "primitivi" come content creation,
automazioni e analisi dati. Esempi come Promega, Tinder e BBVA mostrano come
anche attività complesse possano essere trasformate in flussi AI scalabili.
Vai alla guida
3- AI IN THE ENTERPRISE
Raccoglie sette lezioni chiave per adottare l’AI su larga scala. Vengono
presentati esempi concreti come Morgan Stanley, che ha migliorato l’efficienza
dei suoi advisor grazie a valutazioni sistematiche (evals), e Indeed, che ha
potenziato il job matching con GPT-4o mini. Klarna ha implementato un assistente
AI per il customer service, riducendo i tempi di risposta da 11 a 2 minuti. La
guida sottolinea l’importanza di investire presto, personalizzare i modelli, e
mettere l’AI nelle mani degli esperti aziendali.
Vai alla guida
--------------------------------------------------------------------------------
I 30 PAPER DI ILYA SUTSKEVER
> "If you really learn all of these, you’ll know 90% of what matters today".
Con queste parole, Ilya Sutskever (co-founder di OpenAI) condivide quelli che
ritiene i migliori 30 paper che riguardano l'AI.
Vai ai paper
Molti mi hanno chiesto suggerimenti per affrontare questi documenti, non
semplici da consultare.
Un buon aiuto per iniziare potrebbe essere l'utilizzo di NotebookLM di Google.
Nelle immagini si può vedere il mio notebook. Una volta inseriti tutti i
documenti e le pagine web, è possibile creare la mappa mentale interattiva:
cliccando le voci il sistema usa Gemini per estrarre tutte le informazioni
utili.
Il mio notebook con i 30 paper di Ilya Sutskever
Altra idea: attraverso un prompt, ho fatto sviluppare al LLM un corso con una
serie di lezioni che esplorano tutti i concetti in modo sequenziale e connesso
(con riferimenti alle fonti).
> Mi piacerebbe condividerlo, ma NotebookLM non permette di farlo attraverso un
> link, e ha politiche molto restrittive per gli utenti. Tuttavia è realizzabile
> in modo semplice.
--------------------------------------------------------------------------------
SHOPPING SU CHATGPT?
OpenAI migliora l'esperienza di shopping su ChatGPT, con risultati migliorati,
dettagli dei prodotti, prezzi e recensioni, con i link diretti per l'acquisto.
La funzionalità è in fase di rilascio.
0:00
/0:25
1×
Shopping su ChatGPT
Un upgrade interessante, anche se l'esperienza di Google Shopping (soprattutto
negli USA) è difficilmente eguagliabile.
Tenendo conto anche del fatto che questi dati non sono interfacciati con i feed
degli e-commerce. Nella documentazione parlano di "structured metadata from
third-party providers", ma non è ben chiaro il processo: di certo non potrà
essere strutturato come quello di Google.
--------------------------------------------------------------------------------
NUOVI MODELLI PER OPENAI
GPT-4.1
Il nuovo modello (senza "reasoning") più potente, veloce ed economico, ideale
per coding, gestione dei contesti lunghi (1M di token) e per l'aderenza a
precise istruzioni. E, come previsto, GPT-4.5 verrà dismesso a luglio.
L'ho provato su diversi task (le immagini riportano qualche esempio): logica,
matematica, coding, elaborazione di file lunghi, generazione di dati strutturati
da contenuti non strutturati, analisi del testo, generazione di testo con
precise istruzioni.
GPT-4.1 di OpenAI: test
Le impressioni sono ottime. Due note.
1. Con un singolo prompt (senza interazioni successive) ho realizzato un
piccolo software con interfaccia grafica che raccoglie una serie di utility
per i PDF (estrazione di pagine, compressione, conversione in immagini,
rotazione, unione).
2. Da diversi test svolti nei mesi scorsi, su prompt con tantissime istruzioni,
avevo sempre trovato GPT-4 migliore rispetto alla versione "o". Finalmente
il 4.1 supera quel limite.
Qualche dettaglio sul modello..
La nuova famiglia GPT-4.1 include tre versioni: Standard, Mini e Nano.
Il modello non solo supera GPT-4o nei benchmark più rilevanti, ma in molti casi
va oltre anche GPT-4.5, motivo per cui quest’ultimo verrà ritirato. È più
preciso nei compiti multi-turno, più affidabile nei formati richiesti, e
significativamente più performante nello sviluppo software (con +21% su
SWE-bench).
È pensato esclusivamente per l’uso via API: in ChatGPT, molte delle sue
migliorie sono già confluite in GPT-4o e continueranno a essere integrate.
Grazie a ottimizzazioni nel sistema di inferenza, GPT-4.1 è anche più economico
del 26% rispetto a GPT-4o, mentre Nano è il modello più economico e rapido mai
rilasciato.
Vai al post
> Anche OpenAI, come Google, dimostra l'avanzamento in termini di efficienza,
> dopo il passo falso della versione 4.5.
O3 E O4-MINI + CODEX CLI
OpenAI ha presentato i nuovi modelli o3 e o4-mini (con avanzamenti della fase di
reasoning), e ha lanciato Codex CLI (un AI Agent open-source).
Ho provato o3 in diversi task: coding, generazione di testo, analisi dei dati,
ricerca online, logica, matematica, istruzioni complesse, analisi delle
immagini, e in un sistema multi-agent via API.
o3 e o4-mini + Codex CLI: test
* Sul coding, è molto performante: ho realizzato un'applicazione locale
(Python) con interfaccia grafica che converte un gruppo di immagini in tutti
i formati, con resize e gestione della qualità, funzionante alla prima
esecuzione.
* Fantastici la ricerca online e code interpreter in fase di reasoning, perché
sono dinamici in base al flusso di ragionamento.
* Ho provato anche Codex CLI, un agente AI per il terminale che consente di
scrivere codice, navigare file, interpretare immagini e interagire con il
computer in modo multimodale e controllato. Nel test, entro in una directory
e faccio sintetizzare al modello un PDF locale. Una funzionalità davvero
interessante.
o3 è il modello più potente, dedicato a compiti complessi come coding,
matematica, e ragionamento visivo. o4-mini, invece, offre prestazioni
sorprendentemente elevate in rapporto a dimensioni e costi, risultando ideale
per usi ad alto volume di richieste.
Entrambi possono usare l’intera suite di strumenti di ChatGPT: ricerca web, code
interpreter, generazione e modifica immagini, function calling e tool
personalizzati. Per la prima volta, ragionano anche sulle immagini: le usano
come parte integrante della catena di pensiero, sbloccando nuove modalità di
problem solving.
Le performance: o4-mini raggiunge il 93,4% di accuratezza su AIME 2024 e 2719
ELO su Codeforces. o3 ottiene 83,3% su GPQA (domande da PhD), 86,8% su
MathVista, 78,6% su CharXiv, e domina nei task di software engineering,
superando ampiamente i predecessori.
La sicurezza è stata potenziata con nuovi sistemi di rifiuto delle richieste,
rilevamento di prompt rischiosi e test rigorosi: entrambi i modelli restano
sotto le soglie critiche su tutti i fronti (biochimica, cybersecurity,
auto-miglioramento AI).
Vai al post
--------------------------------------------------------------------------------
UN TEST DI CODEX CLI
> Codex CLI di OpenAI: l'ho provato con o3, ed è una bomba!
Il dettaglio dei test che si vedono nel video..
1. Entro nella directory di un'applicazione, avvio Codex e mi faccio spiegare
la codebase. Successivamente, chiedo all'agente di modificare l'app e
inserire il bottone per la "dark mode". Il sistema edita direttamente i
file, ed esegue tutto perfettamente (nel video si vede anche l'app
modificata). Può gestire anche l'interazione con GitHub autonomamente.
2. Entro in una directory dov'è presente un dataset in CSV. Attraverso un
prompt dettagliato, chiedo all'agente di analizzare i dati, pulirli, e
produrre una pagina web con un report. Non solo lo crea, ma fornisce anche
il Python per aggiornare il report nel caso il dataset cambi.
Un test di Codex CLI di OpenAI
Cos'è Codex CLI? Si tratta di un AI Agent open source che funziona in locale,
sfruttando qualunque modello di OpenAI. Consente di scrivere codice, navigare
file, interpretare immagini e interagire con il computer in modo multimodale e
controllato.
--------------------------------------------------------------------------------
DISPONIBILITÀ GENERALE PER VEO 2 DI GOOGLE
È già usabile via API, e chiaramente su AI Studio.
Veo 2: un test su AI Studio
Nel video si vedono due esempi di "image to video" e uno di "text to video".
Nei due esempi di "image to video", le immagini sono state generate con il
modello di OpenAI, in modo da essere coerenti. Usando Veo per animarle, si
possono creare due clip da montare per un unico video.
Vai al post
--------------------------------------------------------------------------------
TEST: UN'APPLICAZIONE CON GEMINI 2.5 PRO
Un esempio di generazione di un'applicazione da prompt testuale con Gemini 2.5
Pro: semplice, ma funzionante alla prima esecuzione!
Ho chiesto al modello di creare un'applicazione che permette di caricare un file
audio o video, e che produce la trascrizione con separazione degli speaker
usando le API di Gemini (con download del TXT completo alla fine del processo).
Il sistema ha prodotto un'applicazione basata su Flask, con la struttura delle
directory, HTML, Python, requirements e il file "env" per le API key.
Dopo aver avviato il server Flask, l'applicazione funziona via browser.
Test: un'applicazione con Gemini 2.5 Pro
> È semplice, ma ho impiegato più tempo a produrre il video rispetto a un
> sistema utile e funzionante, senza errori da gestire.
--------------------------------------------------------------------------------
LE NOVITÀ NEL WORKSPACE DI GOOGLE
Con uno dei migliori modelli di AI a disposizione, e un ecosistema che fa già
parte della quotidianità di un'enorme insieme di utenti, Google rilascia le
nuove funzionalità per Workspace.
La nuova ondata di strumenti basati su Gemini mira a migliorare concretamente
l’efficienza aziendale: automazioni avanzate con Workspace Flows, assistenti
intelligenti nei documenti, analisi dei dati semplificata e la possibilità di
generare contenuti audio e video direttamente dalle app Workspace.
* Workspace Flows usa agenti AI personalizzati (Gems) per gestire processi
multi-step con logica e contesto, senza bisogno di codice. In pratica, si
potranno creare flussi e automazioni che coinvolgono azioni di ogni software
di Workspace.
Google Workspace Flows
* Docs introduce la lettura audio dei testi e la funzione "Help me refine" per
migliorare la scrittura in modo evoluto. Il Canvas di ChatGPT direttamente su
Google Docs.
* Sheets include "Help me analyze", un analista AI sempre disponibile per
scoprire insight nascosti nei dati. I più attenti avranno notato che è già
disponibile su Colab.
* Google Vids si potenzia con Veo2, generando video realistici direttamente
dall'app.
* Google Meet e Chat diventano ancora più smart con riepiloghi, note
automatiche e suggerimenti in tempo reale.
Vai al post
> L'integrazione e l'accelerazione di Google.. si prepara a diventare
> irraggiungibile?
--------------------------------------------------------------------------------
UN AGENT BUILDER PER POSTMAN
Postman ha presentato il suo AI Agent builder.
Un sistema che permette di creare agenti basati su LLM, che possono usare una
rete di oltre 100k API pubbliche.
Il tutto attraverso un'interfaccia drag & drop.
0:00
/0:13
1×
Un Agent Builder per Postman
Vai al progetto
> La prototipazione di applicazioni diventa sempre più agile.
--------------------------------------------------------------------------------
GROK STUDIO
xAI ha rilasciato Grok Studio, con la possibilità di eseguire il codice generato
e il supporto a Google Drive.
Grok Studio: un test
È molto simile a Canvas su ChatGPT, ma la funzionalità di generazione report da
un foglio dati è fantastica.
La connessione a Google Drive è comoda, e permette di creare dei Workspace
importando direttamente i file.
> L'editor di ChatGPT è migliore, ma la generazione dei report è vincente.
--------------------------------------------------------------------------------
LE API DI GROK 3
La "guerra dei prezzi" delle API dei LLM continua: xAI rilascia le API di Grok3
mini.
In base ai dati diffusi, sembra che il modello superi diversi modelli di
reasoning in diversi benchmark, con un prezzo di 5 volte inferiore.
Le API di Grok 3
ALCUNI DETTAGLI
* Grok 3 Mini guida le classifiche su test STEM avanzati, matematica e coding,
superando modelli flagship 20 volte più costosi.
* È 5 volte più economico di qualsiasi altro modello di reasoning sul mercato.
* Ogni risposta API include l’intero "reasoning trace", grezzo e non filtrato.
Vai alla documentazione
--------------------------------------------------------------------------------
AI INDEX REPORT 2025
Stanford ha pubblicato l'AI Index Report 2025.
AI Index Report 2025
> L’intelligenza artificiale evolve rapidamente, trasformando società ed
> economia, tra progressi straordinari, investimenti globali e sfide ancora
> aperte.
UNA SINTESI DEI TAKE AWAY DEL REPORT
1. Le prestazioni dell’AI migliorano rapidamente nei benchmark avanzati.
I modelli AI hanno fatto grandi progressi su nuovi benchmark complessi come
MMMU, GPQA e SWE-bench, superando anche le performance umane in alcuni
compiti di programmazione.
2. L’AI è sempre più presente nella vita quotidiana.
L’intelligenza artificiale è ormai diffusa in settori come la sanità e i
trasporti, con dispositivi medici approvati e robotaxi operativi su larga
scala.
3. Le aziende puntano tutto sull’AI, trainando investimenti record.
Gli investimenti privati negli Stati Uniti hanno raggiunto 109 miliardi di
dollari nel 2024, con una crescita d’uso nelle aziende e prove sempre più
solide del suo impatto positivo sulla produttività.
4. Gli Stati Uniti guidano, ma la Cina riduce il divario qualitativo.
Gli USA producono più modelli AI di punta, ma la Cina li sta rapidamente
raggiungendo in termini di qualità, mantenendo il primato per pubblicazioni
e brevetti.
5. L’ecosistema dell’AI responsabile si evolve, ma in modo disomogeneo.
Aumentano gli incidenti legati all’AI, mentre le valutazioni standardizzate
sono ancora rare. I governi mostrano maggiore impegno con nuove linee guida
sulla trasparenza e sicurezza.
6. L’ottimismo globale verso l’AI cresce, ma con forti differenze regionali.
Paesi asiatici mostrano un forte ottimismo verso l’AI, mentre Stati Uniti,
Canada ed Europa restano più scettici, sebbene con segnali di
miglioramento.
7. L’AI diventa più efficiente, economica e accessibile.
I costi per far girare modelli potenti sono crollati, mentre l’efficienza
energetica è aumentata. I modelli open-source stanno colmando rapidamente
il divario con quelli chiusi.
8. I governi aumentano regolamentazione e investimenti sull’AI.
Nel 2024 le normative sull’AI sono raddoppiate negli USA e cresciute a
livello globale, accompagnate da investimenti miliardari in vari paesi per
sostenere l’innovazione.
9. L’educazione all’AI cresce, ma persistono disuguaglianze.
Sempre più paesi offrono educazione informatica K-12, ma permangono
barriere infrastrutturali, soprattutto in Africa, e molti insegnanti non si
sentono pronti a insegnare l’AI.
10. L’industria domina lo sviluppo AI, ma la competizione si intensifica.
La quasi totalità dei modelli più avanzati proviene dall’industria.
Tuttavia, la differenza di prestazioni tra i migliori modelli si sta
riducendo, segno di una frontiera sempre più affollata.
11. L’AI riceve riconoscimenti scientifici di massimo livello.
Nel 2024 l’AI è stata protagonista di premi Nobel e del Turing Award,
evidenziando il suo impatto decisivo nella scienza, dalla fisica al
ripiegamento proteico.
12. Il ragionamento complesso resta una sfida.
Nonostante i successi in compiti avanzati, i modelli AI faticano ancora con
il ragionamento logico e la risoluzione di problemi complessi in contesti
critici.
Vai al report
--------------------------------------------------------------------------------
WORK TREND INDEX 2025 DI MICROSOFT
L'AI sta ridefinendo il lavoro nelle aziende, e Microsoft ne traccia i contorni
nel suo Work Trend Index 2025.
Il rapporto evidenzia come le organizzazioni che adottano l’AI in modo
strutturale — definite "Frontier Firms" — registrano benefici tangibili: il 71%
dei dipendenti afferma che la propria azienda sta prosperando, e l’83% dei
leader riconosce che l’AI contribuisce a una maggiore adozione di compiti
strategici.
In parallelo, Microsoft ha presentato importanti evoluzioni per Copilot,
puntando su un’integrazione sempre più pervasiva dell’AI nei flussi operativi.
Copilot Studio è una nuova piattaforma low-code che consente alle imprese di
costruire agenti intelligenti personalizzati, con memoria, capacità di
pianificazione e integrazione via OpenAPI.
Questi agenti possono operare all’interno delle app Microsoft 365 e connettersi
a sistemi esterni come Jira, Miro o Monday.
Sono stati inoltre lanciati due nuovi agenti nativi — Copilot Researcher e
Copilot Analyst — pensati per attività di ricerca e analisi su larga scala,
capaci di interagire con Word, Excel, Outlook e Teams grazie ai dati real-time
di Microsoft Graph. Il tutto è orchestrato con modelli GPT-4-turbo, in grado di
mantenere il contesto e generare output coerenti e document-aware.
Vai al report
--------------------------------------------------------------------------------
OPEN MANUS: UN TEST
Ho provato Open Manus, il progetto open source che mira a replicare le capacità
dell'Agente Manus AI.
Nel video si vedono diversi task che l'agent (nel mio caso basato su GPT-4o)
svolge in modo autonomo, sfruttando l'automazione del browser, e anche del
computer locale.
Open Manus: un test
Le mie considerazioni: questo tipo di agenti sono davvero molto interessanti, ma
acerbi per essere "liberati" a compiere operazioni autonome online senza
riferimenti specifici.
Vai al progetto
> Ma di certo miglioreranno, e saranno direttamente nel browser, e
> successivamente nei sistemi operativi.
--------------------------------------------------------------------------------
FIREBASE STUDIO DI GOOGLE: UN TEST
Google lancia Firebase Studio, un nuovo IDE open source basato sull’AI che
unisce Project IDX, Genkit e i modelli Gemini in un’unica piattaforma per creare
app full-stack.
L'ho provato: con un prompt testuale ho creato un'applicazione che trasforma un
contenuto in una mappa mentale modificabile. Con altri prompt successivi l'ho
rifinita per ottenere il risultato che avevo in mente.
Firebase Studio di Google: un test
Il cuore del progetto è l’agente di prototipazione, capace di generare app
Next.js complete in pochi secondi non solo da prompt testuali, ma anche da
immagini, annotazioni visuali e schemi. L’ambiente crea UI, backend e
integrazione AI in automatico, con anteprima nel browser, test mobile via QR
code e codice pronto da modificare.
L’IDE web-based, costruito su CodeOSS, offre funzionalità avanzate come modifica
e debug nel browser, terminale integrato, suggerimenti di codice con Gemini e
documentazione automatica. Il tutto gira su una VM configurabile con Nix, con
supporto a oltre 60 modelli ufficiali e l’importazione da GitHub, GitLab e
Bitbucket.
Vai al post
--------------------------------------------------------------------------------
TEST SU AI OVERVIEWS DI GOOGLE
In questo test, in una SERP di Google in cui compare AI Overviews, ho
considerato i contenuti nelle prime 12 posizioni e ho creato un piccolo RAG
usando LangChain, Chroma DB e GPT-4o.
> Inviandolo la query al RAG, ottengo una risposta simile a quella proposta da
> AI Overviews.
Test su AI Overviews di Google: RAG
Chiaramente Google usa anche query correlate ("fan-out") e il Knowledge Graph
per espandere i risultati.
Quindi, il funzionamento l'abbiamo intuito, e possiamo anche pensare di usare
dei modelli per misurare la pertinenza dei contenuti alle query per ragionare
sul "posizionamento" su AI Overviews.
> Chiaramente, il primo step rimane l'essere tra i risultati rilevanti, che
> rappresentano la knowledge a disposizione del "RAG".
COME ESSERE PRESENTI SU AI OVERVIEWS
Per essere presenti nelle fonti delle risposte di AI Overviews (ma in generale
nei sistemi ibridi come ChatGPT, Perplexity, ecc.), vanno considerati due
aspetti.
1. Essere tra i risultati che il sistema prende in considerazione per la query
principale (quella che scriviamo nel campo): tendenzialmente le prime due
pagine dei risultati, compresi PAA e SERP snippet.
2. Intercettare risposte pertinenti (semanticamente vicine) alla query
principale o a quelle secondarie che il motore genera per quel contesto
("fan-out").
> È come ragionare su un sistema RAG, in cui ogni documento è di un'azienda
> diversa.
Test su AI Overviews di Google: query
Per la query "cos'è il CSSOM", ad esempio, il mio contenuto è in seconda pagina
della SERP (è tra i risultati presi in considerazione), e intercetta la risposta
ad una query secondaria ("come si applicano gli stili agli elementi HTML").
Ma se si cerca direttamente la query secondaria, il mio contenuto non è tra le
fonti di AI Overviews, perché il contesto cambia, ed esistono molte fonti più
rilevanti per questa query.
Per la query "cosa sono i priority hints", il mio risultato è primo su Google,
ma non compare tra le fonti di AI Overviews. Misurando la pertinenza semantica
del mio contenuto con un algoritmo, infatti, risulta inferiore a quella dei
risultati che invece compaiono.
> Si tratta di un sottile equilibrio, non semplice da gestire e da controllare.
--------------------------------------------------------------------------------
AGENT2AGENT (A2A) E AGENT DEVELOPMENT KIT (ADK) DI GOOGLE
Google presenta Agent2Agent (A2A), un protocollo aperto per l'interoperabilità
tra agenti AI, sviluppato in collaborazione con oltre 50 aziende (es. Atlassian,
MongoDB, PayPal, Salesforce, SAP, Langchain).
A2A consente agli agenti AI, anche se costruiti con tecnologie o da fornitori
diversi, di comunicare, coordinarsi e scambiarsi informazioni in modo sicuro.
È pensato per scenari enterprise complessi: dalla gestione della supply chain
alla selezione del personale, fino all'automazione dei flussi di lavoro interni.
0:00
/1:22
1×
Un esempio concreto: la ricerca dei candidati
Basato su standard diffusi (HTTP, JSON-RPC, SSE), A2A supporta task rapidi o di
lunga durata, anche multimodali (testo, audio, video). Ogni agente può esporre
le proprie capacità tramite una “Agent Card” e collaborare con altri per
completare compiti condivisi, producendo artefatti come risultati finali.
Complementare al Model Context Protocol (MCP) di Anthropic, A2A punta a rendere
gli agenti realmente interoperabili, scalabili e integrabili in ambienti già
esistenti.
Vai al post
> Un passo chiave per costruire un ecosistema in cui gli agenti AI non siano
> strumenti isolati, ma veri colleghi digitali capaci di collaborare in tempo
> reale.
A supporto dello sviluppo di AI agent interoperabili, Google ha rilasciato anche
l’Agent Development Kit (ADK), un toolkit open-source in Python per costruire,
testare e distribuire agenti complessi, modulari e orchestrabili. Con ADK, gli
sviluppatori possono definire logiche, strumenti e workflow direttamente da
codice, integrandoli con Google Cloud, Vertex AI o ambienti locali.
Vai al progetto
--------------------------------------------------------------------------------
PYSPUR: AI AGENT WORKFLOW
PySpur è una nuova libreria open source che consente di creare workflow di AI
Agent attraverso un'interfaccia drag & drop.
0:00
/0:22
1×
PySpur: AI Agent Workflow
Semplifica la creazione, il test e il deploy di agenti, riducendo i tempi di
sviluppo. Si installa in pochi secondi con pip, permette l’aggiunta di tool
personalizzati e l’esportazione degli agenti in JSON.
Vai alla documentazione
--------------------------------------------------------------------------------
GOOGLE IRONWOOD
Google ha presentato Ironwood, la sua settima generazione di TPU (Tensor
Processing Unit), progettata specificamente per l’inferenza nell’era dell’AI
generativa. Ironwood è pensata per gestire modelli di "reasoning", come i LLM e
le Mixture of Experts (MoE), offrendo prestazioni senza precedenti.
TRA LE CARATTERISTICHE PRINCIPALI..
* Fino a 9.216 chip per pod, raggiungendo 42,5 Exaflops, più di 24 volte la
potenza del supercomputer El Capitan.
* Miglioramenti significativi in memoria (192 GB HBM per chip) e velocità di
interconnessione tra chip (1,2 Tbps).
* 2x più efficiente dal punto di vista energetico rispetto alla generazione
precedente (Trillium).
* Supporta carichi di lavoro AI intensivi con alta efficienza e scalabilità.
* Utilizza la piattaforma software Pathways per facilitare l’elaborazione
distribuita su larga scala.
0:00
/0:30
1×
Google Ironwood
Ironwood si inserisce nell’architettura AI Hypercomputer di Google Cloud,
diventando la base per nuovi progressi nel campo dell’AI, tra cui modelli come
Gemini 2.5 e AlphaFold.
Vai al post
> L'infrastruttura hardware sarà il fattore differenziante nel prossimo futuro?
--------------------------------------------------------------------------------
OPENAI PRESENTA LE "EVALS" API
Permettono di definire dei test, e di valutare rapidamente i prompt
automatizzando le esecuzioni.
OpenAI presenta le "Evals" API: un test
Nell'esempio ho caricato nel Playground un CSV contenente stringhe e label.
Successivamente ho configurato il test, creando un prompt dinamico che si
valorizza attraverso i dati del CSV. L'ultimo ingrediente è un "grader" per
valutare le risposte del modello in base a un criterio che possiamo definire.
Il sistema esegue automaticamente tutti i prompt e possiamo valutare il
risultato del test.
Vai alla documentazione
> Il tutto, completamente realizzabile via API: questo permette di creare
> procedure di test per diverse versioni di prompt.
--------------------------------------------------------------------------------
COPILOT SEARCH
Bing lancia la risposta a AI Mode di Google: Copilot Search.
Il funzionamento è molto simile: l'utente può porre una domanda, il sistema usa
il reasoning per espandere la ricerca, estrae le fonti, e compone una risposta
usando un LLM.
Copilot Search di Bing
È possibile visualizzare il "ragionamento" e le query correlate. Tutte le fonti
sono consultabili. Successivamente permette delle ricerche di follow-up.
Vai alla ricerca
--------------------------------------------------------------------------------
MCP (MODEL CONTEXT PROTOCOL): UN TEST
Un test in cui un Agente basato su o3 di OpenAI accede a file in locale
attraverso il protocollo MCP (Model Context Protocol).
MCP (Model Context Protocol): un test
Come funziona?
Ho implementato un server MCP che può effettuare diverse operazioni sul
filesystem locale del mio laptop, e l'agente è connesso a quel server.
Quando faccio richieste all'agente (che usa o3-mini via API), il sistema accede
ai file in locale e cerca le informazioni necessarie per rispondere. Infine
restituisce la risposta.
Nell'area di tracciamento del Playground di OpenAI è possibile monitorare tutte
le operazioni compiute dall'agente.
> MCP permette di creare applicazioni basate sui LLM che accedono a dati,
> software esterni e potenzialmente qualunque sistema. Questo apre la strada ad
> automazioni davvero interessanti.
--------------------------------------------------------------------------------
GEMINI LIVE: CONDIVISIONE SCHERMO E VIDEOCAMERA
Su Gemini Live è disponibile anche in Italia la funzionalità di condivisione in
real time dello schermo e della videocamera.
Nel video, condivido lo schermo del mio dispositivo con l'assistente e
interagisco attraverso la voce chiedendo informazioni su ciò che sto vedendo.
Gemini Live: condivisione schermo
> Queste funzionalità fanno comprendere il grande potenziale di interazione di
> questi sistemi con il mondo reale.
--------------------------------------------------------------------------------
CLAUDE FOR EDUCATION
Claude for Education è il nuovo progetto di Anthropic pensato per rivoluzionare
il mondo universitario con l’AI. Grazie alla modalità Learning Mode, Claude
stimola il pensiero critico degli studenti invece di fornire risposte pronte,
utilizzando domande socratiche e strumenti strutturati per lo studio.
Partnership con università come Northeastern, LSE e Champlain College portano
l'intelligenza artificiale in aula e negli uffici amministrativi, aiutando
studenti, docenti e staff a lavorare in modo più efficace e intelligente.
Vai al post
> Con programmi dedicati agli studenti, API gratuite per progetti innovativi e
> integrazione nei principali sistemi educativi come Canvas LMS, Claude si
> afferma come un alleato concreto per un'educazione del futuro, costruita su
> responsabilità, accessibilità e innovazione.
--------------------------------------------------------------------------------
RUNWAY GEN-4
Runway ha presentato Gen-4, il nuovo modello dedicato ai contenuti visivi.
Consente la generazione di immagini e video mantenendo coerenza tra personaggi,
oggetti e ambientazioni anche in scenari complessi.
Utilizza riferimenti visivi e istruzioni testuali per produrre contenuti
uniformi in termini di stile, composizione e prospettiva, senza necessità di
ulteriori addestramenti.
Runway Gen-4: presentazione
Tutti i brand che sviluppano modelli stanno creando piattaforme in grado di
generare sia immagini che video, in modo da dare un'unica soluzione agli utenti.
Vai al post
> Nella presentazione parlano anche di "simulazione fisica".. su questo non sono
> molto convinto, ma di certo i miglioramenti sono incredibili.
--------------------------------------------------------------------------------
FLORA: DIVERSI MODELLI IN UN UNICO AMBIENTE
Flora è un esempio di strumento che riunisce diversi modelli visuali in un unico
ambiente consentendo sperimentazione e prototipazione rapida.
Un esempio di utilizzo di Flora
Nell'esempio si vede un progetto che parte da un'immagine generata da prompt
testuale usando Flux Pro. Vengono create diverse inquadrature con prompt
multimodale con Gemini 2.0 Flash. Infine le clip video usando Ray2 di Luma: da
prompt + immagine, ma anche con prompt + due frame.
Tra i vari modelli sono a disposizione anche Flux Dev, Ideogram, Stable
Diffusion, Photon di Luma, Kling e Runway.
Vai al progetto
> Un tool davvero interessante, e la coerenza delle immagini è notevole.
--------------------------------------------------------------------------------
SEAWEED: UN MODELLO DA 7B DI PARAMETRI CHE COMPETE CON I GIGANTI
Seaweed 7B è un nuovo modello da 7 miliardi di parametri capace di competere con
giganti del settore, ma con una frazione delle risorse.
Seaweed: un nuovo modello di generazione video
Addestrato con "sole" 665.000 ore di GPU H100, raggiunge livelli di qualità
visiva, fedeltà al prompt e coerenza narrativa che lo pongono tra i migliori
sistemi di generazione video.
Con il supporto a testo, immagini e audio, Seaweed-7B genera video realistici,
coerenti e controllabili fino a 720p in tempo reale. Il suo design include un
VAE 3D causale e un Diffusion Transformer ottimizzato per performance e
scalabilità, riducendo drasticamente i costi computazionali.
Vai al progetto
> Come abbiamo detto più volte, la scala non può essere l'unica leva per
> migliorare le performance dei modelli. Ora serve evoluzione architetturale, e
> questo è un esempio.
--------------------------------------------------------------------------------
UI-TARS-1.5 DI BYTEDANCE
ByteDance ha rilasciato UI-TARS-1.5, un agente multimodale basato su
Qwen2.5-VL-7B che unisce visione e linguaggio con "reasoning".
UI-TARS - Next-generation native GUI agent model
UI-TARS:Next-generation native GUI agent model designed to interact seamlessly
with GUIs using human-like perception
UI-TARS Team
Il modello valuta prima di agire, migliorando l’esecuzione dei task in ambienti
complessi. Brilla nei benchmark GUI, superando modelli come Claude 3.7 e OpenAI
CUA in compiti su desktop e browser. Ottimi risultati anche in giochi web,
grazie a una forte capacità di pianificazione a lungo termine.
Si distingue nella navigazione web con performance superiori in SimpleQA e
BrowseComp, gestendo con precisione interazioni real-time su interfacce
grafiche.
In ambienti 3D come Minecraft, batte agenti top usando input visivi e controlli
nativi, migliorando le decisioni grazie al suo modulo di “pensiero prima
dell’azione”.
--------------------------------------------------------------------------------
MIDJOURNEY V7
Midjourney mancava da tempo in ambito di rilasci, ma ora annuncia la versione V7
del suo modello, attualmente in fase Alpha. Più intelligente
nell’interpretazione dei prompt testuali, offre una qualità visiva superiore e
migliora drasticamente la coerenza nei dettagli di corpi, mani e oggetti.
Vai al post
V7 introduce per la prima volta la personalizzazione del modello attiva di
default, che si sblocca in circa 5 minuti. Questa funzione mira a interpretare
meglio ciò che l’utente desidera e trova visivamente affascinante.
Grande novità è anche il Draft Mode, che consente rendering 10 volte più veloci
al 50% del costo. È pensato per esplorare idee in modo rapido: le immagini sono
a qualità ridotta, ma esteticamente coerenti. È disponibile anche una modalità
vocale per iterare i prompt in modo conversazionale.
--------------------------------------------------------------------------------
- GRAZIE -
Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre
persone, condividilo 🙂
ISCRIVITI ALLA NEWSLETTER
Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su
tematiche relative all'intelligenza artificiale.
Iscriviti alla Newsletter
Email sent! Check your inbox to complete your signup.
Gratuita. No Spam. Puoi disiscriverti quando vuoi.
Consulta la privacy policy.
> La recente storia dell'AI potrebbe essere sintetizzata in una sola parola:
> “SCALA”.
Così Noam Brown (Research Scientist di OpenAI) inizia il suo TED AI di San
Francisco.
Quindi, performance = modelli sempre più grandi, addestrati da sempre più dati e
con una potenza di calcolo necessaria sempre maggiore.
Agents e Reasoners - L'intervento integrale dall'AI Festival 2025
Le statistiche dimostrano questo aspetto: il diagramma che segue, infatti,
mostra la crescita della potenza di calcolo necessaria per addestrare i modelli
che utilizziamo abitualmente, con un incremento consistente in quella che viene
definita "Deep Learning Era".
Crescita della potenza di calcolo necessaria per addestrare i modelli
Ultimamente, però, sembra che la crescita di performance derivante direttamente
dalla scala si stia attenuando. L’anno scorso, sul palco dell'AI Festival, dissi
che il riferimento era ancora la serie di modelli GPT-4.. Oggi, un anno dopo, la
situazione non è cambiata significativamente, ma i competitor, con modelli open
source e non, hanno ridotto il gap.
Anche esperti influenti come Ilya Sutskever, hanno sottolineato questa
attenuazione.
La stessa OpenAI ha nominato il nuovo modello GPT-4.5 e non GPT-5..
probabilmente perché non ha rappresentato un salto qualitativo degno di quel
nome.
Anche Dario Amodei, CEO di Anthropic, in una recente intervista, ha affermato
che Claude 3.7 è stato uno step evolutivo, ma non abbastanza da giustificare la
versione "4".
--------------------------------------------------------------------------------
LE LEGGI DI SCALA E LA SOSTENIBILITÀ
Si pone quindi una domanda cruciale: conviene ancora investire sulla scala? Per
rispondere alla domanda ci sono due considerazioni da fare.
* Non è mai stato garantito che le leggi di scala sarebbero state valide per
sempre: si tratta di osservazioni empiriche, regole statistiche e
sperimentali.
* L'aumento della scala di altri ordini di grandezza comporterebbe costi e
consumi di risorse enormi.
Questo avviene oggi, naturalmente. Sul futuro torneremo tra poco.
FINE DELLA CRESCITA O NUOVA FASE?
Dunque, la crescita dell’AI è finita?
> No, anzi, mi sento ancora di dire che siamo solo all’inizio.
Di certo si attenuerà l’investimento "cieco" sulla scala, a vantaggio di un
maggiore interesse per l'efficienza, le architetture innovative e, soprattutto,
l'integrazione.
EFFICIENZA: IL NUOVO PARADIGMA
L'efficienza sta diventando una delle chiavi dello sviluppo futuro. Un ottimo
esempio di questo è il paper di DeepSeek R1, che non introduce elementi
rivoluzionari dal punto di vista architetturale (è un modello basato su
transformer e reinforcement learning in fase successiva), concentrandosi però
sull’efficientamento, cioè sulla capacità di ottenere performance elevate con
meno risorse durante la fase di training.
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement
Learning
We introduce our first-generation reasoning models, DeepSeek-R1-Zero and
DeepSeek-R1. DeepSeek-R1-Zero, a model trained via large-scale reinforcement
learning (RL) without supervised fine-tuning (SFT) as a preliminary step,
demonstrates remarkable reasoning capabilities. Through RL, DeepSeek-R1-Zero
naturally emerges with numerous powerful and intriguing reasoning behaviors.
However, it encounters challenges such as poor readability, and language mixing.
To address these issues and further enhance reasoning performance, we introduce
DeepSeek-R1, which incorporates multi-stage training and cold-start data before
RL. DeepSeek-R1 achieves performance comparable to OpenAI-o1-1217 on reasoning
tasks. To support the research community, we open-source DeepSeek-R1-Zero,
DeepSeek-R1, and six dense models (1.5B, 7B, 8B, 14B, 32B, 70B) distilled from
DeepSeek-R1 based on Qwen and Llama.
arXiv.orgDeepSeek-AI
LA CRESCITA DELL'OPEN SOURCE
In generale, i miglioramenti che stiamo osservando nei modelli open-source, ad
esempio DeepSeek R1, QwQ-32B di Qwen (Alibaba), Ernie 4.5 e X1 (Baidu),
permettono di ragionare su tecniche come la quantizzazione e la distillazione,
che riducono significativamente le dimensioni dei modelli mantenendo elevate
performance. Questo permette anche di far funzionare i modelli in dispositivi
con hardware limitati.
Nel video seguente, ad esempio, è possibile vedere DeepSeek R1 funzionare sul
mio laptop. Si tratta della versione 8B, basata su architettura Llama, con
quantizzazione a 4 bit (Q4_K_M).
DeepSeek R1 in locale: un test sul mio laptop
E stanno nascendo nuove tecniche come MatQuant di Google DeepMind, che mette in
azione una quantizzazione multi-scala che sfrutta la struttura nidificata degli
interi per ottimizzare modelli a diverse precisioni (int8 → int4 → int2)
mantenendo un’accuratezza elevata.
Matryoshka Quantization
Quantizing model weights is critical for reducing the communication and
inference costs of large models. However, quantizing models -- especially to low
precisions like int4 or int2 -- requires a trade-off in model quality; int2, in
particular, is known to severely degrade model quality. Consequently,
practitioners are often forced to maintain multiple models with different
quantization levels or serve a single model that best satisfies the
quality-latency trade-off. On the other hand, integer data types, such as int8,
inherently possess a nested (Matryoshka) structure where smaller bit-width
integers, like int4 or int2, are nested within the most significant bits. This
paper proposes Matryoshka Quantization (MatQuant), a novel multi-scale
quantization technique that addresses the challenge of needing multiple
quantized models. It allows training and maintaining just one model, which can
then be served at different precision levels. Furthermore, due to the
co-training and co-distillation regularization provided by MatQuant, the int2
precision models extracted by MatQuant can be up to $10\%$ more accurate than
standard int2 quantization (using techniques like QAT or OmniQuant). This
represents significant progress in model quantization, demonstrated by the fact
that, with the same recipe, an int2 FFN-quantized Gemma-2 9B model is more
accurate than an int8 FFN-quantized Gemma-2 2B model.
arXiv.orgPranav Nair
--------------------------------------------------------------------------------
ARCHITETTURA: "REASONING" E AI AGENTS
Noam Brown, che in OpenAI si occupa proprio di multi-step reasoning e
multi-agent AI, durante il talk citato in precedenza ha raccontato un'esperienza
del suo dottorato di ricerca, dicendo che permettere a un modello di "pensare"
per 20 secondi (dove per pensare intende un’esecuzione lenta, step by step) ha
generato un miglioramento delle prestazioni equivalente a un aumento della scala
di ben 100.000 volte.
Ecco perché oggi stiamo assistendo a un rilascio costante di modelli basati
sulla dinamica di “reasoning” o “thinking”. Alcuni esempi: la serie o1 e o3 di
OpenAI, Gemini, DeepSeek, Claude, QwQ di Qwen, e Grok. E anche GPT-5 sarà basato
su questo concetto.
Come funziona il "reasoning"? Il modello, prima di produrre l’output produce dei
token dedicati a sviluppare catene di pensiero (o di ragionamento), con lo scopo
di migliorare la qualità dell’inferenza. Quello che segue è un esempio in cui
possiamo vedere la fase di reasoning di QwQ-32B nella chat di Qwen.
Un test di QwQ-32B nella chat di Qwen
E questo concetto di miglioramento della qualità dell’inferenza, non vale solo
per i Large Language Model. "Inference-Time Scaling for Diffusion Models beyond
Scaling Denoising Steps", ad esempio, è un paper di Google DeepMind che dimostra
come, lavorando sull’ottimizzazione della del processo di diffusione, sia
possibile migliorare la qualità della generazione delle immagini senza agire
sulla scala.
Inference-Time Scaling for Diffusion Models beyond Scaling Denoising Steps
Generative models have made significant impacts across various domains, largely
due to their ability to scale during training by increasing data, computational
resources, and model size, a phenomenon characterized by the scaling laws.
Recent research has begun to explore inference-time scaling behavior in Large
Language Models (LLMs), revealing how performance can further improve with
additional computation during inference. Unlike LLMs, diffusion models
inherently possess the flexibility to adjust inference-time computation via the
number of denoising steps, although the performance gains typically flatten
after a few dozen. In this work, we explore the inference-time scaling behavior
of diffusion models beyond increasing denoising steps and investigate how the
generation performance can further improve with increased computation.
Specifically, we consider a search problem aimed at identifying better noises
for the diffusion sampling process. We structure the design space along two
axes: the verifiers used to provide feedback, and the algorithms used to find
better noise candidates. Through extensive experiments on class-conditioned and
text-conditioned image generation benchmarks, our findings reveal that
increasing inference-time compute leads to substantial improvements in the
quality of samples generated by diffusion models, and with the complicated
nature of images, combinations of the components in the framework can be
specifically chosen to conform with different application scenario.
arXiv.orgNanye Ma
LATENT REASONING
Esistono già idee di sviluppo ulteriori in ambito di "reasoning". Il paper dal
titolo "Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth
Approach", ad esempio, descrive un approccio per il quale il processo di
"ragionamento" non avviene attraverso la generazione di token di reasoning
(quindi catene di pensiero esplicite), ma all’interno dello spazio latente del
modello.. ovvero prima dell’inferenza, attraverso calcoli vettoriali.
Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach
We study a novel language model architecture that is capable of scaling
test-time computation by implicitly reasoning in latent space. Our model works
by iterating a recurrent block, thereby unrolling to arbitrary depth at
test-time. This stands in contrast to mainstream reasoning models that scale up
compute by producing more tokens. Unlike approaches based on chain-of-thought,
our approach does not require any specialized training data, can work with small
context windows, and can capture types of reasoning that are not easily
represented in words. We scale a proof-of-concept model to 3.5 billion
parameters and 800 billion tokens. We show that the resulting model can improve
its performance on reasoning benchmarks, sometimes dramatically, up to a
computation load equivalent to 50 billion parameters.
arXiv.orgJonas Geiping
--------------------------------------------------------------------------------
IL RUOLO CRESCENTE DEGLI AI AGENTS
Un ulteriore ambito di grande sviluppo, sempre in ambito dell'evoluzione
dell'architettura, riguarda gli AI Agents. Ma arriviamoci partendo da due
considerazioni sullo scenario che stiamo vivendo..
1. In questo momento abbiamo una grande ricchezza di modelli performanti, sia
open source, sia "chiusi": possiamo dire, con una dose di semplificazione,
che le prestazioni stanno convergendo, e i modelli andranno ad equipararsi.
2. I prezzi per token, nel tempo, stanno scendendo in modo importante. E credo
che nei prossimi anni si arriverà a zero. A questo proposito, ad esempio,
Baidu ha recentemente rilasciato la versione 4.5 di Ernie, che costa la metà
di DeepSeek e un infinitesimo di GPT-4.5.
Le performance dei modelli stanno convergendo, e il prezzo per token sta
scendendo
Questa situazione, in cui i LLM si equiparano e il prezzo per token diventa
trascurabile, fa sì che l'attenzione si sposti dai modelli a quello che possiamo
definire "layer applicativo" (applicazioni basate sui modelli).. e gli AI Agents
sono proprio quel layer applicativo.
> I LLM, in un certo senso, diventeranno parte dell’infrastruttura, una sorta di
> commodity che permette di dare vita alle applicazioni del futuro.
STRUTTURA E VANTAGGI DEGLI AI AGENTS
Un AI Agent presenta una struttura composta principalmente da un modello, un
sistema di orchestrazione (che ne determina il comportamento, la metodologia
nella pianificazione delle operazioni, e può essere dotato di memoria per
migliorare e personalizzare le performance nel tempo), e l'interfacciamento con
tool esterni per eseguire azioni specifiche.
Lo schema che segue, che deriva dal paper di Google dal titolo "Agents",
sintetizza in modo esaustivo l'architettura.
La struttura di un AI Agent
Mella prenotazione di un volo, ad esempio, un utente può interagire con un agent
specializzato che processa la richiesta, orchestra i processi, interroga i
servizi esterni, e restituisce una risposta completa e contestualizzata.
Un esempio dell'utilizzo di un AI Agent
Rispetto a un'interazione diretta con un LLM una struttura di questo tipo ha
diversi vantaggi, ad esempio:
* accesso a dati in tempo reale;
* memoria e personalizzazione;
* ragionamento avanzato;
* maggiore affidabilità;
* scalabilità e automazione.
FRAMEWORK E WORKFLOW AGENTICI
Nel prossimo futuro, potremo creare sempre più facilmente AI Agents sfruttando
dei framework. Parallelamente, le piattaforme metteranno a disposizione agenti
per ogni funzionalità. Google, ad esempio, sta lanciando l’Agent Space e
Microsoft il Copilot Studio. E abbiamo già iniziato a usare sistemi basati su
agenti, ad esempio Operator di OpenAI, Deep Research, e OmniParser di Microsoft.
Framework come Autogen, Crew AI e Lang Graph, invece, permettono di creare
agenti e workflow agentici per creare sistemi di automazione.
OpenAI, a questo proposito, ha appena rilasciato nuovi strumenti dedicati allo
sviluppo di AI Agents personalizzati e sistemi multi agente. Nello specifico:
* Responses API – L’API per la costruzione di agenti, che combina la semplicità
della Chat Completions API con le capacità di utilizzo degli strumenti
dell’Assistants API. Con una singola chiamata, gli sviluppatori possono
orchestrare più strumenti e modelli, rendendo gli agenti più intelligenti e
operativi.
* Agents SDK – Un framework open-source per orchestrare gli agenti e gestire
flussi di lavoro complessi. Grazie a questo strumento, gli sviluppatori
possono creare agenti che collaborano tra loro con handoff intelligenti,
tracciamento avanzato e guardrail di sicurezza integrati.
Per approfondire
Andrew NG, riferendosi agli AI Agent, afferma addirittura che i workfow basati
su AI Agent guideranno il prossimo sviluppo dell’AI più della prossima
generazione di foundation models.
Online troviamo diversi schemi di workflow agentici, più o meno teorici. Con il
mio team, stiamo realizzando una sperimentazione con Alpinestars in cui usiamo
un workflow multi-agent per ottenere traduzioni di alcuni contenuti
dell’e-commerce in 9 lingue. Il seguente video mostra un'esempio di interazione.
Un sistema multi agent per generare traduzioni di qualità
COME FUNZIONA?
* I dati da tradurre vengono estratti dal database e consegnati da un agente
proxy al team di lavoro.
* Nel "team virtuale" sono presenti diversi agenti traduttori esperti del
dominio, ma con verticalità diverse, i quali si confrontano ottimizzando la
traduzione ad ogni interazione, migliorando i termini utilizzati, la forma,
ecc..
* Il lavoro passa a un agente SEO Specialist, che, accedendo anche a dei tool
di analisi delle ricerche degli utenti, suggerisce al team l’utilizzo di
determinati termini.
* Un agente specializzato nell'inserimento di link nei contenuti, sfruttando la
conoscenza dell’e-commerce, inserisce nel testo tradotto dei link strategici
verso le categorie più interessanti.
* Un agente editor manager produce la revisione finale ottimizzando l'output
(ad esempio, togliendo eventuali ripetizioni e migliorando le forme di
espressione nella lingua di destinazione).
* Infine, l'agente team leader consegna l’output che viene salvato nel
database.
Il sistema è stato realizzato usando Autogen come framework, mentre gli agenti
sono basati su modelli di OpenAI. Alcuni sfruttano anche il reasoning di
o3-mini.
QUALI SONO I VANTAGGI DI UN SISTEMA COME QUESTO?
* Specializzazione e collaborazione: ogni agente è verticale in un'attività e
collabora con gli altri per migliorare l’output.
* Scalabilità e flessibilità: per aggiungere ulteriori funzionalità al sistema,
è sufficiente aggiungere uno o più agenti con specifiche capability.
* Robustezza e affidabilità: nel workflow possiamo avere agenti dedicati al
controllo dei flussi e dell'output. Nell'esempio, l'agente "editor manager" e
"team leader" hanno proprio questa funzione.
--------------------------------------------------------------------------------
I sistemi agentici si stanno evolvendo rapidamente, e iniziamo a vedere
applicazioni interessanti. Un esempio è AI co-scientist di Google: un sistema
multi agent basato su Gemini 2.0 che genera ipotesi, pianifica esperimenti e
migliora in modo iterativo i risultati, fungendo da collaboratore virtuale per i
ricercatori.
Stanno nascendo, inoltre progetti come Manus. Si tratta di un nuovo AI agent
"generale" in grado di eseguire compiti attraverso la pianificazione e azioni
autonome, il tutto attraverso l'interazione multimodale di un LLM con un
computer.
La presentazione di Manus
Nel seguente esempio, invece, un agent (Operator di OpenAI) gestisce un altro
agente su Replit per sviluppare un’applicazione in modo autonomo. In questo
caso, non abbiamo un framework che gestisce gli agenti, ma si tratta di
un'interazione multimodale via browser.. esattamente come farebbe un essere
umano.
Operator di OpenAI che controlla l'agente di Replit
Quando ho visto questa interazione, ho pensato a un talk interessante che ho
visto recentemente: quello del CEO di Nvidia al CES di Las Vegas.
Nell'intervento, viene mostrata una traiettoria che unisce l'AI Generativa
all'AI Agentica, fino ad arrivare all’AI Fisica: un’AI che interagisce
direttamente con il mondo reale, trovando applicazioni, ad esempio, in ambito
della robotica.
Questo passaggio fa capire molto bene un aspetto del quale si parla troppo
poco.. o forse non se ne parla affatto:
> La differenza tra un workflow multi-agent in grado di produrre una traduzione
> di qualità (AI Agentica), e un workflow multi-agent in grado di controllare
> dei robot che gestiscono un magazzino (AI Fisica) non è poi così marcata:
> cambiano gli input, cambiano le istruzioni di orchestrazione, cambiano i tool
> a disposizione, che da digitali diventano fisici.. ma l'architettura del
> sistema è praticamente la stessa.
Per sottolineare ulteriormente questo concetto, Google DeepMind ha recentemente
rilasciato Gemini Robotics: un modello basato su Gemini 2.0 (lo stesso che
usiamo nella chat!) con l'aggiunta di "azioni fisiche" come tipologia di output
allo scopo di controllare direttamente i robot.
Gemini Robotics: un esempio di applicazione
Il robot nel video, è controllato dallo stesso modello che usiamo nella chat di
Gemini.
> Credo che il passaggio all'AI fisica renderà molto più tangibile per tutti il
> progresso di questi sistemi, perché traccerà lo switch di pensiero da
> considerarli "giochini che scrivono testo in una chat" a "robot che ci
> affiancheranno in qualunque mansione".
Per approfondire
Chi si ricorda il meme "Hey ChatGPT, finish this building.."?
Hey ChatGPT, finish this building
--------------------------------------------------------------------------------
GLI SVILUPPI FUTURI: MODELLI E HARDWARE
Abbiamo visto il passaggio dalla "scala" all'efficienza e al miglioramento
architetturale.. Ma tutto questo significa che l’evoluzione dei modelli si
fermerà? Assolutamente no: stanno emergendo già nuovi approcci e tecnologie
avanzate da questo punto di vista.
Allo stesso modo, anche l’hardware continuerà a evolversi rapidamente, come
dimostrato da Nvidia al CES 2025:
> ormai possiamo avere un supercomputer delle dimensioni di un laptop.
Forse, un giorno, potremo avere la potenza di calcolo, i dati sintetici e
l’efficienza necessari per tornare a ragionare sulla scala.. e magari ci
accorgeremo che le leggi di scala sono sempre state valide.
Non possiamo sapere come andrà, ma la direzione sembra chiara, e la scopriremo
insieme.. Ma sempre più attenti, sempre più critici, sempre più consapevoli..
Ma dovremo lavorare con impegno per acquisire queste qualità, attraverso studio,
ricerca, sperimentazione, e un approccio flessibile.
> Buon percorso.
--------------------------------------------------------------------------------
- GRAZIE -
Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre
persone, condividilo 🙂
ISCRIVITI ALLA NEWSLETTER
Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su
tematiche relative all'intelligenza artificiale.
Iscriviti alla Newsletter
Email sent! Check your inbox to complete your signup.
Gratuita. No Spam. Puoi disiscriverti quando vuoi.
Consulta la privacy policy.
> Buon aggiornamento, e buone riflessioni..
--------------------------------------------------------------------------------
UN CORSO GRATUITO SUGLI AI AGENTS
Microsoft ha rilasciato un corso gratuito dedicato agli AI Agents.
Un percorso in 10 lezioni che parte dalla comprensione del concetto di agente
fino allo sviluppo e alla produzione.
Un corso gratuito sugli AI Agents
Include anche esempi di implementazione di workflow multi-agent usando Autogen.
È un contributo davvero interessante. Insieme al corso "Generative AI for
beginners" lo terrei tra le risorse da consultare di casa Microsoft.
Vai al corso
--------------------------------------------------------------------------------
GROK 3 DI XAI
Il team di xAI ha presentato Grok 3, e ha annunciato che renderà open source
Grok 2 una volta che il 3 sarà "maturo".
Il modello è in due varianti (standard e mini) per bilanciare velocità e
accuratezza, e ha la componente di "reasoning", simile a quella di o3, di Gemini
e DeepSeek. La modalità "Big Brain", invece, è una versione ancora più potente,
che usa più potenza di calcolo per task complessi.
Non potevano mancare gli Agenti, con l'integrazione dell'ormai immancabile "Deep
Search", che recupera informazioni su X e online per creare report dettagliati.
Secondo il team, i modelli superano quelli di OpenAI su diversi benchmark.
Grok 3 di xAI
> Ormai il livello generale delle performance dei LLM è elevato, mentre il
> riferimento continua a rimanere GPT-4x (una costante da oltre un anno). I
> modelli stanno diventando sempre di più una commodity per creare applicazioni
> ibride (agenti) verticali.
UN TEST DEL MODELLO
Ho fatto alcuni test usandolo anche in configurazione di "reasoning", Deep
Search e generazione di immagini.
Un test di Grok 3
Il modello è senza dubbio performante, ma ho l'impressione che o3 abbia una
marcia in più nel reasoning.
La Deep Search è più veloce di quella di Gemini, ma anche meno approfondita:
probabilmente è una scelta. Quella di OpenAI rimane la più dettagliata.
Interessante la suddivisione tra risposta diretta e note dettagliate.
Attualmente il modello è primo nella LLM Chatbot Arena Leaderboard.
LLM Chatbot Arena Leaderboard
--------------------------------------------------------------------------------
LE NOVITÀ DI OPENAI
OpenAI ha fatto diversi rilasci nell'ultimo mese. Vediamo i più importanti.
IL LANCIO DI GPT-4.5
OpenAI annuncia GPT-4.5, ma non ha convinto. Altman non ha partecipato alla
presentazione, e ha lasciato un post su X abbastanza "sulla difensiva".
Il modello è ampio, e necessita di molta potenza di calcolo. Per questo, ha API
costosissime: x30 (input) e x15 (output) rispetto a GPT-4o, e x3 rispetto a o1..
> Mi chiedo in quale caso potrebbe aver senso usarle, considerando che non
> sembra che ci sia stato un forte balzo evolutivo. Anche perché, altrimenti,
> l'avrebbero definito GPT-5.
Scrivono, addirittura: "we’re evaluating to continue serving it in the API
long-term as we balance supporting current capabilities with building future
models".
Sembra quasi un rilascio di risposta ai competitor, utile a riprendere la
leadership, in attesa degli sviluppi successivi. Infatti il modello ha raggiunto
Grok-3 nella LLM Chatbot Arena Leaderboard.
Il lancio di GPT-4.5
Caratteristiche
GPT-4.5 viene descritto come il modello più potente di casa OpenAI. Sarà
disponibile per ChatGPT Pro e via API (per gli utenti Plus arriverà in seconda
battuta).
Grazie a un apprendimento non supervisionato avanzato, offre migliore
comprensione, minori allucinazioni e interazioni più naturali.
* Maggiore accuratezza e affidabilità nelle risposte.
* Interazioni più fluide, empatiche e contestualizzate.
* Eccellenza in scrittura, programmazione e risoluzione di problemi complessi.
* Riduzione significativa degli errori e delle informazioni inesatte.
> Il fatto che la "scala" OGGI non sia più una leva di crescita delle
> performance è sempre più evidente. Questo sembra davvero un rilascio
> dimostrativo solo per "guardare" (su ChatGPT) ma "non toccare" (via API).
DEEP RESEARCH DISPONIBILE ANCHE PER GLI UTENTI PRO
L'agent di Deep Research è stato rilasciato anche per gli utenti Plus.
L'ho provato. Il sistema, inizialmente, fa domande di follow-up se la richiesta
è troppo generica, e successivamente fa partire il lavoro di "scoperta".
* Inizia con una ricerca, e man mano che analizza risultati, espande
l'approfondimento degli argomenti.
* Mostra sia il flusso di ragionamento, sia la lista delle fonti.
* Lavora in maniera leggermente diversa dall'agent di Google: mentre Gemini
crea un piano d'azione sugli argomenti e chiede conferma prima di iniziare,
l'agent di OpenAI costruisce il piano in base all'esplorazione.
* Il risultato di OpenAI sembra più curato ed esteso, infatti è anche più
lento: la stessa ricerca ha impegnato qualche minuto Gemini e quasi 17 minuti
ChatGPT.
Un test di Deep Research su ChatGPT
> È affascinante vedere questi sistemi in esecuzione, e permettono di creare dei
> report finali che fanno risparmiare grandi quantità di lavoro in fase di
> analisi.
O1 E O3 ORA SUPPORTANO IL CARICAMENTO DI FILE E IMMAGINI
Un passo in avanti è stato fatto, ora manca Code Interpreter per l'analisi dei
dataset.
Nell'esempio, carico un documento tecnico e fornisco istruzioni a ChatGPT per
estrarre tutti i dati in modo strutturato.
o3-mini: l'elaborazione di documenti
> Con o3, ultimamente, sono riuscito a eseguire operazioni che mi hanno davvero
> fatto risparmiare molto tempo.
L'INTERAZIONE CON CHATGPT VIA WHATSAPP
Si evolve l'interazione di ChatGPT via WhatsApp, con la possibilità di caricare
immagini e interagire attraverso messaggi vocali.
L'interazione con ChatGPT via Whatsapp
> Sembra un aggiornamento banale, ma intercetta esattamente le dinamiche delle
> interazioni tra le persone, rendendo il sistema usabile da chiunque.
--------------------------------------------------------------------------------
CLAUDE 3.7 SONNET DI ANTHROPIC
Anthropic lancia Claude 3.7 Sonnet, con la funzionalità di "reasoning" (nella
versione estesa solo per utenti Pro).
Nel post di presentazione viene descritto come un approccio diverso dai
competitor: un unico modello che può essere sfruttato con o senza ragionamento
avanzato.
> Sinceramente, credo che la base sia la stessa anche per i competitor. Grok, ad
> esempio, funziona allo stesso modo, e anche GPT-5 uniformerà completamente i
> modelli di OpenAI.
L'ho provato, e chiaramente è molto performante, e, come sempre, lato coding è
tra i migliori.
Un test di Claude 3.7 Sonnet
> Ormai siamo a un punto di convergenza nelle performance: ogni nuovo modello
> supera leggermente i competitor, fino a un nuovo rilascio di questi ultimi.
Vai al post
--------------------------------------------------------------------------------
IL MODELLO DI "REASONING" DI GEMINI
Anche in casa Google è arrivato il modello di "reasoning" nella chat di Gemini.
In due versioni: "2.0 Flash Thinking" e "2.0 Flash Thinking with apps". La
differenza è che il secondo può accedere anche alla Search, a YouTube e a Maps.
Gemini 2.0 Flash Thinking
> Nel video si vedono alcuni test dei due sistemi. È davvero molto interessante
> l'unione tra la ricerca online e il reasoning.
Tra i nuovi modelli, è a disposizione anche Gemini 2.0 Pro (Experimental).
Tutti questi modelli sono già nelle prime posizioni nella Chatbot Arena LLM
Leaderboard.
Ora manca un'integrazione solida in Workspace e il cerchio sarà chiuso.
--------------------------------------------------------------------------------
GEMINI CODE ASSIST
Google ha annunciato il rilascio gratuito di Gemini Code Assist, un potente
assistente AI per la programmazione basato su Gemini 2.0.
Ora disponibile per tutti gli sviluppatori, supporta tutti i linguaggi di
programmazione pubblici e offre suggerimenti avanzati per la scrittura e
revisione del codice.
0:00
/0:07
1×
Gemini Code Assist
Rispetto ad altri strumenti gratuiti, offre fino a 180k completamenti di codice
al mese.
Integrazione diretta con GitHub per revisioni AI-powered: rileva errori,
migliora la qualità del codice e si adatta a linee guida personalizzate.
Compatibile con Visual Studio Code, JetBrains IDEs, Firebase e Android Studio,
permette agli sviluppatori di lavorare in modo più efficiente con AI
direttamente nei loro ambienti di sviluppo.
Vai al post
--------------------------------------------------------------------------------
LA DEEP RESEARCH DI PERPLEXITY
Perplexity introduce diversi sistemi a supporto della ricerca, tra cui "Deep
Research".
La Deep Research di Perplexity
Il funzionamento è in linea con gli omonimi agenti di Google, OpenAI e con i
numerosi progetti open source simili: viene delineato un piano d'azione, avviate
le ricerche, e viene restituito un report dettagliato (anche ascoltabile). Le
fonti e il materiale multimediale (immagini e video) sono consultabili.
> Agenti di questo tipo diventano sempre più integrabili e personalizzabili
> facilmente.
--------------------------------------------------------------------------------
QUANTIZZAZIONE DINAMICA DI DEEPSEEK
La quantizzazione, cioè la tecnica usata per ridurre le dimensioni e il consumo
di memoria di un LLM senza perdere troppa precisione, non è un processo
standard.
Il team di Unsloth, ad esempio, ha ridotto le dimensioni di DeepSeek R1 dell'80%
mantenendo buone performance ed efficienza.
Quantizzazione dinamica di DeepSeek
Hanno usato una quantizzazione dinamica mantenendo alcune parti più precise (ad
esempio, i primi tre strati densi e alcune proiezioni MoE a 4 o 6 bit), mentre
altre vengono ridotte fino a 1.58-bit.
Vai al progetto
--------------------------------------------------------------------------------
MATQUANT DI GOOGLE DEEPMIND
Google DeepMind presenta MatQuant: una nuova tecnica di quantizzazione
multi-scala che sfrutta la struttura nidificata degli interi (Matryoshka
structure) per ottimizzare modelli a diverse precisioni (int8 → int4 → int2)
senza sacrificare l'accuratezza.
ALCUNI RISULTATI
* Gemma-2 9B (int2) con MatQuant è +8% più accurato rispetto alla
quantizzazione tradizionale.
* Mistral 7B (int2) migliora di +6,3%, riducendo la perdita di qualità nei
modelli ultra-compressi.
* Performance di int4 e int8 comparabili ai baseline, con maggiore efficienza.
* Interpolazione tra bit-widths (int6, int3) senza ulteriore addestramento.
* Mix'n'Match per combinare diverse precisioni nei layer, ottimizzando costi e
latenza.
MatQuant di Google DeepMind
Un passo avanti per l’efficienza dell’AI, con modelli flessibili e adatti a
diverse configurazioni hardware.
Vai al paper
--------------------------------------------------------------------------------
NSA (NATIVELY TRAINABLE SPARSE ATTENTION)
DeepSeek pubblica un nuovo paper dedicato all'efficientamento dei LLM.
NSA (Natively trainable Sparse Attention) è un nuovo meccanismo che introduce
un'architettura di attenzione sparsa che:
* riduce il numero di operazioni di attenzione senza sacrificare la qualità
delle predizioni;
* è ottimizzata per l'hardware moderno, migliorando l'efficienza;
* può essere allenata end-to-end, evitando il pre-training su "full attention".
Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse
Attention
Long-context modeling is crucial for next-generation language models, yet the
high computational cost of standard attention mechanisms poses significant
computational challenges. Sparse attention offers a promising direction for
improving efficiency while maintaining model capabilities. We present NSA, a
Natively trainable Sparse Attention mechanism that integrates algorithmic
innovations with hardware-aligned optimizations to achieve efficient
long-context modeling. NSA employs a dynamic hierarchical sparse strategy,
combining coarse-grained token compression with fine-grained token selection to
preserve both global context awareness and local precision. Our approach
advances sparse attention design with two key innovations: (1) We achieve
substantial speedups through arithmetic intensity-balanced algorithm design,
with implementation optimizations for modern hardware. (2) We enable end-to-end
training, reducing pretraining computation without sacrificing model
performance. As shown in Figure 1, experiments show the model pretrained with
NSA maintains or exceeds Full Attention models across general benchmarks,
long-context tasks, and instruction-based reasoning. Meanwhile, NSA achieves
substantial speedups over Full Attention on 64k-length sequences across
decoding, forward propagation, and backward propagation, validating its
efficiency throughout the model lifecycle.
arXiv.orgJingyang Yuan
Il sistema è più veloce di 9-11x su sequenze di 64k token, e ottiene performance
uguali o superiori su diversi benchmark.
--------------------------------------------------------------------------------
L'EVOLUZIONE DEI MODELLI DI REASONING
Un paper molto interessante che esplora l'evoluzione dei modelli di reasoning
attraverso il concetto di recurrent depth.
Recurrent depth: l'evoluzione dei sistemi di reasoning
Come funziona?
Invece di generare lunghe Chain-of-Thought esplicite, il modello ripete i
calcoli internamente, ottimizzando il ragionamento in uno spazio latente. Questo
gli permette di adattare il numero di iterazioni a test-time in base alla
complessità del problema, senza bisogno di addestramento su dati specializzati.
* Migliore efficienza computazionale
* Migliori capacità di ragionamento senza contesti lunghi
* Test-time scaling: più iterazioni = migliori risposte
Vai al paper
> Un nuovo approccio per rendere l’AI più efficiente senza aumentarne le
> dimensioni.
--------------------------------------------------------------------------------
UN'INTERAZIONE MULTIMODALE TRA AI AGENT
Un esempio in cui Operator di OpenAI usa l'agent di Replit per creare
un'applicazione in modo autonomo.
Gli agenti possono interagire in diversi modi, ad esempio orchestrati in un
framework connesso a diversi tool.
In questo caso vediamo un'interazione in cui un agente sfrutta il browser e la
multimodalità per usarne un altro, agendo come farebbe un essere umano.
> this is wild 🤯🤯🤯
>
> just paired openai operator with replit agent to build an app
>
> watch as two ai agents team up, exchange credentials, and start testing
>
> ai agent 🤝 ai agent
>
> the future is here and it’s insane! pic.twitter.com/jIZnqW4fJD
>
> — Lamar (@LamarDealMaker) February 15, 2025
> Per il flusso sono stati usati 5 prompt.
--------------------------------------------------------------------------------
AI CO-SCIENTIST DI GOOGLE
Google ha sviluppato AI co-scientist, un sistema avanzato basato su Gemini 2.0
che funge da collaboratore virtuale per i ricercatori.
Utilizzando un approccio multi-agente, il sistema genera ipotesi originali,
pianifica esperimenti e migliora iterativamente i propri risultati, aiutando gli
scienziati a navigare tra enormi quantità di dati e a identificare nuove
direzioni di ricerca.
0:00
/0:13
1×
AI co-scientist di Google
Applicato in ambito biomedico, AI co-scientist ha già dimostrato il suo
potenziale proponendo nuovi bersagli terapeutici per la fibrosi epatica,
identificando farmaci riproposti per il trattamento della leucemia mieloide
acuta e formulando ipotesi innovative sui meccanismi della resistenza
antimicrobica.
Vai al post
> Questo significa accelerazione nel processo di scoperta e ricerca. Ma, essendo
> un sistema completamente "neurale" rimane fondamentale una validazione umana
> altamente qualificata, in veste della componente "simbolica".
--------------------------------------------------------------------------------
IL PIANO DELL'EUROPA DEDICATO ALL'INTELLIGENZA ARTIFICIALE
L'Europa presenta un piano per mobilitare circa 200 miliardi in investimenti per
l’AI.
Il proposito è interessante, con l'idea di creare una sorta di "CERN dedicato
all'intelligenza artificiale".
Criticità: il piano c'è, ed è in linea con l'obiettivo, ma non si parla di
tempi. Inoltre, in Europa, sono presenti centri di ricerca e università
d'eccellenza, ma mancano aziende che si occupano di intelligenza artificiale a
livello delle Big Tech.
Vai al post
EU AI Champions Initiative
Unlock Europe’s Full Potential in AI
EU AI Champions Initiative
--------------------------------------------------------------------------------
THREE OBSERVATIONS
Sam Altman, in un nuovo post, afferma che l'AI cresce in modo logaritmico
rispetto alle risorse investite. Concetto che richiama un comportamento previsto
dalle leggi di scala.
Afferma, inoltre, che il costo dell'AI diminuisce drasticamente (di 10x ogni 12
mesi).
Three Observations
Our mission is to ensure that AGI (Artificial General Intelligence) benefits all
of humanity. Systems that start to point to AGI* are coming into view, and so we
think it’s important to…
Sam Altman
Il fatto è che si basa su trend attuali, ma non è garantito che la crescita
dell’IA seguirà le stesse leggi di scala per sempre. Se il costo del computing
continua a scendere, potremmo assistere a un’accelerazione senza precedenti,
oppure a un cambio di paradigma che renderà le attuali previsioni obsolete.
Il vero test sarà capire se la qualità e la capacità dell’IA continueranno a
migliorare al ritmo previsto una volta che il costo computazionale diventerà
quasi trascurabile (i dati di qualità, la scarsità di chip avanzati, il costo
energetico saranno trascurabili?).
> Attualmente credo che architetture basate su agenti ibridi specializzati (es.
> sistemi neuro-simbolici) siano più interessanti e "immediate" della rincorsa
> verso la chimera dell'AGI basata su LLM.
--------------------------------------------------------------------------------
MAJORANA 1 DI MICROSOFT
Microsoft ha presentato Majorana 1, il primo chip quantistico basato
sull’innovativa architettura Topological Core. Questo nuovo approccio sfrutta
materiali chiamati topoconduttori per rendere i qubit più stabili e scalabili,
aprendo la strada a computer quantistici con un milione di qubit.
Questa tecnologia potrebbe trasformare settori chiave come la chimica, la
scienza dei materiali e l'AI, risolvendo problemi impossibili per i computer
tradizionali. Un passo avanti decisivo verso il futuro del quantum computing.
Majorana 1 di Microsoft
> Oggi ci stiamo accorgendo che ragionare solo sulla scala non ha più molto
> senso per l'evoluzione dell'AI. Ma "domani" nuove tecnologie potrebbero
> azzerare i limiti hardware e permettere di ottenere dati sintetici di qualità.
> Dovremo arrenderci all'amara lezione (rif. "The Bitter Lesson", Rich Sutton)?
> Lo scopriremo insieme.
Vai al post
--------------------------------------------------------------------------------
OMNIPARSER V2 DI MICROSOFT
Microsoft ha rilasciato OmniParser V2: un sistema open source in grado di
compiere azioni nell'interfaccia utente.
Non solo sul browser, ma si tratta di un sistema che usa un LLM in un Computer
Use Agent.
OmniParser V2 di Microsoft
> Il panorama di questa tipologia di agenti si sta arricchendo di giorno in
> giorno. E probabilmente saranno sempre più efficaci.
Vai al progetto
UN TEST DI OMNIPARSER V2
> Come fanno questi sistemi a eseguire azioni sui browser e su qualunque
> interfaccia grafica?
Questo è un esempio di utilizzo di OmniParser V2 in esecuzione in locale. Il
sistema elabora ciò che "vede" nello schermo, e lo converte in dati strutturati
che mappano e classificano ogni elemento.
Un test di OmniParser V2
I dati diventano contesto per un LLM, che può eseguire operazioni sugli
elementi.
--------------------------------------------------------------------------------
ANIMATE ANYONE 2
Il Tongyi Lab di Alibaba Group ha presentato Animate Anyone 2: un modello
avanzato in grado di animare immagini di personaggi.
Rispetto ai metodi precedenti, introduce un'importante innovazione:
l'integrazione dell'ambiente circostante nella generazione dell'animazione.
Animate Anyone 2
Non si limita a estrarre segnali di movimento da un video sorgente, ma analizza
anche il contesto ambientale (le aree senza personaggi) per creare animazioni
più coerenti.
Vai al progetto
--------------------------------------------------------------------------------
OPENDEEPRESEARCHER
Vedremo nascere diversi sistemi open source come "Deep Research" di OpenAI e
Google.
OpenDeepResearcher è un esempio. Riceve in input un topic, effettua ricerche
online, approfondisce l'argomento sviluppando e usando nuove query di ricercae;
infine fornisce un report dettagliato.
GitHub - mshumer/OpenDeepResearcher
Contribute to mshumer/OpenDeepResearcher development by creating an account on
GitHub.
GitHubmshumer
--------------------------------------------------------------------------------
VIDEOLLAMA3 DI ALIBABA
Alibaba introduce VideoLLaMA 3, un modello vision-centric, costruito per
migliorare la comprensione visiva attraverso immagini di alta qualità invece di
enormi dataset video-text meno precisi.
LE PRINCIPALI INNOVAZIONI
* Any-Resolution Vision Tokenization (AVT): elabora immagini e video a
risoluzioni variabili senza perdita di dettagli.
* Differential Frame Pruner (DiffFP): riduce i frame ridondanti nei video,
migliorando efficienza e precisione.
* Vision-Language Alignment: allena il modello con descrizioni dettagliate per
una comprensione più profonda.
* Dataset VL3-Syn7M: immagini accuratamente selezionate per garantire qualità
nei dati di addestramento.
VideoLLaMA 3 di Alibaba
PERFORMANCE
VideoLLaMA 3 supera i modelli precedenti in:
* OCR e documenti (InfoVQA, DocVQA)
* Ragionamento matematico visuale (MathVista)
* Comprensione multi-immagine (MMMU)
* Analisi avanzata dei video (VideoMME, MLVU)
> Grazie alla sua architettura ottimizzata e alla gestione più intelligente dei
> video, VideoLLaMA 3 rappresenta un nuovo punto di riferimento
> nell’intelligenza artificiale multimodale.
--------------------------------------------------------------------------------
WORKFLOW MULTI-AGENT: LA GESTIONE DEI FLUSSI
Nella costruzione di workflow multi-agent, i framework come Autogen permettono
di creare delle regole di intervento per gli agenti.
In questo modo, possiamo gestire in quali momenti serve iterazione, e in quali
momenti sequenzialità nelle azioni.
Un esempio di funzione per gestire i flussi degli agenti su Autogen
La funzione dell'esempio determina logiche di intervento degli agenti (StateFlow
pattern), e viene usata dall'orchestratore per concedere i turni durante le
interazioni.
--------------------------------------------------------------------------------
ALPHAGEOMETRY 2: LE PERFORMANCE
AlphaGeometry 2 di Google DeepMind ha superato i risultati di una medaglia d'oro
medio nelle Olimpiadi Internazionali di Matematica (IMO), raggiungendo un tasso
di soluzione dell'84% sui problemi di geometria (contro il 54% della prima
versione).
> Per quanto si ragioni su "chatbot" generici in grado di affrontare qualunque
> problema, gli agenti specializzati, secondo me, sono quelli che oggi possono
> raggiungere performance e affidabilità per affiancarci nella crescita in
> diversi ambiti.
AlphaGeometry, infatti, è un sistema neuro-simbolico, e funziona in questo modo:
* un LLM (Gemini) traduce il problema in un linguaggio più adeguato al sistema;
* il motore simbolico analizza i dati iniziali e mette a disposizione tutti i
teoremi applicabili;
* se la soluzione non è immediata (in un problema delle IMO di certo non lo è),
usa una combinazione di reti neurali (Gemini) e ricerca simbolica avanzata
per individuare costruzioni ausiliarie (deduzione);
* il motore simbolico verifica la correttezza, e se la soluzione non è
dimostrabile si torna a fare nuove deduzioni;
* il sistema restituisce la dimostrazione con i diagrammi necessari.
Le performance di AlphaGeometry 2 di Google DeepMind
> In pratica unisce il ragionamento simbolico (rigore e affidabilità) alla
> velocità e flessibilità delle reti neurali (intuizioni).
Vai al paper
Di certo si tratta di sistemi che non scalano velocemente e che sono più
difficili da costruire, ma l'affidabilità, in certi contesti, vince.
--------------------------------------------------------------------------------
AI MODE DI GOOGLE
Secondo 9to5Google, Google starebbe lavorando all'AI Mode: una nuova esperienza
che unisce la ricerca a un'interfaccia generata da Gemini 2.0.
Sundar Pichai aveva annunciato che il 2025 sarebbe stato un anno importante per
l'innovazione in Search.. sarà questo l'inizio?
E sarà un inizio deciso o un "vorrei, ma non posso"? Di certo, per vincere la
concorrenza con gli ibridi di questo tipo dovranno puntare su quello che sanno
fare meglio: la ricerca potenziata dai dati strutturati che hanno a
disposizione.
AI mode di Google
COS'È AI MODE?
Progettata per rispondere a domande più aperte, esplorative o molto specifiche
(es. i confronti), offrirà risposte più strutturate, con collegamenti per
approfondire sulle pagine web.
Un'interfaccia in stile chatbot permetterà di interagire in modo più dinamico,
con possibilità di follow-up e input vocale nell’app di Google.
Attualmente sarebbe in test per i dipendenti negli USA.
--------------------------------------------------------------------------------
MUSE DI MICROSOFT RESEARCH
Microsoft Research ha presentato Muse, un avanzato modello di AI generativa
progettato per supportare la creazione di gameplay. È basato sul World and Human
Action Model (WHAM), ed è in grado di generare ambienti di gioco e azioni dei
controller, simulando sequenze di gameplay realistiche.
Muse di Microsoft Research
È stato addestrato con dati raccolti dal gioco Bleeding Edge, e ha analizzato
oltre un miliardo di immagini e azioni di giocatori (più di sette anni di
gameplay).
Il modello offre agli sviluppatori uno strumento potente per esplorare nuove
idee, migliorando la creatività e l’iterazione nei processi di sviluppo.
Vai al paper
> Microsoft ha reso il modello open-source, insieme ai pesi, ai dati di esempio
> e a WHAM Demonstrator, un’interfaccia che consente di sperimentare
> direttamente le sue capacità.
--------------------------------------------------------------------------------
L'EVOLUZIONE DELLA CHAT DI MISTRAL
Mistral evolve la sua chat con diverse novità.
* Velocità: può rispondere fino a 1k parole/s con la funzione Flash Answer.
* Ricerca online: combina fonti di qualità, tra cui pagine web, editoriali,
social media.
* Multimodale: elaborazione di immagini, documenti e fogli di calcolo.
* Generazione di immagini: usa Flux Ultra, per ottenere output di qualità.
* Code interpreter: può sviluppare codice Python ed eseguirlo a supporto delle
risposte all'utente.
* Mobile: disponibile per iOS e Android via app.
The all new le Chat: Your AI assistant for life and work | Mistral AI
Brand new features, iOS and Android apps, Pro, Team, and Enterprise tiers.
Mistral AI
> L'ho provato. Quello che posso dire è che attualmente siamo lontani dalle
> performance dei competitor.
--------------------------------------------------------------------------------
OMNIHUMAN-1 DI BYTEDANCE
Bytedance, l'azienda cinese che possiede TikTok, ha presentato OmniHuman-1, un
framework avanzato per la generazione di video umani basato su un'unica immagine
e segnali di movimento come audio e video.
OmniHuman-1 di Bytedance
Grazie a una tecnica di addestramento multimodale, il modello supera i limiti
delle precedenti tecniche end-to-end, migliorando la qualità e il realismo dei
video generati.
Vai al progetto
> Le anteprime sono tecnicamente sbalorditive, ma aprono inevitabilmente diversi
> ambiti di riflessione.
--------------------------------------------------------------------------------
VIDEOJAM DI META
Meta introduce VideoJAM: un framework progettato per migliorare la generazione
di movimento nei modelli video.
VideoJAM di Meta
Il sistema mira a risolvere un limite dei modelli di generazione video: la
rappresentazione di movimenti realistici.
Vai al progetto
> L'aspetto più interessante? Il framework può essere applicato a qualsiasi
> modello di generazione video con minime modifiche, senza richiedere nuovi dati
> di addestramento o maggiori risorse computazionali.
--------------------------------------------------------------------------------
QWEN-2.5 MAX: GENERAZIONE VIDEO
Attraverso la chat di Qwen è ora possibile generare video.
Un esempio di generazione video con la chat di Qwen
Vai alla Chat
> La qualità generale di questo modelli è sempre più elevata.
--------------------------------------------------------------------------------
- GRAZIE -
Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre
persone, condividilo 🙂
ISCRIVITI ALLA NEWSLETTER
Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su
tematiche relative all'intelligenza artificiale.
Iscriviti alla Newsletter
Email sent! Check your inbox to complete your signup.
Gratuita. No Spam. Puoi disiscriverti quando vuoi.
Consulta la privacy policy.
> Buon aggiornamento, e buone riflessioni..
--------------------------------------------------------------------------------
I MIEI INTERVENTI AL SEARCH MARKETING CONNECT
In chiusura del 2024 ho tenuto due interventi durante il Search Marketing
Connect a Bologna. I seguenti video riportano i contenuti integrali.
L'EVOLUZIONE DELLA RICERCA ONLINE POTENZIATA DALL'AI: COME CAMBIANO LE
ESPERIENZE ONLINE?
I modelli di linguaggio (LLM) stanno cambiando la ricerca online, unendo le
caratteristiche dei motori di ricerca a processi basati sull'intelligenza
artificiale. Come funzionanoquesti sistemi? Come si stanno evolvendo? Verso
quale direzione ci stanno conducendo? Un viaggio per capire i cambiamenti in
atto e per prepararsi a essere protagonisti delle nuove esperienze di ricerca
che stanno trasformando l'accesso alle informazioni.
Search Marketing Connect 2024 - Alessio Pomaro
> I sistemi ibridi, che uniscono i LLM ai motori di ricerca, miglioreranno.
> Crescerà l'accuratezza nel determinare i contenuti rilevanti, grazie a sistemi
> come il "reranking". Aumenterà la qualità dell'inferenza, grazie al
> "reasoning" e a implementazioni multi-agent. I modelli, in generale, si
> evolveranno.
CAPITOLO 2: “REASONING” E SISTEMI MULTI-AGENTE
L'AI generativa si è evoluta grazie all'aumento delle dimensioni dei modelli, ma
oggi i maggiori progressi si stanno ottenendo grazie all'aumento della qualità
dell'inferenza. Due esempi: i sistemi di "reasoning" (es. i modelli "o" di
OpenAI) e i sistemi multi-agente. Facciamo chiarezza su questo cambiamento, con
esempi pratici di applicazioni.
Search Marketing Connect 2024 - Alessio Pomaro
> I workflow basati sugli AI Agent rappresenteranno un enorme progresso per le
> applicazioni basate sull'AI. Forse più della prossima generazione di modelli.
--------------------------------------------------------------------------------
O3-MINI DI OPENAI
o3-mini è stato rilasciato, e disponibile su ChatGPT e via API.
Prezzo? 4,40$/1M token (o1 costa 60$/1M token, DeepSeek costa 2,19$/1M token).
* Più veloce e preciso, con efficienza paragonabile a o1.
* Reasoning effort regolabile.
* Supporta function calling e output strutturati.
* Disponibile anche per gli utenti "free", usando l'opzione "Reason" (effetto
DeepSeek R1?).
* Supera o1-mini in matematica e coding, con miglioramenti significativi in
diversi benchmark.
* Più veloce del 24% rispetto a o1-mini.
L'ho provato su diversi task, su logica e coding.
Un test di o3 di OpenAI
> È chiaramente una soluzione molto interessante.
Vai al post
--------------------------------------------------------------------------------
GLI AGENTI DI OPENAI
OpenAI, sta arricchendo ChatGPT con una serie di agenti che estendono le
potenzialità del sistema. Gli agenti rappresentano lo sviluppo del layer di
integrazione: strumenti basati su LLM che eseguono autonomamente operazioni
specifiche.
> Lo step successivo sarà la possibilità di creare dei workflow multi agente? Un
> framework più avanzato per sviluppare agenti personalizzati?
OPERATOR
OpenAI ha presentato il progetto Operator, un AI Agent in grado di utilizzare un
browser web autonomamente per svolgere compiti complessi. Sfruttando il modello
Computer-Using Agent (CUA), basato su GPT-4o, Operator rappresenta una delle
prime implementazioni di agenti AI capaci di interagire con interfacce grafiche
proprio come farebbe un essere umano.
Un esempio di interazione con Operator
Operator è progettato per eseguire attività quotidiane in modo indipendente,
offrendo un’esperienza intuitiva e versatile. Ad esempio, può prenotare
ristoranti in piattaforme come OpenTable, fare la spesa online su siti come
Instacart, anche interpretando liste scritte a mano, prenotare biglietti per
eventi, ecc..
Garantisce il pieno controllo agli utenti con conferme esplicite, modalità
takeover per interventi su dati sensibili (es. login o pagamenti), protezioni
avanzate contro siti malevoli e comportamenti sospetti.
Raggiunge risultati promettenti in benchmark come WebArena e OSWorld, ma è in
continuo miglioramento per gestire flussi di lavoro più complessi e situazioni
impreviste.
Per ora, è disponibile solo negli USA e con account Pro.
Vai al progetto
> Questo progetto rappresenta un passo verso agenti autonomi sempre più
> avanzati, che semplificheranno processi quotidiani e trasformeranno il nostro
> rapporto con la tecnologia.
DEEP RESEARCH
Dopo Operator, viene introdotto Deep Research: un nuovo agente che unisce il
"reasoning" alla ricerca.
Un sistema in grado di effettuare ricerche online approfondite e multi step
sintetizzando i contenuti e ragionando autonomamente su di essi.
Crea un piano d'azione, l'utente può confermarlo o modificarlo, e procede
estraendo le fonti ed elaborandole.
Non ha limiti di latenza, quindi può impiegare anche 30 minuti per fornire
risposte di qualità superiore.
Deep Research di OpenAI
In pratica, funziona come l'omonimo agente in casa Google (Gemini 1.5 Pro with
Deep Research): secondo me, quello più utile e interessante.
Vai al progetto
> Inizialmente sarà solo per utenti Pro.
--------------------------------------------------------------------------------
LA NATURA E LA DIREZIONE DEL CONCETTO DI AI AGENT
Il keynote di Jensen Huang al CES, scremato dai vari "effetti wow", traccia una
traiettoria che permette di capire meglio la natura e la direzione del concetto
di AI Agent.
> Un concetto di cui si parla ovunque, ma che non credo sia compreso
> completamente.
Credo che il passaggio che descrive il CEO di Nvidia, tra AI Agentica e AI
Fisica sia utile a comprendere meglio il potenziale in gioco. Sì, perché fa
capire che..
> la differenza tra l'interazione di più agenti per scrivere l'articolo di un
> blog o un blocco di codice, e l'interazione tra robot per gestire un magazzino
> è solo negli obiettivi, nelle istruzioni e negli attuatori (o tool, o skill) a
> disposizione dagli agenti stessi.
Forse, con questi esempi, diventano anche più chiari i timori di cui ha parlato
spesso Geoffrey Hinton dicendo: una volta che verrà dato un obiettivo a un
sistema autonomo, quanto saranno controllabili le azioni intermedie che compirà
per raggiungerlo?
Il keynote di Jensen Huang al CES
Torniamo sempre allo stesso concetto: più aumenta il potenziale di una
tecnologia, più gli attuatori che colleghiamo ad essa diventano potenti, e più
diventa urgente un controllo, una regolamentazione e un lavoro cooperativo a
livello globale per gestirne l'utilizzo e l'impatto.
--------------------------------------------------------------------------------
GEMINI 2.0 FLASH THINKING
Alcuni esempi del modello di "reasoning" di Google: Gemini 2.0 Flash Thinking.
Sono rimasto colpito dal potenziale.. e non a caso, nel momento in cui sto
scrivendo questo contenuto è al primo posto della Chatbot Arena LLM Leaderboard.
Un test di Google Gemini 2.0 Flash Thinking
L'ho provato su un task di coding e uno multimodale, in cui il sistema elabora
un file MP3 di un dialogo, trascrivendolo con la suddivisione degli speaker.
--------------------------------------------------------------------------------
DEEPSEEK R1: NAVIGAZIONE WEB + REASONING
DeepSeek R1 permette un'azione che mi ha davvero stupito, non realizzabile con
o1 di OpenAI: unisce la ricerca online al "reasoning".
Nel prompt dell'esempio, chiedo al modello di cercare online la documentazione
di Magentic-One (un AI agent per l'automazione del browser), e di implementare
un sistema che cerca su Amazon un prodotto e genera un report, mostrandomi anche
gli screenshot di navigazione.
> DeepSeek diventa un modello di "reasoning" evoluto, in grado di "documentarsi"
> online per sviluppare.
Nelle immagini si vede anche l'esecuzione del codice su Colab, con il risultato
e gli screenshot.
DeepSeek R1: navigazione web + reasoning
> Le fasi di prototipazione e di ottimizzazione possono avere degli interessati
> benefici.
--------------------------------------------------------------------------------
DEEPSEEK R1 IN LOCALE, SUL MIO LAPTOP
Ho provato DeepSeek R1 in locale, sul mio laptop.
La versione è la 8B, basata su architettura LLaMA, con quantizzazione a 4 bit
(Q4_K_M).
I task di test sono semplici (classificazione e sintesi), ma, pur essendo
quantizzato a 4 bit la qualità è sorprendente.
La velocità non è grandiosa, ma con l'hardware che ho usato è tutto come da
aspettative. Però è chiaro che, con l'aumento della qualità dei modelli open
source, con un discreto supporto di GPU (che consente di usare LLM più grandi e
quantizzazioni meno severe), e magari con architetture basate su sistemi
multi-agente, ormai si possono ottenere ottimi risultati in locale.
DeepSeek R1 in locale, sul mio laptop
> Questo tipo di sperimentazione, inoltre, fa ragionare meglio sulla potenza dei
> modelli che usiamo in base ai task da compiere. Queste ottimizzazioni, in
> ottica di applicazioni multi agente, possono migliorare le infrastruttura e
> ridurre i costi.
--------------------------------------------------------------------------------
QWEN 2.5 MAX
> Siamo in un momento in cui i modelli della stessa classe hanno prestazioni
> sempre più simili. Anche il prezzo per token generale, secondo me, tenderà a
> ridursi drasticamente (a zero). Il tutto renderà i LLM delle vere e proprie
> commodity, e ciò che farà davvero la differenza sarà l'integrazione e
> l'architettura che li saprà sfruttare meglio.
Durante il "frastuono" DeepSeek, infatti, Alibaba ha rilasciato diversi modelli,
tra cui Qwen 2.5 Max.
È basato su Mixture-of-Experts (MoE), addestrato su oltre 20 trilioni di token e
perfezionato con tecniche avanzate come Supervised Fine-Tuning (SFT) e
Reinforcement Learning from Human Feedback (RLHF).
L'ho provato in diversi task, ed è indubbiamente evoluto. Dai dati, batte
diversi modelli in diversi benchmark, tra cui DeepSeek V3.
Alcuni test di Qwen 2.5 Max
> L'integrazione? Ormai le chiamate API sono intercambiabili: basta cambiare un
> parametro per provare qualunque modello.
Vai al post
--------------------------------------------------------------------------------
IL PROGETTO MARINER DI GOOGLE
Il progetto Mariner di Google è un esempio di unione tra i concetti di AI Agent,
multimodalità, e reasoning.
Si tratta di un sistema agentico basato su Gemini 2.0 in grado di automatizzare
processi nel browser interagendo con l'utente.
Il progetto Mariner di Google
Per ogni task crea un piano attraverso catene di ragionamento, descrive le
operazioni e le esegue.
Nella demo viene specificato che non lavora in background, per sottolineare il
concetto di "human in the loop" e di "co-working".
Vai al progetto
> Tuttavia, è possibile realizzare sistemi simili completamente autonomi e
> automatizzati, con framework come Autogen e tool che eseguono la navigazione
> attraverso il browser.
--------------------------------------------------------------------------------
AGENTS: UN PAPER DI GOOGLE DEDICATO AI SISTEMI AGENTICI
Google ha pubblicato un paper sullo sviluppo di sistemi basati su AI Agent.
Gli agenti rappresentano un passo avanti per l'intelligenza artificiale
generativa, permettendo ai LLM di andare oltre la semplice elaborazione del
linguaggio.
Grazie a strumenti come API Extensions, Data Stores e framework di ragionamento
avanzati (es. ReAct, Chain-of-Thought), gli AI Agent possono interagire con il
mondo reale, prendere decisioni autonome e completare task complessi.
Agents: un paper di Google dedicato ai sistemi agentici
PUNTI CHIAVE
* Autonomia. Gli agenti combinano ragionamento, logica e accesso a dati esterni
per eseguire azioni in modo indipendente.
* Strumenti avanzati. L'uso di Extensions e Data Stores li rende capaci di
accedere a informazioni in tempo reale e integrarsi in sistemi esistenti.
* Applicazioni. Dallo sviluppo di tool con LangChain alla gestione end-to-end
tramite Vertex AI, le opportunità sono immense.
Vai al paper
> Il futuro? L’adozione di architetture collaborative, come il “mixture of agent
> experts”, promette di affrontare con successo problemi complessi, offrendo
> soluzioni sempre più scalabili e innovative.
--------------------------------------------------------------------------------
LA NUOVA VERSIONE DI AUTOGEN DI MICROSOFT
Microsoft rilascia la versione 0.4 "stable" di Autogen (il noto framework per
applicazioni multi-agent), e il nuovo Autogen Studio.
L'aggiornamento migliora scalabilità, robustezza e flessibilità, affrontando le
limitazioni delle versioni precedenti grazie a un'architettura asincrona e
basata su eventi.
LE NOVITÀ
1️. Scambi asincroni. Supporta interazioni dinamiche e scalabili tra AI Agent.
2️. Modularità. Gli utenti possono personalizzare agenti, strumenti, memoria e
modelli, rendendo il sistema adattabile.
3️. Osservabilità e debugging. Metriche integrate, tracciabilità e supporto
OpenTelemetry per monitorare e controllare i flussi di lavoro.
4️. Supporto multi linguaggio. Interoperabilità tra agenti scritti in Python,
.NET (e presto altri).
5️. Strumenti migliorati. AutoGen Bench per il benchmarking delle performance
degli agenti, e AutoGen Studio, un'interfaccia low-code per prototipare agenti
AI, con funzioni come controllo in tempo reale e visualizzazione dei messaggi.
Nelle immagini, si può vedere proprio un sistema che ho realizzato con questo
sistema.
Esempi di utilizzo di Autogen Studio e Magentic-One
Tra le applicazioni, è disponibile Magentic-One, che permette dei flussi
multi-agent già impostati per coding, ricerca web e ricerca tra i file. Nelle
immagini è possibile vederne un'esecuzione dalla console Python: il sistema fa
una ricerca online per eseguire il mio task.
Vai al post
> Lo sviluppo di architetture multi-agent migliora, e migliorano le potenzialità
> e le performance delle applicazioni. Autogen Studio lo trovo ancora troppo
> acerbo, ma l'inizio è notevole.
UN TEST DI MAGENTIC-ONE
In questo test basato su Magentic-One, ho usato il componente
MultimodalWebSurfer.
Un test di Magentic-One
Naviga online per eseguire una richiesta, mostrando anche gli screenshot delle
pagine che processa. Infine completa il task rispondendo alla mia domanda.
Vai a un altro test
--------------------------------------------------------------------------------
TITANS: UN'EVOLUZIONE DEI TRANSFORMER
Google Research ha presentato Titans, una nuova architettura che introduce un
modulo di memoria neurale a lungo termine. Non si tratta di uno stravolgimento
dei Transformers, ma di una variante che ne estende le capacità, affrontandone i
limiti principali.
Titans di Google
COME FUNZIONA?
Titans aggiunge una memoria a lungo termine che lavora insieme al noto
meccanismo dell'attenzione, ottimizzando il recupero delle informazioni dal
passato senza limitarsi alla finestra di contesto immediata. Questo permette di:
* ricordare informazioni lontane nel tempo;
* gestire sequenze molto estese (oltre 2 milioni di token);
* mantenere efficienza con un'inferenza veloce e scalabile.
UN CONTRIBUTO DISTINTIVO
Una delle innovazioni più interessanti di Titans è la capacità di imparare a
memorizzare durante il test. Questo è reso possibile grazie a un meccanismo di
apprendimento basato sulla "sorpresa": il gradiente della rete rispetto al suo
input viene usato come misura della sorpresa. I dati più inaspettati o
sorprendenti vengono prioritizzati per la memorizzazione, imitando il modo in
cui gli esseri umani trattengono più facilmente le informazioni nuove. Questo
processo è potenziato da un meccanismo di "decadimento" che evita il
sovraccarico delle risorse di memoria.
PERCHÉ È RILEVANTE?
I Transformers sono eccellenti per contesti brevi, ma diventano meno efficaci
con sequenze più lunghe. Titans combina tre tipi di memoria (breve termine,
lungo termine, persistente) per migliorare compiti complessi come modellazione
linguistica, ragionamento, genomica (analisi di dati genetici) e analisi di
serie temporali.
NON UNO STRAVOLGIMENTO, MA UN'EVOLUZIONE
Titans arricchisce i Transformers con nuove funzionalità senza riscrivere
l'architettura da zero. È un passo importante verso modelli che possono gestire
contesti enormi in modo più naturale ed efficiente.
Vai al paper
> Una nuova era per l'AI? Titans potrebbe segnare l'inizio di un nuovo capitolo
> nei modelli di linguaggio, promettendo di sbloccare scenari inediti per
> applicazioni complesse e agenti più intelligenti.
--------------------------------------------------------------------------------
GENERAZIONE DI IMMAGINI: UN PAPER DI GOOGLE
> Il lavoro sull'aumento della qualità dell'inferenza, invece di concentrarsi
> "solo" sulla scala dei modelli, è un trend che coinvolge non solo i LLM, ma
> anche i modelli di diffusione (generazione di immagini).
Il paper di Google DeepMind studia un modo per migliorare i modelli di
diffusione, non solo durante il training ma anche quando vengono usati per
generare immagini (inferenza).
Normalmente, questi modelli migliorano aumentando il numero di "step di pulizia"
(denoising), ma oltre un certo punto i miglioramenti diminuiscono drasticamente.
Si propone un nuovo approccio: invece di fare solo più step di denoising, si
cerca di trovare i migliori "punti di partenza" (rumori iniziali) per il
processo di generazione. Questo avviene attraverso un sistema che combina
strumenti per valutare la qualità delle immagini e algoritmi per esplorare nuove
opzioni.
Generazione di immagini: un paper di Google
Con questa strategia, si riescono a creare immagini più realistiche e migliori,
adattando il metodo alle esigenze di ogni situazione, come immagini condizionate
da un testo o classi specifiche.
> In parole semplici, il paper mostra che usando meglio le risorse
> computazionali durante l'inferenza, si possono ottenere risultati molto
> migliori dai modelli senza agire sulla scala.
Vai al paper
--------------------------------------------------------------------------------
BROWSER USE
Stanno nascendo diversi AI Agent che lavorano come Operator di OpenAI. I più
interessanti che ho visto sono Magentic-One (visto in precedenza) e Browser Use.
Entrambi sono progetti open source usabili con poche righe di Python, e Browser
Use ha anche la versione Cloud, con una comoda interfaccia web (costo:
30$/mese).
Anche con proxy, autenticazione persistente, cronologia dei messaggi e
"intervento umano" nelle azioni di automazione.
Browser Use - Make websites accessible to AI agents
Make websites accessible for AI agents. Extract interactive elements and
automate browser interactions.
Enable AI to control your browser
Browser Use supera Operator nel benchmark definito "WebVoyager".
* Browser Use: https://browser-use.com/
* Versione in Cloud: https://cloud.browser-use.com/
--------------------------------------------------------------------------------
CHAIN-OF-AGENTS (COA)
Google Research propone un nuovo approccio per la gestione di contesti lunghi:
Chain-of-Agents (CoA).
Gli input vengono suddivisi in segmenti, ognuno dei quali viene elaborato da un
AI Agent. Gli agenti del team comunicano le informazioni all'agente manager, il
quale crea un output per l'utente.
Nel paper vengono testati diversi LLM, tra cui Gemini e Claude, con risultati
che superano l'approccio RAG e l'uso di modelli con contesti estesi.
Chain of Agents: Large language models collaborating on long-context tasks
> Su input che superano i 400k token le performance migliorano anche del 100%.
--------------------------------------------------------------------------------
GLI AMBIENT AGENTS DI LANGCHAIN
LangChain introduce il concetto di "ambient agents", ovvero AI Agent che non
agiscono in base a interazioni con gli utenti (es. una richiesta in chat), ma in
base al verificarsi di eventi.
Introducing ambient agents
Most AI apps today follow a familiar chat pattern (“chat” UX). Though easy to
implement, they create unnecessary interaction overhead, limit the ability of us
humans to scale ourselves, and fail to use the full potential of LLMs. Over the
past six months, we’ve been exploring a different approach at
LangChain BlogHarrison Chase
Gli agenti monitorano dei flussi di eventi, e agiscono autonomamente, in base al
loro addestramento e ai tools che hanno a disposizione. Coinvolgono l'utente
solo quando è necessario attraverso notifiche, per approvazioni o richieste di
informazioni aggiuntive.
> Ad esempio, potrebbero monitorare le mail in ingresso, e agire su alcune di
> esse per automatizzare processi.
--------------------------------------------------------------------------------
TUTTO VIENE DEFINITO "AI AGENT"
Oggi tutto viene definito AI Agent: è il termine del momento. Ma non si tratta
di una novità (marketing a parte).. ChatGPT stesso si potrebbe definire un
agente, infatti si basa su un LLM che può usare autonomamente degli strumenti
(coding, web navigation, vision, image generation) per completare task forniti
in input. Così come i GPTs, che possono interagire con API esterne come tool.
Gli aspetti interessanti dell'attuale sviluppo in ambito di AI, invece,
riguardano i workflow multi-agent, e il concetto di "ambient agents". Ovvero
sistemi che mettono in gioco più agenti specializzati, ognuno con i propri tool,
che lavorano in team autonomi per completare task. Attivati non solo da input
diretti da parte degli esseri umani, ma da eventi, coinvolgendo gli utenti solo
quando è necessario.
> Questi meccanismi guideranno le prossime evoluzioni in ambito di AI, più delle
> nuove generazioni di modelli. Perché i modelli più performanti comunque
> lavoreranno in questi workflow potenziandoli ulteriormente.
Andrew Ng sul tema degli AI Agent
> E tutto questo non riguarderà solo il mondo digital, ma anche quello fisico,
> "semplicemente" con attuatori diversi (Physical AI).
--------------------------------------------------------------------------------
GOOSE
> L'open-source sta vivendo un momento straordinario nello sviluppo di soluzioni
> basate sull'AI.
DeepSeek ha lanciato V3 e R1, Alibaba ha presentato Qwen 2.5-1M, Microsoft con
la nuova versione di Autogen.
E Jack Dorsey ha presentato Goose, un framework open-source che semplifica la
creazione di AI Agent.
Il sistema permette di scegliere i LLM alla base degli agenti, e mette a
disposizione un'interfaccia desktop, una CLI (riga di comando) e integrazioni
con strumenti e applicazioni attraverso Model Context Protocol (MCP).
codename goose | codename goose
Your open source AI agent, automating engineering tasks seamlessly.
Block Logo
> È molto interessante vedere come l'attenzione si sta collocando non solo sui
> modelli (che ormai vengono dati per scontati e iniziano a equivalersi), ma
> anche sul layer di integrazione nelle applicazioni.
--------------------------------------------------------------------------------
IL PROGETTO COSMOS DI NVIDIA
Nvidia, dopo averlo raccontato al CES, inizia a mettere a disposizione strumenti
dedicati all'accelerazione dello sviluppo dell'AI "fisica" (Physical AI).
Cosmos è una piattaforma dedicata proprio a questo, attraverso World Foundation
Model (WFM), ovvero modelli costruiti per robotica, e veicoli autonomi.
Il progetto Cosmos di Nvidia
Include strumenti per elaborare dati visivi e video, creando modelli AI che
comprendono dinamiche fisiche e generano video di alta qualità basati su input
multimodali (immagini, testo, video).
Vai al progetto
> Nell'esempio, il modello riconosce gli elementi in una scena (che cambia), e
> li modifico attraverso prompt testuali.
--------------------------------------------------------------------------------
L'INTEGRAZIONE DI GEMINI SU CHROME
La forza dell'integrazione nell'ecosistema: Chrome > YouTube > Gemini.
Nel video, uso lo shortcode @Gemini, e scrivo un prompt direttamente nella barra
degli indirizzi di Chrome, includendo l'URL di un'intervista su YouTube.
L'elaborazione di un video di YouTube attraverso Gemini
Quello che ottengo, è l'elaborazione del contenuto del video su Gemini Advanced,
il quale si connette a YouTube per estrarre le informazioni necessarie.
> L'intervista dura quasi 3 ore, ma in qualche secondo ottengo le informazioni
> che cercavo.
--------------------------------------------------------------------------------
STORM: L'UNIONE DI UN LLM ALLA RICERCA ONLINE
Stanford lancia STORM, un sistema open source molto simile alla Deep Research di
Gemini (Google) e di OpenAI.
Utilizza modelli di linguaggio di grandi dimensioni (LLM) per generare articoli
in stile Wikipedia, basandosi su ricerche approfondite sul web, e fornendo le
citazioni.
STORM: l'unione di un LLM alla ricerca
Per provarlo
Co-STORM, una funzionalità ulteriore, estende STORM per supportare la
collaborazione tra esseri umani e modelli di AI. Include strumenti come mappe
concettuali dinamiche per semplificare il lavoro su argomenti complessi e
incoraggia il coinvolgimento umano per orientare le discussioni.
Vai alla libreria Python
--------------------------------------------------------------------------------
I TASK DI CHATGPT
ChatGPT, aggiungendo le "attività", prova ad accelerare il processo per
diventare un assistente personale per gli utenti.
La nuova funzionalità (beta), infatti permette di salvare delle attività
ricorrenti attraverso il linguaggio naturale, con la possibilità di gestirle e
modificarle successivamente.
Nell'esempio ho chiesto un report di notizie sull'AI ogni giorno alle 7:30.
Task di ChatGPT: un esempio
> L'unione del LLM con questo tipo di task è davvero interessante. Il top,
> sarebbe la possibilità di usare un prompt con dei GPT custom schedulati.
--------------------------------------------------------------------------------
LA CAPACITÀ DI RAGIONAMENTO DEI LLM: UN NUOVO BENCHMARK
> Entusiasmo sì, ma spirito critico sempre attivo.
Questo paper illustra un nuovo benchmark, chiamato Putnam-AXIOM, per valutare la
capacità di ragionamento matematico di modelli di linguaggio avanzati (LLM).
Come funziona? Viene usata una serie di problemi, sui quali vengono apportate
delle variazioni per capire se i modelli sono in grado di generalizzare o
lavorano per memorizzazione di soluzioni "già viste" in fase di addestramento.
Risultato: il modello più accurato che è stato testato (o1-preview) ha raggiunto
solo il 41.95% di accuratezza sul set originale, subendo un calo del 30% sui
problemi variati.
Putnam-AXIOM: un nuovo benchmark per i LLM
Questo dimostra che i modelli tendono a basarsi su memorizzazione piuttosto che
su un vero ragionamento.
Vai al paper
> Esistono già modelli più evoluti, ma il concetto cambierà? Lo scopriremo.
--------------------------------------------------------------------------------
AGENTIC RAG: UN NUOVO PARADIGMA
Avevo già fatto delle sperimentazioni unendo il concetto di RAG a un sistema
multi-agent, e questo paper ne definisce proprio il paradigma, con il termine
"Agentic RAG".
"Agentic Rag": un nuovo paradigma
Di fatto, i sistemi basati su workflow di AI Agent sono approcci per migliorare
la qualità dell'inferenza, e per rendere il sistema più affidabile.
Agentic RAG integra agenti autonomi nel flusso RAG per:
* gestire dinamicamente le strategie di recupero;
* rifinire iterativamente la comprensione del contesto;
* adattare i flussi di lavoro a compiti complessi, migliorando flessibilità,
scalabilità e consapevolezza contestuale.
Vai al paper
--------------------------------------------------------------------------------
AGENTS ARE NOT ENOUGH: AGENTS, SIMS, ASSISTANTS
In un interessante paper dal titolo "Agents Are Not Enough", si torna a parlare
di ibridi composti da reti neurali e AI simbolica.
Viene descritta una nuova architettura per superare le limitazioni degli AI
Agent, composta da:
1. Agenti Specializzati: moduli autonomi ottimizzati per compiti specifici,
capaci di collaborare tra loro per risolvere task complessi.
2. Sims: rappresentazioni virtuali degli utenti che combinano preferenze,
comportamenti e contesto. I Sims agiscono come avatar digitali per
interagire con gli agenti in modo personalizzato e sicuro.
3. Assistenti: interfacce intelligenti che orchestrano le interazioni tra Sims
e Agenti, garantendo che i compiti vengano eseguiti in maniera efficiente e
conforme alle esigenze dell’utente.
Agents Are Not Enough: Agents, Sims, Assistants
L’innovazione chiave è nell’integrazione tra reti neurali (adattabilità e
apprendimento) e AI simbolica (spiegabilità e trasparenza), creando un
ecosistema scalabile e affidabile, attento alla privacy.
Vai al paper
> Un passo avanti verso un'intelligenza artificiale più utile e sicura.
--------------------------------------------------------------------------------
I MODELLI TRANSFORMER NEL PLANNING STRATEGICO
Questo paper di Google DeepMind esplora l'idea di usare i modelli transformer
per affrontare il problema del planning strategico nel gioco degli scacchi.
Lo scopo principale è verificare se i transformer possono imparare a giocare a
scacchi e prendere decisioni strategiche senza fare una ricerca esplicita, come
fanno i motori tradizionali tipo Stockfish o AlphaZero.
> Il modello più grande (270M) è stato in grado di giocare a livello gran
> maestro con un Elo blitz di 2895 contro umani su Lichess.
I modelli transformer nel planning strategico
> I transformer riescono a generalizzare su nuove posizioni mai viste durante
> l’addestramento, dimostrando una capacità di ragionamento strategico.
Vai al paper
--------------------------------------------------------------------------------
SORA DI OPENAI: UN ESEMPIO DI SPOT PUBBLICITARIO
Come sarebbe lo spot per una campagna di un noto brand realizzato al 100% con
Sora di OpenAI (Text-To -Video)?
È un esperimento dimostrativo di Dave Clark, un creative director
professionista. Ci tengo a specificarlo per mettere in evidenza un concetto
importante: l'AI non genera skill, ma potenzia competenze già consolidate.
Un esempio di spot pubblicitario generato con Sora
Ci sarà chi critica a prescindere questi sistemi, chi dirà "è freddo e
senz'anima" (solo perché sa che è stato generato da un algoritmo), o chi andrà a
scomporre tutti i fotogrammi per trovare un'incoerenza..
> Probabilmente sì, è "freddo e senz'anima", ma questo non fermerà il progresso.
E le imprecisioni ci sono. Ma, secondo me, non si dovrebbe pensare a cosa sono
questi modelli oggi. Ma si dovrebbe ricordare cos'erano due anni fa, e cos'erano
un anno fa, per poi provare a immaginare quanto saranno di supporto alla
creazione tra un anno.
--------------------------------------------------------------------------------
VEO 2 DI GOOGLE: UN CORTOMETRAGGIO
Un cortometraggio dal titolo "Fade Out", realizzato da Jason Zada (regista
professionista) con Veo 2 di Google.
Il tentativo è stato quello di generare dettagli simili a quelli dei film (es.
movimenti della camera, illuminazione, texture, emozioni) "per creare una
storia, non un montaggio".
"Fade Out": un cortometraggio realizzato con Veo 2 di Google
> L'AI non genera skill, ma potenzia
> le competenze già consolidate.
--------------------------------------------------------------------------------
RAY2 DI LUMA LABS
Luma Labs ha rilasciato Ray2, un nuovo modello dedicato ai video. Inutile dire
che la qualità è impressionante.
* Realismo senza precedenti. Movimenti naturali e dettagli ultra-realistici.
* Versatilità creativa. Generazione Text-To-Video, Image-To-Video, editing
avanzato.
* Potenza amplificata. Architettura multimodale e potenza computazionale 10
volte superiore rispetto al modello precedente.
Video realizzati con Ray2 di Luma Labs
> Una nuova frontiera per l'immaginazione visiva?
--------------------------------------------------------------------------------
S2V-01 DI HAILUO: LA PERSONALIZZAZIONE DEL VIDEO
Hailuo presenta S2V-01, un nuovo modello di generazione video che si concentra
su una delle sfide più grandi del settore: mantenere i tratti del viso coerenti
e realistici, indipendentemente dalle inquadrature.
Genera video con personaggi da una sola immagine di riferimento, e ogni
fotogramma rimane fedele con accuratezza.
Un test di S2V-01 di Hailuo
Nel video un mio test: ho usato la mia immagine di profilo e dei prompt testuali
in cui descrivo le scene.
> I modelli di generazione video continuano a migliorare e ad evolversi.
--------------------------------------------------------------------------------
FLUX 1.1 PRO ULTRA
Ho fatto alcuni test con Flux 1.1 Pro Ultra.
La qualità delle immagini non stupisce più (ormai ci siamo abituati), ma
generare immagini di queste dimensioni in qualche secondo è impressionante.
Il modello, infatti, arriva fino a 4MP, con elevata aderenza al prompt in meno
di 10 secondi.
--------------------------------------------------------------------------------
FRAMES DI RUNWAY
Runway rilascia Frames, e il panorama della generazione di immagini cambia
nuovamente, con un altro player di peso.
Immagini generate attraverso Frames di Runway
Nella presentazione si parla di "controllo stilistico e fedeltà visiva senza
precedenti".. beh, lo vedremo, ma le anteprime non scherzano.
Vai al post
> Runway diventa una piattaforma per la content creation sempre più completa.
--------------------------------------------------------------------------------
INTELLIGENZA ARTIFICIALE E ISTRUZIONE: UNO STUDIO
Studio: in cinque moduli di un corso di laurea in psicologia, sono state inviate
alcune risposte create al 100% dall'AI, come se fossero scritte da studenti. I
professori che correggevano non lo sapevano.
Il 94% delle risposte generate non è stato rilevato come sospetto. L'algoritmo
ha ottenuto, in media, voti più alti rispetto agli studenti reali. In alcuni
casi, l'AI ha superato l'80% degli studenti.
Intelligenza Artificiale e Istruzione: uno studio
> L'esperimento ha dimostrato che l'AI può facilmente passare inosservata negli
> esami e che bisogna ripensare ai metodi di valutazione per affrontare questa
> nuova realtà.
Vai al paper
--------------------------------------------------------------------------------
- GRAZIE -
Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre
persone, condividilo 🙂
ISCRIVITI ALLA NEWSLETTER
Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su
tematiche relative all'intelligenza artificiale.
Iscriviti alla Newsletter
Email sent! Check your inbox to complete your signup.
Gratuita. No Spam. Puoi disiscriverti quando vuoi.
Consulta la privacy policy.
Si sono recentemente conclusi i "12 Days" di OpenAI: dodici giorni di live
streaming in cui il brand ha presentato le innovazioni e le nuove features
sviluppate nell'ultimo periodo.
In questo contenuto li ripercorreremo insieme, ma con l'aggiunta di riflessioni
e spunti che riguardano lo sviluppo dell'Intelligenza Artificiale nel prossimo
futuro.
--------------------------------------------------------------------------------
1) DALL'AUMENTO DELLA SCALA AL MIGLIORAMENTO DELLA QUALITÀ DELL'INFERENZA
Con il "Day 1", e il rilascio di o1 "full" e "Pro", OpenAI continua il percorso
del miglioramento delle performance dei modelli guidato dall'aumento della
qualità dell'inferenza.
o1 è migliore, più veloce, multimodale, adattivo, e non solo dedicato a task di
calcolo.
Day 1 di OpenAI: o1 e oi Pro
La recente storia dell’AI può essere riassunta in una parola: scala. Ovvero
performance = modelli sempre più grandi e che necessitano di potenza di calcolo
sempre maggiore. Sistemi come 01 dimostrano che non si tratta più dell'unico
percorso di crescita.
Come funzionano questi sistemi? Quando il modello riceve il prompt in input,
prima di dare la risposta, produce una serie di token di reasoning. In pratica,
è addestrato per sviluppare catene di pensiero, in cui analizza il problema
passo dopo passo, fa diverse ipotesi e le confronta; infine, dopo questi step,
genera l'output con una qualità superiore.
Un esempio di funzionamento di o1 di OpenAI
Anche Google sta evolvendo i suoi modelli in questa direzione. Recentemente,
infatti, ha rilasciato Gemini 2.0 Flash Thinking su AI Studio, che funziona
anche su task con input multimodale.
Un esempio di Gemini 2.0 Flash Thinking
Il potenziale di questi sistemi, unito ad architetture multi-agente in cui i
"reasoner" guidano le azioni dei singoli agenti, porterà ad applicazioni davvero
interessanti.
Qualche giorno fa, ho realizzato un software di questo tipo usando Autogen di
Microsoft come framework, in cui diversi AI agent collaborano per fare una
predizione su un dataset.
Gli agenti sono basati su GPT-4o e o1. Creano un piano d'azione autonomamente,
sviluppano il codice necessario installando le librerie che mancano, lo eseguono
correggendo eventuali errori fino ad arrivare all'output.
Il sistema valuta anche le performance e modifica la rete neurale che si occupa
della predizione in modo da ottimizzarla.
Sistema multi-agent che genera una prediction su un dataset
> Mi aspetto un framework multi-agent da OpenAI, che vada oltre al progetto
> Swarm.
--------------------------------------------------------------------------------
2) MIGLIORA LA CAPACITÀ DI GENERALIZZAZIONE DEI MODELLI DI LINGUAGGIO
Il "Day 2" di OpenAI è il giorno del Reinforcement Fine-Tuning (RFT), applicato
ai modelli o1.
Day 2 di OpenAI: Reinforcement Fine-Tuning (RFT)
Mentre il fine-tuning si limita a fornire dati al modello, addestrandolo a
imitarli (miglioramento di tono, stile, formato), il Reinforcement Fine-Tuning
punta ad aumentare la capacità di generalizzazione: il modello riceve un dataset
di training, e successivamente prova a risolvere un problema ricevendo un
punteggio (dal grader) per la qualità della risposta.
Se la risposta è corretta, viene premiato, altrimenti viene "scoraggiato" a
perseguire quella linea di ragionamento.
Questa nuova funzionalità mira a migliorare la capacità dei modelli di
affrontare compiti complessi e specifici.
> Nuove architetture che aumentano la precisione e la qualità dell'inferenza,
> addestrando i modelli a compiere un "ragionamento" in modo migliore.
--------------------------------------------------------------------------------
3) LA QUALITÀ DEGLI OUTPUT MULTIMEDIALI AUMENTA, CREANDO STRUMENTI POTENTI PER I
CONTENT CREATOR
Il "Day 3" di OpenAI è il giorno di Sora, il tanto atteso modello per la
generazione di video.
Si tratta di una nuova piattaforma disponibile su sora.com, in grado di creare
video (da 5 a 20 s, e da 480p a 1080p) attraverso prompt testuali e immagini
statiche, di editare e mixare video con stili diversi e di estenderli in
entrambe le direzioni.
Day 3 di OpenAI: Sora
La funzionalità "storyboard" è quello che mancava per questi sistemi: permette
di dirigere video complessi con una sequenza di azioni sulla timeline, e con
transizioni fluide.
Lo Storyboard di Sora
Il video che segue, mostra un esempio di video che ho generato attraverso lo
storyboard che si vede nell'immagine precedente, e successivamente modificato
con la funzione "Remix", che permette di modificare degli elementi in un video
attraverso prompt testuali.
Un esempio della funzionalità "Remix" di Sora
Sora è già usabile negli USA e in altri paesi non specificati nella
presentazione, ma è stato sottolineato che per Europa e UK ci vorrà del tempo.
Il modello viene distribuito in versione limitata (video, qualità, durata,
filigrana) per gli abbonati ChatGPT, con funzionalità complete per gli abbonati
Pro.
Sicurezza: i video vengono contrassegnati da una filigrana e da metadati C2PA.
In fase di caricamento delle immagini che fanno da driver per i video, inoltre,
l'utente deve dichiarare che si tratta di materiale che non riguarda minorenni,
contenuti espliciti o violenti, e materiale protetto da copyright.
Dopo il lancio di Sora, Google ha annunciato Veo 2, che dimostra una qualità
impressionante, con la capacità di generare video in 4k.
Esempi di video generati attraverso Veo 2 di Google
Anche Pika ha lanciato la versione 2.0 del suo modello, introducendo (in
risposta allo Storyboard di Sora) uno strumento per una generazione di video più
controllata, chiamato "Scene Ingredients".
Scene Ingredients di Pika 2.0
E non poteva mancare la risposta di Runway, che introduce i fotogrammi chiave
intermedi per Gen-3. Si tratta di un sistema per passare facilmente da una scena
all'altra avendo maggior controllo della creazione, che ormai è l'obiettivo
principale di questi strumenti.
Video generato attraverso Runway Gen-3 e i fotogrammi chiave intermedi
> La qualità di questi modelli non stupisce più. Quello che stupisce è come
> stanno diventando (con una forza sempre maggiore) degli strumenti chiave per i
> content creator.
--------------------------------------------------------------------------------
4) L'EVOLUZIONE DEGLI EDITOR CON LLM PER UNA CO-CREAZIONE SEMPRE MIGLIORE
Il "Day 4" è il giorno dell'evoluzione di Canvas.
Day 3 di OpenAI: Canvs
Vediamo le tre innovazione più interessanti.
1. La possibilità di portare qualunque testo su Canvas, anche semplicemente
copiandolo e incollandolo da un file (prima era necessario eseguire un
prompt per aprire l'interfaccia).
2. L'esecuzione del codice. È possibile lavorare sul codice ed eseguirlo
direttamente su Canvas. Il sistema può mostrare la console degli errori (con
la possibilità di fixare), e l'output (testo e diagrammi).
Questa funzionalità è carina, ma, dopo alcuni test, ho delle perplessità.
Che tipo di codice può essere eseguito in un ambiente come questo? Senza la
possibilità di avere un dataset a disposizione, né accesso esterno.. Certo,
poche righe di Python con dati simulati, ma non qualcosa di più strutturato.
3. Le nuove features che permettono ai GPTs custom di lavorare direttamente su
Canvas, sia con il testo, sia con lo sviluppo di codice.
> Gli editor dotati di assistenti basati
> sui LLM sono una realtà consolidata.
Anche Anthropic ne ha una versione nel suo Artifacts, e abbiamo Gemini integrato
su Colab. Tra le innovazioni più interessanti troviamo Spark di GitHub (oltre a
Copilot), che permette di creare micro-applicazioni web utilizzando il
linguaggio naturale, rendendo lo sviluppo accessibile anche a chi ha competenze
di programmazione meno avanzate. Parallelamente, Replit ha sviluppato AI Agent,
una piattaforma che guida l'utente nella generazione e distribuzione di
applicazioni complete, riducendo significativamente i tempi di sviluppo e
abbassando la barriera d'ingresso per la creazione di software.
--------------------------------------------------------------------------------
5) L'INTEGRAZIONE NEGLI ECOSISTEMI
Il "Day 5" è il giorno dell'integrazione con Apple Intelligence.
ChatGPT è ora integrato in iOS, iPadOS e macOS. Siri, ad esempio, può passare le
richieste a ChatGPT quando servono risposte più complesse. Può contribuire alla
scrittura e all'analisi di documenti, e si integra con la fotocamera per
analizzare elementi visivi.
Day 5 di OpenAI: Apple Intelligence
> Una dimostrazione di agenti collaborativi integrati negli ecosistemi. Cosa che
> sta dimostrando anche Google con Gemini 2.0.
--------------------------------------------------------------------------------
6) LA MULTIMODALITÀ E L'INTERAZIONE UOMO-MACCHINA
Il "Day 6" è il giorno del potenziamento dell'Advanced Voice Mode.
La funzionalità permette di conversare con ChatGPT usando video dal vivo e
condivisione dello schermo: un'interazione con l'assistente in tempo reale per
ricevere aiuti pratici.
Day 6 di OpenAI: Advanced Voice Mode
Quelli che seguono sono alcuni miei test della modalità, che purtroppo non è
ancora disponibile in Italia (ho usato una VPN).
Advanced Voice Mode di ChatGPT con video in real-time
Nel frattempo anche Microsoft ha rilasciato Copilot Vision, che permette
un'esperienza di navigazione collaborativa, con l'assistente che può "vedere" lo
schermo in tempo reale dando suggerimenti e interagendo con l'utente attraverso
la voce.
Copilot Vision now in preview – a new way to browse | Microsoft Copilot Blog
Since we first announced the new consumer Copilot in October, we have loved
seeing the ways people have made Copilot their own. It has helped people think
through their ideas and get a fresh perspective, has made it less overwhelming
to find the right information, and has even helped people feel supported when
navigating difficult
Microsoft Copilot BlogThe Copilot Team
Google, procedendo nella stessa direzione, ha reso disponibile l'interazione
multimodale con Gemini 2.0, con la possibilità di dialogare con l'assistente
attraverso la voce, condividendo anche la camera del dispositivo e lo schermo.
Nel video che segue, una mia demo, in cui lavoro a schermo condiviso e uso la
voce per comunicare con il modello (il sistema è usabile su Google AI Studio).
Gemini 2.0: un esempio di utilizzo con schermo condiviso e voce
Problemi con la lingua a parte, si tratta di un'esperienza davvero interessante,
e fa capire il potenziale di questa tecnologia.
> L'interazione multimodale è ormai a un livello di qualità importante, e
> migliorerà. Se due anni fa eravamo in preda alla delusione per Alexa e Google
> Assistant, oggi iniziamo a intravedere una nuova possibilità.
--------------------------------------------------------------------------------
7) MIGLIORA L'ORGANIZZAZIONE DEI PROGETTI ALL'INTERNO DELLE PIATTAFORME
Il "Day 7" è il giorno dei progetti (Projects) su ChatGPT.
Si tratta di un sistema di organizzazione delle chat, che permette di
raggrupparle e di centralizzare system prompt e l'utilizzo di file.
Day 7 di OpenAI: Projects su ChatGPT
Tutte le chat del progetto, in pratica, hanno nel contesto le istruzioni e i
file di riferimento.
> Le piattaforme non sono più solo interfacce in cui è possibile usare un LLM
> "one-shot", ma strumenti di organizzazione del lavoro.
--------------------------------------------------------------------------------
8) L'ASCESA DEI SISTEMI IBRIDI CHE INTEGRANO UN MODELLO DI LINGUAGGIO AL MOTORE
DI RICERCA
Il "Day 8" è il giorno dell'ottimizzazione della Search di ChatGPT.
Più veloce, migliorata da mobile e integrata con mappe interattive.
Day 8 di OpenAI: Search di ChatGPT
Anche l'Advanced Voice Mode è stata dotata della ricerca, eliminando il gap con
Gemini Live su questo aspetto.
Perplexity, nel frattempo, fa notevoli passi in avanti, introducendo lo Shopping
e il Merchant Program, attraverso il quale i brand possono mettere a
disposizione il feed dei loro prodotti, per generare esperienze utente come
quelle che si possono vedere nel seguente video.
L'esperienza di shopping con Perplexity
Anche Google introduce diverse novità in questo ambito, portando AI Overviews su
Google Shopping (negli USA), e la Search su Gemini Advanced.
Nel video che segue, si può vedere un esempio della SERP di Google Shopping
statunitense con AI Overviews.
AI Overviews su Google Shopping (SERP USA)
Quello che segue, invece, è un mio test della Search su Gemini Advanced,
testabile selezionando "1.5 Pro with Deep Search" come modello.
Un esempio della Search di Google integrata su Gemini
Ho posto una query di confronto tra due modelli di smartphone. Il sistema crea
un piano di ricerca e lo esegue estraendo le fonti, e genera un output completo
del confronto. L'output è visualizzabile di Google Docs e le tabelle su
Spreadsheet. L'esperienza non è veloce, ma il risultato è molto interessante.
Un aspetto degno di nota: questa modalità è a disposizione anche via API
attraverso la funzionalità definita "grounding con la Ricerca Google", per
rendere le risposte di Gemini più affidabili.
> I sistemi ibridi composti da un motore di ricerca e un LLM si stanno
> candidando a diventare una nuova modalità di consultazione delle informazioni
> disponibili online. E saranno completi quando avranno a disposizione i dati
> strutturati messi a disposizione dai brand (es. il feed dei prodotti degli
> e-commerce).
--------------------------------------------------------------------------------
9) LE API DIVENTANO PIÙ PERFORMANTI E L'INTEGRAZIONE SI SEMPLIFICA
Il "Day 9" è il giorno dedicato agli sviluppatori.
Le novità: o1 disponibile via API con function calling, output JSON e con un
consumo di token di reasoning inferiore del 60% rispetto al modello in preview.
Sono stati introdotti anche i "Developer Messages" (consentono di guidare meglio
l'output senza interferire con le istruzioni degli utenti) e il "Reasoning
Effort", per gestire il tempo di reasoning. È stato migliorato il supporto
WebRTC, per conversazioni vocali a bassa latenza con integrazione semplificata
anche su device fisici.
Day 9 di OpenAI: novità per i developers
È stato introdotto un nuovo metodo di fine-tuning: il Direct Preference
Optimization (DPO). Invece di fornire al modello una singola risposta ideale, si
forniscono coppie di risposte in cui una è preferita rispetto all’altra.
L’addestramento si basa sull’apprendimento delle differenze tra risposte
preferite e non preferite.
> Queste tecnologie sono sempre più "controllabili" attraverso nuovi metodi di
> fine-tuning, e sempre più integrabili in modo semplice su applicazioni e
> dispositivi di qualunque genere.
--------------------------------------------------------------------------------
10) RAGGIUNGERE L'UTENTE, INDIPENDENTEMENTE DALLA TECNOLOGIA
Il "Day 10" è dedicato alle chiamate vocali e WhatsApp. Negli USA è attivo un
numero telefonico al quale risponde la Voice Advanced Mode di ChatGPT, con la
quale è possibile interagire.
Day 10 di OpenAI: telefono e WhatsApp
In tutto il mondo, è possibile "chattare" con ChatGPT via WhatsApp.
> Il tentativo?
> Raggiungere qualunque utente, indipendentemente dalla tecnologia a
> disposizione.
--------------------------------------------------------------------------------
11) L'INTERAZIONE CON LE APPLICAZIONI
OpenAI si muove verso la creazione di un assistente che interagisce con le
applicazioni e "compie azioni per conto dell'utente".
Il "Day 11" è il giorno del potenziamento dell'app desktop per MacOS (e a breve
per Windows).
Day 11 di OpenAI: work with apps
Le azioni vanno dall'automazione delle attività sul desktop all'interazione con
il terminale e IDE, e dall'assistenza alla scrittura alla generazione di
diagrammi. Il tutto con il supporto della ricerca, accesso rapido e contestuale,
e la possibilità di interazione vocale.
Anche Anthropic ha presentato un progetto di interazione con il computer per
automatizzare le operazioni. E probabilmente anche Google sta introducendo un
concetto simile con un progetto denominato Jarvis.
Google is reportedly developing a ‘computer-using agent’ AI system
It will reportedly only work in a web browser, at first.
The Verge
> Si preannuncia uno scenario in cui gli utenti potranno interagire con diversi
> AI Agent attraverso il linguaggio naturale, i quali gestiranno processi e
> applicazioni su diversi dispositivi per raggiungere gli obiettivi.
--------------------------------------------------------------------------------
12) LE NUOVE ARCHITETTURE ALLA BASE DELLA CRESCITA DELLE PERFORMANCE DEI LARGE
LANGUAGE MODEL
o3, presentato durante il "Day 12" è la dimostrazione (ancora una volta) del
fatto che non basta aumentare la scala dei modelli precedenti per incrementare
le performance: servono nuove idee e nuove architetture.
Day 12 di OpenAI: o3
L'aspetto più interessante è la capacità di adattamento che sembra avere il
modello su compiti inediti, ottenendo risultati mai visti prima, riuscendo a
sintetizzare nuove soluzioni.
Ho la sensazione che questi modelli usino una struttura multi-agent, con agenti
che valutano la richiesta (sicurezza), interagiscono autonomamente creando
catene di ragionamento (reasoning), per valutarle e per validarle.
Le performance dei modelli della serie "o" di OpenAI sul benchmark ARC-AGI
> Sulla carta, stiamo parlando di un passo in avanti sbalorditivo.. oltre ogni
> aspettativa.
Nel 2025 potremo analizzarlo più a fondo. I benchmark, attualmente, sono tutti
in ambito coding e su task matematici, e non è ancora ben chiaro come sia stato
addestrato il modello, e come siano stati condotti i test.
> Dall’AI nel 2025 mi aspetto ottimizzazione, miglioramento delle performance,
> ma soprattutto INTEGRAZIONE.
> Perché non esiste innovazione senza integrazione.
--------------------------------------------------------------------------------
- GRAZIE -
Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre
persone, condividilo 🙂
ISCRIVITI ALLA NEWSLETTER
Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su
tematiche relative all'intelligenza artificiale.
Iscriviti alla Newsletter
Email sent! Check your inbox to complete your signup.
Gratuita. No Spam. Puoi disiscriverti quando vuoi.Consulta la privacy policy.
> Buon aggiornamento, e buone riflessioni..
--------------------------------------------------------------------------------
CI VEDIAMO AL SEARCH MARKETING CONNECT
Nei giorni 11 e 12 dicembre, a Bologna, ci sarà la diciottesima edizione del
Search Marketing Connect, che sarà orientata all'impatto dell'Intelligenza
Artificiale su SEO, Analytics, ADV, Digital Strategy e Content.
Terrò due interventi:
* il primo sulla ricerca online potenziata dall'AI;
* il secondo sulle nuove architetture volte ad aumentare la qualità
dell'inferenza nei modelli di linguaggio (sistemi di "reasoning" e
multi-agent).
In entrambi, porterò concetti, sperimentazione e riflessioni.
Vai al programma completo
--------------------------------------------------------------------------------
COSA SONO GLI AI AGENTS?
Tutti parlano gli AI Agents e sistemi multi-agente. Ma di cosa si tratta?
Spiegazione semplice: un agente è un sistema che usa un LLM come motore di
"ragionamento", ed è in grado di eseguire operazioni autonomamente per
raggiungere l'obiettivo richiesto.
Cosa sono gli AI Agents?
> Un GPT connesso a diverse API esterne è un semplice esempio di agente: è il
> LLM, in base alla richiesta e ai servizi ai quali può accedere, che decide le
> azioni da compiere.
Qui è possibile consultare un esempio di implementazione di un semplice agente
usando LangChain.
Build an Agent | 🦜️🔗 LangChain
By themselves, language models can’t take actions - they just output text.
🦜️🔗 LangChain
UN ESEMPIO DI APPLICAZIONE MULTI-AGENTE
Nel video, è possibile vedere un esempio di applicazione multi-agent su AutoGen
Studio, per pianificare il miglior periodo per una vacanza con determinate
caratteristiche.
Un'applicazione multi-agent su AutoGen Studio
Gli agenti coinvolti sono: un proxy che riceve la richiesta, il team leader,
l'esperto di meteorologia, l'esperto della Grecia e l'esperto di surf.
Ogni agente è basato su GPT-4o, e ha accesso a una knowledge specifica, o a tool
che estraggono dati via API in base alle interazioni.
> I vantaggi di sistemi di questo tipo: specializzazione, scomposizione di
> problemi complessi, scalabilità, flessibilità.
--------------------------------------------------------------------------------
MODEL CONTEXT PROTOCOL (MCP)
Anthropic introduce Model Context Protocol (MCP), uno standard che semplifica la
connessione degli agenti AI a fonti di dati locali e remote.
Grazie a sistemi di questo tipo, l'LLM può collegarsi alla knowledge senza
bisogno di connettori specifici, ma con "semplici" architetture client-server.
Introducing the Model Context Protocol
The Model Context Protocol (MCP) is an open standard for connecting AI
assistants to the systems where data lives, including content repositories,
business tools, and development environments. Its aim is to help frontier models
produce better, more relevant responses.
> Questo permette di aumentare la precisione e di creare ecosistemi più
> scalabili e sostenibili, accelerando la transizione verso sistemi di AI più
> "agentici" e collaborativi.
--------------------------------------------------------------------------------
LA RICERCA SU CHATGPT
OpenAI porta su ChatGPT l'esperienza (e i feedback) di SearchGPT e le
partnership editoriali nate nell'ultimo periodo.
Si basa su GPT-4o ottimizzato con nuove tecniche di generazione di dati
sintetici e di distillazione che sfrutta o1.
> L'ho provato. È senza dubbio migliorabile, ma mi sembra un ottimo inizio di
> una nuova esperienza di ricerca.
La ricerca su ChatGPT
Mancano le integrazioni che siamo abituati a trovare nelle SERP di Google, ad
esempio.. ma le potenzialità sono enormi.
Esempi di ricerca su ChatGPT
La capacità di distillare una grande quantità di fonti in pochissimo tempo è
stupefacente. La sintesi delle competizioni sportive è un esempio lampante.
> E vogliamo parlare dell'estensione per Chrome che permette di rendere la
> ricerca di ChatGPT quella di default del browser!?
COME FUNZIONA LA RICERCA SU CHATGPT?
Il dettaglio del video fa intuire la natura del funzionamento della ricerca di
ChatGPT.
Search su ChatGPT: come funziona?
È una sorta di RAG (Retrieval-Augmented Generation): la SERP di Bing è la lista
dei "documenti" che compongono la knowledge. Le informazioni vengono trasformate
in embeddings, e con una query vettoriale il LLM costruisce la risposta.
Nell'area "citazioni" sono presenti i documenti della knowledge con le parti più
vicine semanticamente alla query, e che, come nel RAG vengono indicate tra le
fonti della risposta.
> Questo cambia il paradigma di ricerca delle informazioni: la prima estrazione
> può essere anche poco precisa (rimanendo importante), mentre il lavoro
> semantico raffinato avviene in seconda battuta.
LA RICERCA SU CHATGPT NON È SEARCHGPT!
Ho letto diversi post in cui si afferma di aver scoperto che i risultati della
ricerca di ChatGPT derivano da Bing: È COSÌ, e la documentazione lo riporta in
modo chiaro (..ma bisogna leggerla!).
La ricerca su ChatGPT non è SearchGPT
È stata migliorata la distillazione dei risultati, vengono sfruttare le
partnership editoriali, ed è stata sfruttata L'ESPERIENZA di SearchGPT (i
feedback del prototipo) per migliorare le risposte della ricerca.
> Ergo: non leggiamo solo i titoli degli articoli che troviamo online. I
> concetti vanno approfonditi.
--------------------------------------------------------------------------------
AI OVERVIEWS SU GOOGLE SHOPPING NEGLI USA
L'esperienza di AI Overviews all'interno di Google Shopping nelle SERP USA è
davvero interessante.
AI Overviews su Google Shopping in USA
Google sta "spingendo" questa tecnologia dove (attualmente) non ha rivali,
ovvero nelle piattaforme in cui i risultati sono guidati dai dati strutturati.
> Anche se la recente integrazione dello "shopping" su Perplexity fa riflettere.
GOOGLE AI SALES ASSISTANT
Sembra che Google, inoltre, stia testando AI Sales Assistant in SERP,
raggiungibile attraverso una CTA "Shop" dopo i sitelink dei brand.
La chat permette di fare domande e affinare la ricerca dei prodotti.
Google AI Sales Assistant
> I dati ben strutturati, diventano sempre di più il motore che alimenta touch
> point digitali. E il sito web è solo uno di questi.
SEO è anche comprendere questo aspetto, e curare feed e dati strutturati.
--------------------------------------------------------------------------------
LO SHOPPING DI PERPLEXITY
Perplexity introduce "shopping", che permette di fare una ricerca con intento
d'acquisto, ottenere un listing di prodotti distillato dai risultati con
informazioni dettagliate, e acquistare direttamente dalla SERP.
La ricerca può essere anche visuale.. anzi, multimodale (immagine + query
testuale).
Per approfondire
> I sistemi basati sull'AI diventano sempre di più un intermediario tra l'utente
> e l'acquisto di prodotti e servizi.
--------------------------------------------------------------------------------
BRAVE SEARCH INTRODUCE "ANSWER WITH AI"
Una nuova funzionalità che distilla risposte in base ai risultati di ricerca, e
permette una conversazione con domande di follow-up.
Il sistema si basa sui dati dell'indice di Brave e su LLM open-source e
proprietari per la generazione di risposte.
Answer with AI di Brave Search
Lo stile è quello di AI Overviews di Google, con la risposta in alto e i
risultati tradizionali a seguire.
> Il panorama si amplia, e gli ibridi tra motore di ricerca e LLM diventano
> sempre di più parte dell'esperienza utente.
--------------------------------------------------------------------------------
LA VERSIONE DESKTOP DI CHATGPT
OpenAI ha rilasciato l'applicazione desktop per Windows e MacOS.
L'ho provata, e si capisce subito come la facilità di utilizzo aumenta.
La versione desktop di ChatGP
Alt + Spazio, e l'interazione è subito pronta per ricerche, azioni sui
documenti, "vision" sullo schermo, e voce.
--------------------------------------------------------------------------------
GOOGLE SEARCH PER I MODELLI GEMINI
Dopo la ricerca su ChatGPT arriva Google Search per i modelli Gemini. L'ho
provato.
La funzionalità si chiama "Grounding with Google Search" ed è molto simile a
quella di ChatGPT.
Grounding with Google Search
Permette, però, anche si gestire il "dynamic retrieval": un parametro per
impostare l'influenza del recupero dai risultati di ricerca nella risposta del
modello.
Interessante anche vedere come il sistema scompone la richiesta in diverse
query.
> L'aspetto interessante è che sarà usabile via API, consentendo agli
> sviluppatori di creare applicazioni più accurate.
--------------------------------------------------------------------------------
SISTEMI DI "REASONING": LA QUALITÀ DELL'INFERENZA
Durante il TED AI di San Francisco, Noam Brown (OpenAI), ha affermato:
> Si è scoperto che far riflettere un bot per soli 20 secondi durante una mano
> di poker ha ottenuto lo stesso miglioramento delle prestazioni che si
> otterrebbe aumentando le dimensioni del modello di 100.000 volte e
> addestrandolo per 100.000 volte più a lungo.
Si stava riferendo alla tecnica usata su sistemi come "o1", che probabilmente
tutti i modelli (anche di altri player) adotteranno prossimamente.
Sul palco dell'AI Festival, ho condiviso la riflessione:
> La potenza di calcolo e l'accesso a grandi set di dati saranno ancora
> sufficienti per progredire? O forse siamo arrivati in un momento in cui la
> scala potrebbe non bastare più, rendendo necessarie intuizioni innovative ed
> evoluzioni algoritmiche?
Alessio Pomaro: AI Festival 2024
Sembra, infatti, che il focus si stia spostando sulla qualità dell'inferenza e
su nuove architetture, e meno sulla scala del training (visto anche che i
progressi di Orion sembrano essere al di sotto delle aspettative).
> Successivamente, si dovrà cercare l'accuratezza e la "comprensione" coerente.
--------------------------------------------------------------------------------
COSA SONO GLI EMBEDDINGS?
Sentiamo sempre più spesso parlare di embeddings: di cosa si tratta, come si
generano, e come possono essere utili nei flussi operativi?
Una spiegazione semplice, con alcuni esempi di utilizzo:
Cosa sono gli embeddings? Esempi di utilizzo
Cosa sono e come funzionano gli embeddings (o incorporamenti): una spiegazione
semplice con alcuni esempi di utilizzo in ambito SEO, e riflessioni
sull’importanza della consapevolezza di questi sistemi.
Alessio PomaroAlessio Pomaro
In ambito SEO, ad esempio, possono essere utilizzati per creare delle
redirection automatizzate per le migrazioni degli e-commerce, per gestire i 404
e per rafforzare la rete di link interni.
> Facciamo anche alcune importanti riflessioni sull'importanza della
> consapevolezza di questi sistemi per ottenere performance.
Per approfondire
--------------------------------------------------------------------------------
KLING CUSTOM MODEL E SUNO V4
Con questo video vediamo due novità incredibili: Kling Custom Models e Suno v4.
Kling Custom Model e Suno V4
Kling ora permette un training per la coerenza dei personaggi attraverso dei
video di esempio. Il video è stato creato da Alex Patrascu, addestrando Kling a
riprodurre sé stesso.
L'audio del video è stato realizzato con l'ultima versione di Suno, la 4. Anche
le tracce audio iniziano ad avere una qualità importante.
> Il risultato è.. una parte del futuro della content creation.
--------------------------------------------------------------------------------
RUNWAY: FRAMES + EXPAND VIDEO
Runway ha presentato due nuove funzionalità molto interessanti (una dedicata
alle generazione delle immagini).
FRAMES
Frames è un nuovo modello di generazione di immagini di Runway.
Le chiavi di sviluppo sembrano essere la coerenza stilistica e la fedeltà
visiva. Il tutto per essere il primo step per la generazione di video sempre
migliori.
Esempi di immagini generate con Frames di Runway
Le anteprime sono notevoli.
Per approfondire
EXPAND VIDEO
Expand Video è una nuova funzionalità per modificare le proporzioni dei video
estendendo il frame originale e mantenendo la coerenza visiva.
A questo è possibile abbinare i movimenti della telecamera ed effetti.
Expand Video di Runway
> Questo permette di creare diversi formati di video senza dover fare riprese
> aggiuntive.
Per approfondire
--------------------------------------------------------------------------------
FUGATTO DI NVIDIA
Fugatto è un nuovo modello di Nvidia dedicato al mondo audio.
> È in grado di generare e modificare qualunque tipo di mix di musica, voci e
> suoni utilizzando prompt basati su testo e file audio.
Esempi di funzionalità: creazione di nuovi suoni, cambiamento di emozioni o
accenti in una voce, manipolazione di strumenti musicali in un brano esistente,
voice-over personalizzati.
Fugatto di Nvidia
> La qualità e la precisione di questi strumenti li renderà indispensabili nei
> flussi di lavoro.
Per approfondire
--------------------------------------------------------------------------------
STILI PERSONALIZZATI SU CLAUDE
Anthropic ha introdotto una funzionalità che permette di scegliere lo stile di
scrittura su Claude.
Gli stili personalizzati su Claude
Ma soprattutto, consente di creare stili personalizzati attraverso un
addestramento: caricando esempi o usando prompt descrittivi.
--------------------------------------------------------------------------------
AISUITE DI ANDREW NG
Andrew Ng ha rilasciato Aisuite nella sua repository di GitHub: un framework
open che permette di usare qualunque LLM con poche righe di Python.
GitHub - andrewyng/aisuite: Simple, unified interface to multiple Generative AI
providers
Simple, unified interface to multiple Generative AI providers - GitHub -
andrewyng/aisuite: Simple, unified interface to multiple Generative AI providers
GitHubandrewyng
> In pratica incapsula le chiamate API dei più noti modelli, facilitando test e
> prototipazione.
--------------------------------------------------------------------------------
IGNITE 2024: LE NOVITÀ DI MICROSOFT
* Sicurezza e Data Governance. Nuove funzionalità in Microsoft Purview per
proteggere i dati e prevenire rischi legati all'AI.
* Evoluzione di Co-Pilot. Co-Pilot diventa centrale per produttività e
creatività con azioni automatizzate e agenti personalizzabili.
* Nuovi Agenti AI. Agenti specifici per moderare riunioni, gestire progetti e
fornire accesso alle informazioni in tempo reale.
Un esempio è "Interpreter": un agente AI connesso a Teams in grado di tradurre
in tempo reale la conversazione in qualunque lingua riproducendo la voce delle
persone.
> Fino a qualche anno fa lo immaginavamo.. adesso è realtà
* Co-Pilot Analytics. Strumenti per misurare l’impatto aziendale dell’uso di
Co-Pilot.
* Windows 365. Nuove soluzioni per il lavoro sicuro nel cloud e aggiornamenti
senza interruzioni.
* Innovazioni Hardware. Lancio di chip e DPUs per migliorare sicurezza,
prestazioni e sostenibilità.
* Microsoft Fabric. Unificazione di analisi e gestione operativa con database
SQL Server su Fabric.
* Azure AI Foundry. Piattaforma centralizzata per sviluppatori con modelli AI e
strumenti avanzati.
* Computing Quantistico. Progresso con 24 qubit logici entangled per affrontare
sfide scientifiche complesse.
Ignite 2024: le novità di Microsoft
--------------------------------------------------------------------------------
I NUOVI STRUMENTI DI MISTRAL
Mistral ha rilasciato una nuova versione della sua Chat, introducendo nuovi
strumenti: le ricerca online, Canvas, Advanced OCR (vision) e Image Generator.
L'ho provato!
* La ricerca online non è perfezionata: è lenta e ho ottenuto informazioni
sbagliate. Non è specificato il motore, ma spesso i risultati derivano da una
SERP in inglese. Anche se si forza la Search, non sempre esegue la ricerca.
* La generazione delle immagini è basata su Flux Pro, e questa è un'ottima
notizia. Tuttavia, ci sono problemi di incapsulamento dei prompt con la
lingua: meglio usare l'inglese.
* Canvas è interessante, ma ha problemi nel prompt multimodale: in un prompt ho
istruito il modello per generare un post a partire da un PDF, ma ha dato
errore. Al netto di questo, siamo lontani dalle funzionalità di Canvas su
ChatGPT.
> L'ottimo inizio di un nuovo sviluppo.
--------------------------------------------------------------------------------
OPERATOR DI OPENAI
OpenAI, secondo Bloomberg, starebbe lavorando sul progetto "Operator", un agente
autonomo in grado di controllare anche i dispositivi svolgendo compiti in modo
indipendente.
Questo segue un trend già avviato da Anthropic e da Google, ma ancor prima da
progetti open source come Open Interpreter.
> Gli agenti autonomi sono probabilmente il prossimo passo evolutivo per l'AI,
> che si avvia a diventare uno strato non solo tra gli utenti e le piattaforme
> digitali, ma anche nei confronti dell'hardware.
--------------------------------------------------------------------------------
USARE I MODELLI DI LINGUAGGIO SU SCREAMING FROG
Screaming Frog introduce le API per l'interfacciamento con i modelli di OpenAI,
Google e con Ollama.
Lavora sull'HTML salvato in fase di scansione, mentre nella versione precedente
si usavano snippet JavaScript personalizzati eseguiti durante il rendering delle
pagine.
È possibile generare embeddings e contenuti con prompt personalizzati su
contesti selezionabili (attraverso estrattori predefiniti e custom).
L'integrazione dei LLM su Screaming Frog
COSA MANCA? La possibilità di comporre il contesto che mettiamo a disposizione
del modello in base all'utilizzo di più elementi delle pagine estraibili con
XPath. Questo è realizzabile con la versione JS!
> Ho scritto al team di Screaming Frog, e hanno già messo la funzionalità nella
> roadmap di sviluppo. Ottimo!
--------------------------------------------------------------------------------
GEMINI NEL WORKSPACE DI GOOGLE
Google inizia ad integrare Gemini nei software del Workspace.
Negli esempi si vedono alcune interazioni su Gmail e su Drive.
Esempi dell'integrazione di Gemini nel Workspace di Google
> Tutto molto interessante, anche se le performance non sono ancora ottimali
> (almeno per l'italiano).
--------------------------------------------------------------------------------
LA SENSIBILITÀ DEI LLM NEI CONFRONTI DEI PROMPT
I LLM più grandi sono meno sensibili alle variazioni dei prompt.
Ne parla questo paper molto interessante. Ma basta fare dei test con o1 di
OpenAI per rendersene conto.
La sensibilità dei LLM nei confronti dei prompt
Questo è ottimo perché il margine d'errore si riduce anche se le interazioni
diventano più scarse, ma si riducono anche le potenzialità.
Vai al paper
--------------------------------------------------------------------------------
USARE GEMINI CON LA LIBRERIA PYTHON DI OPENAI
Gemini può essere usato attraverso la libreria Python di OpenAI.
Com'è possibile? Semplice: hanno sviluppato un proxy che traduce la sintassi
delle chiamate API di OpenAI nel formato richiesto dalle API di Gemini.
Usare Gemini con la libreria Python di OpenAI
Mossa intelligente, perché gli sviluppatori possono switchare da un modello
all'altro cambiando 2 parametri. Ma così il confronto diventa semplice.
Vai alla documentazione
> È la dimostrazione che il formato di OpenAI sta diventando uno standard.
--------------------------------------------------------------------------------
- GRAZIE -
Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre
persone, condividilo 🙂
ISCRIVITI ALLA NEWSLETTER
Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su
tematiche relative all'intelligenza artificiale.
Iscriviti alla Newsletter
Email sent! Check your inbox to complete your signup.
Gratuita. No Spam. Puoi disiscriverti quando vuoi.Consulta la privacy policy.
PUNTI SALIENTI
* Definizione di embeddings
Gli embeddings rappresentano parole e frasi come vettori numerici in uno
spazio multidimensionale, rendendo possibile una rappresentazione semantica
del linguaggio.
* Formazione degli embeddings
Durante il training, il modello perfeziona i vettori numerici per avvicinare
quelli con significati simili, facilitando la comprensione delle relazioni
semantiche tra le parole.
* Tokenizzazione e embeddings contestualizzati
I modelli suddividono il testo in token, generano embeddings per ogni token e
li combinano per rappresentare il significato dell’intero testo.
* Utilità degli embeddings nella SEO
L’uso degli embeddings supporta il miglioramento della SEO con applicazioni
come redirection automatizzata, gestione dei 404 e rafforzamento della rete
di link interni.
* Calcolo della similarità
La similarità tra embeddings si può misurare con vari metodi, con la
similarità del coseno spesso preferita, anche se il prodotto scalare e altre
tecniche possono offrire risultati comparabili.
* Integrazione nei tool SEO
Strumenti come Screaming Frog permettono di generare embeddings durante la
scansione dei siti web, integrando le API di modelli di AI (es. OpenAI,
Google, Ollama).
* Consapevolezza nell'uso degli embeddings
Per massimizzare i benefici degli embeddings, è cruciale comprendere la loro
natura e i metodi di calcolo utilizzati, evidenziando l’importanza di un
approccio consapevole e ben studiato.
Immaginiamo che lo spazio 3D che segue rappresenti uno spazio semantico del
linguaggio.
0:00
/0:28
1×
In questo scenario, ogni puntino viola rappresenta l'embedding di una parola,
ossia la sua rappresentazione numerica in uno spazio tridimensionale (la
sequenza numerica dell'embedding corrisponde alle coordinate nello spazio
multidimensionale del puntino).
> Gli embeddings sono rappresentazioni numeriche che trasformano parole o frasi
> in vettori di numeri reali.
In questo esempio, li vediamo rappresentati in 3 dimensioni, ma nella realtà
questi vettori esistono in spazi con molte più dimensioni. Gli embeddings di
OpenAI, ad esempio, arrivano a oltre 3000 dimensioni: uno spazio che non
possiamo visualizzare facilmente.
La potenza degli embeddings risiede nel fatto che i vettori "catturano" le
caratteristiche semantiche e sintattiche del linguaggio, permettendo ai modelli
di linguaggio di "comprendere" e manipolare il testo in modo matematico.
In che modo riescono a rappresentare queste caratteristiche? Le coordinate dei
vettori nello spazio multidimensionale fanno sì che parole con significati
simili siano vicine tra loro. Ad esempio, parole come "gatto" e "felino" si
troveranno vicine nello spazio degli embeddings, mentre parole come "gatto" e
"automobile" saranno molto lontane.
Un esempio semplificato del concetto di embeddings
Possiamo intuire con semplicità, quindi, che più aumentano le dimensioni dello
spazio, e più aumenta la precisione della rappresentazione.
COME VENGONO DEFINITI GLI EMBEDDINGS?
Nella fase iniziale del training di un LLM, i vettori numerici che rappresentano
le parole sono casuali o derivano da una pre-inizializzazione. Il modello,
durante l'addestramento, analizza ampie collezioni di testo, che includono dati
provenienti da libri, articoli e contenuti web, osservando l’uso delle parole in
vari contesti.
Attraverso questo processo di ottimizzazione, il modello raffina
progressivamente i valori numerici dei vettori, in modo da avvicinare tra loro
quelli che rappresentano parole con significati simili, rendendo così esplicite
le relazioni semantiche tra le parole. Ad esempio, parole che appaiono
frequentemente in contesti simili avranno rappresentazioni vettoriali simili.
Una volta concluso il training, i vettori diventano altamente raffinati e
riescono a cogliere molte delle sottigliezze del linguaggio umano, come sinonimi
e analogie.
> Ecco perché i modelli di linguaggio sono così abili nell’interpretare e
> generare testo.
Come vengono definiti gli embeddings: training del modello
Successivamente, quando usiamo un modello per generare gli embeddings, forniamo
una parola in input, e il modello recupera l'embedding corrispondente dalla
matrice di embeddings ottimizzata durante la fase di training. Il vettore
restituito rappresenta le caratteristiche semantiche della parola, basate sulla
conoscenza acquisita dal modello.
Come vengono generati gli embeddings da un modello
Se, ad esempio, diamo in input al modello "text-embedding-3-large" di OpenAI la
parola "marketing", otteniamo il vettore numerico che segue.
I valori che si percepiscono dall'immagine sono le 3.072 dimensioni con le quali
il modello rappresenta la parola.
> "marketing" = [-0.0021438375115394592, -0.00014348721015267074,
> -0.0066122193820774555, 0.001951836864463985, ..., -0.004653195384889841,
> 0.018990622833371162, 0.008846410550177097, -0.0012166894739493728,
> 0.015064360573887825, -0.0035094046033918858, -0.0026982782874256372]
PAROLE O TOKEN?
Fino a questo punto, abbiamo ragionato in termini di "parole." Ma i LLM non si
basano direttamente sulle parole come unità di base, bensì sui token.
> Un token è una sequenza di caratteri, e può rappresentare una parola, una
> parte di parola o persino un singolo carattere, a seconda del contesto e della
> lingua. È l’unità fondamentale che i modelli di linguaggio utilizzano per
> processare il testo.
RICOSTRUIAMO IL FLUSSO DELLE OPERAZIONI
Con questa precisazione, rivediamo il flusso con il quale il modello genera gli
embeddings di un testo.
* Forniamo al modello un testo (che può essere una parola, una frase o un
paragrafo, o un documento),
* il modello lo divide in token (un processo chiamato tokenizzazione),
* recupera gli embeddings contestualizzati per ogni token, ovvero
rappresentazioni numeriche che catturano il significato di ogni token nel suo
contesto,
* infine, attraverso tecniche come l’attenzione e la media pesata, combina gli
embeddings dei singoli token per ottenere un embedding complessivo, che
rappresenta il significato dell’intero testo.
Il processo di generazione degli embeddings
Naturalmente, anche la fase di training, e quindi di ottimizzazione dei vettori,
deve essere rivista in ottica di utilizzo di token
A COSA SERVONO GLI EMBEDDINGS?
Ora che abbiamo compreso la natura di questi sistemi, che sono alla base del
funzionamento dei modelli di linguaggio (LLM) possiamo chiederci: a cosa può
servire la vettorializzazione dei testi nei flussi operativi?
La trasformazione di contenuti in sequenze numeriche che ne rappresentano il
significato permette di determinare la similarità dei testi attraverso semplici
calcoli matematici. E questo può trasformarsi, ad esempio, in sistemi di
recommendation (di prodotti, di articoli, o di contenuti multimediali in base
alle preferenze degli utenti), ricerche evolute su richieste in linguaggio
naturale (i moderni sistemi RAG - Retrieval Augmented Generation - si basano
esattamente su questi concetti), automazioni di processi su larga scala.
NOTA: il calcolo della similarità non è l'unica operazione attuabile sugli
embeddings, ma è probabilmente quella più usata.
--------------------------------------------------------------------------------
ESEMPI DI UTILIZZO NELLA SEO
In ambito SEO, possiamo usare gli embeddings in diversi contesti, ad esempio la
redirection in fase di migrazione, la gestione dei 404 post migrazione e il
rafforzamento della rete di link interni.
Per la trasformazione di contenuti testuali in embeddings possiamo usare uno
script in Python (o in altri linguaggi di programmazione) che implementa le API
del modello di linguaggio che scegliamo. Ecco un esempio di codice Python che
sfrutta le API di OpenAI per ottenere l'embedding di un testo.
from openai import OpenAI
client = OpenAI()
response = client.embeddings.create(
input="Your text string goes here",
model="text-embedding-3-small"
)
print(response.data[0].embedding)
Oppure possiamo usare Screaming Frog SEO Spider, che ha introdotto la
generazione degli embeddings (compatibile con i modelli di OpenAI, Gemini di
Google e Ollama) direttamente in fase di scansione dei siti web.
Questo significa che, mentre il sistema effettua il crawling, può considerare
dei contenuti presenti nelle pagine come testi da trasformare in embeddings. E
siamo noi a poter configurare il sistema in modo da scegliere i testi di
interesse.
La configurazione può avvenire in due modalità:
* usando uno snippet nella sezione JavaScript personalizzato (documentazione);
* usando una connessione diretta alle API dei modelli (dalla versione 21.0).
La configurazione delle API di OpenAI su Screaming Frog
> Chiaramente lo strumento può fare anche altre operazioni usando gli LLM, ma
> rimaniamo sul tema degli embeddings.
REDIRECTION IN FASE DI MIGRAZIONE
In questo caso, possiamo scansionare il vecchio sito web e il nuovo sito web
(quello che lo sostituirà), ottenendo gli embeddings dei contenuti delle diverse
pagine. Con uno script Python, quindi, possiamo misurare la similarità tra le
pagine, e, in base a questa, determinare delle associazioni tra gli URL delle
vecchie risorse e gli URL delle nuove risorse.
Un esempio dell'uso degli embeddings per la redirection automatizzata
Infine, sempre attraverso semplici istruzioni in Python, possiamo ottenere
automaticamente le regole di rewrite per la redirection.
GESTIONE DEI 404 POST MIGRAZIONE
In questo caso, abbiamo a disposizione la lista delle pagine che restituiscono
uno status code 404 in Search Console. Come possiamo gestirle in modo
automatizzato? O comunque, come possiamo avere un'automazione che ci fornisce un
aiuto per gestirle?
Possiamo, ad esempio, trasformare in embeddings gli URL (la stringa dell'URL),
oppure gli slug degli URL. Allo stesso modo, dalla scansione del sito web
online, possiamo ottenere gli embeddings delle stringhe dei nuovi URL.
Un esempio dell'uso degli embeddings per la gestione dei 404
Attraverso un calcolo della similarità, quindi, possiamo, ancora una volta,
ottenere un'associazione tra vecchi URL e nuovi URL, producendo una redirection
automatizzata.
> Con questa tecnica, in alcuni progetti, abbiamo ottenuto un matching corretto
> quasi al 100%. Chiaramente, una condizione determinante per il funzionamento è
> che gli URL siano "parlanti".
RAFFORZAMENTO DEI LINK INTERNI
Usando Screaming Frog, possiamo scansionare, ad esempio, le categorie di un
e-commerce ottenendo gli embeddings dei contenuti al loro interno. Usando uno
script per determinare la similarità, possiamo ottenere una lista di link tra le
categorie più simili che possono diventare link in pagina verso categorie
semanticamente affini e "related link" nei dati strutturati.
Un esempio dell'uso degli embeddings per il potenziamento dei link interni
NOTE SULL'USO DI SCREAMING FROG
In questi esempi ho usato la modalità basata sugli snippet JavaScript per creare
gli embeddings, perché permettono una configurazione come quella che segue.
In pratica, non sto usando lo snippet di default dedicato agli embeddings (il
quale vettorializza tutto il testo presente nel body), ma una variante in cui
vado a creare una precisa stringa da vettorializzare, composta dal nome della
categoria e dal testo della categoria.
Configurazione di Screaming Frog per l'uso di OpenAI per generare gli embeddings
Grazie a questo accorgimento, possiamo ottenere degli embeddings che
rappresentano dei testi molto precisi, e soprattutto confrontabili. Considerare
tutto il testo presente nel body sarebbe troppo dispersivo e poco preciso per
dei confronti sulla semantica.
> Dobbiamo usare dati puliti e confrontabili, se vogliamo ottenere il massimo da
> questi sistemi!
--------------------------------------------------------------------------------
COME CALCOLIAMO LA SIMILARITÀ TRA GLI EMBEDDINGS?
Come calcoliamo la similarità? Questo è un tema importantissimo, perché fa parte
del processo necessario all'ottenimento di un output usabile a partire dagli
embeddings.
Il metodo più usato è la similarità del coseno, che si basa sull’angolo tra due
vettori (angolo piccolo = vettori simili; angolo grande = similarità scarsa).
MA È SEMPRE LA SCELTA GIUSTA?
Secondo uno studio di Netflix, la risposta è NO.
Piccola parentesi: perché Netflix fa uno studio sulla similarità tra embeddings?
Perché anche queste piattaforme usano tecnologie di questo tipo per l'analisi
dei contenuti che propone agli utenti.
Può non essere sempre la scelta giusta perché la similarità del coseno, come
visto in precedenza, considera l’angolo, ma non della lunghezza dei vettori (la
cosiddetta magnitude). E se usiamo embeddings in cui la magnitude è un elemento
utile alla rappresentazione del testo, non stiamo effettuando un confronto
corretto.
Is Cosine-Similarity of Embeddings Really About Similarity?
Cosine-similarity is the cosine of the angle between two vectors, or
equivalently the dot product between their normalizations. A popular application
is to quantify semantic similarity between high-dimensional objects by applying
cosine-similarity to a learned low-dimensional feature embedding. This can work
better but sometimes also worse than the unnormalized dot-product between
embedded vectors in practice. To gain insight into this empirical observation,
we study embeddings derived from regularized linear models, where closed-form
solutions facilitate analytical insights. We derive analytically how
cosine-similarity can yield arbitrary and therefore meaningless `similarities.′
For some linear models the similarities are not even unique, while for others
they are implicitly controlled by the regularization. We discuss implications
beyond linear models: a combination of different regularizations are employed
when learning deep models; these have implicit and unintended effects when
taking cosine-similarities of the resulting embeddings, rendering results opaque
and possibly arbitrary. Based on these insights, we caution against blindly
using cosine-similarity and outline alternatives.
arXiv.orgHarald Steck
FACCIAMO UN TEST
Proviamo a usare gli embeddings di uno degli esempi precedenti per confrontare
il calcolo della similarità effettuato con diversi metodi: similarità del
coseno, prodotto scalare, similarità di Jaccard, distanza euclidea, distanza di
Manhattan.
Un esempio di calcolo di similarità con diversi metodi
In base ai risultati del test, usando gli embeddings generati con i modelli di
OpenAI, la similarità del coseno è effettivamente il metodo migliore.
Ma il test mette in evidenza un aspetto interessante: come si vede, infatti, gli
indici di similarità del coseno e del prodotto scalare sono identici. Eppure
sono determinati da calcoli diversi: il prodotto scalare tiene conto anche della
lunghezza dei vettori, mentre, come visto in precedenza, la similarità del
coseno no.
Calcoli di similarità tra embeddings con metodi diversi
Quindi perché otteniamo risultati identici? Non è magia, e la spiegazione la
troviamo nella documentazione degli embeddings di OpenAI.
Molto semplicemente, gli embeddings di OpenAI sono normalizzati alla lunghezza
"1". Questo fa sì che usando la similarità del coseno, il prodotto scalare, o
anche la distanza euclidea, otterremo sempre lo stesso ranking di similarità.
Tutto questo per arrivare a una conclusione che mi sta particolarmente a cuore.
> Se vogliamo ottenere performance da questi sistemi, dobbiamo essere
> consapevoli della natura degli strumenti che stiamo utilizzando.. e per farlo
> ci sono 3 consigli: studiare, studiare, studiare.
--------------------------------------------------------------------------------
ADVANCED SEO TOOL
Il 30 ottobre ho raccontato questi concetti all'Advanced SEO Tool a Milano.
Quello che segue è il video completo dell'intervento.
Embeddings e SEO.. è QUASI magia - Advanced SEO Tool 2024
--------------------------------------------------------------------------------
- GRAZIE -
Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre
persone, condividilo 🙂
ISCRIVITI ALLA NEWSLETTER
Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su
tematiche relative all'intelligenza artificiale.
Iscriviti alla Newsletter
Email sent! Check your inbox to complete your signup.
Gratuita. No Spam. Puoi disiscriverti quando vuoi.Consulta la privacy policy.
> Buon aggiornamento, e buone riflessioni..
--------------------------------------------------------------------------------
[CORSO] AI PER AGENZIE E TEAM DIGITAL
Una giornata di formazione e un'opportunità unica per approfondire
l'intersezione tra l'AI e il mondo del marketing, dal Prompt Engineering alle
declinazioni dell'AI nella SEO, e i casi pratici nell'advertising e nel mondo
copy.
> Dalle basi alle applicazioni pratiche
Scopri il programma completo e l’offerta sul biglietto.
Vai al corso
--------------------------------------------------------------------------------
[CORSO GRATUITO] GENERATIVE AI FOR BEGINNERS
Microsoft rilascia la terza versione del corso "Generative AI for beginners".
21 lezioni gratuite dedicate allo sviluppo di applicazioni basate sui LLM.
Le lezioni sono etichettate: "Learn" per i concetti, mentre "Build" per esempi
di codice (Python e TypeScript).
Generative AI for beginners
Il corso fornisce istruzioni anche su come configurare un ambiente di sviluppo.
> Un'ottima risorsa, fin dalla prima versione.
Vai al corso
--------------------------------------------------------------------------------
CANVAS DI OPENAI
Ho provato il nuovissimo "Canvas" di OpenAI: un'interfaccia di ChatGPT che
consente di lavorare su testi e codice con funzionalità di editing e
"trasformazione".
Nei testi, è possibile affinare il contenuto (grammatica, chiarezza, coerenza),
cambiare il livello di lettura, aggiustare la lunghezza, ottenere suggerimenti
di miglioramento e aggiungere emoji pertinenti.
Test di Canvas di OpenAI
Nel codice, possiamo revisionare, aggiungere i commenti, i log, fixare i bug,
eseguire il porting ad un altro linguaggio.
> In entrambe le modalità, possiamo selezionare un blocco e applicate un prompt
> specifico alla selezione.
NON UNA SEMPLICE INTERFACCIA.. MA UN EDITOR!
> Non si tratta solo di un'interfaccia con nuove funzionalità, ma anche un
> EDITOR a tutti gli effetti.
Questo significa che è possibile lavorare sui contenuti direttamente dalla
piattaforma, collaborando con un assistente.
Canvas di OpenAI non è solo una nuova interfaccia
Nel video, un piccolo esempio in cui genero una bozza, faccio modifiche
insensate dall'editor, e infine applico la rifinitura. Come si vede il sistema
corregge tutti i miei errori e i contenuti fuori contesto.
> Uno strumento straordinario, per l'utilizzo di questi sistemi come "assistente
> personale".
--------------------------------------------------------------------------------
UN GPT CHE SI COMPORTA COME "O1" DI OPENAI, CON RISULTATI SIMILI
Ho fatto eseguire diversi task della presentazione di o1 di OpenAI al mio GPT
addestrato per comportarsi allo stesso modo (eseguendo catene di pensiero -
CoT).
I prompt sono identici, e i risultati sono ottimi. Nel video si vedono alcuni
esempi che nella presentazione sono stati definiti "Reasoning", "Logic Puzzles",
"HTML Snake", e "coding".
Un GPT che si comporta come "o1" di OpenAI, con risultati simili
Ho fatto questo test per dimostrare come questa modalità può essere utile per
migliorare le performance anche di altri LLM, quando per le risposte servono
passaggi logici.
> Attenzione: "o1" non è solo questo. Ha un addestramento specifico per
> sviluppare CoT, e quella che vediamo negli step di ragionamento, non è l'unica
> CoT che genera (la documentazione lo spiega chiaramente). Ma è uno spunto
> interessante per migliorare i prompt.
--------------------------------------------------------------------------------
L'ANALISI DEI DATI CON O1
Anche se o1 di OpenAI non ha accesso a file esterni, possiamo usare un altro
modello per analizzarli, per poi usare l'elaborazione di o1.
Nell'esempio, uso GPT-4o per descrivere il dataset, fornendo anche suggerimenti
per la pulizia dei dati.
Questo diventa il contesto per il prompt su o1, attraverso il quale ho generato
il codice Python per creare un piccolo modello predittivo sul dataset.
Dopo alcune interazioni e revisioni, il sistema fa predizioni con un errore
medio inferiore al 15%.
Un test di analisi dei dati usano o1 si OpenAI
> Il potenziale di o1 è davvero notevole. Durante tutte le interazioni, non ho
> mai ottenuto un solo errore nella console Python.
--------------------------------------------------------------------------------
[TEST] I BIAS DEI MODELLI DI LINGUAGGIO
Ho fatto un piccolo test usando gli embeddings di OpenAI per verificare la
presenza di bias evidenti.
Ho usato text-embedding-3-large (la rappresentazione più ampia), termini in
inglese, e similarità del coseno per il confronto.
Un test sui bias dei LLM
* C'è sbilanciamento di genere, ma moderato. Solo per il termine "nurse" è
significativo.
* C'è sbilanciamento quasi unidirezionale di razza, ma generalmente moderato.
> È un test molto limitato, ma credo sia interessante esplorare questi aspetti
> della rappresentazione dei modelli. Fa capire, inoltre, la meraviglia di
> questi strumenti in grado di "comprendere" anche sfumature complesse del
> linguaggio.
--------------------------------------------------------------------------------
[TEST] IL "CODE INTERPRETER" DI ANTHROPIC
Anche Anthropic introduce su Claude una sorta di code interpreter in grado di
sviluppare ed ESEGUIRE codice JavaScript per dare risposte agli utenti.
Può fare calcoli complessi e analizzare dati, e usa Artifacts per la
visualizzazione.
Nelle immagini si può vedere in un piccolo test che ho fatto.
Il "code interpreter" di Anthropic
> Chissà perché hanno scelto JavaScript come linguaggio.. forse perché è più
> orientato a generare un'interfaccia interattiva, ma preferisco la scelta di
> OpenAI di usare Python per l'analisi e lo sviluppo, per poi agganciare
> l'interattività al front end.
--------------------------------------------------------------------------------
FLUX 1.1 [PRO] "BLUEBERRY"
Black Forest Labs a rilascia Flux 1.1 [pro] "blueberry", e la beta delle API.
Una release che, secondo Black Forest Labs, segna in passo in avanti
significativo nell'ambito della generazione delle immagini.
L'ho provato, e la qualità è oggettivamente sempre migliore.
Immagini generate con Flux 1.1 Pro
> 6 volte più veloce, più aderente al prompt e con qualità di immagine
> superiore. È già primo nell'Artificial Intelligence Image Arena.
COME PROVARE FLUX 1.1 PRO PER LA GENERAZIONE DI IMMAGINI
* Attraverso le API di Black Forest Labs: https://docs.bfl.ml/
* Su FAL: https://fal.ai/models/fal-ai/flux-pro/v1.1.
* Su Replicate: https://replicate.com/black-forest-labs/flux-1.1-pro
* Su Freepik: https://www.freepik.com/pikaso/ai-image-generator
* Su Together:
https://api.together.ai/playground/image/black-forest-labs/FLUX.1.1-pro
COME ADDESTRARE FLUX CON IMMAGINI DI PRODOTTI E/O SOGGETTI
* Su Flux Labs: https://www.fluxlabs.ai/
* Su Flux AI: https://www.useflux.ai/
* Su Replicate: https://replicate.com/lucataco/ai-toolkit/train
> L'evoluzione di questi sistemi è davvero interessante, e merita una
> sperimentazione.
--------------------------------------------------------------------------------
[TEST] FLUX 1.1 PRO + HAILUO AI DI MINIMAX
Ho fatto qualche test con Hailuo AI, un nuovo prodotto della startup cinese
MiniMax.
Ho generato i video partendo da immagini create con Flux 1.1 Pro, e aggiungendo
prompt testuali per descrivere l'azione.
HailuoAI + #Flux 1.1 Pro + prompt testuale per la generazione video
> La qualità è notevole, ma lo è soprattutto l'aderenza dei video alla
> descrizione testuale. Le azioni dei soggetti sono esattamente quelle che ho
> descritto negli input.
Vai al servizio
--------------------------------------------------------------------------------
AI FESTIVAL - 26 E 27 FEBBRAIO 2025
> "Non esiste innovazione senza integrazione. Serve un lavoro sartoriale, di
> integrazione nei processi. Ed è proprio chi è a conoscenza dei processi
> aziendali, potenziato da questa tecnologie, che può cogliere i punti
> strategici dove l'AI può fare la differenza".
Il 26 e 27 febbraio vi aspetto a Milano per l'AI Festival, dove parleremo di
questo, ed esploreremo insieme il futuro dell'intelligenza artificiale,
scoprendo tutte le novità e tendenze più recenti.
Scopri l'evento
--------------------------------------------------------------------------------
ACT-ONE DI RUNWAY
> La nuova funzionalità di Runway è impressionante.
Si tratta di Act-One, e consente di creare video con personaggi espressivi
attraverso Gen-3 Alpha utilizzando un singolo video come guida e un'immagine del
personaggio.
È possibile, ad esempio, creare una scena come questa senza attrezzature
sofisticate (nella parte finale del video si può comprendere la tecnica).
Act-One di Runway: un esempio di utilizzo
> Le potenzialità sono elevate, come la necessità di gestire gli eventuali
> "utilizzi negativi".
--------------------------------------------------------------------------------
[TEST] L'EVOLUZIONE DI IMAGEN 3 DI GOOGLE
Dopo qualche test su Imagen 3 su Gemini Advanced, devo dire che la qualità è
cambiata di molto.
Il livello medio dei modelli di generazione di immagini si sta alzando, ma
soprattutto sta crescendo l'aderenza al prompt.
L'evoluzione di Imagen 3 di Google
> Le immagini sono state generate con istruzioni semplicissime e in italiano.
> Non permette ancora output in cui sono presenti persone.
--------------------------------------------------------------------------------
[TEST] IMAGEN 3 + HAILUO AI DI MINIMAX + ELEVENLABS SOUND EFFECTS
Test di generazione immagini + video + audio.
Ho generato le immagini attraverso Imagen 3 di Google (Text-To-Image), i video
con MiniMax (Image-To-Video), l'audio con ElevenLabs Sound Effects
(Text-To-Audio).
Imagen 3 + Hailuo AI di MiniMax + ElevenLabs Sound Effects
> Ancora una volta, non è tanto la qualità a stupirmi, ma l'aderenza degli
> output ai prompt.
Spesso la domanda è: quanto tempo serve per generare gli output? Pochi minuti.
Ma la vera domanda è: come avrei potuto crearli senza questi mezzi!?
--------------------------------------------------------------------------------
AI ASSISTANT SU CHROME DEVTOOLS
AI Assistant è una nuova funzionalità sperimentale di Chrome DevTools davvero
notevole.
Permette di usare Gemini per applicare prompt alla pagina web o a elementi
specifici, per spiegazioni o suggerimenti di implementazione, con la possibilità
di applicarli direttamente.
AI Assistant su Chrome DevTools
Nelle immagini lo uso per fare alcune azioni che modificano la pagina, con
generazione di JS e CSS. Creo il bottone per la "dark mode".
Vai alla documentazione
--------------------------------------------------------------------------------
ADVANCED VOICE MODE DI CHATGPT
Prime impressioni sull'Advanced Voice Mode di ChatGPT..
* Anche se sono stati fatti grandi passi, in italiano, non siamo ancora a
livelli di fluidità della versione USA.
* Il comportamento dell'agente non è il massimo: per una "chiacchierata", un
mio GPT addestrato per questo scopo, dà un'esperienza migliore. Infatti,
quando questa modalità sarà attiva anche per GPT custom, tutto diventerà
molto più interessante. Ricordate le applicazioni vocali di Alexa e Google
Assistant?
* Non accede al web per reperire informazioni.
* L'interruzione del parlato dell'assistente, non funziona benissimo, ma credo
sia una questione di hardware.
Advanced Voice Mode di ChatGPT
> Insieme a Gemini Live, siamo di fronte a un nuovo capitolo dell'interazione
> vocale. Un salto importante rispetto al precedente, ma il percorso verso la
> naturalezza non è concluso.
--------------------------------------------------------------------------------
ATLAS DI BOSTON DYNAMICS
Boston Dynamics ha pubblicato un video impressionante sull'evoluzione di Atlas,
il suo robot umanoide.
E specifica che le azioni NON sono pre-programmate o teleguidate: il robot
esegue le azioni di spostamento dei componenti autonomamente, eseguendo un
compito.
L'evoluzione di Atlas Boston Dynamics
Il tutto, due settimane dopo l'accordo epocale dell'azienda (di proprietà di
Hyundai) con Toyota Research Institute.
> Questa partnership è un esempio di due aziende con una solida base di ricerca
> e sviluppo che si uniscono per lavorare su molte sfide complesse, e costruire
> robot utili che risolvono problemi del mondo reale.
--------------------------------------------------------------------------------
SPARK DI GITHUB COPILOT
Non solo GitHub Copilot integrerà tutti i LLM più potenti, che gli sviluppatori
potranno scegliere anche in base alle attività (Claude 3.5 Sonnet di Anthropic,
Gemini 1.5 Pro di Google, GPT-4o e o1 di OpenAI), ma è stato presentato anche
Spark: uno strumento per creare applicazioni interamente in linguaggio naturale.
Spark di GitHub Copilot
Gli "spark" sono micro app completamente funzionali che possono integrare
funzionalità AI e fonti di dati esterne.
Vai al post
--------------------------------------------------------------------------------
SYNTHID-TEXT DI GOOGLE DEEPMIND
SynthID-Text di Google DeepMind è un nuovo metodo per aggiungere una filigrana
ai testi generati da LLM, senza degradare la qualità dell'output.
Il sistema, che ha come obiettivo quello di riconoscere i testi generati, è
stato reso open-source per proporre uno standard di integrazione.
La filigrana, successivamente può essere rilevata da un algoritmo.
Qual è il problema!? Una rielaborazione o una traduzione invalideranno la
filigrana.
> Il percorso per sistemi di questo tipo è necessario, ma rimane lungo e
> difficile, con soluzioni ancora fragilissime.
Vai al paper
--------------------------------------------------------------------------------
MICROSOFT INTRODUCE GLI AGENTI AUTONOMI IN COPILOT STUDIO
Grazie a questa funzionalità, i developer possono creare assistenti in grado di
usare dati di diverse fonti (es. Microsoft 365 Graph, Dataverse e Fabric), e di
automatizzare i processi aziendali.
Gli agenti autonomi in Copilot Studio
Gli agenti operano autonomamente su attività ripetitive o complesse, consentendo
di ridurre i tempi di esecuzione e i costi, migliorando al contempo l'efficienza
complessiva.
Vai al post
--------------------------------------------------------------------------------
COMPUTER USE DI ANTHROPIC
Anthropic introduce la funzionalità "Computer Use" con i nuovi modelli 3.5.
La nuova capability è sperimentale e consentirà a Claude di interagire con un
dispositivo via API (muovere il cursore, cliccare, digitare, ecc.). Sarà
disponibile nei prossimi mesi.
Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku
A refreshed, more powerful Claude 3.5 Sonnet, Claude 3.5 Haiku, and a new
experimental AI capability: computer use.
I nuovi modelli Sonnet e Haiku 3.5 hanno performance migliori, raggiungendo la
versione Opus in alcune funzioni.
> Sono molto curioso delle applicazioni che nasceranno dalla possibilità di
> interfacciarsi con i device.
--------------------------------------------------------------------------------
LE VERSIONI QUANTIZZATE PER LLAMA 3.2
Meta ha lanciato versioni quantizzate di Llama 3.2 1B e 2B, progettate per
funzionare direttamente sui dispositivi mobile.
Consentono l'implementazione diretta su smartphone e tablet con performance
comparabili alle versioni più grandi.
Alcuni dati di performance: velocità maggiore di 2-4 volte, riduzione delle
dimensioni del 56%, riduzione del 51% dell'uso di memoria.
Introducing quantized Llama models with increased speed and a reduced memory
footprint
As our first quantized models in this Llama category, these instruction-tuned
models retain the quality and safety of the original 1B and 3B models, while
achieving 2-4x speedup.
> I modelli piccoli diventano sempre più interessanti per gli sviluppi in locale
> sui device, con una competizione al pari dei modelli più grandi.
--------------------------------------------------------------------------------
MULTIMODAL EMBED 3 DI COHERE
Cohere lancia una novità davvero interessante: un nuovo modello di AI che crea
uno spazio di incorporamento unificato per testo e immagini.
Si chiama Multimodal Embed 3, e consente il confronto diretto tra testo e
contenuto visivo senza pipeline di elaborazione separate.
Immaginiamo, ad esempio, le potenzialità nella ricerca in ambito e-commerce
combinando query visive e testuali, oppure nel recupero delle informazioni da
una knowledge.
Introducing Multimodal Embed 3: Powering AI Search
Cohere releases a state-of-the-art multimodal AI search model unlocking real
business value for image data.
Cohere
> Più si evolve questa capacità di rappresentazione attraverso gli embeddings, e
> più la ritengo una piccola opera d'arte tecnologica.
--------------------------------------------------------------------------------
FIREFLY VIDEO: L'INTEGRAZIONE SU PREMIERE PRO
Adobe, durante la conferenza MAX ha presentato Firefly Video, e l'integrazione
su Premiere Pro.
La funzionalità "Generative Extend", infatti, permette di creare prolungamenti
delle clip senza la necessità di di ulteriori riprese.
Oltre a questo, hanno anche presentato l'interfaccia web per azioni di
Text-To-Video e Image-To-Video.
Firefly Video: l'integrazione su Premiere Pro
> La qualità, ormai, non stupisce più.. ma l'integrazione nei software più usati
> dai creator è una carta vincente.
--------------------------------------------------------------------------------
L'AI GENERATIVA A SUPPORTO DELL'E-COMMERCE
L'AI può essere uno strumento utile a mettere in atto strategie con un effort
ridotto. In questo caso, ha permesso operazioni che sarebbero state
insostenibili per il progetto.
I diagrammi, infatti, mostrano i risultati di azioni di ottimizzazione su un
e-commerce, basate sui dati, e messe in atto attraverso un LLM.
> Un ingranaggio nei flussi operativi in grado di avvicinare la strategia agli
> obiettivi.
--------------------------------------------------------------------------------
LA TRAPPOLA DELLE ALLUCINAZIONI DEI LLM
> In realtà, cadere nella trappola delle "allucinazioni" che i LLM possono
> produrre è più facile di quanto si pensi.
Un esempio di allucinazione prodotta da un LLM
Nella prima parte del video, uso Llama 3.1 senza accesso al web.
Quindi come genera l'output? Usa il contenuto che ha a disposizione per
completare il task: il nome del prodotto, le parole che compongono lo slug
dell'URL, e ciò che deriva dal training del modello.
> È convincente? Insospettabile, direi.. ma fuori controllo! Si tratta di
> un'allucinazione.
Nella seconda parte, uso uno scraper che va ad estrarre il testo dall'URL,
quindi l'output aderisce alle informazioni nella pagina.
> Takeaway: i LLM producono "allucinazioni" quando non hanno contesto
> sufficiente per poter completare il task. È necessario un "contesto
> controllato".
Serve questa consapevolezza per usarli con maggior sicurezza, e servono
strumenti come Opik, o sistemi multi-agent, per effettuare test e controlli
approfonditi degli output prima di andare in produzione.
--------------------------------------------------------------------------------
LA SUPERVISIONE UMANA E IL PENSIERO CRITICO
Un paper molto interessante di Harvard Business School che sottolinea
l'importanza di sviluppare competenze di interazione dell'AI nei processi di
valutazione creativi che combinano il giudizio umano con le intuizioni
dell'Intelligenza Artificiale.
Mentre l'AI può standardizzare il processo decisionale per criteri oggettivi, la
supervisione umana e il PENSIERO CRITICO rimangono indispensabili nelle
valutazioni soggettive, dove l'AI dovrebbe integrare, non sostituire, il
giudizio umano.
Vai al paper
--------------------------------------------------------------------------------
MINISTRAL 3B E 8B
> La competizione sui LLM "piccoli" inizia a diventare interessante quanto
> quella sui modelli "grandi".
Mistral rilascia due nuovi modelli destinati all'elaborazione on-device e a casi
d'uso at-the-edge: Ministral 3B e 8B.
Offrono prestazioni avanzate in ambiti come la comprensione del contesto, il
"ragionamento" e l'efficienza, con contesti fino a 128k token.
Sono pensati per applicazioni come traduzione on-device, assistenti intelligenti
offline e robotica autonoma.
Ministral 3B e 8B: performance
Le performance sono migliori rispetto ai concorrenti, con un'attenzione
particolare alla privacy e alla latenza ridotta.
Vai al post
--------------------------------------------------------------------------------
STATE OF AI 2024: UNA SINTESI
Una sintesi dei punti chiave del report "State of AI" 2024.
State of AI 2024: una sintesi
* Convergenza delle prestazioni dei modelli. I modelli open-source, come Llama
3.1 405B, hanno ormai raggiunto le prestazioni dei modelli proprietari. Llama
3.2 espande le capacità in modalità multimodale, dimostrando la crescente
competitività dei modelli open-source.
* Avanzamenti dell'AI cinese. Nonostante le sanzioni statunitensi, i modelli AI
cinesi continuano a scalare le classifiche, sfruttando hardware stoccato,
accesso cloud e soluzioni alternative. Ciò evidenzia la resilienza del
settore AI cinese.
* Miglioramenti in efficienza. Tecniche di pruning e distillazione hanno
migliorato significativamente l'efficienza dei modelli di testo e immagini,
mostrando che alte prestazioni possono essere raggiunte con modelli più
piccoli e meno dispendiosi.
* Espansione delle applicazioni AI. I modelli di linguaggio (LLMs) stanno
dimostrando capacità in campi scientifici come la progettazione di proteine e
l'editing genetico, aprendo nuovi orizzonti per l'AI in biologia e genomica.
* Sfide per hardware e infrastrutture. Nvidia continua a dominare l'hardware
AI, ma l'incremento della domanda energetica per le infrastrutture AI sta
creando pressioni sulle risorse e minacciando gli impegni di sostenibilità
delle aziende tecnologiche.
Vai al report
--------------------------------------------------------------------------------
MOVIE GEN DI META
Meta presenta Movie Gen, un nuovo modello per la generazione di video e audio di
alta qualità da prompt multimodale.
Le funzionalità principali:
* generazione video da una descrizione testuale;
* video personalizzati;
* editing video;
* generazione di audio (musica ed effetti sonori).
Movie Gen di Meta
È stato addestrato su dataset pubblici e con licenza, e punta a diventare un
riferimento per registi e i content creator.
Vai al post
--------------------------------------------------------------------------------
I NUOVI TOOL DI HUGGINGCHAT
HuggingChat, oltre alla possibilità di usare i migliori LLM open source, mette a
disposizione una serie di tool molto interessanti (es. scraping, analisi dei
file, generazione di immagini).
Nell'esempio, uso il sistema con Llama 3.1, e aggiungo Flux Realism Lora per la
generazione di immagini.
I nuovi tool di HuggingChat
> Il parco strumenti è molto ampio, e possono essere attivati più tool
> contemporaneamente.
Prova il servizio
--------------------------------------------------------------------------------
LEO AI DI BRAVE
Brave sta introducendo il suo assistente basato su AI generativa: Leo AI, che
può interagire direttamente con le pagine web che si navigano dal browser.
> Un aspetto interessante, è che il sistema può lavorare con un LLM locale,
> sfruttando Ollama.
Questo, ad esempio, consente di far elaborare anche dati personali al modello,
senza che questi lascino il dispositivo.
Leo AI di Brave
Sfruttando un hardware Nvidia RTX è possibile ottenere altissime performance
anche in locale. Con Llama 3 8B, ad esempio, si può ottenere la velocità di 149
token/secondo.
> L'utilizzo dei LLM in locale è sempre più "possibile".
Vai al post
--------------------------------------------------------------------------------
LLAMA STACK DI META
Meta rilascia un componente davvero interessante: Llama Stack.
> Si tratta di un framework open source per semplificare e standardizzare lo
> sviluppo e il rilascio di applicazioni basate sui LLM.
Facilita l'integrazione di azioni come inferenza, gestione della memoria,
moderazione / sicurezza.
GitHub - meta-llama/llama-stack: Model components of the Llama Stack APIs
Model components of the Llama Stack APIs. Contribute to meta-llama/llama-stack
development by creating an account on GitHub.
GitHubmeta-llama
Ad esempio, usando le API di inferenza, memoria e sicurezza si possono creare
assistenti che rispondono in modo contestuale e sicuro.
> Standard e linee guida è quello che serve per facilitare l'integrazione di
> questi sistemi in modo più sicuro ed efficiente.
--------------------------------------------------------------------------------
SEMANTIC CACHE DI REDIS
Semantic Cache di Redis è un esempio di componente che permette di ottimizzare
le applicazioni RAG (Retrieval Augmented Generation).
Semantic Cache di Redis
È un sistema che salva, vettorializza e indicizza le richieste degli utenti e le
risposte. In questo modo, se vengono poste domande simili dal punto di vista
semantico, non ci sarà bisogno di usare nuovamente il LLM.
> Risultato: abbattimento dei tempi di risposta e dei costi.
Vai alla documentazione
--------------------------------------------------------------------------------
SCIAGENTS: L'AI AL SERVIZIO DELLA SCOPERTA SCIENTIFICA
SciAgents è un sistema di Intelligenza Artificiale che automatizza la scoperta
scientifica combinando grafi ontologici della conoscenza, modelli di linguaggio
(LLM) e sistemi multi-agent.
Ogni agente ha un ruolo specifico, come creare ipotesi, espanderle o criticarle.
Gli agenti lavorano insieme per esplorare dati scientifici, identificare nuove
connessioni e generare proposte di ricerca innovative.
Il sistema ha rivelato relazioni interdisciplinari nascoste e prodotto scoperte
significative, superando i metodi di ricerca tradizionali per precisione e
scala, accelerando così la scoperta scientifica.
Vai al paper
--------------------------------------------------------------------------------
DEVDAY DI OPENAI
Cosa è stato condiviso durante il DevDay di OpenAI di San Francisco?
Una sintesi del DevDay di OpenAI
Vediamo una sintesi per punti.
* Realtime API: consente esperienze di voice-to-voice a bassa latenza, simili a
ChatGPT Advanced Voice, con 6 voci preimpostate. Beta disponibile per tutti
gli sviluppatori.
* Prompt Caching: disponibile per tutti, riduce i costi del 50% e la latenza
riutilizzando i token di input recenti.
* Model Distillation: nuovo workflow per addestrare modelli più piccoli ed
efficienti basati su modelli più grandi. Include Stored Completions ed Evals
(beta).
* Vision Fine-Tuning: possibilità di fine-tuning di GPT-4o con testo e
immagini, migliorando la ricerca visiva e l'analisi delle immagini.
* Aggiornamento di GPT-4o: nuovo modello gpt-4o-2024-08-06 con costi di input
ridotti del 50% e output ridotti del 33%.
* Disponibilità OpenAI o1: accesso API esteso ai modelli di ragionamento
o1-preview e o1-mini per gli utenti di livello 3. Limiti di velocità
aumentati per livelli 4 e 5.
* Generazione nel Playground: nuovo pulsante "Generate" per creare
automaticamente prompt, definizioni di funzioni e schemi strutturati.
Vai al post
> Il toolkit per l'implementazione di applicazioni basate sui LLM di OpenAI si
> amplia notevolmente!
--------------------------------------------------------------------------------
ASSISTANT EDITOR DI LANGCHAIN
LangChain ha annunciato "Assistant Editor", una nuova potente funzionalità di
LangGraph Studio che rende più facile la configurare e la personalizzazione
degli agenti basati su modelli di linguaggio.
Assistant Editor di LangChain
Questo strumento di editing visivo consente sia agli sviluppatori che agli
utenti non tecnici di mettere a punto il comportamento degli agenti senza usare
codice.
Vai al post
--------------------------------------------------------------------------------
PIKA 1.5
Pika presenta la versione 1.5, con clip più lunghe, nuovi effetti, riprese
cinematografiche e movimenti più realistici.
Il video è l'unione di clip di alcuni creator che stanno testando il nuovo
modello.
Pika 1.5
> La generazione di video fa costanti passi in avanti, e le clip diventano
> sempre più usabili in ambito professionale.
Vai al servizio
--------------------------------------------------------------------------------
EDGE RUNNER DI NVIDIA
EdgeRunner è una nuova tecnologia di Nvidia in grado di generare mesh 3D di alta
qualità con fino a 4.000 facce e una risoluzione spaziale di 512, partendo da
immagini e point-clouds.
Utilizza un innovativo algoritmo di tokenizzazione per comprimere le mesh in
sequenze di token 1D, migliorando l'efficienza e la qualità della generazione.
Edge Runner di Nvidia
Il sistema può creare varianti diverse da un singolo input, garantendo una
grande varietà di risultati.
> Immaginiamo questi sistemi al servizio di videogiochi e realtà virtuale (VR),
> effetti speciali e animazione nella produzione cinematografica e televisiva,
> architettura e design, additive manufacturing e stampa 3D, medicina e
> biotecnologie.
Vai al post
--------------------------------------------------------------------------------
LIQUID FOUNDATION MODELS
Liquid AI introduce una nuova architettura per LLM che "sfida" i Transformer,
superando le performance di Llama 3.2 (a parità di dimensioni), con ingombro di
memoria ridotto e maggior efficienza nell'inferenza.
Ho provato la versione più grande (40.3B Mixture of Experts - MoE) sul mio
benchmark di test.
Un test del LLM di Liquid AI
> Considerando le dimensioni, il sistema promette benissimo, e ha una velocità
> degna di nota.
Prova il modello
--------------------------------------------------------------------------------
OPEN NOTEBOOKLM
> Continuano a nascere progetti che trasformano documenti e pagine web in
> podcast.
Open NotebookLM è un sistema basato su modelli AI open source: Llama 3.1 405B,
MeloTTS, e Bark.
Dall'interfaccia di Hugging Face, è possibile caricare file e specificare URL
per creare il contesto al modello.
Un test di Open NotebookLM
Il podcast viene generato dal LLM e ottiene la voce dal TTS.
La qualità non è enorme, ma è un esempio di applicazione semplice per questo
scopo.
Prova il sistema
--------------------------------------------------------------------------------
- GRAZIE -
Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre
persone, condividilo 🙂
ISCRIVITI ALLA NEWSLETTER
Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su
tematiche relative all'intelligenza artificiale.
Iscriviti alla Newsletter
Email sent! Check your inbox to complete your signup.
Gratuita. No Spam. Puoi disiscriverti quando vuoi.Consulta la privacy policy.