Vorrei portarvi in un viaggio in 3 tappe: tre “studi e sperimentazioni” che oggi
sono diventati progetti reali, e che nel 2025 mi hanno accompagnato (e,
soprattutto, entusiasmato) più di altri.
Le tre tappe hanno nomi molto semplici:
Reranker → Contenuti → Feed
Per ognuna di queste tappe andremo a mettere a fuoco il pensiero, a capire il
progetto (cioè come diventa operativo), e a descrivere i takeaway da portare a
casa.
Feed, contenuti, intelligenza: il nuovo motore della discovery
--------------------------------------------------------------------------------
1 - RERANKER: LA RILEVANZA CONTESTUALE COME “METRICA” OPERATIVA
Partiamo dalla prima tappa: Reranker.
Un reranker è un modello in grado di valutare la rilevanza contestuale di un
contenuto rispetto a una query: in altre parole, misura la forza con cui quel
contenuto riesce davvero a rispondere alla domanda.
> E qui la domanda diventa inevitabile: perché è interessante considerare questa
> tipologia di modelli?
IL FLUSSO "REALE" DEI SISTEMI DI RICERCA MODERNI
Se guardiamo quello che Google definisce nella documentazione come “Typical
search and retrieval flow”, vediamo un pattern molto chiaro.
Typical search and retrieval flow
Il flusso, semplificando, è il seguente:
* si parte da milioni di documenti in un archivio;
* viene posta una query di ricerca;
* il sistema effettua un retrieval, cioè “screma” i contenuti estraendo quelli
più pertinenti;
* interviene un reranker, che ordina i contenuti estratti nella fase precedente
in base alla rilevanza;
* a quel punto i più rilevanti diventano la lista dei risultati, oppure il
contesto elaborato da un AI Agent per generare una risposta.
Come funzionano le due fasi cruciali nel flusso (ovvero retrieval e reranking)?
RETRIEVAL: PERTINENZA SEMANTICA (BI-ENCODER)
La prima fase, il retrieval, si basa sulla pertinenza semantica.
Query e documenti vengono codificati in embeddings, e attraverso un calcolo di
similarità vengono estratte le parti dei documenti più "vicine" semanticamente
alla query.
Questa architettura è il classico bi-encoder.
Retrieval: architettura bi-encoder
* La query viene codificata in embedding;
* ogni documento viene codificato in embedding;
* viene calcolata la similarità tra gli embeddings e si ottiene uno score di
pertinenza.
Ed è esattamente per questo che viene definito bi-encoder: due encoding
separati, per poi procedere al confronto.
Questo processo ha le seguenti caratteristiche:
✅ veloce
✅ scalabile
❌ poco preciso
Questa fase è perfetta per “ridurre” la knowledge di riferimento per ottenere
una risposta: considera un archivio enorme per portarlo a un set di candidati
"gestibile".
RERANKING: RILEVANZA CONTESTUALE (CROSS-ENCODER)
La seconda fase, il reranking, funziona in modo diverso.
Qui entra in gioco il reranker, che riceve in input query + contenuto e calcola
uno score di rilevanza. E cambia anche l’architettura: stavolta è cross-encoder.
Reranking: architettura cross-encoder
In questo caso, query e contenuto vengono concatenati, entrano insieme nel
reranker (modello transformer) e il modello usa il noto meccanismo
dell’attenzione per cogliere ogni minima sfumatura e correlazione tra concetti.
Questo processo (cross-encoder) ha caratteristiche complementari rispetto
all'architettura bi-encoder:
❌ lento
❌ costoso
✅ molto preciso
PIPELINE IBRIDA: BI-ENCODER PER RECALL PRIMA + CROSS-ENCODER PER PRECISION
I moderni sistemi di ricerca, quindi, sono una pipeline ibrida:
* bi-encoder (veloce, meno preciso) per scremare la knowledge;
* cross-encoder (lento, preciso) per affinare e ordinare.
> Questo non è solo un dettaglio tecnico: è un modo di ragionare che poi diventa
> operativo.
--------------------------------------------------------------------------------
COME POSSIAMO USARE QUESTE CONOSCENZE NEI NOSTRI WORKFLOW OPERATIVI?
Un’idea molto concreta è usare i reranker per misurare quanto i nostri contenuti
sono rilevanti rispetto alle query di interesse. E, ovviamente, possiamo anche
confrontare la rilevanza dei nostri contenuti rispetto ad altri contenuti già
presenti online.
Emerge, però, un altro punto, spesso sottovalutato: reranker diversi producono
ranking diversi.
3 reranker a confronto: Jina, Google, Cohere
Nelle immagini si può vedere un confronto tra 3 reranker (Jina, Google, Cohere)
sulle query “cos’è la curcuma?” e “cosa sono i core web vitals?” per diversi
contenuti estratti da pagine web attualmente online. Come si nota, i modelli
attribuiscono score di rilevanza diversi.
> Qual è il dato corretto?
Non esiste un dato “giusto” o “sbagliato”, perché la misurazione dipende dai
dati e dalle procedure messe in atto durante la fase di training dei modelli. È
un po’ come chiedere a esperti estremamente competenti, ma con esperienze
differenti, di valutare gli stessi testi: tenderanno a convergere, ma non
saranno identici.
--------------------------------------------------------------------------------
RERANKER COME RICERCA PERSONALIZZABILE: BOOST E PENALIZZAZIONI
C’è un ulteriore step di conoscenza da apprendere sui reranker: non si tratta
solo di “modelli di scoring”, ma di vere e proprie piattaforme di ricerca
personalizzabile.
Attraverso azioni di boost o penalizzazione, infatti, possiamo influenzare la
valutazione del modello: dare più peso a certe caratteristiche, e penalizzarne
altre.
Un esempio di ranking configuration (boost/bury)
Negli esempi influenzo il reranker di Google per dare boost ai contenuti in cui
la fonte ha un popularity score maggiore, i contenuti più recenti, e quelli in
cui l’autore è più autorevole, e penalizzo quelli di scarsa qualità.
> Ecco come un motore di ricerca può valutare parametri esterni che vanno oltre
> il contenuto che scriviamo.
--------------------------------------------------------------------------------
UN SISTEMA MULTI-AGENTE PER L'OTTIMIZZAZIONE DEI CONTENUTI PER AI OVERVIEWS
Facendo tesoro di questi concetti, internamente, con il mio team, abbiamo
sviluppato un sistema multi-agente che:
* analizza l’AI Overview e i contenuti della SERP,
* sfrutta il reranker di Google (opportunamente configurato),
* crea risposte più rilevanti e contenuti strutturati meglio per concorrere nei
sistemi di ricerca ibridi (come le AI Overview di Google).
Un sistema multi-agente per l'ottimizzazione dei contenuti per AI Overviews
Nel seguente video è possibile vedere l'applicazione in azione all'interno della
nostra piattaforma dedicata alle applicazioni AI che abbiamo sviluppato.
Un esempio dell'applicazione in azione
Attraverso il seguente post, è possibile approfondire il funzionamento del
sistema.
Rilevanza contestuale: la nuova metrica della visibilità
Il segreto è la pertinenza... ma non basta più. Come funziona DAVVERO la ricerca
oggi, tra embeddings, reranker e AI Overviews.
Alessio PomaroAlessio Pomaro
--------------------------------------------------------------------------------
OLTRE I RERANKER: IN-CONTEXT RANKING (ICR) E BLOCKRANK
Direzione successiva: come si supera la precisione dei reranker?
Un metodo è l’In-context Ranking (ICR): usare un LLM per processare non query e
contenuti a coppie, ma query e tutti i contenuti pertinenti insieme.
Risultato: precisione altissima e comprensione dell’intero contesto.
Contro: estremamente lento e oneroso.
In-context Ranking (ICR) e BlockRank
Per rendere l’ICR scalabile entra in scena BlockRank: un approccio pubblicato da
Google che punta a risolvere i contro dell’ICR. Per approfondire:
Scalable In-context Ranking with Generative Models
Srinadh Bhojanapalli
--------------------------------------------------------------------------------
TAKEAWAY DELLA PRIMA TAPPA
Quali sono i takeaway che ci portiamo a casa dalla prima tappa?
1. L’evoluzione di queste tecnologie ci fa capire quanto migliorerà la ricerca
nei prossimi anni, con modelli in grado di comprendere ogni sfumatura del
linguaggio.
2. Oggi abbiamo strumenti e documentazione per comprendere meglio la ricerca,
anche tecnicamente. Sforziamoci di approfondire questi aspetti, perché
possono regalarci intuizioni, e le intuizioni diventano strategie e tool da
mettere in campo nei nostri flussi di lavoro.
--------------------------------------------------------------------------------
2 - CONTENUTI: L’AI CAMBIA LO SCENARIO, MA PORTA ANCHE NUOVI STRUMENTI
Seconda tappa: Contenuti.
Quante volte abbiamo sentito questa frase nell'ultimo periodo?
> “Con le AI Overview è tutto finito
> per i progetti editoriali…”
È vero? Ognuno tragga le proprie conclusioni. Ma un fatto è chiaro: l’AI sta
cambiando lo scenario, ma, nello stesso momento, ci mette a disposizione
strumenti nuovi.
UNA REDAZIONE IBRIDA: CREA, AGGIORNA, MASSIMIZZA
Nel nostro team abbiamo realizzato una redazione ibrida a supporto
dell’editoria, basata su LangGraph e Gemini, che lavora su tre funzioni:
CREA → AGGIORNA → MASSIMIZZA
--------------------------------------------------------------------------------
CREA: CATTURARE TREND, TRASFORMARLI IN PIANO EDITORIALE
Domanda iniziale:
> quali sono i contenuti che in questo momento stanno vivendo una crescita di
> interesse per gli utenti?
Un Agente AI lo verifica costantemente, attingendo a più fonti:
* feed internazionali di riferimento per il settore,
* Google News su diversi mercati,
* Google Trends,
* social media,
* Google Discover.
Processa questi dati e produce un piano editoriale sul trend, pensato per
"catturare" i trend "istantanei", cioè quello che è interessante per gli utenti
nel momento in cui si esegue l'osservazione.
L’editore riceve il piano nel suo CMS e può approvarlo (anche parzialmente).
I contenuti approvati vengono processati da un agente specializzato che: usa
tool esterni via MCP (Model Context Protocol), coopera con il sistema dedicato
alla rilevanza (quello visto nella prima tappa), produce la scrittura completa
di una bozza di altissima qualità, e la salva direttamente nel CMS.
Infine l’editore arricchisce, modifica, aggiunge elementi multimediali e
pubblica.
Uno schema di funzionamento della creazione dei contenuti
Questa parte, per come la vedo, è già un cambio di paradigma: non è “scrittura
automatica”, è..
> orchestrazione di un flusso, dove l’AI fa il lavoro pesante e ripetitivo e
> l’umano si mette nella posizione giusta: quella in cui può davvero alzare la
> qualità.
--------------------------------------------------------------------------------
AGGIORNA: MANTENERE I CONTENUTI VIVI (E COMPETITIVI)
Un agente osserva in modo costante i dati di Search Console ed estrae i
contenuti che stanno performando meno (in termini di clic, impressioni e
posizionamento), e che non vengono aggiornati da diverso tempo.
Un altro agente processa questi contenuti, usa tool esterni via MCP, e si occupa
di aggiornarli e ottimizzarli, salvando l’elaborato direttamente nel CMS.
Uno schema di funzionamento dell'aggiornamento dei contenuti
Risultato: un sistema che mantiene tutti i contenuti costantemente aggiornati e
ottimizzati. Questo sta contribuendo a una crescita generale di clic e
impressioni, e soprattutto a una presenza costante su Google Discover, con
picchi che corrispondono a diversi milioni di impressioni.
--------------------------------------------------------------------------------
MASSIMIZZA: CONTENUTI, AFFILIAZIONE E SOSTITUZIONE INTELLIGENTE
Spesso i progetti editoriali lavorano con l’affiliazione. Abbiamo creato degli
agenti che verificano costantemente se, nei contenuti:
* sono presenti prodotti consigliati non più disponibili nel marketplace di
riferimento,
* oppure prodotti che non stanno performando, ovvero che non stanno producendo
clic.
Uno schema di funzionamento del lavoro degli agenti
Gli agenti usano strumenti esterni via MCP per trovare prodotti simili da
sostituire e producono descrizioni testuali che vengono integrate in modo
armonioso nel contenuto, rispettando il contesto in cui avviene l'inserimento.
--------------------------------------------------------------------------------
TAKEAWAY DELLA SECONDA TAPPA
I takeaway della seconda tappa sono molto concreti.
* Un team ibrido ben strutturato può garantire output di altissima qualità:
l’AI svolge i compiti più onerosi e ripetitivi, l’essere umano supervisiona e
si concentra sulla qualità.
* Il flusso di lavoro cambia completamente, e cambiano le mansioni delle
persone quando l’AI è davvero al centro della strategia.
* L’AI abilita un'azione su larga scala che permette di agire sulla frequenza
di pubblicazione e sulla qualità generale del progetto. Operazioni di questo
tipo sarebbero irrealizzabili senza automazioni come quella descritta nella
tappa del viaggio.
* Si può intravvedere un pattern chiaro: trend di interesse + alta frequenza +
qualità globale aumentano la capacità di entrare in Discover in modo
costante.
--------------------------------------------------------------------------------
3 - FEED: DA “FILE TECNICO” A CENTRO DELLA STRATEGIA
Quante volte abbiamo sentito una frase come quella che segue, soprattutto nel
mondo e-commerce?
> “Sì, l’e-commerce genera automaticamente il feed, poi lo ottimizziamo con XYZ
> Feed Manager…”
Spesso, però, per “ottimizzazione” si intende la creazione di pattern che
mettono in sequenza i dati prodotto presenti nel database dell'e-commerce,
oppure un timido utilizzo dell’AI per farlo in modo un po’ meno schematico.
L’approccio che, con il mio team, abbiamo messo in campo è diverso: usare un
sistema multi-agente per un’ottimizzazione su larga scala.
UN SISTEMA MULTI-AGENTE PER OTTIMIZZARE IL FEED SU LARGA SCALA
Il sistema riceve in input il feed dell'e-commerce.
Un agente lo elabora analizzando anche la pagina prodotto, le immagini, i dati
strutturati, e connettendosi a fonti esterne: Search Console, web search,
scraping di dati online e altre fonti specifiche.
Un altro agente si occupa dell’arricchimento: aggiunge dati potenzialmente
rilevanti assenti nel feed.
Infine, un agente revisore monitora la correttezza dei dati anche con verifiche
incrociate.
Un sistema multi-agente per ottimizzare il feed su larga scala
In output otteniamo un feed supplementare con title e description ottimizzati e
dati di enrichment, personalizzabile per qualunque piattaforma.
Dopo aver inserito in piattaforma il feed ottimizzato su alcuni progetti, stiamo
registrando (su Google Merchant Center) un aumento dei clic sui prodotti e del
CTR (Click-Through Rate) degli annunci di advertising
Azione successiva: portare i dati ottimizzati del feed anche nell'e-commerce,
usandoli per l’ottimizzazione delle pagine prodotto e categoria, e
l'integrazione dei dati strutturati. Questo permette di ottenere la coerenza
delle informazioni.
--------------------------------------------------------------------------------
TAKEAWAY DELLA TERZA TAPPA
> Il feed non è (solo) un “file tecnico” che l’e-commerce deve produrre. È il
> centro della strategia: la chiave per portare le nostre entità su tutte le
> piattaforme digitali. E il sito web è solo una di queste piattaforme.
Per il futuro, due direzioni diventano obbligate:
* essere sempre più abili nel curare i dati delle nostre entità;
* essere sempre più agili nel portarle ottimizzate su ogni piattaforma.
--------------------------------------------------------------------------------
SI CHIUDE IL VIAGGIO, SI APRE LA STRATEGIA
Arrivati qui, il punto non è aver visto tre argomenti separati.
Il punto è capire che..
> feed, contenuti e intelligenza sono parti dello stesso motore: il motore della
> discovery.
E oggi abbiamo tante opportunità per rendere questo motore più potente.
--------------------------------------------------------------------------------
- GRAZIE -
Se hai apprezzato il contenuto, puoi
contribuire al progetto con una donazione 🙂
ISCRIVITI ALLA NEWSLETTER
Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su
tematiche relative all'intelligenza artificiale.
Iscriviti alla Newsletter
Email sent! Check your inbox to complete your signup.
Gratuita. No Spam. Puoi disiscriverti quando vuoi.
Consulta la privacy policy.
Tag - Novità e Riflessioni
> Buon aggiornamento, e buone riflessioni..
--------------------------------------------------------------------------------
IMAGE PROMPT ASSISTANT
Ho creato un Agente AI che crea prompt strutturati per modelli dedicati alla
generazione di immagini (es. Gemini 3 Pro Image - Nano Banana Pro, Imagen 4,
Seedream 4, GPT Image, ecc.).
Image Prompt Assistant
Dopo diversi test, su diversi modelli, devo dire che lo trovo uno strumento
utile, che permette di ottenere un'aderenza elevata delle immagini generate con
l'idea di partenza.
L'agente riceve in input una descrizione di base dell'immagine, pone domande di
follow-up per espandere i dettagli in modo guidato e semplice, e produce un
prompt in JSON da usare come input per i modelli.
Attualmente lo uso in un flusso che parte da un semplice testo, genera
l'immagine (fotogramma chiave), e infine produce la clip video. Ma ho trasferito
la stessa logica dell'agente in un GPT per ChatGPT.
PER PROVARLO
ChatGPT - Image Prompt Assistant
Descrivi l’immagine che vuoi creare, e genererò un prompt strutturato da usare
per ottenere il miglior risultato. Sfrutta i suggerimenti, oppure parlami
direttamente della tua idea. Al resto penserò io. Buona creazione.
ChatGPT
Le immagini che seguono sono state create in questo modo: idea > GPT > prompt >
Imagen 4 Ultra.
Image Prompt Assistant + Imagen 4 Ultra
Il GPT permette anche la creazione guidata, e la produzione multipla di prompt
per generare immagini coerenti dello stesso soggetto con inquadrature diverse.
Vai al tool
> Se qualcuno vorrà provarlo, sarò felice di ricevere feedback per migliorarlo.
--------------------------------------------------------------------------------
LA NUOVA METRICA DELLA VISIBILITÀ? LA RILEVANZA CONTESTUALE!
Oggi la pertinenza non basta più. Per comparire nelle AI Overview (e non solo),
serve dimostrare di saper rispondere bene, nel contesto giusto.
La nuova metrica della visibilità? La rilevanza contestuale!
* Pertinenza ≠ Rilevanza → La prima trova i contenuti “vicini”, la seconda
sceglie quelli “giusti”.
* Embeddings & Reranker → I contenuti vengono selezionati e ordinati in base a
quanto bene rispondono alla query.
* Test reale su Google AI Overviews → Primo nei risultati, ma fuori dalle
fonti. Ottimizzando la risposta (usando un reranker) è diventata prima fonte.
* Tool multi-agent → Un sistema automatizzato per migliorare le risposte e
aumentare la probabilità di essere scelti come fonte.
Per approfondire
> È importante sforzarci di comprendere i concetti
> tecnici chiave, per poi trasformarli in
> strategie e automazioni che fanno la differenza.
--------------------------------------------------------------------------------
GEMINI 3 E ANTIGRAVITY
> Google ha presentato Gemini 3, il suo modello AI più avanzato, progettato per
> offrire capacità senza precedenti in ragionamento, multimodalità e interazione
> agentica.
L'ho provato.
* Una delle novità più interessanti: finalmente il modello supporta l'uso dei
tool insieme agli output strutturati.
* Ho fatto un test con la web search e output in JSON. Questo sembra un
dettaglio, ma nello sviluppo di applicazioni è un grande upgrade.
* Ho testato il modello su task abbastanza complessi, dove la versione
precedente aveva qualche difficoltà nell'elaborazione e nella creazione di un
output strutturato (mentre GPT-5.1 aveva successo): il salto, al di là dei
benchmark, sembra essere interessante. Anche se la concezione di "web search"
di Gemini continua ad essere diversa da quella di OpenAI.
* Su workflow agentici con LangGraph le performance sono sempre elevate.
Gemini 3: novità e performance
Gemini 3 Pro stabilisce nuovi standard nei benchmark di intelligenza
artificiale, superando le versioni precedenti in compiti complessi di logica,
matematica, codifica e comprensione visiva. La nuova modalità "Deep Think" porta
il modello a un livello superiore, affrontando sfide avanzate con risultati da
record.
Ha una finestra di contesto da 1 milione di token, e la capacità di integrare
testo, immagini, video, audio e codice.
Vai al post
È stato introdotto anche Google Antigravity, una nuova piattaforma di sviluppo
che sfrutta le capacità agentiche di Gemini 3.
Google Antigravity
L'ho provato: oltre alla modalità di utilizzo classica dell'IDE, il sistema ti
permette di delegare interi blocchi di lavoro ad agenti che aprono in autonomia
editor, terminale e browser, pianificano i passi, li eseguono e li documentano
in artefatti verificabili (liste di task, diff di codice, log di esecuzione,
screenshot), lasciando all'utente il ruolo di supervisore e orchestratore del
flusso. È un cambio di paradigma: non più solo “scrivimi questo pezzo di
codice”, ma “portami da qui al risultato”, seguendo il ragionamento dell’agente
e intervenendo quando serve.
Scarica Antigravity
Framework avanzato di sicurezza: è il modello più testato e sicuro mai
rilasciato da Google, con valutazioni indipendenti e nuove difese contro abusi e
attacchi AI.
> Gemini 3 è già disponibile in Search (AI Mode), in Gemini App, su Vertex AI,
> AI Studio (ora usabile con API key) e nella nuova piattaforma Antigravity.
--------------------------------------------------------------------------------
GEMINI 3 PRO IMAGE (NANO BANANA PRO)
> Gemini 3 Pro Image (Nano Banana Pro) è arrivato, con una caratteristica che
> non ha nessun altro modello: il supporto del reasoning di Gemini 3 e della
> ricerca di Google.. e questo cambia tutto!
Le immagini mostrano alcuni miei test di generazione ed editing. Non avevo dubbi
sulla qualità dell'output, ma mi ha impressionato il fatto di inserire nel
prompt il contenuto completo della mia newsletter per ottenere l'immagine di
sintesi. Così come l'estrazione dei capi d'abbigliamento dalla foto della
modella, o gli ingredienti della ricetta partendo dal nome e l'immagine del
piatto.
Gemini 3 Pro Image (Nano Banana Pro): i miei test
> Come sempre, ormai, l'aderenza al prompt è stupefacente.
Il modello genera immagini in 2K e 4K, con un controllo creativo professionale
su illuminazione, messa a fuoco, composizione e stile.
Grazie al rendering avanzato del testo e alla capacità di localizzazione
multilingua, consente di creare contenuti visivi complessi come mockup
pubblicitari, fumetti, infografiche e materiali educativi. Il modello è in grado
di mantenere la coerenza dei volti o dei personaggi su più immagini, e può
combinare fino a 14 input visivi in un’unica composizione.
Uno degli aspetti più distintivi, come dicevo nell'introduzione, è la
possibilità di accedere alla "conoscenza del mondo" in tempo reale attraverso il
Grounding con Google Search. Questo permette di produrre visualizzazioni più
accurate, ad esempio per mappe storiche o diagrammi scientifici.
> L'integrazione con piattaforme come Adobe, Figma e Google Antigravity estende
> ulteriormente il suo potenziale applicativo, rendendolo uno strumento
> versatile sia per sviluppatori che per team creativi.
Vai al post
È disponibile tramite l'API di Gemini, Vertex AI e l’app Gemini, e include
watermark digitali SynthID in ogni immagine generata, a tutela dell'autenticità
e della trasparenza dei contenuti creati con intelligenza artificiale.
GEMINI 3 PRO IMAGE (NANO BANANA PRO): UN TEST DI COERENZA + PROMPT
Quello che segue è un test di coerenza del modello.
Gemini 3 Pro Image: un test di coerenza
Le immagini sono state generate usando lo stesso prompt, variando i riferimenti
visuali, ovvero le foto dei soggetti.
Vai al prompt
Le istruzioni sono state generate attraverso "Image Prompt Assistant":
ChatGPT - Image Prompt Assistant
Descrivi l’immagine che vuoi creare, e genererò un prompt strutturato da usare
per ottenere il miglior risultato. Sfrutta i suggerimenti, oppure parlami
direttamente della tua idea. Al resto penserò io. Buona creazione.
ChatGPT
> Il risultato: il modello mostra una forte aderenza al prompt, che può essere
> ulteriormente migliorata aggiungendo ulteriori dettagli. Più aumenta
> l'oggettività nelle istruzioni, e più aumenta la coerenza.
UNA GUIDA DI GOOGLE PER L'USO DEL MODELLO
Google ha pubblicato una guida con 10 suggerimenti per usare al meglio il
modello.
Alcuni spunti pratici dalla guida
Rispetto ai modelli precedenti, Nano Banana Pro migliora in modo netto nella
resa del testo, coerenza dei personaggi, sintesi visiva, grounding su dati reali
(tramite Search) e output fino al 4K.
* Prompting naturale: niente "tag soup" come dog, 4k, hyperrealistic. Meglio
usare frasi complete come se si stesse parlando con un illustratore umano.
* Editing invece di rigenerare: se un’immagine è quasi corretta, basta chiedere
modifiche specifiche ("Cambia la luce al tramonto e rendi il testo blu neon")
senza ripartire da zero.
* Text rendering avanzato: utile per creare infografiche leggibili partendo da
PDF o dati grezzi. Può sintetizzare report finanziari, diagrammi tecnici o
lavagne educative.
* Identity locking: mantiene fedelmente il volto e lo stile di un personaggio o
prodotto attraverso più immagini, anche in contesti diversi.
* Editing conversazionale: basta descrivere cosa cambiare, senza mascherature
manuali. Il modello comprende contesto, logica e fisica (es. riempire un
bicchiere, togliere turisti da una foto).
* Traduzione dimensionale: da pianta 2D a rendering 3D o viceversa, ideale per
architettura, UI design e prototipi visivi.
Vai alla guida
> La guida è firmata da Guillaume Vernade (Gemini Developer Advocate) e include
> 10 sezioni operative, ognuna con esempi pronti da testare in AI Studio.
--------------------------------------------------------------------------------
E-COMMERCE: DA IMMAGINI STATICHE A VIDEO SFILATE
Questo è un esempio di 4 immagini di un e-commerce trasformate in mini-sfilate
loopabili, cioè che possono essere riprodotte in un ciclo continuo.
Veo 3.1: trasformare immagini statiche di prodotto in video dinamici coerenti
Per produrle ho usato "Veo 3 Prompt Assistant" per creare dei prompt solidi e
iper dettagliati, e Veo 3.1 in modalità Image-To-Video, usando l'immagine di
prodotto come frame iniziale e finale.
ChatGPT - Veo 3 Prompt Assistant
Descrivi il video che vuoi creare con Veo 3.1, e genererò un prompt strutturato
da usare per ottenere il miglior risultato. Posso fornirti anche l’immagine del
fotogramma chiave. Usa i suggerimenti, oppure parlami direttamente della tua
idea. Al resto penserò io. Buona creazione.
ChatGPT
> La coerenza dei movimenti dei soggetti, è data dal dettaglio del prompt, che
> non lascia nulla al caso, e rimane lo stesso per tutti i video.
--------------------------------------------------------------------------------
VEO 3.1: TRIPLA ESTENSIONE VIA API
Un esempio di video con la ripresa di un drone, generato con Veo 3.1 usando una
tripla estensione via API.
Veo 3.1: tripla estensione via API
La generazione è text-to-video, e i 4 prompt (video principale + 3 estensioni)
sono stati prodotti attraverso "Veo 3 Prompt Assistant".
La coerenza degli elementi visuali e audio è notevole.
Per provare "Veo 3 Prompt Assistant" (nuova versione):
ChatGPT - Veo 3 Prompt Assistant
Descrivi il video che vuoi creare con Veo 3.1, e genererò un prompt strutturato
da usare per ottenere il miglior risultato. Posso fornirti anche l’immagine del
fotogramma chiave. Usa i suggerimenti, oppure parlami direttamente della tua
idea. Al resto penserò io. Buona creazione.
ChatGPT
Oppure basta cercare "Veo 3 Prompt Assistant" nella sezione GPT di ChatGPT.
Il Colab che ho usato per la generazione con l'API di Veo 3.1:
Vai al Colab
> Basta impostare l'API Key di Gemini e modificare i prompt.
--------------------------------------------------------------------------------
È POSSIBILE OTTENERE UN BUON OUTPUT DA UN MODELLO USANDO UN PROMPT NON
STRUTTURATO?
> Sì.. ma quello che otteniamo non l'abbiamo pilotato, non è riproducibile.. e
> questo non può diventare un processo.
Con un prompt di 4 parole, su Veo, ad esempio, si possono ottenere video
bellissimi. Ma se volessimo un video simile con una piccola variazione, senza un
prompt dettagliato di riferimento, non sarebbe ottenibile.
Ecco a cosa serve creare prompt iper dettagliati e strutturati: a pilotare con
precisione il modello, e a creare processi replicabili.
> Nel video, un esempio di 3 clip in cui uso lo stesso prompt su Veo 3.1
> variando la stanza e qualche altro dettaglio.
L'importanza di usare prompt strutturati: la coerenza
Tutti i prompt sono stati creati attraverso "Veo 3 Prompt Assistant", per
mantenere la coerenza.
ChatGPT - Veo 3 Prompt Assistant
Descrivi il video che vuoi creare con Veo 3.1, e genererò un prompt strutturato
da usare per ottenere il miglior risultato. Posso fornirti anche l’immagine del
fotogramma chiave. Usa i suggerimenti, oppure parlami direttamente della tua
idea. Al resto penserò io. Buona creazione.
ChatGPT
--------------------------------------------------------------------------------
GPT 5.1
OpenAI rilascia GPT-5.1, un aggiornamento che mira a rendere ChatGPT più
intelligente, naturale nel dialogo e più personalizzabile.
> L'ho provato nei miei GPTs e anche in applicazioni via API: l'esperienza
> risulta essere migliore e più veloce.
Le due nuove versioni, Instant e Thinking, migliorano sia la velocità sia la
qualità del ragionamento: Instant diventa più "caldo", conversazionale e preciso
nell’eseguire istruzioni, mentre Thinking adatta in modo dinamico il tempo di
riflessione, offrendo spiegazioni più chiare e risultati più solidi nei compiti
complessi.
L'esperienza d'uso cambia in modo significativo anche sul fronte della
personalizzazione. Oltre agli stili aggiornati (Default, Friendly, Efficient)
arrivano Professional, Candid e Quirky, insieme alla possibilità di regolare
finezza, calore e concisione direttamente dalle impostazioni. Le preferenze ora
si applicano subito a tutte le conversazioni, incluse quelle già in corso.
Vai al post
Le API si aggiornano con gpt-5.1-chat-latest per Instant e con GPT-5.1 per
Thinking, entrambe con ragionamento adattivo e miglioramenti sostanziali nella
qualità delle risposte.
GPT-5.1: PROMPTING GUIDE
> L’evoluzione dei LLM richiede prompt sempre più mirati, iterativi e
> strutturati per sfruttare appieno capacità come ragionamento adattivo,
> controllo del tono e interazione con strumenti esterni.
Questo emerge dalla nuova guida per GPT-5.1 pubblicata da OpenAI. Sono molto
d'accordo: lo sto usando in un agente con una quantità enorme di istruzioni e di
instradamento del "reasoning", ottenendo output davvero precisi.
GPT-5.1: Prompting Guide
Una sintesi della guida
* Con GPT-5.1, il prompting diventa una leva strategica. Il modello è
progettato per bilanciare velocità e intelligenza, adattandosi alla
complessità del task e consumando meno token per input semplici. È altamente
steerable: si può modellare tono, verbosità e personalità con precisione.
* In ambito coding, il modello introduce strumenti nativi come apply_patch e
shell, permettendo flussi multi-step e modifiche strutturate al codice.
Supporta anche esecuzioni parallele e mantiene lo stato attraverso piani
d’azione espliciti. La nuova modalità di reasoning none consente interazioni
a bassa latenza e maggiore controllo, simile ai modelli precedenti come
GPT-4.1.
* Il prompting efficace con GPT-5.1 implica anche la gestione attiva
dell’interazione: aggiornamenti all’utente durante lunghe esecuzioni,
chiarezza nei piani, attenzione alla persistenza nella risoluzione dei task.
La qualità delle istruzioni determina la qualità del comportamento: piccoli
cambiamenti nel prompt possono produrre grandi variazioni di risultato.
* Il metaprompting diventa un approccio utile per analizzare e correggere i
comportamenti indesiderati del modello, attraverso cicli di ispezione e
revisione delle istruzioni.
Vai alla guida
> Con queste nuove generazioni di modelli, scrivere un buon prompt diventa
> sempre più importante nella progettazione di sistemi intelligenti.
--------------------------------------------------------------------------------
SHOPPING RESEARCH SU CHATGPT
OpenAI introduce una nuova esperienza di shopping research su ChatGPT, pensata
per semplificare la ricerca dei prodotti. Basta descrivere ciò che si sta
cercando, e il sistema costruisce una guida d’acquisto personalizzata, completa
e basata su fonti affidabili.
Shopping Research su ChatGPT
L'ho provato su diverse query. Prima di iniziare la ricerca propone una serie di
domande legate al contesto.
Successivamente avvia un processo di ricerca e selezione, proponendo una short
list di prodotti (di cui uno consigliato), con una tabella comparativa.
Durante la fase di ricerca propone delle opzioni di raffinamento in tempo reale.
Attualmente non presenta widget di prodotto con le diverse offerte come la
normale funzionalità di ricerca. Ma il post di OpenAI specifica che in futuro
sarà disponibile anche l'Instant Checkout. Quindi probabilmente l'esperienza si
evolverà nel prossimo futuro.
Si basa su una versione specializzata di GPT-5 mini, addestrata per leggere siti
web attendibili, citare le fonti e sintetizzare grandi quantità di dati.
Vai al post
> Un pensiero a caldo: si tratta di evoluzioni interessanti, ma lo saranno
> davvero quando apriranno effettivamente il "Merchant Center", consentendo agli
> e-commerce di condividere i feed, e la ricerca potrà contare su dati
> strutturati.
--------------------------------------------------------------------------------
CLAUDE OPUS 4.5
Claude Opus 4.5 è il nuovo modello di punta di Anthropic, progettato per
eccellere in attività complesse come sviluppo software, automazione tramite
agenti AI e utilizzo avanzato di strumenti digitali.
È più efficiente dei modelli precedenti, con un significativo risparmio nell’uso
dei token e prestazioni migliori nei benchmark interni.
Si distingue per la capacità di gestire compiti a lungo termine, con
ragionamenti più profondi e meno interruzioni.
Claude Opus 4.5: il nuovo modello di Anthropic
L’introduzione del parametro “effort” consente di bilanciare flessibilità e
precisione a seconda del contesto d’uso. Il modello ottimizza processi come
refactoring, code review e pianificazione tecnica, con risultati tangibili anche
in ambiti come la modellazione finanziaria e la generazione di contenuti lunghi
e coerenti.
> Dal punto di vista della sicurezza, è il modello più allineato rilasciato da
> Anthropic, con una resistenza superiore agli attacchi di prompt injection.
Vai al post
È disponibile via API, cloud e nelle applicazioni desktop e mobile, con nuove
funzionalità per Chrome, Excel e strumenti di sviluppo distribuiti.
--------------------------------------------------------------------------------
AGENTIC SLIDES DI KIMI
Kimi presenta Agentic Slides con Gemini 3 Pro Images (Nano Banana Pro): la
generazione di presentazioni attraverso l'AI inizia a diventare davvero
interessante.
> L'ho provato, e il risultato è impressionante.
Agentic Slides di Kimi, con Nano Banana Pro
Il sistema si basa su Kimi K2 con web search e input multimodale.
Genera l'outline della presentazione, che può essere editato prima della
generazione delle slide. La presentazione generata può essere modificata e
ampliata all'interno del sistema di Kimi.
Per provarlo
> L'esportazione può essere in PPTX o PDF.
--------------------------------------------------------------------------------
LA GENERAZIONE DI IMMAGINI SU FLOW
Flow di Google si evolve anche con la generazione di immagini attraverso Gemini
3 Pro Image (Nano Banana Pro) e Imagen 4, permettendo dei flussi di creazione
più completi.
Ora, ad esempio, è possibile generare immagini che diventano key frame per i
video, che successivamente possono essere estesi in piattaforma.
La generazione di immagini su Flow
Nell'esempio, uso il mio prompt assistant per creare istruzioni coerenti per
immagine e video. Genero l'immagine con Imagen 4, e infine la animo con Veo 3.1.
Vai a Flow
Altra funzionalità interessante: è possibile estrarre fotogrammi dai video,
editarli, e sfruttarli come key frame per generare altri video.
> Il potenziale aumenta.
--------------------------------------------------------------------------------
GENERARE IMMAGINI PIÙ COERENTI?
Con un workflow multi-agente è possibile mettere in atto un ciclo di
ottimizzazione, creazione e verifica molto interessante.
Nell'esempio, uso un sistema basato su LangGraph, Gemini 3 Pro e Gemini 2.5
Flash Image (Nano Banana).
Un workflow multi-agente per immagini più coerenti
L'input la descrizione dell'immagine da generare.
GLI AGENTI SI OCCUPANO DI:
* trasformare l'input in un prompt strutturato per la generazione
dell'immagine;
* generare l'immagine;
* valutare la coerenza dell'immagine rispetto al prompt attraverso uno score, e
produrre un feedback.
Se il valutatore stabilisce che l'immagine non è adeguata, in base alle
osservazioni, produce un piano di ottimizzazione del prompt, e il lavoro torna
all'agente che crea un nuovo prompt, il quale successivamente farà generare una
nuova immagine. E così via finché l'immagine risulta essere adeguata.
> Il processo è estendibile anche ai video, visto che le nuove generazioni di
> modelli hanno una forte propensione alla multimodalità.
--------------------------------------------------------------------------------
CREARE PRESENTAZIONI CON GEMINI MODIFICABILI IN GOOGLE SLIDES?
La funzionalità è già disponibile, anche in Italia. Basta attivare "Canvas" e
indicare al modello, nel prompt, di creare una presentazione in base al contesto
a disposizione.
> Nel mio esempio, ho caricato un documento in PDF, e il sistema ha creato una
> presentazione di 13 slide.
La generazione di presentazioni con l'app di Gemini
Usando l'interazione in chat si possono ottenere modifiche al contenuto, ma
l'aspetto interessante è la possibilità di aprire e modificare la presentazione
direttamente su Google Slides.
> Mettendo a punto dei buoni prompt, descrivendo stile, target, elementi
> grafici, e altri dettagli, possiamo ottenere delle bozze di buon livello.
--------------------------------------------------------------------------------
3 NOVITÀ INTERESSANTI SU NOTEBOOKLM
Su NotebookLM sono state rilasciate 3 importanti novità che riguardano le Video
Overview, la Deep Research, le presentazioni e le infografiche.
Le novità di NotebookLM: Video Overviews e Deep Research
1. È stato introdotto lo stile personalizzato per la Video Overview. Ora è
possibile descrivere le caratteristiche visuali del video, oltre al prompt
dedicato al contenuto. L'ho provato: non si tratta di un controllo completo
(le strutture di base rimangono), ma è un passo in avanti verso overview
completamente custom.
2. Il rollout della Deep Research è completo e usabile.
L'ho provato, e, come pensavo è notevole: ora il "problema" diventa gestire
le fonti.
3. Finalmente è stata integrata la possibilità di creare infografiche e
presentazioni.
Attraverso prompt specifici è possibile ottenere dei risultati molto
interessanti.
Le novità di NotebookLM: infografiche e presentazioni
Negli esempi si vede un'infografica generata partendo da un e-book sul Deep
Learning e una presentazione generata dal materiale su un mio talk.
Unico neo: le presentazioni non possono essere editate su Google Slides, ma sono
scaricabili in PDF.
Vai a NotebookLM
--------------------------------------------------------------------------------
AGENT BUILDER DI OPENAI: È UN BUON SISTEMA?
> Sì, ma attenzione allo SPRECO DI TOKEN (enorme)! Spiego come evitarlo.
Per testare la piattaforma, ho provato a riprodurre un workflow multi agente
sviluppato su LangGraph.
Il flusso non è particolarmente complesso, ma ha tutti gli ingredienti per
capire le dinamiche: agenti con ruoli diversi e connessi a tool anche via MCP,
workflow anche con logica condizionale gestita autonomamente, gestione dello
"stallo decisionale", prompt dinamici costruiti dagli agenti stessi.
Agent Builder: un workflow multi-agente
Il framework può essere usato in modalità "stateful" (come LangGraph), ed è
questo che lo rende flessibile. In pratica, gli agenti condividono un set di
variabili di stato, che leggono e aggiornano durante il workflow.
Una volta completato il flusso in modalità visuale, esportando il codice (Python
nel mio caso), in qualche minuto l'applicazione è pronta e funzionante in una
macchina dove abbiamo l'Agent SDK installato. E può essere modificata e
integrata in un flusso di lavoro più ampio.
> Per quanto riguarda il framework, trovo l'astrazione di LangGraph migliore: la
> rappresentazione del flusso attraverso un grafo (nodi + connessioni) continua
> ad essere vincente e più semplice.
Un aspetto che trovo inefficiente e poco scalabile di Agent SDK è che quando gli
agenti vengono invocati (di default) ricevono in input TUTTA LA CRONOLOGIA della
chat. Questo rende più semplice l'implementazione, ma causa un ENORME SPRECO di
TOKEN e RIDUCE LA SCALABILITÀ!
> Consiglio: lavorare SOLO sugli stati, e NON con la history della
> conversazione.
In conclusione: continuerei a scegliere LangGraph, ma sono rimasto sorpreso
dalla flessibilità e dalla velocità di lavoro di Agent Builder + Agent SDK.
Attenzione allo spreco di token!
> È fondamentale comprendere il funzionamento dei framework per usarli al
> meglio.
--------------------------------------------------------------------------------
OPAL: ESEMPI DI WORKFLOW
Opal è un Agent Builder di Google: un sistema che permette di creare
applicazioni basate sull'AI in modo visuale.
Quelli che seguono sono due esempi di workflow che ho realizzato.
VIDEO ADVERTISING
Il workflow riceve in input un prodotto di riferimento e un target di
destinazione, generando una bozza di video advertising completa.
I diversi blocchi sfruttano Gemini e Veo per:
* cercare informazioni online,
* creare il copy dell’adv,
* generare il prompt per il video,
* produrre il video stesso,
* costruire un widget HTML con l’annuncio completo.
Opal di Google: un workflow per video advertising
Lavorando sull'ottimizzazione dei prompt dei diversi blocchi, si possono
ottenere risultati molto interessanti con un basso effort.
SCRITTURA DI CONTENUTI CON DEEP RESEARCH
In questo esempio, ho sviluppato un workflow che riceve in input un topic ed
esegue le seguenti operazioni..
* Avvia una Deep Research sull'argomento (l'agente è addestrato ad espandere la
tematica), e produce un report di ricerca dettagliato.
* Genera l'outline per un articolo che mette a fuoco la struttura del
contenuto.
* Un agente "scrittore", addestrato con linee guida ed esempi, inizia a
generare l'articolo sull'argomento.
* Parallelamente, due agenti, usando l'outline per generare prompt strutturati
per la creazione della "hero" image, e di una clip video.
* Il post scritto va in revisione, e l'agente produce un'analisi per
l'ottimizzazione.
* Nel frattempo, l'immagine e il video sono pronti.
* Un agente salva il documento con l'articolo su Drive, e un altro genera una
preview della pagina web del post, con i contenuti multimediali.
Opal di Google: scrittura di contenuti con Deep Research
Gli agenti del workflow usano Gemini 2.5 Pro, il 2.5 Flash per la Deep Research,
Veo 3.1 e Imagen 4.
Vai a Opal
Pro del sistema: tool e modelli potenti pronti all'uso in modo semplice, e la
possibilità di parallelizzazione dei task.
Contro: non ha nodi decisionali, né connessioni a tool esterni via MCP. Ma la
funzionalità sta arrivando.
> Recentemente Google ha rilasciato Opal in 160 paesi, ma purtroppo l'Italia non
> è tra questi.
--------------------------------------------------------------------------------
LA DEEP RESEARCH DI QWEN SI AGGIORNA
Il team di Qwen ha rilasciato un importante aggiornamento che riguarda la Deep
Research, che rende il sistema più approfondito, veloce e migliore.
L'ho provato per una ricerca abbastanza articolata (in modalità "advanced"): in
1 ora e 22 minuti ha creato un report approfondito di 20 pagine, analizzando 170
fonti.
La Deep Research di Qwen
Il nuovo sistema ha due modalità: "normale" (efficiente e versatile per la
maggior parte delle esigenze), e "advanced" (meno veloce, ma più approfondita),
e permette il caricamento di file e immagini per arricchire il #prompt di
ricerca.
La potenza della ricerca è aumentata: diventa più efficiente e profonda. Inoltre
migliora il controllo sul report, gestendo meglio, ad esempio, il numero di
parole, paragrafi e contenuto.
> Continuo a dirlo: modelli come Qwen e Kimi stanno crescendo, diventando delle
> alternative sempre più interessanti ai sistemi più noti.
--------------------------------------------------------------------------------
FLUX.2
> FLUX.2 è il nuovo modello di generazione e editing di immagini sviluppato da
> Black Forest Labs, progettato per flussi di lavoro creativi reali.
L'ho provato nella versione "pro", e non ci si poteva aspettare che una qualità
altissima. Unica nota: nella coerenza visiva con prompt multimodale, siamo
lontani da Gemini.
FLUX.2 "pro": alcuni test
Supporta immagini ad alta risoluzione (fino a 4MP), mantiene coerenza di stile e
soggetti su più riferimenti (fino a 10 immagini), gestisce testi complessi e
aderisce a prompt strutturati e linee guida di brand.
Rispetto alla versione precedente, offre maggiore realismo, stabilità
dell’illuminazione, resa tipografica migliorata e maggiore comprensione del
contesto reale.
Vai al post
SONO DISPONIBILI DIVERSE VARIANTI:
* [pro]: massima qualità e velocità per usi professionali.
* [flex]: controllo su qualità e tempo di generazione, ideale per sviluppatori.
* [dev]: modello open-weight avanzato, utilizzabile localmente o via API.
* [klein] (in arrivo): versione open-source più leggera, con licenza Apache
2.0.
--------------------------------------------------------------------------------
GEM (GENERATIVE ADS RECOMMENDATION MODEL) DI META
Meta ha introdotto GEM (Generative Ads Recommendation Model), un nuovo modello
di AI progettato per migliorare la qualità e la rilevanza degli annunci
pubblicitari.
Si tratta di un foundation model, cioè un modello di base molto grande e
versatile, addestrato su larga scala (con migliaia di GPU e enormi quantità di
dati), simile ai LLM, ma dedicato alla pubblicità.
A differenza dei modelli tradizionali che si concentrano solo su compiti
specifici, GEM è costruito per apprendere in modo generale da dati eterogenei
(clic, interazioni, formato degli annunci, comportamenti degli utenti) e poi
trasferire ciò che ha imparato ad altri modelli più piccoli usati in diversi
punti dell’ecosistema pubblicitario di Meta.
Meta’s Generative Ads Model (GEM): The Central Brain Accelerating Ads
Recommendation AI Innovation
We’re sharing details about Meta’s Generative Ads Recommendation Model (GEM), a
new foundation model that delivers increased ad performance and advertiser ROI
by enhancing other ads recommendation …
Engineering at MetaHuayu Li
Tra le innovazioni principali:
* Architettura personalizzata con attenzione multi-livello: GEM distingue tra
dati sequenziali (es. cronologia degli utenti) e non sequenziali (es. età,
formato dell’annuncio), trattandoli in modo ottimizzato per cogliere meglio
le relazioni complesse tra utenti e annunci.
* Modellazione delle sequenze con struttura a piramide parallela: per
analizzare lunghe catene di interazioni (click, visualizzazioni) mantenendo
il dettaglio senza perdere informazioni utili, anche su migliaia di eventi.
* Cross-feature learning con InterFormer: una combinazione di moduli
transformer e strati di interazione tra feature, che permette a GEM di
affinare continuamente la comprensione del comportamento degli utenti.
* Trasferimento di conoscenza efficace: GEM usa tecniche avanzate (come
knowledge distillation, representation learning e condivisione dei parametri)
per migliorare le prestazioni dei modelli verticali senza aumentarne il peso
computazionale.
* Training stack ottimizzato: l’infrastruttura di addestramento è stata
ripensata da zero per supportare un modello di queste dimensioni. Risultato:
+23× nelle FLOPS di training effettive e +1.43× di efficienza nell’uso delle
GPU.
Vai al progetto
> GEM ha già mostrato impatti concreti: nel secondo trimestre 2025 ha aumentato
> le conversioni pubblicitarie del 5% su Instagram e del 3% su Facebook Feed. E
> gli aggiornamenti successivi hanno raddoppiato l’efficacia per ogni unità di
> dati e calcolo aggiunta.
--------------------------------------------------------------------------------
SAM 3 DI META + COLAB
> Meta ha presentato SAM 3 e SAM 3D, i nuovi modelli di AI per comprendere,
> segmentare e ricostruire oggetti e persone in immagini e video.
SAM 3 introduce una segmentazione "open vocabulary" basata su prompt testuali,
visivi o immagini esempio, superando i limiti delle etichette predefinite.
Rileva, segmenta e traccia concetti complessi come "la seconda persona seduta a
sinistra con una giacca rossa", e funziona anche in tempo reale su video.
0:00
/0:34
1×
SAM 3 di Meta
SAM 3D estende queste capacità alla ricostruzione tridimensionale. Con SAM 3D
Objects è possibile ottenere modelli 3D con texture a partire da una singola
immagine. SAM 3D Body stima con precisione la posa e la forma del corpo umano,
anche in presenza di occlusioni o pose inconsuete.
Entrambi i modelli si basano su dataset su larga scala costruiti con un sistema
ibrido uomo+AI, migliorando drasticamente la qualità e varietà dei dati. Sono
già integrati in prodotti come Facebook Marketplace per visualizzare oggetti in
ambienti reali, e saranno utilizzati in strumenti per creatori su Instagram,
Meta AI e oltre.
Vai al progetto
> Attraverso la piattaforma Segment Anything Playground, chiunque può
> sperimentare queste tecnologie senza competenze tecniche, caricando immagini e
> generando segmentazioni o ricostruzioni 3D in pochi passaggi.
UN COLAB PER PROVARLO
Attraverso questo Colab è possibile provarlo, attraverso un flusso semplice e
lineare. Il video viene prima convertito in frame JPEG, perché SAM 3 lavora a
livello di immagine. Si apre poi una sessione di inferenza video, nella quale il
modello carica tutti i frame e salva i loro feature embeddings. Da lì, basta
fornire un prompt testuale e SAM 3 genera le maschere per ogni oggetto rilevante
e le segue per tutta la sequenza. In pochi secondi si ottiene un tracking
pulito, stabile e fedele, senza alcun training.
0:00
/0:15
1×
SAM 3 di Meta: un esempio di utilizzo
> Nel video, si vede un esempio del risultato.
Vai al Colab
--------------------------------------------------------------------------------
FILE SEARCH TOOL NELLA GEMINI API
Google ha introdotto il nuovo File Search Tool nella Gemini API, progettato per
semplificare l'implementazione di sistemi RAG (Retrieval-Augmented Generation)
nei progetti di AI.
File Search Tool nella Gemini API
Il sistema è completamente gestito e integrato nell’API, permettendo agli
sviluppatori di concentrare gli sforzi sulla costruzione delle applicazioni,
senza occuparsi della complessità del recupero dei dati.
File Search gestisce in modo automatico lo storage dei file, le strategie di
suddivisione in chunk, la generazione degli embeddings e l’iniezione del
contesto nei prompt, il tutto tramite un’esperienza unificata nell’API
generateContent.
Utilizza un motore di ricerca vettoriale basato sul modello
gemini-embedding-001, in grado di comprendere il significato delle query e
restituire risultati pertinenti anche in assenza di corrispondenze testuali
esatte.
Vai alla documentazione
I risultati generati includono citazioni automatiche che indicano con precisione
le fonti utilizzate, rendendo più semplice la verifica delle risposte. Il tool è
compatibile con numerosi formati, tra cui PDF, DOCX, TXT, JSON e file di codice.
Per provarlo
Per rendere lo strumento accessibile, Google ha introdotto un modello di pricing
che prevede la gratuità per la ricerca e la generazione di embeddings al momento
della query. Si paga solo per l’indicizzazione iniziale dei file, al costo fisso
di 0,15 $ per 1 milione di token.
--------------------------------------------------------------------------------
KIMI K2 THINKING
> Kimi K2 Thinking è il nuovo modello open-source di agentic thinking sviluppato
> da Moonshot AI.
Si tratta di un agente in grado di ragionare in modo autonomo, passo dopo passo,
mentre utilizza strumenti esterni come browser, motori di calcolo o ambienti di
programmazione. È capace di eseguire da 200 a 300 chiamate sequenziali a tool
senza alcun intervento umano, mantenendo coerenza e obiettivi lungo tutto il
processo.
Kimi K2 Thinking: test e performance
Il modello ha ottenuto risultati da stato dell’arte nei principali benchmark di
AI:
* 44,9% su Humanity’s Last Exam (HLE), un test multidisciplinare con domande di
livello esperto;
* 60,2% su BrowseComp, valutando la sua capacità di ricerca e consultazione
autonoma di fonti online;
* 71,3% su SWE-Bench Verified, testando la sua efficacia come agente di
programmazione.
Il modello mostra un'elevata generalizzazione in compiti complessi e poco
strutturati, ed è in grado di risolvere problemi di matematica avanzata.
Vai al post
Il progetto introduce un paradigma che va oltre la generazione di testo:
un’intelligenza artificiale che combina pensiero computazionale, capacità
simboliche e uso strumentale, aprendo la strada a una nuova generazione di
agenti intelligenti capaci di affrontare compiti aperti e multidisciplinari con
autonomia e profondità.
--------------------------------------------------------------------------------
FREEPIK SPACES
Anche Freepik ha lanciato il suo "canvas" che permette la creazione di workflow
per la produzione di contenuti visivi. Si chiama "Spaces".
Freepik Spaces: un test
Nel video si vede un esempio di un semplice flusso, in cui genero un'immagine
"text-to-image" con Seedream 4, e partendo dall'immagine ne creo un'altra, con
la nuova funzionalità "Camera Angles", che permette di ruotare l'inquadratura.
Infine, collegando l'immagine a un nodo video, e aggiungendo un #prompt
testuale, genero un video con Veo 3.1.
Ho creato il prompt per l'immagine usando "Image Prompt Assistant":
ChatGPT - Image Prompt Assistant
Descrivi l’immagine che vuoi creare, e genererò un prompt strutturato da usare
per ottenere il miglior risultato. Sfrutta i suggerimenti, oppure parlami
direttamente della tua idea. Al resto penserò io. Buona creazione.
ChatGPT
Il prompt per il video, invece, con "Veo 3 Prompt Assistant":
ChatGPT - Veo 3 Prompt Assistant
Descrivi il video che vuoi creare con Veo 3.1, e genererò un prompt strutturato
da usare per ottenere il miglior risultato. Posso fornirti anche l’immagine del
fotogramma chiave. Usa i suggerimenti, oppure parlami direttamente della tua
idea. Al resto penserò io. Buona creazione.
ChatGPT
L'aspetto sempre più interessante di questi modelli è la loro capacità di
aderire anche a istruzioni molto strutturate. L'immagine, e poi il video,
mostrano esattamente quello che ho descritto nei prompt.
--------------------------------------------------------------------------------
SIMA 2 DI GOOGLE DEEPMIND
SIMA 2 è la nuova generazione di agenti AI sviluppata da Google DeepMind,
progettata per operare in ambienti virtuali 3D complessi.
Potenziato dal modello Gemini, non si limita a seguire istruzioni: ragiona,
comunica, apprende autonomamente e si adatta a mondi mai visti prima.
L'agente comprende obiettivi a lungo termine, esegue compiti articolati e spiega
le proprie azioni.. un passo concreto verso l’intelligenza artificiale generale
"incarnata"? Le sue abilità si estendono oltre i singoli giochi: riesce a
trasferire concetti tra contesti differenti e ad apprendere nuove competenze
tramite gioco auto-diretto.
0:00
/0:46
1×
SIMA 2 di Google DeepMind
SIMA 2 è anche in grado di operare in mondi generati in tempo reale da semplici
input testuali o visivi, grazie all’integrazione con il progetto Genie.
Durante l’addestramento, il sistema utilizza i feedback di Gemini per
migliorarsi progressivamente senza ulteriore supervisione umana, dimostrando una
capacità di autoapprendimento su larga scala.
Vai al progetto
> Il progetto rimane in fase di ricerca, ma apre prospettive concrete per
> applicazioni nella robotica, nell’assistenza virtuale e nell’interazione
> multimodale uomo-macchina.
--------------------------------------------------------------------------------
NESTED LEARNING DI GOOGLE RESEARCH
Nested Learning è un nuovo approccio al machine learning sviluppato da Google
Research, pensato per risolvere un limite comune nei modelli neurali: quando
imparano nuove informazioni, tendono a dimenticare quelle già apprese.
Nested Learning di Google Research
Invece di considerare il modello come un unico processo di apprendimento, Nested
Learning lo interpreta come un insieme di più sottoprocessi organizzati a
livelli, ciascuno con il proprio flusso informativo e il proprio ritmo di
aggiornamento.
Questo approccio unifica la struttura del modello e il modo in cui apprende,
trattandoli come parti di un unico sistema. Il risultato è un'AI più stabile,
che può imparare in modo continuo senza perdere ciò che già conosce.
Hope è l’architettura sperimentale sviluppata secondo questi principi: una rete
neurale ricorrente capace di modificare sé stessa e dotata di una memoria
flessibile, in grado di gestire grandi quantità di informazioni nel tempo. I
risultati mostrano miglioramenti evidenti rispetto ai modelli tradizionali, sia
nella comprensione del linguaggio sia nel mantenere memoria di contesti lunghi.
Vai al post
> Questo apre nuove prospettive per costruire sistemi di intelligenza
> artificiale più vicini al modo in cui apprende il cervello umano.
--------------------------------------------------------------------------------
KOSMOS: L'AI APPLICATA ALLA RICERCA SCIENTIFICA
> Kosmos rappresenta una delle evoluzioni più significative nel campo dell'AI
> applicata alla ricerca scientifica.
È un sistema progettato per condurre, in modo autonomo, l'intero ciclo della
scoperta: analisi dei dati, esplorazione della letteratura, generazione di
ipotesi, verifica e sintesi in report strutturati e completamente tracciabili.
La sua architettura combina due agenti generici (uno dedicato alle analisi e uno
alla ricerca bibliografica) coordinati da un "world model" che mantiene
coerenza, memoria e direzione scientifica per centinaia di iterazioni. Il
risultato è una capacità di ragionamento esteso che supera di un ordine di
grandezza quella dei sistemi precedenti.
Kosmos: An AI Scientist for Autonomous Discovery
Data-driven scientific discovery requires iterative cycles of literature search,
hypothesis generation, and data analysis. Substantial progress has been made
towards AI agents that can automate scientific research, but all such agents
remain limited in the number of actions they can take before losing coherence,
thus limiting the depth of their findings. Here we present Kosmos, an AI
scientist that automates data-driven discovery. Given an open-ended objective
and a dataset, Kosmos runs for up to 12 hours performing cycles of parallel data
analysis, literature search, and hypothesis generation before synthesizing
discoveries into scientific reports. Unlike prior systems, Kosmos uses a
structured world model to share information between a data analysis agent and a
literature search agent. The world model enables Kosmos to coherently pursue the
specified objective over 200 agent rollouts, collectively executing an average
of 42,000 lines of code and reading 1,500 papers per run. Kosmos cites all
statements in its reports with code or primary literature, ensuring its
reasoning is traceable. Independent scientists found 79.4% of statements in
Kosmos reports to be accurate, and collaborators reported that a single 20-cycle
Kosmos run performed the equivalent of 6 months of their own research time on
average. Furthermore, collaborators reported that the number of valuable
scientific findings generated scales linearly with Kosmos cycles (tested up to
20 cycles). We highlight seven discoveries made by Kosmos that span
metabolomics, materials science, neuroscience, and statistical genetics. Three
discoveries independently reproduce findings from preprinted or unpublished
manuscripts that were not accessed by Kosmos at runtime, while four make novel
contributions to the scientific literature.
arXiv.orgLudovico Mitchener
> In un singolo run di 12 ore, Kosmos può leggere fino a 1.500 articoli,
> eseguire oltre 40.000 righe di codice e produrre scoperte che, secondo gruppi
> accademici indipendenti, equivalgono a circa sei mesi di lavoro umano.
Ogni claim è supportato da codice o letteratura primaria, offrendo un grande
livello di trasparenza, e permettendo a scienziati esterni di validare o
confutare facilmente ogni passaggio. L’accuratezza complessiva delle sue
affermazioni, valutata da esperti, è del 79%, con performance particolarmente
solide nelle analisi dati e nelle verifiche bibliografiche.
Il valore di Kosmos emerge soprattutto nella sua capacità di esplorare fenomeni
complessi con un approccio non pregiudiziale.
Nei test condotti, ha riprodotto risultati recenti non ancora pubblicati, ha
fornito prove aggiuntive per scoperte esistenti e ha sviluppato nuovi metodi
analitici senza supervisione diretta. In alcuni casi è arrivato a identificare
meccanismi biologici che non erano mai stati individuati da ricercatori umani.
> Questa potenza analitica non elimina
> il ruolo dei ricercatori: lo amplia.
Kosmos dà il meglio quando opera su dati curati da scienziati e quando i
risultati vengono valutati criticamente da esperti. La collaborazione uomo–AI
diventa un ciclo continuo: lo scienziato imposta il problema, Kosmos esplora lo
spazio delle possibilità, l’umano interpreta, corregge, orienta. E ciò che
Kosmos propone, anche quando imperfetto, amplia l’orizzonte degli esperimenti e
delle domande future.
Vai al paper
Nonostante i limiti attuali, il sistema dimostra cosa può diventare la ricerca
quando la capacità computazionale si unisce a metodi scientifici automatizzati.
Kosmos non promette di sostituire l’ingegno umano, ma accelera il percorso che
porta dai dati alla conoscenza, aprendo un nuovo modo di fare scienza in cui
esplorazione e validazione si alimentano reciprocamente.
--------------------------------------------------------------------------------
FLORA: UN WORKFLOW CON WAN 2.2 E NANO BANANA
Flora rimane uno dei sistemi dedicati ai modelli visuali più sorprendenti.
Questo workflow, basato su Gemini 2.5 Flash Image (Nano Banana) e Wan 2.2 Move &
Replace, permette di sostituire personaggi, abiti o oggetti in post-produzione.
0:00
/0:18
1×
Flora: un workflow con Wan 2.2 e Nano Banana
Il tutto, collegando blocchi video e immagini di riferimento, e adattando
automaticamente il risultato al movimento e alla scena.
Vai al workflow
--------------------------------------------------------------------------------
L'EDITING DELLE IMMAGINI DI QWEN
Uno space di Hugging Face molto interessante che mostra la potenzialità di Qwen
nell'editing delle immagini.
L'applicazione riceve in input un'immagine e permette di selezionare un'opzione
di cambio inquadratura.
L'editing delle immagini di Qwen
> L'output è un'immagine coerente nell'inquadratura selezionata.
--------------------------------------------------------------------------------
I MODELLI DI GENERAZIONE VIDEO RISPETTANO LE LEGGI FISICHE DEL MONDO REALE?
> Oppure si limitano a generare sequenze visivamente plausibili senza
> comprenderle?
Quando è stato lanciato Sora 2, dopo diversi test, avevo già risposto con
decisione a questa domanda, ma ora arriva una conferma dal paper "Do generative
video models understand physical principles?" di Google DeepMind e INSAIT.
Il team ha creato Physics-IQ, un benchmark pensato per misurare la comprensione
delle leggi fisiche nei modelli di generazione video. Sono stati messi alla
prova otto sistemi tra cui Sora, Runway Gen-3, Lumiere, Pika, Stable Video
Diffusion e VideoPoet, chiedendo loro di prevedere come prosegue una scena in
base ai primi fotogrammi.
Paper: "Do generative video models understand physical principles?"
Il dataset include 396 video reali che coprono meccanica dei solidi,
fluidodinamica, ottica, termodinamica e magnetismo. I risultati parlano chiaro:
anche i modelli più avanzati raggiungono solo il 30% del comportamento fisico
reale. Il migliore è VideoPoet (multiframe) con il 29,5%, mentre Sora, pur
generando i video più realistici visivamente, si ferma al 10%.
> Il dato più interessante: realismo visivo e comprensione fisica non sono
> correlati. Un video può sembrare perfettamente credibile e al tempo stesso
> violare le leggi fondamentali del mondo reale.
Vai al paper
Il lavoro apre una riflessione più ampia: la previsione del futuro (next-frame
prediction) può davvero bastare per imparare la fisica, o servirà un approccio
più "embodied", in cui l’IA interagisce con l’ambiente per capirlo davvero?
Il benchmark Physics-IQ è pubblico e rappresenta oggi un riferimento per
misurare quanto le intelligenze generative "capiscono" davvero il mondo che
imitano.
LE MIE CONSIDERAZIONI DOPO IL LANCIO DI SORA 2
#sora #prompt #veo3 #openai #ai #genai #generativeai #intelligenzaartificiale
#llm | Alessio Pomaro
🧠 Primi test con #Sora 2, in modalità “text to video”. ✨ Partiamo dal concetto
che siamo ormai a livelli molto alti di qualità dell’output e di coerenza. 👉
L’aderenza al #prompt e gli output sono ottimi, anche su contesti ampi e
strutturati, ma mi ha convinto maggiormente #Veo3. 👉 Spero di non sentire più
nessuno parlare di “SIMULAZIONE FISICA” per questa categoria di modelli. 👉 Sono
perfetti in alcuni ambiti (es. quelli che sono stati mostrati nella live di
presentazione di #OpenAI), ma un disastro in altri. Perché non c’è una struttura
simbolica che imponga vincoli fisici (es. gravità, inerzia, coerenza dei
movimenti): tutto deriva dal training. 💡 Certo che migliora rispetto ai modelli
precedenti! Perché migliora il training, aumentano i dati, migliorano le
tecniche, si agisce per correggere.. ma non può essere affidabile come un
sistema che “conosce effettivamente” le leggi fisiche (un motore fisico di
simulazione). 👉 Questo vale anche se si usa una fase di “reasoning” che
riscrive i prompt migliorando la descrizione per ottenere un risultato migliore.
❓ Forse ci arriveremo (anche se non ne sono certo, considerando solo questa
tecnologia). Di certo, oggi non ci siamo. ___ ✉️ 𝗦𝗲 𝘃𝘂𝗼𝗶 𝗿𝗶𝗺𝗮𝗻𝗲𝗿𝗲
𝗮𝗴𝗴𝗶𝗼𝗿𝗻𝗮𝘁𝗼/𝗮 𝘀𝘂 𝗾𝘂𝗲𝘀𝘁𝗲 𝘁𝗲𝗺𝗮𝘁𝗶𝗰𝗵𝗲, 𝗶𝘀𝗰𝗿𝗶𝘃𝗶𝘁𝗶
𝗮𝗹𝗹𝗮 𝗺𝗶𝗮 𝗻𝗲𝘄𝘀𝗹𝗲𝘁𝘁𝗲𝗿: https://lnkd.in/dN-bwBrV #AI #GenAI
#GenerativeAI #IntelligenzaArtificiale #LLM
LinkedInView Profile
--------------------------------------------------------------------------------
TONGYI DEEPRESEARCH: REPORT TECNICO
Dopo il lancio di Tongyi DeepResearch, il team di Alibaba ha pubblicato il
report tecnico completo, ed è un documento che segna degli step di avanzamento
molto interessanti.
Tongyi DeepResearch è un modello agentico da 30,5 miliardi di parametri, ma con
solo 3,3 miliardi attivi per token. Un’architettura efficiente, progettata per
eseguire ricerche complesse, pianificare strategie, consultare fonti reali e
sintetizzare conoscenza in modo autonomo.
La vera novità è il modo in cui è stato addestrato: un approccio “end-to-end”
che unisce due fasi (mid-training e post-training agentico) in un unico flusso
continuo. Nella prima fase il modello apprende come comportarsi da agente, nella
seconda impara a perfezionare queste abilità attraverso reinforcement learning e
fine-tuning supervisionato.
Niente etichette manuali: i dati di addestramento vengono generati
automaticamente tramite una pipeline di sintesi che produce domande,
ragionamenti e decisioni simulate, in ambienti virtuali e reali. È un modo per
scalare la conoscenza senza il costo del lavoro umano, mantenendo coerenza e
varietà.
Vai al paper
Il modello interagisce con un ecosistema di strumenti (es. il motore di ricerca,
interprete Python, parser di file, Google Scholar) e gestisce contesti fino a
128.000 token grazie a un sistema di memoria compressa che
> imita il modo in cui una persona sintetizza e aggiorna ciò che sa durante
> un’indagine lunga.
Nei test, Tongyi DeepResearch ha superato o eguagliato modelli chiusi come
OpenAI o3 e DeepSeek-V3.1, raggiungendo prestazioni allo stato dell’arte su
benchmark di ricerca complessa come Humanity’s Last Exam, GAIA e WebWalkerQA.
Alibaba ha inoltre introdotto la “Heavy Mode”, che coordina più agenti in
parallelo e fonde le loro conclusioni in un’unica risposta coerente: potremmo
definirla "intelligenza collaborativa".
> Il risultato è un agente capace di unire metodo scientifico e automazione,
> costruendo una base aperta per la ricerca autonoma.
--------------------------------------------------------------------------------
PERSONAL HEALTH AGENT (PHA)
Un nuovo studio di Google Research presenta il Personal Health Agent (PHA), un
sistema multi-agente basato su grandi modelli linguistici progettato per offrire
supporto personalizzato alla salute e al benessere.
The Anatomy of a Personal Health Agent
Health is a fundamental pillar of human wellness, and the rapid advancements in
large language models (LLMs) have driven the development of a new generation of
health agents. However, the application of health agents to fulfill the diverse
needs of individuals in daily non-clinical settings is underexplored. In this
work, we aim to build a comprehensive personal health agent that is able to
reason about multimodal data from everyday consumer wellness devices and common
personal health records, and provide personalized health recommendations. To
understand end-users’ needs when interacting with such an assistant, we
conducted an in-depth analysis of web search and health forum queries, alongside
qualitative insights from users and health experts gathered through a
user-centered design process. Based on these findings, we identified three major
categories of consumer health needs, each of which is supported by a specialist
sub-agent: (1) a data science agent that analyzes personal time-series wearable
and health record data, (2) a health domain expert agent that integrates users’
health and contextual data to generate accurate, personalized insights, and (3)
a health coach agent that synthesizes data insights, guiding users using a
specified psychological strategy and tracking users’ progress. Furthermore, we
propose and develop the Personal Health Agent (PHA), a multi-agent framework
that enables dynamic, personalized interactions to address individual health
needs. To evaluate each sub-agent and the multi-agent system, we conducted
automated and human evaluations across 10 benchmark tasks, involving more than
7,000 annotations and 1,100 hours of effort from health experts and end-users.
Our work represents the most comprehensive evaluation of a health agent to date
and establishes a strong foundation towards the futuristic vision of a personal
health agent accessible to everyone.
arXiv.orgA. Ali Heydari
Il PHA integra dati da dispositivi indossabili, cartelle cliniche e interazioni
conversazionali per fornire analisi, interpretazioni mediche e coaching
motivazionale. Il sistema si articola in tre componenti:
1. il Data Science Agent, che analizza dati numerici e individua pattern;
2. il Domain Expert Agent, che fornisce risposte mediche accurate e
contestualizzate;
3. l’Health Coach Agent, che aiuta a definire obiettivi realistici e a
sostenere il cambiamento comportamentale.
Sviluppato con un approccio centrato sull’utente, il progetto si basa su oltre
1.300 query reali e su dati dello studio WEAR-ME, che ha coinvolto più di mille
partecipanti. La valutazione ha compreso 10 benchmark, oltre 7.000 annotazioni
umane e più di 1.100 ore di lavoro di esperti e utenti.
I risultati mostrano miglioramenti significativi nell’accuratezza analitica,
nella qualità delle risposte mediche e nell’efficacia del coaching rispetto ai
modelli linguistici generici.
Vai al paper
> Forse, stiamo vedendo dei progressi interessanti verso "agenti di salute"
> integrati, accessibili e orientati all’empowerment delle persone.
--------------------------------------------------------------------------------
- GRAZIE -
Se hai apprezzato il contenuto, puoi
contribuire al progetto con una donazione 🙂
ISCRIVITI ALLA NEWSLETTER
Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su
tematiche relative all'intelligenza artificiale.
Iscriviti alla Newsletter
Email sent! Check your inbox to complete your signup.
Gratuita. No Spam. Puoi disiscriverti quando vuoi.
Consulta la privacy policy.
Negli ultimi mesi ho passato parecchio tempo a studiare un tema che viene spesso
ridotto a una frase semplice:
> “Il segreto è la pertinenza”
La sentiamo ovunque nel mondo della search, soprattutto da quando si parla di
AI, RAG, AEO, AIO, GEO, ecc..
Il concetto, a livello intuitivo, è chiaro… ma per un algoritmo, che cosa
significa davvero "pertinenza"? E, soprattutto:
* è davvero l’unico concetto importante?
* Come entra in gioco quando Google (o un sistema RAG) deve scegliere una
risposta?
* Possiamo misurare e ottimizzare questo processo, fino a creare dei tool che
ci aiutano a farlo in modo scalabile?
In questo percorso entriamo nel flusso "reale" dei moderni sistemi di ricerca,
vediamo un test concreto su AI Overviews di Google, e un sistema multi-agent per
ottimizzare le risposte in modo automatico.
Partiamo da concetti tecnici (embeddings, bi-encoder, cross-encoder, reranker…)
e arriviamo a strategie e tool operativi.
Rilevanza contestuale: la nuova metrica della visibilità
PERTINENZA E RILEVANZA: DUE PAROLE, DUE CONCETTI DIVERSI
Prima di tutto chiariamo i concetti alla base dei moderni sistemi di ricerca,
con un esempio concreto di query:
> "come rinnovare il passaporto scaduto"
Questa query attiva un flusso di lavoro che, semplificando, ha due fasi
principali.
1. Pertinenza semantica (semantic matching)
Il sistema di ricerca analizza la query e la confronta con i contenuti
presenti nella knowledge (l’insieme dei documenti disponibili: pagine,
testi, ecc.).
In questa fase vengono estratti i contenuti più simili a livello semantico
alla query.
2. Rilevanza contestuale (contextual relevance)
A partire dai contenuti pertinenti, il sistema seleziona quelli più
rilevanti nel contesto della query, cioè quelli che rispondono meglio alla
domanda dell’utente.
Cosa otteniamo alla fine? Una lista di contenuti ordinati per rilevanza, che può
tradursi in una SERP (lista di risultati), oppure diventare il contesto per un
modello di AI (LLM/agent), che genera una risposta.
Già da qui vediamo un punto importante:
> la pertinenza è necessaria, ma non sufficiente.
> Prima il sistema decide quali informazioni sono potenzialmente interessanti, e
> successivamente determina quelle utili per ottenere la miglior risposta.
Come funzionano, nel dettaglio, questi due step?
--------------------------------------------------------------------------------
COME SI CALCOLA LA PERTINENZA SEMANTICA: EMBEDDINGS & SIMILARITÀ
Per lo step di pertinenza semantica entrano in gioco due concetti chiave:
* embeddings
* similarità tra vettori
Cosa sono gli embeddings? Esempi di utilizzo
Cosa sono e come funzionano gli embeddings (o incorporamenti): una spiegazione
semplice con alcuni esempi di utilizzo in ambito SEO, e riflessioni
sull’importanza della consapevolezza di questi sistemi.
Alessio PomaroAlessio Pomaro
In breve..
1. Trasformazione in embeddings
Sia la query che i contenuti della knowledge vengono trasformati in vettori
numerici (embeddings). Ogni embedding è un vettore in uno spazio
multidimensionale che rappresenta il significato del testo.
2. Calcolo della similarità
Il sistema misura la similarità tra l’embedding della query e gli embeddings
dei contenuti. Più i due vettori sono simili, più il contenuto è considerato
pertinente.
Il risultato di questa fase è:
> Una lista di contenuti pertinenti, cioè i documenti semanticamente più vicini
> alla query.
UNA NOTA SULLA SIMILARITÀ (NON SOLO COSENO)
Spesso si sente parlare di similarità del coseno come metodo standard di
confronto tra embeddings.
È importante sottolineare che:
* la similarità del coseno è solo uno dei modi possibili per misurare la
distanza/similarità tra vettori;
* il metodo migliore dipende da come sono stati generati gli embeddings:
dall’architettura del modello, dal processo di training, dalla
normalizzazione dei vettori, ecc..
A parità di embeddings, metodi diversi possono portare a risultati diversi.
Ci basta conservare un concetto:
> Non è sufficiente “avere gli embeddings”: dobbiamo conoscerne la struttura per
> scegliere il metodo di similarità giusto.
--------------------------------------------------------------------------------
COME SI CALCOLA LA RILEVANZA: RERANKER, BI-ENCODER E CROSS-ENCODER
Quando passiamo dalla pertinenza semantica alla rilevanza contestuale, cambia
completamente il tipo di modello utilizzato.
Qui entrano in gioco i reranker, ovvero modelli che:
* ricevono in input una query e un contenuto/documento,
* restituiscono in output uno score di rilevanza, cioè un valore numerico che
indica quanto quel contenuto è candidato a rispondere alla query.
Alla fine di questo step, otteniamo:
> una lista ordinata dei contenuti più rilevanti per la query.
BI-ENCODER VS CROSS-ENCODER
Per capire meglio, facciamo un passo indietro sulle architetture.
BI-ENCODER → PERTINENZA
Per la pertinenza semantica, usiamo sistemi che vengono definiti "bi-encoder".
* La query viene codificata in un embedding.
* Il contenuto viene codificato in un embedding.
* Un calcolo matematico di similarità tra i due embeddings determina lo score
di pertinenza.
Sono chiamati "bi-encoder" proprio perché vengono usati due encoding separati.
CROSS-ENCODER → RILEVANZA
Per la rilevanza, invece, usiamo sistemi "cross-encoder" (reranker).
* La query e il contenuto vengono concatenati in un unico input,
* l'input combinato viene passato a un modello transformer,
* il modello elabora tutto insieme e restituisce uno score di rilevanza.
Schema mentale:
> [query + contenuto] → modello transformer → score di rilevanza
Questa differenza di architettura spiega perché, nei sistemi di ricerca moderni,
si usano due fasi distinte.
--------------------------------------------------------------------------------
PERCHÉ SERVONO DUE FASI:
VELOCE E SCALABILE VS LENTO E PRECISO
Perché si usano queste due fasi per la ricerca? Perché il calcolo della
pertinenza è veloce, scalabile, e meno preciso. Mentre il calcolo della
rilevanza è lento, costoso, e iper preciso.
Riassumendo..
* Bi-encoder (pertinenza)
✅ veloci
✅ scalabili
❌ meno precisi
* Cross-encoder / reranker (rilevanza)
❌ lenti
❌ costosi
✅ estremamente precisi
❌ con finestra di contesto limitata
Queste caratteristiche fanno nascere la necessità di una pipeline ibrida:
1. un sistema veloce e meno preciso (bi-encoder) agisce per scremare la
knowledge;
2. un sistema lento e iper preciso (cross-encoder) agisce per raffinare e
ordinare.
--------------------------------------------------------------------------------
DALLA TEORIA AL RAG (E OLTRE): IL “TYPICAL SEARCH & RETRIEVAL FLOW”
Il flusso che abbiamo descritto è esattamente quello dei sistemi RAG (Retrieval
Augmented Generation), in cui..
* abbiamo una knowledge base (documenti, pagine, FAQ, ecc.),
* l’utente effettua una query,
* un sistema di retrieval estrae i contenuti più pertinenti (bi-encoder),
* un reranker seleziona e ordina i contenuti più rilevanti (cross-encoder),
* il risultato: può essere mostrato come lista di documenti, oppure passato a
un LLM per generare una risposta.
Nella documentazione di Google, questo flusso oggi viene definito:
> "typical search and retrieval flow"
Typical search & retrieval flow
Il messaggio implicito è...
* non è solo “RAG per documenti interni”,
* è un pattern generale per la ricerca: vale per la knowledge locale, per il
web, per sistemi ibridi.
Ed è qui che entra in scena qualcosa che ormai tutti stiamo guardando con
attenzione: AI Overview (e, in generale, i nuovi sistemi di risposta ibridi che
uniscono un motore di ricerca a un modello di linguaggio).
--------------------------------------------------------------------------------
AI OVERVIEW COME SISTEMA IBRIDO: COSA CONTA DAVVERO?
Guardando il flusso che abbiamo descritto, viene spontaneo chiedersi:
> "l'AI Overview, quando mostra le fonti vicino alla risposta,
> su cosa si basa per scegliere quelle pagine?"
È ragionevole ipotizzare che:
* le fonti mostrate siano le pagine che contengono le risposte con rilevanza
contestuale più alta nella knowledge di Google;
* non basta essere in prima posizione tra i risultati organici per essere
automaticamente una fonte dell'AI Overview.
E infatti…
IL MIO CASO: IN PRIMA POSIZIONE, MA FUORI DA AI OVERVIEW
Per la query "cosa sono i priority hints", il mio contenuto era primo tra i
risultati organici, ma, inizialmente, non compariva tra le fonti dell'AI
Overview.
Ho deciso, quindi, di fare un esperimento per capire meglio cosa stava
succedendo "sotto il cofano".
--------------------------------------------------------------------------------
IL TEST: MISURARE LA RILEVANZA DELLE RISPOSTE (E SCOPRIRE CHE LA MIA ERA... LA
PEGGIORE)
Vediamo il test, step by step.
1. Ho considerato le pagine che erano fonti della risposta principale dell'AI
Overview.
2. Da ciascuna di queste pagine ho estratto la risposta alla query dell’utente
(la parte di contenuto che risponde effettivamente alla domanda).
3. Ho fatto la stessa operazione con la mia pagina web, che comunque era prima
tra i risultati organici, e quindi un candidato naturale per diventare fonte
della risposta.
4. Ho usato un reranker per misurare la rilevanza contestuale tra la query e le
risposte dei contenuti che erano già fonte dell'AI Overview, e tra la query
e la risposta del mio contenuto.
IL RISULTATO?
La risposta nella mia pagina..
> era quella con rilevanza
> contestuale più bassa tra tutte.
Questo allinea perfettamente l’esperimento con l’ipotesi: l'AI Overview non
“premia” chi è semplicemente ben posizionato tra i risultati organici, ma dà
priorità ai contenuti che forniscono risposte più rilevanti.
--------------------------------------------------------------------------------
OTTIMIZZARE LA RISPOSTA A COLPI DI RERANKER
A questo punto, passiamo alla seconda fase del test.
* Ho analizzato le risposte delle pagine che il reranker considerava più
rilevanti, osservando: le entità trattate, i termini usati, gli aspetti della
query che venivano valorizzati, i focus che venivano messi in atto.
* Ho modificato la mia risposta cercando di includere le entità rilevanti,
coprire tutti i punti che le altre risposte trattavano in maniera esaustiva,
mantenere coerenza con il mio stile e con il contesto della pagina.
* Ogni volta che aggiornavo il contenuto, misuravo nuovamente la rilevanza
contestuale di tutte le risposte attraverso il reranker, verificando se la
mia risposta stava salendo nel ranking.
Ho iterato questo processo finché:
> la mia risposta ha ottenuto uno score di rilevanza superiore a tutte le altre.
E cosa è successo dopo pochi giorni? La mia pagina è diventata prima fonte
dell'AI Overview per quella query.
Quindi funziona!
Ma andiamo a fare un bilancio dell'operazione.
BILANCIO DELL’OPERAZIONE
* Effort: altissimo.
* Certezza del risultato: nessuna, perché Google non documenta in modo completo
il comportamento di AI Overviews.
* Utilità strategica: sì, in ottica di branding e autorevolezza, e forse
garantisce qualche clic in più.
* Scalabilità: zero, perché si tratta di un'operazione manuale che se dovesse
essere applicata a centinaia di query si tradurrebbe in un effort enorme.
Da qui nasce la domanda naturale:
> "E se provassimo a automatizzare questo processo?"
--------------------------------------------------------------------------------
DAL TEST AL TOOL: UN SISTEMA MULTI-AGENT PER OTTIMIZZARE LE RISPOSTE
Trasformiamo l'esperimento in un tool. L'architettura di base è LangGraph, con
un approccio multi-agent.
Un tool multi-agente per l'ottimizzazione per l'AI Overview
ARCHITETTURA AD ALTO LIVELLO
Il sistema funziona attraverso i seguenti step.
* Un Agent Orchestrator riceve in input la query e l'URL della pagina web da
ottimizzare.
* Un altro agent, recupera il risultato di AI Overview per la query, estrae le
fonti della risposta principale, estrae anche le fonti delle risposte
secondarie (quelle legate alle query di fan-out).
* Attraverso un LLM, viene rilevata la risposta alla query da ciascuna fonte,
ovvero il testo all'interno delle pagine web che mira a rispondere
direttamente alla domanda. Viene attuato lo stesso processo anche per la
pagina da ottimizzare.
* A questo punto abbiamo una tabella concettuale con: query, risposta di ogni
fonte dell'AI Overview, risposta della pagina da ottimizzare.
* Diversi agenti, successivamente, usano un reranker per misurare la rilevanza
contestuale di ogni risposta rispetto alla query, e producono un ranking
delle risposte. In maniera iterativa, prendono in considerazione le risposte
delle fonti, il contesto complessivo della SERP, la risposta della pagina da
ottimizzare, e generano una nuova risposta candidata.
* La nuova risposta viene valutata dal reranker. Se lo score è inferiore
rispetto alle migliori risposte, il sistema: genera una nuova variante
considerando tutti i dati a disposizione, ricalcola la rilevanza, e così via,
fino a quando la risposta generata non ottiene lo score di rilevanza più alto
tra tutte.
* Un ulteriore gruppo di agenti analizzano le query di fan-out (derivate dalle
risposte secondarie dell'AI Overview), analizzano le pagine in SERP,
costruiscono una proposta di ottimizzazione per la struttura della pagina,
per intercettare anche le query di fan-out.
RISULTATO FINALE DEL SISTEMA
Una volta terminata l'azione del workflow, otteniamo una risposta ottimizzata da
inserire nella pagina web, e un'analisi SEO che mira a riorganizzare/arricchire
il contenuto, valorizzare in modo più completo il topic, posizionarsi meglio
anche per le ricerche correlate.
E se lo pensiamo come sistema che lavora in background?
> Potrebbe analizzare costantemente le query, monitorare le AI Overview e
> ottimizzare in autonomia (costantemente) i contenuti per aumentare la
> probabilità di essere fonte.
> Nei nostri test, questa idea è già diventata realtà su alcuni progetti.
--------------------------------------------------------------------------------
L’INDICE DI RILEVANZA È UN VALORE ASSOLUTO? (SPOILER: NO)
A questo punto sorge una domanda importante:
> Se, secondo il reranker, un contenuto è più rilevante di un altro,
> si tratta di una verità assoluta?
La risposta è no, perché lo score di rilevanza dipende da:
* l’architettura del modello di reranking,
* i dati usati in fase di training,
* gli eventuali processi di fine-tuning,
* le scelte di ottimizzazione fatte in fase di sviluppo.
Quindi, reranker diversi, applicati allo stesso set di dati, possono restituire
punteggi differenti, e quindi classifiche diverse. Nell'immagine che segue, ad
esempio, vediamo a confronto la misurazione della rilevanza contestuale di due
reranker diversi (Jina Reranker V3 e Semantir Ranker di Google).
Un test usando due reranker diversi
Come si può notare, gli score sono diversi, e danno vita a una "classifica"
diversa.
> È un po' come chiedere a due esperti molto competenti, ma con formazione
> diversa, di classificare gli stessi contenuti: avranno tendenzialmente
> opinioni simili, ma non per forza identiche.
QUAL È IL "DATO CORRETTO"?
Non esiste un “dato corretto” in assoluto. Esiste un modello che "guarda il
mondo" secondo la propria formazione, e restituisce il suo "giudizio".
Nel tool, ho scelto di usare il reranker di Google, considerando il fatto che,
probabilmente, è stato addestrato su una quantità enorme di dati proprietari,
compresi i dati derivanti dalla ricerca online (click, comportamenti, feedback
impliciti, ecc.).
--------------------------------------------------------------------------------
IL TOOL IN AZIONE: UNA RAPIDA PANORAMICA
Nel seguente video, è possibile vedere l'esecuzione del tool su una query di
ricerca.
AI Overview Content Strategist Agent V7
L'output, come indicato in precedenza, è composto dal testo dedicato alla
risposta per l'AI Overview e dall'analisi per l'ottimizzazione del contenuto.
--------------------------------------------------------------------------------
AEO, AIO, GEO, ECC.: COSA CAMBIA DAVVERO NELLA SEO?
Dopo aver fatto funzionare questo sistema su centinaia di pagine, e dopo aver
osservato l’evoluzione di tutte le sigle che stanno emergendo (AEO, AIO, GEO,
ecc.), viene spontanea una domanda:
> Rispetto alla SEO che conoscevamo,
> quali sono le vere novità?
Per come la vedo oggi, la mia risposta è: "molto poche". Quello che emerge come
davvero rilevante sono le attività che avremmo sempre dovuto svolgere:
rispondere in modo esaustivo alle query degli utenti, esplorare il topic in modo
completo, usare un linguaggio chiaro e corretto, fornire un valore reale.
QUINDI, COS'È CAMBIATO?
> È cambiato il fatto che oggi abbiamo nuove piattaforme e nuove SERP Features
> che ce lo fanno presente. E nuovi strumenti per migliorare la qualità del
> nostro lavoro.
--------------------------------------------------------------------------------
È FONDAMENTALE APPROFONDIRE ANCHE GLI ASPETTI TECNICI
Oggi abbiamo a disposizione strumenti, informazioni, documentazione, esempi
pratici che ci permettono di comprendere la ricerca anche dal punto di vista
tecnico.
Questo non significa dover essere in grado di sviluppare migliaia di righe di
codice o diventare ingegneri esperti nel Machine Learning.
Significa capire i concetti di base, ad esempio cosa sono gli embeddings, come
si calcola la similarità, come lavorano i bi-encoder e i cross-encoder, cosa
significa parlare di reranking e rilevanza contestuale, come funziona un flusso
RAG o un sistema ibrido tipo l'AI Overview, avere una visione chiara di come i
sistemi "prendono decisioni".
PERCHÉ?
> Capire gli aspetti tecnici → genera nuove intuizioni
> Nuove intuizioni → generano nuove strategie e nuovi strumenti
> Nuovi tool → migliorano concretamente la qualità del nostro lavoro
Ed è esattamente quello che abbiamo fatto in questo viaggio:
* siamo partiti da concetti molto tecnici (embeddings, similarità del coseno,
reranker, transformer, multi-agent…),
* li abbiamo usati per interpretare il comportamento di un sistema reale (AI
Overviews), costruire un tool concreto che ci aiuta a migliorare i contenuti,
ottenere risultati misurabili in progetti reali.
Se vogliamo far performare la SEO nel mondo della ricerca aumentata dall’AI, la
strada, secondo me, è questa:
> sforzarci di comprendere i concetti tecnici chiave,
> per poi trasformarli in strategie e automazioni che fanno la differenza.
Buona ricerca (e buona "comprensione tecnica" 😊).
- GRAZIE -
Se hai apprezzato il contenuto, puoi
contribuire al progetto con una donazione 🙂
ISCRIVITI ALLA NEWSLETTER
Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su
tematiche relative all'intelligenza artificiale.
Iscriviti alla Newsletter
Email sent! Check your inbox to complete your signup.
Gratuita. No Spam. Puoi disiscriverti quando vuoi.
Consulta la privacy policy.
> Buon aggiornamento, e buone riflessioni..
--------------------------------------------------------------------------------
IL DECLINO DEL "VIBE CODING"
In una delle sue ultime newsletter, Gary Marcus racconta questo fenomeno: anche
investitori entusiasti come Chamath Palihapitiya e lo stesso Andrej Karpathy
(che ha coniato il termine “vibe coding”) stanno riconoscendo i suoi limiti.
Il declino del "vibe coding"
> La domanda che mi faccio è: si tratta di un
> fallimento della tecnologia o di aspettative
> figlie di un hype irrazionale?
Si pensava di "spruzzare una pozione magica" che avrebbe creato software pronti
per la produzione in uno schiocco di dita? Se sì, abbiamo individuato il
problema.
Questa idea non può funzionare nella complessità del mondo reale, e chiunque
abbia un minimo di conoscenza del settore ne è sempre stato consapevole.
> L'AI, come sempre, è un perfetto "braccio armato" per chi, quel braccio, lo sa
> già usare alla perfezione.
> That's it.
--------------------------------------------------------------------------------
VEO 3.1: TEST E RISORSE UTILI
> Il rilascio era nell'aria, e ora è concreto: Veo 3.1 è disponibile su Gemini
> Chat, su Flow, via API, e su Vertex.
L'ho provato su Flow, generando un video in modalità "text to video", e usando
la funzionalità di "estensione", pilotata da prompt testuali, in cui ho
descritto le azioni di ogni scena successiva.
La funzionalità di estensione è disponibile anche via API.
Veo 3.1: test con estensione su Flow
> L'aderenza alle istruzioni è straordinaria,
> come la qualità dell'output.
Per i prompt, ho usato "Veo 3 Prompt Assistant"...
ChatGPT - Veo 3 Prompt Assistant
Descrivi il video che vuoi creare con Veo 3.1, e genererò un prompt strutturato
da usare per ottenere il miglior risultato. Posso fornirti anche l’immagine del
fotogramma chiave. Usa i suggerimenti, oppure parlami direttamente della tua
idea. Al resto penserò io. Buona creazione.
ChatGPT
L'ultima versione del modello introduce un livello superiore di realismo visivo,
con texture più fedeli alla realtà, miglior adesione ai prompt e un’integrazione
profonda della componente audio. Scene più vive, dettagli più precisi e
narrazioni audiovisive sempre più fluide.
Con Veo 3.1, strumenti come "Riferimenti per i video", "Frame per i video" ed
"Estendi" diventano ancora più potenti: ogni elemento visivo può essere
orchestrato con precisione, controllato da immagini, esteso nel tempo o
modificato con editing mirato.
Vai al post
Su Flow sono state aggiunte nuove funzionalità per l'inserimento e la rimozione
di oggetti e/o personaggi, con la ricostruzione automatica dello sfondo.
Vai al post
TEST: SPOT PUBBLICITARIO CON EFFETTI
Ho provato a creare una parte di uno spot pubblicitario, con effetti visivi e
animazione del logo.
Il prompt descrive la transizione tra prodotto e logo, con effetti e suoni. Il
risultato che si riesce ad ottenere è molto interessante.
Veo 3.1: test per la generazione di spot pubblicitari
> La generazione è text-to-image, realizzata via API, con output a 1080p. I
> prompt sono stati prodotti attraverso "Veo 3 Prompt Assistant".
UN COLAB PER LA GENERAZIONE E L'ESTENSIONE
Ho creato un Colab che permette di:
* generare un video partendo da un prompt testuale;
* estenderlo in modo coerente, fino a triplicarne la durata, attraverso
ulteriori prompt che descrivono le scene successive.
Il tutto attraverso le API di Veo 3.1.
Video generato ed esteso con le API di Veo 3.1
Il video è stato generato con questo Colab (i prompt di generazione ed
estensione si possono vedere all'interno).
Vai al Colab
> Basta impostare l'API Key di Gemini e premere "Play".
Generazione e tripla estensione del video con Veo 3.1
Un altro esempio di generazione e di tripla estensione del video attraverso le
API di Veo 3.1. Duplicando i blocchi del Colab, infatti, è possibile continuare
l'estensione.
--------------------------------------------------------------------------------
SORA 2: PRESENTAZIONE E TEST
> OpenAI ha annunciato Sora 2, che si candida a diventare il modello più evoluto
> per la generazione di video.
Se quello che è stato mostrato in presentazione è effettivamente il livello
degli output, per qualità, coerenza, aderenza ai prompt.. direi che abbiamo
l'antagonista di Veo 3. Che, nel frattempo, però, ha lanciato la versione 3.1
facendo un ulteriore balzo migliorativo.
Sora 2: presentazione
Secondo OpenAI, Sora 2 non rappresenta soltanto un salto incrementale: è un
cambio di paradigma nel modo in cui immaginazione, fisica e controllo narrativo
si incontrano. Ogni generazione video include nativamente l’audio: dialoghi
sincronizzati, sound design credibile, paesaggi sonori che danno corpo alle
scene. Ma il vero avanzamento è nella "simulazione del mondo": rimbalzi che
rispettano la dinamica, acrobazie che “pesano” come nella realtà, interazioni
complesse tra agenti e oggetti che non si risolvono con scorciatoie visive. La
coerenza di stato consente di costruire sequenze più lunghe e istruzioni
multi-shot senza spezzare il filo narrativo, attraversando stili dal
cinematografico all’anime fino al cartoon.
La funzione “Cameo” porta dentro la scena persone, animali o oggetti reali: una
breve registrazione video-audio con verifica di liveness e prompt dinamico
permette al modello di apprendere aspetto e voce come un “token” da riutilizzare
ovunque. È qui che l’esperienza diventa sociale: la nuova app Sora è un feed di
contenuti generati dall’AI ma pubblicati da umani, con possibilità di seguire
amici, creare da un composer essenziale, e “remixare” i video altrui per dare
continuità ai trend. Le impostazioni di privacy sono granulari: si decide chi
può usare il proprio cameo e si mantiene il diritto di rimuovere qualsiasi
contenuto che lo includa.
Sul fronte sicurezza: watermark visibili, standard C2PA per la provenienza,
modelli di prevenzione per contenuti violenti o X-rated (specie con cameo),
limiti predefiniti per i minori, parental control via ChatGPT e nudge
anti-doomscrolling per adulti.
Vai al post
Sotto la superficie, l’obiettivo è ambizioso: addestrare sistemi capaci di
comprendere profondamente il mondo fisico. Nel frattempo, Sora 2 mette nelle
mani di tutti un laboratorio di immaginazione condivisa che unisce rigore di
simulazione e gioia creativa.
PRIMI TEST E CONSIDERAZIONI
Partiamo dal concetto che siamo ormai a livelli molto alti di qualità
dell'output e di coerenza.
L'aderenza al prompt e gli output sono ottimi, anche su contesti ampi e
strutturati, ma mi ha convinto maggiormente Veo 3.1.
Primi test con Sora 2 di OpenAI
> Spero di non sentire più nessuno parlare di "SIMULAZIONE FISICA"
> per questa categoria di modelli.
Sono perfetti in alcuni ambiti (es. quelli che sono stati mostrati nella live di
presentazione di OpenAI), ma un disastro in altri. Perché non c’è una struttura
simbolica che imponga vincoli fisici (es. gravità, inerzia, coerenza dei
movimenti): tutto deriva dal training.
Certo che migliora rispetto ai modelli precedenti! Perché migliora il training,
aumentano i dati, migliorano le tecniche, si agisce per correggere.. ma non può
essere affidabile come un sistema che "conosce effettivamente" le leggi fisiche
(un motore fisico di simulazione).
> Forse ci arriveremo (anche se non ne sono certo, considerando solo questa
> tecnologia). Di certo, oggi non ci siamo.
L'ELABORAZIONE PRE-GENERAZIONE
> Sora 2 elabora i prompt prima della generazione del video? Vediamo un test
> molto interessante.
Ho usato un prompt in cui chiedo al modello di rappresentare un matematico che
dà il risultato di un problema. Il problema non è banalissimo: si risolve con un
sistema di due equazioni in due incognite. GPT-5, ad esempio, attiva il
reasoning per risolverlo.
Il video generato da Sora esplicita la soluzione corretta! Lo si vede in 3
diverse generazioni per dimostrare come lo risolve sempre. Ho fatto altri test,
anche su problemi diversi, e ottengo sempre risultati corretti.
L'elaborazione pre-generazione di Sora 2
Molto probabilmente, quindi, il prompt viene elaborato da un LLM che risolve il
problema e riscrive le istruzioni prima della generazione del video. Questo fa
capire anche il livello di multimodalità di questi sistemi.
> Nota: non sono riuscito a ottenere un risultato altrettanto soddisfacente
> usando Veo 3.
--------------------------------------------------------------------------------
OPENAI: LE NOVITÀ PRESENTATE AL DEVDAY
Durante il "DevDay", OpenAI ha presentato diverse novità.
Il DevDay di OpenAI
AGENT KIT, UNA PIATTAFORMA COMPLETA PER L’INTERO CICLO DI VITA DI UN AGENTE:
DALLA PROTOTIPAZIONE AL DEPLOY
* Agent Builder, permette di disegnare graficamente il comportamento
dell’agente, collegando nodi (es. sistemi decisionali, guardrail, recupero
dati) senza scrivere codice. Ogni blocco è un componente funzionale, del
flusso di lavoro dell’agente.
* Chat Kit fornisce interfacce React pronte per integrare la chat in qualsiasi
app.
* Evals è un insieme di strumenti di test e valutazione che introduce il trace
grading, cioè la possibilità di analizzare ogni passaggio del ragionamento
dell’agente, fondamentale per il debug e la sicurezza.
Agent Kit include anche una libreria di connettori e un framework per crearne di
nuovi.
Vai al post
SONO STATE PRESENTATE LE APPS IN CHATGPT, UN’ESTENSIONE NATURALE DELL’IDEA DI
AGENTE
Ora è possibile creare vere e proprie applicazioni interattive, che vivono
dentro la chat, anche con mini esperienze costruite con HTML, CSS e JS. Non
semplici risposte testuali, ma componenti visivi dinamici che si integrano con
API esterne.
Nella demo, ChatGPT ha aperto Figma per trasformare uno schizzo in un diagramma
editabile, e Spotify per generare una playlist, visualizzata come widget
musicale.
La chiave tecnica è l’Apps SDK, basato sul protocollo MCP. Questo rende le app
indipendenti dall’ecosistema OpenAI.
È previsto anche un App Store dedicato, e un protocollo dedicato all'e-commerce,
per acquisti e pagamenti.
Vai al post
CODEX È ORA IN DISPONIBILITÀ GENERALE E BASATO SU GPT-5-CODEX
Il modello regola dinamicamente il proprio "tempo di reasoning" a seconda della
complessità del compito. Durante la demo, Codex ha costruito un’app React da un
disegno.
LE NUOVE API:
* GPT-5 Pro, disponibile via API;
* gpt-realtime-mini, un modello vocale più economico del 70%;
* Sora 2 con API in preview.
QUALCHE RIFLESSIONE
Le App sono, di fatto, server MCP con uno strato dedicato a ChatGPT (UI e
vincoli specifici). Per i servizi che espongono già MCP, sarà semplicissimo
creare un'app per ChatGPT.
L'Agent Builder è veramente interessante, non solo per automazioni "one shot",
ma per servizi completi usabili via API.
> Ridimensionerei la chiusura di Altman da “oggi non serve un grande team, né un
> grande budget, serve solo un’idea” in "oggi una grande idea ha molte più
> chance di diventare un grande prototipo, anche con meno risorse".
TEST DI AGENT BUILDER + CHAT KIT
Un semplice test per provare l'integrazione di Chart Kit nell'Agent Builder. La
funzionalità, permette di integrare elementi grafici personalizzati nell'output
degli Agenti.
Nelle immagini si vede un semplicissimo flusso con due agenti:
* uno per la ricerca prodotti che usa un MCP per la connessione ad Amazon e la
web search,
* l'altro per classificare l'output.
Nelle impostazioni dei due agenti ho indicato "widget" nella tipologia di
output. E ho creato i due widget direttamente in Widget Builder.
Test di Agent Builder + Chat Kit di OpenAI
Widget Builder permette di creare widget personalizzati anche attraverso prompt
in linguaggio naturale. Nelle immagini si vedono i due widget valorizzati dal
risultato del lavoro degli agenti. I widget vengono generati in React, e
valorizzati attraverso un JSON (tutto prodotto dal Builder). L'agente usa quel
JSON per "comprendere" come generare l'output.
> Funzionalità molto interessante, che può semplificare di molto le
> integrazioni.
Ho una confessione da fare, però. Trovo che questi sistemi siano contributi
estremamente utili per democratizzare lo sviluppo di soluzioni. Ma non riesco a
pensare di sganciarmi da un framework agentico code-based (es. LangGraph) per
creare soluzioni solide, controllate e flessibili per la produzione.
TEST DELLE APPS SU CHATGPT
Le App si possono attivare principalmente in due modi: attraverso le fonti
selezionabili dal menù di ChatGPT, o attraverso le menzioni usando il carattere
"@" con il nome dell'applicazione.
L'attivazione delle App su ChatGPT
Nelle immagini attivo l'app di Booking e di Expedia, e cerco voli e camera per
un viaggio, anche con query abbastanza specifiche (da notare come variano i
widget di Booking in base alla ricerca).
Test delle Apps su ChatGPT
L'aspetto interessante: come specifica OpenAI nella sua documentazione, le
applicazioni si attivano anche senza selezionarle, in base a quello che chiede
l'utente. Negli esempi, si vedono le query che faccio senza nessuna app attiva.
Il sistema attiva il reasoning, sceglie uno strumento (un'app), traduce la query
in una chiamata API e mostra i risultati nell'applicazione.
Diventa molto interessante per i brand, con nuove possibilità di essere
"scoperti" in piattaforma.
--------------------------------------------------------------------------------
AGENT BUILDER VS N8N
> No, Agent Builder e n8n non sono lo stesso sistema. Facciamo chiarezza. E ci
> sono diversi motivi per cui non uso questi strumenti (finti) no-code.
* L'Agent Builder è un sistema che permette di creare agenti evoluti e
multifunzione usabili via API in applicazioni esterne.
* Le piattaforme di workflow automation (come n8n) servono, invece, per creare
flussi completi che coinvolgono più servizi. Tra questi servizi possono
esserci degli AI Agent.
Agent Builder VS n8n
> In una frase: quello che si crea con Agent Builder, potenzialmente, può essere
> integrato in un workflow di sistemi come n8n.
PERCHÉ NON USO QUESTI SISTEMI..
* Se si lavora con automazioni di un certo tipo, non riducono la complessità:
la aumentano. Nel flusso dell'immagine, ad esempio, ho dovuto creare 2
blocchi Python per formattare e pulire i dati: chi riesce a sviluppare quei
due blocchi, è anche in grado di sviluppare l'intero workflow in Python.
* Gli interfacciamenti ai servizi non sono sempre aggiornati. Ad esempio, "URL
Context" e "Google Search" non sono disponibili su Gemini in n8n.. per il
flusso nell'immagine ho creato un blocco per una chiamata HTTP per usarli: è
molto più facile con 10 righe di Python su Colab.
> Teniamo conto del fatto che l'AI Assistant di Colab, ormai, è molto
> performante (di certo, più di quello su n8n).
* Flessibilità scalabilità. Il fatto di evitare approcci basati sullo sviluppo,
porta spesso a costruire "accrocchi" che prima o poi (presto) diventano
ingestibili, senza speranze di evoluzioni successive.
> Però gli "schemini con tante scatoline" sono belli da vedere nei post social.
* Se nei flussi usiamo LLM per funzionalità sviluppabili con qualunque
linguaggio, e usiamo i workflow in migliaia di interazioni, sprechiamo
un'enorme quantità di token (=costi).
> Esempio. Il workflow n8n che si vede nell'immagine replica un flusso che ho su
> un Colab. Il Python del Colab è stato implementato (da zero) in metà tempo
> rispetto alla replica, anche con memoria, logging e dashboard di monitoraggio.
--------------------------------------------------------------------------------
OPAL DI GOOGLE
Ho provato Opal di Google: uno strumento potente, e incredibilmente semplice.
Si tratta di una piattaforma no-code / low-code di Google Labs che consente di
costruire workflow agentici in modo visuale, con nodi in cui è possibile gestire
modelli, strumenti, input/output.
Workflow su Opal di Google
In pochi minuti ho creato il workflow che si vede nelle immagini, che consente
di dare in input un argomento.. il sistema esegue delle ricerche online, estrae
i contenuti, produce l'outline del post per un blog, la sfrutta come contesto
per generare la "hero" immagine e un video, scrive il post, e lo impagina.
Il tutto sfruttando Gemini 2.5 Pro, Gemini 2.5 Flash Image (Nano Banana), e Veo
3. I diversi blocchi usano strumenti come la web search, e lo scraping dei
contenuti dei risultati.
Per provarlo
> Opal, attualmente, è un tool in beta, e disponibile solo negli USA, quindi è a
> un livello di maturità diverso rispetto all'Agent Builder di OpenAI. Però, la
> sensazione è quella di un sistema più semplice da usare, ed estremamente
> potente.
--------------------------------------------------------------------------------
MINIMAX-M2
MiniMax-M2 è un nuovo modello sviluppato da MiniMax AI, progettato per unire
potenza computazionale, velocità e accessibilità in un unico sistema ottimizzato
per workflow agentici e di programmazione.
> L'ho provato su un AI Agent, in un'architettura che normalmente uso con Gemini
> 2.5 Pro: devo dire che il risultato che ottengo è davvero ottimo. Direi
> paragonabile, su task con un'enorme quantità di istruzioni.
È un modello Mixture of Experts (MoE) con 230 miliardi di parametri totali, ma
con soli 10 miliardi di parametri attivati durante l’inferenza.
Questa architettura consente un bilanciamento efficace tra performance elevate e
costi contenuti, con tempi di risposta significativamente più rapidi rispetto ai
modelli di pari fascia.
MiniMax-M2: le performance
Il modello mostra prestazioni avanzate in una varietà di benchmark. Su compiti
di codifica e uso di strumenti, ottiene punteggi competitivi rispetto a Claude
Sonnet 4.5, Gemini 2.5 Pro e persino GPT-5 (Thinking). Nei test SWE-Bench
Verified e Terminal-Bench si distingue per accuratezza ed efficienza, mentre in
compiti più ampi di intelligenza generale (come MMLU-Pro, AIME25 e GAIA)
raggiunge livelli di eccellenza che lo collocano tra i migliori modelli
open-source oggi disponibili. Anche in scenari complessi come BrowseComp, in cui
l'agente deve navigare, ricercare e ragionare su fonti distribuite, MiniMax-M2
dimostra affidabilità, robustezza e capacità di recupero.
Vai al post
La sua progettazione consente di eseguire loop di pianificazione e verifica in
modo rapido, mantenendo bassa la latenza e riducendo il consumo di memoria.
Questo lo rende particolarmente adatto a implementazioni in ambienti produttivi,
dove è essenziale combinare capacità decisionali complesse con fluidità
operativa.
Vai al progetto
MiniMax-M2 è completamente open source, disponibile su Hugging Face, con pesi
modello scaricabili e documentazione per il deploy tramite framework come vLLM e
SGLang. In parallelo, l’accesso via API è reso disponibile gratuitamente per un
periodo limitato, a un costo nominale che rappresenta circa l’8% del prezzo
delle API di Claude Sonnet, con velocità di inferenza circa doppia.
TEST DEL MODELLO + COLAB
La mia esperienza: ho fatto diversi test (vedi sotto), sia via API, sia usando
l'agente web, e l'ho trovato impressionante.
MiniMax-M2: test
> L'aspetto che mi ha colpito maggiormente è che non ho avuto bisogno di
> scegliere modelli, attivare opzioni, selezionare modalità.. ho solo creato
> task, e l'agente ha eseguito tutto autonomamente.
I TEST che si vedono nelle immagini..
* Ho dato in input al modello il video di un mio talk, e ho chiesto di
sviluppare una presentazione che espone i concetti trattati.
Visualizza il risultato
* Ho dato in input l'URL di una sezione del mio canale YouTube, e ho chiesto al
modello di analizzare i video, e di sviluppare un sito web che li raccoglie,
con le anteprime in homepage, e pagine di approfondimento con video embeddato
e un post testuale che lo sintetizza. Lo stile lo prende dal mio sito web:
era una ulteriore richiesta
Visualizza il risultato
* Ho dato in input un dataset, e ho chiesto al modello di sviluppare 4 diverse
dashboard, sotto forma di sito web, per l'esplorazione dei dati da parte di
diverse figure aziendali.
Visualizza il risultato
> Tutti i task sono stati eseguiti brillantemente in circa 2 ore, e con step di
> reasoning che mi hanno colpito.
Quando sviluppa dei layout, ad esempio, li testa internamente, e se ci sono
delle visualizzazioni o dei comportamenti non soddisfacenti, corregge
autonomamente l'implementazione. Per un'applicazione (test numero 2) ha anche
creato un DB di supporto su Supabase.
Per usarlo via API, è possibile sfruttare sia la libreria Python di Anthropic,
sia quella di OpenAI. Il seguente Colab è una semplicissima implementazione che
usa la libreria di OpenAI.
Vai al Colab
Basta inserire l'API Key di MiniMax nelle variabili "secrets" ed eseguire i
blocchi.
> MiniMax-M2 è uno dei progetti che mi ha colpito maggiormente nell'ultimo
> periodo, con performance degne dei modelli più noti (questo lo dicono anche i
> benchmark).
--------------------------------------------------------------------------------
ATLAS, IL BROWSER DI OPENAI
OpenAI presenta Atlas: non più solo un luogo dove cercare informazioni, ma uno
spazio in cui l'AI lavora insieme all'utente, direttamente nel browser.
> Durante la presentazione mi sono chiesto costantemente.. se domani Google
> rilascerà Chrome con Gemini (già annunciato, e con le stesse funzionalità di
> Atlas), quanti penserebbero di rendere Atlas il browser predefinito?
Atlas (come Comet e Chrome) comprende ciò che si sta guardando in modo nativo,
aiuta a completare attività e può agire dentro le pagine. Può aprire documenti,
riassumere codice, migliorare email, pianificare eventi o ordinare ciò che serve
per una ricetta.
Atlas, il browser di OpenAI
Le memorie del browser rendono l’esperienza personale e continua: ChatGPT
ricorda il contesto e offre aiuto più mirato, con la possibilità di gestire la
memoria e di attivare la modalità "incognito".
Il sistema (come Comet e Chrome) ha la modalità "agente", che permette ad Atlas
di prendere il controllo del browser e di compiere automazioni (ricerche,
preparazione carrelli nell'e-commerce, ecc.).
Vai al post
OpenAI ha pubblicato anche un contenuto su come migliorare la presenza dei siti
web nei risultati di ricerca di ChatGPT su Atlas: non grandi novità.. si parla
di accessibilità e tag ARIA. Interessante il fatto che si potranno usare le App
di ChatGPT, che potrebbero essere interessati per i brand.
> Secondo OpenAI, Atlas segna un passo avanti verso un modo più fluido e
> intelligente di usare Internet, in cui il lavoro e le idee scorrono senza
> interruzioni.
--------------------------------------------------------------------------------
GEMINI 2.5 COMPUTER USE
Google DeepMind ha rilasciato Gemini 2.5 Computer Use, un modello che consente
agli agenti di interagire con interfacce utente in modo nativo, simulando
l’operatività umana su browser e dispositivi mobili.
L'ho provato, ed è indubbiamente un sistema interessante. Nel video si vedono un
task di ricerca prodotti e uno di estrazione dati. Da notare come supera il
reCAPTCHA di Google, che non è proprio banale.
Gemini 2.5 Computer Use: un test
Basato sulle capacità avanzate di comprensione visiva e ragionamento di Gemini
2.5 Pro, questo modello è progettato per affrontare compiti digitali che
richiedono interazioni complesse come il completamento di moduli, l’uso di menu
interattivi e l’accesso a sistemi protetti da login.
Il funzionamento si basa su un ciclo continuo di input e risposta: il sistema
riceve una richiesta, uno screenshot e una cronologia delle azioni, genera
un'azione da eseguire (come cliccare o digitare), e dopo l’esecuzione riceve un
nuovo screenshot per proseguire fino al completamento del task. La struttura
iterativa permette una gestione dinamica e adattiva dei flussi di lavoro.
Vai al post
Oltre a dimostrare prestazioni superiori rispetto ad alternative esistenti in
termini di accuratezza e latenza, Gemini 2.5 Computer Use introduce un approccio
maturo alla sicurezza. Google ha integrato controlli nativi e meccanismi esterni
per prevenire abusi, comportamenti indesiderati o azioni rischiose, con
particolare attenzione a scenari come l’automazione di acquisti o l’interazione
con ambienti sensibili.
Vai al progetto
> Questa tipologia di agenti sta facendo notevoli passi in avanti.
--------------------------------------------------------------------------------
GEMINI ENTERPRISE
Google ha presentato Gemini Enterprise, basato sui modelli Gemini più avanzati.
Consente di interagire con i documenti, i dati e le applicazioni delle aziende,
e di creare e distribuire agenti AI per gestire qualunque flusso di lavoro.
0:00
/0:37
1×
Gemini Enterprise di Google
Un’unica interfaccia conversazionale permette di accedere agli agenti e
automatizzare attività complesse, connettendosi in sicurezza a sistemi come
Google Workspace, Microsoft 365, Salesforce e SAP.
Attraverso un workbench no-code e una suite di agenti preconfigurati o
personalizzabili, è possibile analizzare dati, orchestrare processi e generare
contenuti in formato testo, video o voce.
Con il nuovo Data Science Agent, l’esplorazione e l’elaborazione dei dati si
semplifica grazie a piani multi-step generati automaticamente.
Vai al progetto
Gli sviluppatori possono creare estensioni personalizzate con Gemini CLI,
integrando AI nel proprio flusso di lavoro. Nasce così un nuovo ecosistema
aperto: l’economia degli agenti, supportata da protocolli standard per
comunicazione, contesto e transazioni sicure.
--------------------------------------------------------------------------------
SHOPPING ONLINE: LE NOVITÀ DI GOOGLE
Google continua a rivoluzionare l'esperienza di shopping online con strumenti
basati sull'AI, migliorando l'interazione tra utente e prodotto grazie a
funzionalità immersive e personalizzate.
VIRTUAL TRY-ON
Con il Virtual Try-On è possibile caricare una foto a figura intera e vedere
come vestiti e, da oggi, anche scarpe appaiono indossati.
0:00
/0:20
1×
Il Virtual Try-On di Google
L'intelligenza artificiale analizza forme e profondità per una resa visiva
realistica. La funzionalità è già disponibile negli Stati Uniti, le verrà presto
estesa.
I MIEI TEST
Nelle immagini si vede come ho cercato prima un cappotto, e successivamente
delle scarpe con intento d'acquisto.
L'AI Mode integra i widget dei prodotti direttamente nella risposta, e, nella
sidebar è possibile attivare la prova virtuale.
Ho caricato una mia immagine, e il modello mi fa indossare i capi che seleziono.
Il Virtual Try-On nell'AI Mode di Google
La mia immagine rimane a disposizione durante la sessione, quindi, se si cambia
prodotto, si può vederlo direttamente indossato.
> Un'interfaccia unica e risultati personalizzati. Questa è la direzione della
> ricerca potenziata dall'AI.
LE ALTRE NOVITÀ
Google aggiorna anche gli avvisi di prezzo: è ora possibile impostare preferenze
su taglia, colore e budget desiderato. L’utente riceverà notifiche automatiche
appena un prodotto corrisponde ai propri criteri.
In arrivo, inoltre, una nuova modalità che suggerisce outfit e idee per
l'arredamento partendo da una semplice descrizione. L'AI genererà abbinamenti
visivi con prodotti acquistabili selezionati tra miliardi di articoli nel
catalogo Google.
Vai al post
--------------------------------------------------------------------------------
GEMINI: GROUNDING WITH GOOGLE MAPS
Una nuova funzionalità nell'API di Gemini: il Grounding with Google Maps.
> Per me, uno dei rilasci più interessanti dell'anno.
L'applicazione nelle immagini è un esempio di utilizzo: l'ho creata su AI
Studio, partendo dall'esempio nella documentazione. È un assistente (rudimentale
) per la visita delle città.
> Oltre al server MCP, quindi, ora è possibile usare direttamente il tool nelle
> chiamate a Gemini.
Il Grounding with Google Maps permette di creare Agenti AI e applicazioni
arricchite con dati geospaziali aggiornati, collegando Gemini con le
informazioni di oltre 250 milioni di luoghi.
Un'applicazione che sfrutta il Grounding with Google Maps
La novità consente all'AI di generare risposte contestuali legate a una
posizione geografica, utilizzando anche recensioni, orari di apertura,
coordinate e dettagli visuali tramite widget interattivi.
Questa integrazione apre nuove possibilità per settori come travel, real estate,
logistica e retail, permettendo la creazione di itinerari personalizzati,
raccomandazioni localizzate e risposte ultra-specifiche basate su dati reali e
aggiornati. È anche possibile combinare i dati di Maps con quelli di Google
Search per risposte ancora più precise e pertinenti.
Vai al post
> La forza dell'ecosistema Google si concretizza sempre maggiormente: quale
> altro player avrebbe questa possibilità?
--------------------------------------------------------------------------------
NANO BANANA VS IMAGEN 4
Ultimamente si parla solo di Gemini 2.5 Flash Image (Nano Banana), ma Google ha
anche Imagen 4. Qual è la differenza?
Imagen 4 è il modello text-to-image più avanzato, progettato per generare
immagini di qualità fotografica e testo perfettamente leggibile all’interno
delle scene. È disponibile in più varianti (Fast, Standard e Ultra) e punta
tutto su fedeltà visiva, resa dei dettagli e tipografia impeccabile.
Rispetto a Flash Image, che nasce per la velocità e per l’editing interattivo
(come aggiungere o rimuovere oggetti, fondere immagini o mantenere coerenza di
personaggi), Imagen 4 è dedicato alla generazione pura: poster, visual
pubblicitari, concept di prodotto, design e illustrazioni ad altissima
definizione.
Immagine generate usando Imagen 4 Ultra
Ho generato le immagini usando Imagen 4 Ultra, con output a 2K. Direi che la
qualità è l'aderenza ai prompt sono a livelli molto elevati.
> In sintesi, Gemini Flash Image è lo strumento per iterare e modificare
> velocemente; Imagen 4 Ultra è quello da usare quando conta la perfezione
> visiva.
--------------------------------------------------------------------------------
NOTEBOOKLM: L'EVOLUZIONE DELLE VIDEO OVERVIEWS
NotebookLM introduce una nuova evoluzione nelle Video Overview: grazie a Gemini
2.5 Flash Image (Nano Banana), i video diventano non solo informativi ma anche
visivamente più coinvolgenti.
L'ho provato. Ho generato questa video overview partendo da un libro sul Deep
Learning, richiedendo al modello un output per bambini delle scuole medie. Non è
perfetto, ma la qualità aumenta.
Un esempio di Video Overview su NotebookLM
Ora è possibile scegliere tra sei stili grafici, tra cui watercolor, papercraft
e anime, per personalizzare le presentazioni, rendendo più chiari e memorabili
anche i contenuti.
È stato anche aggiunto un nuovo formato: accanto ai video "Explainer", pensati
per un'analisi completa, arriva "Brief", una versione breve e immediata per
cogliere i concetti chiave in pochi istanti.
Vai al post
> In arrivo anche la funzionalità dedicata a generare le infografiche.
--------------------------------------------------------------------------------
AI MODE: NUOVE FUNZIONALITÀ
Ogni volta che apro l'AI Mode di Google negli USA trovo nuove funzionalità,
arricchite dall'AI Generativa.
* Ora permette l'upload di documenti, che il sistema elabora, e integra con la
ricerca per dare delle risposte alle query.
* È stato integrato Gemini 2.5 Flash Image (Nano Banana) per l'editing e la
generazione di immagini.
AI Mode: nuove funzionalità
> Per un attimo ho dimenticato di aver iniziato l'esperienza dal "campo di
> ricerca" di Google.
--------------------------------------------------------------------------------
QUANDO HA SENSO USARE WORKFLOW MULTI-AGENTE?
Quando un task non è una semplice esecuzione, ma richiede fasi di valutazione,
decisione e auto-correzione.
> In pratica, quando abbiamo bisogno che l'AI non si limiti a "fare", ma anche a
> "pensare" come un team.
Con LangGraph, uno dei framework più potenti per questo scopo, costruiamo questi
flussi di lavoro come un grafo:
* i nodi sono gli agenti specializzati (un ricercatore, un copywriter, un
revisore);
* le connessioni tra i nodi (edges) definiscono come collaborano gli agenti.
Il sistema è "stateful": tutti gli agenti lavorano su uno "stato" condiviso
(AgentState), una sorta di lavagna di progetto che viene aggiornata a ogni
passaggio.
Un sistema multi-agent (LangGraph)
L'esempio nell'immagine mostra un flusso di revisione intelligente:
* Il Ricercatore raccoglie le informazioni.
* Lo Scrittore crea una bozza basandosi su quelle informazioni.
* Il Revisore valuta il lavoro. Se non è perfetto, può decidere autonomamente
se rimandare il compito allo Scrittore (per problemi di forma) o addirittura
al Ricercatore (per lacune informative), generando un piano d'azione
specifico per ciascuno.
* Se il team entra in un loop, un Editore finale interviene per finalizzare il
lavoro.
> Il risultato? Un processo dinamico e resiliente, in cui l'AI gestisce la
> complessità in autonomia.
--------------------------------------------------------------------------------
BLOCKRANK DI GOOGLE DEEPMIND
> Google torna a spingere sull'evoluzione del ranking semantico, sfruttando la
> potenza dei LLM.
Search Engine Journal ha commentato il nuovo paper di Google DeepMind, "Scalable
In-context Ranking with Generative Models", in cui viene presentato BlockRank:
un metodo pensato per rendere il reranking semantico dei LLM più efficiente.
Google’s New BlockRank Democratizes Advanced Semantic Search
Google’s BlockRank performed competitively with other state-of-the-art ranking
models that were tested in research.
Search Engine JournalRoger Montti
Il lavoro affronta un limite noto: usare i LLM per leggere e ordinare molti
documenti insieme (il cosiddetto in-context ranking) è potente, ma estremamente
costoso. BlockRank risolve il problema imponendo una struttura di attenzione "a
blocchi": ogni documento "guarda" solo sé stesso e le istruzioni, mentre la
query può "vedere" tutto. In più, una loss contrastiva insegna al modello a
concentrare l’attenzione sui documenti davvero rilevanti.
Scalable In-context Ranking with Generative Models
Il risultato è notevole: prestazioni allo stato dell’arte su benchmark come BEIR
e MS MARCO, con una riduzione dei tempi di inferenza fino a 4,7 volte e
scalabilità lineare fino a 500 documenti nel contesto.
SEJ descrive BlockRank come un passo avanti nel rendere il ranking semantico più
accessibile ed efficiente, aprendo la strada a un’integrazione più profonda dei
LLM nei sistemi di ricerca.
Ma attenzione: i reranker semantici sono già parte dei motori di ricerca
moderni. Nel nostro laboratorio sperimentiamo con questi modelli (es.
Semantic-ranker di Google) da diversi mesi, con risultati molto interessanti.
La novità di BlockRank non è tanto cosa fa, quanto come lo fa, spostando il
concetto di reranker dentro l’architettura stessa del modello linguistico.
Vai al paper
> Un passo verso un futuro in cui capire e ordinare l’informazione diventeranno
> due facce della stessa operazione cognitiva.
--------------------------------------------------------------------------------
AI STUDIO E IL VIBE CODING
> La nuova esperienza di "Vibe Coding" di AI Studio è molto interessante.
AI Studio e il "Vibe Coding"
* Permette di aggiungere funzionalità all'applicazione attraverso blocchi
preimpostati che arricchiscono il prompt.
* Mentre il modello genera il codice, fornisce suggerimenti di integrazione,
che si trasformano in istruzioni con un clic.
* Grazie all'Annotation Mode è possibile indicare le modifiche all'agente
attraverso annotazioni direttamente nella preview.
> Piccoli cambiamenti per grandi semplificazioni.
--------------------------------------------------------------------------------
QUANDO L'AI IMPARA A MIGLIORARSI DA SOLA: GOOGLE PRESENTA VISTA
> Ho sviluppato un sistema multi-agent che lavora con la stessa logica, ma l'ho
> abbandonato per l'elevato consumo di token. Infatti, nel paper, di Google è
> uno dei limiti che viene messo in evidenza.
I modelli di generazione video stanno diventando sempre più potenti, ma restano
fragili: basta variare il prompt per ottenere risultati completamente diversi.
Il team di Google e della National University of Singapore ha presentato VISTA
(Video Iterative Self-Improvement Test-time Agent), un sistema che ottimizza
autonomamente i video generati da modelli text-to-video come Veo 3, senza
bisogno di riaddestramento.
VISTA (Video Iterative Self-Improvement Test-time Agent)
Il sistema funziona come una piccola squadra di agenti intelligenti che
collaborano tra loro:
* un pianificatore che scompone il prompt in scene e dettagli visivi, audio e
contestuali;
* un sistema di giudici che valuta i video generati e seleziona il migliore in
tornei a confronto diretto;
* una triade di critici (visivo, audio, contesto) che analizza punti di forza e
debolezza;
* un agente che riscrive il prompt in modo mirato, migliorando il risultato a
ogni ciclo.
Il risultato? Video più coerenti, realistici e fedeli alle intenzioni
dell’utente. Nei test, VISTA ha superato i metodi precedenti fino al 60% di win
rate, con una preferenza umana del 66% sui video generati.
> Un passo deciso verso un’AI capace di autovalutarsi e crescere con ogni
> tentativo.
--------------------------------------------------------------------------------
CLAUDE SKILLS
> Claude Skills è una nuova funzionalità introdotta da Anthropic per rendere
> l'AI altamente personalizzabile in contesti professionali specifici.
Le Skills sono strutture modulari che includono istruzioni, codice e risorse.
Quando vengono attivate, consentono a Claude di operare come uno specialista,
eseguendo compiti complessi secondo procedure ben definite.
A differenza di semplici prompt, le Skills si comportano come pacchetti di
competenze che Claude può attivare solo quando necessario. Questo le rende
efficienti e scalabili: si costruiscono una volta sola e si riutilizzano in
ambienti diversi. Dalle app Claude, all’ambiente Claude Code, fino alle
integrazioni via API.
0:00
/1:09
1×
Le Skill di Claude
La forza di questo approccio risiede nella sua modularità. Claude può
selezionare e combinare autonomamente più Skills per affrontare attività
articolate, come l’analisi avanzata di fogli di calcolo, la generazione di
documenti aderenti a brand guideline aziendali o l’esecuzione di codice
specifico in un ambiente sicuro. Non si tratta quindi solo di automazione, ma di
trasferimento di conoscenza operativa in un formato strutturato.
Vai al post
La creazione delle Skills è supportata da strumenti integrati. Non è necessario
intervenire manualmente nei file di configurazione: basta descrivere un flusso
di lavoro, e Claude genera automaticamente la struttura corretta. Questo rende
accessibile la creazione anche a chi non ha un profilo tecnico avanzato.
--------------------------------------------------------------------------------
GEMINI CLI PUNTA A DIVENTARE IL TERMINALE DI RIFERIMENTO
> L'obiettivo? Trasformare Gemini nel terminale di riferimento, e non in un
> software che si apre da terminale.
L'ultima evoluzione di Gemini CLI, infatti, segna un passo significativo verso
un’esperienza da terminale totalmente integrata, con la possibilità di eseguire
comandi interattivi complessi tipici del terminale restando all’interno del
contesto della CLI.
0:00
/0:34
1×
Gemini CLI: terminale di riferimento
Questo cambiamento non riguarda solo la comodità, ma una trasformazione
architetturale: Gemini CLI ora gestisce una sessione di terminale virtuale in
background, usando un sistema di serializzazione che cattura e restituisce lo
stato del terminale in tempo reale, incluso testo, colori e movimenti del
cursore.
Vai al post
> Il risultato è una comunicazione bidirezionale completa con l’ambiente
> terminale. L’utente può digitare, ricevere output ricco, ridimensionare la
> finestra, e continuare a lavorare come se fosse in un terminale nativo, ma con
> tutti i vantaggi dell’ambiente contestuale di Gemini.
--------------------------------------------------------------------------------
COME USARE UN SERVER MCP IN UN AGENTE AI REMOTO, SENZA DOVER ACQUISTARE O
CONFIGURARE UN SERVER?
> Vediamo una soluzione semplicissima.
Solitamente, i servizi che rilasciano un Server MCP, lo fanno attraverso una
libreria da installare in locale. Una volta avviato, quel server MCP è usabile
da agenti locali (es. Gemini CLI, Claude Desktop, Codex CLI) o IDE (es. Cursor).
Per usarlo su Agenti AI remoti, si dovrebbe installare il server MCP in una
macchina remota, renderlo disponibile attraverso un endpoint (un URL che lo
richiama). Ad esempio, potremmo ospitarlo su Cloudflare Workers per renderlo
accessibile via URL pubblico.
In fase di prototipazione, o per utilizzi rapidi, invece, sto usando ngrok: si
tratta di un servizio che permette di rendere raggiungibile il server MCP locale
da un endpoint remoto. E questo ci permette di usarlo, ad esempio, come server
MCP su Agent Builder di OpenAI, e in qualunque agente remoto che si interfacci
con il protocollo MCP.
Un esempio dei un server MCP locale usato da remoto
Nelle immagini si vede come faccio funzionare il server MCP di DataForSEO in
locale, con ngrok genero un endpoint raggiungibile dall'esterno, e poi uso l'MCP
nel Playground di OpenAI, in un Agente che lo usa per estrarre dati per
un'analisi di mercato.
* Pro del sistema: è semplicissimo da usare (un comando da console), e
l'utilizzo free è più che sufficiente per prototipare o per usarlo in Agenti
che usiamo in attività personali.
* Contro del sistema: l'endpoint non è fisso, ma varia ad ogni avvio del
servizio.
ngrok | API Gateway, Kubernetes Ingress, Webhook Gateway
ngrok simplifies app delivery by unifying API gateway, Kubernetes ingress,
multi-cluster load balancing and more with ngrok’s Universal Gateway.
API Gateway, Kubernetes Ingress, Webhook Gateway
> In sintesi: con ngrok possiamo sperimentare con server MCP in modo immediato,
> senza infrastrutture dedicate.
--------------------------------------------------------------------------------
MCP E SCOPERTA DINAMICA DEI TOOL
Una delle caratteristiche più interessanti dell'uso di server MCP (Model Context
Protocol) è la cosiddetta "scoperta dinamica degli strumenti".
In pratica, l'agente AI può interrogare il server per scoprire quali tool
(funzioni) ha a disposizione e come utilizzarli.
Quando il server MCP si connette all'agente, espone automaticamente la lista dei
tool disponibili (si vede nell'immagine), ognuno corredato da una descrizione,
la firma dei parametri di input e le informazioni su come viene prodotto
l'output.
Quando l’utente, o un altro sistema, invia una richiesta all'agente, il LLM
seleziona in modo autonomo i tool necessari basandosi sulle descrizioni fornite,
genera gli input corretti e integra le risposte ottenute direttamente nel
proprio contesto. Questo processo può avvenire non solo in risposta a una
richiesta esterna, ma anche durante la fase di "reasoning" del modello, in modo
completamente dinamico.
MCP e scoperta dinamica dei tool
Tutto ciò apre possibilità molto interessanti: l'agente può scoprire e combinare
nuove modalità d'uso dei servizi, andando oltre i flussi predefiniti.
Nell'esempio mostrato, il server MCP collegato espone 67 tool, ognuno
corrispondente a una funzionalità API del servizio, costantemente aggiornate e
ampliate.
> Ecco perché l’accoppiata Agent + MCP rappresenta un approccio estremamente
> potente.
Nota: è però fondamentale mantenere un controllo accurato sulle azioni
dell'agente, per ottimizzare il suo comportamento e trovare il giusto equilibrio
tra autonomia e affidabilità.
--------------------------------------------------------------------------------
LA DEEP RESEARCH DI QWEN SI EVOLVE
Con la nuova versione, oltre al report, permette di generare una pagina web
organizzata con le informazioni raccolte, e un podcast a due voci.
La Deep Research di Qwen
Il tutto, sfruttando Qwen3-Coder, Qwen-Image e Qwen3-TTS.
Per provarla
> Sistemi come Qwen e Kimi, secondo me, stanno crescendo in maniera
> straordinaria, offrendo sistemi gratuiti ad elevato potenziale.
--------------------------------------------------------------------------------
FIGURE 03
> I progressi della Physical AI rappresentano un
> segnale che rende immediatamente comprensibile la trasformazione che stiamo
> vivendo.
Figure03 è la terza generazione di robot umanoidi progettata da Figure, ed è il
primo modello nato non come prototipo ma come prodotto scalabile, pensato per
apprendere, adattarsi e operare nel mondo reale. Alla base c’è Helix, un sistema
AI integrato visione-linguaggio-azione, attorno al quale è stato ridisegnato
ogni aspetto hardware e software del robot.
La presentazione di Figure 03
Il nuovo sistema visivo permette una percezione densa e stabile dello spazio,
anche in ambienti complessi come le abitazioni. Le mani, dotate di sensori
tattili sviluppati internamente, riescono a cogliere variazioni minime di forza
e pressione, consentendo una manipolazione fine di oggetti delicati o
irregolari. L’intero sistema è progettato per apprendere in modo continuo
attraverso il trasferimento ad alta velocità di grandi volumi di dati.
Nel contesto domestico, Figure 03 introduce miglioramenti significativi in
termini di sicurezza, autonomia e usabilità. Le superfici morbide, i tessuti
lavabili, la riduzione del peso e la ricarica wireless integrata ne fanno un
dispositivo pensato per coesistere con le persone. Anche il sistema audio è
stato riprogettato per favorire interazioni vocali più naturali, grazie a
speaker più potenti e microfoni ottimizzati.
A differenza delle generazioni precedenti, è stato concepito fin dall’inizio per
la produzione di massa. L’intero design è stato adattato a processi industriali
come lo stampaggio e la pressofusione, con un drastico calo nei costi e nei
tempi di assemblaggio. La nascita di una nuova filiera produttiva, insieme alla
creazione dello stabilimento BotQ, rende possibile una scala di produzione mai
raggiunta prima in ambito umanoide.
Vai al progetto
> Figure 03 non è un semplice avanzamento ingegneristico. È una piattaforma
> progettata per operare nel mondo così com’è, aprendo una nuova fase nella
> coesistenza tra intelligenza artificiale, forma fisica e realtà quotidiana.
--------------------------------------------------------------------------------
COGNEE: MEMORIA STRUTTURATA PER AGENTI AI
> Quanto meglio risponderebbe un sistema RAG se lo potenziassimo con un
> knowledge graph? Molto!
Ho fatto qualche test con Cognee: una libreria open-source che costruisce grafi
semantici da documenti testuali e li rende interrogabili come memoria
strutturata per agenti AI.
Cognee non è solo una libreria di vector search: è un'alternativa strutturata al
RAG tradizionale, basata su grafo + embedding, con il supporto opzionale di
ontologie RDF/XML per dare forma e significato al contenuto.
Funziona in locale, si integra in 6 righe di codice, ed è pensata per diventare
il layer di memoria degli agenti intelligenti.
Cognee: memoria strutturata per Agenti AI
Nell'esempio, si vede:
* come la libreria crea il knowledge graph partendo dal file dell'ontologia che
gli ho messo a disposizione;
* un esempio del knowledge graph che riesce a ricavare direttamente dal
contenuto testuale (meno preciso);
* un esempio delle risposte che riesco a ottenere sfruttando l'ontologia, poi
senza ontologia e con il grafo generato a partire dal testo, e, infine, con
un RAG tradizionale, che usa soltanto il testo nella knowledge..
L'azione della memoria strutturata nella risposta dell'agente
Le risposte ottenute con l’ontologia sono semanticamente più ricche, meglio
strutturate e più pertinenti, soprattutto per domande complesse.
Vai al progetto
> Cognee ha anche un’interfaccia CLI, una UI hosted opzionale (Cogwit), e può
> connettersi a oltre 30 fonti dati.
--------------------------------------------------------------------------------
DEEPSEEK-OCR
> DeepSeek-OCR introduce un nuovo paradigma per la compressione del contesto nei
> LLM: la compressione ottica.
Il modello utilizza la modalità visiva come mezzo efficiente per rappresentare
lunghi testi, riducendo il numero di token necessari fino a venti volte.
Composto da DeepEncoder e da un decoder Mixture-of-Experts, DeepSeek-OCR è in
grado di trasformare pagine di testo in un piccolo insieme di token visivi
mantenendo un’elevata precisione di decodifica: circa 97% di accuratezza con una
compressione di 10× e 60% con una compressione di 20×.
DeepSeek-OCR: il paper
Nei benchmark, supera modelli come GOT-OCR2.0 e MinerU2.0 pur utilizzando una
frazione dei token visivi. Oltre all’OCR tradizionale, gestisce parsing di
grafici, formule chimiche, figure geometriche e riconoscimento multilingue in
quasi cento lingue.
Vai al paper
L'approccio apre prospettive per la gestione di contesti lunghi nei LLM,
consentendo di archiviare e comprimere otticamente il testo in forma visiva,
simulando anche meccanismi di memoria e dimenticanza.
> DeepSeek-OCR dimostra che la rappresentazione visiva può diventare un canale
> efficiente per l’elaborazione testuale su larga scala.
--------------------------------------------------------------------------------
DEEPSEEK SPARSE ATTENTION (DSA)
Mentre annuncia l'arrivo dalle versione V4, DeepSeek rilascia la V3.2-Exp.
Si tratta di un modello sperimentale che nasce da V3.1-Terminus, ma introduce
un’innovazione tecnica cruciale: la DeepSeek Sparse Attention (DSA).
DeepSeek Sparse Attention (DSA)
Con DSA il modello non deve più confrontare ogni token con tutti gli altri, ma
grazie a un lightning indexer riesce a selezionare solo le parti del contesto
davvero rilevanti. È un cambio di paradigma nell’uso delle risorse: la
complessità dell’attenzione scende da O(L²) a O(Lk), mantenendo quasi intatta la
qualità delle risposte.
Il training ha seguito una strategia in due tempi. Prima una fase di warm-up
denso per insegnare all’indicizzatore a imitare l’attenzione tradizionale, poi
una lunga fase di addestramento con pattern sparsi. Successivamente, il modello
è stato rifinito con distillazione da specialisti in vari domini (matematica,
programmazione, ragionamento, ricerca) e un’unica fase di reinforcement learning
che integra ragionamento, capacità agentiche e allineamento con preferenze
umane.
> Il risultato è un modello che mantiene prestazioni molto vicine a
> V3.1-Terminus nei benchmark, con solo lievi cali su compiti di reasoning
> complesso, compensati da un guadagno enorme in efficienza: costi di inferenza
> ridotti e maggiore rapidità soprattutto nei contesti lunghi (fino a 128K
> token).
Vai al paper
Accanto al modello, DeepSeek ha pubblicato un paper dettagliato che spiega i
meccanismi tecnici della Sparse Attention, insieme al codice e ai kernel
ottimizzati in CUDA e TileLang.
Il modello su Hugging Face
> Un rilascio che non si limita a proporre un’ottimizzazione pratica, ma che
> contribuisce anche alla discussione scientifica su come rendere i grandi
> modelli più scalabili ed economici.
--------------------------------------------------------------------------------
EVOLUZIONI TECNOLOGICHE E I LIMITI DEI LLM
In una recente intervista di Alex Kantrowitz a Dario Amodei, CEO di Anthropic,
vengono raccontate alcune evoluzioni tecnologiche e i limiti che accompagnano la
crescita dei grandi modelli linguistici.
Intervista di Alex Kantrowitz a Dario Amodei
Riporto alcuni passaggi e riflessioni interessanti.
I LLM imparano nel contesto, non nei pesi. Quando li esponiamo a esempi dentro
un prompt, riescono a cogliere schemi, correggere errori, imitare stili. Ma una
volta chiusa la sessione, tutto svanisce. I pesi che custodiscono la loro
conoscenza restano invariati. È come uno studente che risolve brillantemente un
esercizio ma non può conservare l’intuizione per la volta successiva.
Per questo si parla sempre più di un passaggio da “più grande è meglio” a “più
strutturato è meglio”.
> Aumentare i parametri non basta più: la vera sfida è costruire sistemi che
> sappiano ragionare, ricordare e adattarsi, mantenendo coerenza e controllo.
Amodei sottolinea che anche senza una memoria permanente il potenziale resta
enorme. Le finestre di contesto si allungano e, in teoria, potrebbero arrivare a
contenere tutto ciò che un essere umano ascolta in una vita intera. Il limite
non è concettuale ma computazionale: quanto costa farlo, e quanto è sostenibile.
Nel frattempo, l’evoluzione si gioca nel modo in cui il modello "pensa" durante
l’inferenza: reinforcement learning, ragionamento esplicito, test-time compute,
ovvero concedere più cicli di “riflessione” quando serve. È un cambiamento
silenzioso ma radicale:
> dall’espansione delle reti alla progettazione
> di un "processo cognitivo" interno.
L’apprendimento nel contesto dimostra che l’intelligenza artificiale può
adattarsi senza cambiare sé stessa. Ma ci ricorda anche che l’adattamento non è
ancora apprendimento. La prossima soglia tecnica sarà forse proprio questa:
trasformare la memoria temporanea in conoscenza stabile, senza sacrificare
sicurezza e trasparenza.
> In fondo, la storia dei modelli linguistici è la storia di una mente che sta
> imparando a ricordare, per ora solo per qualche pagina, domani forse per
> sempre.
--------------------------------------------------------------------------------
LA MEMORIA COME STRUMENTO DI EVOLUZIONE
Il paper "ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory" di
Google introduce un concetto chiave per lo sviluppo di Agenti AI: la memoria
come strumento di evoluzione, non come archivio.
Gli agenti non devono limitarsi a ricordare ciò che hanno fatto, ma a
comprendere perché qualcosa ha funzionato o fallito.
ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory
ReasoningBank trasforma ogni esperienza in una unità di conoscenza strutturata,
una strategia di ragionamento riutilizzabile.
Invece di conservare semplici tracce operative, distilla principi di azione:
apprende dalle vittorie e soprattutto dagli errori, affinando progressivamente
il proprio modo di pensare.
Questo processo di memoria attiva si combina con il test-time scaling, dove un
agente dedica più tempo e risorse a esplorare un compito, traendo segnali
contrastivi dalle proprie alternative di ragionamento.
ReasoningBank di Google
La sinergia tra memoria e scaling dà vita a un ciclo virtuoso: esperienze
migliori generano memorie più solide, e memorie migliori guidano esplorazioni
più efficaci.
Il risultato non è solo un incremento di performance, ma un comportamento
emergente che evolve con l’esperienza.
> L’agente smette di essere un esecutore di istruzioni e diventa un soggetto che
> riflette, corregge e affina le proprie strategie.
Vai al paper
Una forma embrionale di apprendimento continuo, che avvicina le macchine al
ritmo naturale con cui gli esseri umani imparano dal tempo e dall’errore.
--------------------------------------------------------------------------------
AGENTIC CONTEXT ENGINEERING
Il paper "Agentic Context Engineering", guidato da un team di Stanford in
collaborazione con SambaNova Systems e UC Berkeley, propone un paradigma in cui
il prompt, la memoria e le istruzioni non sono solo un testo statico, ma un
playbook che cresce e si affina nel tempo.
Agentic Context Engineering: il paper
Invece di comprimere l’esperienza in poche frasi sintetiche, come fanno molti
ottimizzatori di prompt, il modello accumula conoscenze, strategie e intuizioni
specifiche di dominio.
Questo processo avviene attraverso tre ruoli distinti: un generatore che agisce,
un valutatore e un curatore che integra.
L’apprendimento avviene senza modificare i parametri, ma attraverso
aggiornamenti incrementali e strutturati del contesto: piccole “differenze” che
evitano la perdita di informazioni e rendono l’adattamento più efficiente.
I risultati sono notevoli: agenti e modelli di ragionamento specialistico
migliorano sensibilmente la loro accuratezza, riducendo tempi e costi di
adattamento.
Ma la vera novità è concettuale: il contesto diventa un organismo che si
auto-organizza, preserva memoria e apprende dalle proprie azioni.
Vai al paper
Uso una tecnica simile (ma più rudimentale) in un agente in produzione, in cui,
dopo ogni interazione, un processo va ad aggiornare e a ottimizzare il prompt
per le azioni successive.
> ACE mostra che l’intelligenza dei modelli può progredire non solo grazie a più
> dati o più parametri, ma grazie a una migliore ingegneria delle loro
> esperienze.
--------------------------------------------------------------------------------
NUOVO MODELLO E AGENT SDK PER ANTHROPIC
È stato rilasciato Claude Sonnet 4.5, un aggiornamento che porta significativi
miglioramenti in ambiti chiave come la programmazione, l’uso del computer, il
ragionamento e la matematica.
Anthropic: Claude Sonnet 4.5 e Agent SDK
Il modello è già disponibile tramite API e app, mantenendo lo stesso prezzo
della versione precedente.
Claude 4.5 si distingue per le sue prestazioni:
* Primo al mondo su SWE-bench Verified, benchmark per capacità di codifica
realistica.
* Top performer su OSWorld, che valuta l’uso dell’AI in task da computer reale.
* Capacità estese nel mantenere concentrazione su task multi-step per oltre 30
ore.
* Miglioramenti concreti in ambiti verticali: finanza, medicina, diritto,
ingegneria.
Nelle Claude apps arrivano nuove funzionalità come l’esecuzione diretta di
codice, la creazione di file (documenti, fogli, slide) e l’estensione per
Chrome. Per gli sviluppatori, Claude Code integra ora checkpoint, editing
contestuale, strumenti di memoria e un’estensione per VS Code.
Vai al post
Rilasciato anche il Claude Agent SDK, l’infrastruttura che alimenta i prodotti
Claude, ora disponibile per chiunque voglia costruire agenti AI in autonomia.
Include soluzioni avanzate per la gestione della memoria, sistemi di permessi e
coordinamento di sub-agenti.
Sul fronte della sicurezza, Claude 4.5 è il modello più allineato rilasciato da
Anthropic. Riduce comportamenti problematici come piaggeria e inganno, migliora
la protezione contro attacchi via prompt injection, ed è distribuito con
protezioni AI Safety Level 3.
Incluso anche un esperimento temporaneo, “Imagine with Claude”, che permette di
generare software in tempo reale.
--------------------------------------------------------------------------------
RUNWAY APPS E WORKFLOW
> Non poteva mancare Runway in questa evoluzione dei modelli di generazione
> video.
Infatti, hanno lanciato "Apps", una raccolta di workflow specifici per diversi
casi d'uso. Alcuni esempi: reshooting dei prodotti, rimozione di elementi dai
video, da immagine a video con i dialoghi, upscale fino a 4k, restyling di video
e immagini.
0:00
/0:40
1×
Runway Apps
Hanno presentato, inoltre, un nuovo strumento in grado di sviluppare dei
workflow per l'elaborazione degli elementi visuali.
Permette di creare flussi di lavoro personalizzati basati su nodi, concatenando
più modelli, modalità e passaggi intermedi per avere controllo sulle
elaborazioni.
0:00
/0:48
1×
Runway Workflow
> Un approccio vincente, secondo me, perché l'obiettivo è quello di avere una
> continua produzione di workflow, in base anche alle esigenze della community.
--------------------------------------------------------------------------------
- GRAZIE -
Se hai apprezzato il contenuto, puoi
contribuire al progetto con una donazione 🙂
ISCRIVITI ALLA NEWSLETTER
Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su
tematiche relative all'intelligenza artificiale.
Iscriviti alla Newsletter
Email sent! Check your inbox to complete your signup.
Gratuita. No Spam. Puoi disiscriverti quando vuoi.
Consulta la privacy policy.
> Buon aggiornamento, e buone riflessioni..
--------------------------------------------------------------------------------
IL PROGETTO HARMONIA: PRESENTATO EXPO 2025 DI OSAKA
> Sono onorato di aver potuto dare il mio contributo alla realizzazione di
> Harmonia, una webapp presentata al Padiglione della Santa Sede all'Expo 2025
> di Osaka.
Si tratta di un progetto collettivo nato dalla collaborazione tra IUSVE e il
Dicastero per l’Evangelizzazione, con l’obiettivo di unire le voci di persone da
tutto il mondo attorno a un messaggio universale di pace. L’applicazione
consente agli utenti di registrare una frase del Pontefice in diverse lingue.
Ogni contributo vocale viene visualizzato in tempo reale come forma d’onda,
mostrando le caratteristiche uniche della voce umana in termini di frequenze,
intensità e timbro.
A Expo Osaka la webapp Harmonia, onda di pace in tutte le lingue - Vaticano News
- Ansa.it
Il Dicastero per l’Evangelizzazione, Sezione per le Questioni fondamentali
dell’Evangelizzazione nel mondo, in collaborazione con l’Istituto Universitario
Salesiano di Venezia, si prepara a rappresentare l’innovazione nell’ambito della
comunicazione digit... (ANSA)
Agenzia ANSARedazione ANSA
La parte più innovativa del progetto si attiva al termine della raccolta delle
registrazioni: un modello di AI elabora i dati acustici per sintetizzare
un’unica voce corale — la “Voce del mondo” — simbolo concreto di connessione tra
individui diversi ma uniti da uno stesso intento.
--------------------------------------------------------------------------------
INSTANT CHECKOUT DI CHATGPT
ChatGPT introduce Instant Checkout: ora è possibile acquistare prodotti
direttamente all’interno della chat. In questa fase iniziale, la funzione è
disponibile per gli utenti negli Stati Uniti (Free, Plus e Pro) e consente di
comprare da venditori statunitensi su Etsy.
Nelle immagini si vede un mio test con l'opzione già attiva.
A breve verranno inclusi anche oltre un milione di merchant su Shopify, tra cui
brand come Glossier, SKIMS, Spanx e Vuori, con l'obiettivo di espandere la
disponibilità ad altri commercianti e regioni nel tempo.
Il sistema è basato sull’Agentic Commerce Protocol, un nuovo standard
open-source sviluppato insieme a Stripe, pensato per permettere agli agenti AI,
agli utenti e alle aziende di collaborare in modo sicuro e fluido per completare
un acquisto.
Agentic Commerce Protocol
The Agentic Commerce Protocol is an open standard that enables programmatic
commerce flows between AI agents and businesses. Developed by Stripe + OpenAI.
Il processo d’acquisto è diretto: ChatGPT propone prodotti rilevanti non
sponsorizzati, l’utente seleziona un prodotto abilitato, conferma i dettagli e
completa il pagamento, tutto senza uscire dalla conversazione. Gli ordini sono
gestiti dai merchant con i loro sistemi esistenti, mentre ChatGPT agisce da
intermediario sicuro.
OpenAI ha già pubblicato la sezione dedicata ai "merchant", e la documentazione
per creare il feed dei prodotti degli e-commerce. Per ora, tutto questo è attivo
negli USA, ma, nel frattempo...
> fa riflettere sull'importanza di avere dati ben organizzati e la capacità di
> trasformarli agilmente in feed ottimizzati per diverse piattaforme.
L’approccio dell'Instant Checkout è progettato per garantire sicurezza,
trasparenza e controllo all’utente. I dati condivisi sono minimi e sempre
autorizzati, e i pagamenti sono criptati e legati solo a transazioni specifiche.
I commercianti restano titolari del rapporto con il cliente, dalla spedizione al
supporto post-vendita.
L’integrazione tecnica è pensata per essere rapida: per chi utilizza Stripe è
sufficiente una riga di codice, ma sono previste soluzioni anche per altri
sistemi di pagamento.
Vai al post di OpenAI
> Sarà una tappa verso un nuovo modello di commercio digitale? Dove l’assistente
> AI non si limita a consigliare cosa acquistare, ma accompagna l’utente
> nell’intero processo d’acquisto in modo naturale e diretto.
--------------------------------------------------------------------------------
SERVE UNA LEADERSHIP CON “MENTALITÀ DA PILOTA” PER GESTIRE AL MEGLIO L'AI
Sempre più aziende adottano strumenti di intelligenza artificiale con grandi
aspettative di efficienza, ma i risultati spesso deludono. Secondo una recente
analisi di BetterUp Labs e Stanford Social Media Lab, il fenomeno del “workslop”
(contenuti generati dall’IA che sembrano lavoro ben fatto ma sono privi di
sostanza) sta compromettendo la produttività e la collaborazione nei team.
Documenti, report e presentazioni creati in pochi secondi finiscono per spostare
il carico cognitivo su chi li riceve, che deve reinterpretare, correggere o
rifare da capo. Oltre al tempo sprecato, si innescano dinamiche di sfiducia e
giudizi negativi sulla competenza dei colleghi.
> Non è una questione tecnologica, ma culturale. Serve un uso più consapevole
> dell’IA, che valorizzi il pensiero critico invece di sostituirlo.
1. L’IA non alleggerisce il lavoro se usata senza criterio: semplicemente lo
scarica su altri.
2. Il “workslop” ha un costo nascosto: tempo perso, fiducia compromessa,
collaborazione danneggiata.
3. La differenza la fa l’approccio: serve una cultura del “pilota”, non del
“passeggero”, per usare davvero l’IA in modo utile.
Vai al post di HBR
--------------------------------------------------------------------------------
SEEDREAM 4
Ho provato Seedream 4, il nuovo modello dedicato alle immagini di ByteDance (che
tutti conosciamo per TikTok).
> Lo trovo impressionante, sinceramente. Ho creato le prime due immagini
> fornendo al modello gli oggetti (il profumo e la chitarra) e descrivendo la
> scena con un prompt testuale. Le altre due, sono text-to-image. L'output è in
> 4K… ma, ancora una volta, a stupire è sì la qualità, ma soprattutto l’aderenza
> alle istruzioni.
Immagini generate con Seedream 4
Seedream 4 nasce come modello “unificato”: non solo genera immagini da zero, ma
permette anche di modificarle tramite semplici richieste in linguaggio naturale.
Questo significa poter togliere o aggiungere elementi, cambiare sfondi,
mantenere lo stesso soggetto in più scene o addirittura costruire sequenze
narrative coerenti.
In termini di performance, la velocità è sorprendente: circa 1,8 secondi per
un’immagine 2K (forse meno di Gemini), con supporto fino a 4K. Le immagini
originali che ho condiviso "pesano" mediamente 15MB.
Sul fronte qualità, benchmark indipendenti lo collocano ai vertici accanto a
Gemini 2.5 Flash Image (Nano Banana) di Google, considerato tra i migliori
modelli generativi del momento.
Il modello è usabile via API (BytePlus) o piattaforme terze che l’hanno già
integrato (ad esempio Freepik, che consiglio).
> Velocità, qualità, un'incredibile aderenza ai prompt, e coerenza delle
> immagini: se questo è il nuovo standard di elaborazione delle immagini
> attraverso l'AI generativa, le applicazioni commerciali sembrano quasi
> naturali.
--------------------------------------------------------------------------------
AGENT PAYMENTS PROTOCOL (AP2)
> Siamo pronti agli acquisti autonomi gestiti da AI Agent?
Google ha annunciato il nuovo Agent Payments Protocol (AP2), un’infrastruttura
aperta che definisce regole comuni per permettere agli agenti intelligenti di
effettuare pagamenti in modo sicuro e interoperabile.
Il protocollo su GitHub
Con oltre 60 partner globali, tra cui Mastercard, PayPal, Coinbase e American
Express, AP2 nasce per affrontare i nodi critici dell'e-commerce automatizzato:
autorizzazione, autenticità e responsabilità. Elementi che diventano centrali
quando non è più l’utente a cliccare “compra”, ma un agente a operare in
autonomia.
Il cuore del sistema sono i Mandati crittografici, contratti digitali firmati
che fungono da prova verificabile delle intenzioni dell’utente. Possono essere
in tempo reale, quando l’utente approva un carrello, oppure delegati, quando si
affida all’agente per rispettare condizioni preimpostate. In entrambi i casi, la
catena di prove crea una traccia non contestabile che collega volontà, carrello
e pagamento.
Questa architettura apre scenari di commercio evoluto: acquisti intelligenti che
si attivano al momento giusto, offerte personalizzate nate dal dialogo fra
agenti, prenotazioni coordinate di viaggi e servizi, fino a integrazioni con
stablecoin e soluzioni Web3 grazie all’estensione A2A x402.
Il post di Google
> AP2 non è solo un protocollo tecnico, ma una cornice di fiducia e
> interoperabilità che potrebbe ridisegnare l’esperienza del pagamento digitale
> nell’era degli agenti autonomi.
--------------------------------------------------------------------------------
"OK COMPUTER" DI KIMI
> Kimi ha rilasciato la modalità "Agente", denominata "Ok Computer".
L'ho provato in un task di analisi dei dati (fornendo un CSV in input) e
sviluppo di un sito web per presentare 4 diverse dashboard: una generale, una
per il team di vendita, una per il CEO dell'azienda, e una sintesi con gli
highlights.
Il sistema usa un ambiente virtuale, genera ed esegue una serie di script Python
per la pulizia del dataset e per preparare i dati per widget dedicati alle
diverse dashboard.
Successivamente sviluppa l'homepage e le pagine, come da prompt in input.
In 38 minuti il sito web era pronto, "deployato" e raggiungibile in un webserver
remoto; e fornisce anche tutti i file necessari per eseguirlo in locale.
Nel video si può vedere una sintesi dei diversi step.
"OK Computer" di Kimi
> Un agent potente, e soprattutto, gratuito.
--------------------------------------------------------------------------------
GEMINI ROBOTICS 1.5
> Portare gli Agenti AI nel mondo fisico? Google DeepMind procede
> nell'evoluzione nell'ambito della robotica con Gemini Robotics 1.5.
Si tratta di un avanzamento significativo verso sistemi in grado di percepire,
ragionare e agire nel mondo reale in modo autonomo e generalista. Il cuore di
questo progresso è la combinazione di due modelli complementari: Gemini Robotics
1.5 e Gemini Robotics-ER 1.5.
0:00
/0:30
1×
Gemini Robotics 1.5
Il primo, un modello Vision-Language-Action (VLA), consente ai robot di
interpretare informazioni visive e comandi linguistici trasformandoli in azioni
fisiche. Ma ciò che lo distingue è la capacità di "pensare prima di agire":
sviluppa catene di ragionamento interno che precedono l’esecuzione, rendendo le
decisioni trasparenti e più affidabili.
Il secondo, Gemini Robotics-ER 1.5, funziona da "cervello strategico". Ragiona
sul mondo fisico, pianifica, valuta i propri progressi, utilizza strumenti
digitali e comunica con il modello esecutivo. Ha ottenuto risultati
all’avanguardia in benchmark accademici legati alla comprensione spaziale e al
ragionamento embodied.
Questa architettura a due livelli permette una gestione più flessibile e robusta
dei compiti, anche in ambienti complessi e mutevoli. Inoltre, il sistema mostra
un'efficace capacità di trasferimento tra diversi corpi robotici, riducendo
drasticamente il tempo necessario per apprendere nuove abilità.
In parallelo, DeepMind integra approcci innovativi per garantire la sicurezza
semantica e fisica di questi agenti, promuovendo uno sviluppo allineato ai
principi etici dell’AI responsabile.
Vai al post
> L'integrazione del ragionamento, della percezione multimodale e della capacità
> d'azione in ambienti reali segna un passo concreto verso una forma di
> intelligenza artificiale fisica, capace di operare al servizio dell’uomo in
> modo autonomo e collaborativo.
--------------------------------------------------------------------------------
CREARE PRESENTAZIONI USANDO L'AI?
> Finalmente si iniziano a vedere processi interessanti!
Moonshot AI ha rilasciato Kimi Slides: un componente della chat di Kimi dedicato
alla generazione di presentazioni, editabili e scaricabili in PPTX.
L'ho provato, e si tratta di uno strumento notevole!
Nel video si può vedere il processo di creazione..
Kimi Slides: un esempio di creazione di una presentazione
Ho caricato un post del mio blog, chiedendo al modello di preparare una
presentazione relativa ai concetti trattati. Il sistema procede generando la
struttura della presentazione (outline), che può essere modificata e arricchita
manualmente, direttamente dalla UI della chat. Mi ha chiesto di scegliere un
template, e ha iniziato a creare l'output. Una volta terminata l'elaborazione,
permette di editarla completamente, cambiando e modificando testi ed elementi,
aggiungendo o rimuovendo slide, sostituendo il template, ecc.. Infine, permette
di scaricarla, anche in formato PPTX (modificabile).
> L'output che si ottiene è un'ottima bozza iniziale.. e in meno di un minuto.
Per provarlo
Nel post di lancio, l'azienda annuncia: "Coming soon: Adaptive Layout, auto
image search & agentic slides". Scopriremo presto di cosa si tratta.
--------------------------------------------------------------------------------
CHROME DEVTOOLS MCP
È il momento di Chrome DevTools MCP: un’evoluzione concreta nell’interazione tra
agenti AI e ambienti di sviluppo reali. Il limite principale degli agenti di
programmazione (l’impossibilità di osservare direttamente l’effetto del codice
eseguito) viene superato offrendo loro accesso al browser Chrome attraverso
un’integrazione diretta con DevTools.
Chrome DevTools (MCP) for your AI agent | Blog | Chrome for Developers
Public preview for the new Chrome DevTools MCP server, bringing the power of
Chrome DevTools to AI coding assistants.
Chrome for DevelopersX
I LLM possono così ispezionare il DOM, analizzare richieste di rete, raccogliere
dati di performance, interagire con l’interfaccia utente e simulare condizioni
complesse. Non si tratta solo di generare codice, ma di testarlo, osservarne il
comportamento ed eventualmente correggerlo, in un ciclo chiuso, guidato
dall’intelligenza artificiale.
Il supporto a Puppeteer consente automazioni robuste, con azioni come clic,
compilazione form, gestione di dialoghi e navigazione tra pagine. Tra gli
strumenti inclusi figurano anche la tracciatura delle performance, l’emulazione
di rete e CPU, la generazione di screenshot e l’esecuzione di script in tempo
reale. Tutto questo è accessibile con una semplice configurazione JSON e un
comando npx.
GitHub - ChromeDevTools/chrome-devtools-mcp: Chrome DevTools for coding agents
Chrome DevTools for coding agents. Contribute to
ChromeDevTools/chrome-devtools-mcp development by creating an account on GitHub.
GitHubChromeDevTools
> DevTools MCP inaugura un nuovo paradigma: l’agente non è più solo autore del
> codice, ma anche osservatore e correttore attivo. Si apre così la strada a
> flussi di lavoro in cui lo sviluppo web diventa più dinamico, verificabile e
> adattivo, con l’AI pienamente inserita nel ciclo di esecuzione del software.
UN TEST DEL SISTEMA
Quello che si vede nel video, è un mio test di Gemini CLI connesso al server MCP
di Chrome DevTools.
Gemini CLI con MCP di Chrome DevTools
Lo trovo un supporto molto interessante, utile nella fase di analisi delle
performance dei siti web (anche automatizzate), soprattutto perché consente di
andare oltre la misurazione, fornendo suggerimenti e fix reali.
Ho fatto test anche con la riduzione della velocità di connessione, e con azioni
di browser automation per verificare la presenza di eventuali problematiche.
Usarlo è davvero semplice. Quelli che seguono sono 3 comandi che permettono di
vederlo funzionare in qualche minuto (io lo uso su una macchina Debian).
* Installazione dell'agente di Gemini CLI:
npm install -g @google/gemini-cli
* Aggancio del server MCP di Chrome DevTools all'agente:
gemini mcp add chrome-devtools "npx" "chrome-devtools-mcp@latest" -- \
--headless=false
* Avvio di Gemini CLI con il modello 2.5 Pro:
gemini -m gemini-2.5-pro
--------------------------------------------------------------------------------
MCP TOOLBOX FOR DATABASES DI GOOGLE
Google ha rilasciato in open source MCP Toolbox for Databases, precedentemente
noto come GenAI Toolbox.
Si tratta di un server MCP progettato per facilitare l'integrazione di agenti AI
con database, semplificando la gestione degli strumenti attraverso
configurazioni centralizzate.
MCP Toolbox for Databases di Google
Il progetto fornisce funzionalità come pooling delle connessioni, autenticazione
integrata, osservabilità con OpenTelemetry e supporto per diversi framework, tra
cui LangChain e LlamaIndex.
Vai al progetto
Con MCP Toolbox è possibile creare assistenti AI che accedono ai dati usando il
linguaggio naturale direttamente da un IDE, automatizzare query SQL, generare
codice contestuale e semplificare l'intero ciclo di vita dello sviluppo
applicativo orientato ai dati.
--------------------------------------------------------------------------------
L'MCP SERVER DI FIGMA
Figma ha presentato il suo MCP Server (Model Context Protocol) per strumenti di
sviluppo e agenti AI. Il punto centrale di questa innovazione è la possibilità
di fornire contesto progettuale direttamente all’interno degli ambienti dove
viene scritto il codice, provando a rendere il design un’entità computabile e
riutilizzabile, non più una semplice rappresentazione visiva.
0:00
/0:29
1×
L'MCP Server di Figma
Con il supporto al server remoto, Figma consente di accedere a componenti,
layout, variabili e logiche progettuali direttamente da IDE come VS Code, o
tramite agenti AI come Claude e Cursor, senza passare dal client desktop.
È sufficiente il link a un frame per permettere all’agente di accedere al nodo
specifico, leggerne la struttura e generare codice coerente, contestualizzato e
aderente al design system esistente.
Vai al post
Il valore reale emerge nell’uso combinato di Figma Make, il nuovo ambiente per
la generazione di interfacce, e Code Connect, che allinea componenti Figma ai
componenti di produzione. L'agente AI, in questo scenario, non lavora più su
immagini statiche ma su riferimenti strutturati, accedendo al codice sorgente
dei file Make e comprendendo i mapping definiti tra design e codice.
Ne risulta un flusso in cui le AI non sono più strumenti generativi generici, ma
veri e propri agenti informati, in grado di produrre output consistenti,
scalabili e aderenti alla realtà tecnica del progetto.
Vai alla documentazione
L’MCP Server non si limita a trasportare dati: veicola significato, struttura e
coerenza, diventando un canale di comunicazione bidirezionale tra la
progettazione visuale e la logica di produzione. In questo contesto, ogni nodo
di design diventa un'unità computabile, ogni file Make un’estensione
dell’architettura, e ogni agente AI un collaboratore operativo sul prodotto.
--------------------------------------------------------------------------------
GEMINI: COME SI LEGGONO I CONSUMI?
> Come si leggono i dati del consumo di token nell'API di Gemini?
Nella mia applicazione sto elaborando una serie di prodotti di un e-commerce, e
per ogni chiamata API invio un prompt multimodale (testo + immagine), usando
anche il tool di web search (Grounding with Google Search).
Nella risposta dell'API si vedono i dati di consumo dell'immagine.
Un esempio di risposta API di Gemini 2.5 Pro
I DETTAGLI
* Input. Il totale dei token in input che il modello ha considerato per
l'elaborazione è di 8.733 token: 8.475 token di testo e 258 token di
immagine.
* Cache. 3.155 token (di cui 3.062 di testo e 93 di immagine) sono stati
recuperati dal sistema di cache implicita di Gemini. Questo significa che
solo la differenza (5.578 token) è stata effettivamente inviata con questa
nuova chiamata, ottimizzando così costi e velocità.
Questo tipo di cache (implicita) è automatico. Le parti che si ripetono nei
prompt (es. istruzioni di sistema, specifiche su come creare l'output, ecc.)
vengono salvate in una memoria a breve termine e riutilizzate nelle chiamate
successive a un prezzo molto inferiore.
* Tools. I contenuti estratti attraverso le diverse ricerche prodotte in fase
di reasoning hanno consumato 9.278 token.
* Reasoning. Durante la sua elaborazione, il modello ha utilizzato 477 token
per il suo processo di ragionamento interno, un'attività che non appare
nell'output finale ma è cruciale per la qualità della risposta.
* Output. La risposta generata dal modello (la sezione candidates) è composta
da 998 token.
* Consumo Totale. Sommando tutte queste componenti (input, output, tool e
reasoning), il consumo complessivo per questa singola chiamata API ammonta a
19.486 token.
> Con tutti questi dati, si possono creare dei sistemi di log e reportistica,
> che permettono di avere sotto controllo l'elaborazione.
UN ESEMPIO DI DASHBOARD
Alcuni estratti della dashboard che sto utilizzando per monitorare i consumi e
le azioni dell'applicazione.
Dashboard per il monitoraggio dei consumi di Gemini 2.5 Pro
Il monitoraggio dei consumi è da inserire già in fase di progettazione: l'effort
è bassissimo (tutte le informazioni sono nelle risposte delle API dei LLM), ma
l'utilità è altissima.
--------------------------------------------------------------------------------
LE ALLUCINAZIONI NEI MODELLI LINGUISTICI
OpenAI ha pubblicato un paper che analizza in profondità le cause delle
allucinazioni nei modelli linguistici, mostrando che non sono un’anomalia ma un
fenomeno statistico.
Nascono già nel pretraining: anche con dati perfetti, l’obiettivo di minimizzare
la cross-entropy porta a generare errori. I fatti rari (es. il compleanno di una
persona poco citata) sono particolarmente vulnerabili, mentre quelli ricorrenti
resistono meglio.
Le allucinazioni nei modelli linguistici - Un paper di OpenAI
Questi errori assomigliano a misclassificazioni in un problema supervisionato:
inevitabili quando i dati sono insufficienti o il modello non è abbastanza
espressivo. Non è solo un limite della conoscenza, ma anche della famiglia di
modelli utilizzata.
Il paradosso è che il post-training, pur cercando di ridurre le allucinazioni,
spesso le perpetua. Le metriche di valutazione dominanti puniscono le risposte
di incertezza e premiano chi “azzarda” sempre una risposta. Così, i modelli
imparano a bluffare.
Vai al paper
La soluzione non passa soltanto da nuove architetture o da più dati, ma da un
cambiamento negli incentivi: valutazioni che riconoscano il valore del dire “non
lo so”. Solo così si può orientare lo sviluppo verso sistemi più affidabili e
pragmatici, capaci di gestire l’incertezza senza trasformarla in falsa certezza.
--------------------------------------------------------------------------------
PROJECT MARINER DI GOOGLE: UN'ANTEPRIMA
A proposito di Agenti AI dedicati alla browser automation e di Project Mariner
di Google.. Il sistema è già disponibile per gli utenti Gemini Ultra.
Funziona come Operator di OpenAI, ma può agire direttamente sulle schede di
Chrome.
Negli esempi si vedono alcuni task che l'agente compie, e tutti gli step che
segue.
Project Mariner di Google: un'anteprima
Quando la funzionalità sarà direttamente su Chrome, o su AI Mode, non credo
rimarrà molto spazio per altri agenti di questo tipo.. il potere
dell'ecosistema, ma anche del modello più potente sul mercato.
Vai al progetto
--------------------------------------------------------------------------------
CHROME SARÀ POTENZIATO DALL'AI
> Google ha presentato l'evoluzione di Chrome potenziato dall'AI.
Questo significa: uno dei LLM più potenti integrato nel browser più usato al
mondo, con un agent di browser automation, e interazione nativa con le app più
usate al mondo.
Il protagonista è Gemini in Chrome, che trasforma il browser in un assistente
intelligente capace di comprendere il contesto, lavorare su più schede
contemporaneamente, riassumere informazioni complesse e persino ricordare le
pagine visitate in passato. Non più solo navigazione, ma comprensione attiva.
0:00
/2:27
1×
Attraverso le funzionalità agentiche, Gemini potrà svolgere compiti per conto
dell’utente, come prenotare appuntamenti o fare acquisti online, semplificando
processi che oggi richiedono diversi passaggi manuali.
Chrome: The browser you love, reimagined with AI
Google is taking the next step in its journey to make your browser smarter with
new AI integrations.
GoogleParisa Tabriz
La barra degli indirizzi si evolve con l’introduzione di AI Mode: sarà possibile
porre domande complesse direttamente dall’omnibox, ottenere risposte
intelligenti, suggerimenti contestuali e approfondimenti generati in tempo
reale, tutto senza cambiare scheda.
Sul fronte della sicurezza, l’AI diventa un alleato fondamentale: blocca truffe
sofisticate, filtra notifiche indesiderate, gestisce con intelligenza le
richieste di autorizzazione (come fotocamera e geolocalizzazione) e consente di
aggiornare password compromesse in un solo clic.
Infine, l’integrazione diretta con servizi come YouTube, Calendar, Maps e Docs
porta la produttività a un nuovo livello, permettendo di interagire con le app
senza uscire dalla pagina attiva.
Il post di Google
> Con questa evoluzione, Chrome smette di essere una semplice finestra sul web e
> diventa un vero assistente personale AI-native, progettato per rendere la
> navigazione più efficace, sicura e intelligente.
--------------------------------------------------------------------------------
E-COMMERCE PERSONALIZZATI: SE NON È GIÀ IL MOMENTO, LO SARÀ PRESTO
In questa demo. l'utente può caricare la sua immagine e vedere i prodotti del
catalogo indossati. Chiaramente il sistema potrebbe usare delle immagini
caricate ad hoc nel profilo, senza bisogno di upload.
0:00
/0:39
1×
Personalizzazione dell'e-commerce usando l'AI
E magari, ad esempio, potrà far vedere all'utente le scarpe del catalogo
indossate insieme alla tuta acquistata il mese precedente. Oppure con i prodotti
che vengono acquistati più frequentemente insieme dal cluster di clienti al
quale appartiene.
> Nei nostri seminari dell'Accademia, parliamo di contenuti personalizzati da
> diversi anni. Mancavano modelli con un'efficienza tale da mettere a terra la
> visione.
Oggi, con modelli come Gemini 2.5 Pro Flash Image (Nano Banana) e Seedream 4 ci
stiamo avvicinando non poco.
UN MIO TEST DI "VIRTUAL TRY ON"
Primi test di "Virtual Try On" basato su Gemini 2.5 Flash Image (Nano Banana).
Un mio esempio di "Virtual Try On"
L'aspetto più interessante? L'ho creato completamente usando la sezione "Build"
di Google AI Studio. Quindi, tutto il codice è generato da Gemini 2.5 Pro
partendo dalle mie istruzioni testuali.
Per usarlo e modificarlo
> Di certo non può essere considerato un plugin pronto all'uso, ma una base per
> fare delle riflessioni sulla personalizzazione dell'esperienza utente verso la
> quale ci stiamo avviando.
--------------------------------------------------------------------------------
RISORSA UTILE + COLAB GRATUITO
Microsoft ha pubblicato MarkItDown, uno strumento in Python che converte file
come PDF, Word, Excel, PowerPoint, immagini, HTML, JSON, e molti altri formati,
in Markdown.
MarkItDown di Microsoft + Colab gratuito
È ideale per trasformare i file in contesto per agenti basati su LLM, preserva
la struttura del documento (titoli, elenchi, tabelle…) ed è perfetto per analisi
testuale, automazioni o integrazioni AI.
L’ho provato e ho creato un Colab pronto all’uso, con un’ulteriore integrazione:
OCR tramite Tesseract.
Vai al Colab
Perché? Di default, MarkItDown prova a leggere le immagini, ma se non trova un
motore OCR installato restituisce solo i metadati (EXIF). Con l’integrazione
Tesseract, invece, anche il testo contenuto nelle immagini (scansioni,
screenshot, foto di documenti) viene estratto e convertito in Markdown.
--------------------------------------------------------------------------------
DOLPHIN: UN TOOL PER IL PARSING DEI DOCUMENTI
Dolphin è un modello multimodale open-source per l’analisi e il parsing di
documenti, sviluppato dal team di ricerca di ByteDance. Nasce con l’obiettivo di
interpretare strutture complesse all’interno di documenti digitalizzati, come
tabelle, formule, paragrafi di testo e immagini, restituendo una
rappresentazione strutturata che rispetta l’ordine di lettura umano.
Un sistema molto interessante per supportare l'interpretazione dei documenti da
parte dei LLM. L'ho provato, e lo trovo molto potente.
Dolphin: un tool per il parsing dei documenti
Il funzionamento del sistema si basa su un paradigma a due fasi definito
analyze-then-parse. Nella prima fase, il modello analizza l’intera pagina per
identificare e ordinare logicamente gli elementi presenti. Nella seconda, avvia
un processo di parsing parallelo degli elementi documentali tramite un
meccanismo chiamato heterogeneous anchor prompting, in cui ogni tipo di
contenuto è gestito con prompt specifici.
Questa distinzione semantica permette di ottimizzare l’interpretazione, e
migliora l’efficienza complessiva.
Dolphin integra modelli visivo-linguistici e sfrutta strumenti di accelerazione
come TensorRT-LLM e vLLM per garantire prestazioni elevate, anche su documenti
multipagina in formato PDF. È accessibile attraverso due framework paralleli:
uno basato su configurazioni locali e uno integrato nella piattaforma Hugging
Face, che ne facilita l’utilizzo e la distribuzione. Le inferenze possono
produrre output in formato JSON o Markdown, sia a livello di pagina sia di
singolo elemento.
Vai al progetto
> Dolphin si posiziona come un contributo tecnico rilevante per l’estrazione
> semantica da documenti visivi, supportando scenari reali di OCR avanzato,
> digitalizzazione e comprensione automatizzata del layout.
--------------------------------------------------------------------------------
VEO 3: L’ALBA DEL RAGIONAMENTO VISIVO?
Per anni l’AI ha imparato a “vedere” attraverso modelli specializzati: uno per
segmentare, un altro per riconoscere oggetti, un altro ancora per migliorare
immagini in bassa qualità. La ricerca di Google DeepMind mostra che con Veo 3
siamo di fronte a una svolta:
> un singolo modello video capace di affrontare, senza addestramento specifico,
> compiti che spaziano dalla percezione al ragionamento.
0:00
/0:38
1×
Veo 3 non si limita a riconoscere i contorni di un oggetto. Dimostra di intuire
proprietà fisiche come il galleggiamento o la resistenza dell’aria, di
manipolare scene visive con coerenza, di completare puzzle, labirinti e
simmetrie. È un passaggio dal semplice “vedere” al cominciare a “capire” il
mondo in movimento.
> Anche se, devo dire, che alcuni miei esperimenti specifici mi portano a
> pensare che, pur vedendo una crescita enorme, rimaniamo lontani dalla
> "comprensione del mondo".
Vai al paper
Il paper analizza oltre 18.000 video generati, coprendo 62 compiti qualitativi e
7 quantitativi. I risultati mostrano un netto miglioramento rispetto a Veo 2:
nel labirinto 5×5, il tasso di successo passa dal 14% al 78%, mentre nelle
segmentazioni zero-shot Veo 3 raggiunge una mIoU di 0.74, comparabile a modelli
di editing dedicati.
> Questa progressione indica non solo un affinamento percettivo, ma anche
> l’emergere di una “catena di frame” capace di sostenere forme iniziali di
> ragionamento visivo.
--------------------------------------------------------------------------------
VISUAL PROMPT PER LA GENERAZIONE VIDEO
Si tratta di indicazioni per il modello direttamente nel key frame che usiamo
nel prompt multimodale.
Nell'esempio, parto da un'immagine generata con Gemini 2.5 Flash Image (Nano
Banana). La edito inserendo delle indicazioni, e la uso come fotogramma chiave
su Veo 3, insieme a delle istruzioni testuali.
Un esempio di visual prompt per Veo 3
La componente testuale del prompt l'ho generata attraverso "Veo 3 Prompt
Assistant", usando anche l'immagine del key frame come indicazioni di supporto.
Il risultato è aderente alle indicazioni. Nella parte finale del video, il
soggetto guarda verso la camera: questa azione è stata descritta dal prompt
testuale (sarebbe stato difficile usare uno schema nell'immagine).
Chiaramente, il modello usa l'immagine come fotogramma di partenza (conservando
anche le istruzioni grafiche), quindi, nel prompt testuale ho specificato che le
indicazioni devono scomparire immediatamente nel video. E così, con un taglio
del primo mezzo secondo, si ottiene il video pulito.
> Presto vedremo software di generazione video che ci permetteranno di disegnare
> le indicazioni direttamente nelle immagini in modo semplice, per poi generare
> il video corrispondente.
> Il mix di istruzioni multimodali (immagine/schema + testo), aiutano a pilotare
> meglio il modello.
Per provare "Veo 3 Prompt Assistant":
ChatGPT - Veo 3 Prompt Assistant
A conversational AI system that listens, learns, and challenges
ChatGPT
Oppure basta cercare "Veo 3 Prompt Assistant" nella sezione GPT di ChatGPT.
--------------------------------------------------------------------------------
VEO3: NOVITÀ + COLAB GRATUITO
> I cambiamenti riguardano tre aspetti fondamentali: prezzo, formato e qualità
> visiva.
* Il primo è una riduzione dei costi significativa: Veo 3 passa da $0.75 a
$0.40 al secondo, mentre Veo 3 Fast scende da $0.40 a $0.15. Una mossa che
rende più accessibile l’adozione di questi modelli per produzioni su larga
scala o in contesti sperimentali.
* Il secondo aspetto riguarda l’ampliamento dei formati supportati. Con
l’introduzione del 9:16 verticale, Veo si allinea alle esigenze contemporanee
dei contenuti digitali, in particolare per il mobile e i social media, dove
la verticalità è diventata standard.
Ho generato i video del post via API, formato 9:16. Prompt creato con "Veo 3
Prompt Assistant".
Un esempio di video verticale generato con Veo 3
Condivido il Colab che ho usato, che permette di selezionare e variare il
formato e la risoluzione.
Vai al colab
Basta impostare l'API Key di Gemini nei "Secrets", impostare i parametri nel
form, agire sul prompt, ed eseguire.
* Infine, l’introduzione della risoluzione 1080p segna un miglioramento tecnico
rilevante, abilitando produzioni più nitide e coerenti con le aspettative
moderne di qualità visiva.
Vai al post di Google
> Secondo Google, questi aggiornamenti non sono solo incrementali: rappresentano
> una normalizzazione dell’uso di modelli generativi video in flussi di lavoro
> professionali. L’integrazione di Veo 3 in strumenti come Saga, Mosaic o
> Invisible Studio ne è una testimonianza concreta: la generazione video non è
> più solo un prototipo, ma un ingranaggio produttivo reale.
--------------------------------------------------------------------------------
WAN 2.5
> La qualità generale dei modelli di generazione video aumenta.. e Alibaba lo
> dimostra rilasciando Wan 2.5.
Il nuovo modello introduce un’architettura multimodale nativa e un addestramento
congiunto su testo, audio e dati visivi, garantendo un migliore allineamento tra
le modalità e una sincronizzazione audio-video naturale.
0:00
/0:25
1×
Esempi di video generati con Wan 2.5
Grazie all’integrazione del Reinforcement Learning from Human Feedback (RLHF),
l’output si adatta meglio alle preferenze umane, con immagini più nitide e video
più dinamici.
Sul fronte video, Wan 2.5 offre generazione sincronizzata di voce, effetti
sonori e musica, input multimodali controllabili (testo, immagini, audio) e un
sistema avanzato di controllo cinematografico per produrre clip in 1080p della
durata di 10 secondi.
L'interfaccia di generazione, permette di estendere i video, di effettuare
"repaint" e "inpaint".
Per provarlo
Per le immagini, il modello migliora nella qualità fotorealistica e negli stili
artistici, includendo tipografia creativa e grafici professionali. Supporta
inoltre editing conversazionale con precisione a livello di pixel, consentendo
operazioni come fusioni concettuali, trasformazioni di materiali o variazioni
cromatiche di prodotto.
--------------------------------------------------------------------------------
RAY 3 DI LUMA LABS
> Luma Labs ha rilasciato il primo modello video in grado di "ragionare" in 4K
> HDR.
Si tratta di Ray 3, progettato per comprendere l’intento creativo e generare
risultati visivi coerenti, realistici e ad alta fedeltà. È in grado di attuare
un'azione di "reasoning" attraverso concetti visivi, valutare le bozze prodotte
e migliorare automaticamente la qualità con ogni iterazione.
L'ho provato, sia in modalità text-to-video, sia image-to-video. L'aderenza alle
istruzioni nei prompt che ho usato è altissima, come la qualità degli output.
0:00
/0:26
1×
Video generati con Ray 3 di Luma Labs
Supporta la generazione nativa in 16-bit HDR, con esportazione in EXR per
integrazione nei flussi professionali di post-produzione. Rispetto alla versione
precedente, offre maggiore dettaglio alla stessa risoluzione e migliora la resa
di movimento, luce, ottiche e interazioni spaziali.
Tra le funzionalità avanzate: annotazioni visive per controllare layout e
animazioni, keyframe, estensione e loop dei video, upscaling e un nuovo Draft
Mode che consente iterazioni 5 volte più rapide e più economiche.
> Ray 3 consente di creare video da testo o immagini, trasformare contenuti SDR
> in HDR e costruire scene complesse con personaggi, espressioni e ambienti
> coerenti.
--------------------------------------------------------------------------------
QWEN-IMAGE-EDIT-2509
Dall’arrivo di Gemini 2.5 Flash Image (Nano Banana) e Seedream 4, l’asticella
dell’editing visivo si è alzata a una velocità impressionante. E ora entra in
scena Qwen-Image-Edit-2509.
Editing multi-immagine con coerenza su volti, prodotti, testi. Supporta
combinazioni complesse come persona + scena, persona + oggetto, persona +
persona. Lavora su pose, stili e contesti con una precisione che restituisce non
solo l’identità visiva, ma anche l’intento narrativo.
Vai al progetto
Testo e immagine si fondono: font, colore, materiale e contenuto vengono
modificati insieme, senza fratture visive. Il tutto con integrazione nativa di
ControlNet (depth map, edge, keypoint, sketch), che permette controllo granulare
su struttura e composizione.
0:00
/0:57
1×
Qwen-Image-Edit-2509
La qualità dell’output è alta anche in casi difficili:
* restauro fotografico con identità intatta
* poster pubblicitari generati da semplici loghi
* meme realistici con testi complessi
* ritratti con pose alterate ma coerenza impeccabile
E il dettaglio più importante: è open source. Licenza Apache 2.0, modello e
codice disponibili pubblicamente. Usabile, modificabile, riutilizzabile. Anche
per scopi commerciali.
Per provarlo
> Qwen-Image-Edit-2509 non è solo un aggiornamento. È una piattaforma creativa
> solida, aperta e controllabile.
--------------------------------------------------------------------------------
GROK 4 FAST
Grok 4 Fast segna un’evoluzione nell’intelligenza artificiale accessibile,
combinando potenza e convenienza.
Si tratta di un modello ottimizzato che conserva prestazioni vicine a Grok 4, ma
riduce del 40% i token di ragionamento, rendendolo più efficiente sotto il
profilo computazionale ed economico.
Con una finestra di contesto di 2 milioni di token, Grok 4 Fast si adatta a
compiti lunghi e articolati, integrando nativamente l’uso di strumenti come web,
ricerca su X, immagini e video. La sua architettura duale permette di alternare
tra modalità di ragionamento e risposte rapide, a seconda della complessità del
compito, senza sacrificare coerenza o profondità.
I benchmark confermano la validità di questa impostazione: prestazioni superiori
a Grok 3 Mini a costi significativamente più bassi, mantenendo un equilibrio
rilevante tra intelligenza e spesa per token.
Per approfondire
La disponibilità gratuita per tutti gli utenti, compresi quelli non abbonati,
rappresenta un passo concreto verso una democratizzazione dell’AI avanzata, in
cui efficienza e accessibilità diventano elementi strutturali, non compromessi.
--------------------------------------------------------------------------------
GPT-5-CODEX DI OPENAI
OpenAI presenta GPT-5-Codex, un’evoluzione di GPT-5 progettata per l’ingegneria
del software.
Allenato su compiti complessi e reali, questo modello unisce due capacità
essenziali: l’interazione rapida nelle sessioni brevi e la perseveranza nei
lavori di lunga durata, arrivando a operare autonomamente per ore.
La sua specializzazione nel code review permette di scoprire difetti critici
prima della distribuzione, riducendo il carico dei revisori umani e aumentando
la qualità del codice.
GPT-5-Codex di OpenAI
L’ecosistema Codex si è trasformato in un vero "compagno di lavoro": dal
terminale all’IDE, dal cloud a GitHub, fino all’app iOS, con la possibilità di
passare senza soluzione di continuità dal contesto locale a quello remoto.
Le nuove integrazioni supportano immagini, to-do list, strumenti esterni e
revisioni automatiche delle pull request, con tempi di esecuzione molto più
rapidi e una gestione della sicurezza che privilegia ambienti sandbox e
controlli granulari.
Vai al post di OpenAI
> Incluso nei piani ChatGPT Plus, Pro, Business, Edu ed Enterprise, e in arrivo
> anche via API, GPT-5-Codex incarna l’idea di un agente affidabile, capace di
> comprendere il contesto, collaborare e assumersi responsabilità nello sviluppo
> del software.
--------------------------------------------------------------------------------
GLI EMBEDDINGS SONO LIMITATI
> E se gli embeddings, che oggi usiamo ovunque per ricerca e AI, avessero un
> limite matematico invalicabile?
Il nuovo lavoro di Google DeepMind dimostra proprio questo: non importa quanto
allarghiamo i modelli o quanto migliori siano i dati, esiste un tetto oltre il
quale gli embeddings non possono più rappresentare tutte le possibili relazioni
tra query e documenti.
Un paper di DeepMind sulla limitazione degli embeddings
> Il motivo è geometrico. Un embedding è un vettore in uno spazio di dimensione
> finita. Questo spazio può codificare tante relazioni, ma non tutte.
Quando le query richiedono combinazioni troppo numerose o specifiche, la
capacità crolla: alcune coppie o insiemi di documenti non possono essere
recuperati da nessuna query, per pura impossibilità matematica.
Gli autori formalizzano il concetto con i sign-rank bounds, che fissano un
limite teorico alla capacità rappresentativa di un embedding di dimensione d.
Poi lo mostrano empiricamente: anche con 4096 dimensioni (già altissime), la
copertura delle possibili combinazioni si rompe già intorno ai 250 milioni di
documenti per recuperi top-2.
Per rendere la cosa concreta, creano il dataset LIMIT: query banalissime come
“Chi ama le mele?”, con documenti tipo “Jon ama le mele”, “Leslie ama le
caramelle”. Semplice? Non per gli embedding. Anche i migliori modelli
disponibili crollano, con meno del 20% di recall@100.
Un esempio intuitivo: immagina una libreria con solo 100 scaffali. Puoi ordinare
molti libri, ma non tutte le disposizioni possibili. A un certo punto, per
quanto tu cerchi di essere creativo, mancherà lo spazio per rappresentare tutte
le combinazioni. Gli embedding funzionano allo stesso modo: una mappa utile, ma
che non potrà mai contenere tutti i percorsi possibili.
Le implicazioni sono profonde: non basta scalare. Per applicazioni come search,
recommendation o retrieval-augmented generation (RAG), gli embeddings non
possono essere l’unico motore di retrieval. Servono architetture ibride, che
combinino dense e sparse retrieval, multi-vector retrievers o reranker più
potenti.
Vai al paper
> Il messaggio del paper è netto: gli embeddings rimangono strumenti preziosi,
> ma vanno trattati come parte di un sistema, non come la soluzione universale.
> I loro limiti non sono un bug temporaneo, ma una proprietà strutturale.
UN APPROFONDIMENTO SUGLI EMBEDDINGS
Cosa sono gli embeddings? Esempi di utilizzo
Cosa sono e come funzionano gli embeddings (o incorporamenti): una spiegazione
semplice con alcuni esempi di utilizzo in ambito SEO, e riflessioni
sull’importanza della consapevolezza di questi sistemi.
Alessio PomaroAlessio Pomaro
--------------------------------------------------------------------------------
GPT-OSS DI OPENAI SU GROQ
Usando Groq è possibile usare le diverse versioni di gpt-oss di OpenAI (i nuovi
modelli open) via API e con una velocità impressionante.
Nel video testo la versione 120b nel Playground di Groq, su diversi task, usando
anche il tool di web search e code interpreter (per generare un diagramma).
Come si vede, l'inferenza è davvero veloce: mediamente 500 token/s.
Gpt-oss di OpenAI su Groq: un test
> E la qualità dei risultati? Sinceramente è ottima, se consideriamo le
> caratteristiche del modello e la quantità di istruzioni che fornisco in input.
Questi modelli possono davvero coprire una grande quantità di elaborazioni nelle
applicazioni, soprattutto all'interno di framework multi agente.
--------------------------------------------------------------------------------
AGENTI OPEN-SOURCE PER LA RICERCA SUL WEB
Tongyi DeepResearch rappresenta un passaggio significativo nell’evoluzione degli
agenti open-source per la ricerca sul web. Si distingue non solo per i risultati
raggiunti nei benchmark più complessi, ma soprattutto per l’approccio
metodologico che lo sostiene.
> Al centro di questa visione c’è l’idea che un agente non debba limitarsi a
> immagazzinare conoscenza, ma debba saper agire, pianificare e costruire
> risposte attraverso processi multi-step.
0:00
/1:28
1×
Tongyi DeepResearch: un esempio
Il concetto di Agentic Continual Pre-Training mostra come il pre-training non
debba essere visto come una fase chiusa, ma come un ciclo continuo, arricchito
da dati sintetici progettati per simulare scenari di ricerca e di decisione. In
questo modo, il modello viene nutrito con esperienze artificiali che non solo
ampliano il suo repertorio informativo, ma modellano il suo comportamento da
agente, rendendo più naturale il passaggio alle fasi successive di fine-tuning e
reinforcement learning.
Vai al progetto su GitHub
I risultati confermano la forza di questo approccio: Tongyi DeepResearch ottiene
un punteggio di 32.9 su Humanity’s Last Exam, 43.4 su BrowseComp, 46.7 su
BrowseComp-ZH e 75 su xbench-DeepSearch, superando sia agenti open-source che
soluzioni proprietarie di riferimento.
In un panorama dove l’accesso a dati reali è limitato e costoso, l’uso
sistematico e scalabile di dati sintetici rappresenta una svolta: non una
semplice sostituzione, ma una forma di addestramento che permette al modello di
esplorare lo spazio del ragionamento e dell’azione ben oltre i confini imposti
dai dataset umani disponibili.
Vai al post
> Tongyi DeepResearch dimostra così che l’open-source non significa rinuncia a
> performance di punta, ma può anzi incarnare una via diversa, fondata sulla
> generazione autonoma e controllata delle condizioni di apprendimento.
--------------------------------------------------------------------------------
E SE UN MODELLO POTESSE SVILUPPARE DA SOLO NUOVE STRATEGIE PER RISOLVERE
PROBLEMI COMPLESSI?
Un recente paper su Nature mostra come sia possibile ottenere questo risultato
utilizzando il modello DeepSeek-R1 come banco di prova. La chiave è il
reinforcement learning puro: invece di forzare il modello a imitare esempi umani
passo dopo passo, gli viene dato solo un premio se la risposta finale è
corretta.
I RISULTATI SONO NOTEVOLI
* Con questa tecnica, una versione iniziale chiamata DeepSeek-R1-Zero ha
imparato spontaneamente a produrre passaggi più lunghi, verificare i propri
risultati e correggersi in corso d’opera.
* In competizioni di matematica e coding ha superato perfino la media dei
concorrenti umani.
* Successivi perfezionamenti hanno reso il modello più leggibile, coerente
nelle lingue e più adatto a compiti generali.
DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning -
Nature
A new artificial intelligence model, DeepSeek-R1, is introduced, demonstrating
that the reasoning abilities of large language models can be incentivized
through pure reinforcement learning, removing the need for human-annotated
demonstrations.
NatureDaya Guo
Il messaggio del lavoro è chiaro: non serve guidare il modello con tracciati
umani dettagliati, ma bastano domande difficili, verificatori affidabili e
ricompense ben progettate. Capacità sofisticate emergono in modo naturale.
> Un passo avanti verso sistemi che sanno trovare autonomamente percorsi nuovi
> per affrontare sfide complesse.
--------------------------------------------------------------------------------
VAULTGEMMA: LLM CON PRIVACY DIFFERENZIALE
Google ha presentato VaultGemma: il LLM open-source più potente al mondo con
privacy differenziale.
Cosa significa? Lo vediamo in modo semplice...
Quando si addestra un modello di AI su testi come email, documenti o messaggi,
c'è il rischio che memorizzi frasi private.
La privacy differenziale risolve questo problema: durante l’addestramento, si
aggiunge un po’ di "rumore" ai dati per impedire che il modello ricordi
informazioni sensibili. In pratica, impara il concetto generale, ma non i
dettagli personali.
VaultGemma: LLM con privacy differenziale
VaultGemma è il primo modello open-source da 1 miliardo di parametri addestrato
completamente da zero con questa tecnica. Google ha sviluppato nuove regole per
trovare il giusto equilibrio tra privacy, prestazioni e potenza di calcolo.
Le sue performance sono solide.
* È paragonabile a modelli come GPT-2 (1.5 miliardi di parametri) su test noti
come HellaSwag, TriviaQA e altri.
* Non memorizza sequenze dei dati di addestramento.
* È stato rilasciato pubblicamente per aiutare la comunità a sviluppare IA più
sicure e rispettose della privacy.
Vai al progetto
> Un passo concreto verso un’intelligenza artificiale potente ma progettata fin
> dall’inizio per proteggere le persone.
--------------------------------------------------------------------------------
GEMMA 3N ON-DEVICE IN LOCALE
Nell'ultima versione di AI Edge Gallery di Google è possibile testare Gemma 3n
completamente on-device (in locale in uno smartphone), senza nessuna connessione
a Internet e scambio dati esterni.
Ora anche con elaborazione di file audio e immagini.
Negli esempi, carico un mio audio registrato e lo faccio tradurre al modello,
oppure lo interrogo sul contenuto di alcune immagini.
Gemma 3n on-device sul mio smartphone
> Solo una piccola dimostrazione, ma che indica una direzione abbastanza chiara.
--------------------------------------------------------------------------------
RISORSE PER FINE-TUNING
Un'unica repository con oltre 100 Notebook Colab già pronti per il fine-tuning
dei LLM (con tutte le guide)?
GitHub - unslothai/notebooks: 100+ Fine-tuning LLM Notebooks on Google Colab,
Kaggle, and more.
100+ Fine-tuning LLM Notebooks on Google Colab, Kaggle, and more. -
unslothai/notebooks
GitHubunslothai
È messa a disposizione da Unsloth AI.
--------------------------------------------------------------------------------
ELEVENLABS MUSIC
> L'evoluzione della generazione musicale potenziata dall'AI avanza, con
> ElevenLabs Music.
L'ho provato, e l'aspetto più interessante è che aumenta il controllo
sull'output.
ElevenLabs Music è uno strumento che permette di generare musica partendo da un
semplice prompt testuale, in qualità da studio.
I brani creati sono suddivisi in parti (intro, verse, chorus, drop, bridge,
ecc.), e ognuna di queste può essere modificata in ogni suo aspetto: lunghezza,
testo (se c'è la voce), caratteristiche, ecc.. Le modifiche avvengono attraverso
ulteriori prompt testuali e con le funzionalità dell'editor.
Nel mio test (nel video), inserisco un prompt testuale per creare un brano, e il
modello genera 3 versioni. Modifico lunghezza e testi di alcune parti.. e la
"magia" sta nel fatto che il modello rigenera il brano per mantenere la coerenza
delle diverse componenti.
Un test di ElevenLabs Music
Il livello di personalizzazione che si sta raggiungendo era impensabile fino a
poco tempo fa. A breve, probabilmente, si lavorerà in timeline multi-traccia,
con la possibilità di intervenire su ogni linea. Questo lo sta già realizzando
Suno nel Suno Studio.
> Ciliegina sulla torta: c'è anche un’API per integrarlo nei flussi di lavoro di
> prodotti o progetti creativi.
La generazione è praticamente istantanea e il risultato si adatta con precisione
al prompt, anche in termini di BPM, tonalità e intenzione emotiva.
Per provarlo
> Se non siamo ancora pronti all'idea di canzoni generate completamente con un
> modello di AI, pensiamo a quanto questi strumenti potranno supportare
> l'editing e la content creation.
--------------------------------------------------------------------------------
NUOVE FUNZIONALITÀ SU NOTEBOOKLM
Google ha rilasciato nuove funzionalità su NotebookLM.
* Le Audio Overview possono essere impostate con tagli di contenuto diversi
(es. Approfondimento, Dibattito, Critica). E per ogni taglio è possibile
scegliere la lunghezza del contenuto.
* Le Audio e Video Overview, possono essere generate in tutte le lingue, con la
selezione.
* L'aggiunta di fonti attraverso la ricerca online, si estende anche a Google
Drive (es. "slide sull'AI di Alessio").
Le novità di NotebookLM di Google
E ne sono in arrivo altre..
* La funzionalità Deep Research di Gemini, che permetterà agli utenti di
semplificare il processo di ricerca delle fonti e di importare contenuti
pertinenti direttamente nei notebook.
* La modalità "tutor", rivolta agli studenti. Questo suggerisce che Google
vuole espandere NotebookLM oltre le sue attuali funzionalità di appunti e
ricerca, trasformandolo in un assistente didattico più attivo.
> Google procede nel suo percorso per portare Gemini in tutti gli strumenti di
> produttività.
--------------------------------------------------------------------------------
L'AUDIO OVERVIEW SU GEMINI.. E NON SOLO
La chat di Gemini introduce (anche in Italia) l'Audio Overview.
Quando carichiamo un documento compare il bottone "genera overview audio", che
attua un'azione simile all'Audo Overview di NotebookLM: crea un mini podcast con
diversi host che raccontano il documento.
In alternativa, scrivendo nel campo della chat, è possibile continuare
l'interazione classica, e il bottone scompare.
Nel video, si può vedere (e sentire) un piccolo esempio di generazione.
L'Audio Overview su Gemini: un esempio
> Cosa manca? La possibilità di personalizzare l'overview per gestire il tipo di
> discussione.
..ANCHE PAGINE WEB, INFOGRAFICHE E QUIZ
Il nuovo menù di "Canvas", infatti, si è arricchito, permettendo anche la
creazione di pagine web, infografiche, e quiz. In pratica (quasi) tutte le
novità di NotebookLM sono anche su Gemini.
Nelle immagini si vedono degli esempi: le infografiche che crea il modello sono
davvero molto interessanti, precise e creative.
Le nuove funzionalità di Canvas su Gemini
Così come gli altri nuovi output, disponibili direttamente dalla chat di Gemini.
Una nota sul quiz interattivo: lo immagino applicato agli aspetti formativi, per
valutare la comprensione di uno o più contenuti. Recentemente ho dato come input
una presentazione e ho ottenuto il quiz di fine seminario per gli studenti.
--------------------------------------------------------------------------------
GEMINI PUÒ ELABORARE I FILE AUDIO? SÌ!
Inizialmente credevo che fosse soltanto un sistema che trascrive l'audio, e usa
la trascrizione come contesto per il LLM.
In realtà, è qualcosa di più: il modello descrive le caratteristiche delle voci,
elementi come il "piagnucolio", il timbro caldo e profondo, l'eloquio
rassicurante e pacato, l'intonazione ascendente, ecc..
Un esempio dell'elaborazione audio di Gemini 2.5 Pro
Alla fine, usando Gemini 2.5 Pro Image (Nano Banana), ho creato un'immagine che
rappresentasse l'audio. Nell'altro esempio, il modello riconosce la provenienza
dello speaker in base all'accento e alla cadenza.
> Dei semplici test che mettono in luce il livello di multimodalità al quale
> siamo già arrivati con i modelli di ultima generazione.
Se ci pensiamo, è qualcosa di straordinario: i modelli nativamente multimodali
segnano un cambio di paradigma. Non traducono più gli input in sequenze
separate, ma li trasformano in embedding che confluiscono in un unico spazio di
rappresentazione, dove testo, immagini, audio e altro possono essere elaborati
insieme.
--------------------------------------------------------------------------------
RILASCI DI NUOVI LLM
Alibaba ha presentato Qwen3-Max-Preview (Instruct), il modello più grande della
famiglia Qwen, con oltre 1 trilione di parametri.
È già disponibile su Qwen Chat e attraverso le API di Alibaba Cloud.
Dai benchmark si può notare come supera il miglior modello precedente
(Qwen3-235B-A22B-2507).
Qwen3-Max-Preview: le performance
Il modello permette prestazioni più elevate, conoscenza più ampia, migliori
capacità di conversazione e di seguire le istruzioni.
Anche Kimi presenta un nuovo aggiornamento, con Kimi K2-0905.
Per provarlo
Funzionalità di codifica migliorate, in particolare nello sviluppo di front-end
e nelle chiamate dei tool.
Kimi K2-0905: performance
Lunghezza del contesto estesa a 256k token.
Integrazione migliorata con vari scaffold di agenti (es. Claude Code).
Il modello su Hugging Face
--------------------------------------------------------------------------------
QWEN3-NEXT
Dopo aver presentato Qwen 3, che ho provato con soddisfazione in diversi test,
Alibaba presenta Qwen3-Next, un'evoluzione pensata per ridefinire l’efficienza
nell’addestramento e nell’inferenza dei LLM.
È distribuito come modello open source, con pesi pubblici e compatibilità ampia
con le principali toolchain. Questo conferma la volontà di contribuire in modo
concreto a un'AI trasparente, accessibile e realmente integrabile nei contesti
di sviluppo.
> Ho provato anche questa versione, su prompt dettagliati che normalmente uso su
> Gemini 2.5 Pro, e.. devo dire che sono rimasto molto colpito dagli output.
> Veloce, preciso, aderente.
Qwen3-Next: alcuni dettagli sul modello
Uno degli aspetti più rilevanti di Qwen3-Next è l'introduzione della struttura
QMoE (Qwen-Mixture of Experts), un sistema dinamico che seleziona in tempo reale
solo una parte degli “esperti” del modello per ogni input.
Questo meccanismo permette di mantenere elevate prestazioni con un consumo
energetico e computazionale significativamente ridotto, offrendo una soluzione
scalabile tanto per grandi deployment quanto per ambienti edge.
La qualità del pretraining multi-task, costruito su un corpus che include
scrittura, codice, ragionamento, matematica e traduzione, testimonia una
direzione precisa: costruire modelli generalisti, ma senza la superficialità dei
compromessi. L’allocazione dei pesi nei diversi task è gestita da uno schema di
ottimizzazione che mira a mantenere coerenza e profondità trasversale,
caratteristiche non sempre garantite dai LLM più generalisti.
In ambito benchmark, Qwen3-Next ha già mostrato risultati che lo pongono tra i
modelli più solidi del 2025: su MMLU, GSM8K, HumanEval e BBH, la versione da 72B
con architettura MoE compete e in alcuni casi supera modelli come GPT-4 e Claude
3, pur con un'efficienza computazionale superiore.
I modelli più piccoli, da 1.5B a 14B, mantengono prestazioni notevoli,
suggerendo una flessibilità d’impiego che abbraccia diversi casi d’uso
industriali e di ricerca.
Vai al post di Qwen
> Qwen3-Next non è solo un nuovo modello, ma rappresenta una visione: quella di
> un’AI capace di crescere non solo in potenza, ma in equilibrio tra efficacia,
> efficienza e adattabilità. Una traiettoria che guarda oltre la corsa alle
> dimensioni e punta alla maturità tecnica.
--------------------------------------------------------------------------------
UN'ANALOGIA NEL FUNZIONAMENTO DELL'INTELLIGENZA BIOLOGICA
Secondo Ilya Sutskever, l'approccio che guida lo sviluppo dei moderni sistemi di
AI (basato su un'unica, grande architettura generale) trova un'analogia nel
funzionamento dell'intelligenza biologica.
0:00
/1:30
1×
A sostegno di questa tesi, porta esempi dalla neuroscienza, come la capacità del
cervello di riorganizzarsi e funzionare con un solo emisfero dopo un intervento
in età infantile, o l'esperimento in cui la corteccia uditiva di un furetto ha
imparato a elaborare segnali visivi. Per Sutskever, questi casi suggeriscono che
il tessuto corticale non è un insieme di moduli rigidamente specializzati, ma un
substrato di apprendimento uniforme e adattabile.
> Questa idea, secondo lui, offre una spiegazione del perché un'unica, grande
> architettura neurale, se scalata con più dati e calcolo, possa sviluppare
> un'ampia gamma di capacità senza essere riprogettata per ogni compito
> specifico.
La visione, fornisce un quadro concettuale elegante e potente che collega
l'evoluzione biologica, la neuroscienza e la strategia di ricerca che ha
prodotto i modelli di AI più avanzati di oggi.
Ci dice che la ricerca di un "algoritmo di apprendimento universale" o di
un'"architettura generale" non è un'utopia, ma potrebbe essere il modo in cui
l'intelligenza, sia biologica che artificiale, funziona davvero. È una delle
visioni più ottimistiche e ambiziose nel campo dell'AI.
Il video completo
> Dal mio punto di vista, non basterà un'unica architettura neurale con più dati
> e calcolo. Serviranno nuove architetture.
--------------------------------------------------------------------------------
ARRIVEREMO A SISTEMI DI AI IN APPRENDIMENTO CONTINUO?
MoonshotAI, l'azienda che sviluppa Kimi, ha rilasciato un progetto open source
chiamato Checkpoint-engine, una tecnologia che consente di aggiornare i pesi nei
modelli LLM rapidamente e senza interrompere l’inferenza.
Questo middleware è in grado di aggiornare modelli da un trilione di parametri
(es. Kimi-K2) in circa 20 secondi su migliaia di GPU, grazie a una pipeline
ottimizzata e due strategie di aggiornamento: Broadcast, per ambienti
sincronizzati, e Peer-to-Peer, per cluster dinamici dove i nodi possono essere
aggiunti o riavviati senza influenzare il servizio.
L'infrastruttura si integra con vLLM, supporta la quantizzazione in FP8 e
consente il riutilizzo dei pesi tra istanze già attive. Tutto questo rende
possibile aggiornamenti incrementali, anche frequenti, come quelli richiesti da
fine-tuning leggeri o reinforcement learning in produzione.
GitHub - MoonshotAI/checkpoint-engine: Checkpoint-engine is a simple middleware
to update model weights in LLM inference engines
Checkpoint-engine is a simple middleware to update model weights in LLM
inference engines - MoonshotAI/checkpoint-engine
GitHubMoonshotAI
Checkpoint-engine non implementa direttamente l’apprendimento continuo, ma
fornisce le fondamenta tecniche per renderlo realizzabile: gestione efficiente
dei pesi, scalabilità del cluster e aggiornamenti senza downtime.
> Un passo concreto verso sistemi di AI capaci di evolversi nel tempo.
--------------------------------------------------------------------------------
SPIKINGBRAIN
SpikingBrain è una nuova famiglia di modelli linguistici di grandi dimensioni
ispirati al funzionamento del cervello.
Nasce per superare i limiti dei Transformer tradizionali, che richiedono calcoli
quadratici sulle sequenze, accumulano memoria in modo lineare e dipendono quasi
esclusivamente dalle GPU NVIDIA.
SpikingBrain: il paper
La sua idea centrale è introdurre neuroni spiking: attivazioni convertite in
eventi discreti e sparsi, simili agli impulsi dei neuroni biologici. In questo
modo il modello resta silenzioso quando non serve, riduce il consumo energetico
e gestisce testi lunghissimi senza che il costo esploda.
L’architettura combina varianti lineari e locali dell’attenzione, integra la
specializzazione modulare con il Mixture-of-Experts, e porta la la selettività
su più livelli, dal singolo neurone all’intera rete.
Il risultato sono due modelli: SpikingBrain-7B, piccolo ed estremamente veloce,
che su sequenze di milioni di token ottiene oltre cento volte la rapidità di un
Transformer standard; e SpikingBrain-76B, più grande e competitivo con sistemi
come Llama2 e Mixtral. Entrambi addestrati su cluster MetaX, senza ricorrere a
NVIDIA.
Vai al paper
> SpikingBrain mostra che l’evoluzione dell’intelligenza artificiale non passa
> solo dalla scala, ma anche dallo studio dell'architettura: reti più
> efficienti, modulari e capaci di attivarsi solo quando serve.
--------------------------------------------------------------------------------
QUANTO CONTA CHE L'AI NON VIVA "NEL CLOUD", MA DIRETTAMENTE NEI NOSTRI
DISPOSITIVI?
Apple ha appena presentato FastVLM e MobileCLIP2, modelli vision-language
progettati per funzionare on-device, senza passaggi su server remoti.
Dal punto di vista ingegneristico, i numeri parlano chiaro: fino a 85 volte più
veloci, 3,4 volte più compatti rispetto alle soluzioni precedenti, capaci di
generare didascalie in tempo reale anche da flussi video, direttamente nel
browser.
0:00
/1:00
1×
Una demo di FastVLM di Apple
Nessuna infrastruttura esterna, nessuna latenza, nessuna esposizione dei dati
sensibili.
Per provarlo
Ma il punto non è solo l’efficienza. È la narrativa che si va costruendo: un’IA
che non è un servizio distante, impersonale e centralizzato, bensì un’estensione
locale, integrata, privata. Un’IA che non “vive altrove”, ma che appartiene
all’utente e al suo dispositivo.
Vai al paper
> Si tratta forse dell'inizio di un percorso che tenta di mascherare una lacuna
> (sviluppo di sistemi basati sull'AI) con la promozione di un'AI personale,
> privata e senza soluzione di continuità? Probabilmente sì, anche se i rumors
> suggeriscono un interesse di Apple per acquisizioni di brand come Mistral e
> Perplexity.
--------------------------------------------------------------------------------
L'AI POTRÀ SOSTITUIRE I MATEMATICI?
> Un paper pone riflessioni interessanti.
> Io aggiungo: ..ma forse sono le aspettative ad essere sbagliate.
Nel racconto degli autori, lavorare con GPT-5 è stato come affiancarsi a un
giovane ricercatore alle prime armi: capace di seguire ragionamenti, di proporre
combinazioni di idee già note, persino di suggerire direzioni possibili.
Ma ogni passaggio richiedeva attenzione, verifiche, correzioni puntuali.
Senza supervisione, l’illusione di rigore rischiava di nascondere errori.
Questa esperienza mostra che l’AI eccelle nella ricerca incrementale:
raffinamenti, piccoli avanzamenti, collegamenti tra risultati già esistenti. È
qui che può risparmiare tempo, agire come un assistente instancabile. Non
inaugura prospettive radicalmente nuove, ma può portare a contributi originali,
anche se non rivoluzionari.
L'AI potrà sostituire i matematici? - Un paper interessante
Il rischio è duplice. Da un lato, un’inflazione di risultati tecnicamente
corretti ma poco significativi, che potrebbe soffocare la visibilità delle idee
davvero innovative.
Dall’altro, un impatto sulla formazione dei giovani: se un dottorando si affida
troppo presto a uno strumento che fornisce risposte immediate, rischia di
perdere il contatto con quel processo di errori, tentativi ed esplorazioni che è
il cuore stesso del diventare matematici. Il rischio è crescere ricercatori che
sanno leggere risposte, ma non costruire domande.
Vai al paper
Qui emergono anche i limiti del paper. I risultati sono originali ma non
rivoluzionari: estensioni incrementali più che breakthrough. L’AI è usata in
modo strumentale, come un esecutore da guidare passo dopo passo, senza esplorare
nuove forme di collaborazione uomo-macchina. E lo sguardo rimane difensivo: si
sottolineano i rischi, ma poco si immaginano scenari positivi in cui l’AI
potrebbe stimolare creatività e aprire campi oggi inaccessibili.
Gli autori restano cauti: i progressi sono rapidi, sorprendenti e meritano
attenzione.
> Ma più che immaginare un rimpiazzo dei matematici, bisognerebbe forse
> interrogarsi su come preservare l’essenza della ricerca umana in un paesaggio
> che rischia di essere sovraccaricato di risultati senza anima.
E, soprattutto, su come valorizzare l’AI per ciò che già sa fare oggi:
accelerare, stimolare, supportare — e questo è già tantissimo.
--------------------------------------------------------------------------------
- GRAZIE -
Se hai apprezzato il contenuto, puoi
contribuire al progetto con una donazione 🙂
ISCRIVITI ALLA NEWSLETTER
Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su
tematiche relative all'intelligenza artificiale.
Iscriviti alla Newsletter
Email sent! Check your inbox to complete your signup.
Gratuita. No Spam. Puoi disiscriverti quando vuoi.
Consulta la privacy policy.
> Buon aggiornamento, e buone riflessioni..
--------------------------------------------------------------------------------
GEMINI 2.5 FLASH IMAGE (AKA NANO BANANA)
Il modello "nano-banana" non è più un mistero. Il nome ufficiale è Gemini 2.5
Flash Image, ed è un modello di Google. L'ho provato.
Gemini 2.5 Flash Image: test su AI Studio
SUBITO DUE CONSIDERAZIONI
1. Questo modello dimostra che le applicazioni commerciali basate su immagini
generate da semplici prompt multimodali sono sempre più vicine (chi si
occupa di e-commerce, può iniziare a pensare alle potenziali automazioni).
2. Si inizia a scorgere la direzione dell'editing rapido delle immagini,
integrabile in ogni applicazione, soprattutto su dispositivi mobile (es.
l'editing vocale).
Il nuovo modello generativo è accessibile via API, Google AI Studio, Vertex AI e
Chat di Gemini.
Gemini 2.5 Flash Image: test su Gemini Chat
Non si limita a generare immagini da zero: è un motore completo per generazione,
modifica, fusione e personalizzazione di immagini con prompt testuali,
combinazioni multimodali e template riutilizzabili.
La qualità visiva è migliorata in modo evidente rispetto alla generazione nativa
introdotta con Gemini 2.0 Flash.
E in più, le funzionalità non sono solo più precise: sono più utili.
* Coerenza visiva: è possibile mantenere un soggetto identico in pose diverse,
ambienti diversi, o in materiali di brand coerenti. È uno degli ostacoli
principali per le app creative, ora molto più gestibile.
* Editing mirato: basta un prompt per rimuovere una persona, sfocare lo sfondo,
cambiare la posa di un soggetto, ricolorare un’immagine in bianco e nero.
* Conoscenza del mondo: Gemini 2.5 integra comprensione semantica reale. Riesce
a interpretare disegni a mano libera, rispondere a prompt educativi e
applicare modifiche complesse senza dover specificare ogni dettaglio.
* Fusione di immagini multiple: è possibile fondere oggetti in scene nuove,
cambiare lo stile di una stanza con una sola istruzione, o combinare più
immagini per crearne una nuova, coerente e fotorealistica.
Il costo è competitivo, e la velocità è impressionante. Nei test che ho fatto,
il modello ha generato gli output in pochi secondi.
Grazie alla sezione "Build" di AI Studio, è possibile creare delle applicazioni
basate sul modello attraverso istruzioni in linguaggio naturale. Nelle immagini
si vedono alcuni esempi.
Un esempio di applicazione basata sul modello
Ogni immagine generata viene marcata con SynthID, un watermark digitale
invisibile, che garantisce la tracciabilità senza alterare l’estetica.
Google dichiara che sta continuando a lavorare su:
* miglioramento dei testi lunghi dentro alle immagini,
* coerenza visiva su immagini complesse,
* accuratezza nei dettagli visivi.
> È il modello che mi ha impressionato di più? Sì. Non tanto per la qualità
> nella generazione di nuove immagini, ma per la coerenza e l'aderenza alle
> istruzioni. È questa la vera sfida, perché è la barriera per l'utilizzo
> commerciale.
--------------------------------------------------------------------------------
COME SI SCRIVONO I PROMPT PER GEMINI 2.5 FLASH IMAGE?
Google ha rilasciato alcune interessanti linee guida per ottenere immagini più
accurate e controllate con il suo modello generativo.
Generazione di immagini con Gemini (alias Nano Banana) | Gemini API | Google AI
for Developers
Iniziare a generare immagini con l’API Gemini
Google AI for Developers
* Il primo principio da tenere a mente è semplice: non usare elenchi di parole
chiave, ma scrivere descrizioni narrative.
* Un prompt efficace racconta una scena, con contesto, tono e dettagli visivi.
Questo approccio sfrutta la profonda comprensione del linguaggio naturale da
parte del modello.
* Per immagini fotorealistiche, è utile pensare come un fotografo: specificare
angolazione, tipo di obiettivo, illuminazione e atmosfera.
* Per adesivi o illustrazioni stilizzate, bisogna indicare lo stile visivo, la
palette cromatica e se si desidera uno sfondo trasparente.
* Quando si vuole inserire testo nell'immagine (come in un logo), è importante
descrivere font, layout e tono grafico con precisione.
* Il modello risponde bene anche a prompt iterativi: si può iniziare con una
bozza generale e poi affinare l'immagine in più passaggi, come in una
conversazione.
* Altre buone pratiche includono la suddivisione in istruzioni sequenziali per
scene complesse, l’uso di linguaggio fotografico per la composizione e la
descrizione positiva di ciò che si desidera (anziché negare ciò che non si
vuole).
Per approfonfire
> In sintesi, più il prompt è ricco e intenzionale, migliore sarà il risultato.
> Scrivere per Gemini non significa solo dare comandi, ma progettare visivamente
> un’idea attraverso il linguaggio.
--------------------------------------------------------------------------------
VEO 3 PROMPT ASSISTANT: UNA NUOVA VERSIONE
In molti stanno usando "Veo 3 Prompt Assistant", il mio GPT dedicato alla
generazione di prompt strutturati per Veo3, e sto ricevendo diversi feedback e
recensioni. Per ringraziare tutti, ho pubblicato la nuova versione: potenziata e
con nuove funzionalità.
Veo 3 Prompt Assistant: nuova versione
Per provarlo..
ChatGPT - Veo 3 Prompt Assistant
A conversational AI system that listens, learns, and challenges
ChatGPT
Oppure basta cercare "Veo 3 Prompt Assistant" nella sezione GPT di ChatGPT.
LE NOVITÀ
* Il system prompt dell'agente è stato reso più robusto.
* Usa un nuovo archivio di esempi, per addestrare il sistema ad essere più
preciso nel richiedere le informazioni all'utente su scenari specifici, e per
inserire nei prompt dettagli di qualità superiore.
* Nelle richieste delle caratteristiche del video, l'applicazione si adatta
all'expertise dell'utente, in modo che chiunque (con profondità diverse)
possa usare l'agente.
* Attraverso il bottone "Inquadrature diverse dello stesso soggetto", si avvia
un processo guidato nella creazione di prompt specifici per diverse scene,
mantenendo la coerenza degli elementi descritti.
* Dopo aver generato il prompt, l'agente può creare l'immagine del fotogramma
chiave per usare un prompt multimodale su Veo 3 (image-to-video). L'immagine
è estremamente coerente con il prompt per il video, perché, per crearla,
viene usato il contesto della conversazione.
GPT-image-1 non può generare immagini con proporzioni 16:9, ma l'agente, la
ridimensiona automaticamente usando uno script Python, e successivamente la
fa scaricare.
ALCUNI ESEMPI
Test di Veo3 Fast per la generazione di una scena di rally con diverse
inquadrature: panoramica da bordo pista, dall'interno con pilota e navigatore,
ripresa aerea dal drone, frontale dalla pista.
I prompt sono stati realizzati con "Veo 3 Prompt Assistant", usando la
funzionalità "Inquadrature diverse dello stesso soggetto".
Le 4 clip generate, sono state montate in sequenza. Infine il video è stato
elaborato con il video upscaler di Topaz Labs per aumentare la risoluzione.
Video generato con Veo 3 Prompt Assistant + Veo 3 Fast
> È perfetto? No. Ci sono alcuni dettagli non perfettamente coerenti. Ma, ancora
> una volta, si possono vedere miglioramenti importanti.
Un altro esempio di video basato su due clip generate con Veo3 su Flow, ed
esportato in Full HD, con prompt creati attraverso la funzionalità "Inquadrature
diverse dello stesso soggetto" di "Veo 3 Prompt Assistant".
> La funzionalità permette di ottenere istruzioni estremamente descrittive, in
> modo che le scene che ne derivano siano coerenti.
--------------------------------------------------------------------------------
LE API DI VEO 3
Recentemente Google ha messo a disposizione le API di Veo 3, con la possibilità
di creare video a 720p con audio nativo, text-to-video e image-to-video.
Con poche righe di codice si possono ottenere dei risultati molto interessanti.
Video generato attraverso le API di Veo 3
Eseguendo il Colab che segue, ho generato questo video (da notare che non ha il
watermark "Veo").
Vai al Colab
Basta salvare una copia del Colab, impostare l'API Key di Gemini come parametro,
ed eseguirlo. Nel Colab è implementato anche il salvataggio del file MP4 (che
non c'è negli esempi della documentazione).
Per creare il prompt ottimizzato ho usato un GPT costruito ad hoc:
ChatGPT - Veo 3 Prompt Assistant
A conversational AI system that listens, learns, and challenges
ChatGPT
Quella che segue, è la documentazione dell'API di Veo 3.
Vai alla documentazione
--------------------------------------------------------------------------------
COMET: IL BROWSER AI DI PERPLEXITY
> Si tratta di un progetto interessante? L'ho provato.
Comet: il browser AI di Perplexity
Prima considerazione: avere l'agente che compie le azioni online integrato
direttamente in un browser, fa la differenza a livello di UX.
Non solo.. mentre molte piattaforme bloccano le azioni di sistemi come Agent
Mode di ChatGPT (servizi remoti facilmente riconoscibili), su Comet, essendo
fisicamente il browser automatizzato da un agente, questo non avviene.
Infatti, come si vede negli esempi, chiedo all'agente di acquistare su Amazon un
prodotto con un budget di riferimento, valutando anche le recensioni online. Il
sistema mi mette davanti al carrello pronto, senza problemi.
Comet di Perplexity su Amazon
Tutto procede perfettamente anche se non chiedo esplicitamente di acquistare su
Amazon: l'automazione fa ricerche, si muove negli e-commerce, compie azioni e
prepara tutto per l'acquisto.
> Nei siti web, l'usabilità del frontend, la cura dei dati e dei contenuti
> (rilevanza contestuale) non sono mai stati elementi così importanti: un AI
> agent non è ancora abile come un utente esperto.
Il sistema interagisce con pagine web e con servizi come Calendar.. dalla pagina
di un evento chiedo all'agente di bloccarmi lo slot nel calendario, e di
acquistare il volo per la trasferta.
Interagisce con Gmail.. chiedo di preparare mail con sintesi di documenti, ed
esegue il task senza intoppi.
Mi faccio pianificare anche una vacanza, con location e volo.. e, anche in
questo caso, ottengo una soluzione che soddisfa le richieste.
Comet di Perplexity: l'interazione con pagine web e servizi
Nel seguente video, chiedo all'agente di fare delle ricerche su Google, ChatGPT
e Perplexity e di analizzare le risposte, verificando la presenza di una fonte
specifica.
Il sistema agisce autonomamente (nel video si vede tutta l'interazione, ma può
lavorare in background) e alla fine crea una tabella di riepilogo delle
informazioni.
> Molto interessante il fatto che non esegua le operazioni in sequenza, ma che
> l'agente organizzi le operazioni parallelamente, su task diversi.
Un esempio di automazione usando Comet di Perplexity
Ho fatto davvero tanti test. E questi sono alcuni pensieri finali..
1. Davvero un grande lavoro da parte di Perplexity. Uno strumento molto
interessante. Ma torniamo al tema dell'integrazione negli ecosistemi: se
Google integrasse tutto questo su Chrome (sfruttando il Progetto Mariner)..
sentiremmo ancora parlare di Comet?
2. Chiaro il motivo per cui Perplexity tenta di influenzare l'antitrust sulla
questione che coinvolge Alphabet e Chrome?
3. Chiaro il motivo per il quale si vociferava che OpenAI starebbe ragionando
su un browser, e, a sua volta, sarà interessata a Chrome se verrà messo in
vendita?
> Lo dico da molti anni: il browser sarà l'unico software di cui avremo bisogno
> nei nostri dispositivi.
--------------------------------------------------------------------------------
GPT5: RIFLESSIONI, RIEPILOGO, TEST.. E AGI?
Ho scritto alcune considerazioni sull'atteso rilascio di OpenAI.
GPT-5: riflessioni, riepilogo, test.. e AGI?
GPT-5 di OpenAI segna un passo solido ma non rivoluzionario verso l’AGI: meno
allucinazioni, più ragionamento, nuove funzioni e prezzi competitivi. Progresso
importante, ma la vera svolta richiederà architetture ibride.
Alessio PomaroAlessio Pomaro
> GPT-5 is a significant step along the path to AGI…
> a model that is generally intelligent
Così Sam Altman introduce la live di presentazione del modello. Nel momento in
cui ha finito la frase, ho avuto una forte tentazione di stoppare lo streaming..
ma mi sono sforzato di proseguire.
> A valle dell’evento, il mio bilancio è questo: GPT-5 è un major update solido
> ma non di rottura.
Per approfondire
--------------------------------------------------------------------------------
UNA GUIDA AL PROMPTING PER GPT-5
> OpenAI ha pubblicato una guida al prompting per GPT-5
Una guida al prompting per GPT-5
Il primo aspetto interessante, come immaginavo è la continuazione del percorso
iniziato con la versione 4.1: GPT-5 viene presentato come sensibile e preciso
nell’interpretazione delle istruzioni. Anche piccole ambiguità o contraddizioni
nel prompt possono influenzarne il comportamento in modo significativo. Questo
richiede un'attenta progettazione dei prompt: ogni istruzione deve essere
chiara, coerente e priva di conflitti. La qualità del risultato, con GPT-5, è
strettamente legata alla qualità del prompt.
Un altro punto chiave è la gestione del comportamento agentico. GPT-5 può
operare come un agente autonomo, capace di prendere decisioni e portare a
termine compiti multi-step. L’utente ha il controllo su quanto il modello debba
essere proattivo o attendista, anche attraverso parametri come
"reasoning_effort", che regola la profondità del ragionamento, o "verbosity",
che influenza la lunghezza della risposta finale.
In ambito sviluppo software, il modello si distingue per la capacità di
comprendere, modificare e generare codice in modo contestualizzato. È efficace
sia nel refactoring su progetti esistenti, sia nella generazione completa di
nuove applicazioni, soprattutto se guidato da prompt che ne definiscano stile,
struttura e obiettivi.
La guida consiglia inoltre l’uso di “tool preambles”, ovvero istruzioni iniziali
che aiutano il modello a pianificare le sue azioni e a comunicarle passo passo,
migliorando l’esperienza collaborativa. E mostra come team come Cursor abbiano
ottenuto risultati notevoli semplicemente ottimizzando i propri prompt in modo
iterativo, fino a usarlo come meta-modello per migliorare sé stesso.
Vai alla guida
> GPT-5, insomma, va guidato con metodo. Progettare un buon prompt è ancora
> parte integrante del design di un sistema AI efficace.
--------------------------------------------------------------------------------
GPT-5 FOR CODING
OpenAI ha condiviso un documento, intitolato "GPT-5 for Coding": una mini-guida
con suggerimenti pratici per ottenere i migliori risultati dal nuovo modello.
GPT-5 for Coding
Una sintesi dei concetti con qualche commento:
1. Sii preciso ed evita informazioni contrastanti. GPT-5 è molto abile a
seguire le istruzioni: quindi niente comandi vaghi o contraddittori.
Chiarezza e coerenza sono fondamentali, in particolare nei file di
configurazione come .cursor/rules o AGENTS.md.
La linea di sviluppo resta chiara: modelli sempre più precisi e aderenti
alle istruzioni.
2. Usa il giusto livello di ragionamento. Il modello ragiona sempre. Per
compiti complessi imposta un livello alto; se tende a complicare compiti
semplici (“overthinking”), specifica un livello medio o basso per ottenere
risposte più dirette.
3. Struttura le istruzioni con una sintassi tipo XML. Per dare più contesto
(es. linee guida di programmazione), tag come
<code_editing_rules>...</code_editing_rules> risultano molto efficaci.
È una tecnica che uso da tempo in ogni #prompt e continua a funzionare.
4. Evita un linguaggio troppo rigido o imperativo. Comandi perentori come “Sii
ESAUSTIVO” o “Assicurati di avere il QUADRO COMPLETO” possono essere
interpretati alla lettera e generare eccessi (es. troppe chiamate a
strumenti esterni).
Se le istruzioni sono chiare e coerenti, non lo considero un punto critico.
5. Lascia spazio alla pianificazione e all’autoriflessione. Per compiti ampi
(ad esempio creare un’app da zero), chiedi al modello di “riflettere” prima
di agire: definire una rubrica interna con i criteri di successo, poi
iterare per produrre una soluzione che li soddisfi, e solo infine mostrare
il risultato.
Nei task più complessi faccio produrre un piano d’azione e pensiero in
un’area : ottima pratica.
6. Modula l’“eagerness” dell’agente di coding. Di default, GPT-5 è scrupoloso
nella raccolta di informazioni. Dal prompt puoi guidarlo: quando
approfondire, quando chiedere conferma, quando procedere con ipotesi
ragionevoli in autonomia.
Per approfondire
--------------------------------------------------------------------------------
CLAUDE OPUS 4.1
Mentre OpenAI lancia GPT-5, Anthropic rende disponibile Claude Opus 4.1, e segna
un salto di qualità nell'AI per lo sviluppo software e compiti agentici.
Con un punteggio del 74,5% su SWE-bench Verified, migliora notevolmente nel
refactoring multi-file e nell’individuare correzioni precise all’interno di
grandi basi di codice, riducendo modifiche superflue e bug.
Claude Opus 4.1: performance
Diverse aziende, tra cui GitHub e Rakuten, hanno evidenziato miglioramenti
concreti rispetto alla versione precedente, in particolare nella gestione del
codice in scenari reali. Windsurf ha registrato un progresso di una deviazione
standard nelle performance su benchmark per sviluppatori junior, equiparabile al
salto tra Sonnet 3.7 e Sonnet 4.
Il modello mantiene il prezzo di Opus 4, è disponibile via API e sulle
principali piattaforme cloud, e supporta “extended thinking” fino a 64K token in
contesti che lo richiedono.
Vai al post
> Un aggiornamento consigliato per chi lavora con Claude in ambiti avanzati di
> sviluppo, analisi e automazione.
--------------------------------------------------------------------------------
DEEPSEEK V3.1
La nuova versione DeepSeek-V3.1 segna un passaggio significativo nello sviluppo
di modelli linguistici orientati agli agenti.
Al centro di questo aggiornamento vi è l’introduzione dell’hybrid inference, una
modalità che consente di utilizzare lo stesso modello in due configurazioni:
“thinking”, con un ragionamento passo a passo adatto a compiti complessi e
multi-step, e “non-thinking”, pensata per risposte più rapide e dirette. Questa
duplice natura rappresenta un tentativo concreto di bilanciare velocità ed
elaborazione profonda, in funzione del contesto applicativo.
Vai alla documentazione
L’aggiornamento delle API introduce due endpoint distinti, "deepseek-chat" e
"deepseek-reasoner", entrambi con contesto a 128K token. Viene inoltre esteso il
supporto a standard già diffusi come il formato Anthropic API e al function
calling rigoroso, anche se in fase beta, con l’obiettivo di offrire una maggiore
interoperabilità e un’esperienza di integrazione più stabile.
DeepSeek V3.1: le performance
Il modello mostra miglioramenti sostanziali nelle prestazioni: benchmark come
SWE e Terminal-Bench evidenziano progressi nella risoluzione di compiti di
programmazione e ambienti a riga di comando, mentre il ragionamento multi-step
appare più efficiente e meglio strutturato. I token in output, ad esempio, sono
molto inferiori rispetto al modello R1, con performance superiori.
Questi progressi sono il risultato di un’estensione dell’addestramento con 840
miliardi di token, pensata per ampliare la gestione dei contesti lunghi e
consolidare la robustezza del modello.
Un aspetto centrale dell’uscita è la dimensione open source. DeepSeek ha reso
disponibili su HuggingFace sia i pesi della versione base sia quelli
ottimizzati, accompagnati da un nuovo tokenizer e da un template di chat
aggiornato.
Provalo subito
> Questa scelta rafforza l’idea di un modello aperto non soltanto nell’utilizzo,
> ma anche nella possibilità di studio, riuso e integrazione da parte della
> comunità di ricerca e sviluppo.
--------------------------------------------------------------------------------
1000 RIGHE DI CODICE O UN PROMPT?
> Ho scritto un prompt invece di 1000 righe di codice. Com'è andata?
La settimana scorsa dovevo sviluppare una modifica abbastanza corposa in un
sistema che sfrutta degli agenti AI per automatizzare dei processi.
Ho fatto una prova: invece di sviluppare le implementazioni, ho investito un'ora
di tempo per scrivere un prompt perfetto da dare in input a un LLM (Gemini 2.5
Pro). L'obiettivo: istruire un modello di AI a sviluppare al posto mio.
Il prompt descriveva dettagliatamente le logiche della modifica, e anche
direttive su come implementarla.
Risultato: il codice generato è risultato subito funzionante, alla prima
esecuzione. Dopo test approfonditi, ho apportato solo alcune ottimizzazioni per
gestire qualche caso limite.
Possiamo dire che, nel mio caso, si è spostato il focus, portandolo solo alla
progettazione: l'implementazione è stata effettivamente realizzata dall'AI.
> Ora il tema è: questa dinamica è per tutti? Secondo me, NO. Perché, per
> ottenere un'implementazione perfetta, servono istituzioni perfette, degne di
> un developer (o un analista). Che però deve anche saper creare un prompt
> adeguato.
> Quindi, hard skill sì, ma per accelerare con l'AI servono anche conoscenze
> trasversali.
Chi non è un developer, sarebbe riuscito a portare a termine lo stesso task?
Secondo me, NO. Ma se mi sbagliassi, di certo non con la stessa efficienza.
> L'AI può permettere di efficientare e rivoluzionare determinate dinamiche:
> molti paradigmi stanno cambiando, e altri cambieranno. Ma nei processi più
> verticali, le competenze contano sempre tantissimo.
--------------------------------------------------------------------------------
CONTEXT ENGINEERING
Anche Google, nella sua documentazione inizia a parlare (finalmente) di "context
engineering", facendo riferimento a un post dal titolo "The New Skill in AI is
Not Prompting, It's Context Engineering".
The New Skill in AI is Not Prompting, It’s Context Engineering
Context Engineering is the new skill in AI. It is about providing the right
information and tools, in the right format, at the right time.
Philipp SchmidPhilipp Schmid
Il contenuto afferma che il vero potenziale dell’AI oggi non si sblocca
scrivendo prompt migliori, ma ingegnerizzando il contesto.
> Ma questo non riguarda l'OGGI.. è SEMPRE stato questo il nocciolo del
> funzionamento di questi sistemi, da quando esistono i LLM!
Nelle lezioni che tengo nell'Accademia di Search On Media Group, nelle
università, e in altri ambiti, condivido questo aspetto da almeno due anni. Lo
dico per sottolineare il fatto che le uniche novità di oggi sono i termini,
nuove tecniche e nuovi protocolli, ma il concetto alla base rimane lo stesso.
Comunque, è bene che se ne parli, perché è davvero importante comprenderlo.
> Non basta "dire a un modello cosa fare". Bisogna "preparare il terreno":
> fornire le informazioni, gli strumenti e il formato giusto, nel momento
> giusto. Questo è il cuore del Context Engineering.
OGNI AGENTE AI HA A BISOGNO DI..
* istruzioni chiare (prompt di sistema),
* memoria delle interazioni precedenti (non necessariamente),
* accesso a dati esterni,
* strumenti da poter usare (funzioni, API, server MCP),
* output strutturato.
Il fallimento, spesso, non è del modello, ma del contesto. E costruire agenti
intelligenti significa progettare sistemi dinamici che sappiano raccogliere e
organizzare le informazioni necessarie per ogni singolo compito.
Vai al post
> Il Context Engineering è una competenza trasversale: tecnica, progettuale,
> strategica. È qui che si gioca la vera differenza tra una demo e un prodotto
> affidabile.
--------------------------------------------------------------------------------
GEMINI 2.5 DEEP THINK
Google ha rilasciato Gemini 2.5 Deep Think per gli abbonati Google AI Ultra,
portando un nuovo livello di "reasoning" e problem-solving nell’intelligenza
artificiale di Google.
Gemini 2.5 Deep Think
> Come stiamo vedendo da un po' di tempo ormai, la spinta sull'architettura è
> una delle chiavi determinanti per l'aumento delle performance dei LLM.
Deep Think si basa su tecniche di pensiero parallelo e tempi di ragionamento
estesi, permettendo al modello di esplorare molteplici soluzioni
contemporaneamente prima di generare una risposta. Questo approccio ha già
portato il modello a ottenere risultati di eccellenza in competizioni
matematiche internazionali e su benchmark di coding, scienza e conoscenza.
Oltre alle sue capacità di risolvere problemi complessi, Deep Think si distingue
per l’efficacia nel design iterativo, lo sviluppo di algoritmi e la ricerca
scientifica avanzata.
Vai al post
Google afferma di mantenere centrale l'attenzione verso la sicurezza e
l’affidabilità, con valutazioni continue sui rischi e trasparenza garantita
dalla model card del modello.
--------------------------------------------------------------------------------
ESSERE O NON ESSERE SU SHOPIFY?
> Leggere bene: c'è confusione online.
Shopify sta per potenziare lo shopping tramite AI con "Agentic Commerce", un
sistema che integra l'acquisto di prodotti direttamente all'interno di servizi
basati su agenti.
Disambiguazione: i server MCP dei singoli e-commerce non hanno nulla a che
vedere con questa novità.
Agentic Commerce collega gli agenti a un catalogo globale di centinaia di
milioni di prodotti, permettendo la gestione di un carrello universale e
un'esperienza di checkout nativa. In questo modo, la piattaforma che ospita
l'agente può aggiungere funzionalità di e-commerce senza doversi occupare della
gestione diretta dell'inventario, dei pagamenti o della conformità normativa.
Agentic Commerce di Shopify
IL SERVIZIO SI BASA SU TRE STRUMENTI CHIAVE
* Shopify Catalog: fornisce agli agenti l'accesso per la ricerca su centinaia
di milioni di prodotti, con dati su inventario e prezzi. I prodotti con lo
stesso SKU vengono raggruppati sotto un "Universal Product ID". I risultati
della ricerca vengono forniti tramite componenti web pre-costruiti che
possono essere personalizzati graficamente e per gestire strutture come
bundle, abbonamenti e varianti di prodotto. Ogni interazione dell'utente con
questi componenti (es. un clic) viene comunicata all'agente come un "intent",
assicurando che l'agente sia sempre consapevole e in controllo del flusso
interattivo.
* Universal Cart: un carrello che permette di aggregare articoli provenienti da
merchant diversi. Può persistere attraverso più sessioni di conversazione,
consentendo all'agente di gestire compiti di acquisto complessi che si
sviluppano nel tempo.
* Checkout Kit: permette di integrare il flusso di pagamento direttamente
nell'agente, caricando il checkout del singolo merchant con tutte le sue
personalizzazioni, ma applicando il branding dell'agente per un'esperienza
nativa e coerente.
Un esempio concreto: un servizio di consulenza per il running integra un agente
che, su richiesta dell’utente, cerca “scarpe da corsa ammortizzate” e “pantaloni
tecnici leggeri”. L’agente recupera i risultati dal catalogo Shopify e li
presenta in schede interattive. L'utente può aggiungere le scarpe di un negozio
e i pantaloni di un altro nello stesso carrello. Infine, completa i due acquisti
attraverso un unico flusso di checkout integrato, che mantiene l'aspetto
dell'agente pur processando gli ordini con i singoli merchant.
Vai alla documentazione
> Quanto conterà ottimizzare le schede prodotto per migliorare la pertinenza
> semantica con le query degli utenti? La visibilità nei nuovi canali di ricerca
> e acquisto passerà anche per sistemi di questo tipo?
--------------------------------------------------------------------------------
PERTINENZA E RILEVANZA
In ambito di Search (es. motori di ricerca o sistemi RAG) si parla spesso di
"pertinenza".
Negli ultimi mesi ho studiato l'argomento, e condivido alcuni spunti che mi
hanno affascinato. Credo che comprendere questi concetti, proprio ora che la
ricerca si sta espandendo ed evolve grazie all’AI, sia davvero fondamentale.
Terminologia. Se intendiamo misurare la capacità di un testo di rispondere al
bisogno informativo espresso da una query, il termine corretto è "rilevanza
contestuale" (contextual relevance). "Pertinenza" indica invece soltanto
un'attinenza semantica all’argomento.
Modelli d'AI diversi possono misurare la rilevanza contestuale in modo diverso.
I "Reranker" sono modelli dedicati a questa misurazione. Nei miei test (vedi
immagini) confronto il coefficiente di rilevanza di un testo per una query
misurato con due reranker. Il secondo è quello di Google (semantic-ranker,
disponibile su Vertex AI, Google Cloud).
Rilevanza contestuale misurata da due diversi Reranker
Come si vede, l’indice di rilevanza è diverso, pur essendo i testi molto simili.
Qual è quello giusto? In realtà non esiste un dato giusto o sbagliato di
rilevanza…
> è un po’ come chiedere a due esperti diversi, entrambi estremamente competenti
> ma con esperienze differenti, di classificare gli stessi testi.
Questo dipende dal fatto che i modelli hanno architetture diverse (ad esempio,
alcuni usano la logica dei cross-encoder, che leggono query e documento insieme
e ne valutano ogni interazione parola per parola, con grande precisione), e sono
addestrati su dataset diversi che li portano a pesare le relazioni testuali in
modo differente.
> Non è esplicitato nella documentazione, ma vista la qualità dei risultati è
> plausibile che Google abbia addestrato il suo modello su una quantità enorme
> di dati proprietari, forse anche arricchiti da segnali derivanti dalle
> ricerche web. Questo rende il modello particolarmente sintonizzato nel
> comprendere l’intento dell’utente e la qualità dell’informazione.
Per questo, nella nuova versione del mio software multi-agente dedicato
all’ottimizzazione delle risposte per AI Overviews, ho scelto di integrare il
Reranker di Google: il miglioramento ottenuto è stato notevole.
AI Overview Content Strategist Agent V7
Il sistema di Google, inoltre, è molto più di un’API di reranking: è una vera e
propria piattaforma di ricerca personalizzabile. Permette infatti di gestire la
Ranking Configuration, ovvero regole che definiscono le logiche di ranking.
> In un e-commerce, ad esempio, si può aumentare il peso dei prodotti in saldo,
> oppure penalizzare quelli in esaurimento o con recensioni negative.
--------------------------------------------------------------------------------
NOTEBOOKLM: VIDEO OVERVIEWS IN ITALIANO
Anche se la nota su NotebookLM indica il funzionamento delle Video Overviews
solo in inglese, in realtà produce video anche in italiano.
Quello che segue è un esempio di trasformazione di un libro tecnico, ovvero "The
Little Book of Deep Learning" di François Fleuret in una video pillola che
spiega in modo semplice il funzionamento dei modelli di Deep Learning.
Chiaramente è il mio prompt che ha richiesto un output di questo tipo, ma si
potrebbe ottenere un video più tecnico, o di un preciso concetto espresso dal
libro. Oppure una serie di video che lo spiegano in diverse lezioni.
NotebookLM: Video Overviews in italiano
> È perfetto? NO. Ma credo che sia solo l'inizio di nuove modalità di studio e
> apprendimento, che aprono la porta a grandi opportunità, che vanno ad
> abbattere diverse barriere.
--------------------------------------------------------------------------------
LA SFIDA TRA I BIG DELL'AI È ANCHE.. OPEN SOURCE
La corsa tra i top player dell’AI passa anche dall’open source. Vediamo alcuni
rilasci interessanti.
GPT-OSS DI OPENAI
OpenAI ha rilasciato i suoi primi modelli open-weight dopo GPT-2: si chiamano
gpt-oss-120b e gpt-oss-20b, e rappresentano un grande passo verso un'AI più
trasparente e accessibile.
Il modello di punta, gpt-oss-120b, conta 117 miliardi di parametri ed è
progettato per funzionare su una singola GPU H100 (80GB). La versione più
leggera, gpt-oss-20b, può invece girare anche su hardware consumer con almeno
16GB di RAM.
Provali subito
Ho provato la versione 120b (con reasoning) su diversi task. I risultati sono
molto interessanti, anche se la concorrenza su questo tipo di modelli è ormai
altissima.
Ma i test sui benchmark che seguono non lasciano spazio all'immaginazione.
Entrambi i modelli sono basati su un’architettura Mixture-of-Experts (MoE) e
sfruttano la quantizzazione MXFP4 per ottenere performance elevate con consumi
ottimizzati. Sono compatibili con stack diffusi come Transformers, vLLM, Ollama
e LM Studio, e distribuiti sotto licenza Apache 2.0, quindi adatti anche ad uso
commerciale.
Dal punto di vista delle capacità, i modelli offrono..
* Reasoning configurabile (low, medium, high) per adattarsi a diversi casi
d’uso e livelli di latenza.
* Chain-of-thought completo, utile per debug e trasparenza.
* Supporto nativo per instruction following, code generation, function calling,
e persino strumenti integrati per il web browsing e l’esecuzione di codice
Python.
L’output utilizza il nuovo formato Harmony di OpenAI, che garantisce
compatibilità con vari strumenti open-source.
I modelli su Hugging Face
Le performance sui benchmark parlano chiaro..
* gpt-oss-120b raggiunge 90.0% su MMLU, 2622 su Codeforces, 80.1% su GPQA
Diamond.
* gpt-oss-20b tocca 85.3% su MMLU, 2516 su Codeforces, 71.5% su GPQA Diamond.
* Si posizionano così allo stesso livello dei modelli proprietari più avanzati,
superando molte delle alternative open-source esistenti, come DeepSeek R1 e
Qwen.
Entrambi i modelli sono "fine-tunabili" e pronti per essere integrati in flussi
agentici o produttivi.
Vai al post
> OpenAI entra in maniera robusta nel mercato dei modelli aperti. L'obiettivo?
> Probabilmente diventare il riferimento per i LLM su ogni piano di utilizzo.
> Ma, anche qui, incrocia sempre Google, con Gemini e Gemma.
Quello che si vede nelle immagini che seguono è il modello gpt-oss (20b) che
funziona in locale nel mio laptop attraverso Ollama.
gpt-oss (20b) in locale attraverso Ollama
Ho eseguito diversi test, e devo dire che, considerando le dimensioni del
modello, i risultati ottenuti sono ben oltre le aspettative. Con questa qualità
a disposizione in locale, si possono creare applicazioni di altissimo livello.
Ovviamente con architetture più evolute del mio PC e con modelli anche più
grandi, ad esempio la versione 120b.
Ho provato il modello anche con il tool di web search, con un contesto in input
esteso, e nella generazione di output strutturati.
> Da notare anche la nuova interfaccia grafica di Ollama: davvero comoda come
> alternativa alla console o a librerie esterne di visualizzazione.
GROK 2.5 DI XAI
xAI ha reso disponibile Grok 2.5, il suo modello di punta del 2024 con ben 270
miliardi di parametri, rilasciandone i pesi completi per l’esecuzione in locale
su setup multi-GPU.
xai-org/grok-2 · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through
open source and open science.
L’apertura permette a sviluppatori e ricercatori di esplorare scelte
architetturali, testare l’efficienza in scenari reali e affrontare le sfide di
interpretabilità dei sistemi Mixture of Experts.
Grok 2.5 si distingue per il design con “esperto condiviso”: un esperto sempre
attivo e altri attivati dinamicamente, così da ridurre i costi di inferenza. Pur
essendo enorme, per ogni token vengono impiegati circa 62 miliardi di parametri,
bilanciando potenza ed efficienza.
Il modello è disponibile su Hugging Face (circa 500 GB, 42 file) con istruzioni
precise: inferenza tramite SGLang v0.5.1+, tensor parallelism su 8 GPU e un
template dedicato per gestire correttamente i checkpoint.
La licenza è aperta sia per ricerca sia per uso commerciale, purché si rispetti
l’Acceptable Use Policy di xAI. Non è però consentito addestrare nuovi
foundation model, se non effettuando fine-tuning di Grok 2 stesso. Gli output
generati dal modello restano completamente liberi da vincoli.
--------------------------------------------------------------------------------
GEMINI O GOOGLE SEARCH?
> La differenza si assottiglia.. gli utenti saranno in grado di "digerire" un
> cambio di paradigma di questo genere, e così rapido?
La modalità AI di Google Search (AI Mode), infatti, introduce nuove funzionalità
di ricerca avanzata. Sarà possibile caricare PDF e immagini da desktop per porre
domande complesse e ricevere risposte approfondite, arricchite da link utili.
Con la funzione Canvas, gli utenti potranno creare piani di studio o organizzare
progetti all’interno di un pannello interattivo che si aggiorna nel tempo.
0:00
/0:28
1×
Le nuove funzionalità di AI Mode di Google
Search Live consentirà di interagire con l’AI in tempo reale tramite
videocamera, offrendo supporto visivo immediato su concetti complessi.
Su Chrome, una nuova opzione permetterà di chiedere spiegazioni direttamente
sulla pagina visualizzata, ottenendo un riepilogo AI e suggerimenti per
approfondire.
Vai al post
--------------------------------------------------------------------------------
L'EVOLUZIONE DELL'AI MODE
Google sta portando nuove funzionalità agentiche e personalizzate all’interno di
AI Mode in Search, rendendola ancora più utile per completare attività
complesse.
> E mettendo sempre in evidenza l'enorme potenziale derivante dall'integrazione
> di dati e servizi di un ecosistema sterminato.
Ora è possibile, ad esempio, trovare e prenotare un ristorante direttamente
dalla Ricerca, con l’AI che gestisce vincoli come orario, numero di persone,
tipo di cucina e posizione, cercando disponibilità in tempo reale su piattaforme
come OpenTable, Resy e Tock.
0:00
/0:28
1×
L'evoluzione dell'AI Mode
Presto queste funzionalità si estenderanno anche ad appuntamenti con servizi
locali e acquisto di biglietti per eventi, grazie all’integrazione con partner
come Ticketmaster, StubHub e Booksy. L’esperienza è alimentata dalle capacità di
navigazione web live di Project Mariner, dal Knowledge Graph e da Google Maps.
AI Mode diventa anche più personale: negli Stati Uniti, chi partecipa
all’esperimento Labs può ricevere suggerimenti su misura per i propri gusti,
come locali preferiti o ricerche passate, mantenendo sempre il controllo sulla
condivisione dei dati tramite le impostazioni dell’account Google.
Infine, arriva una nuova funzione di condivisione: è ora possibile condividere
una risposta dell’AI con amici o familiari tramite link, per collaborare
facilmente su attività come l’organizzazione di viaggi o cene di gruppo. AI Mode
è disponibile in inglese in oltre 180 nuovi paesi e territori.
Vai al post
--------------------------------------------------------------------------------
L'EDITING FOTOGRAFICO IN GOOGLE PHOTOS
Google ha presentato una nuova funzione di editing fotografico in Google Photos
che permette di modificare le immagini semplicemente descrivendo gli interventi
desiderati, attraverso prompt testuali o vocali.
0:00
/0:10
1×
L'editing fotografico in Google Photos
La tecnologia si basa sui modelli Gemini, capaci di interpretare il linguaggio
naturale e tradurlo in operazioni di fotoritocco senza richiedere la selezione
di strumenti o parametri. L’utente può chiedere modifiche "semplici", come la
correzione della luce o la rimozione di elementi indesiderati, oppure
trasformazioni più complesse e creative, come il cambio di sfondo o l’aggiunta
di oggetti.
> Questo approccio rende il processo di editing accessibile anche a chi non ha
> competenze tecniche, ampliando le possibilità di utilizzo quotidiano.
Per garantire maggiore trasparenza, le immagini modificate con l’intelligenza
artificiale saranno accompagnate dai C2PA Content Credentials, che indicano in
che modo sono state realizzate o modificate.
La novità debutta inizialmente sui Pixel 10 negli Stati Uniti, con una
distribuzione progressiva anche su altri dispositivi Android e iOS.
Vai al post
> Considerando anche il lavoro di altri player e i progressi dei modelli open,
> diventa sempre più chiara la direzione dell'editing fotografico per gli utenti
> non esperti e nei dispositivi mobile.
--------------------------------------------------------------------------------
GEMINI NANO IN LOCALE SU CHROME
Quello che si vede nelle immagini è un esempio di utilizzo delle API di Gemini
Nano, che funzionano direttamente all'interno di Chrome (nel mio laptop).
> Lo script Javascript che ho creato, mette in una variabile il contenuto del
> post nella pagina web, e imposta un prompt per generarne la sintesi.
> L'output del modello viene stampato nella console, e anche iniettato nella
> pagina web.
Gemini Nano in locale su Chrome
Grazie a questa possibilità, le pagine web e le web app possono accedere a
funzionalità avanzate di intelligenza artificiale direttamente sul dispositivo
dell’utente, senza dover ricorrere a server esterni.
Le API già usabili su Chrome, oltre a offrire la possibilità di creare prompt
custom (come nel mio esempio) mettono a disposizione funzioni pre-impostate per
riassumere, tradurre e rilevare automaticamente la lingua di un testo, inoltre
danno il supporto alle estensioni tramite una Prompt API locale. In fase di
test, ci sono anche API per generare, riformulare e correggere testi, con
particolare attenzione alla qualità linguistica.
Tutto avviene sul dispositivo, offrendo significativi vantaggi in termini di
privacy, prestazioni e reattività. I dati non lasciano mai il device, una scelta
cruciale per scenari ad alta sensibilità come scuola, pubblica amministrazione o
grandi aziende.
Vai alla documentazione
> Questo approccio client-side consente anche l’utilizzo dell’AI offline, riduce
> i costi di infrastruttura e rende scalabili funzionalità avanzate su larga
> scala.
--------------------------------------------------------------------------------
URL CONTEXT NELL'API DI GEMINI
Ancora una volta Google, in ambito AI, mette in mostra il vantaggio che deriva
dal suo ecosistema con l'integrazione di "URL context" nell'API di Gemini.
Questa funzionalità consente ai modelli di arricchire le risposte attingendo
direttamente ai contenuti delle pagine web indicate.
"URL context" sull'API di Gemini
Il cuore del sistema è il processo di recupero in due passaggi: prima viene
interrogata una cache dell'indice interno, che garantisce rapidità e
contenimento dei costi; se la pagina non è presente, entra in gioco un recupero
in tempo reale che accede direttamente all’URL per portare nel modello dati
freschi e aggiornati.
> In questo modo si bilanciano velocità, efficienza e accesso a informazioni
> sempre attuali.
La potenza cresce ulteriormente quando "URL context" viene combinato con il
grounding tramite Google Search: il modello può prima ampliare lo spettro
informativo con la ricerca, poi analizzare nel dettaglio pagine specifiche
recuperate via URL.
Vai alla documentazione
> E con queste funzionalità si elimina la necessità di integrare tool esterni
> per scraping e search.
--------------------------------------------------------------------------------
ACTIVE LEARNING DI GOOGLE
Google ha sviluppato un metodo di "active learning" che riduce fino a 10.000× i
dati necessari per fare fine-tuning di LLM, mantenendo o migliorando la qualità
del modello.
Invece di etichettare centinaia di migliaia di esempi tramite crowdsourcing, un
LLM “esploratore” filtra miliardi di contenuti e seleziona solo i pochi casi al
confine decisionale che confondono il modello. Questi vengono etichettati da
esperti con altissima coerenza e usati per iterare l’addestramento.
> Con questo approccio bastano 250–450 esempi per ottenere le stesse prestazioni
> di modelli addestrati su 100.000 etichette crowdsourced.
Active Learning di Google
Nei test con Gemini Nano-2 (3,25 miliardi di parametri), l’allineamento
modello-esperti è migliorato del 55%–65% rispetto alla baseline, usando tre
ordini di grandezza in meno dati.
Vai al paper
Il risultato: meno costi, aggiornamenti rapidi quando cambiano policy o pattern
di abuso, maggiore robustezza in dataset sbilanciati e capacità di adattarsi
velocemente a nuovi scenari.
--------------------------------------------------------------------------------
QWEN-IMAGE E QWEN-IMAGE-EDIT
Alibaba presenta Qwen-Image, il nuovo generatore di immagini open source capace
di integrare testo con precisione, anche in layout complessi.
L'ho provato. Le immagini che seguono sono state generate dal modello, in alcuni
casi con prompt articolati e precisi. Per quanto riguarda il rendering dei
testi, funziona abbastanza bene in lingua inglese (e cinese), ma in altre lingue
non è il massimo.
Qwen-Image: un test
Basato su miliardi di coppie immagine-testo e un addestramento curriculare,
combina il modello multimodale Qwen2.5-VL, un VAE Encoder/Decoder per dettagli
nitidi e il backbone MMDiT con allineamento spaziale avanzato. Risultato:
performance che eguagliano o superano modelli chiusi come GPT Image-1 e Seedream
3.0.
Vai al post
Licenza Apache 2.0, architettura modulare, strumenti di image-to-image editing e
generazione di dataset sintetici di alta qualità lo rendono una soluzione
strategica per aziende e creativi.
Qwen-Image-Edit è un modello basato su Qwen-Image 20B, dedicato all'editing
avanzato delle immagini.
La sua forza sta nel combinare controllo semantico (cosa rappresenta l'immagine)
e controllo visivo (come appare), grazie all'integrazione con Qwen2.5-VL e un
encoder VAE.
Un test di Qwen-Image-Edit
Permette..
* la modifica di testi (per ora inglese e cinese), mantenendo font, dimensioni
e stile originale;
* l’editing semantico ad alto livello: rotazione degli oggetti, creazione di
contenuti originali, trasferimento di stile;
* l’editing visivo a basso livello: aggiunta, rimozione o modifica di oggetti
senza alterare il contesto.
Provalo subito
--------------------------------------------------------------------------------
LA DEEP RESEARCH DI QWEN
Ho provato la nuova Deep Research di Qwen. Si tratta di un AI Agent in grado di
compiere una ricerca approfondita sulla tematica richiesta nel prompt. Ancora
una volta, siamo di fronte a un sistema molto interessante.
Provala subito
Il task che ho sottoposto all'agent nel test è molto dettagliato. Il modello
genera delle domande di chiarimento iniziali, e successivamente avvia il
processo.
La Deep Research di Qwen
> Dopo circa 10 minuti ho ottenuto un'ottima analisi di partenza, con tabelle
> prodotte attraverso elaborazioni Python e il PDF da scaricare.
--------------------------------------------------------------------------------
LANGEXTRACT DI GOOGLE
Google ha rilasciato LangExtract, una libreria Python open-source che trasforma
testo non strutturato in dati strutturati grazie ai modelli LLM della famiglia
Gemini.
Il sistema unisce estrazione controllata, grounding preciso (con collegamento
diretto al testo sorgente) e visualizzazione interattiva in HTML. È adatto a
domini come medicina, diritto, narrativa o finanza, e non richiede fine-tuning:
basta definire il task e fornire esempi “few-shot”.
0:00
/0:26
1×
LangExtract di Google
La libreria gestisce anche testi lunghi tramite chunking, parallelismo e
passaggi multipli, mantenendo alta accuratezza. Funziona sia con modelli cloud
(Gemini) che locali (via Ollama).
Vai al progetto
Su GitHub si trovano esempi completi (Romeo e Giulietta, estrazione di farmaci,
referti radiologici) e la guida all’installazione.
--------------------------------------------------------------------------------
GENIE 3
DeepMind ha presentato Genie 3, un modello del mondo generativo capace di creare
ambienti interattivi incredibilmente realistici a partire da semplici prompt
testuali.
Dalla simulazione di fenomeni naturali come lava e fiumi, fino alla creazione di
creature fantastiche in scenari immaginari, Genie 3 apre nuove frontiere per la
ricerca sull'AI.
Genie 3 - Google DeepMind
Il modello è progettato per mantenere coerenza visiva e fisica su lunghi
orizzonti temporali, rendendolo ideale per addestrare agenti autonomi in
ambienti dinamici. Supporta eventi generati via testo, modificando in tempo
reale condizioni atmosferiche, oggetti e personaggi.
A differenza di tecniche basate su rappresentazioni 3D esplicite, Genie 3 genera
mondi frame per frame, offrendo maggiore flessibilità e immersione. È già
compatibile con agenti come SIMA, dimostrando il suo potenziale per
l’apprendimento simulato.
Vai al post
> Attualmente disponibile in preview limitata, rappresenta un passo avanti verso
> l’integrazione di AI generativa e ambienti simulati per applicazioni in
> formazione, creatività e ricerca.
--------------------------------------------------------------------------------
DINOV3 DI META
> Meta ha presentato DINOv3, un nuovo modello di visione artificiale che segna
> un punto di svolta nell’apprendimento auto-supervisionato (SSL).
Per la prima volta, un backbone visivo addestrato senza etichette supera
soluzioni supervisionate e weakly-supervised in una vasta gamma di compiti,
dalle classificazioni globali alla segmentazione semantica, fino alla stima
della profondità.
> In pratica significa che il modello impara a “capire” le immagini da solo,
> senza bisogno di descrizioni o annotazioni create da esseri umani.
0:00
/1:26
1×
DINOv3 di Meta
L’innovazione principale è l’introduzione di "Gram anchoring", una tecnica che
mantiene stabili e coerenti le rappresentazioni visive anche durante
addestramenti molto lunghi e su modelli enormi.
In parole semplici, serve a evitare che il modello “perda la bussola” man mano
che diventa più complesso.
Unita a un’architettura ViT-7B da 7 miliardi di parametri e a un dataset curato
di 1,7 miliardi di immagini, questa soluzione permette di generare
rappresentazioni visive ad altissima risoluzione, nitide e precise.
Un’altra svolta è la capacità di ottenere prestazioni allo stato dell’arte senza
fine-tuning. Ciò vuol dire che il modello, così com’è, può già essere usato per
tanti compiti diversi senza dover essere riaddestrato ogni volta. Questo fa
risparmiare tempo e potenza di calcolo.
In più, grazie a un processo chiamato multi-student distillation, la potenza del
modello gigante viene “compressa” e trasferita in versioni più leggere. Così si
possono avere modelli più piccoli, veloci e facili da usare, senza perdere
troppa qualità.
Vai al paper
L’impatto è già concreto: con immagini satellitari, DINOv3 ha ridotto
drasticamente l’errore nella stima dell’altezza degli alberi, aiutando il
monitoraggio ambientale e la lotta alla deforestazione. Lo stesso approccio può
supportare la robotica spaziale, l’imaging medico e i sistemi autonomi.
> Con DINOv3, l’apprendimento auto-supervisionato per la visione compie un salto
> di scala e qualità, aprendo la strada a un backbone universale capace di
> comprendere il mondo visivo in modo più accurato, efficiente e
> generalizzabile.
--------------------------------------------------------------------------------
3D-R1: POTENZIA IL RAGIONAMENTO NEI VISION-LANGUAGE MODELS 3D
3D-R1 è un modello generalista open-source che potenzia il ragionamento nei
Vision-Language Models 3D per una comprensione unificata delle scene
tridimensionali.
Supera i limiti dei VLM tradizionali grazie a un nuovo dataset sintetico
(Scene-30K), tecniche di Reinforcement Learning con feedback umano (RLHF) e una
strategia dinamica di selezione delle viste.
0:00
/0:30
1×
3D-R1: potenzia il ragionamento nei Vision-Language Models 3D
Costruito con Chain-of-Thought e Gemini 2.5 Pro, consente un'inizializzazione
efficace del modello. Il training è potenziato da ricompense multiple
(percezione, similarità semantica, formato), migliorando coerenza e precisione
delle risposte.
> 3D-R1 raggiunge un incremento medio del 10% nei benchmark 3D, mostrando forti
> capacità zero-shot in captioning, grounding, dialoghi, QA, pianificazione e
> ragionamento in ambienti 3D.
Vai al progetto
Architettura modulare, addestramento SFT su Scene-30K, supporto a PointNet++,
compatibilità con Qwen2.5-VL-7B e Hugging Face: tutto ciò rende 3D-R1 uno
strumento potente per la nuova generazione di AI spaziale.
--------------------------------------------------------------------------------
OPENCUA: FRAMEWORK OPEN SOURCE PER L'USO DEL COMPUTER DA PARTE DI AI AGENT (CUA)
Un framework completamente open source apre nuove prospettive per gli agenti di
uso del computer (CUA).
OpenCUA mette a disposizione un ecosistema completo: strumenti di annotazione
per raccogliere interazioni reali, un dataset di 22.6K traiettorie su Windows,
macOS e Ubuntu e benchmark dedicati per valutare in modo rapido e trasparente le
capacità degli agenti.
La pipeline trasforma dimostrazioni umane in coppie stato–azione arricchite da
ragionamenti riflessivi e catene di pensiero lunghe, che aiutano i modelli a
pianificare meglio, mantenere memoria del contesto e correggere gli errori.
OpenCUA: il paper e le performance
Grazie a questa ricetta di training, il modello di punta OpenCUA-32B raggiunge
un tasso di successo del 34.8% su OSWorld-Verified, superando GPT-4o (OpenAI
CUA) e stabilendo il nuovo stato dell’arte tra i modelli open source.
Vai al paper
> Un risultato che dimostra come dati diversificati, reasoning strutturato e
> apertura delle risorse possano accelerare lo sviluppo di agenti capaci di
> interagire in modo sempre più efficace con i nostri ambienti digitali.
--------------------------------------------------------------------------------
STORYBOOK: NUOVA FUNZIONALITÀ PER GEMINI
L'app di Gemini introduce una nuova funzionalità: lo storybook.
Si tratta di un sistema che permette di creare un vero e proprio "libro"
personalizzato attraverso un prompt multimodale.
Nell'esempio, ho caricato l'immagine di un robottino e ho chiesto una storia per
bambini, con qualche indicazione sulla trama. Il modello mi ha fatto alcune
domande per migliorare le caratteristiche dell'obiettivo (es. l'età del pubblico
è il tipo di illustrazioni).
Storybook su Gemini: un esempio
Il risultato è un piccolo storybook, con anche la funzionalità di lettura
automatica.
> L'esempio forse sembra banale, ma applicato la contesto dell'apprendimento di
> concetti di qualunque genere, potrebbe essere molto interessante.
--------------------------------------------------------------------------------
L'APPRENDIMENTO GUIDATO SU GEMINI
Dopo la modalità "Studia e impara" di OpenAI su ChatGPT, Google segue con
"Apprendimento guidato" nell'app di Gemini.
L'ho provato per studiare il Teorema di Pitagora, e il processo che propone la
funzionalità è molto interessante. Anche se la visualizzazione interattiva che
ho ottenuto da GPT-5 è molto più accattivante.
"Apprendimento guidato" nell'app di Gemini
Non si tratta più solo di ottenere risposte, ma di costruire una comprensione
profonda, passo dopo passo. Grazie a domande aperte, spiegazioni adattive e
contenuti multimediali come video, immagini e quiz interattivi, Guided Learning
trasforma l'AI in un vero compagno di studio.
Basato su LearnLM, una famiglia di modelli sviluppati con esperti di pedagogia,
neuroscienze e scienze cognitive, questo strumento mette al centro la
partecipazione attiva e l’apprendimento costruttivo.
È pensato sia per chi studia da solo, sia per supportare gli insegnanti in aula
con risorse integrabili direttamente in Google Classroom.
Vai al post
> Ogni studente può esplorare argomenti in un ambiente sicuro e stimolante,
> imparando al proprio ritmo, con l’AI al servizio della comprensione, non della
> velocità.
--------------------------------------------------------------------------------
SISTEMI NEURO-SIMBOLICI: SEED-GEOMETRY
Ancora un passo avanti in ambito di sistemi neuro-simbolici: il nuovo
Seed-Geometry, sviluppato da ByteDance Seed AI4Math, ha ufficialmente superato
AlphaGeometry 2 nei benchmark di geometria delle Olimpiadi Matematiche
Internazionali.
Seed-Prover: Deep and Broad Reasoning for Automated Theorem Proving
LLMs have demonstrated strong mathematical reasoning abilities by leveraging
reinforcement learning with long chain-of-thought, yet they continue to struggle
with theorem proving due to the lack of clear supervision signals when solely
using natural language. Dedicated domain-specific languages like Lean provide
clear supervision via formal verification of proofs, enabling effective training
through reinforcement learning. In this work, we propose \textbf{Seed-Prover}, a
lemma-style whole-proof reasoning model. Seed-Prover can iteratively refine its
proof based on Lean feedback, proved lemmas, and self-summarization. To solve
IMO-level contest problems, we design three test-time inference strategies that
enable both deep and broad reasoning. Seed-Prover proves $78.1\%$ of formalized
past IMO problems, saturates MiniF2F, and achieves over 50\% on PutnamBench,
outperforming the previous state-of-the-art by a large margin. To address the
lack of geometry support in Lean, we introduce a geometry reasoning engine
\textbf{Seed-Geometry}, which outperforms previous formal geometry engines. We
use these two systems to participate in IMO 2025 and fully prove 5 out of 6
problems. This work represents a significant advancement in automated
mathematical reasoning, demonstrating the effectiveness of formal verification
with long chain-of-thought reasoning.
arXiv.orgLuoxin Chen
> Su 50 problemi IMO di geometria dal 2000 al 2024, Seed-Geometry ne ha risolti
> 43, rispetto ai 42 di AlphaGeometry 2. Ancora più significativo il risultato
> sulle shortlist dei problemi più difficili: 22 soluzioni su 39 per
> Seed-Geometry contro le 19 di AlphaGeometry 2.
Questo avanzamento è stato possibile grazie a un motore di ragionamento
simbolico ultra-veloce, una rappresentazione più compatta delle costruzioni
geometriche e un’integrazione efficiente con modelli neurali specializzati.
Seed-Geometry non solo accelera la ricerca automatica di soluzioni, ma
stabilisce un nuovo standard nella formalizzazione matematica automatica,
confermando la centralità dell’approccio neuro-simbolico nell’AI matematica di
frontiera.
> I sistemi neuro-simbolici rappresentano oggi la convergenza tra la potenza di
> generalizzazione delle reti neurali e la precisione del ragionamento logico
> formale. Questa sinergia non solo apre la strada a soluzioni più efficaci e
> verificabili nei domini complessi come la matematica, ma segna anche un cambio
> di paradigma nell’intelligenza artificiale: dalla semplice previsione, verso
> la comprensione e la spiegabilità profonda dei problemi.
--------------------------------------------------------------------------------
PERSONAL SUPERINTELLIGENCE - META
Zuckerberg ha pubblicato un post per condividere la visione di Meta sul futuro
dell'AI e della superintelligenza. Non si parla solo di efficienza o
automazione, ma di un nuovo paradigma centrato sull’individuo.
Vai al post
Negli ultimi anni l’intelligenza artificiale ha compiuto progressi
significativi, ma ora Meta guarda oltre: verso lo sviluppo di una
superintelligenza personale. Si tratta di sistemi AI in grado di comprendere a
fondo le esigenze, gli obiettivi e i contesti quotidiani delle persone, offrendo
supporto continuo e mirato.
Secondo Meta, la superintelligenza non dovrebbe essere gestita in modo
centralizzato con l’obiettivo di sostituire il lavoro umano. Al contrario,
dovrebbe essere uno strumento distribuito, a disposizione di ciascuno, per
aumentare le capacità personali, stimolare la creatività e favorire la crescita
individuale.
Per realizzare questa visione, l’azienda sta sviluppando dispositivi
intelligenti – come occhiali in grado di percepire l’ambiente visivo e sonoro –
che fungeranno da interfaccia primaria per interagire con l’AI in modo più
naturale e contestuale.
> Mark, per quanto riguarda la "sfera individuale" comprendo la visione. Anche
> perché non puoi dire il contrario. Ma in ambito lavorativo, questi sistemi
> verranno usati proprio per aumentare l'efficienza e l'automazione.
Zuckerberg sottolinea che il decennio in corso sarà decisivo per determinare la
direzione che prenderà questa tecnologia: se sarà una leva di empowerment
individuale o uno strumento di sostituzione sistemica. Meta si impegna per la
prima opzione, investendo risorse e infrastrutture per portare la
superintelligenza personale a miliardi di persone.
Infine, il post affronta anche la questione dell’open source. Pur riconoscendo
il valore della condivisione, Meta adotta un approccio cauto: non tutto potrà
essere reso pubblico, specialmente in considerazione dei potenziali rischi
legati alla sicurezza. L’obiettivo resta comunque quello di garantire un accesso
il più ampio possibile ai benefici generati dalla tecnologia.
> Meta intende così aprire un nuovo capitolo tecnologico, in cui la
> superintelligenza non è un'entità astratta, ma una risorsa personale al
> servizio dell’autonomia, della creatività e del progresso umano.
--------------------------------------------------------------------------------
È POSSIBILE CHE NON RAGGIUNGEREMO L’AGI?
In una recente intervista con Emily Chang, Sundar Pichai ha parlato di AGI,
l’intelligenza artificiale generale con capacità cognitive paragonabili a quelle
umane.
Alla domanda diretta "È possibile che non raggiungeremo l’AGI?", Pichai ha
riconosciuto che è "del tutto possibile" che, CON GLI APPROCCI ATTUALI, non si
arrivi a quel traguardo, spiegando che il progresso tecnologico può incontrare
dei "plateau", ovvero dei momenti in cui lo sviluppo rallenta o si ferma a causa
di limiti intrinseci.
Emily Chang intervista Sundar Pichai
Pur con questa incertezza, ha sottolineato che il ritmo di avanzamento dell'AI
oggi è "sbalorditivo" e che i modelli attuali stanno già dimostrando capacità
straordinarie.
Per spiegare la distanza tra l’AI attuale e l’AGI, ha usato un’analogia: un
ragazzo può imparare a guidare in circa 20 ore, ma a Waymo sono serviti oltre 10
anni di sviluppo per avvicinarsi alla perfezione, senza raggiungerla pienamente.
Compiti che per gli esseri umani sono intuitivi e guidati dal buon senso
risultano estremamente complessi per un’AI.
> Pichai descrive così una doppia natura: un’AI capace di risultati eccezionali
> in contesti specifici, ma ancora lontana dalla flessibilità, dal ragionamento
> e dalla comprensione del mondo tipici dell’intelligenza umana. Un approccio di
> cauto ottimismo, che riconosce al tempo stesso il potenziale e le sfide ancora
> da affrontare.
--------------------------------------------------------------------------------
QUANTO CONSUMA EFFETTIVAMENTE L'AI?
> Ne abbiamo lette e sentite di ogni tipo, su articoli improbabili, con titoli
> assurdi per produrre clic.
Oggi Google risponde con un report dei consumi che sta registrando.
Però ho una considerazione da fare sulla metodologia di interpretazione che
hanno usato.
Il report di Google sui consumi dell'AI
COSA DICE IL REPORT?
Google ha misurato per la prima volta in produzione l’impatto ambientale del suo
modello Gemini. Il risultato?
> Un prompt testuale consuma 0,24 Wh (meno di 9 secondi di TV), emette 0,03 g di
> CO2e, e usa 0,26 ml d’acqua (circa 5 gocce).
Numeri molto più bassi di molte stime circolate negli ultimi mesi.
Il report mostra anche i progressi di efficienza: nell’arco di un anno Google ha
ridotto del 44× le emissioni per prompt grazie a modelli più snelli, hardware
co-progettato (TPU), data center ultra-efficienti (PUE 1,09) e acquisti di
energia rinnovabile.
Un segnale forte: l’ottimizzazione dell’intera catena (modello, hardware,
software, data center, energia) può ridurre drasticamente l’impatto.
LA MIA CONSIDERAZIONE SULLA METODOLOGIA
Google sceglie di comunicare i valori mediani dei consumi. È una scelta sensata
per descrivere l’esperienza dell’utente “tipico”, e viene spiegato chiaramente
nel documento.
Ma il consumo totale dipende dalla media: se alcuni prompt sono molto più lunghi
o complessi, alzano la media senza spostare troppo la mediana. In distribuzioni
sbilanciate a destra, come quelle degli LLM, la media è quindi
significativamente più alta.
Tradotto: dire "un prompt consuma 0,24 Wh" è vero per l’uso comune, ma non
racconta quanto pesa davvero l’insieme di tutti i prompt, dove pochi casi
estremi bruciano gran parte dell’energia.
CONCLUSIONE
Il documento di Google ci fa capire un aspetto importante, che in fondo è anche
abbastanza comune: l'innovazione produce nuove tecnologie, e, se ha senso
adottarle, vengono ottimizzate. Pensiamo a quanto consumava un climatizzatore
agli inizi, rispetto a oggi (la differenza è abissale).
Però, se vogliamo valutare con rigore l’impatto complessivo dell’AI, serve anche
un'altra visione dei dati: la mediana racconta bene il “prompt tipico”, ma è la
media a dire quanta energia si spende davvero su scala globale.
Vai al paper
--------------------------------------------------------------------------------
VIBEVOICE DI MICROSOFT
Microsoft Research ha rilasciato VibeVoice, un modello open source capace di
generare conversazioni vocali multi-speaker fino a 90 minuti con una qualità
elevata.
> L'ho provato. L'audio che si sente è un podcast con 3 speaker generato
> partendo da uno script testuale.
VibeVoice: un podcast con 3 speaker
La novità sta nell’uso della next-token diffusion e di un innovativo speech
tokenizer continuo, che comprime l’audio fino a 3200× mantenendo fedeltà
percettiva ed efficienza computazionale.
Questo consente di scalare la sintesi vocale a contesti lunghi, con naturalezza
nei turni di parola e ricchezza timbrica.
Vai al progetto
ALCUNI RISULTATI
* Supera modelli leader come Gemini 2.5 Pro TTS ed ElevenLabs V3 in realismo,
ricchezza e preferenza degli ascoltatori.
* Ottiene il Word Error Rate più basso e maggiore somiglianza tra speaker.
* Generalizza bene anche su utterances brevi, nonostante sia ottimizzato per
conversazioni lunghe.
Limitazioni dichiarate: supporto solo a inglese e cinese, assenza di gestione
per rumori o parlato sovrapposto.
> Un passo avanti verso podcast e audiolibri multi-partecipanti sintetici, con
> forte enfasi sulla ricerca responsabile.
--------------------------------------------------------------------------------
PODCASTIFY
Podcastfy è un progetto open source in Python che consente di trasformare
contenuti multimodali come testi, immagini, PDF, siti web o video YouTube in
podcast audio conversazionali, personalizzabili e multilingue, utilizzando
modelli di intelligenza artificiale generativa.
0:00
/1:41
1×
Un esempio di output di Podcastify
Pensato come un'alternativa open alla funzione podcast di NotebookLM, Podcastfy
si distingue per l’approccio programmabile, scalabile e completamente
personalizzabile.
Vai al progetto
È possibile creare episodi brevi da 2-5 minuti o podcast longform di oltre 30
minuti, scegliendo stile, struttura del dialogo, voci TTS (tra cui OpenAI,
Google, ElevenLabs, Microsoft) e lingua, con supporto a oltre 100 modelli LLM,
inclusi quelli locali.
Il sistema è adatto sia a sviluppatori sia a utenti senza competenze tecniche:
si può usare tramite Python, CLI, API FastAPI, web app o container Docker. Offre
una perfetta integrazione in flussi di lavoro automatizzati e si presta a
progetti custom.
Podcastfy è già stato adottato in strumenti come SurfSense, OpenNotebook e
Podcast-LLM, ed è ideale per content creator che vogliono trasformare articoli e
blog in podcast, per educatori che desiderano rendere accessibili le proprie
lezioni in formato audio, e per ricercatori interessati a rendere fruibili i
propri lavori a un pubblico più ampio.
Vai al Colab
La versione più recente introduce il supporto a modelli TTS multispeaker e la
possibilità di generare podcast partendo da contenuti cercati in tempo reale sul
web, offrendo un’esperienza ancora più ricca, flessibile e aggiornata.
--------------------------------------------------------------------------------
RUNWAY, E LE POTENZIALITÀ DI ALEPH
Runway mostra un esempio delle potenzialità di Aleph.
Nel video si vede come il modello possa apportare modifiche complesse agli
ambienti, aggiungendo elementi dinamici come la neve sulle spalle e gli schizzi
d'acqua mentre i personaggi si muovono.
> Really nice demo of what @runwayml Aleph can do for complex changes in
> environments while adding accurate dynamic elements like snow on the shoulders
> or splashing water as the characters move. pic.twitter.com/YAeWxAnz1f
>
> — Cristóbal Valenzuela (@c_valenzuelab) July 30, 2025
> La crescita dei modelli di generazione video sta decollando. Sono curioso di
> scoprire il margine di miglioramento che ci sarà.
--------------------------------------------------------------------------------
FLUX.1 KREA [DEV]
FLUX.1 Krea [dev] è un nuovo modello di generazione testo-immagine sviluppato da
Black Forest Labs insieme a Krea AI.
Si tratta di un modello open weights che segna un'evoluzione importante: punta a
superare il classico “look da AI”, spesso troppo saturo e artificiale, per
offrire risultati visivamente più credibili e interessanti.
FLUX.1 Krea [dev]
Il modello è definito "opinionated" perché non si limita a interpretare le
richieste in modo neutro, ma applica scelte stilistiche precise, generando
immagini ricche di carattere e varietà. Questo approccio lo rende
particolarmente adatto a chi cerca creatività controllata e realismo, senza
dover scendere a compromessi.
È già disponibile su HuggingFace, con integrazioni API offerte da partner come
FAL, Replicate, Runware, DataCrunch e TogetherAI.
Vai al post
> Un progetto che dimostra quanto sia potente la collaborazione tra chi sviluppa
> modelli fondamentali e chi lavora sull’applicazione concreta dell’intelligenza
> artificiale.
--------------------------------------------------------------------------------
- GRAZIE -
Se hai apprezzato il contenuto, puoi
contribuire al progetto con una donazione 🙂
ISCRIVITI ALLA NEWSLETTER
Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su
tematiche relative all'intelligenza artificiale.
Iscriviti alla Newsletter
Email sent! Check your inbox to complete your signup.
Gratuita. No Spam. Puoi disiscriverti quando vuoi.
Consulta la privacy policy.
> GPT-5 is a significant step along the path to AGI… a model that is generally
> intelligent.
Così Sam Altman introduce la live di presentazione di GPT-5. Nel momento in cui
ha finito la frase, ho avuto una forte tentazione di stoppare lo streaming.. ma
mi sono sforzato di proseguire.
A valle dell’evento, il mio bilancio è questo:
> GPT-5 è un major update
> solido ma non di rottura.
La presentazione di GPT-5 di OpenAI
È plausibile che abbiano migliorato praticamente tutto: comprensione,
allucinazioni, strumenti, costi.. però non è il salto epocale che la retorica di
apertura lasciava intendere. Anche il messaggio “verso l’AGI” suona come
marketing ambizioso più che come evidenza scientifica: se migliori su molti
benchmark ma resti nel solco della stessa famiglia di (queste) tecniche, è un
progresso importante, non una rivoluzione.
Questo non significa sminuire il lavoro tecnico: l’inferenza è più economica, il
modello sceglie quando attivare componenti di "reasoning" e la lineup è più
granulare (tipologie di modello diverse per casi d’uso diversi). Ma la live è
stata anche penalizzata da visualizzazioni fuorvianti: alcuni grafici avevano
barre che non corrispondevano ai valori e un diagramma sulla “deception” è stato
poi corretto nella documentazione.
La correzione del diagramma dalla presentazione alla documentazione
Sul fronte posizionamento competitivo, la sensazione è di passo avanti, non
balzo in avanti. Dopo l'evento, François Chollet (co-founder di ARC Prize) ha
pubblicato un confronto in cui Grok 4 risulta avanti su ARC-AGI-2, mentre su
ARC-AGI-1 il margine è più sottile; al netto di differenze di costo, il quadro è
di una leadership contesa e per nulla schiacciata.
> Grok 4 is still state-of-the-art on ARC-AGI-2 among frontier models.
>
> 15.9% for Grok 4 vs 9.9% for GPT-5. pic.twitter.com/wSezrsZsjw
>
> — François Chollet (@fchollet) August 7, 2025
Questi dati vanno interpretati con cautela (metodologie, settaggi, versioni
cambiano), ma raffreddano l’idea di un distacco netto.
Infine, qualche scelta narrativa non ha aiutato: tanto "vibe coding" e
storytelling emotivo, meno metodo e ablation. Da utilizzatore, mi sarei
aspettato più dimostrazioni di multimodalità end-to-end (input e output ricchi,
integrazione sensori-attuatori) e un ponte più credibile verso il mondo
fisico/robotico — area in cui altri player stanno spingendo (es. Google e
Nvidia).
> I miglioramenti ci sono e i prezzi non sono fuori mercato; semplicemente non
> abbiamo visto
> “il prossimo paradigma”.
PARLIAMO DEL CONCETTO DI AGI?
Perché la tentazione di chiudere lo streaming non appena Altman ha pronunciato
“AGI”? Perché, probabilmente, i soli LLM non basteranno per raggiungere
l'obiettivo. Continuare a scalare decoder autoregressivi riduce errori ma non
risolve: causalità, generalizzazione out-of-distribution, composizionalità,
pianificazione a lungo raggio, ragionamento simbolico. A questo proposito, ho
più volte menzionato approcci come quello neuro-simbolico, ovvero l'integrazione
di reti neurali e rappresentazioni/strumenti simbolici.
Non è teoria astratta: modelli-strumento come o3, Grok 4, e lo stesso GPT-5,
ovvero quelli con interpreti di codice e reasoners, mostrano che plug-in
simbolici (solver, motori logici, CAS) alzano l’asticella su compiti logici e
strutturati. Google DeepMind, su AlphaFold o AlphaGeometry non applica “solo”
LLM: si tratta di architetture ibride disegnate sul problema, con motori di
ricerca, vincoli e verifiche. La direzione non è “più grande è meglio”, ma “ben
integrato è meglio”: neurale per percepire e proporre, simbolico per verificare,
comporre e generalizzare.
Gli avanzamenti recenti in matematica lo confermano. Seed-Geometry (ByteDance
Seed AI4Math) ha superato AlphaGeometry 2 su 50 problemi IMO di geometria (43 vs
42) e sulle shortlist più dure (22/39 vs 19/39), grazie a un motore simbolico
più veloce, una rappresentazione più compatta delle costruzioni e un ciclo
neurale-simbolico più efficiente. Non è un trucco: è un cambio di passo su
compiti dove la verifica formale conta quanto (o più) della generazione.
Seed-Prover: Deep and Broad Reasoning for Automated Theorem Proving | alphaXiv
View 1 comments: What is the difference between this work and the Gemini
pro?2507.15855
arXiv
Se vogliamo avvicinarci all’AGI, dobbiamo uscire dal monolito: agenti che usano
strumenti e ambienti, memorie strutturate, moduli di pianificazione e
prove/verifiche integrati by design, non come accessori opzionali.
> Il LLM resta il substrato linguistico e percettivo, ma l’intelligenza emerge
> dall’orchestrazione.
LO STATO DEL PROGRESSO DELL’AI
Al netto di GPT-5, stiamo vivendo un’accelerazione storica. Demis Hassabis
(Google DeepMind) descrive un impatto “10 volte più grande, e forse 10 volte più
veloce dell’Industrial Revolution”, con un orizzonte di 5–10 anni per sistemi
con capacità simili all’umano in molti domini. È un’immagine potente, che
richiede di ripensare istituzioni, lavoro, welfare, istruzione e governance.
Non sono solo parole: AlphaFold ha già spostato gli equilibri nella scienza
delle proteine, al punto da valere a Hassabis e Jumper il Nobel per la Chimica
2024 (insieme a David Baker). La portata non è solo tecnica: rendere praticabile
e diffuso ciò che prima richiedeva anni di esperimenti è nuova capacità civile —
scienza più rapida, più aperta, più traducibile in cure e materiali.
Chemistry Nobel goes to developers of AlphaFold AI that predicts protein
structures
This year’s prize celebrates computational tools that have transformed biology
and have the potential to revolutionize drug discovery.
NatureEwen Callaway
Questa accelerazione, però, non è lineare né omogenea. Vediamo frontier models
migliorare, ma spesso in modo irregolare: grandi vittorie in domini strutturati
(biologia, geometria formale), progressi più lenti nella robustezza generale
(ragionamento di buon senso, affidabilità contestuale, autonomia). In parallelo,
cresce l’impatto economico (produttività, automazione di parti di filiere
cognitive) e si amplificano le questioni sociali: distribuzione dei benefici,
sostenibilità energetica, rischi informativi. Il punto non è fermare, ma
governare l’onda: standard aperti, benchmark onesti, evals riproducibili,
trasparenza sui dati e sistemi di verifica incorporati.
Se la traiettoria “10× più grande e più veloce” si confermerà, ci serviranno
nuove idee sul senso del tempo e del valore umano. Non tutto è utilitaristico:
arte, gioco, sport, meditazione potrebbero tornare al centro proprio perché
liberati dal vincolo. Ma questo futuro richiede politiche intenzionali:
redistribuzione, formazione continua, infrastrutture di ricerca e un mercato che
premia la qualità, non solo la spettacolarità in keynote.
Ne ho parlato nei recenti interventi che ho tenuto al TEDx di Bergamo e al WMF
(We Make Future).
Il mio intervento al TEDx di Bergamo
CONCLUSIONI
GPT-5 è un aggiornamento importante, ma “incrementale”. Ha spinto in avanti il
perimetro di ciò che è pratico e abbordabile, senza cambiare le regole del
gioco. Se prendiamo sul serio l’AGI, la strada passa per architetture ibride,
tool use nativo, verifica simbolica e benchmark trasparenti. Nel frattempo, l’AI
continua a permeare scienza, industria e cultura a velocità inaudita: la sfida
non è solo tecnica, è civile. E, finché non vedremo quell’integrazione profonda
che da tempo invoco, manterrò questa posizione: gli LLM sono necessari ma non
sufficienti — e il prossimo salto non sarà solo più grande; sarà diverso.
--------------------------------------------------------------------------------
UNA SINTESI DELLA PRESENTAZIONE
Per chi non avesse visto tutta la presentazione, quello che segue è un riepilogo
che cerca di sintetizzare al meglio le caratteristiche del nuovo sistema di
OpenAI.
Sam Altman durante la presentazione di GPT-5
PANORAMICA SUL MODELLO
GPT-5 è il nuovo modello di punta di OpenAI: più intelligente, più rapido e
soprattutto più utile nelle richieste reali (scrittura, coding, salute,
multimodale). In ChatGPT diventerà il modello di default per tutti; gli utenti
Pro avranno anche GPT-5 Pro (con reasoning più esteso). Il rollout inizia da
subito per gli utenti Free, Plus, Pro, Team; per gli abbonamenti Enterprise ed
Edu arriverà dopo una settimana dalla presentazione.
Gli utenti Free, al raggiungimento delle quote limite, passano a GPT-5 mini.
UN SISTEMA UNIFICATO: ROUTER + "THINKING" QUANDO SERVE
Non bisogna più scegliere tra un modello “veloce” e uno “con reasoning”: GPT-5
integra un modello smart/efficiente, un modello di ragionamento profondo (“GPT-5
thinking”) e un router in tempo reale che decide quale usare in base a
complessità, tipo di conversazione, strumenti necessari e segnali espliciti (es.
“pensa a fondo”). Il router impara da segnali reali (switch tra modelli,
preferenze, misure di correttezza). Al raggiungimento dei limiti subentra una
versione mini. In futuro queste capacità verranno fuse in un unico modello.
PRESTAZIONI E VALUTAZIONI (SOTA)
* Matematica (AIME 2025, senza tool): 94,6%
* Coding: 74,9% su SWE-bench Verified; 88% su Aider Polyglot
* Multimodale: 84,2% su MMMU
* Salute: 46,2% su HealthBench Hard
Con GPT-5 Pro (ragionamento esteso) si ottiene lo stato dell’arte su GPQA
(88,4%, senza tool).
In più, rispetto a o3, GPT-5 “thinking” raggiunge risultati migliori usando
il 50–80% di token di output in meno su varie capacità (ragionamento visivo,
coding agentico, problemi scientifici avanzati).
Prestazioni e valutazioni di GPT-5
AFFIDABILITÀ, ALLUCINAZIONI E "ONESTÀ"
Con ricerca web attiva su prompt rappresentativi, le risposte di GPT-5 sono ~45%
meno soggette a errori fattuali rispetto a GPT-4o; in modalità “thinking” sono
~80% meno soggette a errori rispetto a o3. Su benchmark di fattualità aperta
(LongFact, FActScore) “GPT-5 thinking” riduce le allucinazioni di circa 6×
rispetto a o3.
È anche meno ingannevole: nelle conversazioni reali, le risposte “thinking” che
mostrano comportamenti di “deception” scendono dal 4,8% (o3) al 2,1%.
Lo stile mostra meno "eccesso di consenso", meno emoji inutili, più trasparenza
sui limiti.
SAFE COMPLETIONS
Nuovo addestramento di sicurezza: invece di rifiutare o acconsentire “a
blocchi”, GPT-5 massimizza l’aiuto entro confini di sicurezza. Quando serve,
risponde solo ad alto livello; se deve rifiutare, spiega perché e propone
alternative sicure. Risultato: migliore gestione delle richieste
ambigue/dual-use e meno rifiuti inutili.
BIO/CHIMICA: APPROCCIO PRUDENZIALE
“GPT-5 thinking” è trattato come High capability in bio/chimica nel Preparedness
Framework: 5.000 ore di red-teaming, classificatori always-on, reasoning
monitors e difese multilivello, attive in via precauzionale.
COSA MIGLIORA PER GLI UTENTI CHATGPT
* Scrittura: testi più ricchi e risonanti, migliore gestione di strutture
ambigue (es. verso libero, pentametro giambico senza rima), utile per email,
report, memo.
* Coding: eccelle nel front-end complesso e nel debug di repository grandi;
spesso crea siti/app/giochi belli e responsivi con un solo prompt, con gusto
per spaziatura, tipografia e white-space.
* Salute: punteggi nettamente migliori su HealthBench; risposte più proattive
(segnala rischi, pone domande), adattate a contesto/geografia/livello utente.
Non sostituisce un medico, ma aiuta a capire referti, preparare domande,
valutare opzioni.
* Personalità preimpostate (anteprima di ricerca): Cynic, Robot, Listener,
Nerd, per regolare tono e stile senza prompt artigianali; progettate anche
per ridurre l'eccesso di consenso nei confronti dei messaggi degli utenti.
NOVITÀ MOSTRATE NELLA LIVE
* Voice più naturale, con video, traduzione continua e nuova Study & Learn mode
(es. esercizi guidati, apprendimento delle lingue).
* Memoria e personalizzazione: è stata presentata l'integrazione con Gmail e
Google Calendar per la pianificazione quotidiana; colori personalizzati
dell’interfaccia; anteprima di personalities anche in modalità Voice.
PER SVILUPPATORI E AZIENDE (API)
* Tre modelli: gpt-5, gpt-5-mini, gpt-5-nano. Prezzi indicativi: $1,25 / 1M
token input e $10 / 1M output (GPT-5); $0,25 / $2 (mini); $0,05 / $0,40
(nano). Disponibile via Responses API, Chat Completions e Codex CLI.
* Nuovi controlli:
* reasoning_effort con valore minimal per risposte velocissime con poco
ragionamento;
* verbosity: low/medium/high per controllare la verbosità (quanto il modello
risulta prolisso);
* Custom tools in plain-text (anziché solo JSON) + vincoli con regex/CFG;
tool-call preambles per far spiegare al modello il piano prima delle
chiamate strumento.
* Contesto lungo: fino a 400.000 token totali, con miglioramenti su compiti di
lungo contesto (recupero e ragionamento su input molto estesi).
* Agentic/tool use: grandi progressi su benchmark di tool-calling e
instruction-following; migliore capacità di completare task multi-step,
coordinare strumenti e adattarsi al contesto.
* Variante chat non-reasoning disponibile come gpt-5-chat-latest (stessa
tariffa), utile per latenza più bassa.
IMPLICAZIONI PRATICHE
* Utenti finali: qualità alta “di default”, meno allucinazioni, più "onestà" su
impossibilità o limiti.
* Team e imprese: un sistema di default affidabile per il lavoro quotidiano, e
GPT-5 Pro per compiti critici.
* Developer: meno “prompt gymnastics”. Controlli nativi su
ragionamento/verbosità/formato, tool-calling più robusto, 400k di contesto
per documenti enormi e pipeline complesse.
--------------------------------------------------------------------------------
PRIMI TEST DEL MODELLO
Ho fatto diversi test con il modello GPT-5 Thinking (su ChatGPT e via API) che
riguardano, ad esempio, la generazione di testo, la creazione di dashboard che
derivano dall'analisi di un dataset, output strutturati con contesti in input
molto lunghi dove la precisione è fondamentale, ragionamento, matematica.
Primi test con GPT-5
Ho effettuato anche delle sperimentazioni usando il modello su sistemi agentici,
su infrastrutture già collaudate per altri modelli.
Non avevo dubbi che il risultato sarebbe stato di qualità: l'aumento di
performance è notevole rispetto alle versioni precedenti di OpenAI. Le
performance su task di questo tipo non si discutono, e questo modello, visto
anche il prezzo delle API praticamente identico, va a competere direttamente con
Gemini 2.5 Pro su tutti i fronti.
--------------------------------------------------------------------------------
APPROFONDIMENTI
UNA GUIDA AL PROMPTING PER GPT-5
OpenAI ha pubblicato una guida ufficiale al prompting per GPT-5, pensata per
aiutare sviluppatori e professionisti a ottenere il massimo dal nuovo modello.
La guida approfondisce come costruire prompt efficaci, sottolineando l’elevata
sensibilità di GPT-5 alle istruzioni: è in grado di seguire indicazioni con
estrema precisione, ma proprio per questo diventa cruciale evitare ambiguità o
contraddizioni.
Vengono presentate strategie per bilanciare il grado di autonomia del modello,
regolare il livello di ragionamento (reasoning_effort) e ottimizzare le risposte
(verbosity). Una sezione specifica è dedicata allo sviluppo software, dove GPT-5
si distingue nella scrittura, refactor e generazione di codice, specialmente se
guidato da prompt che ne specificano stile e contesto tecnico.
La guida include esempi concreti, casi d’uso (come Cursor) e buone pratiche come
l’uso di “tool preambles” o tecniche di metaprompting. Un riferimento prezioso
per chi vuole costruire interazioni più robuste, controllabili ed efficienti con
GPT-5.
GPT-5 prompting guide | OpenAI Cookbook
GPT-5, our newest flagship model, represents a substantial leap forward in
agentic task performance, coding, raw intelligence, and steera…
GPT-5 PER GLI SVILUPPATORI
OpenAI presenta un contenuto dedicato agli sviluppatori che illustra GPT-5, il
modello più avanzato per codifica e compiti agentici complessi. Con prestazioni
ai vertici nei benchmark, gestione efficiente di processi multi-turno, recupero
di informazioni da contesti lunghi e riduzione significativa degli errori, GPT-5
offre nuove funzioni API come reasoning_effort, verbosity e Freeform tools, ed è
disponibile in tre varianti per adattarsi a esigenze diverse di prestazioni,
costi e latenza.
Vai al post
--------------------------------------------------------------------------------
- GRAZIE -
Se hai apprezzato il contenuto, puoi
contribuire al progetto con una donazione 🙂
ISCRIVITI ALLA NEWSLETTER
Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su
tematiche relative all'intelligenza artificiale.
Iscriviti alla Newsletter
Email sent! Check your inbox to complete your signup.
Gratuita. No Spam. Puoi disiscriverti quando vuoi.
Consulta la privacy policy.
> Buon aggiornamento, e buone riflessioni..
--------------------------------------------------------------------------------
UN AGENTE AI PER OTTIMIZZARE I PROMPT DI VEO 3
Ho creato un Agente AI che genera prompt strutturati per Veo 3, e devo dire che
l'aderenza dei video in output con l'idea di partenza è altissima.
L'agente riceve in input una descrizione di base del video, pone domande di
follow-up per espandere i dettagli in modo guidato e semplice, e produce un
prompt in JSON da usare come input per Veo 3.
Ho portato la logica dell'agente su un GPT per ChatGPT, per chi vuole provarlo.
ChatGPT - Veo 3 Prompt Assistant
Descrivi il video che vuoi generare con Veo 3, e genererò un prompt strutturato
da usare con il modello
ChatGPT
I tre video che seguono sono stati creati in questo modo (idea > GPT > prompt >
Veo 3), utilizzando la versione più performante di Veo 3 (all’interno di Flow) e
non quella "fast".
Un Agente AI per ottimizzare i prompt per Veo 3: test
> Se qualcuno vorrà provarlo, sarò felice di ricevere feedback per migliorarlo.
FUNZIONALITÀ IMAGE-TO-VIDEO
Con la nuova funzionalità image-to-video, inoltre, Veo 3 acquisisce ancora più
potenziale.
Ho creato questi video partendo da immagini generate con Imagen 4, e pilotando
la scena (e i suoni) attraverso dei prompt testuali strutturati.
Veo 3 image-to-video: un test
> L'aderenza alle istruzioni è davvero notevole, come la coerenza con le
> immagini di partenza.
--------------------------------------------------------------------------------
LA MODALITÀ AGENTE DI CHATGPT
OpenAI, con ChatGPT Agent (modalità agente), lancia la risposta a sistemi come
Manus, l'Agent Mode di Gemini, Comet di Perplexity, e a tutti i sistemi di
automazione del browser e del computer.
Il sistema segna un'evoluzione significativa: un'AI che non solo ragiona, ma
agisce in modo autonomo, utilizzando un computer virtuale completo di browser
testuale e visuale, terminale, API, strumenti di generazione immagini e
connettori per applicazioni come Gmail, Google Calendar, GitHub e altre.
La Modalità Agente di ChatGPT
Può pianificare e completare task complessi — dall’analisi concorrenziale con
slide deck, alla pianificazione e prenotazione di eventi, alla creazione di
report finanziari aggiornati — scegliendo dinamicamente gli strumenti più adatti
e mantenendo il contesto anche su compiti lunghi e multi-step.
Tutto ciò in una modalità conversazionale e collaborativa, dove l’utente può
intervenire, correggere, guidare o delegare completamente.
L'agente chiede conferme esplicite prima di azioni sensibili, supporta takeover
manuale del browser, invia notifiche al termine dei task e può gestire
interruzioni, chiarimenti e modifiche in tempo reale.
Vai al Post
Le sue prestazioni stabiliscono nuovi SOTA:
* 44.4% su Humanity’s Last Exam con rollout parallelo;
* 27.4% su FrontierMath con uso di terminale e browser;
* 68.9% su BrowseComp (vs 51.5% deep research);
* 45.5% su SpreadsheetBench (vs 20% Copilot Excel).
> Risultati paragonabili o superiori agli analisti junior in benchmark di
> investment banking.
Il sistema è anche protetto da un robusto stack di sicurezza: controllo delle
azioni ad alto rischio, rifiuto di task sensibili, takeover privato del browser,
protezioni contro prompt injection e una classificazione “High Capability” per
rischi biochimici secondo il "Preparedness Framework".
> Rappresenta la prima reale implementazione su larga scala di un sistema
> agentico unificato e versatile, in grado di svolgere attività di valore
> economico reale, con autonomia, trasparenza e controllo.
TEST DELLA MODALITÀ AGENTE DI CHATGPT
Ho provato la funzionalità su diversi task, ad esempio l'acquisto online,
un'analisi di mercato, l'enrichment e l'ottimizzazione di feed per l'e-commerce.
Test dell'Agent Mode di ChatGPT
Acquisto online
Ho chiesto al modello di cercare la miglior racchetta da Padel con un
determinato budget, e di acquistarla in un sito web affidabile insieme a un set
di palline, verificando che il giorno di consegna non superasse una determinata
data. L'agente cerca informazioni online, individua il sito web e mette i
prodotti nel carrello. Successivamente mi dà la possibilità di fare login e di
procedere al pagamento.
Analisi di mercato
Ho usato un prompt molto articolato per spiegare l'esigenza (le componenti
dell'analisi). L'agente cerca informazioni autonomamente, producendo un
documento testuale, diagrammi, e una presentazione PowerPoint con gli elementi
chiave.
Feed dell'e-commerce
In questo caso, ho caricato un CSV, e per ogni prodotto del file l'agente ha
eseguito una serie di operazioni, tra cui l'arricchimento dei dati supportato
dalla web search, l'ottimizzazione e la generazione di nuovi testi, ecc..
l'output è stato un nuovo file CSV pronto all'uso.
> La funzionalità esegue i task correttamente. Fa qualche errore, ma trova altri
> modi per arrivare all'obiettivo. Per rilevare le informazioni tende a usare il
> browser testuale, mentre per le azioni quello visuale.
Un problema non banale? Le automazioni su diversi siti web vengono bloccate. Uno
a caso? Amazon!
Chissà se in futuro converrà ancora ad Amazon (e ad altri player) bloccare gli
agenti, se sistemi come questo diventeranno una modalità di acquisto diffusa.
Come si muoverà Google con la sua Agent Mode? Con i dati e la capacità di
integrazione che ha a disposizione Google, se l'agente funzionerà bene, credo
che ci farà dimenticare velocemente quella di ChatGPT.
--------------------------------------------------------------------------------
KIMI K2
Kimi K2 è un nuovo modello open-source sviluppato in Cina da Moonshot AI, e
rappresenta uno dei più potenti modelli agentici oggi disponibili.
Kimi K2: performance
Con 1 trilione di parametri totali e un'architettura Mixture-of-Experts, non si
limita a rispondere: esegue compiti complessi sfruttando strumenti, codice e
ragionamento.
Vai al Progetto
Rispetto ad altri modelli cinesi come DeepSeek-V3, mostra prestazioni superiori
su benchmark chiave: +6.8 punti su LiveCodeBench, +13 su SWE-bench Verified, e
+10 su GPQA-Diamond. In molte metriche batte anche modelli proprietari come
Claude 4 Sonnet e GPT-4.1, mantenendo al contempo la piena accessibilità del
codice.
Per provarlo
> Kimi K2 segna una svolta per l’open-source in Cina, combinando capacità
> agentiche reali, ottimizzazione token-efficient e reinforcement learning su
> larga scala.
TEST CON KIMI K2
Ho provato il modello su task di esempio sui quali sto lavorando in diversi
progetti.
Non si tratta di processi di ragionamento complessi, ma di prompt con un'elevata
quantità di istruzioni, l'uso di tool, e output strutturati.
> Sono partito con curiosità, e senza aspettative.. ma devo dire che ho concluso
> con stupore.
Kimi K2: test
> Sui task in cui l'ho provato, non dico che siamo al livello dell'output di
> Gemini 2.5 Pro, ma di GPT-4o e GPT-4.1 sì.
Il modello rispetta le indicazioni su contesti lunghissimi, comprensivi di web
search, e rispetta i formati strutturati: negli esempi si vedono output JSON su
cui il modello è stato addestrato.
La Deep Research ha un comportamento molto simile a quello di ChatGPT, e integra
una catena di ragionamento molto espansa. Da quello che ho visto, va anche più
in profondità rispetto ai competitor, e produce un riepilogo interattivo
automaticamente.
Un esempio di Deep Research
IL RAPPORTO TECNICO
Moonshot AI ha rilasciato un rapporto tecnico sul modello.
È un progetto innovativo non solo per le sue dimensioni, ma per il modo in cui
riformula l’intero processo di addestramento e deployment dei LLM.
Kimi K2 introduce MuonClip, un nuovo ottimizzatore che consente di scalare
l’addestramento su oltre 15 trilioni di token senza instabilità, grazie a un
meccanismo che evita gli sbalzi numerici tipici nei transformer. In termini più
semplici: è stato progettato per “digerire” enormi quantità di testo in modo
efficiente e sicuro, evitando errori che spesso bloccano modelli di questa
scala. Inoltre, invece di ripetere i dati all’infinito come fanno molti modelli,
Kimi adotta un approccio più intelligente: riscrive gli esempi (rephrasing) per
estrarne più valore, riducendo la ridondanza e migliorando l’apprendimento.
Un’altra novità chiave è l’intero ecosistema agentico costruito attorno al
modello: una pipeline in grado di generare strumenti digitali (oltre 23.000),
simulare ambienti interattivi, addestrare agenti con task multi-turn e
verificare i risultati con metriche oggettive. Questo consente al modello di
imparare non solo a rispondere, ma a "ragionare", pianificare e agire usando
strumenti esterni.
Vai al Report
Infine, il paper propone un framework di reinforcement learning ibrido: combina
ricompense verificabili con un sistema di self-critique che aiuta il modello a
confrontare le proprie risposte e imparare da sé.
> Un passo avanti verso modelli più autonomi, affidabili e realmente
> utilizzabili in contesti complessi.
--------------------------------------------------------------------------------
INTELLIGENZA ARTIFICIALE: CAPIRE IL POTERE, SCEGLIERE LA DIREZIONE
Il mio talk del TEDxBergamo dal titolo "Intelligenza Artificiale: capire il
potere, scegliere la direzione" è stato pubblicato.
Intelligenza Artificiale: capire il potere, scegliere la direzione
Ho avuto il privilegio di condividere questa esperienza con un gruppo di persone
straordinarie (relatori, organizzatori e volontari) in un'edizione guidata da un
tema tanto affascinante quanto attuale: POTERE.
Un concetto che si intreccia in modo indissolubile con la tecnologia che sta
ridefinendo il nostro presente e il nostro futuro.
> Il vero potere non è nell'intelligenza artificiale, il vero potere è nel saper
> utilizzare al meglio questa potentissima leva, scegliendo consapevolmente come
> e dove spostare i massi.
--------------------------------------------------------------------------------
UN'APPLICAZIONE AI BASATA SU UN WORKFLOW MULTI-AGENTE IN AZIONE
Il sistema è costruito su un'architettura LangGraph con diversi agenti che si
basano sul modello selezionato nelle opzioni.
Un'applicazione AI basata su un workflow multi-agente in azione
In base alla query di ricerca indicata, analizza l'AI Overview estraendo i
contenuti dalle fonti e anche dagli altri risultati nella SERP di Google.
Misura la pertinenza semantica delle risposte fornite delle fonti, e, in base ai
dati, crea delle risposte più pertinenti in modo iterativo.
Infine, crea un piano d'azione per l'ottimizzazione della pagina di interesse,
elaborando i dati a disposizione.
Nell'interazione tra gli agenti (che si vede nella sidebar di sinistra) applico
una forma del paradigma ReAct, in cui un agente produce un'analisi e un altro
(l'esecutore) applica le indicazioni dell'analisi per ottimizzare la risposta.
> Le performance, anche con modelli più piccoli (es. Gemini 2.5 Flash), sono
> molto interessanti.
--------------------------------------------------------------------------------
COSTRUIRE UN AGENTE AI? QUESTIONE DI METODO!
Costruire un agente AI utile non è questione di hype o fantascienza, ma di
metodo. In un'epoca in cui tutti parlano di "agentic workflows", il valore
emerge solo partendo da problemi reali, obiettivi chiari e un approccio
iterativo.
Il primo passo è definire il compito dell’agente, con realismo. Scegliamo
un'attività che si spiegherebbe a uno stagista competente. Se non abbiamo 5-10
esempi concreti, l'idea è troppo vaga. Gli agenti non servono per automatizzare
ciò che è già gestito da software tradizionali: servono dove ci sono ambiguità,
decisioni da prendere, contesto da interpretare.
Poi si scrive una procedura operativa, come se fosse per un umano. Questo aiuta
a capire quali decisioni automatizzare e quali strumenti servono. Se non
sappiamo come farebbe una persona, sarà difficile automatizzarlo bene.
Solo dopo si costruisce il primo MVP, limitato al cuore: il prompt. Si testa se
il modello riesce a svolgere un compito cognitivo, tipo classificare un'email.
Il resto è ancora manuale. Se il modello non ragiona bene in piccolo, non ha
senso costruire il resto.
Quando il "cuore" funziona, si passa alla connessione con dati reali (API,
calendari, email…). L’orchestrazione trasforma il ragionamento statico in un
sistema dinamico e adattivo.
Poi si testa e si itera: prima manualmente, poi in modo automatizzato, con
metriche (accuratezza, tono, rilevanza, uso degli strumenti). I test rivelano
punti forti e limiti, e guidano i miglioramenti.
Solo quando l’agente è affidabile si rilascia in produzione. Ma il deployment è
solo l’inizio: gli utenti lo useranno in modi imprevisti, e il feedback sarà
chiave per evolverlo. Tracciare il comportamento è essenziale.
> Messaggio chiave: un agente ben fatto non è un esperimento, ma un prodotto.
> Serve disciplina, chiarezza, ascolto e iterazione continua. Solo così si passa
> dalla teoria all’impatto.
How to Build an Agent
Learn how to build an agent -- from choosing realistic task examples, to
building the MVP to testing quality and safety, to deploying in production.
LangChain BlogLangChain
--------------------------------------------------------------------------------
CONTEXT ENGINEERING
"Context Engineering" è un buon termine, ma (oggi) non è ancora sufficiente.
Dal 2023, nelle lezioni che tengo, ho una slide molto simile all'immagine del
post di LangChain, che fa capire che la struttura del prompt è solo una parte
delle applicazioni basate su modelli AI.
Context Engineering - LangChain
È la costruzione del contesto la vera chiave di un agente efficace. E quindi
comprende lo studio dei dati e delle informazioni necessari, la loro estrazione,
come farli gestire al modello.
Vai al Post
Contesto significa anche efficienza: riutilizzare piani precedenti tramite
vector store, evitare rumore informativo e ottimizzare i costi. Il contesto
giusto fa la differenza tra una risposta approssimativa e una soluzione
intelligente.
Vai alla Guida
Tutto questo basta per creare un buon agente, ma per un'applicazione mancano
altri dettagli.
Come avviene l'interazione tra i diversi agenti? Sequenziale? Orchestrata? Quale
framework è meglio usare? Basato su scambi conversazionali o stateful?
> Insomma.. per creare buoni agenti, non bastano buoni prompt, servono anche
> contesti perfetti, e un'interazione ben studiata tra i diversi "attori" in
> gioco.
--------------------------------------------------------------------------------
PROMPT DESIGN: L'IMPORTANZA DELLE ISTRUZIONI PRECISE
Meta e OpenAI hanno pubblicato nello stesso giorno una guida per la migrazione
dei prompt per i rispettivi modelli.
Due librerie Python che permettono di inserire il prompt di partenza e di
ottenere quello ottimizzato per i modelli GPT e Llama.
Guide per la migrazione dei prompt
Mi ha colpito una frase della documentazione di OpenAI:
> "as model gets smarter, there is a consistent need to adapt prompts that were
> originally tailored to earlier models' limitations, ensuring they remain
> effective and clear for newer generations".
In pratica, mentre prima si costruivano istruzioni iper precise e dettagliate a
causa delle scarse performance dei modelli, ora, al contrario, invitano a farlo
vista l'elevata capacità di comprensione degli input dei modelli attuali.
Vai alla guida di OpenAI
Vai alla guida di Meta
--------------------------------------------------------------------------------
GOOGLE: DALLA RICERCA A UNA "DEEP SEARCH"
> La Deep Research direttamente sulla pagina di ricerca di Google?
Come ho detto al Search Marketing Connect l'anno scorso, andiamo verso ricerche
basate su interazioni agentiche.
Google Search si evolve con nuove funzionalità AI basate sui modelli Gemini 2.5
Pro. Gli abbonati a Google AI Pro e Ultra possono ora accedere a Deep Search,
uno strumento avanzato che esegue centinaia di ricerche per generare report
dettagliati e con fonti in pochi minuti. Perfetto per chi deve affrontare
analisi complesse.
0:00
/0:57
1×
Google: dalla ricerca a una Deep Search
Inoltre, arriva la possibilità di chiamare le attività locali tramite AI: basta
una ricerca per far sì che Google contatti direttamente negozi o servizi per
verificare prezzi e disponibilità, il tutto senza sollevare la cornetta.
Vai al Post
> Un passo avanti verso un'esperienza sempre più efficiente e automatizzata.
--------------------------------------------------------------------------------
WEB GUIDE DI GOOGLE
Google ha presentato Web Guide, un nuovo esperimento dei Search Labs che punta a
migliorare l’esperienza di ricerca online grazie all'AI.
Utilizzando una versione personalizzata del modello Gemini, Web Guide organizza
i risultati della ricerca in gruppi tematici, aiutando gli utenti a orientarsi
meglio tra le informazioni disponibili sul web.
0:00
/0:07
1×
Web Guide di Google
> L'ho provato, e, in effetti si nota come cambia la configurazione della SERP.
Questo approccio è particolarmente utile per ricerche aperte o complesse, dove
trovare contenuti pertinenti può essere più difficile. Web Guide applica una
tecnica chiamata query "fan-out", che genera più ricerche correlate in
parallelo, permettendo di identificare i risultati più rilevanti e approfonditi.
Vai al Post
Attualmente disponibile nella scheda "Web" per chi ha attivato i Search Labs,
rappresenta un primo passo verso un’interazione più strutturata e intelligente
con la rete.
--------------------------------------------------------------------------------
GROK 4: IL NUOVO MODELLO DI XAI
xAI qualche giorno fa ha presentato la nuova versione di Grok, che sembra già il
modello più potente sul mercato.
Performance da capogiro: Grok 4 non si è limitato a migliorare, ha letteralmente
sbaragliato la concorrenza su benchmark estremamente difficili. Ha affrontato
"Humanity's Last Exam", un test con domande a livello di dottorato, e ha
superato tutti i modelli rivali (inclusi Claude e Gemini). La versione Grok 4
Heavy ha addirittura raggiunto il 50.7%, quasi il doppio del secondo
classificato.
Le performance di Grok 4: il nuovo modello di xAI
La chiave del miglioramento continua ad essere nella scala: xAI non ha svelato i
dettagli interni del modello, ma ha chiarito che il salto qualitativo arriva da
una scala di calcolo senza precedenti. Il compute usato per l’addestramento è
aumentato di 10x rispetto a Grok 3 (e 100x rispetto a Grok 2). L'hardware usato?
Oltre 100.000 GPU NVIDIA H100, e in futuro oltre 100.000 GPU GB200.
Ragionamento come superpotere: il punto di forza è il "reasoning", definito dal
team "sovrumano". xAI ha dedicato 10x più calcolo al Reinforcement Learning
rispetto a Grok 3, affinando il modello per correggere i propri errori e
ragionare dai principi primi. La modalità Grok 4 Heavy non è una versione più
grande, ma un’inferenza “collaborativa”: più agenti lavorano sullo stesso
problema, confrontano le risposte e decidono insieme quella più solida. Una
sorta di gruppo di studio AI.
> Introducing Grok 4, the world's most powerful AI model. Watch the livestream
> now: https://t.co/59iDX5s2ck
>
> — xAI (@xai) July 10, 2025
In test pratici come "Vending-Bench", Grok 4 ha elaborato strategie di business
migliori di quelle umane, mantenendo coerenza a lungo termine.
Nei diagrammi precedenti, si vede come il modello domina il benchmark ARC-AGI 2,
superando (di molto) o3, Gemini 2.5 Pro e Claude.
> Aspettiamoci discussioni sui benchmark e sul possibile overfitting (dati
> falsati da training sui benchmark) nelle prossime settimane, ma la direzione è
> chiara: capacità e architetture in crescita rapida, costi in calo.
> Nel frattempo, anche OpenAI prepara il lancio di GPT-5.
--------------------------------------------------------------------------------
CHROME MCP SERVER
Chrome MCP Server è un'estensione per Chrome che trasforma il browser in un
assistente AI avanzato.
È basato su Model Context Protocol (MCP), e consente ai LLM come Claude di
controllare direttamente il browser per automatizzare attività complesse,
analizzare contenuti e gestire la navigazione in modo intelligente.
A differenza degli strumenti tradizionali come Playwright, Chrome MCP Server
lavora direttamente con l'ambiente reale: utilizza le sessioni di login,
configurazioni, segnalibri e cronologia, garantendo allo stesso tempo piena
operatività in locale per la massima privacy.
Vai al Progetto
Con oltre 20 strumenti integrati, offre funzionalità come screenshot
intelligenti, analisi semantica, gestione della cronologia e interazione
automatica con le pagine web. Include anche un database vettoriale interno per
ricerche contestuali tra le tab del browser.
--------------------------------------------------------------------------------
IL SERVER MCP DI SHOPIFY
Un esempio interessante di server MCP (Model Context Protocol) remoto: Shopify.
Nelle Responses API di OpenAI la connessione è realizzabile semplicemente
incollando il link del server MCP nel campo del connettore.
0:00
/0:26
1×
Server MCP di Shopify su un agent OpenAI
Si crea così un agent connesso al server MCP di Storefront che può cercare
prodotti, aggiungere articoli al carrello, creare un link di pagamento, ecc..
L'agente rimane personalizzabile attraverso il system prompt e l'accesso ad
altre fonti esterne o altri server MCP.
> E se il server, in futuro introdurrà nuove funzionalità, la configurazione non
> cambierà, e l'agent potrà sfruttarle immediatamente.
--------------------------------------------------------------------------------
I CORSI GRATUITI DI ANTHROPIC
Anthropic ha rilasciato una sezione dedicata ai corsi: una piattaforma didattica
gratuita per approfondire l'uso di Claude, dall'API Anthropic a MCP fino alle
best practice di Claude Code.
I corsi di Anthropic
I corsi includono lezioni, quiz finali e certificati. Ogni corso affronta casi
di utilizzo reali e dettagli pratici di implementazione, ed è stato realizzato
con il contributo degli sviluppatori che già utilizzano Claude in produzione.
Vai ai Corsi
Ho fatto il corso e l'esame su MCP (Model Context Protocol). Le lezioni sono
fatte benissimo, chiare, con esempi utili e slide ben organizzate.
> Si tratta di una risorsa estremamente utile per chi vuole approfondire lo
> sviluppo di applicazioni basate su LLM.
--------------------------------------------------------------------------------
FEATURED NOTEBOOKS DI NOTEBOOKLM
NotebookLM si arricchisce con i nuovi Featured Notebooks: notebook tematici
curati da esperti e istituzioni come The Economist, The Atlantic, Our World in
Data e altri.
Dalla scienza alla letteratura, dalla finanza alla genitorialità, ogni notebook
è una raccolta approfondita di contenuti esplorabili grazie all'intelligenza
artificiale.
Featured Notebooks di NotebookLM
> È possibile leggere le fonti originali, porre domande, ascoltare panoramiche
> audio e navigare concetti con mappe mentali.
Vai al Post
Oltre 140.000 notebook pubblici sono già stati condivisi dalla community: una
nuova forma di apprendimento collaborativo e dinamico prende forma.
--------------------------------------------------------------------------------
ACT-TWO DI RUNWAY
> Dopo Act-One, Runway presenta Act-Two.
Il sistema consente di creare scene altamente espressive, interamente guidate
dalle sfumature interpretative degli attori. Il ritmo, la recitazione, il
linguaggio del corpo e le espressioni più sottili vengono fedelmente trasferiti
dalle performance originali ai personaggi generati.
> Act-Two allows you to create highly expressive scenes entirely driven by the
> nuanced performances of your actors. The timing, delivery, body language and
> subtle expressions are all faithfully transposed from your driving
> performances to your generated characters.
>
> Learn more… pic.twitter.com/IAY8iZtfIK
>
> — Runway (@runwayml) July 16, 2025
La serie "Act" di Runway permette di creare video con personaggi espressivi
utilizzando un singolo video di guida e un'immagine del personaggio.
Vai al Post
ALEPH: UNA SVOLTA NELL'EDITING VIDEO
Runway, inoltre, ha presentato Aleph, un nuovo modello video “in-context” che
segna un punto di svolta nell’editing e nella generazione visiva.
0:00
/1:06
1×
Aleph di Runway
Consente di intervenire su un video in modo fluido e intuitivo: è possibile
aggiungere, rimuovere o trasformare oggetti, generare nuove angolazioni di una
scena, e modificare lo stile o l’illuminazione con un livello di controllo mai
visto prima.
Vai al Post
> Pensato per soddisfare le esigenze di creativi e professionisti, questo
> modello multi-task apre nuove possibilità per raccontare storie visive in modo
> dinamico, preciso e completamente personalizzabile.
--------------------------------------------------------------------------------
GEMINI EMBEDDING
Il nuovo modello Gemini Embedding (gemini-embedding-001) è ora disponibile
pubblicamente tramite l’API Gemini e Vertex AI.
Gemini Embedding now generally available in the Gemini API- Google Developers
Blog
Explore the Gemini Embedding text model now generally available in the Gemini
API and Vertex AI, offering versatile language support.
Google for DevelopersMin Choi
Con prestazioni da leader nella classifica MTEB Multilingual, questo modello
supporta oltre 100 lingue, una lunghezza massima di 2048 token, ed è ottimizzato
con la tecnica Matryoshka Representation Learning (MRL) per output flessibili da
768 a 3072 dimensioni.
Pensato per compiti avanzati come retrieval, classificazione e embedding
cross-domain (scienza, finanza, legge, codice), può essere usato da subito con
l’endpoint "embed_content". Disponibile in versione gratuita e a pagamento, a
partire da 0.15 dollari per milione di token in input.
Un approfondimento sugli embeddings
> I modelli legacy verranno dismessi tra agosto 2025 e gennaio 2026.
--------------------------------------------------------------------------------
LA SEGMENTAZIONE DELLE IMMAGINI DI GEMINI
L'AI di Google fa un salto evolutivo con Gemini 2.5: ora è possibile segmentare
immagini tramite linguaggio naturale, andando oltre le classiche etichette
predefinite.
Nelle immagini si vedono alcuni test che ho fatto su AI Studio.
La segmentazione delle immagini di Gemini
Provalo su AI Studio
Basta descrivere ciò che si vuole individuare, anche con frasi complesse,
concetti astratti o condizioni logiche. Il modello riconosce relazioni tra
oggetti (“la persona che tiene l’ombrello”), situazioni (“chi non indossa un
casco”) o anche danni (“case colpite dal maltempo”), ed è capace di leggere il
testo all’interno delle immagini.
Vai al Post
Tutto questo funziona in più lingue e si integra facilmente via API. Un
approccio rivoluzionario per la visione artificiale, con applicazioni che
spaziano dalla creatività al monitoraggio industriale.
--------------------------------------------------------------------------------
GEMMA 3N IN LOCALE SU UNO SMARTPHONE
Gemma 3n di Google in azione su task multimodali in locale sul mio smartphone.
Negli esempi si vede come il modello interpreta il contenuto delle immagini,
estraendo le informazioni richieste.
Gemma 3n in locale su uno smartphone
> Sembra una banalità, ma l'aspetto straordinario è che il LLM sta funzionando
> in locale su un dispositivo con un hardware limitatissimo.
--------------------------------------------------------------------------------
L'EVOLUZIONE DELLA CHAT DI MISTRAL
Mistral AI evolve la sua chat con nuove funzionalità pensate per potenziare
produttività, creatività e ricerca.
La modalità Deep Research trasforma l’assistente in un vero ricercatore
virtuale: analizza, struttura e sintetizza fonti affidabili per rispondere anche
alle domande più complesse. L'ho provato nella versione free. Il sistema fa
molto bene il suo lavoro, ma ormai la concorrenza su questo task è altissima.
La Deep Research di Mistral: un test
Con il nuovo modello vocale Voxtral, parlare con "Le Chat" diventa naturale e
istantaneo, mentre il modello Magistral potenzia il ragionamento multilingua,
permettendo risposte articolate anche cambiando lingua a metà frase.
Arrivano anche i "Progetti", spazi organizzati che memorizzano conversazioni,
file e strumenti per una gestione del lavoro più ordinata. Infine, l’editing
avanzato delle immagini consente modifiche dettagliate e coerenti con semplici
comandi in linguaggio naturale.
Vai al Post
> Una suite sempre più completa per chi lavora, crea o esplora, ma che si
> scontra con agenti (anche open source) sempre più performanti.
--------------------------------------------------------------------------------
TRANSFORMER / MIXTURE OF EXPERTS (MOE)
Qual è la differenza tra un Transformer standard e un modello Mixture of Experts
(MoE)?
Entrambi sono usati per compiti come la generazione di testo, la traduzione
automatica o la comprensione del linguaggio. Ma il modo in cui elaborano le
informazioni è molto diverso.
Transformer / Mixture of Experts (MoE)
Transformer standard
Ogni parola (token) viene elaborata attraverso un'unica grande rete neurale,
chiamata feed-forward network. È come avere un solo medico esperto che deve
occuparsi di ogni paziente, indipendentemente dal problema. Funziona, ma
richiede molta potenza computazionale.
Mixture of Experts (MoE)
Introduce un "Router", un componente che decide quali tra i tanti "esperti"
(reti neurali specializzate) devono occuparsi di ciascun token. Solo uno o due
esperti vengono attivati per ogni input. È come avere un receptionist che smista
ogni paziente allo specialista più adatto: cardiologo, ortopedico, neurologo,
ecc..
Questo approccio rende il modello molto più efficiente: si può aumentare il
numero totale di parametri (quindi la conoscenza globale del modello) senza far
crescere in proporzione il costo di elaborazione per ogni singolo input.
> I modelli all'avanguardia adottano proprio l'architettura MoE per combinare
> potenza e scalabilità.
--------------------------------------------------------------------------------
LA MODALITÀ BATCH PER L’API GEMINI
Anche Google ha lanciato la Modalità Batch per l’API Gemini, pensata per gestire
in modo efficiente carichi di lavoro AI su larga scala, quando non è necessaria
una risposta in tempo reale.
Un esempio di utilizzo della modalità batch
Questa modalità asincrona consente di inviare grandi volumi di richieste in un
unico file, demandare la gestione del job a Google e ricevere i risultati entro
24 ore. Il tutto con un costo ridotto del 50% rispetto alle API sincrone.
Vai alla Documentazione
È la soluzione ideale per attività come la generazione di contenuti, l’analisi
di dati, o la valutazione di modelli: tutti quei casi in cui i dati sono pronti
in anticipo e si punta a massimizzare efficienza e risparmio.
In più, la modalità batch offre un throughput superiore e semplifica il codice
lato client, eliminando la necessità di gestire code o logiche di retry.
Un Colab per provarla
> Un approccio semplice, potente e scalabile per portare l’AI a un nuovo livello
> di produttività. Nei miei test ho trovato un bug nell'uso di questo sistema
> unito alla web search (un riferimento).
--------------------------------------------------------------------------------
PHYSX-3D: UN NUOVO PARADIGMA PER LA GENERAZIONE DI 3D
PhysX-3D introduce un nuovo paradigma nella generazione di asset 3D, dove
l’aspetto visivo degli oggetti è accompagnato da una modellazione fisica
realistica e strutturata. A differenza dei modelli tradizionali che si
concentrano su geometrie e texture, PhysX-3D integra conoscenze fisiche
fondamentali per rendere gli oggetti utilizzabili in contesti concreti come la
simulazione, la robotica e l’AI incarnata.
PhysX-3D: un nuovo paradigma per la generazione di 3D
Al centro del progetto ci sono due componenti chiave. PhysXNet è il primo
dataset 3D annotato con proprietà fisiche dettagliate — tra cui scala assoluta,
materiali, funzioni, cinematiche e affordance — costruito attraverso un processo
di annotazione automatizzato e validato con intervento umano. PhysXGen, invece,
è un framework generativo che partendo da immagini produce asset 3D fisicamente
plausibili, mantenendo alta la qualità geometrica e integrando le proprietà
fisiche in fase di generazione.
Vai al Progetto
> Questo approccio permette di creare oggetti che non solo appaiono credibili,
> ma che rispondono in modo coerente all’ambiente simulato, ponendo le basi per
> una nuova generazione di AI fisicamente consapevoli.
--------------------------------------------------------------------------------
CODE OF PRACTICE PER I MODELLI DI AI GENERALI
È stato pubblicato il Code of Practice per i modelli di AI generali (GPAI), un
documento volontario sviluppato da esperti indipendenti con il contributo di
oltre 1.400 soggetti da industria, università, società civile e Stati membri UE.
Code of Practice per i modelli di AI generali (GPAI)
Il Codice aiuta i fornitori di modelli AI a dimostrare la conformità agli
obblighi dell’AI Act, senza introdurre nuovi vincoli.
È diviso in tre capitoli:
1. Trasparenza, con un modello documentale standard;
2. Copyright, con misure per rispettare i diritti d’autore e le riserve
machine-readable;
3. Sicurezza, pensato solo per i modelli con rischio sistemico, cioè quelli più
avanzati e ad alto impatto secondo l’AI Act.
Tra i vantaggi:
* maggiore chiarezza su cosa fare per essere conformi;
* riduzione del carico amministrativo grazie a un percorso unico e condiviso;
* rafforzamento della fiducia e del dialogo tra sviluppatori, utenti, autorità
e società civile;
* maggiore prevedibilità normativa, soprattutto in vista dell’entrata in vigore
degli obblighi a partire dal 2 agosto 2025.
Ci sono però anche dei limiti:
* è uno strumento non vincolante, che richiede adesione volontaria;
* alcune misure richiedono un forte investimento tecnico e organizzativo;
* resta la necessità di chiarimenti su concetti ancora ambigui come “sistemico”
o “accettabilità del rischio”.
Vai al Documento
Non è rivolto solo agli sviluppatori: anche le aziende che usano modelli GPAI
(ad esempio integrandoli in prodotti, servizi o processi decisionali) dipendono
da questo Codice per accedere alle informazioni tecniche e legali necessarie. In
alcuni casi, diventano esse stesse soggetti agli obblighi dell’AI Act.
> Un passo concreto per favorire l’innovazione responsabile e la cooperazione
> tra tutti gli attori dell’ecosistema AI europeo.
--------------------------------------------------------------------------------
LA WEB SEARCH SU AGENTI AI DOTATI DI MODELLI CON "REASONING"
Qual è la differenza tra usare la Web Search in agenti dotati di "reasoning" e
non?
Ad esempio usando GPT-4.1 oppure #o3.
È un concetto totalmente diverso.
* Su modelli come GPT-4.1 il sistema usa la ricerca seguendo lo schema: ricerca
→ ragiona → risponde.
* Su modelli con "reasoning" (come o3), il sistema adotta una strategia di
ricerca multi‑step e iterativa, ovvero usa la ricerca in base alla catena di
ragionamento, quando gli serve, per verificare informazioni e/o espanderle,
in base alle istruzioni.
> Le performance del flusso con reasoning crescono notevolmente, ma crescono
> notevolmente anche i costi. Aumentano vertiginosamente i token consumati, e le
> web search hanno un costo unitario.
--------------------------------------------------------------------------------
GOOGLE-COLAB-AI: UNA NUOVA LIBRERIA NATIVA
Google Colab ha una nuova libreria nativa dedicata all'AI: google-colab-ai.
Non serve setup, né l'API KEY di Gemini, e permette di usare i modelli a
disposizione (nell'immagine) con qualche riga di Python e i prompt per
interagire.
google-colab-ai: una nuova libreria nativa
> La prototipazione di applicazioni e script diventa sempre più semplice.
Vai al Post
La funzionalità è attiva per gli utenti Pro e Pro+.
--------------------------------------------------------------------------------
IL FUTURO DELL'AI AGENTICA È SMALL?
Secondo NVIDIA Research, gli Small Language Models (SLMs) offrono una
combinazione vincente: potenza sufficiente, maggiore efficienza operativa e
costi drasticamente inferiori rispetto ai Large Language Models (LLMs).
Small Language Models are the Future of Agentic AI
* I task degli agenti sono spesso ripetitivi, focalizzati e non
conversazionali: per questo, gli SLM sono più adatti.
* Sono fino a 30 volte più efficienti in termini di latenza, energia e costi.
* Possono essere facilmente fine-tuned e distribuiti su dispositivi locali.
* Consentono architetture modulari e sistemi eterogenei con più modelli
specializzati.
* Abilitano un’AI più accessibile, adattabile e sostenibile.
Studi su agenti reali (MetaGPT, Open Operator, Cradle) mostrano che tra il 40% e
il 70% delle chiamate a LLM potrebbero essere sostituite da SLM specializzati
senza sacrificare la qualità.
Vai al Paper
> Sono d'accordo con lo studio: chiunque abbia fatto dei test può confermare la
> tesi del paper. Tuttavia, in alcuni processi che ho visto in azione, il
> rapporto benefici/costi è talmente alto che spesso la ricerca di efficienza in
> questa direzione non è ancora giustificabile.
--------------------------------------------------------------------------------
NOTEBOOKLLAMA: UN NOTEBOOKLM OPEN-SOURCE
NotebookLlama è un'alternativa open-source a NotebookLM basata su LlamaCloud.
Un'applicazione potente, locale e personalizzabile per interagire con i
documenti usando LLM, sintesi vocale (ElevenLabs) e indicizzazione avanzata.
0:00
/0:56
1×
NotebookLlama
* Totalmente open-source (MIT).
* Supporta LLM tramite OpenAI.
* Interfaccia semplice con Streamlit.
* Integrazione con Postgres, Jaeger e LlamaCloud.
* Setup rapido: si clona il progetto, si configurano le API, si lanciano i
server… ed è tutto pronto.
Vai al Progetto
> Un progetto perfetto per chi cerca controllo, trasparenza e flessibilità nel
> lavoro con agenti AI sui propri contenuti.
--------------------------------------------------------------------------------
LA DEEP RESEARCH DI OPENAI VIA API: UN TEST
Un esempio dell'esecuzione delle Deep Research via API di OpenAI.
Per l'esecuzione suggerisco di forzare il timeout dell'oggetto "openai", perché
l'elaborazione non è veloce come una normale chiamata API.
La Deep Research di OpenAI via API: un test
[Errore] Negli esempi della documentazione è presente un errore nella stampa
delle query coinvolte. Quello che segue è il mio notebook attraverso il quale si
può provare l'API personalizzando i prompt (dove ho corretto l'errore).
Vai al notebook Colab
--------------------------------------------------------------------------------
GEMINI FOR EDUCATION: L'AI NELLA DIDATTICA DIGITALE
Durante l’ISTE 2025, Google ha annunciato un’importante evoluzione
nell’integrazione dell’intelligenza artificiale nel mondo dell’istruzione con il
lancio di Gemini for Education, una suite di strumenti pensata appositamente per
studenti e insegnanti.
Ogni istituto (dalle primarie alle università) potrà accedere ai modelli AI più
avanzati (Gemini 2.5 Pro), con protezione dati di livello enterprise, maggiore
controllo amministrativo e inclusione gratuita per chi ha già Workspace for
Education. Un passo che punta a democratizzare l’uso dell’AI nel settore
educativo, garantendo però sicurezza, affidabilità e governance.
Gemini for Education
Google ha introdotto, inoltre, oltre 30 nuove funzionalità AI a supporto della
didattica:
* Gemini in Classroom, disponibile gratuitamente in tutte le edizioni di
Workspace, aiuta gli insegnanti a pianificare e differenziare le lezioni in
modo rapido, ad esempio generando liste di vocaboli, frasi esempio e quiz
personalizzati.
* Gems, gli esperti AI personalizzati creati dagli insegnanti, potranno presto
essere condivisi tra colleghi, creando una rete di "intelligenze digitali" a
supporto dei corsi.
* NotebookLM si espande con Video Overviews, che permettono di trasformare
appunti e materiali di studio in brevi video educativi.
* Google Vids con Veo 3 consente ora di creare video da 8 secondi con effetti
audio per comunicazioni rapide o contenuti STEM.
Anche gli studenti (dai 18 anni in su) possono ora sfruttare Gemini Canvas per
generare quiz personalizzati e ricevere spiegazioni visive, come diagrammi
interattivi, mentre l’estensione agli studenti più giovani è attesa nelle
prossime settimane. Sarà inoltre possibile assegnare esercizi, Gems e notebook
direttamente da Google Classroom, Schoology o Canvas, potenziando
l’apprendimento personalizzato.
Grande attenzione è stata data alla sicurezza dei minori: onboarding con
alfabetizzazione AI, filtri sui contenuti, protezioni rafforzate per i dati e
divieto di utilizzo delle interazioni per addestrare i modelli. Gemini è ora uno
strumento AI responsabile, trasparente e adattabile ai contesti educativi reali,
pensato per dare più potere decisionale a studenti e insegnanti.
Vai alla Presentazione
> Google prova a segnare un punto di svolta nella didattica digitale. L’AI non è
> più un accessorio, ma uno strumento centrale per ripensare l’esperienza
> educativa in chiave personalizzata, inclusiva e sicura.
--------------------------------------------------------------------------------
"STUDIAMO INSIEME" DI OPENAI
OpenAI introduce la funzionalità "Studiamo insieme" su ChatGPT.
Si tratta di un sistema che cerca di spingere l'utente alla comprensione per
gradi, invece di produrre una risposta risolutiva, unendo il "reasoning" e la
ricerca online.
Nell'esempio mi faccio spiegare il Teorema di Pitagora. Come si vede, il modello
fa domande di follow-up per capire a che punto sono, mi chiede cosa ho capito, e
mi guida fino a degli esempi pratici.
"Studiamo insieme" di OpenAI
> L'attenzione per l'ambito istruzione (nello sviluppo degli agenti che
> interagiscono con gli utenti) si sta alzando. Questo è un bene.
--------------------------------------------------------------------------------
L’IA PUÒ SUPERARE I MEDICI NELLA DIAGNOSI?
Dopo AMIE di Google, un nuovo studio di Microsoft AI mette alla prova questo
concetto.
È stato creato SDBench, un benchmark realistico basato su 304 casi clinici
complessi del New England Journal of Medicine. A differenza dei soliti quiz a
scelta multipla, qui l’IA (o il medico) deve fare domande, ordinare esami e
decidere quando è pronta per diagnosticare — proprio come in un vero
ambulatorio.
Con questo framework, hanno sviluppato MAI-DxO, un sistema che simula un gruppo
di medici virtuali con ruoli diversi: uno ipotizza diagnosi, un altro propone
test, uno vigila sui costi, un altro cerca errori.
MAI-DxO: funzionamento e performance
I risultati? MAI-DxO ha raggiunto l’85,5% di accuratezza diagnostica, superando
i medici (fermi al 20%) e riducendo i costi fino al 70% rispetto a modelli AI
non orchestrati.
Vai allo Studio
> Questo approccio non solo migliora la precisione, ma dimostra quanto conti
> l’organizzazione del pensiero clinico.
> Non serve solo un buon modello: serve anche una buona strategia.
--------------------------------------------------------------------------------
ENERGY-BASED TRANSFORMERS (EBTS)
Il paper "Energy-Based Transformers are Scalable Learners and Thinkers"
introduce una nuova classe di modelli chiamati Energy-Based Transformers (EBTs),
che combinano i Transformer con i modelli basati su "energia" (Energy-Based
Models, EBMs).
L'obiettivo è far emergere capacità di ragionamento più profonde — simili al
"System 2 Thinking" umano — interamente tramite apprendimento non
supervisionato.
Energy-Based Transformers (EBTs)
A differenza dei modelli classici che producono output in un solo passaggio, gli
EBTs imparano a verificare se una predizione è coerente con il contesto,
assegnandole un valore di energia: più bassa è l’energia, più plausibile è la
predizione.
Il processo di inferenza diventa così un’ottimizzazione iterativa, in cui il
modello "pensa" più a lungo per problemi difficili, migliorando le prestazioni
su dati complessi o fuori distribuzione.
EBTs riescono anche a stimare l’incertezza in spazi continui (es. visione
artificiale) e a generalizzare meglio rispetto ai Transformer tradizionali.
Inoltre, scalano più efficientemente su tutti i fronti: dati, parametri,
profondità, e computazione.
Vai al Paper
> Questo approccio potrebbe rappresentare una svolta nella progettazione dei
> foundation models del futuro.
--------------------------------------------------------------------------------
ARC-AGI-3
ARC-AGI-3 è il nuovo benchmark interattivo per valutare l’intelligenza generale
degli agenti AI. Appena presentato in anteprima, testa la capacità degli agenti
di imparare da zero in ambienti mai visti prima, senza istruzioni né prompt.
ARC-AGI-3
Details about ARC-AGI-3
ARC Prize
Gli agenti si confrontano con giochi complessi in mondi a griglia, dove devono
esplorare, pianificare, usare la memoria e riflettere, proprio come farebbe un
essere umano.
Gli attuali modelli di frontiera, inclusi Grok 4 e o3, non riescono a risolvere
nemmeno un compito. Gli esseri umani, invece, li completano in meno di 5 minuti.
> ARC-AGI-3 segna un cambio di paradigma: non valuta quanto sa un agente, ma
> quanto riesce ad imparare in ambienti interattivi, senza aiuti, proprio come
> un essere umano.
--------------------------------------------------------------------------------
- GRAZIE -
Se hai apprezzato il contenuto, puoi
contribuire al progetto con una donazione 🙂
ISCRIVITI ALLA NEWSLETTER
Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su
tematiche relative all'intelligenza artificiale.
Iscriviti alla Newsletter
Email sent! Check your inbox to complete your signup.
Gratuita. No Spam. Puoi disiscriverti quando vuoi.
Consulta la privacy policy.
Salire sul palco del TEDxBergamo è stata un’esperienza profonda e arricchente.
Ho avuto il privilegio di condividerla con un gruppo di persone straordinarie —
relatori, organizzatori e volontari — in un’edizione guidata da un tema tanto
affascinante quanto attuale: Potere.
Un concetto che si intreccia in modo indissolubile con la tecnologia che sta
ridefinendo il nostro presente e il nostro futuro.
> In questo contenuto ho voluto rielaborare l’idea che ho portato sul palco, per
> condividerla con chi desidera approfondirla.
Intelligenza artificiale: capire il potere, scegliere la direzione - TEDxBergamo
Fin dall’antichità, l’essere umano ha sempre dovuto affrontare la necessità di
spostare grossi massi per costruire grandi opere. È accaduto nel passato, accade
nel presente e continuerà ad accadere nel futuro. Se nei tempi antichi usavamo
leve e rulli di legno per edificare i templi greci, oggi impieghiamo enormi gru
per costruire ponti e infrastrutture moderne. Domani, strumenti ancora più
sofisticati entreranno in gioco.
> I "massi" da spostare – cioè i problemi da risolvere e i bisogni da soddisfare
> – rimangono fondamentalmente gli stessi; ciò che cambia sono le "leve", gli
> strumenti con cui li affrontiamo, che diventano via via più potenti.
Tuttavia, questa evoluzione ha valore solo se sappiamo come e dove spostare quei
massi. In altre parole, l’efficacia degli strumenti dipende interamente dalla
nostra capacità di usarli con consapevolezza e visione.
Una delle leve più potenti che abbiamo oggi a disposizione è senza dubbio
l’intelligenza artificiale. La nostra abilità nel comprenderla e nell’adoperarla
in modo consapevole sarà determinante per il nostro futuro. Ed è proprio questo
il tema su cui voglio riflettere.
Ma prima di proseguire, desidero proporre uno spunto:
> nelle nostre attività quotidiane, usiamo leve per spostare massi, o siamo noi
> stessi diventati leve che altri utilizzano per spostare massi?
Torneremo su questa domanda più avanti.
--------------------------------------------------------------------------------
UN CAMBIAMENTO STRAORDINARIO
Negli ultimi anni, lo sviluppo dell’intelligenza artificiale è stato
straordinario. Oggi è una forza di trasformazione in grado di ridefinire ogni
aspetto delle nostre vite e della nostra società.
Possiamo generare testi, audio, video e immagini di altissima qualità in
pochissimi secondi. Possiamo tradurre contenuti in tempo reale in tutte le
lingue del mondo. E spesso l’intelligenza artificiale opera anche senza che ce
ne rendiamo conto.
> Pensiamo, ad esempio, a quando scegliamo cosa guardare su una piattaforma di
> streaming o quale brano ascoltare: spesso non si tratta di scelte totalmente
> autonome, ma influenzate – o addirittura prese – da algoritmi intelligenti.
L’AI sta diventando non solo un suggeritore, ma un vero e proprio mediatore
delle nostre scelte e, sempre di più, delle nostre azioni.
Nel mondo della ricerca scientifica, l’intelligenza artificiale è già oggi un
assistente instancabile: analizza enormi volumi di dati e documenti, facilitando
la scoperta di nuovi farmaci, nuove cure, nuovi materiali. Contribuisce così,
concretamente, al miglioramento della qualità della nostra vita.
Abbiamo dunque compreso che l’intelligenza artificiale è già in grado di
superare le capacità umane in molti compiti specifici.
> La vera domanda, oggi, non è più se una macchina potrà sviluppare
> un’intelligenza paragonabile alla nostra, ma quando ci supererà globalmente.
E mentre ci avviciniamo alla cosiddetta intelligenza artificiale generale (AGI)
– cioè un’AI in grado di eccellere non solo in compiti specifici ma in qualsiasi
ambito cognitivo – torniamo alla nostra riflessione: siamo noi a usare le leve o
siamo diventati leve che altri manovrano?
--------------------------------------------------------------------------------
DALL’INTELLIGENZA ALL’AZIONE
> La trasformazione in corso, però, non riguarda solo l’intelligenza. Riguarda
> anche l’azione.
Chi ha visitato San Francisco di recente potrebbe aver già sperimentato i taxi a
guida autonoma: un’app prenota il veicolo, che arriva senza conducente. Si sale
a bordo, e l’auto – senza nessuno al volante – parte, gira, frena, accelera,
rispetta segnali e precedenze, e ci accompagna a destinazione. Anche dopo averla
vissuta più volte, resta un’esperienza straordinaria.
Siamo abituati a pensare all’intelligenza artificiale come qualcosa di confinato
nei nostri dispositivi digitali, nei server delle grandi aziende. Oggi, però,
sta gradualmente abbandonando questi spazi digitali per entrare nel mondo
fisico, quello reale e tangibile: guida automobili, controlla robot, opera in
ambienti concreti.
Oggi esistono già robot umanoidi, con corpi simili a quelli umani, in grado di
muoversi autonomamente nello spazio e di svolgere mansioni senza essere
teleguidati da un essere umano. Vengono addestrati proprio come faremmo con un
nuovo collaboratore: gli si mostrano i compiti da svolgere, si spiegano le
attività in linguaggio naturale, e col tempo imparano ad agire in autonomia.
Ricordate quell’immagine, circolata online qualche anno fa, in cui si vedeva un
palazzo in costruzione con un grande telo su cui era scritto: “Ehi, intelligenza
artificiale, finisci tu di costruire il palazzo!”. E il sottinteso era, "visto
che dicono che puoi fare tutto..".
Oggi questa frase, probabilmente, ci fa ancora sorridere, perché continuiamo a
percepire l'ironia di fondo, ma forse non ci sembra più uno scenario così
lontano e così improbabile.
--------------------------------------------------------------------------------
IL NODO CENTRALE: IL LAVORO
Dopo aver parlato di generazione di contenuti digitali, di guida autonoma e di
robotica, non possiamo evitare uno degli argomenti più discussi quando si parla
di intelligenza artificiale: il lavoro. Per molti, è l’unico vero argomento
legato a questa tecnologia.
> La domanda è semplice e diretta: l’intelligenza artificiale ci sostituirà nel
> mondo del lavoro?
Per rispondere a questa domanda torniamo alla nostra riflessione iniziale..
perché è quella la vera domanda che dovremmo farci: in quello che facciamo,
nelle nostre mansioni, usiamo leve per spostare massi o ci sentiamo delle leve
che vengono usate per spostare massi?
Perché se siamo leve allora sì, una tecnologia più efficiente potrebbe
sostituirci.
Ma questo non è un tema nuovo. Ci siamo già passati nel nostro percorso: ogni
volta che una nuova tecnologia ad alto impatto trasformativo è entrata nella
nostra dimensione. Pensiamo, ad esempio, all'introduzione del vapore, poi
dell'elettricità.. che hanno ha portato al telaio meccanico, fino alla catena di
montaggio. Poi dell'elettronica, che ha portato ai computer fino ad arrivare
all'automazione che conosciamo oggi.
> Ogni volta che ci siamo trovati in uno scenario come questo, di certo ci sono
> stati degli squilibri iniziali, che successivamente abbiamo saputo gestire
> trovando delle soluzioni.. altrimenti non saremo qui a parlarne.
Siamo qui a parlarne perché ci troviamo nuovamente in uno scenario simile. E
stavolta la nuova tecnologia ad alto impatto trasformativo si chiama
intelligenza artificiale, caratterizzata da un'accelerazione e una scala
(ampiezza di diffusione) senza precedenti.
> L'intelligenza artificiale ha una grande capacità di andare proprio a ridurre,
> ad assottigliare quel confine che c'è tra usare leve ed essere leve.. ovvero,
> ha una grande capacità di estendere e potenziare le competenze di qualcuno
> rendendo obsolete le competenze di altri.
I dati del World Economic Forum mostrano chiaramente come, nel prossimo futuro,
vedremo una drastica riduzione delle attività svolte solo da esseri umani, a
vantaggio di quelle svolte da umani potenziati dalla tecnologia o che saranno
completamente automatizzate.
World Economic Forum - Future of Jobs Report 2025
--------------------------------------------------------------------------------
LA RICETTA PER AFFRONTARE IL CAMBIAMENTO
Come possiamo affrontare questa trasformazione? Quali sono gli ingredienti che
dovremo (collettivamente) mettere nella ricetta che ci permetterà di gestirla al
meglio? Dal mio punto di vista, sono due.
Il primo ingrediente riguarda le azioni individuali.
Ciascuno di noi deve diventare consapevole di ciò che sta accadendo. Dobbiamo
“sporcarci le mani”, sperimentare la tecnologia, soprattutto negli ambiti che
conosciamo meglio. Oggi tutti possono accedere a questi strumenti.
> Informarsi, porsi domande e comprendere il potenziale dell’AI non è più
> un’opzione, ma un dovere.
Ma c’è un’altra dimensione da affrontare: quella culturale. Dobbiamo iniziare a
ridefinire la nostra idea di lavoro. Il lavoro è, per definizione, dinamico.
Cambia con la società. Oggi ci viene richiesto di essere altamente dinamici, di
aggiornare continuamente le nostre competenze. Ma non tutte queste competenze
devono essere tecniche: le cosiddette soft skill – come la capacità di guidare o
di essere parte di un team – assumono un valore crescente.
Io stesso ho vissuto trasformazioni professionali importanti. Fortunatamente non
costretto dalle circostanze, ma per pura voglia di imparare. Ed è questo che
dovremmo ritrovare, probabilmente.. ricordandoci che l’apprendimento continuo fa
parte della nostra natura, fin dalla nascita.
> Tutti potranno e riusciranno a mettere in atto queste azioni? La dinamicità
> che ci viene richiesta
> è sostenibile per la nostra società?
Probabilmente la risposta è "NO" per entrambe le domande.
Ed è qui che entra in gioco il secondo ingrediente: che dovrà essere messo nella
ricetta dalle istituzioni.
Le istituzioni devono agire ora, sviluppando strategie pubbliche che preparino
la società a un mondo che sarà diverso, e non solo dal punto di vista
lavorativo. Il tempo stringe. I sistemi si evolvono con una rapidità
impressionante, e noi non siamo minimamente pronti.
Siamo all'inizio di una crescita esponenziale, e da ingegnere non uso questo
termine come semplice sinonimo di veloce. La caratteristica di questa crescita è
che inizialmente tutto procede molto lentamente (oggi), ma poi, ad un tratto, le
cose accadono.. e a quel punto dovremmo averci già pensato.
È un po' come quando prepariamo i popcorn. Buttiamo il mais nella padella
rovente, e attendiamo. Inizialmente non accade nulla, ma ad un certo punto
scoppia il primo chicco, il secondo, e in un brevissimo tempo scoppiano tutti. E
a quel punto, se non avevamo pensato a mettere il coperchio sulla padella, ci
troveremo in una cucina che sarà un completo disastro.
Questo secondo ingrediente ha un nome: governance. Serve la capacità di
governare l’introduzione e l’integrazione dell’intelligenza artificiale nella
società.
--------------------------------------------------------------------------------
UN’IMPRESA COMUNE
La ricetta per affrontare questa trasformazione prevede quindi due elementi
fondamentali: un’evoluzione personale e una collettiva. Il cambiamento che ci
attende non può essere affrontato da soli: è un’impresa comune.
L’intelligenza artificiale è, oggi, una delle leve più potenti a nostra
disposizione. Porta con sé incertezze, ma anche un enorme potenziale positivo.
E il fatto di avere sui piatti della bilancia questi due elementi ci fa arrivare
ad un concetto importante.
> Il vero potere non è nell'intelligenza artificiale, il vero potere è nel saper
> utilizzare al meglio questa potentissima leva, scegliendo consapevolmente come
> e dove spostare i massi.
--------------------------------------------------------------------------------
- GRAZIE -
Se hai apprezzato il contenuto, puoi
contribuire al progetto con una donazione 🙂
ISCRIVITI ALLA NEWSLETTER
Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su
tematiche relative all'intelligenza artificiale.
Iscriviti alla Newsletter
Email sent! Check your inbox to complete your signup.
Gratuita. No Spam. Puoi disiscriverti quando vuoi.
Consulta la privacy policy.
> Buon aggiornamento, e buone riflessioni..
--------------------------------------------------------------------------------
I TOKEN BASTERANNO PER "COMPRENDERE" IL MONDO?
In una parte del mio intervento al WMF - We Make Future ho parlato del fatto che
il linguaggio e le immagini (token e pixel) non saranno sufficienti per far
"comprendere il mondo" ai modelli di AI.
L'ho argomentato introducendo progetti che puntano ad andare oltre a questo
aspetto, ovvero V-JEPA di Meta (Yann LeCun) e il paper "Welcome to the Era of
Experience" di Silver e Sutton (Google DeepMind).
Fei-Fei Li lo ribadisce in questa interessante intervista.
> Il linguaggio è una codifica incredibilmente potente di pensieri e
> informazioni, ma in realtà non è una codifica potente di quello che è il mondo
> fisico (3D) in cui tutti gli animali e gli esseri umani vivono.
Fei-Fei Li: l'AI per il mondo reale
> Il linguaggio non è intrinseco alla natura. A differenza del mondo fisico,
> percettivo e visivo che ci circonda e che semplicemente esiste, non troveremo
> mai parole o sillabe come parte integrante della realtà.
--------------------------------------------------------------------------------
STUDIO E OTTIMIZZAZIONE DEI CONTENUTI DI AI OVERVIEWS: COME POSSIAMO LAVORARCI?
Questo è un mio software realizzato attraverso un sistema multi-agent, basato su
LangGraph che, partendo da una query di ricerca, analizza i risultati di AI
Overviews.
I diversi agenti, che si vedono in azione nella sidebar di sinistra, estraggono
le risposte dalle fonti e ne misurano la pertinenza semantica con la query. In
base ai dati, in un processo iterativo, creano risposte puntando a ottenere un
contenuto più pertinente rispetto alle fonti attuali.
Analisi dei risultati di AI Overviews
Infine propongono delle azioni da effettuare in pagina, considerando anche i
contenuti che derivano dalle query di "fan-out" e le informazioni osservate nei
risultati in SERP.
> Gli insights che si possono ottenere da sistemi di questo tipo sono davvero
> interessanti e permettono di rendere le euristiche delle azioni pratiche.
--------------------------------------------------------------------------------
V-JEPA 2 DI META
Meta ha presentato V-JEPA 2, un modello di AI progettato per capire e prevedere
il mondo fisico osservando video. Con 1,2 miliardi di parametri, è stato
addestrato su oltre 1 milione di ore di video per imparare come oggetti e
persone si muovono e interagiscono.
V-JEPA 2 permette ai robot di pianificare azioni anche in ambienti mai visti
prima, senza bisogno di addestramento specifico. Usando obiettivi visivi (come
una semplice immagine), il robot riesce a "immaginare il futuro" e a scegliere i
passi giusti per raggiungere il risultato.
0:00
/2:03
1×
V-JEPA 2 di Meta
Ha ottenuto un successo tra il 65% e l'80% in compiti come prendere e
posizionare oggetti sconosciuti. Il modello è 30 volte più veloce del
concorrente Cosmos di Nvidia e raggiunge prestazioni all’avanguardia nei test di
comprensione video.
Meta ha anche pubblicato tre benchmark per valutare quanto bene i modelli
capiscano la fisica del mondo reale. I risultati mostrano che, nonostante i
progressi, c’è ancora un divario significativo rispetto alle capacità umane nel
ragionamento fisico.
Vai al progetto
V-JEPA 2 funziona grazie a due componenti principali: un encoder, che trasforma
i video in rappresentazioni semantiche ricche di significato, e un predittore,
che utilizza queste rappresentazioni per immaginare come evolverà la scena o
come cambierà in risposta a un’azione. Addestrato in due fasi (prima senza
azioni, poi integrando dati da robot reali), il modello può simulare scenari
futuri e guidare decisioni concrete in tempo reale.
Le stringhe che si vedono nel video che segue, ad esempio, non sono didascalie,
ma le previsioni fatte dall'AI un istante prima che l'azione avvenga.
0:00
/0:34
1×
> A differenza dei LLM che imparano dal testo, i "world models" imparano
> "osservando il mondo", proprio come avviene per gli esseri umani.
--------------------------------------------------------------------------------
GEMINI DIFFUSION: UN TEST
Ho avuto accesso alla sperimentazione di Gemini Diffusion di Google DeepMind. I
primi test, considerando che le performance, attualmente, sono paragonabili a
Gemini Flash 2.0, sono sbalorditivi.
Nel video si vede come, attraverso due prompt ho fatto sviluppare al modello due
piccole applicazioni: una web app e un software in Python.
Gemini Diffusion: un test
> Il video non è velocizzato: le applicazioni sono state sviluppate davvero in 5
> secondi!
Gemini Diffusion è un modello sperimentale che esplora un nuovo approccio alla
generazione di testo, basandosi sulla "diffusione".
COME FUNZIONA?
* I LLM che conosciamo generano il testo un token alla volta, in modo
sequenziale.
* I modelli di diffusione lavorano in modo completamente diverso: non prevedono
direttamente le parole (i token). Iniziano con un rumore casuale e lo
raffinano passo dopo passo, fino a trasformarlo in testo. Questo processo
permette di correggere gli errori durante la generazione e di trovare
soluzioni più rapidamente.
È lo stesso processo con il quale, ad esempio, vengono generate le immagini.
> Ormai ci stupiamo difficilmente, vista l'accelerazione tecnologica che stiamo
> vivendo, ma se ci fermiamo un attimo a pensare a come funziona.. è davvero
> straordinario.
--------------------------------------------------------------------------------
GEMINI CLI
Google ha rilasciato Gemini CLI, un agente AI open source pensato per
l'integrazione dell’intelligenza artificiale direttamente nel terminale.
L'ho provato, con test sulla spiegazione della codebase, generazione e modifica
di applicazioni, lettura di documenti, e su una delle componenti più
interessanti: la ricerca di Google, che può estrarre contesto dalle informazioni
presenti online.
Il sistema è basato su Gemini 2.5 Pro, e offre una nuova esperienza di sviluppo:
naturale, contestuale e altamente estensibile.
Gemini CLI: test
LE CARATTERISTICHE
* Totalmente open source (licenza Apache 2.0): trasparente, ispezionabile e
pronto per i contributi della community.
* Accesso gratuito ed elevati limiti d’uso: fino a 1.000 richieste/giorno e
60/minuto semplicemente effettuando il login con un account Google personale.
* Finestra di contesto di 1 milione di token: ideale per lavorare con codebase
di grandi dimensioni.
* Multimodalità: genera applicazioni partendo da PDF, schizzi o altri input
visivi (con strumenti come Imagen, Veo o Lyria).
* Prompt grounding: integra le ricerche web in tempo reale tramite Google
Search per risposte più contestuali.
* Estensioni: supporto a Model Context Protocol (MCP), comandi personalizzati e
configurazioni condivisibili via GEMINI.md.
* Automazione integrata: può essere eseguito in modo non interattivo
all’interno di script o pipeline.
* Integrazione con Gemini Code Assist: funzionalità AI-first anche dentro VS
Code, per un flusso continuo tra terminale e IDE
Con Gemini CLI, il terminale diventa uno spazio di lavoro intelligente e
flessibile, capace di comprendere, generare, modificare e orchestrare codice e
contenuti in linguaggio naturale.
Vai al progetto
> Uno strumento pensato per professionisti, studenti e team che vogliono
> spingere l’AI al centro dei loro workflow di sviluppo.
--------------------------------------------------------------------------------
I VANTAGGI DI UN SISTEMA MULTI-AGENTE
Sto lavorando a un sistema di automazione strutturato, che mi ha fatto toccare
con mano i vantaggi di un sistema multi-agente (o di un agente AI sofisticato)
rispetto a un'esecuzione di processi in sequenza.
Ho provato a sintetizzarli in sei punti.
1. Auto-correzione e adattamento dinamico. La capacità di cicli di feedback
intelligenti permette al sistema di rielaborare decisioni o strategie in
base ai risultati intermedi, anziché seguire un percorso lineare
predefinito.
2. Specializzazione approfondita e memoria contestuale. Ogni agente (o modulo
agentico) può sviluppare una "expertise" più profonda e una memoria
persistente specifica per il suo compito, migliorando continuamente la
qualità delle sue elaborazioni.
3. Parallelizzazione intelligente e ottimizzazione del throughput. Consente
l'esecuzione simultanea e coordinata di compiti indipendenti, massimizzando
l'efficienza delle risorse e riducendo il tempo totale di produzione per
insiemi di output.
4. Maggiore resilienza e strategie di fallback autonome. Gli agenti possono
gestire autonomamente errori o fallimenti delle API, attivando strategie di
retry o alternative specifiche al loro dominio senza bloccare l'intero
workflow.
5. Flessibilità nella gestione del workflow e interazioni asincrone. Il sistema
diventa più agile, potendo gestire stati distribuiti e avanzare su diverse
parti del lavoro in modo indipendente, anche in presenza di interruzioni o
necessità di input esterni.
6. Capacità emergenti e intelligenza collettiva. L'interazione e lo scambio di
informazioni tra agenti specializzati possono portare alla scoperta di
soluzioni e intuizioni che non sarebbero possibili con una semplice somma di
passaggi sequenziali.
I vantaggi di un sistema multi-agente
> In sintesi: si passa da una pipeline che esegue a un ecosistema che collabora,
> apprende e si adatta.
--------------------------------------------------------------------------------
QUANDO HA SENSO USARE MCP?
Nello sviluppo di applicazioni basate su AI Agent, spesso sento il dubbio:
> a cosa serve MCP (Model Context Protocol) se possiamo creare dei tool per gli
> agenti che inglobano chiamate API?
Ho provato a fare una sintesi. MCP è un approccio interessante per i seguenti
motivi.
1. Standardizzazione Universale.
Funziona come una "porta USB-C" per l'IA, creando un linguaggio di
comunicazione comune. Si evita così di dover sviluppare e mantenere
innumerevoli integrazioni personalizzate.
2. Scoperta dinamica degli strumenti.
L'agente AI può interrogare il server per scoprire quali strumenti usare. Si
adatta dinamicamente a nuove funzioni senza richiedere aggiornamenti del suo
codice.
Questo, per me, è il punto più interessante. E se un fornitore di servizi
aggiungerà funzionalità, potremo sfruttarle senza modificare la nostra
integrazione.
3. Sviluppo semplificato e manutenzione ridotta.
Semplifica lo sviluppo grazie all'approccio "costruisci una volta, usa
ovunque". Riduce i tempi e i costi di integrazione e manutenzione del
software.
4. Interoperabilità e flessibilità.
Permette di cambiare il modello AI o gli strumenti senza dover riscrivere le
integrazioni. Garantisce flessibilità e aiuta a prevenire la dipendenza da
un singolo fornitore (vendor lock-in).
5. Controllo e sicurezza centralizzati.
Centralizza la gestione di permessi, sicurezza e contesto delle
conversazioni. Offre un unico punto di controllo su come l'agente accede e
utilizza i dati.
Quando ha senso usare MCP?
Quando conviene usare funzioni e chiamate API dirette?
È la scelta migliore per compiti semplici con un numero limitato di strumenti
fissi. In questi casi, l'integrazione diretta è più rapida e non giustifica la
complessità di un server MCP.
--------------------------------------------------------------------------------
CLAUDE DESKTOP EXTENSIONS
Con le nuove Claude Desktop Extensions (.dxt) di Anthropic, installare un server
MCP locale diventa questione di un clic.
Niente più terminale, dipendenze da risolvere o file di configurazione manuali:
basta scaricare un file .dxt, aprirlo con Claude Desktop e cliccare su
“Installa”.
0:00
/0:30
1×
Ogni estensione include tutto: codice server, dipendenze, manifest, icone e
configurazioni utente. Supporta Node.js, Python o binari, ed è pensata per
funzionare su macOS, Windows e Linux, anche in ambienti aziendali con policy di
sicurezza avanzate.
Il formato .dxt è open-source, completo di toolchain per impacchettamento e
validazione, esempi pronti e specifiche tecniche.
Vai al post
> Un ecosistema pensato per rendere gli strumenti locali compatibili con Claude
> più accessibili, estendibili e sicuri per tutti.
--------------------------------------------------------------------------------
MINIMAX M1
MiniMax M1 è il primo modello di "reasoning" open-weight con architettura
hybrid-attention e supporto per contesti fino a 1 milione di token.
L'ho provato su diversi task (matematica, coding, generazione testo, contesti
complessi), con risultati ottimi.
MiniMax M1: alcuni test
Basato su una combinazione di Mixture-of-Experts (MoE) e Lightning Attention,
integra 456 miliardi di parametri, ottimizzando efficienza e capacità di
ragionamento su input molto lunghi.
Addestrato tramite reinforcement learning su task che spaziano dalla matematica
avanzata all’ingegneria software, introduce l’algoritmo CISPO per prestazioni
superiori rispetto ad altri RL.
MiniMax-M1 supera i principali modelli open-weight su benchmark di matematica,
coding, software engineering e gestione di contesti lunghi, mantenendo costi
computazionali ridotti. È disponibile in due versioni (40K e 80K), con supporto
per il function calling, deployment raccomandato tramite vLLM o Transformers, e
API dedicate. La licenza è Apache-2.0.
Prova il modello
--------------------------------------------------------------------------------
IL NUOVO GOOGLE COLAB AI-FIRST
Il nuovo Google Colab AI-first presentato durante l'I/O è ora disponibile per
tutti: uno strumento ripensato per essere un partner per lo sviluppo potenziato
dall’intelligenza artificiale.
0:00
/1:14
1×
Il nuovo Google Colab AI-first
Grazie a funzionalità avanzate come il completamento automatico conversazionale,
la pulizia autonoma dei dati, il debug intelligente e la generazione di
visualizzazioni, Colab punta a trasformare l’esperienza dello sviluppo (o della
prototipazione).
Con il supporto dell’agente Data Science, inoltre, è possibile automatizzare
flussi analitici complessi. Qui è possibile vedere un mio esempio di utilizzo
dell'agente.
🧠 #Google ha integrato su #Colab un #AI Data Science Agent basato su #Gemini. |
Alessio Pomaro
🧠 #Google ha integrato su #Colab un #AI Data Science Agent basato su #Gemini.
🤖 Come funziona? È possibile caricare su Colab un dataset, e usare un #prompt
per descrivere le operazioni da svolgere. ⚙️ L'agente crea autonomamente un
piano d'azione che può essere raffinato attraverso altre istruzioni. Una
volta approvato, Gemini sviluppa il codice Python nel notebook seguendo i task
del piano, e lo esegue step by step, fino ad arrivare al risultato. ✨ Ad ogni
output dei blocchi usa un sistema di reasoning per valutarlo e agire di
conseguenza (es. per risolvere eventuali errori e installare librerie
necessarie). 💡 Di certo, un sistema integrato in un ambiente come Colab è molto
più interessante dell'uso di un #LLM su una chat. La fase di prototipazione
si semplifica, e il codice rimane in un notebook sul quale lavorare anche
manualmente. 👉 Nel video si possono vedere alcuni miei test. 🔗 Il post di
presentazione: https://lnkd.in/deUzgY_2 ___ ✉️ 𝗦𝗲 𝘃𝘂𝗼𝗶 𝗿𝗶𝗺𝗮𝗻𝗲𝗿𝗲
𝗮𝗴𝗴𝗶𝗼𝗿𝗻𝗮𝘁𝗼/𝗮 𝘀𝘂 𝗾𝘂𝗲𝘀𝘁𝗲 𝘁𝗲𝗺𝗮𝘁𝗶𝗰𝗵𝗲, 𝗶𝘀𝗰𝗿𝗶𝘃𝗶𝘁𝗶
𝗮𝗹𝗹𝗮 𝗺𝗶𝗮 𝗻𝗲𝘄𝘀𝗹𝗲𝘁𝘁𝗲𝗿: https://lnkd.in/dN-bwBrV #AI #GenAI
#GenerativeAI #IntelligenzaArtificiale #LLM
LinkedInAliaksandr U.
Vai al post
--------------------------------------------------------------------------------
GEMMA 3N
Google ha lanciato ufficialmente Gemma 3n, un modello AI progettato per
funzionare direttamente su dispositivi mobili con capacità multimodale avanzata:
testo, immagini, audio e video.
Grazie a un’architettura rivoluzionaria chiamata MatFormer, Gemma 3n include
versioni nidificate (E2B e E4B) ottimizzate per efficienza e flessibilità,
permettendo inferenze fluide anche su hardware con soli 2-3 GB di memoria.
Gemma 3n: le performance
La qualità è sorprendente: oltre 140 lingue supportate, punteggi record nei
benchmark (oltre 1300 su LMArena con E4B) e moduli specializzati per visione
(MobileNet-V5) e audio (Universal Speech Model).
Gemma 3n introduce anche innovazioni come KV Cache Sharing e Per-Layer
Embeddings, che migliorano drasticamente la velocità e la gestione della memoria
su dispositivi edge.
Vai al post
> Tutto questo è già compatibile con i principali tool open-source: Hugging
> Face, llama.cpp, Ollama, Docker e molti altri. Un nuovo standard per
> l’intelligenza artificiale on-device è appena stato fissato.
UN TEST DEL MODELLO
L'ho provato in locale, su un laptop attraverso Ollama e anche su Colab
attraverso la libreria Transformers di Hugging Face.
Gemma 3n: un test con Ollama e su Colab
Il modello funziona bene su attività semplici, come la sintesi dei contenuti, le
tradizioni, l'interpretazione delle immagini.
Molto meno bene su attività complesse, come problemi matematici o la
programmazione.
> Ma questo non sorprende: si tratta di un modello "piccolo", pensato per essere
> eseguito in locale su dispositivi mobile.
--------------------------------------------------------------------------------
GEMINI ROBOTICS ON-DEVICE
DeepMind ha presentato Gemini Robotics On-Device, un modello AI avanzato capace
di operare localmente su robot, senza connessione Internet.
Progettato per robot bi-braccio, il sistema integra visione, linguaggio e
azione, eseguendo compiti complessi con efficienza e bassa latenza.
Capace di adattarsi a nuove mansioni con soli 50-100 esempi, il modello segue
istruzioni in linguaggio naturale e gestisce compiti ad alta destrezza, come
piegare abiti o assemblaggi industriali.
0:00
/1:10
1×
Gemini Robotics On-Device
Compatibile con diversi tipi di robot, rappresenta un importante passo verso
robotica AI più robusta, accessibile e personalizzabile.
Vai al post
> Lo sviluppo segue rigorosi principi di sicurezza, e l’SDK dedicato consente ai
> tester selezionati di esplorare nuove applicazioni in ambienti reali.
--------------------------------------------------------------------------------
L'AI INTEGRATA SU CHROME
Chrome introduce una nuova generazione di API AI integrate nel browser, basate
su Gemini Nano, il LLM ottimizzato per l’elaborazione locale.
Ora le web app possono accedere a funzionalità avanzate di intelligenza
artificiale direttamente sul dispositivo dell’utente, senza dover ricorrere a
server esterni.
Built-in AI | AI on Chrome | Chrome for Developers
Built-in AI brings powerful models client-side, so you can offer AI features to
users, while protecting sensitive data and improving latency.
Chrome for DevelopersGitHub
Le API già disponibili includono strumenti per riassumere, tradurre e rilevare
automaticamente la lingua di un testo, oltre a offrire supporto alle estensioni
tramite una Prompt API locale. In fase di test, ci sono anche API per generare,
riformulare e correggere testi, con particolare attenzione alla qualità
linguistica.
Tutto avviene sul dispositivo, offrendo significativi vantaggi in termini di
privacy, prestazioni e reattività.
> I dati non lasciano mai il device, una scelta cruciale per scenari ad alta
> sensibilità come scuola, pubblica amministrazione o grandi aziende.
Questo approccio client-side consente anche l’utilizzo dell’AI offline, riduce i
costi di infrastruttura e rende scalabili funzionalità avanzate su larga scala.
È inoltre possibile adottare un’architettura ibrida per garantire copertura su
tutti i dispositivi, integrando il back-end con Firebase AI Logic o Node.js.
Per approfondire
--------------------------------------------------------------------------------
IMAGEN 4
Imagen 4 è arrivato su Gemini API e Google AI Studio: il nuovo modello
text-to-image di Google ridefinisce la generazione di immagini con una qualità
visiva nettamente superiore, soprattutto nella resa del testo.
L'ho provato. La qualità visiva è impressionante: i dettagli sono notevoli.
Credo che non siamo, però, ai livelli del modello di OpenAI (ad esempio) per
quanto riguarda la capacità di "comprensione" dei dettagli del prompt e nel
rendering del testo. Soprattutto in lingue diverse dall'inglese.
Imagen 4: alcuni test
Il modello è disponibile in due versioni: Imagen 4 è ideale per la maggior parte
degli usi, mentre Imagen 4 Ultra offre una fedeltà ancora maggiore ai prompt
testuali.
Vai al post
> Tutte le immagini sono contrassegnate da una filigrana digitale invisibile
> (SynthID), per garantire trasparenza e tracciabilità.
--------------------------------------------------------------------------------
DA HUGGING FACE HUB DIRETTAMENTE SU COLAB
Google Colab e Hugging Face uniscono le forze per rendere l’esplorazione dell’AI
più semplice e immediata.
Ora è possibile lanciare qualsiasi modello dall'Hugging Face Hub direttamente in
un notebook Colab con un solo clic, grazie alla nuova funzionalità "Use this
model" > "Google Colab".
Da Hugging Face Hub direttamente su Colab
Con questa integrazione, si può accedere a un notebook preconfigurato per
caricare e testare il modello in pochi secondi, ideale per prototipazione
rapida, test di inferenza o esperimenti di fine-tuning. Basta, inoltre,
aggiungere "/colab" all’URL del modello per ottenere l’ambiente pronto all’uso.
Se la repository contiene un file "notebook.ipynb", Colab utilizzerà quello,
permettendo agli autori di condividere esempi dettagliati e casi d’uso avanzati.
> Nulla di trascendentale: il sistema genera il Python per usare il modello con
> la libreria "Transformers" di HF. Ma un grande passo per ridurre le barriere
> d’ingresso, migliorare la documentazione dei modelli e velocizzare il ciclo di
> sviluppo.
--------------------------------------------------------------------------------
LA CONDIVISIONE DI NOTEBOOKLM
> NotebookLM, finalmente, attiva la condivisione dei notebook.
Vai all'esempio
L'esempio è un mio notebook che contiene i 30 paper consigliati da Ilya
Sutskever, indicandoli come i migliori paper che riguardano l'AI.
I 30 paper consigliati da Ilya Sutskever: il notebook
> Questa novità apre nuove possibilità di condivisione davvero interessanti.
--------------------------------------------------------------------------------
FACCIAMO CHIAREZZA SULLA VICENDA DEL PAPER DI APPLE? CI PORTA A DELLE
RIFLESSIONI IMPORTANTI.. E NON SOLO SULL'AI.
COSA È SUCCESSO?
Apple ha pubblicato un paper dal titolo "The Illusion of Thinking", in cui
sostiene che anche i LLM più avanzati falliscono quando si trovano ad affrontare
problemi leggermente più complessi di quelli “familiari” visti in fase di
addestramento.
Attraverso test su puzzle classici (Tower of Hanoi, Blocks World, River
Crossing, ecc.), gli autori mostrano che le prestazioni dei modelli crollano
improvvisamente se si supera una soglia di difficoltà.
La conclusione: i LLM non "ragionano" davvero, ma simulano il ragionamento
basandosi su pattern appresi, e questo li rende fragili fuori distribuzione.
> NOTA doverosa: Apple ha usato problemi davvero molto difficili nel suo
> benchmark.. Arriviamo a difficoltà stimate superiori a 3000 ELO: parliamo di
> task inaffrontabili per il 99,9% dell'umanità.
Nel frattempo, ha iniziato a circolare un contro-paper dal titolo "The Illusion
of the Illusion of Thinking", firmato da un certo “C. Opus”.
Questo documento sostiene che i risultati di Apple sono dovuti solo a limiti del
contesto (es. troppi token), e che i puzzle proposti non sarebbero risolvibili
nemmeno per un umano.
Però, con molta probabilità, si tratta di uno scherzo. Il testo contiene errori
matematici evidenti, come calcoli sbagliati del numero di mosse. Lo stile è
ironico e sopra le righe, con affermazioni surreali ("problema impossibile anche
per gli esseri umani!").
Secondo alcune fonti, chi lo ha pubblicato avrebbe ammesso che si trattava di
una “Sokal-style hoax” — una burla per mostrare quanto facilmente si diffonde
qualcosa solo perché sembra tecnico.
La vicenda del paper di Apple: facciamo chiarezza
LE CONCLUSIONI (MIE)
2. La capacità di generalizzazione rimane la sfida fondamentale per
l’intelligenza artificiale. Questo lo sapevamo da tempo, anche senza il
paper di Apple.
3. È fondamentale mantenere attivo lo spirito critico. Nel valutare un paper (o
una notizia), non basta leggerne il titolo o vedere chi l’ha condiviso.
Bisogna andare a fondo, leggere, analizzare, farsi domande. Altrimenti
rischiamo di prendere sul serio una parodia — o peggio, usarla come “prova”
per sostenere tesi deboli.
--------------------------------------------------------------------------------
I PROMPT RIUTILIZZABILI NELL'API DI OPENAI
OpenAI introduce il concetto dei prompt riutilizzabili.
Ora è possibile salvare i prompt nel Playground inserendo all'interno delle
variabili, ad esempio {{customer_name}}.
Successivamente, via API, sarà possibile richiamare l'id del prompt indicando un
JSON con la valorizzazione delle variabili, senza dover avere la stringa
completa in ambiente di sviluppo.
I prompt utilizzabili nell'API di OpenAI
Nell'esempio si può vedere una chiamata API ad un prompt preciso indicando il
valore delle due variabili.
Vai alla documentazione
> Questo permette di mantenere più pulito e controllabile il codice di sviluppo,
> e di centralizzare le versioni dei prompt.
--------------------------------------------------------------------------------
UN AI AGENT AVANZATO PER LA RICERCA
Google condivide un progetto open source che mostra come costruire un agente AI
avanzato per la ricerca, combinando un frontend in React con un backend basato
su LangGraph e i modelli Gemini 2.5.
L'agente può ricevere una domanda, generare una serie di query di ricerca per
l'approfondimento, interrogare il web con le API di Google Search, applicare un
processo di "reasoning" sui risultati e colmare eventuali lacune informative.
Il processo continua fino a costruire una risposta dettagliata e supportata da
fonti citate.
0:00
/0:29
1×
Un AI Agent avanzato per la ricerca
> Un punto di partenza concreto per chi vuole esplorare applicazioni AI
> conversazionali potenziate dalla ricerca web.
Vai al progetto
--------------------------------------------------------------------------------
LA RICERCA DI CLAUDE: COME FUNZIONA?
Anthropic ha condiviso il dietro le quinte dello sviluppo del sistema di ricerca
multi-agente integrato in Claude.
Non si tratta di una ricerca teorica, ma di un'architettura operativa usata oggi
per gestire ricerche complesse, sfruttando una rete di agenti LLM che
collaborano in parallelo.
La ricerca di Claude: come funziona?
Un agente principale pianifica la strategia e genera subagenti specializzati,
ognuno dei quali esplora un aspetto del problema con strumenti dedicati.
> Questo approccio ha permesso un salto di performance significativo: +90%
> rispetto all’approccio a singolo agente su task complessi.
Il sistema affronta con successo sfide di orchestrazione, gestione dello stato,
prompt engineering e valutazione, usando tecniche come parallelizzazione spinta,
prompt adattivi, LLM-as-judge e osservabilità fine-grained.
È pensato per task ad alto valore, dove la profondità e l’ampiezza della ricerca
richiedono più contesto e più intelligenza distribuita di quanto un singolo
agente possa offrire.
Per approfondire
> Pensiamo ancora che i sistemi ibridi (SE + LLM) abbiamo architetture banali?
> Non è così.
--------------------------------------------------------------------------------
IL "RIALLINEAMENTO" DEI MODELLI: UNO STUDIO DI OPENAI
Un recente studio di OpenAI ha scoperto che modelli come GPT-4o possono
sviluppare comportamenti scorretti dopo essere stati esposti a piccoli set di
dati "sbagliati".
Anche un fine-tuning su risposte insicure o fuorvianti può attivare una sorta di
“persona disallineata” interna, come una “personalità tossica”, che porta il
modello a generalizzare comportamenti pericolosi in contesti completamente
diversi.
Grazie all’uso di tecniche di interpretabilità, come gli "Sparse Autoencoders",
i ricercatori sono riusciti a identificare queste “personas” e a manipolare
direttamente il comportamento del modello.
Il metodo è lo stesso già condiviso da Anthropic da diverso tempo.
Sorprendentemente, bastano pochi esempi corretti (anche da un dominio diverso)
per riportare il modello in linea, annullando il disallineamento con poche
decine di passaggi.
Il "riallineamento" dei modelli: uno studio di OpenAI
Questo lavoro evidenzia quanto sia cruciale la qualità dei dati di addestramento
e mostra che sia il disallineamento che il riallineamento possono propagarsi
molto più facilmente di quanto si pensasse.
Vai al paper
> Mi sembra una conclusione ottimistica, sinceramente. Ma il fatto che si stia
> lavorando all'interpretabilità dei modelli è una buona notizia.
--------------------------------------------------------------------------------
BEST-OF-N SU CODEX DI OPENAI
Su Codex di OpenAI arriva la funzionalità "Best-of-N".
Si tratta della possibilità di far sviluppare al sistema diverse soluzioni, per
scegliere poi la migliore.
La funzionalità "Best-of-N" su Codex di OpenAI
Nelle immagini si vede come descrivo il task e indico di sviluppare due
versioni.
> Utile per cercare il miglior metodo per arrivare all'obiettivo.
--------------------------------------------------------------------------------
REINFORCEMENT PRE-TRAINING (RPT)
Il Reinforcement Pre-Training (RPT) è una nuova tecnica che unisce l'efficacia
del pre-training dei LLM con il potere del reinforcement learning.
Invece di prevedere semplicemente il prossimo token, il modello è incentivato a
"ragionare" su quale token dovrebbe venire dopo, e riceve una ricompensa solo se
la predizione è corretta.
Reinforcement Pre-Training (RPT) - il paper
Questo approccio introduce una forma di “pensiero” durante il pre-training,
trasformando il testo non annotato in un enorme set di esercizi di ragionamento
verificabile. Le ricompense sono automatiche e basate sulla corrispondenza con
il testo originale, senza bisogno di annotatori umani.
RPT migliora la capacità di predizione, aumenta la qualità del ragionamento e
rende il modello più pronto al fine-tuning successivo. In test su benchmark come
MMLU-Pro e SuperGPQA, un modello da 14B addestrato con RPT supera anche modelli
da 32B standard.
Vai al paper
Il metodo è più costoso per step, ma richiede meno passaggi totali. Gli
esperimenti iniziali sono stati condotti su un corpus matematico ristretto
(OmniMATH), con solo 1.000 step e tempi contenuti, ma con risultati promettenti.
> RPT rappresenta un nuovo paradigma: addestrare i modelli a ragionare, non solo
> a completare.
--------------------------------------------------------------------------------
I PROGRESSI DI VEO 3 E DEI VIDEO GENERATI
> I progressi di Veo 3 e dei video generati con l'AI stanno accelerando con una
> spinta che forse nessuno si aspettava. E l’audio integrato aggiunge un salto
> di qualità notevole.
Il video è il formato con la massima "banda cognitiva", il più accessibile e il
più naturale da fruire. Ora la creazione è quasi a costo zero.
La vera svolta è che i video generati sono ottimizzabili direttamente. Non si
tratta più di scegliere il contenuto migliore, ma di generarlo su misura per
obiettivi specifici (engagement, attenzione, conversioni, ecc.).
Un cambio radicale: infinito, adattivo, potente. Con le immagini l'argomento
spaventava.. con la qualità di questi video, quel timore aumenta.
> I did more tests with Google's #Veo3. Imagine if AI characters became aware
> they were living in a simulation! pic.twitter.com/nhbrNQMtqv
>
> — Hashem Al-Ghaili (@HashemGhaili) May 21, 2025
Queste clip generate da Hashem Al-Ghaili mi hanno impressionato. Le presenta
dicendo: "Immagina se i personaggi creati con l'AI si rendessero conto di vivere
in una simulazione!".
--------------------------------------------------------------------------------
IL MODELLO DEDICATO AI VIDEO DI MIDJOURNEY
Midjourney ha lanciato il suo modello di generazione video, e ovviamente la
qualità è altissima.
Questo video è stato generato da Alex Patrascu, che afferma: "I haven't seen any
model that can handle this much complexity so well".
> How well does Midjourney Video handle complex environments?
>
> It's (almost) flawless: pic.twitter.com/T9ST32IngD
>
> — Alex Patrascu (@maxescu) June 19, 2025
Il sistema permette di trasformare le immagini create (o caricate) in brevi
video animati con un semplice clic su “Animate”. Due modalità disponibili:
automatica, che genera il movimento in autonomia, e manuale, per chi vuole
descrivere come evolve la scena.
Le opzioni Low motion e High motion permettono di scegliere tra movimenti
delicati o dinamici, con la possibilità di estendere i video fino a 20 secondi.
Il tutto a un prezzo accessibile.
> Ormai i modelli video hanno una qualità generale enorme. Non siamo alla
> perfezione, ma ogni generazione mostra dei cambi di marcia importanti, questo
> significa che c'è ancora margine di crescita.
--------------------------------------------------------------------------------
MCP REMOTI PER CLAUDE CODE
Claude Code ora supporta i server MCP remoti: una novità che semplifica
l’integrazione con strumenti come Sentry e Linear, eliminando la necessità di
gestire server locali.
Gli sviluppatori possono accedere a dati e funzionalità in tempo reale
direttamente dal terminale, migliorando il flusso di lavoro tra pianificazione,
scrittura del codice e gestione dei bug.
0:00
/0:20
1×
MCP remoti per Claude Code
Il tutto con connessioni sicure tramite OAuth e nessuna chiave API da
memorizzare. Meno tab aperti, più produttività.
Vai alla documentazione
--------------------------------------------------------------------------------
PROMPT ENGINEERING PER DEVELOPERS
Un'ottima guida di Addy Osmani per chi inizia ad approcciare allo sviluppo
(coding) attraverso agenti di AI.
L’articolo esplora come ottenere il massimo grazie a un'adeguata strutturazione
dei prompt: la qualità del codice generato non dipende solo dall’AI, ma da come
formuliamo le istruzioni.
The Prompt Engineering Playbook for Programmers
Turn AI coding assistants into more reliable development partners
ElevateAddy Osmani
PUNTI CHIAVE
* Fornisci contesto dettagliato: linguaggio, framework, snippet e comportamento
atteso.
* Specifica l’obiettivo: bug da correggere, ottimizzazioni, refactoring.
* Scomponi problemi complessi in micro-task.
* Usa esempi di input/output per chiarire cosa ti aspetti.
* Imposta un ruolo all’AI: migliora profondità e tono.
* Itera: trattala come un collega junior a cui dare feedback progressivi.
* Mantieni il codice ordinato: aiuta anche i modelli a "capire" meglio cosa
vuoi fare.
> Dalla correzione di bug alla creazione di nuove funzionalità, un buon prompt
> può fare la differenza tra una risposta utile e una perdita di tempo.
--------------------------------------------------------------------------------
LO SHOPPING SU CHATGPT
Ecco alcuni esempi dei risultati arricchiti per lo shopping su ChatGPT.
Quando l’utente fa una richiesta che suggerisce un’intenzione d’acquisto,
ChatGPT può mostrare caroselli visivi con prodotti pertinenti, accompagnati da
descrizioni semplificate, etichette come “Budget-friendly” o “Più popolare”, e
link diretti ai siti web dove è possibile acquistarli.
I prodotti vengono selezionati automaticamente dal modello, non sono pubblicità,
e tengono conto di criteri come prezzo, recensioni, dimensioni o preferenze
esplicite dell’utente.
Le recensioni e i prezzi provengono da fonti di terze parti, e possono esserci
discrepanze nei dati. Nella documentazione, OpenAI specifica che stanno
lavorando per migliorare l’aggiornamento delle informazioni.
> Dal mio punto di vista, senza un interfacciamento con i dati strutturati dei
> brand (feed) l'esperienza non potrà eguagliare piattaforme come Google
> Shopping, che nella versione statunitense è enormemente arricchita da
> contenuti generati dall'AI. Comunque fa capire la direzione.
--------------------------------------------------------------------------------
4D GAUSSIAN SPLATTING
4D Gaussian Splatting è un esempio delle potenzialità dell'uso di modelli di AI
non solo nell'editing video, ma anche nell'esperienza durante la visione.
0:00
/0:25
1×
4D-Gaussian-Splatting.mp4
Si tratta di un sistema di 4DV AI che permette di trasformare un video in 2D in
4D (con l'audio).
--------------------------------------------------------------------------------
FLUX 1 KONTEXT
Black Forest Labs ha lanciato FLUX 1 Kontext: una nuova suite di modelli AI
multimodali dedicati alla generazione e l’editing di immagini.
Ho provato la versione "pro" nell'editing, attraverso un'immagine in input e un
prompt testuale per la modifica: la coerenza è ottima.
FLUX 1 Kontext: un test
A differenza dei modelli tradizionali text-to-image, infatti, FLUX.1 Kontext
lavora in modo “in-context”, comprendendo ed elaborando sia testi che immagini
per creare contenuti visivi coerenti, modificabili e personalizzabili.
Grazie alla sua architettura a flusso generativo, garantisce coerenza di
personaggi e oggetti tra diverse scene, permette editing locale ultra-preciso e
offre prestazioni grafiche fotorealistiche, anche con input complessi. Il tutto
con velocità fino a 8 volte superiori rispetto ai modelli attualmente sul
mercato.
Vai al post
> Sono disponibili tre varianti: "pro" (per editing iterativo avanzato), "max",
> (per massime performance su aderenza al prompt), "dev" (open-weight in beta
> privata per ricerca e sicurezza).
--------------------------------------------------------------------------------
RAG SUI PROGETTI DI CLAUDE
Grazie alla tecnologia RAG (Retrieval-Augmented Generation), i Progetti su
Claude possono ora gestire una quantità di contenuti fino a 10 volte superiore
rispetto al passato, senza sacrificare velocità o qualità delle risposte.
Quando la conoscenza all’interno di un progetto si avvicina al limite della
finestra di contesto, Claude attiva automaticamente la modalità RAG: invece di
caricare tutto in memoria, utilizza un motore di ricerca interno per recuperare
solo le informazioni più pertinenti dai documenti caricati.
0:00
/0:14
1×
RAG (Retrieval-Augmented Generation) nei Progetti di Claude
Questo significa maggior precisione nelle risposte e una gestione più
intelligente dei dati. Nessuna configurazione richiesta, solo un’esperienza
fluida e potenziata, anche con progetti complessi e ricchi di contenuti.
Per approfondire
--------------------------------------------------------------------------------
GOOGLE AI EDGE GALLERY
Google AI Edge Gallery è un’app sperimentale che consente di usare LLM in
locale, senza necessità di connessione.
Nell'esempio uso Gemma 3 sul mio smartphone per sintetizzare la pagina del
progetto su GitHub.
L'app, attualmente disponibile per Android, permette di interagire con diversi
modelli (inclusi quelli da Hugging Face), porre domande a partire da immagini,
sperimentare prompt per generazione testi e codice, avviare conversazioni
multi-turno, e monitorare le performance in tempo reale.
Per approfondire
Il progetto rappresenta un punto d’incontro tra AI e accessibilità mobile. È
possibile anche usare modelli personalizzati e accedere a risorse per
sviluppatori direttamente dal repository GitHub. Un passo concreto verso l’AI
offline, personalizzata e locale.
--------------------------------------------------------------------------------
MISTRAL AGENTS API
Mistral ha lanciato la Agents API, un nuovo framework che consente ai suoi LLM
di eseguire azioni complesse e interagire con il mondo reale.
Questo sistema supera i limiti dei tradizionali modelli grazie a connettori
integrati, MCP per l’integrazione di software esterni, e capacità di
orchestrazione agentica.
Mistral Agents API
I connettori integrati: Web Search, Code Execution, Image Generation (con Flux
1.1), Document Library (supporto RAG).
Per approfondire
--------------------------------------------------------------------------------
FUNCTIONAL GENERATIVE NETWORKS (FGN)
Un nuovo modello di previsione meteorologica sviluppato da Google DeepMind segna
un importante passo avanti nel forecasting globale. Si chiama FGN (Functional
Generative Networks) e combina velocità, precisione e una rappresentazione più
realistica dell’incertezza atmosferica.
0:00
/0:23
1×
Functional Generative Networks (FGN)
A differenza dei modelli precedenti, FGN genera previsioni probabilistiche in
grado di catturare sia l’incertezza del modello (epistemica) che quella
intrinseca del sistema atmosferico (aleatorica).
Utilizza un ensemble di reti neurali indipendenti e introduce rumore appreso
direttamente nei parametri del modello, ottenendo previsioni variabili ma
coerenti.
Vai al paper
Allenato per ottimizzare la metrica CRPS, FGN produce risultati più accurati di
GenCast in oltre il 99% dei casi testati, è significativamente più efficiente e
migliora le previsioni di eventi estremi e cicloni tropicali.
> È un esempio potente di come l’AI stia rivoluzionando la scienza del clima.
--------------------------------------------------------------------------------
- GRAZIE -
Se hai apprezzato il contenuto, puoi
contribuire al progetto con una donazione 🙂
ISCRIVITI ALLA NEWSLETTER
Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su
tematiche relative all'intelligenza artificiale.
Iscriviti alla Newsletter
Email sent! Check your inbox to complete your signup.
Gratuita. No Spam. Puoi disiscriverti quando vuoi.
Consulta la privacy policy.