Source - Alessio Pomaro

Head of AI, Docente, Speaker, Autore

Feed, contenuti, intelligenza: il nuovo motore della discovery

Vorrei portarvi in un viaggio in 3 tappe: tre “studi e sperimentazioni” che oggi sono diventati progetti reali, e che nel 2025 mi hanno accompagnato (e, soprattutto, entusiasmato) più di altri. Le tre tappe hanno nomi molto semplici: Reranker → Contenuti → Feed Per ognuna di queste tappe andremo a mettere a fuoco il pensiero, a capire il progetto (cioè come diventa operativo), e a descrivere i takeaway da portare a casa. Feed, contenuti, intelligenza: il nuovo motore della discovery -------------------------------------------------------------------------------- 1 - RERANKER: LA RILEVANZA CONTESTUALE COME “METRICA” OPERATIVA Partiamo dalla prima tappa: Reranker. Un reranker è un modello in grado di valutare la rilevanza contestuale di un contenuto rispetto a una query: in altre parole, misura la forza con cui quel contenuto riesce davvero a rispondere alla domanda. > E qui la domanda diventa inevitabile: perché è interessante considerare questa > tipologia di modelli? IL FLUSSO "REALE" DEI SISTEMI DI RICERCA MODERNI Se guardiamo quello che Google definisce nella documentazione come “Typical search and retrieval flow”, vediamo un pattern molto chiaro. Typical search and retrieval flow Il flusso, semplificando, è il seguente: * si parte da milioni di documenti in un archivio; * viene posta una query di ricerca; * il sistema effettua un retrieval, cioè “screma” i contenuti estraendo quelli più pertinenti; * interviene un reranker, che ordina i contenuti estratti nella fase precedente in base alla rilevanza; * a quel punto i più rilevanti diventano la lista dei risultati, oppure il contesto elaborato da un AI Agent per generare una risposta. Come funzionano le due fasi cruciali nel flusso (ovvero retrieval e reranking)? RETRIEVAL: PERTINENZA SEMANTICA (BI-ENCODER) La prima fase, il retrieval, si basa sulla pertinenza semantica. Query e documenti vengono codificati in embeddings, e attraverso un calcolo di similarità vengono estratte le parti dei documenti più "vicine" semanticamente alla query. Questa architettura è il classico bi-encoder. Retrieval: architettura bi-encoder * La query viene codificata in embedding; * ogni documento viene codificato in embedding; * viene calcolata la similarità tra gli embeddings e si ottiene uno score di pertinenza. Ed è esattamente per questo che viene definito bi-encoder: due encoding separati, per poi procedere al confronto. Questo processo ha le seguenti caratteristiche: ✅ veloce ✅ scalabile ❌ poco preciso Questa fase è perfetta per “ridurre” la knowledge di riferimento per ottenere una risposta: considera un archivio enorme per portarlo a un set di candidati "gestibile". RERANKING: RILEVANZA CONTESTUALE (CROSS-ENCODER) La seconda fase, il reranking, funziona in modo diverso. Qui entra in gioco il reranker, che riceve in input query + contenuto e calcola uno score di rilevanza. E cambia anche l’architettura: stavolta è cross-encoder. Reranking: architettura cross-encoder In questo caso, query e contenuto vengono concatenati, entrano insieme nel reranker (modello transformer) e il modello usa il noto meccanismo dell’attenzione per cogliere ogni minima sfumatura e correlazione tra concetti. Questo processo (cross-encoder) ha caratteristiche complementari rispetto all'architettura bi-encoder: ❌ lento ❌ costoso ✅ molto preciso PIPELINE IBRIDA: BI-ENCODER PER RECALL PRIMA + CROSS-ENCODER PER PRECISION I moderni sistemi di ricerca, quindi, sono una pipeline ibrida: * bi-encoder (veloce, meno preciso) per scremare la knowledge; * cross-encoder (lento, preciso) per affinare e ordinare. > Questo non è solo un dettaglio tecnico: è un modo di ragionare che poi diventa > operativo. -------------------------------------------------------------------------------- COME POSSIAMO USARE QUESTE CONOSCENZE NEI NOSTRI WORKFLOW OPERATIVI? Un’idea molto concreta è usare i reranker per misurare quanto i nostri contenuti sono rilevanti rispetto alle query di interesse. E, ovviamente, possiamo anche confrontare la rilevanza dei nostri contenuti rispetto ad altri contenuti già presenti online. Emerge, però, un altro punto, spesso sottovalutato: reranker diversi producono ranking diversi. 3 reranker a confronto: Jina, Google, Cohere Nelle immagini si può vedere un confronto tra 3 reranker (Jina, Google, Cohere) sulle query “cos’è la curcuma?” e “cosa sono i core web vitals?” per diversi contenuti estratti da pagine web attualmente online. Come si nota, i modelli attribuiscono score di rilevanza diversi. > Qual è il dato corretto? Non esiste un dato “giusto” o “sbagliato”, perché la misurazione dipende dai dati e dalle procedure messe in atto durante la fase di training dei modelli. È un po’ come chiedere a esperti estremamente competenti, ma con esperienze differenti, di valutare gli stessi testi: tenderanno a convergere, ma non saranno identici. -------------------------------------------------------------------------------- RERANKER COME RICERCA PERSONALIZZABILE: BOOST E PENALIZZAZIONI C’è un ulteriore step di conoscenza da apprendere sui reranker: non si tratta solo di “modelli di scoring”, ma di vere e proprie piattaforme di ricerca personalizzabile. Attraverso azioni di boost o penalizzazione, infatti, possiamo influenzare la valutazione del modello: dare più peso a certe caratteristiche, e penalizzarne altre. Un esempio di ranking configuration (boost/bury) Negli esempi influenzo il reranker di Google per dare boost ai contenuti in cui la fonte ha un popularity score maggiore, i contenuti più recenti, e quelli in cui l’autore è più autorevole, e penalizzo quelli di scarsa qualità. > Ecco come un motore di ricerca può valutare parametri esterni che vanno oltre > il contenuto che scriviamo. -------------------------------------------------------------------------------- UN SISTEMA MULTI-AGENTE PER L'OTTIMIZZAZIONE DEI CONTENUTI PER AI OVERVIEWS Facendo tesoro di questi concetti, internamente, con il mio team, abbiamo sviluppato un sistema multi-agente che: * analizza l’AI Overview e i contenuti della SERP, * sfrutta il reranker di Google (opportunamente configurato), * crea risposte più rilevanti e contenuti strutturati meglio per concorrere nei sistemi di ricerca ibridi (come le AI Overview di Google). Un sistema multi-agente per l'ottimizzazione dei contenuti per AI Overviews Nel seguente video è possibile vedere l'applicazione in azione all'interno della nostra piattaforma dedicata alle applicazioni AI che abbiamo sviluppato. Un esempio dell'applicazione in azione Attraverso il seguente post, è possibile approfondire il funzionamento del sistema. Rilevanza contestuale: la nuova metrica della visibilità Il segreto è la pertinenza... ma non basta più. Come funziona DAVVERO la ricerca oggi, tra embeddings, reranker e AI Overviews. Alessio PomaroAlessio Pomaro -------------------------------------------------------------------------------- OLTRE I RERANKER: IN-CONTEXT RANKING (ICR) E BLOCKRANK Direzione successiva: come si supera la precisione dei reranker? Un metodo è l’In-context Ranking (ICR): usare un LLM per processare non query e contenuti a coppie, ma query e tutti i contenuti pertinenti insieme. Risultato: precisione altissima e comprensione dell’intero contesto. Contro: estremamente lento e oneroso. In-context Ranking (ICR) e BlockRank Per rendere l’ICR scalabile entra in scena BlockRank: un approccio pubblicato da Google che punta a risolvere i contro dell’ICR. Per approfondire: Scalable In-context Ranking with Generative Models Srinadh Bhojanapalli -------------------------------------------------------------------------------- TAKEAWAY DELLA PRIMA TAPPA Quali sono i takeaway che ci portiamo a casa dalla prima tappa? 1. L’evoluzione di queste tecnologie ci fa capire quanto migliorerà la ricerca nei prossimi anni, con modelli in grado di comprendere ogni sfumatura del linguaggio. 2. Oggi abbiamo strumenti e documentazione per comprendere meglio la ricerca, anche tecnicamente. Sforziamoci di approfondire questi aspetti, perché possono regalarci intuizioni, e le intuizioni diventano strategie e tool da mettere in campo nei nostri flussi di lavoro. -------------------------------------------------------------------------------- 2 - CONTENUTI: L’AI CAMBIA LO SCENARIO, MA PORTA ANCHE NUOVI STRUMENTI Seconda tappa: Contenuti. Quante volte abbiamo sentito questa frase nell'ultimo periodo? > “Con le AI Overview è tutto finito > per i progetti editoriali…” È vero? Ognuno tragga le proprie conclusioni. Ma un fatto è chiaro: l’AI sta cambiando lo scenario, ma, nello stesso momento, ci mette a disposizione strumenti nuovi. UNA REDAZIONE IBRIDA: CREA, AGGIORNA, MASSIMIZZA Nel nostro team abbiamo realizzato una redazione ibrida a supporto dell’editoria, basata su LangGraph e Gemini, che lavora su tre funzioni: CREA → AGGIORNA → MASSIMIZZA -------------------------------------------------------------------------------- CREA: CATTURARE TREND, TRASFORMARLI IN PIANO EDITORIALE Domanda iniziale: > quali sono i contenuti che in questo momento stanno vivendo una crescita di > interesse per gli utenti? Un Agente AI lo verifica costantemente, attingendo a più fonti: * feed internazionali di riferimento per il settore, * Google News su diversi mercati, * Google Trends, * social media, * Google Discover. Processa questi dati e produce un piano editoriale sul trend, pensato per "catturare" i trend "istantanei", cioè quello che è interessante per gli utenti nel momento in cui si esegue l'osservazione. L’editore riceve il piano nel suo CMS e può approvarlo (anche parzialmente). I contenuti approvati vengono processati da un agente specializzato che: usa tool esterni via MCP (Model Context Protocol), coopera con il sistema dedicato alla rilevanza (quello visto nella prima tappa), produce la scrittura completa di una bozza di altissima qualità, e la salva direttamente nel CMS. Infine l’editore arricchisce, modifica, aggiunge elementi multimediali e pubblica. Uno schema di funzionamento della creazione dei contenuti Questa parte, per come la vedo, è già un cambio di paradigma: non è “scrittura automatica”, è.. > orchestrazione di un flusso, dove l’AI fa il lavoro pesante e ripetitivo e > l’umano si mette nella posizione giusta: quella in cui può davvero alzare la > qualità. -------------------------------------------------------------------------------- AGGIORNA: MANTENERE I CONTENUTI VIVI (E COMPETITIVI) Un agente osserva in modo costante i dati di Search Console ed estrae i contenuti che stanno performando meno (in termini di clic, impressioni e posizionamento), e che non vengono aggiornati da diverso tempo. Un altro agente processa questi contenuti, usa tool esterni via MCP, e si occupa di aggiornarli e ottimizzarli, salvando l’elaborato direttamente nel CMS. Uno schema di funzionamento dell'aggiornamento dei contenuti Risultato: un sistema che mantiene tutti i contenuti costantemente aggiornati e ottimizzati. Questo sta contribuendo a una crescita generale di clic e impressioni, e soprattutto a una presenza costante su Google Discover, con picchi che corrispondono a diversi milioni di impressioni. -------------------------------------------------------------------------------- MASSIMIZZA: CONTENUTI, AFFILIAZIONE E SOSTITUZIONE INTELLIGENTE Spesso i progetti editoriali lavorano con l’affiliazione. Abbiamo creato degli agenti che verificano costantemente se, nei contenuti: * sono presenti prodotti consigliati non più disponibili nel marketplace di riferimento, * oppure prodotti che non stanno performando, ovvero che non stanno producendo clic. Uno schema di funzionamento del lavoro degli agenti Gli agenti usano strumenti esterni via MCP per trovare prodotti simili da sostituire e producono descrizioni testuali che vengono integrate in modo armonioso nel contenuto, rispettando il contesto in cui avviene l'inserimento. -------------------------------------------------------------------------------- TAKEAWAY DELLA SECONDA TAPPA I takeaway della seconda tappa sono molto concreti. * Un team ibrido ben strutturato può garantire output di altissima qualità: l’AI svolge i compiti più onerosi e ripetitivi, l’essere umano supervisiona e si concentra sulla qualità. * Il flusso di lavoro cambia completamente, e cambiano le mansioni delle persone quando l’AI è davvero al centro della strategia. * L’AI abilita un'azione su larga scala che permette di agire sulla frequenza di pubblicazione e sulla qualità generale del progetto. Operazioni di questo tipo sarebbero irrealizzabili senza automazioni come quella descritta nella tappa del viaggio. * Si può intravvedere un pattern chiaro: trend di interesse + alta frequenza + qualità globale aumentano la capacità di entrare in Discover in modo costante. -------------------------------------------------------------------------------- 3 - FEED: DA “FILE TECNICO” A CENTRO DELLA STRATEGIA Quante volte abbiamo sentito una frase come quella che segue, soprattutto nel mondo e-commerce? > “Sì, l’e-commerce genera automaticamente il feed, poi lo ottimizziamo con XYZ > Feed Manager…” Spesso, però, per “ottimizzazione” si intende la creazione di pattern che mettono in sequenza i dati prodotto presenti nel database dell'e-commerce, oppure un timido utilizzo dell’AI per farlo in modo un po’ meno schematico. L’approccio che, con il mio team, abbiamo messo in campo è diverso: usare un sistema multi-agente per un’ottimizzazione su larga scala. UN SISTEMA MULTI-AGENTE PER OTTIMIZZARE IL FEED SU LARGA SCALA Il sistema riceve in input il feed dell'e-commerce. Un agente lo elabora analizzando anche la pagina prodotto, le immagini, i dati strutturati, e connettendosi a fonti esterne: Search Console, web search, scraping di dati online e altre fonti specifiche. Un altro agente si occupa dell’arricchimento: aggiunge dati potenzialmente rilevanti assenti nel feed. Infine, un agente revisore monitora la correttezza dei dati anche con verifiche incrociate. Un sistema multi-agente per ottimizzare il feed su larga scala In output otteniamo un feed supplementare con title e description ottimizzati e dati di enrichment, personalizzabile per qualunque piattaforma. Dopo aver inserito in piattaforma il feed ottimizzato su alcuni progetti, stiamo registrando (su Google Merchant Center) un aumento dei clic sui prodotti e del CTR (Click-Through Rate) degli annunci di advertising Azione successiva: portare i dati ottimizzati del feed anche nell'e-commerce, usandoli per l’ottimizzazione delle pagine prodotto e categoria, e l'integrazione dei dati strutturati. Questo permette di ottenere la coerenza delle informazioni. -------------------------------------------------------------------------------- TAKEAWAY DELLA TERZA TAPPA > Il feed non è (solo) un “file tecnico” che l’e-commerce deve produrre. È il > centro della strategia: la chiave per portare le nostre entità su tutte le > piattaforme digitali. E il sito web è solo una di queste piattaforme. Per il futuro, due direzioni diventano obbligate: * essere sempre più abili nel curare i dati delle nostre entità; * essere sempre più agili nel portarle ottimizzate su ogni piattaforma. -------------------------------------------------------------------------------- SI CHIUDE IL VIAGGIO, SI APRE LA STRATEGIA Arrivati qui, il punto non è aver visto tre argomenti separati. Il punto è capire che.. > feed, contenuti e intelligenza sono parti dello stesso motore: il motore della > discovery. E oggi abbiamo tante opportunità per rendere questo motore più potente. -------------------------------------------------------------------------------- - GRAZIE - Se hai apprezzato il contenuto, puoi contribuire al progetto con una donazione 🙂 ISCRIVITI ALLA NEWSLETTER Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su tematiche relative all'intelligenza artificiale. Iscriviti alla Newsletter Email sent! Check your inbox to complete your signup. Gratuita. No Spam. Puoi disiscriverti quando vuoi. Consulta la privacy policy.

January 13, 2026 / Alessio Pomaro

Novità e Riflessioni

SEO

Generative AI: novità e riflessioni - #11 / 2025

> Buon aggiornamento, e buone riflessioni.. -------------------------------------------------------------------------------- IMAGE PROMPT ASSISTANT Ho creato un Agente AI che crea prompt strutturati per modelli dedicati alla generazione di immagini (es. Gemini 3 Pro Image - Nano Banana Pro, Imagen 4, Seedream 4, GPT Image, ecc.). Image Prompt Assistant Dopo diversi test, su diversi modelli, devo dire che lo trovo uno strumento utile, che permette di ottenere un'aderenza elevata delle immagini generate con l'idea di partenza. L'agente riceve in input una descrizione di base dell'immagine, pone domande di follow-up per espandere i dettagli in modo guidato e semplice, e produce un prompt in JSON da usare come input per i modelli. Attualmente lo uso in un flusso che parte da un semplice testo, genera l'immagine (fotogramma chiave), e infine produce la clip video. Ma ho trasferito la stessa logica dell'agente in un GPT per ChatGPT. PER PROVARLO ChatGPT - Image Prompt Assistant Descrivi l’immagine che vuoi creare, e genererò un prompt strutturato da usare per ottenere il miglior risultato. Sfrutta i suggerimenti, oppure parlami direttamente della tua idea. Al resto penserò io. Buona creazione. ChatGPT Le immagini che seguono sono state create in questo modo: idea > GPT > prompt > Imagen 4 Ultra. Image Prompt Assistant + Imagen 4 Ultra Il GPT permette anche la creazione guidata, e la produzione multipla di prompt per generare immagini coerenti dello stesso soggetto con inquadrature diverse. Vai al tool > Se qualcuno vorrà provarlo, sarò felice di ricevere feedback per migliorarlo. -------------------------------------------------------------------------------- LA NUOVA METRICA DELLA VISIBILITÀ? LA RILEVANZA CONTESTUALE! Oggi la pertinenza non basta più. Per comparire nelle AI Overview (e non solo), serve dimostrare di saper rispondere bene, nel contesto giusto. La nuova metrica della visibilità? La rilevanza contestuale! * Pertinenza ≠ Rilevanza → La prima trova i contenuti “vicini”, la seconda sceglie quelli “giusti”. * Embeddings & Reranker → I contenuti vengono selezionati e ordinati in base a quanto bene rispondono alla query. * Test reale su Google AI Overviews → Primo nei risultati, ma fuori dalle fonti. Ottimizzando la risposta (usando un reranker) è diventata prima fonte. * Tool multi-agent → Un sistema automatizzato per migliorare le risposte e aumentare la probabilità di essere scelti come fonte. Per approfondire > È importante sforzarci di comprendere i concetti > tecnici chiave, per poi trasformarli in > strategie e automazioni che fanno la differenza. -------------------------------------------------------------------------------- GEMINI 3 E ANTIGRAVITY > Google ha presentato Gemini 3, il suo modello AI più avanzato, progettato per > offrire capacità senza precedenti in ragionamento, multimodalità e interazione > agentica. L'ho provato. * Una delle novità più interessanti: finalmente il modello supporta l'uso dei tool insieme agli output strutturati. * Ho fatto un test con la web search e output in JSON. Questo sembra un dettaglio, ma nello sviluppo di applicazioni è un grande upgrade. * Ho testato il modello su task abbastanza complessi, dove la versione precedente aveva qualche difficoltà nell'elaborazione e nella creazione di un output strutturato (mentre GPT-5.1 aveva successo): il salto, al di là dei benchmark, sembra essere interessante. Anche se la concezione di "web search" di Gemini continua ad essere diversa da quella di OpenAI. * Su workflow agentici con LangGraph le performance sono sempre elevate. Gemini 3: novità e performance Gemini 3 Pro stabilisce nuovi standard nei benchmark di intelligenza artificiale, superando le versioni precedenti in compiti complessi di logica, matematica, codifica e comprensione visiva. La nuova modalità "Deep Think" porta il modello a un livello superiore, affrontando sfide avanzate con risultati da record. Ha una finestra di contesto da 1 milione di token, e la capacità di integrare testo, immagini, video, audio e codice. Vai al post È stato introdotto anche Google Antigravity, una nuova piattaforma di sviluppo che sfrutta le capacità agentiche di Gemini 3. Google Antigravity L'ho provato: oltre alla modalità di utilizzo classica dell'IDE, il sistema ti permette di delegare interi blocchi di lavoro ad agenti che aprono in autonomia editor, terminale e browser, pianificano i passi, li eseguono e li documentano in artefatti verificabili (liste di task, diff di codice, log di esecuzione, screenshot), lasciando all'utente il ruolo di supervisore e orchestratore del flusso. È un cambio di paradigma: non più solo “scrivimi questo pezzo di codice”, ma “portami da qui al risultato”, seguendo il ragionamento dell’agente e intervenendo quando serve. Scarica Antigravity Framework avanzato di sicurezza: è il modello più testato e sicuro mai rilasciato da Google, con valutazioni indipendenti e nuove difese contro abusi e attacchi AI. > Gemini 3 è già disponibile in Search (AI Mode), in Gemini App, su Vertex AI, > AI Studio (ora usabile con API key) e nella nuova piattaforma Antigravity. -------------------------------------------------------------------------------- GEMINI 3 PRO IMAGE (NANO BANANA PRO) > Gemini 3 Pro Image (Nano Banana Pro) è arrivato, con una caratteristica che > non ha nessun altro modello: il supporto del reasoning di Gemini 3 e della > ricerca di Google.. e questo cambia tutto! Le immagini mostrano alcuni miei test di generazione ed editing. Non avevo dubbi sulla qualità dell'output, ma mi ha impressionato il fatto di inserire nel prompt il contenuto completo della mia newsletter per ottenere l'immagine di sintesi. Così come l'estrazione dei capi d'abbigliamento dalla foto della modella, o gli ingredienti della ricetta partendo dal nome e l'immagine del piatto. Gemini 3 Pro Image (Nano Banana Pro): i miei test > Come sempre, ormai, l'aderenza al prompt è stupefacente. Il modello genera immagini in 2K e 4K, con un controllo creativo professionale su illuminazione, messa a fuoco, composizione e stile. Grazie al rendering avanzato del testo e alla capacità di localizzazione multilingua, consente di creare contenuti visivi complessi come mockup pubblicitari, fumetti, infografiche e materiali educativi. Il modello è in grado di mantenere la coerenza dei volti o dei personaggi su più immagini, e può combinare fino a 14 input visivi in un’unica composizione. Uno degli aspetti più distintivi, come dicevo nell'introduzione, è la possibilità di accedere alla "conoscenza del mondo" in tempo reale attraverso il Grounding con Google Search. Questo permette di produrre visualizzazioni più accurate, ad esempio per mappe storiche o diagrammi scientifici. > L'integrazione con piattaforme come Adobe, Figma e Google Antigravity estende > ulteriormente il suo potenziale applicativo, rendendolo uno strumento > versatile sia per sviluppatori che per team creativi. Vai al post È disponibile tramite l'API di Gemini, Vertex AI e l’app Gemini, e include watermark digitali SynthID in ogni immagine generata, a tutela dell'autenticità e della trasparenza dei contenuti creati con intelligenza artificiale. GEMINI 3 PRO IMAGE (NANO BANANA PRO): UN TEST DI COERENZA + PROMPT Quello che segue è un test di coerenza del modello. Gemini 3 Pro Image: un test di coerenza Le immagini sono state generate usando lo stesso prompt, variando i riferimenti visuali, ovvero le foto dei soggetti. Vai al prompt Le istruzioni sono state generate attraverso "Image Prompt Assistant": ChatGPT - Image Prompt Assistant Descrivi l’immagine che vuoi creare, e genererò un prompt strutturato da usare per ottenere il miglior risultato. Sfrutta i suggerimenti, oppure parlami direttamente della tua idea. Al resto penserò io. Buona creazione. ChatGPT > Il risultato: il modello mostra una forte aderenza al prompt, che può essere > ulteriormente migliorata aggiungendo ulteriori dettagli. Più aumenta > l'oggettività nelle istruzioni, e più aumenta la coerenza. UNA GUIDA DI GOOGLE PER L'USO DEL MODELLO Google ha pubblicato una guida con 10 suggerimenti per usare al meglio il modello. Alcuni spunti pratici dalla guida Rispetto ai modelli precedenti, Nano Banana Pro migliora in modo netto nella resa del testo, coerenza dei personaggi, sintesi visiva, grounding su dati reali (tramite Search) e output fino al 4K. * Prompting naturale: niente "tag soup" come dog, 4k, hyperrealistic. Meglio usare frasi complete come se si stesse parlando con un illustratore umano. * Editing invece di rigenerare: se un’immagine è quasi corretta, basta chiedere modifiche specifiche ("Cambia la luce al tramonto e rendi il testo blu neon") senza ripartire da zero. * Text rendering avanzato: utile per creare infografiche leggibili partendo da PDF o dati grezzi. Può sintetizzare report finanziari, diagrammi tecnici o lavagne educative. * Identity locking: mantiene fedelmente il volto e lo stile di un personaggio o prodotto attraverso più immagini, anche in contesti diversi. * Editing conversazionale: basta descrivere cosa cambiare, senza mascherature manuali. Il modello comprende contesto, logica e fisica (es. riempire un bicchiere, togliere turisti da una foto). * Traduzione dimensionale: da pianta 2D a rendering 3D o viceversa, ideale per architettura, UI design e prototipi visivi. Vai alla guida > La guida è firmata da Guillaume Vernade (Gemini Developer Advocate) e include > 10 sezioni operative, ognuna con esempi pronti da testare in AI Studio. -------------------------------------------------------------------------------- E-COMMERCE: DA IMMAGINI STATICHE A VIDEO SFILATE Questo è un esempio di 4 immagini di un e-commerce trasformate in mini-sfilate loopabili, cioè che possono essere riprodotte in un ciclo continuo. Veo 3.1: trasformare immagini statiche di prodotto in video dinamici coerenti Per produrle ho usato "Veo 3 Prompt Assistant" per creare dei prompt solidi e iper dettagliati, e Veo 3.1 in modalità Image-To-Video, usando l'immagine di prodotto come frame iniziale e finale. ChatGPT - Veo 3 Prompt Assistant Descrivi il video che vuoi creare con Veo 3.1, e genererò un prompt strutturato da usare per ottenere il miglior risultato. Posso fornirti anche l’immagine del fotogramma chiave. Usa i suggerimenti, oppure parlami direttamente della tua idea. Al resto penserò io. Buona creazione. ChatGPT > La coerenza dei movimenti dei soggetti, è data dal dettaglio del prompt, che > non lascia nulla al caso, e rimane lo stesso per tutti i video. -------------------------------------------------------------------------------- VEO 3.1: TRIPLA ESTENSIONE VIA API Un esempio di video con la ripresa di un drone, generato con Veo 3.1 usando una tripla estensione via API. Veo 3.1: tripla estensione via API La generazione è text-to-video, e i 4 prompt (video principale + 3 estensioni) sono stati prodotti attraverso "Veo 3 Prompt Assistant". La coerenza degli elementi visuali e audio è notevole. Per provare "Veo 3 Prompt Assistant" (nuova versione): ChatGPT - Veo 3 Prompt Assistant Descrivi il video che vuoi creare con Veo 3.1, e genererò un prompt strutturato da usare per ottenere il miglior risultato. Posso fornirti anche l’immagine del fotogramma chiave. Usa i suggerimenti, oppure parlami direttamente della tua idea. Al resto penserò io. Buona creazione. ChatGPT Oppure basta cercare "Veo 3 Prompt Assistant" nella sezione GPT di ChatGPT. Il Colab che ho usato per la generazione con l'API di Veo 3.1: Vai al Colab > Basta impostare l'API Key di Gemini e modificare i prompt. -------------------------------------------------------------------------------- È POSSIBILE OTTENERE UN BUON OUTPUT DA UN MODELLO USANDO UN PROMPT NON STRUTTURATO? > Sì.. ma quello che otteniamo non l'abbiamo pilotato, non è riproducibile.. e > questo non può diventare un processo. Con un prompt di 4 parole, su Veo, ad esempio, si possono ottenere video bellissimi. Ma se volessimo un video simile con una piccola variazione, senza un prompt dettagliato di riferimento, non sarebbe ottenibile. Ecco a cosa serve creare prompt iper dettagliati e strutturati: a pilotare con precisione il modello, e a creare processi replicabili. > Nel video, un esempio di 3 clip in cui uso lo stesso prompt su Veo 3.1 > variando la stanza e qualche altro dettaglio. L'importanza di usare prompt strutturati: la coerenza Tutti i prompt sono stati creati attraverso "Veo 3 Prompt Assistant", per mantenere la coerenza. ChatGPT - Veo 3 Prompt Assistant Descrivi il video che vuoi creare con Veo 3.1, e genererò un prompt strutturato da usare per ottenere il miglior risultato. Posso fornirti anche l’immagine del fotogramma chiave. Usa i suggerimenti, oppure parlami direttamente della tua idea. Al resto penserò io. Buona creazione. ChatGPT -------------------------------------------------------------------------------- GPT 5.1 OpenAI rilascia GPT-5.1, un aggiornamento che mira a rendere ChatGPT più intelligente, naturale nel dialogo e più personalizzabile. > L'ho provato nei miei GPTs e anche in applicazioni via API: l'esperienza > risulta essere migliore e più veloce. Le due nuove versioni, Instant e Thinking, migliorano sia la velocità sia la qualità del ragionamento: Instant diventa più "caldo", conversazionale e preciso nell’eseguire istruzioni, mentre Thinking adatta in modo dinamico il tempo di riflessione, offrendo spiegazioni più chiare e risultati più solidi nei compiti complessi. L'esperienza d'uso cambia in modo significativo anche sul fronte della personalizzazione. Oltre agli stili aggiornati (Default, Friendly, Efficient) arrivano Professional, Candid e Quirky, insieme alla possibilità di regolare finezza, calore e concisione direttamente dalle impostazioni. Le preferenze ora si applicano subito a tutte le conversazioni, incluse quelle già in corso. Vai al post Le API si aggiornano con gpt-5.1-chat-latest per Instant e con GPT-5.1 per Thinking, entrambe con ragionamento adattivo e miglioramenti sostanziali nella qualità delle risposte. GPT-5.1: PROMPTING GUIDE > L’evoluzione dei LLM richiede prompt sempre più mirati, iterativi e > strutturati per sfruttare appieno capacità come ragionamento adattivo, > controllo del tono e interazione con strumenti esterni. Questo emerge dalla nuova guida per GPT-5.1 pubblicata da OpenAI. Sono molto d'accordo: lo sto usando in un agente con una quantità enorme di istruzioni e di instradamento del "reasoning", ottenendo output davvero precisi. GPT-5.1: Prompting Guide Una sintesi della guida * Con GPT-5.1, il prompting diventa una leva strategica. Il modello è progettato per bilanciare velocità e intelligenza, adattandosi alla complessità del task e consumando meno token per input semplici. È altamente steerable: si può modellare tono, verbosità e personalità con precisione. * In ambito coding, il modello introduce strumenti nativi come apply_patch e shell, permettendo flussi multi-step e modifiche strutturate al codice. Supporta anche esecuzioni parallele e mantiene lo stato attraverso piani d’azione espliciti. La nuova modalità di reasoning none consente interazioni a bassa latenza e maggiore controllo, simile ai modelli precedenti come GPT-4.1. * Il prompting efficace con GPT-5.1 implica anche la gestione attiva dell’interazione: aggiornamenti all’utente durante lunghe esecuzioni, chiarezza nei piani, attenzione alla persistenza nella risoluzione dei task. La qualità delle istruzioni determina la qualità del comportamento: piccoli cambiamenti nel prompt possono produrre grandi variazioni di risultato. * Il metaprompting diventa un approccio utile per analizzare e correggere i comportamenti indesiderati del modello, attraverso cicli di ispezione e revisione delle istruzioni. Vai alla guida > Con queste nuove generazioni di modelli, scrivere un buon prompt diventa > sempre più importante nella progettazione di sistemi intelligenti. -------------------------------------------------------------------------------- SHOPPING RESEARCH SU CHATGPT OpenAI introduce una nuova esperienza di shopping research su ChatGPT, pensata per semplificare la ricerca dei prodotti. Basta descrivere ciò che si sta cercando, e il sistema costruisce una guida d’acquisto personalizzata, completa e basata su fonti affidabili. Shopping Research su ChatGPT L'ho provato su diverse query. Prima di iniziare la ricerca propone una serie di domande legate al contesto. Successivamente avvia un processo di ricerca e selezione, proponendo una short list di prodotti (di cui uno consigliato), con una tabella comparativa. Durante la fase di ricerca propone delle opzioni di raffinamento in tempo reale. Attualmente non presenta widget di prodotto con le diverse offerte come la normale funzionalità di ricerca. Ma il post di OpenAI specifica che in futuro sarà disponibile anche l'Instant Checkout. Quindi probabilmente l'esperienza si evolverà nel prossimo futuro. Si basa su una versione specializzata di GPT-5 mini, addestrata per leggere siti web attendibili, citare le fonti e sintetizzare grandi quantità di dati. Vai al post > Un pensiero a caldo: si tratta di evoluzioni interessanti, ma lo saranno > davvero quando apriranno effettivamente il "Merchant Center", consentendo agli > e-commerce di condividere i feed, e la ricerca potrà contare su dati > strutturati. -------------------------------------------------------------------------------- CLAUDE OPUS 4.5 Claude Opus 4.5 è il nuovo modello di punta di Anthropic, progettato per eccellere in attività complesse come sviluppo software, automazione tramite agenti AI e utilizzo avanzato di strumenti digitali. È più efficiente dei modelli precedenti, con un significativo risparmio nell’uso dei token e prestazioni migliori nei benchmark interni. Si distingue per la capacità di gestire compiti a lungo termine, con ragionamenti più profondi e meno interruzioni. Claude Opus 4.5: il nuovo modello di Anthropic L’introduzione del parametro “effort” consente di bilanciare flessibilità e precisione a seconda del contesto d’uso. Il modello ottimizza processi come refactoring, code review e pianificazione tecnica, con risultati tangibili anche in ambiti come la modellazione finanziaria e la generazione di contenuti lunghi e coerenti. > Dal punto di vista della sicurezza, è il modello più allineato rilasciato da > Anthropic, con una resistenza superiore agli attacchi di prompt injection. Vai al post È disponibile via API, cloud e nelle applicazioni desktop e mobile, con nuove funzionalità per Chrome, Excel e strumenti di sviluppo distribuiti. -------------------------------------------------------------------------------- AGENTIC SLIDES DI KIMI Kimi presenta Agentic Slides con Gemini 3 Pro Images (Nano Banana Pro): la generazione di presentazioni attraverso l'AI inizia a diventare davvero interessante. > L'ho provato, e il risultato è impressionante. Agentic Slides di Kimi, con Nano Banana Pro Il sistema si basa su Kimi K2 con web search e input multimodale. Genera l'outline della presentazione, che può essere editato prima della generazione delle slide. La presentazione generata può essere modificata e ampliata all'interno del sistema di Kimi. Per provarlo > L'esportazione può essere in PPTX o PDF. -------------------------------------------------------------------------------- LA GENERAZIONE DI IMMAGINI SU FLOW Flow di Google si evolve anche con la generazione di immagini attraverso Gemini 3 Pro Image (Nano Banana Pro) e Imagen 4, permettendo dei flussi di creazione più completi. Ora, ad esempio, è possibile generare immagini che diventano key frame per i video, che successivamente possono essere estesi in piattaforma. La generazione di immagini su Flow Nell'esempio, uso il mio prompt assistant per creare istruzioni coerenti per immagine e video. Genero l'immagine con Imagen 4, e infine la animo con Veo 3.1. Vai a Flow Altra funzionalità interessante: è possibile estrarre fotogrammi dai video, editarli, e sfruttarli come key frame per generare altri video. > Il potenziale aumenta. -------------------------------------------------------------------------------- GENERARE IMMAGINI PIÙ COERENTI? Con un workflow multi-agente è possibile mettere in atto un ciclo di ottimizzazione, creazione e verifica molto interessante. Nell'esempio, uso un sistema basato su LangGraph, Gemini 3 Pro e Gemini 2.5 Flash Image (Nano Banana). Un workflow multi-agente per immagini più coerenti L'input la descrizione dell'immagine da generare. GLI AGENTI SI OCCUPANO DI: * trasformare l'input in un prompt strutturato per la generazione dell'immagine; * generare l'immagine; * valutare la coerenza dell'immagine rispetto al prompt attraverso uno score, e produrre un feedback. Se il valutatore stabilisce che l'immagine non è adeguata, in base alle osservazioni, produce un piano di ottimizzazione del prompt, e il lavoro torna all'agente che crea un nuovo prompt, il quale successivamente farà generare una nuova immagine. E così via finché l'immagine risulta essere adeguata. > Il processo è estendibile anche ai video, visto che le nuove generazioni di > modelli hanno una forte propensione alla multimodalità. -------------------------------------------------------------------------------- CREARE PRESENTAZIONI CON GEMINI MODIFICABILI IN GOOGLE SLIDES? La funzionalità è già disponibile, anche in Italia. Basta attivare "Canvas" e indicare al modello, nel prompt, di creare una presentazione in base al contesto a disposizione. > Nel mio esempio, ho caricato un documento in PDF, e il sistema ha creato una > presentazione di 13 slide. La generazione di presentazioni con l'app di Gemini Usando l'interazione in chat si possono ottenere modifiche al contenuto, ma l'aspetto interessante è la possibilità di aprire e modificare la presentazione direttamente su Google Slides. > Mettendo a punto dei buoni prompt, descrivendo stile, target, elementi > grafici, e altri dettagli, possiamo ottenere delle bozze di buon livello. -------------------------------------------------------------------------------- 3 NOVITÀ INTERESSANTI SU NOTEBOOKLM Su NotebookLM sono state rilasciate 3 importanti novità che riguardano le Video Overview, la Deep Research, le presentazioni e le infografiche. Le novità di NotebookLM: Video Overviews e Deep Research 1. È stato introdotto lo stile personalizzato per la Video Overview. Ora è possibile descrivere le caratteristiche visuali del video, oltre al prompt dedicato al contenuto. L'ho provato: non si tratta di un controllo completo (le strutture di base rimangono), ma è un passo in avanti verso overview completamente custom. 2. Il rollout della Deep Research è completo e usabile. L'ho provato, e, come pensavo è notevole: ora il "problema" diventa gestire le fonti. 3. Finalmente è stata integrata la possibilità di creare infografiche e presentazioni. Attraverso prompt specifici è possibile ottenere dei risultati molto interessanti. Le novità di NotebookLM: infografiche e presentazioni Negli esempi si vede un'infografica generata partendo da un e-book sul Deep Learning e una presentazione generata dal materiale su un mio talk. Unico neo: le presentazioni non possono essere editate su Google Slides, ma sono scaricabili in PDF. Vai a NotebookLM -------------------------------------------------------------------------------- AGENT BUILDER DI OPENAI: È UN BUON SISTEMA? > Sì, ma attenzione allo SPRECO DI TOKEN (enorme)! Spiego come evitarlo. Per testare la piattaforma, ho provato a riprodurre un workflow multi agente sviluppato su LangGraph. Il flusso non è particolarmente complesso, ma ha tutti gli ingredienti per capire le dinamiche: agenti con ruoli diversi e connessi a tool anche via MCP, workflow anche con logica condizionale gestita autonomamente, gestione dello "stallo decisionale", prompt dinamici costruiti dagli agenti stessi. Agent Builder: un workflow multi-agente Il framework può essere usato in modalità "stateful" (come LangGraph), ed è questo che lo rende flessibile. In pratica, gli agenti condividono un set di variabili di stato, che leggono e aggiornano durante il workflow. Una volta completato il flusso in modalità visuale, esportando il codice (Python nel mio caso), in qualche minuto l'applicazione è pronta e funzionante in una macchina dove abbiamo l'Agent SDK installato. E può essere modificata e integrata in un flusso di lavoro più ampio. > Per quanto riguarda il framework, trovo l'astrazione di LangGraph migliore: la > rappresentazione del flusso attraverso un grafo (nodi + connessioni) continua > ad essere vincente e più semplice. Un aspetto che trovo inefficiente e poco scalabile di Agent SDK è che quando gli agenti vengono invocati (di default) ricevono in input TUTTA LA CRONOLOGIA della chat. Questo rende più semplice l'implementazione, ma causa un ENORME SPRECO di TOKEN e RIDUCE LA SCALABILITÀ! > Consiglio: lavorare SOLO sugli stati, e NON con la history della > conversazione. In conclusione: continuerei a scegliere LangGraph, ma sono rimasto sorpreso dalla flessibilità e dalla velocità di lavoro di Agent Builder + Agent SDK. Attenzione allo spreco di token! > È fondamentale comprendere il funzionamento dei framework per usarli al > meglio. -------------------------------------------------------------------------------- OPAL: ESEMPI DI WORKFLOW Opal è un Agent Builder di Google: un sistema che permette di creare applicazioni basate sull'AI in modo visuale. Quelli che seguono sono due esempi di workflow che ho realizzato. VIDEO ADVERTISING Il workflow riceve in input un prodotto di riferimento e un target di destinazione, generando una bozza di video advertising completa. I diversi blocchi sfruttano Gemini e Veo per: * cercare informazioni online, * creare il copy dell’adv, * generare il prompt per il video, * produrre il video stesso, * costruire un widget HTML con l’annuncio completo. Opal di Google: un workflow per video advertising Lavorando sull'ottimizzazione dei prompt dei diversi blocchi, si possono ottenere risultati molto interessanti con un basso effort. SCRITTURA DI CONTENUTI CON DEEP RESEARCH In questo esempio, ho sviluppato un workflow che riceve in input un topic ed esegue le seguenti operazioni.. * Avvia una Deep Research sull'argomento (l'agente è addestrato ad espandere la tematica), e produce un report di ricerca dettagliato. * Genera l'outline per un articolo che mette a fuoco la struttura del contenuto. * Un agente "scrittore", addestrato con linee guida ed esempi, inizia a generare l'articolo sull'argomento. * Parallelamente, due agenti, usando l'outline per generare prompt strutturati per la creazione della "hero" image, e di una clip video. * Il post scritto va in revisione, e l'agente produce un'analisi per l'ottimizzazione. * Nel frattempo, l'immagine e il video sono pronti. * Un agente salva il documento con l'articolo su Drive, e un altro genera una preview della pagina web del post, con i contenuti multimediali. Opal di Google: scrittura di contenuti con Deep Research Gli agenti del workflow usano Gemini 2.5 Pro, il 2.5 Flash per la Deep Research, Veo 3.1 e Imagen 4. Vai a Opal Pro del sistema: tool e modelli potenti pronti all'uso in modo semplice, e la possibilità di parallelizzazione dei task. Contro: non ha nodi decisionali, né connessioni a tool esterni via MCP. Ma la funzionalità sta arrivando. > Recentemente Google ha rilasciato Opal in 160 paesi, ma purtroppo l'Italia non > è tra questi. -------------------------------------------------------------------------------- LA DEEP RESEARCH DI QWEN SI AGGIORNA Il team di Qwen ha rilasciato un importante aggiornamento che riguarda la Deep Research, che rende il sistema più approfondito, veloce e migliore. L'ho provato per una ricerca abbastanza articolata (in modalità "advanced"): in 1 ora e 22 minuti ha creato un report approfondito di 20 pagine, analizzando 170 fonti. La Deep Research di Qwen Il nuovo sistema ha due modalità: "normale" (efficiente e versatile per la maggior parte delle esigenze), e "advanced" (meno veloce, ma più approfondita), e permette il caricamento di file e immagini per arricchire il #prompt di ricerca. La potenza della ricerca è aumentata: diventa più efficiente e profonda. Inoltre migliora il controllo sul report, gestendo meglio, ad esempio, il numero di parole, paragrafi e contenuto. > Continuo a dirlo: modelli come Qwen e Kimi stanno crescendo, diventando delle > alternative sempre più interessanti ai sistemi più noti. -------------------------------------------------------------------------------- FLUX.2 > FLUX.2 è il nuovo modello di generazione e editing di immagini sviluppato da > Black Forest Labs, progettato per flussi di lavoro creativi reali. L'ho provato nella versione "pro", e non ci si poteva aspettare che una qualità altissima. Unica nota: nella coerenza visiva con prompt multimodale, siamo lontani da Gemini. FLUX.2 "pro": alcuni test Supporta immagini ad alta risoluzione (fino a 4MP), mantiene coerenza di stile e soggetti su più riferimenti (fino a 10 immagini), gestisce testi complessi e aderisce a prompt strutturati e linee guida di brand. Rispetto alla versione precedente, offre maggiore realismo, stabilità dell’illuminazione, resa tipografica migliorata e maggiore comprensione del contesto reale. Vai al post SONO DISPONIBILI DIVERSE VARIANTI: * [pro]: massima qualità e velocità per usi professionali. * [flex]: controllo su qualità e tempo di generazione, ideale per sviluppatori. * [dev]: modello open-weight avanzato, utilizzabile localmente o via API. * [klein] (in arrivo): versione open-source più leggera, con licenza Apache 2.0. -------------------------------------------------------------------------------- GEM (GENERATIVE ADS RECOMMENDATION MODEL) DI META Meta ha introdotto GEM (Generative Ads Recommendation Model), un nuovo modello di AI progettato per migliorare la qualità e la rilevanza degli annunci pubblicitari. Si tratta di un foundation model, cioè un modello di base molto grande e versatile, addestrato su larga scala (con migliaia di GPU e enormi quantità di dati), simile ai LLM, ma dedicato alla pubblicità. A differenza dei modelli tradizionali che si concentrano solo su compiti specifici, GEM è costruito per apprendere in modo generale da dati eterogenei (clic, interazioni, formato degli annunci, comportamenti degli utenti) e poi trasferire ciò che ha imparato ad altri modelli più piccoli usati in diversi punti dell’ecosistema pubblicitario di Meta. Meta’s Generative Ads Model (GEM): The Central Brain Accelerating Ads Recommendation AI Innovation We’re sharing details about Meta’s Generative Ads Recommendation Model (GEM), a new foundation model that delivers increased ad performance and advertiser ROI by enhancing other ads recommendation … Engineering at MetaHuayu Li Tra le innovazioni principali: * Architettura personalizzata con attenzione multi-livello: GEM distingue tra dati sequenziali (es. cronologia degli utenti) e non sequenziali (es. età, formato dell’annuncio), trattandoli in modo ottimizzato per cogliere meglio le relazioni complesse tra utenti e annunci. * Modellazione delle sequenze con struttura a piramide parallela: per analizzare lunghe catene di interazioni (click, visualizzazioni) mantenendo il dettaglio senza perdere informazioni utili, anche su migliaia di eventi. * Cross-feature learning con InterFormer: una combinazione di moduli transformer e strati di interazione tra feature, che permette a GEM di affinare continuamente la comprensione del comportamento degli utenti. * Trasferimento di conoscenza efficace: GEM usa tecniche avanzate (come knowledge distillation, representation learning e condivisione dei parametri) per migliorare le prestazioni dei modelli verticali senza aumentarne il peso computazionale. * Training stack ottimizzato: l’infrastruttura di addestramento è stata ripensata da zero per supportare un modello di queste dimensioni. Risultato: +23× nelle FLOPS di training effettive e +1.43× di efficienza nell’uso delle GPU. Vai al progetto > GEM ha già mostrato impatti concreti: nel secondo trimestre 2025 ha aumentato > le conversioni pubblicitarie del 5% su Instagram e del 3% su Facebook Feed. E > gli aggiornamenti successivi hanno raddoppiato l’efficacia per ogni unità di > dati e calcolo aggiunta. -------------------------------------------------------------------------------- SAM 3 DI META + COLAB > Meta ha presentato SAM 3 e SAM 3D, i nuovi modelli di AI per comprendere, > segmentare e ricostruire oggetti e persone in immagini e video. SAM 3 introduce una segmentazione "open vocabulary" basata su prompt testuali, visivi o immagini esempio, superando i limiti delle etichette predefinite. Rileva, segmenta e traccia concetti complessi come "la seconda persona seduta a sinistra con una giacca rossa", e funziona anche in tempo reale su video. 0:00 /0:34 1× SAM 3 di Meta SAM 3D estende queste capacità alla ricostruzione tridimensionale. Con SAM 3D Objects è possibile ottenere modelli 3D con texture a partire da una singola immagine. SAM 3D Body stima con precisione la posa e la forma del corpo umano, anche in presenza di occlusioni o pose inconsuete. Entrambi i modelli si basano su dataset su larga scala costruiti con un sistema ibrido uomo+AI, migliorando drasticamente la qualità e varietà dei dati. Sono già integrati in prodotti come Facebook Marketplace per visualizzare oggetti in ambienti reali, e saranno utilizzati in strumenti per creatori su Instagram, Meta AI e oltre. Vai al progetto > Attraverso la piattaforma Segment Anything Playground, chiunque può > sperimentare queste tecnologie senza competenze tecniche, caricando immagini e > generando segmentazioni o ricostruzioni 3D in pochi passaggi. UN COLAB PER PROVARLO Attraverso questo Colab è possibile provarlo, attraverso un flusso semplice e lineare. Il video viene prima convertito in frame JPEG, perché SAM 3 lavora a livello di immagine. Si apre poi una sessione di inferenza video, nella quale il modello carica tutti i frame e salva i loro feature embeddings. Da lì, basta fornire un prompt testuale e SAM 3 genera le maschere per ogni oggetto rilevante e le segue per tutta la sequenza. In pochi secondi si ottiene un tracking pulito, stabile e fedele, senza alcun training. 0:00 /0:15 1× SAM 3 di Meta: un esempio di utilizzo > Nel video, si vede un esempio del risultato. Vai al Colab -------------------------------------------------------------------------------- FILE SEARCH TOOL NELLA GEMINI API Google ha introdotto il nuovo File Search Tool nella Gemini API, progettato per semplificare l'implementazione di sistemi RAG (Retrieval-Augmented Generation) nei progetti di AI. File Search Tool nella Gemini API Il sistema è completamente gestito e integrato nell’API, permettendo agli sviluppatori di concentrare gli sforzi sulla costruzione delle applicazioni, senza occuparsi della complessità del recupero dei dati. File Search gestisce in modo automatico lo storage dei file, le strategie di suddivisione in chunk, la generazione degli embeddings e l’iniezione del contesto nei prompt, il tutto tramite un’esperienza unificata nell’API generateContent. Utilizza un motore di ricerca vettoriale basato sul modello gemini-embedding-001, in grado di comprendere il significato delle query e restituire risultati pertinenti anche in assenza di corrispondenze testuali esatte. Vai alla documentazione I risultati generati includono citazioni automatiche che indicano con precisione le fonti utilizzate, rendendo più semplice la verifica delle risposte. Il tool è compatibile con numerosi formati, tra cui PDF, DOCX, TXT, JSON e file di codice. Per provarlo Per rendere lo strumento accessibile, Google ha introdotto un modello di pricing che prevede la gratuità per la ricerca e la generazione di embeddings al momento della query. Si paga solo per l’indicizzazione iniziale dei file, al costo fisso di 0,15 $ per 1 milione di token. -------------------------------------------------------------------------------- KIMI K2 THINKING > Kimi K2 Thinking è il nuovo modello open-source di agentic thinking sviluppato > da Moonshot AI. Si tratta di un agente in grado di ragionare in modo autonomo, passo dopo passo, mentre utilizza strumenti esterni come browser, motori di calcolo o ambienti di programmazione. È capace di eseguire da 200 a 300 chiamate sequenziali a tool senza alcun intervento umano, mantenendo coerenza e obiettivi lungo tutto il processo. Kimi K2 Thinking: test e performance Il modello ha ottenuto risultati da stato dell’arte nei principali benchmark di AI: * 44,9% su Humanity’s Last Exam (HLE), un test multidisciplinare con domande di livello esperto; * 60,2% su BrowseComp, valutando la sua capacità di ricerca e consultazione autonoma di fonti online; * 71,3% su SWE-Bench Verified, testando la sua efficacia come agente di programmazione. Il modello mostra un'elevata generalizzazione in compiti complessi e poco strutturati, ed è in grado di risolvere problemi di matematica avanzata. Vai al post Il progetto introduce un paradigma che va oltre la generazione di testo: un’intelligenza artificiale che combina pensiero computazionale, capacità simboliche e uso strumentale, aprendo la strada a una nuova generazione di agenti intelligenti capaci di affrontare compiti aperti e multidisciplinari con autonomia e profondità. -------------------------------------------------------------------------------- FREEPIK SPACES Anche Freepik ha lanciato il suo "canvas" che permette la creazione di workflow per la produzione di contenuti visivi. Si chiama "Spaces". Freepik Spaces: un test Nel video si vede un esempio di un semplice flusso, in cui genero un'immagine "text-to-image" con Seedream 4, e partendo dall'immagine ne creo un'altra, con la nuova funzionalità "Camera Angles", che permette di ruotare l'inquadratura. Infine, collegando l'immagine a un nodo video, e aggiungendo un #prompt testuale, genero un video con Veo 3.1. Ho creato il prompt per l'immagine usando "Image Prompt Assistant": ChatGPT - Image Prompt Assistant Descrivi l’immagine che vuoi creare, e genererò un prompt strutturato da usare per ottenere il miglior risultato. Sfrutta i suggerimenti, oppure parlami direttamente della tua idea. Al resto penserò io. Buona creazione. ChatGPT Il prompt per il video, invece, con "Veo 3 Prompt Assistant": ChatGPT - Veo 3 Prompt Assistant Descrivi il video che vuoi creare con Veo 3.1, e genererò un prompt strutturato da usare per ottenere il miglior risultato. Posso fornirti anche l’immagine del fotogramma chiave. Usa i suggerimenti, oppure parlami direttamente della tua idea. Al resto penserò io. Buona creazione. ChatGPT L'aspetto sempre più interessante di questi modelli è la loro capacità di aderire anche a istruzioni molto strutturate. L'immagine, e poi il video, mostrano esattamente quello che ho descritto nei prompt. -------------------------------------------------------------------------------- SIMA 2 DI GOOGLE DEEPMIND SIMA 2 è la nuova generazione di agenti AI sviluppata da Google DeepMind, progettata per operare in ambienti virtuali 3D complessi. Potenziato dal modello Gemini, non si limita a seguire istruzioni: ragiona, comunica, apprende autonomamente e si adatta a mondi mai visti prima. L'agente comprende obiettivi a lungo termine, esegue compiti articolati e spiega le proprie azioni.. un passo concreto verso l’intelligenza artificiale generale "incarnata"? Le sue abilità si estendono oltre i singoli giochi: riesce a trasferire concetti tra contesti differenti e ad apprendere nuove competenze tramite gioco auto-diretto. 0:00 /0:46 1× SIMA 2 di Google DeepMind SIMA 2 è anche in grado di operare in mondi generati in tempo reale da semplici input testuali o visivi, grazie all’integrazione con il progetto Genie. Durante l’addestramento, il sistema utilizza i feedback di Gemini per migliorarsi progressivamente senza ulteriore supervisione umana, dimostrando una capacità di autoapprendimento su larga scala. Vai al progetto > Il progetto rimane in fase di ricerca, ma apre prospettive concrete per > applicazioni nella robotica, nell’assistenza virtuale e nell’interazione > multimodale uomo-macchina. -------------------------------------------------------------------------------- NESTED LEARNING DI GOOGLE RESEARCH Nested Learning è un nuovo approccio al machine learning sviluppato da Google Research, pensato per risolvere un limite comune nei modelli neurali: quando imparano nuove informazioni, tendono a dimenticare quelle già apprese. Nested Learning di Google Research Invece di considerare il modello come un unico processo di apprendimento, Nested Learning lo interpreta come un insieme di più sottoprocessi organizzati a livelli, ciascuno con il proprio flusso informativo e il proprio ritmo di aggiornamento. Questo approccio unifica la struttura del modello e il modo in cui apprende, trattandoli come parti di un unico sistema. Il risultato è un'AI più stabile, che può imparare in modo continuo senza perdere ciò che già conosce. Hope è l’architettura sperimentale sviluppata secondo questi principi: una rete neurale ricorrente capace di modificare sé stessa e dotata di una memoria flessibile, in grado di gestire grandi quantità di informazioni nel tempo. I risultati mostrano miglioramenti evidenti rispetto ai modelli tradizionali, sia nella comprensione del linguaggio sia nel mantenere memoria di contesti lunghi. Vai al post > Questo apre nuove prospettive per costruire sistemi di intelligenza > artificiale più vicini al modo in cui apprende il cervello umano. -------------------------------------------------------------------------------- KOSMOS: L'AI APPLICATA ALLA RICERCA SCIENTIFICA > Kosmos rappresenta una delle evoluzioni più significative nel campo dell'AI > applicata alla ricerca scientifica. È un sistema progettato per condurre, in modo autonomo, l'intero ciclo della scoperta: analisi dei dati, esplorazione della letteratura, generazione di ipotesi, verifica e sintesi in report strutturati e completamente tracciabili. La sua architettura combina due agenti generici (uno dedicato alle analisi e uno alla ricerca bibliografica) coordinati da un "world model" che mantiene coerenza, memoria e direzione scientifica per centinaia di iterazioni. Il risultato è una capacità di ragionamento esteso che supera di un ordine di grandezza quella dei sistemi precedenti. Kosmos: An AI Scientist for Autonomous Discovery Data-driven scientific discovery requires iterative cycles of literature search, hypothesis generation, and data analysis. Substantial progress has been made towards AI agents that can automate scientific research, but all such agents remain limited in the number of actions they can take before losing coherence, thus limiting the depth of their findings. Here we present Kosmos, an AI scientist that automates data-driven discovery. Given an open-ended objective and a dataset, Kosmos runs for up to 12 hours performing cycles of parallel data analysis, literature search, and hypothesis generation before synthesizing discoveries into scientific reports. Unlike prior systems, Kosmos uses a structured world model to share information between a data analysis agent and a literature search agent. The world model enables Kosmos to coherently pursue the specified objective over 200 agent rollouts, collectively executing an average of 42,000 lines of code and reading 1,500 papers per run. Kosmos cites all statements in its reports with code or primary literature, ensuring its reasoning is traceable. Independent scientists found 79.4% of statements in Kosmos reports to be accurate, and collaborators reported that a single 20-cycle Kosmos run performed the equivalent of 6 months of their own research time on average. Furthermore, collaborators reported that the number of valuable scientific findings generated scales linearly with Kosmos cycles (tested up to 20 cycles). We highlight seven discoveries made by Kosmos that span metabolomics, materials science, neuroscience, and statistical genetics. Three discoveries independently reproduce findings from preprinted or unpublished manuscripts that were not accessed by Kosmos at runtime, while four make novel contributions to the scientific literature. arXiv.orgLudovico Mitchener > In un singolo run di 12 ore, Kosmos può leggere fino a 1.500 articoli, > eseguire oltre 40.000 righe di codice e produrre scoperte che, secondo gruppi > accademici indipendenti, equivalgono a circa sei mesi di lavoro umano. Ogni claim è supportato da codice o letteratura primaria, offrendo un grande livello di trasparenza, e permettendo a scienziati esterni di validare o confutare facilmente ogni passaggio. L’accuratezza complessiva delle sue affermazioni, valutata da esperti, è del 79%, con performance particolarmente solide nelle analisi dati e nelle verifiche bibliografiche. Il valore di Kosmos emerge soprattutto nella sua capacità di esplorare fenomeni complessi con un approccio non pregiudiziale. Nei test condotti, ha riprodotto risultati recenti non ancora pubblicati, ha fornito prove aggiuntive per scoperte esistenti e ha sviluppato nuovi metodi analitici senza supervisione diretta. In alcuni casi è arrivato a identificare meccanismi biologici che non erano mai stati individuati da ricercatori umani. > Questa potenza analitica non elimina > il ruolo dei ricercatori: lo amplia. Kosmos dà il meglio quando opera su dati curati da scienziati e quando i risultati vengono valutati criticamente da esperti. La collaborazione uomo–AI diventa un ciclo continuo: lo scienziato imposta il problema, Kosmos esplora lo spazio delle possibilità, l’umano interpreta, corregge, orienta. E ciò che Kosmos propone, anche quando imperfetto, amplia l’orizzonte degli esperimenti e delle domande future. Vai al paper Nonostante i limiti attuali, il sistema dimostra cosa può diventare la ricerca quando la capacità computazionale si unisce a metodi scientifici automatizzati. Kosmos non promette di sostituire l’ingegno umano, ma accelera il percorso che porta dai dati alla conoscenza, aprendo un nuovo modo di fare scienza in cui esplorazione e validazione si alimentano reciprocamente. -------------------------------------------------------------------------------- FLORA: UN WORKFLOW CON WAN 2.2 E NANO BANANA Flora rimane uno dei sistemi dedicati ai modelli visuali più sorprendenti. Questo workflow, basato su Gemini 2.5 Flash Image (Nano Banana) e Wan 2.2 Move & Replace, permette di sostituire personaggi, abiti o oggetti in post-produzione. 0:00 /0:18 1× Flora: un workflow con Wan 2.2 e Nano Banana Il tutto, collegando blocchi video e immagini di riferimento, e adattando automaticamente il risultato al movimento e alla scena. Vai al workflow -------------------------------------------------------------------------------- L'EDITING DELLE IMMAGINI DI QWEN Uno space di Hugging Face molto interessante che mostra la potenzialità di Qwen nell'editing delle immagini. L'applicazione riceve in input un'immagine e permette di selezionare un'opzione di cambio inquadratura. L'editing delle immagini di Qwen > L'output è un'immagine coerente nell'inquadratura selezionata. -------------------------------------------------------------------------------- I MODELLI DI GENERAZIONE VIDEO RISPETTANO LE LEGGI FISICHE DEL MONDO REALE? > Oppure si limitano a generare sequenze visivamente plausibili senza > comprenderle? Quando è stato lanciato Sora 2, dopo diversi test, avevo già risposto con decisione a questa domanda, ma ora arriva una conferma dal paper "Do generative video models understand physical principles?" di Google DeepMind e INSAIT. Il team ha creato Physics-IQ, un benchmark pensato per misurare la comprensione delle leggi fisiche nei modelli di generazione video. Sono stati messi alla prova otto sistemi tra cui Sora, Runway Gen-3, Lumiere, Pika, Stable Video Diffusion e VideoPoet, chiedendo loro di prevedere come prosegue una scena in base ai primi fotogrammi. Paper: "Do generative video models understand physical principles?" Il dataset include 396 video reali che coprono meccanica dei solidi, fluidodinamica, ottica, termodinamica e magnetismo. I risultati parlano chiaro: anche i modelli più avanzati raggiungono solo il 30% del comportamento fisico reale. Il migliore è VideoPoet (multiframe) con il 29,5%, mentre Sora, pur generando i video più realistici visivamente, si ferma al 10%. > Il dato più interessante: realismo visivo e comprensione fisica non sono > correlati. Un video può sembrare perfettamente credibile e al tempo stesso > violare le leggi fondamentali del mondo reale. Vai al paper Il lavoro apre una riflessione più ampia: la previsione del futuro (next-frame prediction) può davvero bastare per imparare la fisica, o servirà un approccio più "embodied", in cui l’IA interagisce con l’ambiente per capirlo davvero? Il benchmark Physics-IQ è pubblico e rappresenta oggi un riferimento per misurare quanto le intelligenze generative "capiscono" davvero il mondo che imitano. LE MIE CONSIDERAZIONI DOPO IL LANCIO DI SORA 2 #sora #prompt #veo3 #openai #ai #genai #generativeai #intelligenzaartificiale #llm | Alessio Pomaro 🧠 Primi test con #Sora 2, in modalità “text to video”. ✨ Partiamo dal concetto che siamo ormai a livelli molto alti di qualità dell’output e di coerenza. 👉 L’aderenza al #prompt e gli output sono ottimi, anche su contesti ampi e strutturati, ma mi ha convinto maggiormente #Veo3. 👉 Spero di non sentire più nessuno parlare di “SIMULAZIONE FISICA” per questa categoria di modelli. 👉 Sono perfetti in alcuni ambiti (es. quelli che sono stati mostrati nella live di presentazione di #OpenAI), ma un disastro in altri. Perché non c’è una struttura simbolica che imponga vincoli fisici (es. gravità, inerzia, coerenza dei movimenti): tutto deriva dal training. 💡 Certo che migliora rispetto ai modelli precedenti! Perché migliora il training, aumentano i dati, migliorano le tecniche, si agisce per correggere.. ma non può essere affidabile come un sistema che “conosce effettivamente” le leggi fisiche (un motore fisico di simulazione). 👉 Questo vale anche se si usa una fase di “reasoning” che riscrive i prompt migliorando la descrizione per ottenere un risultato migliore. ❓ Forse ci arriveremo (anche se non ne sono certo, considerando solo questa tecnologia). Di certo, oggi non ci siamo. ___ ✉️ 𝗦𝗲 𝘃𝘂𝗼𝗶 𝗿𝗶𝗺𝗮𝗻𝗲𝗿𝗲 𝗮𝗴𝗴𝗶𝗼𝗿𝗻𝗮𝘁𝗼/𝗮 𝘀𝘂 𝗾𝘂𝗲𝘀𝘁𝗲 𝘁𝗲𝗺𝗮𝘁𝗶𝗰𝗵𝗲, 𝗶𝘀𝗰𝗿𝗶𝘃𝗶𝘁𝗶 𝗮𝗹𝗹𝗮 𝗺𝗶𝗮 𝗻𝗲𝘄𝘀𝗹𝗲𝘁𝘁𝗲𝗿: https://lnkd.in/dN-bwBrV #AI #GenAI #GenerativeAI #IntelligenzaArtificiale #LLM LinkedInView Profile -------------------------------------------------------------------------------- TONGYI DEEPRESEARCH: REPORT TECNICO Dopo il lancio di Tongyi DeepResearch, il team di Alibaba ha pubblicato il report tecnico completo, ed è un documento che segna degli step di avanzamento molto interessanti. Tongyi DeepResearch è un modello agentico da 30,5 miliardi di parametri, ma con solo 3,3 miliardi attivi per token. Un’architettura efficiente, progettata per eseguire ricerche complesse, pianificare strategie, consultare fonti reali e sintetizzare conoscenza in modo autonomo. La vera novità è il modo in cui è stato addestrato: un approccio “end-to-end” che unisce due fasi (mid-training e post-training agentico) in un unico flusso continuo. Nella prima fase il modello apprende come comportarsi da agente, nella seconda impara a perfezionare queste abilità attraverso reinforcement learning e fine-tuning supervisionato. Niente etichette manuali: i dati di addestramento vengono generati automaticamente tramite una pipeline di sintesi che produce domande, ragionamenti e decisioni simulate, in ambienti virtuali e reali. È un modo per scalare la conoscenza senza il costo del lavoro umano, mantenendo coerenza e varietà. Vai al paper Il modello interagisce con un ecosistema di strumenti (es. il motore di ricerca, interprete Python, parser di file, Google Scholar) e gestisce contesti fino a 128.000 token grazie a un sistema di memoria compressa che > imita il modo in cui una persona sintetizza e aggiorna ciò che sa durante > un’indagine lunga. Nei test, Tongyi DeepResearch ha superato o eguagliato modelli chiusi come OpenAI o3 e DeepSeek-V3.1, raggiungendo prestazioni allo stato dell’arte su benchmark di ricerca complessa come Humanity’s Last Exam, GAIA e WebWalkerQA. Alibaba ha inoltre introdotto la “Heavy Mode”, che coordina più agenti in parallelo e fonde le loro conclusioni in un’unica risposta coerente: potremmo definirla "intelligenza collaborativa". > Il risultato è un agente capace di unire metodo scientifico e automazione, > costruendo una base aperta per la ricerca autonoma. -------------------------------------------------------------------------------- PERSONAL HEALTH AGENT (PHA) Un nuovo studio di Google Research presenta il Personal Health Agent (PHA), un sistema multi-agente basato su grandi modelli linguistici progettato per offrire supporto personalizzato alla salute e al benessere. The Anatomy of a Personal Health Agent Health is a fundamental pillar of human wellness, and the rapid advancements in large language models (LLMs) have driven the development of a new generation of health agents. However, the application of health agents to fulfill the diverse needs of individuals in daily non-clinical settings is underexplored. In this work, we aim to build a comprehensive personal health agent that is able to reason about multimodal data from everyday consumer wellness devices and common personal health records, and provide personalized health recommendations. To understand end-users’ needs when interacting with such an assistant, we conducted an in-depth analysis of web search and health forum queries, alongside qualitative insights from users and health experts gathered through a user-centered design process. Based on these findings, we identified three major categories of consumer health needs, each of which is supported by a specialist sub-agent: (1) a data science agent that analyzes personal time-series wearable and health record data, (2) a health domain expert agent that integrates users’ health and contextual data to generate accurate, personalized insights, and (3) a health coach agent that synthesizes data insights, guiding users using a specified psychological strategy and tracking users’ progress. Furthermore, we propose and develop the Personal Health Agent (PHA), a multi-agent framework that enables dynamic, personalized interactions to address individual health needs. To evaluate each sub-agent and the multi-agent system, we conducted automated and human evaluations across 10 benchmark tasks, involving more than 7,000 annotations and 1,100 hours of effort from health experts and end-users. Our work represents the most comprehensive evaluation of a health agent to date and establishes a strong foundation towards the futuristic vision of a personal health agent accessible to everyone. arXiv.orgA. Ali Heydari Il PHA integra dati da dispositivi indossabili, cartelle cliniche e interazioni conversazionali per fornire analisi, interpretazioni mediche e coaching motivazionale. Il sistema si articola in tre componenti: 1. il Data Science Agent, che analizza dati numerici e individua pattern; 2. il Domain Expert Agent, che fornisce risposte mediche accurate e contestualizzate; 3. l’Health Coach Agent, che aiuta a definire obiettivi realistici e a sostenere il cambiamento comportamentale. Sviluppato con un approccio centrato sull’utente, il progetto si basa su oltre 1.300 query reali e su dati dello studio WEAR-ME, che ha coinvolto più di mille partecipanti. La valutazione ha compreso 10 benchmark, oltre 7.000 annotazioni umane e più di 1.100 ore di lavoro di esperti e utenti. I risultati mostrano miglioramenti significativi nell’accuratezza analitica, nella qualità delle risposte mediche e nell’efficacia del coaching rispetto ai modelli linguistici generici. Vai al paper > Forse, stiamo vedendo dei progressi interessanti verso "agenti di salute" > integrati, accessibili e orientati all’empowerment delle persone. -------------------------------------------------------------------------------- - GRAZIE - Se hai apprezzato il contenuto, puoi contribuire al progetto con una donazione 🙂 ISCRIVITI ALLA NEWSLETTER Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su tematiche relative all'intelligenza artificiale. Iscriviti alla Newsletter Email sent! Check your inbox to complete your signup. Gratuita. No Spam. Puoi disiscriverti quando vuoi. Consulta la privacy policy.

December 3, 2025 / Alessio Pomaro

Novità e Riflessioni

Rilevanza contestuale: la nuova metrica della visibilità

Negli ultimi mesi ho passato parecchio tempo a studiare un tema che viene spesso ridotto a una frase semplice: > “Il segreto è la pertinenza” La sentiamo ovunque nel mondo della search, soprattutto da quando si parla di AI, RAG, AEO, AIO, GEO, ecc.. Il concetto, a livello intuitivo, è chiaro… ma per un algoritmo, che cosa significa davvero "pertinenza"? E, soprattutto: * è davvero l’unico concetto importante? * Come entra in gioco quando Google (o un sistema RAG) deve scegliere una risposta? * Possiamo misurare e ottimizzare questo processo, fino a creare dei tool che ci aiutano a farlo in modo scalabile? In questo percorso entriamo nel flusso "reale" dei moderni sistemi di ricerca, vediamo un test concreto su AI Overviews di Google, e un sistema multi-agent per ottimizzare le risposte in modo automatico. Partiamo da concetti tecnici (embeddings, bi-encoder, cross-encoder, reranker…) e arriviamo a strategie e tool operativi. Rilevanza contestuale: la nuova metrica della visibilità PERTINENZA E RILEVANZA: DUE PAROLE, DUE CONCETTI DIVERSI Prima di tutto chiariamo i concetti alla base dei moderni sistemi di ricerca, con un esempio concreto di query: > "come rinnovare il passaporto scaduto" Questa query attiva un flusso di lavoro che, semplificando, ha due fasi principali. 1. Pertinenza semantica (semantic matching) Il sistema di ricerca analizza la query e la confronta con i contenuti presenti nella knowledge (l’insieme dei documenti disponibili: pagine, testi, ecc.). In questa fase vengono estratti i contenuti più simili a livello semantico alla query. 2. Rilevanza contestuale (contextual relevance) A partire dai contenuti pertinenti, il sistema seleziona quelli più rilevanti nel contesto della query, cioè quelli che rispondono meglio alla domanda dell’utente. Cosa otteniamo alla fine? Una lista di contenuti ordinati per rilevanza, che può tradursi in una SERP (lista di risultati), oppure diventare il contesto per un modello di AI (LLM/agent), che genera una risposta. Già da qui vediamo un punto importante: > la pertinenza è necessaria, ma non sufficiente. > Prima il sistema decide quali informazioni sono potenzialmente interessanti, e > successivamente determina quelle utili per ottenere la miglior risposta. Come funzionano, nel dettaglio, questi due step? -------------------------------------------------------------------------------- COME SI CALCOLA LA PERTINENZA SEMANTICA: EMBEDDINGS & SIMILARITÀ Per lo step di pertinenza semantica entrano in gioco due concetti chiave: * embeddings * similarità tra vettori Cosa sono gli embeddings? Esempi di utilizzo Cosa sono e come funzionano gli embeddings (o incorporamenti): una spiegazione semplice con alcuni esempi di utilizzo in ambito SEO, e riflessioni sull’importanza della consapevolezza di questi sistemi. Alessio PomaroAlessio Pomaro In breve.. 1. Trasformazione in embeddings Sia la query che i contenuti della knowledge vengono trasformati in vettori numerici (embeddings). Ogni embedding è un vettore in uno spazio multidimensionale che rappresenta il significato del testo. 2. Calcolo della similarità Il sistema misura la similarità tra l’embedding della query e gli embeddings dei contenuti. Più i due vettori sono simili, più il contenuto è considerato pertinente. Il risultato di questa fase è: > Una lista di contenuti pertinenti, cioè i documenti semanticamente più vicini > alla query. UNA NOTA SULLA SIMILARITÀ (NON SOLO COSENO) Spesso si sente parlare di similarità del coseno come metodo standard di confronto tra embeddings. È importante sottolineare che: * la similarità del coseno è solo uno dei modi possibili per misurare la distanza/similarità tra vettori; * il metodo migliore dipende da come sono stati generati gli embeddings: dall’architettura del modello, dal processo di training, dalla normalizzazione dei vettori, ecc.. A parità di embeddings, metodi diversi possono portare a risultati diversi. Ci basta conservare un concetto: > Non è sufficiente “avere gli embeddings”: dobbiamo conoscerne la struttura per > scegliere il metodo di similarità giusto. -------------------------------------------------------------------------------- COME SI CALCOLA LA RILEVANZA: RERANKER, BI-ENCODER E CROSS-ENCODER Quando passiamo dalla pertinenza semantica alla rilevanza contestuale, cambia completamente il tipo di modello utilizzato. Qui entrano in gioco i reranker, ovvero modelli che: * ricevono in input una query e un contenuto/documento, * restituiscono in output uno score di rilevanza, cioè un valore numerico che indica quanto quel contenuto è candidato a rispondere alla query. Alla fine di questo step, otteniamo: > una lista ordinata dei contenuti più rilevanti per la query. BI-ENCODER VS CROSS-ENCODER Per capire meglio, facciamo un passo indietro sulle architetture. BI-ENCODER → PERTINENZA Per la pertinenza semantica, usiamo sistemi che vengono definiti "bi-encoder". * La query viene codificata in un embedding. * Il contenuto viene codificato in un embedding. * Un calcolo matematico di similarità tra i due embeddings determina lo score di pertinenza. Sono chiamati "bi-encoder" proprio perché vengono usati due encoding separati. CROSS-ENCODER → RILEVANZA Per la rilevanza, invece, usiamo sistemi "cross-encoder" (reranker). * La query e il contenuto vengono concatenati in un unico input, * l'input combinato viene passato a un modello transformer, * il modello elabora tutto insieme e restituisce uno score di rilevanza. Schema mentale: > [query + contenuto] → modello transformer → score di rilevanza Questa differenza di architettura spiega perché, nei sistemi di ricerca moderni, si usano due fasi distinte. -------------------------------------------------------------------------------- PERCHÉ SERVONO DUE FASI: VELOCE E SCALABILE VS LENTO E PRECISO Perché si usano queste due fasi per la ricerca? Perché il calcolo della pertinenza è veloce, scalabile, e meno preciso. Mentre il calcolo della rilevanza è lento, costoso, e iper preciso. Riassumendo.. * Bi-encoder (pertinenza) ✅ veloci ✅ scalabili ❌ meno precisi * Cross-encoder / reranker (rilevanza) ❌ lenti ❌ costosi ✅ estremamente precisi ❌ con finestra di contesto limitata Queste caratteristiche fanno nascere la necessità di una pipeline ibrida: 1. un sistema veloce e meno preciso (bi-encoder) agisce per scremare la knowledge; 2. un sistema lento e iper preciso (cross-encoder) agisce per raffinare e ordinare. -------------------------------------------------------------------------------- DALLA TEORIA AL RAG (E OLTRE): IL “TYPICAL SEARCH & RETRIEVAL FLOW” Il flusso che abbiamo descritto è esattamente quello dei sistemi RAG (Retrieval Augmented Generation), in cui.. * abbiamo una knowledge base (documenti, pagine, FAQ, ecc.), * l’utente effettua una query, * un sistema di retrieval estrae i contenuti più pertinenti (bi-encoder), * un reranker seleziona e ordina i contenuti più rilevanti (cross-encoder), * il risultato: può essere mostrato come lista di documenti, oppure passato a un LLM per generare una risposta. Nella documentazione di Google, questo flusso oggi viene definito: > "typical search and retrieval flow" Typical search & retrieval flow Il messaggio implicito è... * non è solo “RAG per documenti interni”, * è un pattern generale per la ricerca: vale per la knowledge locale, per il web, per sistemi ibridi. Ed è qui che entra in scena qualcosa che ormai tutti stiamo guardando con attenzione: AI Overview (e, in generale, i nuovi sistemi di risposta ibridi che uniscono un motore di ricerca a un modello di linguaggio). -------------------------------------------------------------------------------- AI OVERVIEW COME SISTEMA IBRIDO: COSA CONTA DAVVERO? Guardando il flusso che abbiamo descritto, viene spontaneo chiedersi: > "l'AI Overview, quando mostra le fonti vicino alla risposta, > su cosa si basa per scegliere quelle pagine?" È ragionevole ipotizzare che: * le fonti mostrate siano le pagine che contengono le risposte con rilevanza contestuale più alta nella knowledge di Google; * non basta essere in prima posizione tra i risultati organici per essere automaticamente una fonte dell'AI Overview. E infatti… IL MIO CASO: IN PRIMA POSIZIONE, MA FUORI DA AI OVERVIEW Per la query "cosa sono i priority hints", il mio contenuto era primo tra i risultati organici, ma, inizialmente, non compariva tra le fonti dell'AI Overview. Ho deciso, quindi, di fare un esperimento per capire meglio cosa stava succedendo "sotto il cofano". -------------------------------------------------------------------------------- IL TEST: MISURARE LA RILEVANZA DELLE RISPOSTE (E SCOPRIRE CHE LA MIA ERA... LA PEGGIORE) Vediamo il test, step by step. 1. Ho considerato le pagine che erano fonti della risposta principale dell'AI Overview. 2. Da ciascuna di queste pagine ho estratto la risposta alla query dell’utente (la parte di contenuto che risponde effettivamente alla domanda). 3. Ho fatto la stessa operazione con la mia pagina web, che comunque era prima tra i risultati organici, e quindi un candidato naturale per diventare fonte della risposta. 4. Ho usato un reranker per misurare la rilevanza contestuale tra la query e le risposte dei contenuti che erano già fonte dell'AI Overview, e tra la query e la risposta del mio contenuto. IL RISULTATO? La risposta nella mia pagina.. > era quella con rilevanza > contestuale più bassa tra tutte. Questo allinea perfettamente l’esperimento con l’ipotesi: l'AI Overview non “premia” chi è semplicemente ben posizionato tra i risultati organici, ma dà priorità ai contenuti che forniscono risposte più rilevanti. -------------------------------------------------------------------------------- OTTIMIZZARE LA RISPOSTA A COLPI DI RERANKER A questo punto, passiamo alla seconda fase del test. * Ho analizzato le risposte delle pagine che il reranker considerava più rilevanti, osservando: le entità trattate, i termini usati, gli aspetti della query che venivano valorizzati, i focus che venivano messi in atto. * Ho modificato la mia risposta cercando di includere le entità rilevanti, coprire tutti i punti che le altre risposte trattavano in maniera esaustiva, mantenere coerenza con il mio stile e con il contesto della pagina. * Ogni volta che aggiornavo il contenuto, misuravo nuovamente la rilevanza contestuale di tutte le risposte attraverso il reranker, verificando se la mia risposta stava salendo nel ranking. Ho iterato questo processo finché: > la mia risposta ha ottenuto uno score di rilevanza superiore a tutte le altre. E cosa è successo dopo pochi giorni? La mia pagina è diventata prima fonte dell'AI Overview per quella query. Quindi funziona! Ma andiamo a fare un bilancio dell'operazione. BILANCIO DELL’OPERAZIONE * Effort: altissimo. * Certezza del risultato: nessuna, perché Google non documenta in modo completo il comportamento di AI Overviews. * Utilità strategica: sì, in ottica di branding e autorevolezza, e forse garantisce qualche clic in più. * Scalabilità: zero, perché si tratta di un'operazione manuale che se dovesse essere applicata a centinaia di query si tradurrebbe in un effort enorme. Da qui nasce la domanda naturale: > "E se provassimo a automatizzare questo processo?" -------------------------------------------------------------------------------- DAL TEST AL TOOL: UN SISTEMA MULTI-AGENT PER OTTIMIZZARE LE RISPOSTE Trasformiamo l'esperimento in un tool. L'architettura di base è LangGraph, con un approccio multi-agent. Un tool multi-agente per l'ottimizzazione per l'AI Overview ARCHITETTURA AD ALTO LIVELLO Il sistema funziona attraverso i seguenti step. * Un Agent Orchestrator riceve in input la query e l'URL della pagina web da ottimizzare. * Un altro agent, recupera il risultato di AI Overview per la query, estrae le fonti della risposta principale, estrae anche le fonti delle risposte secondarie (quelle legate alle query di fan-out). * Attraverso un LLM, viene rilevata la risposta alla query da ciascuna fonte, ovvero il testo all'interno delle pagine web che mira a rispondere direttamente alla domanda. Viene attuato lo stesso processo anche per la pagina da ottimizzare. * A questo punto abbiamo una tabella concettuale con: query, risposta di ogni fonte dell'AI Overview, risposta della pagina da ottimizzare. * Diversi agenti, successivamente, usano un reranker per misurare la rilevanza contestuale di ogni risposta rispetto alla query, e producono un ranking delle risposte. In maniera iterativa, prendono in considerazione le risposte delle fonti, il contesto complessivo della SERP, la risposta della pagina da ottimizzare, e generano una nuova risposta candidata. * La nuova risposta viene valutata dal reranker. Se lo score è inferiore rispetto alle migliori risposte, il sistema: genera una nuova variante considerando tutti i dati a disposizione, ricalcola la rilevanza, e così via, fino a quando la risposta generata non ottiene lo score di rilevanza più alto tra tutte. * Un ulteriore gruppo di agenti analizzano le query di fan-out (derivate dalle risposte secondarie dell'AI Overview), analizzano le pagine in SERP, costruiscono una proposta di ottimizzazione per la struttura della pagina, per intercettare anche le query di fan-out. RISULTATO FINALE DEL SISTEMA Una volta terminata l'azione del workflow, otteniamo una risposta ottimizzata da inserire nella pagina web, e un'analisi SEO che mira a riorganizzare/arricchire il contenuto, valorizzare in modo più completo il topic, posizionarsi meglio anche per le ricerche correlate. E se lo pensiamo come sistema che lavora in background? > Potrebbe analizzare costantemente le query, monitorare le AI Overview e > ottimizzare in autonomia (costantemente) i contenuti per aumentare la > probabilità di essere fonte. > Nei nostri test, questa idea è già diventata realtà su alcuni progetti. -------------------------------------------------------------------------------- L’INDICE DI RILEVANZA È UN VALORE ASSOLUTO? (SPOILER: NO) A questo punto sorge una domanda importante: > Se, secondo il reranker, un contenuto è più rilevante di un altro, > si tratta di una verità assoluta? La risposta è no, perché lo score di rilevanza dipende da: * l’architettura del modello di reranking, * i dati usati in fase di training, * gli eventuali processi di fine-tuning, * le scelte di ottimizzazione fatte in fase di sviluppo. Quindi, reranker diversi, applicati allo stesso set di dati, possono restituire punteggi differenti, e quindi classifiche diverse. Nell'immagine che segue, ad esempio, vediamo a confronto la misurazione della rilevanza contestuale di due reranker diversi (Jina Reranker V3 e Semantir Ranker di Google). Un test usando due reranker diversi Come si può notare, gli score sono diversi, e danno vita a una "classifica" diversa. > È un po' come chiedere a due esperti molto competenti, ma con formazione > diversa, di classificare gli stessi contenuti: avranno tendenzialmente > opinioni simili, ma non per forza identiche. QUAL È IL "DATO CORRETTO"? Non esiste un “dato corretto” in assoluto. Esiste un modello che "guarda il mondo" secondo la propria formazione, e restituisce il suo "giudizio". Nel tool, ho scelto di usare il reranker di Google, considerando il fatto che, probabilmente, è stato addestrato su una quantità enorme di dati proprietari, compresi i dati derivanti dalla ricerca online (click, comportamenti, feedback impliciti, ecc.). -------------------------------------------------------------------------------- IL TOOL IN AZIONE: UNA RAPIDA PANORAMICA Nel seguente video, è possibile vedere l'esecuzione del tool su una query di ricerca. AI Overview Content Strategist Agent V7 L'output, come indicato in precedenza, è composto dal testo dedicato alla risposta per l'AI Overview e dall'analisi per l'ottimizzazione del contenuto. -------------------------------------------------------------------------------- AEO, AIO, GEO, ECC.: COSA CAMBIA DAVVERO NELLA SEO? Dopo aver fatto funzionare questo sistema su centinaia di pagine, e dopo aver osservato l’evoluzione di tutte le sigle che stanno emergendo (AEO, AIO, GEO, ecc.), viene spontanea una domanda: > Rispetto alla SEO che conoscevamo, > quali sono le vere novità? Per come la vedo oggi, la mia risposta è: "molto poche". Quello che emerge come davvero rilevante sono le attività che avremmo sempre dovuto svolgere: rispondere in modo esaustivo alle query degli utenti, esplorare il topic in modo completo, usare un linguaggio chiaro e corretto, fornire un valore reale. QUINDI, COS'È CAMBIATO? > È cambiato il fatto che oggi abbiamo nuove piattaforme e nuove SERP Features > che ce lo fanno presente. E nuovi strumenti per migliorare la qualità del > nostro lavoro. -------------------------------------------------------------------------------- È FONDAMENTALE APPROFONDIRE ANCHE GLI ASPETTI TECNICI Oggi abbiamo a disposizione strumenti, informazioni, documentazione, esempi pratici che ci permettono di comprendere la ricerca anche dal punto di vista tecnico. Questo non significa dover essere in grado di sviluppare migliaia di righe di codice o diventare ingegneri esperti nel Machine Learning. Significa capire i concetti di base, ad esempio cosa sono gli embeddings, come si calcola la similarità, come lavorano i bi-encoder e i cross-encoder, cosa significa parlare di reranking e rilevanza contestuale, come funziona un flusso RAG o un sistema ibrido tipo l'AI Overview, avere una visione chiara di come i sistemi "prendono decisioni". PERCHÉ? > Capire gli aspetti tecnici → genera nuove intuizioni > Nuove intuizioni → generano nuove strategie e nuovi strumenti > Nuovi tool → migliorano concretamente la qualità del nostro lavoro Ed è esattamente quello che abbiamo fatto in questo viaggio: * siamo partiti da concetti molto tecnici (embeddings, similarità del coseno, reranker, transformer, multi-agent…), * li abbiamo usati per interpretare il comportamento di un sistema reale (AI Overviews), costruire un tool concreto che ci aiuta a migliorare i contenuti, ottenere risultati misurabili in progetti reali. Se vogliamo far performare la SEO nel mondo della ricerca aumentata dall’AI, la strada, secondo me, è questa: > sforzarci di comprendere i concetti tecnici chiave, > per poi trasformarli in strategie e automazioni che fanno la differenza. Buona ricerca (e buona "comprensione tecnica" 😊). - GRAZIE - Se hai apprezzato il contenuto, puoi contribuire al progetto con una donazione 🙂 ISCRIVITI ALLA NEWSLETTER Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su tematiche relative all'intelligenza artificiale. Iscriviti alla Newsletter Email sent! Check your inbox to complete your signup. Gratuita. No Spam. Puoi disiscriverti quando vuoi. Consulta la privacy policy.

November 25, 2025 / Alessio Pomaro

Novità e Riflessioni

SEO

Generative AI: novità e riflessioni - #10 / 2025

> Buon aggiornamento, e buone riflessioni.. -------------------------------------------------------------------------------- IL DECLINO DEL "VIBE CODING" In una delle sue ultime newsletter, Gary Marcus racconta questo fenomeno: anche investitori entusiasti come Chamath Palihapitiya e lo stesso Andrej Karpathy (che ha coniato il termine “vibe coding”) stanno riconoscendo i suoi limiti. Il declino del "vibe coding" > La domanda che mi faccio è: si tratta di un > fallimento della tecnologia o di aspettative > figlie di un hype irrazionale? Si pensava di "spruzzare una pozione magica" che avrebbe creato software pronti per la produzione in uno schiocco di dita? Se sì, abbiamo individuato il problema. Questa idea non può funzionare nella complessità del mondo reale, e chiunque abbia un minimo di conoscenza del settore ne è sempre stato consapevole. > L'AI, come sempre, è un perfetto "braccio armato" per chi, quel braccio, lo sa > già usare alla perfezione. > That's it. -------------------------------------------------------------------------------- VEO 3.1: TEST E RISORSE UTILI > Il rilascio era nell'aria, e ora è concreto: Veo 3.1 è disponibile su Gemini > Chat, su Flow, via API, e su Vertex. L'ho provato su Flow, generando un video in modalità "text to video", e usando la funzionalità di "estensione", pilotata da prompt testuali, in cui ho descritto le azioni di ogni scena successiva. La funzionalità di estensione è disponibile anche via API. Veo 3.1: test con estensione su Flow > L'aderenza alle istruzioni è straordinaria, > come la qualità dell'output. Per i prompt, ho usato "Veo 3 Prompt Assistant"... ChatGPT - Veo 3 Prompt Assistant Descrivi il video che vuoi creare con Veo 3.1, e genererò un prompt strutturato da usare per ottenere il miglior risultato. Posso fornirti anche l’immagine del fotogramma chiave. Usa i suggerimenti, oppure parlami direttamente della tua idea. Al resto penserò io. Buona creazione. ChatGPT L'ultima versione del modello introduce un livello superiore di realismo visivo, con texture più fedeli alla realtà, miglior adesione ai prompt e un’integrazione profonda della componente audio. Scene più vive, dettagli più precisi e narrazioni audiovisive sempre più fluide. Con Veo 3.1, strumenti come "Riferimenti per i video", "Frame per i video" ed "Estendi" diventano ancora più potenti: ogni elemento visivo può essere orchestrato con precisione, controllato da immagini, esteso nel tempo o modificato con editing mirato. Vai al post Su Flow sono state aggiunte nuove funzionalità per l'inserimento e la rimozione di oggetti e/o personaggi, con la ricostruzione automatica dello sfondo. Vai al post TEST: SPOT PUBBLICITARIO CON EFFETTI Ho provato a creare una parte di uno spot pubblicitario, con effetti visivi e animazione del logo. Il prompt descrive la transizione tra prodotto e logo, con effetti e suoni. Il risultato che si riesce ad ottenere è molto interessante. Veo 3.1: test per la generazione di spot pubblicitari > La generazione è text-to-image, realizzata via API, con output a 1080p. I > prompt sono stati prodotti attraverso "Veo 3 Prompt Assistant". UN COLAB PER LA GENERAZIONE E L'ESTENSIONE Ho creato un Colab che permette di: * generare un video partendo da un prompt testuale; * estenderlo in modo coerente, fino a triplicarne la durata, attraverso ulteriori prompt che descrivono le scene successive. Il tutto attraverso le API di Veo 3.1. Video generato ed esteso con le API di Veo 3.1 Il video è stato generato con questo Colab (i prompt di generazione ed estensione si possono vedere all'interno). Vai al Colab > Basta impostare l'API Key di Gemini e premere "Play". Generazione e tripla estensione del video con Veo 3.1 Un altro esempio di generazione e di tripla estensione del video attraverso le API di Veo 3.1. Duplicando i blocchi del Colab, infatti, è possibile continuare l'estensione. -------------------------------------------------------------------------------- SORA 2: PRESENTAZIONE E TEST > OpenAI ha annunciato Sora 2, che si candida a diventare il modello più evoluto > per la generazione di video. Se quello che è stato mostrato in presentazione è effettivamente il livello degli output, per qualità, coerenza, aderenza ai prompt.. direi che abbiamo l'antagonista di Veo 3. Che, nel frattempo, però, ha lanciato la versione 3.1 facendo un ulteriore balzo migliorativo. Sora 2: presentazione Secondo OpenAI, Sora 2 non rappresenta soltanto un salto incrementale: è un cambio di paradigma nel modo in cui immaginazione, fisica e controllo narrativo si incontrano. Ogni generazione video include nativamente l’audio: dialoghi sincronizzati, sound design credibile, paesaggi sonori che danno corpo alle scene. Ma il vero avanzamento è nella "simulazione del mondo": rimbalzi che rispettano la dinamica, acrobazie che “pesano” come nella realtà, interazioni complesse tra agenti e oggetti che non si risolvono con scorciatoie visive. La coerenza di stato consente di costruire sequenze più lunghe e istruzioni multi-shot senza spezzare il filo narrativo, attraversando stili dal cinematografico all’anime fino al cartoon. La funzione “Cameo” porta dentro la scena persone, animali o oggetti reali: una breve registrazione video-audio con verifica di liveness e prompt dinamico permette al modello di apprendere aspetto e voce come un “token” da riutilizzare ovunque. È qui che l’esperienza diventa sociale: la nuova app Sora è un feed di contenuti generati dall’AI ma pubblicati da umani, con possibilità di seguire amici, creare da un composer essenziale, e “remixare” i video altrui per dare continuità ai trend. Le impostazioni di privacy sono granulari: si decide chi può usare il proprio cameo e si mantiene il diritto di rimuovere qualsiasi contenuto che lo includa. Sul fronte sicurezza: watermark visibili, standard C2PA per la provenienza, modelli di prevenzione per contenuti violenti o X-rated (specie con cameo), limiti predefiniti per i minori, parental control via ChatGPT e nudge anti-doomscrolling per adulti. Vai al post Sotto la superficie, l’obiettivo è ambizioso: addestrare sistemi capaci di comprendere profondamente il mondo fisico. Nel frattempo, Sora 2 mette nelle mani di tutti un laboratorio di immaginazione condivisa che unisce rigore di simulazione e gioia creativa. PRIMI TEST E CONSIDERAZIONI Partiamo dal concetto che siamo ormai a livelli molto alti di qualità dell'output e di coerenza. L'aderenza al prompt e gli output sono ottimi, anche su contesti ampi e strutturati, ma mi ha convinto maggiormente Veo 3.1. Primi test con Sora 2 di OpenAI > Spero di non sentire più nessuno parlare di "SIMULAZIONE FISICA" > per questa categoria di modelli. Sono perfetti in alcuni ambiti (es. quelli che sono stati mostrati nella live di presentazione di OpenAI), ma un disastro in altri. Perché non c’è una struttura simbolica che imponga vincoli fisici (es. gravità, inerzia, coerenza dei movimenti): tutto deriva dal training. Certo che migliora rispetto ai modelli precedenti! Perché migliora il training, aumentano i dati, migliorano le tecniche, si agisce per correggere.. ma non può essere affidabile come un sistema che "conosce effettivamente" le leggi fisiche (un motore fisico di simulazione). > Forse ci arriveremo (anche se non ne sono certo, considerando solo questa > tecnologia). Di certo, oggi non ci siamo. L'ELABORAZIONE PRE-GENERAZIONE > Sora 2 elabora i prompt prima della generazione del video? Vediamo un test > molto interessante. Ho usato un prompt in cui chiedo al modello di rappresentare un matematico che dà il risultato di un problema. Il problema non è banalissimo: si risolve con un sistema di due equazioni in due incognite. GPT-5, ad esempio, attiva il reasoning per risolverlo. Il video generato da Sora esplicita la soluzione corretta! Lo si vede in 3 diverse generazioni per dimostrare come lo risolve sempre. Ho fatto altri test, anche su problemi diversi, e ottengo sempre risultati corretti. L'elaborazione pre-generazione di Sora 2 Molto probabilmente, quindi, il prompt viene elaborato da un LLM che risolve il problema e riscrive le istruzioni prima della generazione del video. Questo fa capire anche il livello di multimodalità di questi sistemi. > Nota: non sono riuscito a ottenere un risultato altrettanto soddisfacente > usando Veo 3. -------------------------------------------------------------------------------- OPENAI: LE NOVITÀ PRESENTATE AL DEVDAY Durante il "DevDay", OpenAI ha presentato diverse novità. Il DevDay di OpenAI AGENT KIT, UNA PIATTAFORMA COMPLETA PER L’INTERO CICLO DI VITA DI UN AGENTE: DALLA PROTOTIPAZIONE AL DEPLOY * Agent Builder, permette di disegnare graficamente il comportamento dell’agente, collegando nodi (es. sistemi decisionali, guardrail, recupero dati) senza scrivere codice. Ogni blocco è un componente funzionale, del flusso di lavoro dell’agente. * Chat Kit fornisce interfacce React pronte per integrare la chat in qualsiasi app. * Evals è un insieme di strumenti di test e valutazione che introduce il trace grading, cioè la possibilità di analizzare ogni passaggio del ragionamento dell’agente, fondamentale per il debug e la sicurezza. Agent Kit include anche una libreria di connettori e un framework per crearne di nuovi. Vai al post SONO STATE PRESENTATE LE APPS IN CHATGPT, UN’ESTENSIONE NATURALE DELL’IDEA DI AGENTE Ora è possibile creare vere e proprie applicazioni interattive, che vivono dentro la chat, anche con mini esperienze costruite con HTML, CSS e JS. Non semplici risposte testuali, ma componenti visivi dinamici che si integrano con API esterne. Nella demo, ChatGPT ha aperto Figma per trasformare uno schizzo in un diagramma editabile, e Spotify per generare una playlist, visualizzata come widget musicale. La chiave tecnica è l’Apps SDK, basato sul protocollo MCP. Questo rende le app indipendenti dall’ecosistema OpenAI. È previsto anche un App Store dedicato, e un protocollo dedicato all'e-commerce, per acquisti e pagamenti. Vai al post CODEX È ORA IN DISPONIBILITÀ GENERALE E BASATO SU GPT-5-CODEX Il modello regola dinamicamente il proprio "tempo di reasoning" a seconda della complessità del compito. Durante la demo, Codex ha costruito un’app React da un disegno. LE NUOVE API: * GPT-5 Pro, disponibile via API; * gpt-realtime-mini, un modello vocale più economico del 70%; * Sora 2 con API in preview. QUALCHE RIFLESSIONE Le App sono, di fatto, server MCP con uno strato dedicato a ChatGPT (UI e vincoli specifici). Per i servizi che espongono già MCP, sarà semplicissimo creare un'app per ChatGPT. L'Agent Builder è veramente interessante, non solo per automazioni "one shot", ma per servizi completi usabili via API. > Ridimensionerei la chiusura di Altman da “oggi non serve un grande team, né un > grande budget, serve solo un’idea” in "oggi una grande idea ha molte più > chance di diventare un grande prototipo, anche con meno risorse". TEST DI AGENT BUILDER + CHAT KIT Un semplice test per provare l'integrazione di Chart Kit nell'Agent Builder. La funzionalità, permette di integrare elementi grafici personalizzati nell'output degli Agenti. Nelle immagini si vede un semplicissimo flusso con due agenti: * uno per la ricerca prodotti che usa un MCP per la connessione ad Amazon e la web search, * l'altro per classificare l'output. Nelle impostazioni dei due agenti ho indicato "widget" nella tipologia di output. E ho creato i due widget direttamente in Widget Builder. Test di Agent Builder + Chat Kit di OpenAI Widget Builder permette di creare widget personalizzati anche attraverso prompt in linguaggio naturale. Nelle immagini si vedono i due widget valorizzati dal risultato del lavoro degli agenti. I widget vengono generati in React, e valorizzati attraverso un JSON (tutto prodotto dal Builder). L'agente usa quel JSON per "comprendere" come generare l'output. > Funzionalità molto interessante, che può semplificare di molto le > integrazioni. Ho una confessione da fare, però. Trovo che questi sistemi siano contributi estremamente utili per democratizzare lo sviluppo di soluzioni. Ma non riesco a pensare di sganciarmi da un framework agentico code-based (es. LangGraph) per creare soluzioni solide, controllate e flessibili per la produzione. TEST DELLE APPS SU CHATGPT Le App si possono attivare principalmente in due modi: attraverso le fonti selezionabili dal menù di ChatGPT, o attraverso le menzioni usando il carattere "@" con il nome dell'applicazione. L'attivazione delle App su ChatGPT Nelle immagini attivo l'app di Booking e di Expedia, e cerco voli e camera per un viaggio, anche con query abbastanza specifiche (da notare come variano i widget di Booking in base alla ricerca). Test delle Apps su ChatGPT L'aspetto interessante: come specifica OpenAI nella sua documentazione, le applicazioni si attivano anche senza selezionarle, in base a quello che chiede l'utente. Negli esempi, si vedono le query che faccio senza nessuna app attiva. Il sistema attiva il reasoning, sceglie uno strumento (un'app), traduce la query in una chiamata API e mostra i risultati nell'applicazione. Diventa molto interessante per i brand, con nuove possibilità di essere "scoperti" in piattaforma. -------------------------------------------------------------------------------- AGENT BUILDER VS N8N > No, Agent Builder e n8n non sono lo stesso sistema. Facciamo chiarezza. E ci > sono diversi motivi per cui non uso questi strumenti (finti) no-code. * L'Agent Builder è un sistema che permette di creare agenti evoluti e multifunzione usabili via API in applicazioni esterne. * Le piattaforme di workflow automation (come n8n) servono, invece, per creare flussi completi che coinvolgono più servizi. Tra questi servizi possono esserci degli AI Agent. Agent Builder VS n8n > In una frase: quello che si crea con Agent Builder, potenzialmente, può essere > integrato in un workflow di sistemi come n8n. PERCHÉ NON USO QUESTI SISTEMI.. * Se si lavora con automazioni di un certo tipo, non riducono la complessità: la aumentano. Nel flusso dell'immagine, ad esempio, ho dovuto creare 2 blocchi Python per formattare e pulire i dati: chi riesce a sviluppare quei due blocchi, è anche in grado di sviluppare l'intero workflow in Python. * Gli interfacciamenti ai servizi non sono sempre aggiornati. Ad esempio, "URL Context" e "Google Search" non sono disponibili su Gemini in n8n.. per il flusso nell'immagine ho creato un blocco per una chiamata HTTP per usarli: è molto più facile con 10 righe di Python su Colab. > Teniamo conto del fatto che l'AI Assistant di Colab, ormai, è molto > performante (di certo, più di quello su n8n). * Flessibilità scalabilità. Il fatto di evitare approcci basati sullo sviluppo, porta spesso a costruire "accrocchi" che prima o poi (presto) diventano ingestibili, senza speranze di evoluzioni successive. > Però gli "schemini con tante scatoline" sono belli da vedere nei post social. * Se nei flussi usiamo LLM per funzionalità sviluppabili con qualunque linguaggio, e usiamo i workflow in migliaia di interazioni, sprechiamo un'enorme quantità di token (=costi). > Esempio. Il workflow n8n che si vede nell'immagine replica un flusso che ho su > un Colab. Il Python del Colab è stato implementato (da zero) in metà tempo > rispetto alla replica, anche con memoria, logging e dashboard di monitoraggio. -------------------------------------------------------------------------------- OPAL DI GOOGLE Ho provato Opal di Google: uno strumento potente, e incredibilmente semplice. Si tratta di una piattaforma no-code / low-code di Google Labs che consente di costruire workflow agentici in modo visuale, con nodi in cui è possibile gestire modelli, strumenti, input/output. Workflow su Opal di Google In pochi minuti ho creato il workflow che si vede nelle immagini, che consente di dare in input un argomento.. il sistema esegue delle ricerche online, estrae i contenuti, produce l'outline del post per un blog, la sfrutta come contesto per generare la "hero" immagine e un video, scrive il post, e lo impagina. Il tutto sfruttando Gemini 2.5 Pro, Gemini 2.5 Flash Image (Nano Banana), e Veo 3. I diversi blocchi usano strumenti come la web search, e lo scraping dei contenuti dei risultati. Per provarlo > Opal, attualmente, è un tool in beta, e disponibile solo negli USA, quindi è a > un livello di maturità diverso rispetto all'Agent Builder di OpenAI. Però, la > sensazione è quella di un sistema più semplice da usare, ed estremamente > potente. -------------------------------------------------------------------------------- MINIMAX-M2 MiniMax-M2 è un nuovo modello sviluppato da MiniMax AI, progettato per unire potenza computazionale, velocità e accessibilità in un unico sistema ottimizzato per workflow agentici e di programmazione. > L'ho provato su un AI Agent, in un'architettura che normalmente uso con Gemini > 2.5 Pro: devo dire che il risultato che ottengo è davvero ottimo. Direi > paragonabile, su task con un'enorme quantità di istruzioni. È un modello Mixture of Experts (MoE) con 230 miliardi di parametri totali, ma con soli 10 miliardi di parametri attivati durante l’inferenza. Questa architettura consente un bilanciamento efficace tra performance elevate e costi contenuti, con tempi di risposta significativamente più rapidi rispetto ai modelli di pari fascia. MiniMax-M2: le performance Il modello mostra prestazioni avanzate in una varietà di benchmark. Su compiti di codifica e uso di strumenti, ottiene punteggi competitivi rispetto a Claude Sonnet 4.5, Gemini 2.5 Pro e persino GPT-5 (Thinking). Nei test SWE-Bench Verified e Terminal-Bench si distingue per accuratezza ed efficienza, mentre in compiti più ampi di intelligenza generale (come MMLU-Pro, AIME25 e GAIA) raggiunge livelli di eccellenza che lo collocano tra i migliori modelli open-source oggi disponibili. Anche in scenari complessi come BrowseComp, in cui l'agente deve navigare, ricercare e ragionare su fonti distribuite, MiniMax-M2 dimostra affidabilità, robustezza e capacità di recupero. Vai al post La sua progettazione consente di eseguire loop di pianificazione e verifica in modo rapido, mantenendo bassa la latenza e riducendo il consumo di memoria. Questo lo rende particolarmente adatto a implementazioni in ambienti produttivi, dove è essenziale combinare capacità decisionali complesse con fluidità operativa. Vai al progetto MiniMax-M2 è completamente open source, disponibile su Hugging Face, con pesi modello scaricabili e documentazione per il deploy tramite framework come vLLM e SGLang. In parallelo, l’accesso via API è reso disponibile gratuitamente per un periodo limitato, a un costo nominale che rappresenta circa l’8% del prezzo delle API di Claude Sonnet, con velocità di inferenza circa doppia. TEST DEL MODELLO + COLAB La mia esperienza: ho fatto diversi test (vedi sotto), sia via API, sia usando l'agente web, e l'ho trovato impressionante. MiniMax-M2: test > L'aspetto che mi ha colpito maggiormente è che non ho avuto bisogno di > scegliere modelli, attivare opzioni, selezionare modalità.. ho solo creato > task, e l'agente ha eseguito tutto autonomamente. I TEST che si vedono nelle immagini.. * Ho dato in input al modello il video di un mio talk, e ho chiesto di sviluppare una presentazione che espone i concetti trattati. Visualizza il risultato * Ho dato in input l'URL di una sezione del mio canale YouTube, e ho chiesto al modello di analizzare i video, e di sviluppare un sito web che li raccoglie, con le anteprime in homepage, e pagine di approfondimento con video embeddato e un post testuale che lo sintetizza. Lo stile lo prende dal mio sito web: era una ulteriore richiesta Visualizza il risultato * Ho dato in input un dataset, e ho chiesto al modello di sviluppare 4 diverse dashboard, sotto forma di sito web, per l'esplorazione dei dati da parte di diverse figure aziendali. Visualizza il risultato > Tutti i task sono stati eseguiti brillantemente in circa 2 ore, e con step di > reasoning che mi hanno colpito. Quando sviluppa dei layout, ad esempio, li testa internamente, e se ci sono delle visualizzazioni o dei comportamenti non soddisfacenti, corregge autonomamente l'implementazione. Per un'applicazione (test numero 2) ha anche creato un DB di supporto su Supabase. Per usarlo via API, è possibile sfruttare sia la libreria Python di Anthropic, sia quella di OpenAI. Il seguente Colab è una semplicissima implementazione che usa la libreria di OpenAI. Vai al Colab Basta inserire l'API Key di MiniMax nelle variabili "secrets" ed eseguire i blocchi. > MiniMax-M2 è uno dei progetti che mi ha colpito maggiormente nell'ultimo > periodo, con performance degne dei modelli più noti (questo lo dicono anche i > benchmark). -------------------------------------------------------------------------------- ATLAS, IL BROWSER DI OPENAI OpenAI presenta Atlas: non più solo un luogo dove cercare informazioni, ma uno spazio in cui l'AI lavora insieme all'utente, direttamente nel browser. > Durante la presentazione mi sono chiesto costantemente.. se domani Google > rilascerà Chrome con Gemini (già annunciato, e con le stesse funzionalità di > Atlas), quanti penserebbero di rendere Atlas il browser predefinito? Atlas (come Comet e Chrome) comprende ciò che si sta guardando in modo nativo, aiuta a completare attività e può agire dentro le pagine. Può aprire documenti, riassumere codice, migliorare email, pianificare eventi o ordinare ciò che serve per una ricetta. Atlas, il browser di OpenAI Le memorie del browser rendono l’esperienza personale e continua: ChatGPT ricorda il contesto e offre aiuto più mirato, con la possibilità di gestire la memoria e di attivare la modalità "incognito". Il sistema (come Comet e Chrome) ha la modalità "agente", che permette ad Atlas di prendere il controllo del browser e di compiere automazioni (ricerche, preparazione carrelli nell'e-commerce, ecc.). Vai al post OpenAI ha pubblicato anche un contenuto su come migliorare la presenza dei siti web nei risultati di ricerca di ChatGPT su Atlas: non grandi novità.. si parla di accessibilità e tag ARIA. Interessante il fatto che si potranno usare le App di ChatGPT, che potrebbero essere interessati per i brand. > Secondo OpenAI, Atlas segna un passo avanti verso un modo più fluido e > intelligente di usare Internet, in cui il lavoro e le idee scorrono senza > interruzioni. -------------------------------------------------------------------------------- GEMINI 2.5 COMPUTER USE Google DeepMind ha rilasciato Gemini 2.5 Computer Use, un modello che consente agli agenti di interagire con interfacce utente in modo nativo, simulando l’operatività umana su browser e dispositivi mobili. L'ho provato, ed è indubbiamente un sistema interessante. Nel video si vedono un task di ricerca prodotti e uno di estrazione dati. Da notare come supera il reCAPTCHA di Google, che non è proprio banale. Gemini 2.5 Computer Use: un test Basato sulle capacità avanzate di comprensione visiva e ragionamento di Gemini 2.5 Pro, questo modello è progettato per affrontare compiti digitali che richiedono interazioni complesse come il completamento di moduli, l’uso di menu interattivi e l’accesso a sistemi protetti da login. Il funzionamento si basa su un ciclo continuo di input e risposta: il sistema riceve una richiesta, uno screenshot e una cronologia delle azioni, genera un'azione da eseguire (come cliccare o digitare), e dopo l’esecuzione riceve un nuovo screenshot per proseguire fino al completamento del task. La struttura iterativa permette una gestione dinamica e adattiva dei flussi di lavoro. Vai al post Oltre a dimostrare prestazioni superiori rispetto ad alternative esistenti in termini di accuratezza e latenza, Gemini 2.5 Computer Use introduce un approccio maturo alla sicurezza. Google ha integrato controlli nativi e meccanismi esterni per prevenire abusi, comportamenti indesiderati o azioni rischiose, con particolare attenzione a scenari come l’automazione di acquisti o l’interazione con ambienti sensibili. Vai al progetto > Questa tipologia di agenti sta facendo notevoli passi in avanti. -------------------------------------------------------------------------------- GEMINI ENTERPRISE Google ha presentato Gemini Enterprise, basato sui modelli Gemini più avanzati. Consente di interagire con i documenti, i dati e le applicazioni delle aziende, e di creare e distribuire agenti AI per gestire qualunque flusso di lavoro. 0:00 /0:37 1× Gemini Enterprise di Google Un’unica interfaccia conversazionale permette di accedere agli agenti e automatizzare attività complesse, connettendosi in sicurezza a sistemi come Google Workspace, Microsoft 365, Salesforce e SAP. Attraverso un workbench no-code e una suite di agenti preconfigurati o personalizzabili, è possibile analizzare dati, orchestrare processi e generare contenuti in formato testo, video o voce. Con il nuovo Data Science Agent, l’esplorazione e l’elaborazione dei dati si semplifica grazie a piani multi-step generati automaticamente. Vai al progetto Gli sviluppatori possono creare estensioni personalizzate con Gemini CLI, integrando AI nel proprio flusso di lavoro. Nasce così un nuovo ecosistema aperto: l’economia degli agenti, supportata da protocolli standard per comunicazione, contesto e transazioni sicure. -------------------------------------------------------------------------------- SHOPPING ONLINE: LE NOVITÀ DI GOOGLE Google continua a rivoluzionare l'esperienza di shopping online con strumenti basati sull'AI, migliorando l'interazione tra utente e prodotto grazie a funzionalità immersive e personalizzate. VIRTUAL TRY-ON Con il Virtual Try-On è possibile caricare una foto a figura intera e vedere come vestiti e, da oggi, anche scarpe appaiono indossati. 0:00 /0:20 1× Il Virtual Try-On di Google L'intelligenza artificiale analizza forme e profondità per una resa visiva realistica. La funzionalità è già disponibile negli Stati Uniti, le verrà presto estesa. I MIEI TEST Nelle immagini si vede come ho cercato prima un cappotto, e successivamente delle scarpe con intento d'acquisto. L'AI Mode integra i widget dei prodotti direttamente nella risposta, e, nella sidebar è possibile attivare la prova virtuale. Ho caricato una mia immagine, e il modello mi fa indossare i capi che seleziono. Il Virtual Try-On nell'AI Mode di Google La mia immagine rimane a disposizione durante la sessione, quindi, se si cambia prodotto, si può vederlo direttamente indossato. > Un'interfaccia unica e risultati personalizzati. Questa è la direzione della > ricerca potenziata dall'AI. LE ALTRE NOVITÀ Google aggiorna anche gli avvisi di prezzo: è ora possibile impostare preferenze su taglia, colore e budget desiderato. L’utente riceverà notifiche automatiche appena un prodotto corrisponde ai propri criteri. In arrivo, inoltre, una nuova modalità che suggerisce outfit e idee per l'arredamento partendo da una semplice descrizione. L'AI genererà abbinamenti visivi con prodotti acquistabili selezionati tra miliardi di articoli nel catalogo Google. Vai al post -------------------------------------------------------------------------------- GEMINI: GROUNDING WITH GOOGLE MAPS Una nuova funzionalità nell'API di Gemini: il Grounding with Google Maps. > Per me, uno dei rilasci più interessanti dell'anno. L'applicazione nelle immagini è un esempio di utilizzo: l'ho creata su AI Studio, partendo dall'esempio nella documentazione. È un assistente (rudimentale ) per la visita delle città. > Oltre al server MCP, quindi, ora è possibile usare direttamente il tool nelle > chiamate a Gemini. Il Grounding with Google Maps permette di creare Agenti AI e applicazioni arricchite con dati geospaziali aggiornati, collegando Gemini con le informazioni di oltre 250 milioni di luoghi. Un'applicazione che sfrutta il Grounding with Google Maps La novità consente all'AI di generare risposte contestuali legate a una posizione geografica, utilizzando anche recensioni, orari di apertura, coordinate e dettagli visuali tramite widget interattivi. Questa integrazione apre nuove possibilità per settori come travel, real estate, logistica e retail, permettendo la creazione di itinerari personalizzati, raccomandazioni localizzate e risposte ultra-specifiche basate su dati reali e aggiornati. È anche possibile combinare i dati di Maps con quelli di Google Search per risposte ancora più precise e pertinenti. Vai al post > La forza dell'ecosistema Google si concretizza sempre maggiormente: quale > altro player avrebbe questa possibilità? -------------------------------------------------------------------------------- NANO BANANA VS IMAGEN 4 Ultimamente si parla solo di Gemini 2.5 Flash Image (Nano Banana), ma Google ha anche Imagen 4. Qual è la differenza? Imagen 4 è il modello text-to-image più avanzato, progettato per generare immagini di qualità fotografica e testo perfettamente leggibile all’interno delle scene. È disponibile in più varianti (Fast, Standard e Ultra) e punta tutto su fedeltà visiva, resa dei dettagli e tipografia impeccabile. Rispetto a Flash Image, che nasce per la velocità e per l’editing interattivo (come aggiungere o rimuovere oggetti, fondere immagini o mantenere coerenza di personaggi), Imagen 4 è dedicato alla generazione pura: poster, visual pubblicitari, concept di prodotto, design e illustrazioni ad altissima definizione. Immagine generate usando Imagen 4 Ultra Ho generato le immagini usando Imagen 4 Ultra, con output a 2K. Direi che la qualità è l'aderenza ai prompt sono a livelli molto elevati. > In sintesi, Gemini Flash Image è lo strumento per iterare e modificare > velocemente; Imagen 4 Ultra è quello da usare quando conta la perfezione > visiva. -------------------------------------------------------------------------------- NOTEBOOKLM: L'EVOLUZIONE DELLE VIDEO OVERVIEWS NotebookLM introduce una nuova evoluzione nelle Video Overview: grazie a Gemini 2.5 Flash Image (Nano Banana), i video diventano non solo informativi ma anche visivamente più coinvolgenti. L'ho provato. Ho generato questa video overview partendo da un libro sul Deep Learning, richiedendo al modello un output per bambini delle scuole medie. Non è perfetto, ma la qualità aumenta. Un esempio di Video Overview su NotebookLM Ora è possibile scegliere tra sei stili grafici, tra cui watercolor, papercraft e anime, per personalizzare le presentazioni, rendendo più chiari e memorabili anche i contenuti. È stato anche aggiunto un nuovo formato: accanto ai video "Explainer", pensati per un'analisi completa, arriva "Brief", una versione breve e immediata per cogliere i concetti chiave in pochi istanti. Vai al post > In arrivo anche la funzionalità dedicata a generare le infografiche. -------------------------------------------------------------------------------- AI MODE: NUOVE FUNZIONALITÀ Ogni volta che apro l'AI Mode di Google negli USA trovo nuove funzionalità, arricchite dall'AI Generativa. * Ora permette l'upload di documenti, che il sistema elabora, e integra con la ricerca per dare delle risposte alle query. * È stato integrato Gemini 2.5 Flash Image (Nano Banana) per l'editing e la generazione di immagini. AI Mode: nuove funzionalità > Per un attimo ho dimenticato di aver iniziato l'esperienza dal "campo di > ricerca" di Google. -------------------------------------------------------------------------------- QUANDO HA SENSO USARE WORKFLOW MULTI-AGENTE? Quando un task non è una semplice esecuzione, ma richiede fasi di valutazione, decisione e auto-correzione. > In pratica, quando abbiamo bisogno che l'AI non si limiti a "fare", ma anche a > "pensare" come un team. Con LangGraph, uno dei framework più potenti per questo scopo, costruiamo questi flussi di lavoro come un grafo: * i nodi sono gli agenti specializzati (un ricercatore, un copywriter, un revisore); * le connessioni tra i nodi (edges) definiscono come collaborano gli agenti. Il sistema è "stateful": tutti gli agenti lavorano su uno "stato" condiviso (AgentState), una sorta di lavagna di progetto che viene aggiornata a ogni passaggio. Un sistema multi-agent (LangGraph) L'esempio nell'immagine mostra un flusso di revisione intelligente: * Il Ricercatore raccoglie le informazioni. * Lo Scrittore crea una bozza basandosi su quelle informazioni. * Il Revisore valuta il lavoro. Se non è perfetto, può decidere autonomamente se rimandare il compito allo Scrittore (per problemi di forma) o addirittura al Ricercatore (per lacune informative), generando un piano d'azione specifico per ciascuno. * Se il team entra in un loop, un Editore finale interviene per finalizzare il lavoro. > Il risultato? Un processo dinamico e resiliente, in cui l'AI gestisce la > complessità in autonomia. -------------------------------------------------------------------------------- BLOCKRANK DI GOOGLE DEEPMIND > Google torna a spingere sull'evoluzione del ranking semantico, sfruttando la > potenza dei LLM. Search Engine Journal ha commentato il nuovo paper di Google DeepMind, "Scalable In-context Ranking with Generative Models", in cui viene presentato BlockRank: un metodo pensato per rendere il reranking semantico dei LLM più efficiente. Google’s New BlockRank Democratizes Advanced Semantic Search Google’s BlockRank performed competitively with other state-of-the-art ranking models that were tested in research. Search Engine JournalRoger Montti Il lavoro affronta un limite noto: usare i LLM per leggere e ordinare molti documenti insieme (il cosiddetto in-context ranking) è potente, ma estremamente costoso. BlockRank risolve il problema imponendo una struttura di attenzione "a blocchi": ogni documento "guarda" solo sé stesso e le istruzioni, mentre la query può "vedere" tutto. In più, una loss contrastiva insegna al modello a concentrare l’attenzione sui documenti davvero rilevanti. Scalable In-context Ranking with Generative Models Il risultato è notevole: prestazioni allo stato dell’arte su benchmark come BEIR e MS MARCO, con una riduzione dei tempi di inferenza fino a 4,7 volte e scalabilità lineare fino a 500 documenti nel contesto. SEJ descrive BlockRank come un passo avanti nel rendere il ranking semantico più accessibile ed efficiente, aprendo la strada a un’integrazione più profonda dei LLM nei sistemi di ricerca. Ma attenzione: i reranker semantici sono già parte dei motori di ricerca moderni. Nel nostro laboratorio sperimentiamo con questi modelli (es. Semantic-ranker di Google) da diversi mesi, con risultati molto interessanti. La novità di BlockRank non è tanto cosa fa, quanto come lo fa, spostando il concetto di reranker dentro l’architettura stessa del modello linguistico. Vai al paper > Un passo verso un futuro in cui capire e ordinare l’informazione diventeranno > due facce della stessa operazione cognitiva. -------------------------------------------------------------------------------- AI STUDIO E IL VIBE CODING > La nuova esperienza di "Vibe Coding" di AI Studio è molto interessante. AI Studio e il "Vibe Coding" * Permette di aggiungere funzionalità all'applicazione attraverso blocchi preimpostati che arricchiscono il prompt. * Mentre il modello genera il codice, fornisce suggerimenti di integrazione, che si trasformano in istruzioni con un clic. * Grazie all'Annotation Mode è possibile indicare le modifiche all'agente attraverso annotazioni direttamente nella preview. > Piccoli cambiamenti per grandi semplificazioni. -------------------------------------------------------------------------------- QUANDO L'AI IMPARA A MIGLIORARSI DA SOLA: GOOGLE PRESENTA VISTA > Ho sviluppato un sistema multi-agent che lavora con la stessa logica, ma l'ho > abbandonato per l'elevato consumo di token. Infatti, nel paper, di Google è > uno dei limiti che viene messo in evidenza. I modelli di generazione video stanno diventando sempre più potenti, ma restano fragili: basta variare il prompt per ottenere risultati completamente diversi. Il team di Google e della National University of Singapore ha presentato VISTA (Video Iterative Self-Improvement Test-time Agent), un sistema che ottimizza autonomamente i video generati da modelli text-to-video come Veo 3, senza bisogno di riaddestramento. VISTA (Video Iterative Self-Improvement Test-time Agent) Il sistema funziona come una piccola squadra di agenti intelligenti che collaborano tra loro: * un pianificatore che scompone il prompt in scene e dettagli visivi, audio e contestuali; * un sistema di giudici che valuta i video generati e seleziona il migliore in tornei a confronto diretto; * una triade di critici (visivo, audio, contesto) che analizza punti di forza e debolezza; * un agente che riscrive il prompt in modo mirato, migliorando il risultato a ogni ciclo. Il risultato? Video più coerenti, realistici e fedeli alle intenzioni dell’utente. Nei test, VISTA ha superato i metodi precedenti fino al 60% di win rate, con una preferenza umana del 66% sui video generati. > Un passo deciso verso un’AI capace di autovalutarsi e crescere con ogni > tentativo. -------------------------------------------------------------------------------- CLAUDE SKILLS > Claude Skills è una nuova funzionalità introdotta da Anthropic per rendere > l'AI altamente personalizzabile in contesti professionali specifici. Le Skills sono strutture modulari che includono istruzioni, codice e risorse. Quando vengono attivate, consentono a Claude di operare come uno specialista, eseguendo compiti complessi secondo procedure ben definite. A differenza di semplici prompt, le Skills si comportano come pacchetti di competenze che Claude può attivare solo quando necessario. Questo le rende efficienti e scalabili: si costruiscono una volta sola e si riutilizzano in ambienti diversi. Dalle app Claude, all’ambiente Claude Code, fino alle integrazioni via API. 0:00 /1:09 1× Le Skill di Claude La forza di questo approccio risiede nella sua modularità. Claude può selezionare e combinare autonomamente più Skills per affrontare attività articolate, come l’analisi avanzata di fogli di calcolo, la generazione di documenti aderenti a brand guideline aziendali o l’esecuzione di codice specifico in un ambiente sicuro. Non si tratta quindi solo di automazione, ma di trasferimento di conoscenza operativa in un formato strutturato. Vai al post La creazione delle Skills è supportata da strumenti integrati. Non è necessario intervenire manualmente nei file di configurazione: basta descrivere un flusso di lavoro, e Claude genera automaticamente la struttura corretta. Questo rende accessibile la creazione anche a chi non ha un profilo tecnico avanzato. -------------------------------------------------------------------------------- GEMINI CLI PUNTA A DIVENTARE IL TERMINALE DI RIFERIMENTO > L'obiettivo? Trasformare Gemini nel terminale di riferimento, e non in un > software che si apre da terminale. L'ultima evoluzione di Gemini CLI, infatti, segna un passo significativo verso un’esperienza da terminale totalmente integrata, con la possibilità di eseguire comandi interattivi complessi tipici del terminale restando all’interno del contesto della CLI. 0:00 /0:34 1× Gemini CLI: terminale di riferimento Questo cambiamento non riguarda solo la comodità, ma una trasformazione architetturale: Gemini CLI ora gestisce una sessione di terminale virtuale in background, usando un sistema di serializzazione che cattura e restituisce lo stato del terminale in tempo reale, incluso testo, colori e movimenti del cursore. Vai al post > Il risultato è una comunicazione bidirezionale completa con l’ambiente > terminale. L’utente può digitare, ricevere output ricco, ridimensionare la > finestra, e continuare a lavorare come se fosse in un terminale nativo, ma con > tutti i vantaggi dell’ambiente contestuale di Gemini. -------------------------------------------------------------------------------- COME USARE UN SERVER MCP IN UN AGENTE AI REMOTO, SENZA DOVER ACQUISTARE O CONFIGURARE UN SERVER? > Vediamo una soluzione semplicissima. Solitamente, i servizi che rilasciano un Server MCP, lo fanno attraverso una libreria da installare in locale. Una volta avviato, quel server MCP è usabile da agenti locali (es. Gemini CLI, Claude Desktop, Codex CLI) o IDE (es. Cursor). Per usarlo su Agenti AI remoti, si dovrebbe installare il server MCP in una macchina remota, renderlo disponibile attraverso un endpoint (un URL che lo richiama). Ad esempio, potremmo ospitarlo su Cloudflare Workers per renderlo accessibile via URL pubblico. In fase di prototipazione, o per utilizzi rapidi, invece, sto usando ngrok: si tratta di un servizio che permette di rendere raggiungibile il server MCP locale da un endpoint remoto. E questo ci permette di usarlo, ad esempio, come server MCP su Agent Builder di OpenAI, e in qualunque agente remoto che si interfacci con il protocollo MCP. Un esempio dei un server MCP locale usato da remoto Nelle immagini si vede come faccio funzionare il server MCP di DataForSEO in locale, con ngrok genero un endpoint raggiungibile dall'esterno, e poi uso l'MCP nel Playground di OpenAI, in un Agente che lo usa per estrarre dati per un'analisi di mercato. * Pro del sistema: è semplicissimo da usare (un comando da console), e l'utilizzo free è più che sufficiente per prototipare o per usarlo in Agenti che usiamo in attività personali. * Contro del sistema: l'endpoint non è fisso, ma varia ad ogni avvio del servizio. ngrok | API Gateway, Kubernetes Ingress, Webhook Gateway ngrok simplifies app delivery by unifying API gateway, Kubernetes ingress, multi-cluster load balancing and more with ngrok’s Universal Gateway. API Gateway, Kubernetes Ingress, Webhook Gateway > In sintesi: con ngrok possiamo sperimentare con server MCP in modo immediato, > senza infrastrutture dedicate. -------------------------------------------------------------------------------- MCP E SCOPERTA DINAMICA DEI TOOL Una delle caratteristiche più interessanti dell'uso di server MCP (Model Context Protocol) è la cosiddetta "scoperta dinamica degli strumenti". In pratica, l'agente AI può interrogare il server per scoprire quali tool (funzioni) ha a disposizione e come utilizzarli. Quando il server MCP si connette all'agente, espone automaticamente la lista dei tool disponibili (si vede nell'immagine), ognuno corredato da una descrizione, la firma dei parametri di input e le informazioni su come viene prodotto l'output. Quando l’utente, o un altro sistema, invia una richiesta all'agente, il LLM seleziona in modo autonomo i tool necessari basandosi sulle descrizioni fornite, genera gli input corretti e integra le risposte ottenute direttamente nel proprio contesto. Questo processo può avvenire non solo in risposta a una richiesta esterna, ma anche durante la fase di "reasoning" del modello, in modo completamente dinamico. MCP e scoperta dinamica dei tool Tutto ciò apre possibilità molto interessanti: l'agente può scoprire e combinare nuove modalità d'uso dei servizi, andando oltre i flussi predefiniti. Nell'esempio mostrato, il server MCP collegato espone 67 tool, ognuno corrispondente a una funzionalità API del servizio, costantemente aggiornate e ampliate. > Ecco perché l’accoppiata Agent + MCP rappresenta un approccio estremamente > potente. Nota: è però fondamentale mantenere un controllo accurato sulle azioni dell'agente, per ottimizzare il suo comportamento e trovare il giusto equilibrio tra autonomia e affidabilità. -------------------------------------------------------------------------------- LA DEEP RESEARCH DI QWEN SI EVOLVE Con la nuova versione, oltre al report, permette di generare una pagina web organizzata con le informazioni raccolte, e un podcast a due voci. La Deep Research di Qwen Il tutto, sfruttando Qwen3-Coder, Qwen-Image e Qwen3-TTS. Per provarla > Sistemi come Qwen e Kimi, secondo me, stanno crescendo in maniera > straordinaria, offrendo sistemi gratuiti ad elevato potenziale. -------------------------------------------------------------------------------- FIGURE 03 > I progressi della Physical AI rappresentano un > segnale che rende immediatamente comprensibile la trasformazione che stiamo > vivendo. Figure03 è la terza generazione di robot umanoidi progettata da Figure, ed è il primo modello nato non come prototipo ma come prodotto scalabile, pensato per apprendere, adattarsi e operare nel mondo reale. Alla base c’è Helix, un sistema AI integrato visione-linguaggio-azione, attorno al quale è stato ridisegnato ogni aspetto hardware e software del robot. La presentazione di Figure 03 Il nuovo sistema visivo permette una percezione densa e stabile dello spazio, anche in ambienti complessi come le abitazioni. Le mani, dotate di sensori tattili sviluppati internamente, riescono a cogliere variazioni minime di forza e pressione, consentendo una manipolazione fine di oggetti delicati o irregolari. L’intero sistema è progettato per apprendere in modo continuo attraverso il trasferimento ad alta velocità di grandi volumi di dati. Nel contesto domestico, Figure 03 introduce miglioramenti significativi in termini di sicurezza, autonomia e usabilità. Le superfici morbide, i tessuti lavabili, la riduzione del peso e la ricarica wireless integrata ne fanno un dispositivo pensato per coesistere con le persone. Anche il sistema audio è stato riprogettato per favorire interazioni vocali più naturali, grazie a speaker più potenti e microfoni ottimizzati. A differenza delle generazioni precedenti, è stato concepito fin dall’inizio per la produzione di massa. L’intero design è stato adattato a processi industriali come lo stampaggio e la pressofusione, con un drastico calo nei costi e nei tempi di assemblaggio. La nascita di una nuova filiera produttiva, insieme alla creazione dello stabilimento BotQ, rende possibile una scala di produzione mai raggiunta prima in ambito umanoide. Vai al progetto > Figure 03 non è un semplice avanzamento ingegneristico. È una piattaforma > progettata per operare nel mondo così com’è, aprendo una nuova fase nella > coesistenza tra intelligenza artificiale, forma fisica e realtà quotidiana. -------------------------------------------------------------------------------- COGNEE: MEMORIA STRUTTURATA PER AGENTI AI > Quanto meglio risponderebbe un sistema RAG se lo potenziassimo con un > knowledge graph? Molto! Ho fatto qualche test con Cognee: una libreria open-source che costruisce grafi semantici da documenti testuali e li rende interrogabili come memoria strutturata per agenti AI. Cognee non è solo una libreria di vector search: è un'alternativa strutturata al RAG tradizionale, basata su grafo + embedding, con il supporto opzionale di ontologie RDF/XML per dare forma e significato al contenuto. Funziona in locale, si integra in 6 righe di codice, ed è pensata per diventare il layer di memoria degli agenti intelligenti. Cognee: memoria strutturata per Agenti AI Nell'esempio, si vede: * come la libreria crea il knowledge graph partendo dal file dell'ontologia che gli ho messo a disposizione; * un esempio del knowledge graph che riesce a ricavare direttamente dal contenuto testuale (meno preciso); * un esempio delle risposte che riesco a ottenere sfruttando l'ontologia, poi senza ontologia e con il grafo generato a partire dal testo, e, infine, con un RAG tradizionale, che usa soltanto il testo nella knowledge.. L'azione della memoria strutturata nella risposta dell'agente Le risposte ottenute con l’ontologia sono semanticamente più ricche, meglio strutturate e più pertinenti, soprattutto per domande complesse. Vai al progetto > Cognee ha anche un’interfaccia CLI, una UI hosted opzionale (Cogwit), e può > connettersi a oltre 30 fonti dati. -------------------------------------------------------------------------------- DEEPSEEK-OCR > DeepSeek-OCR introduce un nuovo paradigma per la compressione del contesto nei > LLM: la compressione ottica. Il modello utilizza la modalità visiva come mezzo efficiente per rappresentare lunghi testi, riducendo il numero di token necessari fino a venti volte. Composto da DeepEncoder e da un decoder Mixture-of-Experts, DeepSeek-OCR è in grado di trasformare pagine di testo in un piccolo insieme di token visivi mantenendo un’elevata precisione di decodifica: circa 97% di accuratezza con una compressione di 10× e 60% con una compressione di 20×. DeepSeek-OCR: il paper Nei benchmark, supera modelli come GOT-OCR2.0 e MinerU2.0 pur utilizzando una frazione dei token visivi. Oltre all’OCR tradizionale, gestisce parsing di grafici, formule chimiche, figure geometriche e riconoscimento multilingue in quasi cento lingue. Vai al paper L'approccio apre prospettive per la gestione di contesti lunghi nei LLM, consentendo di archiviare e comprimere otticamente il testo in forma visiva, simulando anche meccanismi di memoria e dimenticanza. > DeepSeek-OCR dimostra che la rappresentazione visiva può diventare un canale > efficiente per l’elaborazione testuale su larga scala. -------------------------------------------------------------------------------- DEEPSEEK SPARSE ATTENTION (DSA) Mentre annuncia l'arrivo dalle versione V4, DeepSeek rilascia la V3.2-Exp. Si tratta di un modello sperimentale che nasce da V3.1-Terminus, ma introduce un’innovazione tecnica cruciale: la DeepSeek Sparse Attention (DSA). DeepSeek Sparse Attention (DSA) Con DSA il modello non deve più confrontare ogni token con tutti gli altri, ma grazie a un lightning indexer riesce a selezionare solo le parti del contesto davvero rilevanti. È un cambio di paradigma nell’uso delle risorse: la complessità dell’attenzione scende da O(L²) a O(Lk), mantenendo quasi intatta la qualità delle risposte. Il training ha seguito una strategia in due tempi. Prima una fase di warm-up denso per insegnare all’indicizzatore a imitare l’attenzione tradizionale, poi una lunga fase di addestramento con pattern sparsi. Successivamente, il modello è stato rifinito con distillazione da specialisti in vari domini (matematica, programmazione, ragionamento, ricerca) e un’unica fase di reinforcement learning che integra ragionamento, capacità agentiche e allineamento con preferenze umane. > Il risultato è un modello che mantiene prestazioni molto vicine a > V3.1-Terminus nei benchmark, con solo lievi cali su compiti di reasoning > complesso, compensati da un guadagno enorme in efficienza: costi di inferenza > ridotti e maggiore rapidità soprattutto nei contesti lunghi (fino a 128K > token). Vai al paper Accanto al modello, DeepSeek ha pubblicato un paper dettagliato che spiega i meccanismi tecnici della Sparse Attention, insieme al codice e ai kernel ottimizzati in CUDA e TileLang. Il modello su Hugging Face > Un rilascio che non si limita a proporre un’ottimizzazione pratica, ma che > contribuisce anche alla discussione scientifica su come rendere i grandi > modelli più scalabili ed economici. -------------------------------------------------------------------------------- EVOLUZIONI TECNOLOGICHE E I LIMITI DEI LLM In una recente intervista di Alex Kantrowitz a Dario Amodei, CEO di Anthropic, vengono raccontate alcune evoluzioni tecnologiche e i limiti che accompagnano la crescita dei grandi modelli linguistici. Intervista di Alex Kantrowitz a Dario Amodei Riporto alcuni passaggi e riflessioni interessanti. I LLM imparano nel contesto, non nei pesi. Quando li esponiamo a esempi dentro un prompt, riescono a cogliere schemi, correggere errori, imitare stili. Ma una volta chiusa la sessione, tutto svanisce. I pesi che custodiscono la loro conoscenza restano invariati. È come uno studente che risolve brillantemente un esercizio ma non può conservare l’intuizione per la volta successiva. Per questo si parla sempre più di un passaggio da “più grande è meglio” a “più strutturato è meglio”. > Aumentare i parametri non basta più: la vera sfida è costruire sistemi che > sappiano ragionare, ricordare e adattarsi, mantenendo coerenza e controllo. Amodei sottolinea che anche senza una memoria permanente il potenziale resta enorme. Le finestre di contesto si allungano e, in teoria, potrebbero arrivare a contenere tutto ciò che un essere umano ascolta in una vita intera. Il limite non è concettuale ma computazionale: quanto costa farlo, e quanto è sostenibile. Nel frattempo, l’evoluzione si gioca nel modo in cui il modello "pensa" durante l’inferenza: reinforcement learning, ragionamento esplicito, test-time compute, ovvero concedere più cicli di “riflessione” quando serve. È un cambiamento silenzioso ma radicale: > dall’espansione delle reti alla progettazione > di un "processo cognitivo" interno. L’apprendimento nel contesto dimostra che l’intelligenza artificiale può adattarsi senza cambiare sé stessa. Ma ci ricorda anche che l’adattamento non è ancora apprendimento. La prossima soglia tecnica sarà forse proprio questa: trasformare la memoria temporanea in conoscenza stabile, senza sacrificare sicurezza e trasparenza. > In fondo, la storia dei modelli linguistici è la storia di una mente che sta > imparando a ricordare, per ora solo per qualche pagina, domani forse per > sempre. -------------------------------------------------------------------------------- LA MEMORIA COME STRUMENTO DI EVOLUZIONE Il paper "ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory" di Google introduce un concetto chiave per lo sviluppo di Agenti AI: la memoria come strumento di evoluzione, non come archivio. Gli agenti non devono limitarsi a ricordare ciò che hanno fatto, ma a comprendere perché qualcosa ha funzionato o fallito. ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory ReasoningBank trasforma ogni esperienza in una unità di conoscenza strutturata, una strategia di ragionamento riutilizzabile. Invece di conservare semplici tracce operative, distilla principi di azione: apprende dalle vittorie e soprattutto dagli errori, affinando progressivamente il proprio modo di pensare. Questo processo di memoria attiva si combina con il test-time scaling, dove un agente dedica più tempo e risorse a esplorare un compito, traendo segnali contrastivi dalle proprie alternative di ragionamento. ReasoningBank di Google La sinergia tra memoria e scaling dà vita a un ciclo virtuoso: esperienze migliori generano memorie più solide, e memorie migliori guidano esplorazioni più efficaci. Il risultato non è solo un incremento di performance, ma un comportamento emergente che evolve con l’esperienza. > L’agente smette di essere un esecutore di istruzioni e diventa un soggetto che > riflette, corregge e affina le proprie strategie. Vai al paper Una forma embrionale di apprendimento continuo, che avvicina le macchine al ritmo naturale con cui gli esseri umani imparano dal tempo e dall’errore. -------------------------------------------------------------------------------- AGENTIC CONTEXT ENGINEERING Il paper "Agentic Context Engineering", guidato da un team di Stanford in collaborazione con SambaNova Systems e UC Berkeley, propone un paradigma in cui il prompt, la memoria e le istruzioni non sono solo un testo statico, ma un playbook che cresce e si affina nel tempo. Agentic Context Engineering: il paper Invece di comprimere l’esperienza in poche frasi sintetiche, come fanno molti ottimizzatori di prompt, il modello accumula conoscenze, strategie e intuizioni specifiche di dominio. Questo processo avviene attraverso tre ruoli distinti: un generatore che agisce, un valutatore e un curatore che integra. L’apprendimento avviene senza modificare i parametri, ma attraverso aggiornamenti incrementali e strutturati del contesto: piccole “differenze” che evitano la perdita di informazioni e rendono l’adattamento più efficiente. I risultati sono notevoli: agenti e modelli di ragionamento specialistico migliorano sensibilmente la loro accuratezza, riducendo tempi e costi di adattamento. Ma la vera novità è concettuale: il contesto diventa un organismo che si auto-organizza, preserva memoria e apprende dalle proprie azioni. Vai al paper Uso una tecnica simile (ma più rudimentale) in un agente in produzione, in cui, dopo ogni interazione, un processo va ad aggiornare e a ottimizzare il prompt per le azioni successive. > ACE mostra che l’intelligenza dei modelli può progredire non solo grazie a più > dati o più parametri, ma grazie a una migliore ingegneria delle loro > esperienze. -------------------------------------------------------------------------------- NUOVO MODELLO E AGENT SDK PER ANTHROPIC È stato rilasciato Claude Sonnet 4.5, un aggiornamento che porta significativi miglioramenti in ambiti chiave come la programmazione, l’uso del computer, il ragionamento e la matematica. Anthropic: Claude Sonnet 4.5 e Agent SDK Il modello è già disponibile tramite API e app, mantenendo lo stesso prezzo della versione precedente. Claude 4.5 si distingue per le sue prestazioni: * Primo al mondo su SWE-bench Verified, benchmark per capacità di codifica realistica. * Top performer su OSWorld, che valuta l’uso dell’AI in task da computer reale. * Capacità estese nel mantenere concentrazione su task multi-step per oltre 30 ore. * Miglioramenti concreti in ambiti verticali: finanza, medicina, diritto, ingegneria. Nelle Claude apps arrivano nuove funzionalità come l’esecuzione diretta di codice, la creazione di file (documenti, fogli, slide) e l’estensione per Chrome. Per gli sviluppatori, Claude Code integra ora checkpoint, editing contestuale, strumenti di memoria e un’estensione per VS Code. Vai al post Rilasciato anche il Claude Agent SDK, l’infrastruttura che alimenta i prodotti Claude, ora disponibile per chiunque voglia costruire agenti AI in autonomia. Include soluzioni avanzate per la gestione della memoria, sistemi di permessi e coordinamento di sub-agenti. Sul fronte della sicurezza, Claude 4.5 è il modello più allineato rilasciato da Anthropic. Riduce comportamenti problematici come piaggeria e inganno, migliora la protezione contro attacchi via prompt injection, ed è distribuito con protezioni AI Safety Level 3. Incluso anche un esperimento temporaneo, “Imagine with Claude”, che permette di generare software in tempo reale. -------------------------------------------------------------------------------- RUNWAY APPS E WORKFLOW > Non poteva mancare Runway in questa evoluzione dei modelli di generazione > video. Infatti, hanno lanciato "Apps", una raccolta di workflow specifici per diversi casi d'uso. Alcuni esempi: reshooting dei prodotti, rimozione di elementi dai video, da immagine a video con i dialoghi, upscale fino a 4k, restyling di video e immagini. 0:00 /0:40 1× Runway Apps Hanno presentato, inoltre, un nuovo strumento in grado di sviluppare dei workflow per l'elaborazione degli elementi visuali. Permette di creare flussi di lavoro personalizzati basati su nodi, concatenando più modelli, modalità e passaggi intermedi per avere controllo sulle elaborazioni. 0:00 /0:48 1× Runway Workflow > Un approccio vincente, secondo me, perché l'obiettivo è quello di avere una > continua produzione di workflow, in base anche alle esigenze della community. -------------------------------------------------------------------------------- - GRAZIE - Se hai apprezzato il contenuto, puoi contribuire al progetto con una donazione 🙂 ISCRIVITI ALLA NEWSLETTER Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su tematiche relative all'intelligenza artificiale. Iscriviti alla Newsletter Email sent! Check your inbox to complete your signup. Gratuita. No Spam. Puoi disiscriverti quando vuoi. Consulta la privacy policy.

November 5, 2025 / Alessio Pomaro

Novità e Riflessioni

Generative AI: novità e riflessioni - #9 / 2025

> Buon aggiornamento, e buone riflessioni.. -------------------------------------------------------------------------------- IL PROGETTO HARMONIA: PRESENTATO EXPO 2025 DI OSAKA > Sono onorato di aver potuto dare il mio contributo alla realizzazione di > Harmonia, una webapp presentata al Padiglione della Santa Sede all'Expo 2025 > di Osaka. Si tratta di un progetto collettivo nato dalla collaborazione tra IUSVE e il Dicastero per l’Evangelizzazione, con l’obiettivo di unire le voci di persone da tutto il mondo attorno a un messaggio universale di pace. L’applicazione consente agli utenti di registrare una frase del Pontefice in diverse lingue. Ogni contributo vocale viene visualizzato in tempo reale come forma d’onda, mostrando le caratteristiche uniche della voce umana in termini di frequenze, intensità e timbro. A Expo Osaka la webapp Harmonia, onda di pace in tutte le lingue - Vaticano News - Ansa.it Il Dicastero per l’Evangelizzazione, Sezione per le Questioni fondamentali dell’Evangelizzazione nel mondo, in collaborazione con l’Istituto Universitario Salesiano di Venezia, si prepara a rappresentare l’innovazione nell’ambito della comunicazione digit... (ANSA) Agenzia ANSARedazione ANSA La parte più innovativa del progetto si attiva al termine della raccolta delle registrazioni: un modello di AI elabora i dati acustici per sintetizzare un’unica voce corale — la “Voce del mondo” — simbolo concreto di connessione tra individui diversi ma uniti da uno stesso intento. -------------------------------------------------------------------------------- INSTANT CHECKOUT DI CHATGPT ChatGPT introduce Instant Checkout: ora è possibile acquistare prodotti direttamente all’interno della chat. In questa fase iniziale, la funzione è disponibile per gli utenti negli Stati Uniti (Free, Plus e Pro) e consente di comprare da venditori statunitensi su Etsy. Nelle immagini si vede un mio test con l'opzione già attiva. A breve verranno inclusi anche oltre un milione di merchant su Shopify, tra cui brand come Glossier, SKIMS, Spanx e Vuori, con l'obiettivo di espandere la disponibilità ad altri commercianti e regioni nel tempo. Il sistema è basato sull’Agentic Commerce Protocol, un nuovo standard open-source sviluppato insieme a Stripe, pensato per permettere agli agenti AI, agli utenti e alle aziende di collaborare in modo sicuro e fluido per completare un acquisto. Agentic Commerce Protocol The Agentic Commerce Protocol is an open standard that enables programmatic commerce flows between AI agents and businesses. Developed by Stripe + OpenAI. Il processo d’acquisto è diretto: ChatGPT propone prodotti rilevanti non sponsorizzati, l’utente seleziona un prodotto abilitato, conferma i dettagli e completa il pagamento, tutto senza uscire dalla conversazione. Gli ordini sono gestiti dai merchant con i loro sistemi esistenti, mentre ChatGPT agisce da intermediario sicuro. OpenAI ha già pubblicato la sezione dedicata ai "merchant", e la documentazione per creare il feed dei prodotti degli e-commerce. Per ora, tutto questo è attivo negli USA, ma, nel frattempo... > fa riflettere sull'importanza di avere dati ben organizzati e la capacità di > trasformarli agilmente in feed ottimizzati per diverse piattaforme. L’approccio dell'Instant Checkout è progettato per garantire sicurezza, trasparenza e controllo all’utente. I dati condivisi sono minimi e sempre autorizzati, e i pagamenti sono criptati e legati solo a transazioni specifiche. I commercianti restano titolari del rapporto con il cliente, dalla spedizione al supporto post-vendita. L’integrazione tecnica è pensata per essere rapida: per chi utilizza Stripe è sufficiente una riga di codice, ma sono previste soluzioni anche per altri sistemi di pagamento. Vai al post di OpenAI > Sarà una tappa verso un nuovo modello di commercio digitale? Dove l’assistente > AI non si limita a consigliare cosa acquistare, ma accompagna l’utente > nell’intero processo d’acquisto in modo naturale e diretto. -------------------------------------------------------------------------------- SERVE UNA LEADERSHIP CON “MENTALITÀ DA PILOTA” PER GESTIRE AL MEGLIO L'AI Sempre più aziende adottano strumenti di intelligenza artificiale con grandi aspettative di efficienza, ma i risultati spesso deludono. Secondo una recente analisi di BetterUp Labs e Stanford Social Media Lab, il fenomeno del “workslop” (contenuti generati dall’IA che sembrano lavoro ben fatto ma sono privi di sostanza) sta compromettendo la produttività e la collaborazione nei team. Documenti, report e presentazioni creati in pochi secondi finiscono per spostare il carico cognitivo su chi li riceve, che deve reinterpretare, correggere o rifare da capo. Oltre al tempo sprecato, si innescano dinamiche di sfiducia e giudizi negativi sulla competenza dei colleghi. > Non è una questione tecnologica, ma culturale. Serve un uso più consapevole > dell’IA, che valorizzi il pensiero critico invece di sostituirlo. 1. L’IA non alleggerisce il lavoro se usata senza criterio: semplicemente lo scarica su altri. 2. Il “workslop” ha un costo nascosto: tempo perso, fiducia compromessa, collaborazione danneggiata. 3. La differenza la fa l’approccio: serve una cultura del “pilota”, non del “passeggero”, per usare davvero l’IA in modo utile. Vai al post di HBR -------------------------------------------------------------------------------- SEEDREAM 4 Ho provato Seedream 4, il nuovo modello dedicato alle immagini di ByteDance (che tutti conosciamo per TikTok). > Lo trovo impressionante, sinceramente. Ho creato le prime due immagini > fornendo al modello gli oggetti (il profumo e la chitarra) e descrivendo la > scena con un prompt testuale. Le altre due, sono text-to-image. L'output è in > 4K… ma, ancora una volta, a stupire è sì la qualità, ma soprattutto l’aderenza > alle istruzioni. Immagini generate con Seedream 4 Seedream 4 nasce come modello “unificato”: non solo genera immagini da zero, ma permette anche di modificarle tramite semplici richieste in linguaggio naturale. Questo significa poter togliere o aggiungere elementi, cambiare sfondi, mantenere lo stesso soggetto in più scene o addirittura costruire sequenze narrative coerenti. In termini di performance, la velocità è sorprendente: circa 1,8 secondi per un’immagine 2K (forse meno di Gemini), con supporto fino a 4K. Le immagini originali che ho condiviso "pesano" mediamente 15MB. Sul fronte qualità, benchmark indipendenti lo collocano ai vertici accanto a Gemini 2.5 Flash Image (Nano Banana) di Google, considerato tra i migliori modelli generativi del momento. Il modello è usabile via API (BytePlus) o piattaforme terze che l’hanno già integrato (ad esempio Freepik, che consiglio). > Velocità, qualità, un'incredibile aderenza ai prompt, e coerenza delle > immagini: se questo è il nuovo standard di elaborazione delle immagini > attraverso l'AI generativa, le applicazioni commerciali sembrano quasi > naturali. -------------------------------------------------------------------------------- AGENT PAYMENTS PROTOCOL (AP2) > Siamo pronti agli acquisti autonomi gestiti da AI Agent? Google ha annunciato il nuovo Agent Payments Protocol (AP2), un’infrastruttura aperta che definisce regole comuni per permettere agli agenti intelligenti di effettuare pagamenti in modo sicuro e interoperabile. Il protocollo su GitHub Con oltre 60 partner globali, tra cui Mastercard, PayPal, Coinbase e American Express, AP2 nasce per affrontare i nodi critici dell'e-commerce automatizzato: autorizzazione, autenticità e responsabilità. Elementi che diventano centrali quando non è più l’utente a cliccare “compra”, ma un agente a operare in autonomia. Il cuore del sistema sono i Mandati crittografici, contratti digitali firmati che fungono da prova verificabile delle intenzioni dell’utente. Possono essere in tempo reale, quando l’utente approva un carrello, oppure delegati, quando si affida all’agente per rispettare condizioni preimpostate. In entrambi i casi, la catena di prove crea una traccia non contestabile che collega volontà, carrello e pagamento. Questa architettura apre scenari di commercio evoluto: acquisti intelligenti che si attivano al momento giusto, offerte personalizzate nate dal dialogo fra agenti, prenotazioni coordinate di viaggi e servizi, fino a integrazioni con stablecoin e soluzioni Web3 grazie all’estensione A2A x402. Il post di Google > AP2 non è solo un protocollo tecnico, ma una cornice di fiducia e > interoperabilità che potrebbe ridisegnare l’esperienza del pagamento digitale > nell’era degli agenti autonomi. -------------------------------------------------------------------------------- "OK COMPUTER" DI KIMI > Kimi ha rilasciato la modalità "Agente", denominata "Ok Computer". L'ho provato in un task di analisi dei dati (fornendo un CSV in input) e sviluppo di un sito web per presentare 4 diverse dashboard: una generale, una per il team di vendita, una per il CEO dell'azienda, e una sintesi con gli highlights. Il sistema usa un ambiente virtuale, genera ed esegue una serie di script Python per la pulizia del dataset e per preparare i dati per widget dedicati alle diverse dashboard. Successivamente sviluppa l'homepage e le pagine, come da prompt in input. In 38 minuti il sito web era pronto, "deployato" e raggiungibile in un webserver remoto; e fornisce anche tutti i file necessari per eseguirlo in locale. Nel video si può vedere una sintesi dei diversi step. "OK Computer" di Kimi > Un agent potente, e soprattutto, gratuito. -------------------------------------------------------------------------------- GEMINI ROBOTICS 1.5 > Portare gli Agenti AI nel mondo fisico? Google DeepMind procede > nell'evoluzione nell'ambito della robotica con Gemini Robotics 1.5. Si tratta di un avanzamento significativo verso sistemi in grado di percepire, ragionare e agire nel mondo reale in modo autonomo e generalista. Il cuore di questo progresso è la combinazione di due modelli complementari: Gemini Robotics 1.5 e Gemini Robotics-ER 1.5. 0:00 /0:30 1× Gemini Robotics 1.5 Il primo, un modello Vision-Language-Action (VLA), consente ai robot di interpretare informazioni visive e comandi linguistici trasformandoli in azioni fisiche. Ma ciò che lo distingue è la capacità di "pensare prima di agire": sviluppa catene di ragionamento interno che precedono l’esecuzione, rendendo le decisioni trasparenti e più affidabili. Il secondo, Gemini Robotics-ER 1.5, funziona da "cervello strategico". Ragiona sul mondo fisico, pianifica, valuta i propri progressi, utilizza strumenti digitali e comunica con il modello esecutivo. Ha ottenuto risultati all’avanguardia in benchmark accademici legati alla comprensione spaziale e al ragionamento embodied. Questa architettura a due livelli permette una gestione più flessibile e robusta dei compiti, anche in ambienti complessi e mutevoli. Inoltre, il sistema mostra un'efficace capacità di trasferimento tra diversi corpi robotici, riducendo drasticamente il tempo necessario per apprendere nuove abilità. In parallelo, DeepMind integra approcci innovativi per garantire la sicurezza semantica e fisica di questi agenti, promuovendo uno sviluppo allineato ai principi etici dell’AI responsabile. Vai al post > L'integrazione del ragionamento, della percezione multimodale e della capacità > d'azione in ambienti reali segna un passo concreto verso una forma di > intelligenza artificiale fisica, capace di operare al servizio dell’uomo in > modo autonomo e collaborativo. -------------------------------------------------------------------------------- CREARE PRESENTAZIONI USANDO L'AI? > Finalmente si iniziano a vedere processi interessanti! Moonshot AI ha rilasciato Kimi Slides: un componente della chat di Kimi dedicato alla generazione di presentazioni, editabili e scaricabili in PPTX. L'ho provato, e si tratta di uno strumento notevole! Nel video si può vedere il processo di creazione.. Kimi Slides: un esempio di creazione di una presentazione Ho caricato un post del mio blog, chiedendo al modello di preparare una presentazione relativa ai concetti trattati. Il sistema procede generando la struttura della presentazione (outline), che può essere modificata e arricchita manualmente, direttamente dalla UI della chat. Mi ha chiesto di scegliere un template, e ha iniziato a creare l'output. Una volta terminata l'elaborazione, permette di editarla completamente, cambiando e modificando testi ed elementi, aggiungendo o rimuovendo slide, sostituendo il template, ecc.. Infine, permette di scaricarla, anche in formato PPTX (modificabile). > L'output che si ottiene è un'ottima bozza iniziale.. e in meno di un minuto. Per provarlo Nel post di lancio, l'azienda annuncia: "Coming soon: Adaptive Layout, auto image search & agentic slides". Scopriremo presto di cosa si tratta. -------------------------------------------------------------------------------- CHROME DEVTOOLS MCP È il momento di Chrome DevTools MCP: un’evoluzione concreta nell’interazione tra agenti AI e ambienti di sviluppo reali. Il limite principale degli agenti di programmazione (l’impossibilità di osservare direttamente l’effetto del codice eseguito) viene superato offrendo loro accesso al browser Chrome attraverso un’integrazione diretta con DevTools. Chrome DevTools (MCP) for your AI agent | Blog | Chrome for Developers Public preview for the new Chrome DevTools MCP server, bringing the power of Chrome DevTools to AI coding assistants. Chrome for DevelopersX I LLM possono così ispezionare il DOM, analizzare richieste di rete, raccogliere dati di performance, interagire con l’interfaccia utente e simulare condizioni complesse. Non si tratta solo di generare codice, ma di testarlo, osservarne il comportamento ed eventualmente correggerlo, in un ciclo chiuso, guidato dall’intelligenza artificiale. Il supporto a Puppeteer consente automazioni robuste, con azioni come clic, compilazione form, gestione di dialoghi e navigazione tra pagine. Tra gli strumenti inclusi figurano anche la tracciatura delle performance, l’emulazione di rete e CPU, la generazione di screenshot e l’esecuzione di script in tempo reale. Tutto questo è accessibile con una semplice configurazione JSON e un comando npx. GitHub - ChromeDevTools/chrome-devtools-mcp: Chrome DevTools for coding agents Chrome DevTools for coding agents. Contribute to ChromeDevTools/chrome-devtools-mcp development by creating an account on GitHub. GitHubChromeDevTools > DevTools MCP inaugura un nuovo paradigma: l’agente non è più solo autore del > codice, ma anche osservatore e correttore attivo. Si apre così la strada a > flussi di lavoro in cui lo sviluppo web diventa più dinamico, verificabile e > adattivo, con l’AI pienamente inserita nel ciclo di esecuzione del software. UN TEST DEL SISTEMA Quello che si vede nel video, è un mio test di Gemini CLI connesso al server MCP di Chrome DevTools. Gemini CLI con MCP di Chrome DevTools Lo trovo un supporto molto interessante, utile nella fase di analisi delle performance dei siti web (anche automatizzate), soprattutto perché consente di andare oltre la misurazione, fornendo suggerimenti e fix reali. Ho fatto test anche con la riduzione della velocità di connessione, e con azioni di browser automation per verificare la presenza di eventuali problematiche. Usarlo è davvero semplice. Quelli che seguono sono 3 comandi che permettono di vederlo funzionare in qualche minuto (io lo uso su una macchina Debian). * Installazione dell'agente di Gemini CLI: npm install -g @google/gemini-cli * Aggancio del server MCP di Chrome DevTools all'agente: gemini mcp add chrome-devtools "npx" "chrome-devtools-mcp@latest" -- \ --headless=false * Avvio di Gemini CLI con il modello 2.5 Pro: gemini -m gemini-2.5-pro -------------------------------------------------------------------------------- MCP TOOLBOX FOR DATABASES DI GOOGLE Google ha rilasciato in open source MCP Toolbox for Databases, precedentemente noto come GenAI Toolbox. Si tratta di un server MCP progettato per facilitare l'integrazione di agenti AI con database, semplificando la gestione degli strumenti attraverso configurazioni centralizzate. MCP Toolbox for Databases di Google Il progetto fornisce funzionalità come pooling delle connessioni, autenticazione integrata, osservabilità con OpenTelemetry e supporto per diversi framework, tra cui LangChain e LlamaIndex. Vai al progetto Con MCP Toolbox è possibile creare assistenti AI che accedono ai dati usando il linguaggio naturale direttamente da un IDE, automatizzare query SQL, generare codice contestuale e semplificare l'intero ciclo di vita dello sviluppo applicativo orientato ai dati. -------------------------------------------------------------------------------- L'MCP SERVER DI FIGMA Figma ha presentato il suo MCP Server (Model Context Protocol) per strumenti di sviluppo e agenti AI. Il punto centrale di questa innovazione è la possibilità di fornire contesto progettuale direttamente all’interno degli ambienti dove viene scritto il codice, provando a rendere il design un’entità computabile e riutilizzabile, non più una semplice rappresentazione visiva. 0:00 /0:29 1× L'MCP Server di Figma Con il supporto al server remoto, Figma consente di accedere a componenti, layout, variabili e logiche progettuali direttamente da IDE come VS Code, o tramite agenti AI come Claude e Cursor, senza passare dal client desktop. È sufficiente il link a un frame per permettere all’agente di accedere al nodo specifico, leggerne la struttura e generare codice coerente, contestualizzato e aderente al design system esistente. Vai al post Il valore reale emerge nell’uso combinato di Figma Make, il nuovo ambiente per la generazione di interfacce, e Code Connect, che allinea componenti Figma ai componenti di produzione. L'agente AI, in questo scenario, non lavora più su immagini statiche ma su riferimenti strutturati, accedendo al codice sorgente dei file Make e comprendendo i mapping definiti tra design e codice. Ne risulta un flusso in cui le AI non sono più strumenti generativi generici, ma veri e propri agenti informati, in grado di produrre output consistenti, scalabili e aderenti alla realtà tecnica del progetto. Vai alla documentazione L’MCP Server non si limita a trasportare dati: veicola significato, struttura e coerenza, diventando un canale di comunicazione bidirezionale tra la progettazione visuale e la logica di produzione. In questo contesto, ogni nodo di design diventa un'unità computabile, ogni file Make un’estensione dell’architettura, e ogni agente AI un collaboratore operativo sul prodotto. -------------------------------------------------------------------------------- GEMINI: COME SI LEGGONO I CONSUMI? > Come si leggono i dati del consumo di token nell'API di Gemini? Nella mia applicazione sto elaborando una serie di prodotti di un e-commerce, e per ogni chiamata API invio un prompt multimodale (testo + immagine), usando anche il tool di web search (Grounding with Google Search). Nella risposta dell'API si vedono i dati di consumo dell'immagine. Un esempio di risposta API di Gemini 2.5 Pro I DETTAGLI * Input. Il totale dei token in input che il modello ha considerato per l'elaborazione è di 8.733 token: 8.475 token di testo e 258 token di immagine. * Cache. 3.155 token (di cui 3.062 di testo e 93 di immagine) sono stati recuperati dal sistema di cache implicita di Gemini. Questo significa che solo la differenza (5.578 token) è stata effettivamente inviata con questa nuova chiamata, ottimizzando così costi e velocità. Questo tipo di cache (implicita) è automatico. Le parti che si ripetono nei prompt (es. istruzioni di sistema, specifiche su come creare l'output, ecc.) vengono salvate in una memoria a breve termine e riutilizzate nelle chiamate successive a un prezzo molto inferiore. * Tools. I contenuti estratti attraverso le diverse ricerche prodotte in fase di reasoning hanno consumato 9.278 token. * Reasoning. Durante la sua elaborazione, il modello ha utilizzato 477 token per il suo processo di ragionamento interno, un'attività che non appare nell'output finale ma è cruciale per la qualità della risposta. * Output. La risposta generata dal modello (la sezione candidates) è composta da 998 token. * Consumo Totale. Sommando tutte queste componenti (input, output, tool e reasoning), il consumo complessivo per questa singola chiamata API ammonta a 19.486 token. > Con tutti questi dati, si possono creare dei sistemi di log e reportistica, > che permettono di avere sotto controllo l'elaborazione. UN ESEMPIO DI DASHBOARD Alcuni estratti della dashboard che sto utilizzando per monitorare i consumi e le azioni dell'applicazione. Dashboard per il monitoraggio dei consumi di Gemini 2.5 Pro Il monitoraggio dei consumi è da inserire già in fase di progettazione: l'effort è bassissimo (tutte le informazioni sono nelle risposte delle API dei LLM), ma l'utilità è altissima. -------------------------------------------------------------------------------- LE ALLUCINAZIONI NEI MODELLI LINGUISTICI OpenAI ha pubblicato un paper che analizza in profondità le cause delle allucinazioni nei modelli linguistici, mostrando che non sono un’anomalia ma un fenomeno statistico. Nascono già nel pretraining: anche con dati perfetti, l’obiettivo di minimizzare la cross-entropy porta a generare errori. I fatti rari (es. il compleanno di una persona poco citata) sono particolarmente vulnerabili, mentre quelli ricorrenti resistono meglio. Le allucinazioni nei modelli linguistici - Un paper di OpenAI Questi errori assomigliano a misclassificazioni in un problema supervisionato: inevitabili quando i dati sono insufficienti o il modello non è abbastanza espressivo. Non è solo un limite della conoscenza, ma anche della famiglia di modelli utilizzata. Il paradosso è che il post-training, pur cercando di ridurre le allucinazioni, spesso le perpetua. Le metriche di valutazione dominanti puniscono le risposte di incertezza e premiano chi “azzarda” sempre una risposta. Così, i modelli imparano a bluffare. Vai al paper La soluzione non passa soltanto da nuove architetture o da più dati, ma da un cambiamento negli incentivi: valutazioni che riconoscano il valore del dire “non lo so”. Solo così si può orientare lo sviluppo verso sistemi più affidabili e pragmatici, capaci di gestire l’incertezza senza trasformarla in falsa certezza. -------------------------------------------------------------------------------- PROJECT MARINER DI GOOGLE: UN'ANTEPRIMA A proposito di Agenti AI dedicati alla browser automation e di Project Mariner di Google.. Il sistema è già disponibile per gli utenti Gemini Ultra. Funziona come Operator di OpenAI, ma può agire direttamente sulle schede di Chrome. Negli esempi si vedono alcuni task che l'agente compie, e tutti gli step che segue. Project Mariner di Google: un'anteprima Quando la funzionalità sarà direttamente su Chrome, o su AI Mode, non credo rimarrà molto spazio per altri agenti di questo tipo.. il potere dell'ecosistema, ma anche del modello più potente sul mercato. Vai al progetto -------------------------------------------------------------------------------- CHROME SARÀ POTENZIATO DALL'AI > Google ha presentato l'evoluzione di Chrome potenziato dall'AI. Questo significa: uno dei LLM più potenti integrato nel browser più usato al mondo, con un agent di browser automation, e interazione nativa con le app più usate al mondo. Il protagonista è Gemini in Chrome, che trasforma il browser in un assistente intelligente capace di comprendere il contesto, lavorare su più schede contemporaneamente, riassumere informazioni complesse e persino ricordare le pagine visitate in passato. Non più solo navigazione, ma comprensione attiva. 0:00 /2:27 1× Attraverso le funzionalità agentiche, Gemini potrà svolgere compiti per conto dell’utente, come prenotare appuntamenti o fare acquisti online, semplificando processi che oggi richiedono diversi passaggi manuali. Chrome: The browser you love, reimagined with AI Google is taking the next step in its journey to make your browser smarter with new AI integrations. GoogleParisa Tabriz La barra degli indirizzi si evolve con l’introduzione di AI Mode: sarà possibile porre domande complesse direttamente dall’omnibox, ottenere risposte intelligenti, suggerimenti contestuali e approfondimenti generati in tempo reale, tutto senza cambiare scheda. Sul fronte della sicurezza, l’AI diventa un alleato fondamentale: blocca truffe sofisticate, filtra notifiche indesiderate, gestisce con intelligenza le richieste di autorizzazione (come fotocamera e geolocalizzazione) e consente di aggiornare password compromesse in un solo clic. Infine, l’integrazione diretta con servizi come YouTube, Calendar, Maps e Docs porta la produttività a un nuovo livello, permettendo di interagire con le app senza uscire dalla pagina attiva. Il post di Google > Con questa evoluzione, Chrome smette di essere una semplice finestra sul web e > diventa un vero assistente personale AI-native, progettato per rendere la > navigazione più efficace, sicura e intelligente. -------------------------------------------------------------------------------- E-COMMERCE PERSONALIZZATI: SE NON È GIÀ IL MOMENTO, LO SARÀ PRESTO In questa demo. l'utente può caricare la sua immagine e vedere i prodotti del catalogo indossati. Chiaramente il sistema potrebbe usare delle immagini caricate ad hoc nel profilo, senza bisogno di upload. 0:00 /0:39 1× Personalizzazione dell'e-commerce usando l'AI E magari, ad esempio, potrà far vedere all'utente le scarpe del catalogo indossate insieme alla tuta acquistata il mese precedente. Oppure con i prodotti che vengono acquistati più frequentemente insieme dal cluster di clienti al quale appartiene. > Nei nostri seminari dell'Accademia, parliamo di contenuti personalizzati da > diversi anni. Mancavano modelli con un'efficienza tale da mettere a terra la > visione. Oggi, con modelli come Gemini 2.5 Pro Flash Image (Nano Banana) e Seedream 4 ci stiamo avvicinando non poco. UN MIO TEST DI "VIRTUAL TRY ON" Primi test di "Virtual Try On" basato su Gemini 2.5 Flash Image (Nano Banana). Un mio esempio di "Virtual Try On" L'aspetto più interessante? L'ho creato completamente usando la sezione "Build" di Google AI Studio. Quindi, tutto il codice è generato da Gemini 2.5 Pro partendo dalle mie istruzioni testuali. Per usarlo e modificarlo > Di certo non può essere considerato un plugin pronto all'uso, ma una base per > fare delle riflessioni sulla personalizzazione dell'esperienza utente verso la > quale ci stiamo avviando. -------------------------------------------------------------------------------- RISORSA UTILE + COLAB GRATUITO Microsoft ha pubblicato MarkItDown, uno strumento in Python che converte file come PDF, Word, Excel, PowerPoint, immagini, HTML, JSON, e molti altri formati, in Markdown. MarkItDown di Microsoft + Colab gratuito È ideale per trasformare i file in contesto per agenti basati su LLM, preserva la struttura del documento (titoli, elenchi, tabelle…) ed è perfetto per analisi testuale, automazioni o integrazioni AI. L’ho provato e ho creato un Colab pronto all’uso, con un’ulteriore integrazione: OCR tramite Tesseract. Vai al Colab Perché? Di default, MarkItDown prova a leggere le immagini, ma se non trova un motore OCR installato restituisce solo i metadati (EXIF). Con l’integrazione Tesseract, invece, anche il testo contenuto nelle immagini (scansioni, screenshot, foto di documenti) viene estratto e convertito in Markdown. -------------------------------------------------------------------------------- DOLPHIN: UN TOOL PER IL PARSING DEI DOCUMENTI Dolphin è un modello multimodale open-source per l’analisi e il parsing di documenti, sviluppato dal team di ricerca di ByteDance. Nasce con l’obiettivo di interpretare strutture complesse all’interno di documenti digitalizzati, come tabelle, formule, paragrafi di testo e immagini, restituendo una rappresentazione strutturata che rispetta l’ordine di lettura umano. Un sistema molto interessante per supportare l'interpretazione dei documenti da parte dei LLM. L'ho provato, e lo trovo molto potente. Dolphin: un tool per il parsing dei documenti Il funzionamento del sistema si basa su un paradigma a due fasi definito analyze-then-parse. Nella prima fase, il modello analizza l’intera pagina per identificare e ordinare logicamente gli elementi presenti. Nella seconda, avvia un processo di parsing parallelo degli elementi documentali tramite un meccanismo chiamato heterogeneous anchor prompting, in cui ogni tipo di contenuto è gestito con prompt specifici. Questa distinzione semantica permette di ottimizzare l’interpretazione, e migliora l’efficienza complessiva. Dolphin integra modelli visivo-linguistici e sfrutta strumenti di accelerazione come TensorRT-LLM e vLLM per garantire prestazioni elevate, anche su documenti multipagina in formato PDF. È accessibile attraverso due framework paralleli: uno basato su configurazioni locali e uno integrato nella piattaforma Hugging Face, che ne facilita l’utilizzo e la distribuzione. Le inferenze possono produrre output in formato JSON o Markdown, sia a livello di pagina sia di singolo elemento. Vai al progetto > Dolphin si posiziona come un contributo tecnico rilevante per l’estrazione > semantica da documenti visivi, supportando scenari reali di OCR avanzato, > digitalizzazione e comprensione automatizzata del layout. -------------------------------------------------------------------------------- VEO 3: L’ALBA DEL RAGIONAMENTO VISIVO? Per anni l’AI ha imparato a “vedere” attraverso modelli specializzati: uno per segmentare, un altro per riconoscere oggetti, un altro ancora per migliorare immagini in bassa qualità. La ricerca di Google DeepMind mostra che con Veo 3 siamo di fronte a una svolta: > un singolo modello video capace di affrontare, senza addestramento specifico, > compiti che spaziano dalla percezione al ragionamento. 0:00 /0:38 1× Veo 3 non si limita a riconoscere i contorni di un oggetto. Dimostra di intuire proprietà fisiche come il galleggiamento o la resistenza dell’aria, di manipolare scene visive con coerenza, di completare puzzle, labirinti e simmetrie. È un passaggio dal semplice “vedere” al cominciare a “capire” il mondo in movimento. > Anche se, devo dire, che alcuni miei esperimenti specifici mi portano a > pensare che, pur vedendo una crescita enorme, rimaniamo lontani dalla > "comprensione del mondo". Vai al paper Il paper analizza oltre 18.000 video generati, coprendo 62 compiti qualitativi e 7 quantitativi. I risultati mostrano un netto miglioramento rispetto a Veo 2: nel labirinto 5×5, il tasso di successo passa dal 14% al 78%, mentre nelle segmentazioni zero-shot Veo 3 raggiunge una mIoU di 0.74, comparabile a modelli di editing dedicati. > Questa progressione indica non solo un affinamento percettivo, ma anche > l’emergere di una “catena di frame” capace di sostenere forme iniziali di > ragionamento visivo. -------------------------------------------------------------------------------- VISUAL PROMPT PER LA GENERAZIONE VIDEO Si tratta di indicazioni per il modello direttamente nel key frame che usiamo nel prompt multimodale. Nell'esempio, parto da un'immagine generata con Gemini 2.5 Flash Image (Nano Banana). La edito inserendo delle indicazioni, e la uso come fotogramma chiave su Veo 3, insieme a delle istruzioni testuali. Un esempio di visual prompt per Veo 3 La componente testuale del prompt l'ho generata attraverso "Veo 3 Prompt Assistant", usando anche l'immagine del key frame come indicazioni di supporto. Il risultato è aderente alle indicazioni. Nella parte finale del video, il soggetto guarda verso la camera: questa azione è stata descritta dal prompt testuale (sarebbe stato difficile usare uno schema nell'immagine). Chiaramente, il modello usa l'immagine come fotogramma di partenza (conservando anche le istruzioni grafiche), quindi, nel prompt testuale ho specificato che le indicazioni devono scomparire immediatamente nel video. E così, con un taglio del primo mezzo secondo, si ottiene il video pulito. > Presto vedremo software di generazione video che ci permetteranno di disegnare > le indicazioni direttamente nelle immagini in modo semplice, per poi generare > il video corrispondente. > Il mix di istruzioni multimodali (immagine/schema + testo), aiutano a pilotare > meglio il modello. Per provare "Veo 3 Prompt Assistant": ChatGPT - Veo 3 Prompt Assistant A conversational AI system that listens, learns, and challenges ChatGPT Oppure basta cercare "Veo 3 Prompt Assistant" nella sezione GPT di ChatGPT. -------------------------------------------------------------------------------- VEO3: NOVITÀ + COLAB GRATUITO > I cambiamenti riguardano tre aspetti fondamentali: prezzo, formato e qualità > visiva. * Il primo è una riduzione dei costi significativa: Veo 3 passa da $0.75 a $0.40 al secondo, mentre Veo 3 Fast scende da $0.40 a $0.15. Una mossa che rende più accessibile l’adozione di questi modelli per produzioni su larga scala o in contesti sperimentali. * Il secondo aspetto riguarda l’ampliamento dei formati supportati. Con l’introduzione del 9:16 verticale, Veo si allinea alle esigenze contemporanee dei contenuti digitali, in particolare per il mobile e i social media, dove la verticalità è diventata standard. Ho generato i video del post via API, formato 9:16. Prompt creato con "Veo 3 Prompt Assistant". Un esempio di video verticale generato con Veo 3 Condivido il Colab che ho usato, che permette di selezionare e variare il formato e la risoluzione. Vai al colab Basta impostare l'API Key di Gemini nei "Secrets", impostare i parametri nel form, agire sul prompt, ed eseguire. * Infine, l’introduzione della risoluzione 1080p segna un miglioramento tecnico rilevante, abilitando produzioni più nitide e coerenti con le aspettative moderne di qualità visiva. Vai al post di Google > Secondo Google, questi aggiornamenti non sono solo incrementali: rappresentano > una normalizzazione dell’uso di modelli generativi video in flussi di lavoro > professionali. L’integrazione di Veo 3 in strumenti come Saga, Mosaic o > Invisible Studio ne è una testimonianza concreta: la generazione video non è > più solo un prototipo, ma un ingranaggio produttivo reale. -------------------------------------------------------------------------------- WAN 2.5 > La qualità generale dei modelli di generazione video aumenta.. e Alibaba lo > dimostra rilasciando Wan 2.5. Il nuovo modello introduce un’architettura multimodale nativa e un addestramento congiunto su testo, audio e dati visivi, garantendo un migliore allineamento tra le modalità e una sincronizzazione audio-video naturale. 0:00 /0:25 1× Esempi di video generati con Wan 2.5 Grazie all’integrazione del Reinforcement Learning from Human Feedback (RLHF), l’output si adatta meglio alle preferenze umane, con immagini più nitide e video più dinamici. Sul fronte video, Wan 2.5 offre generazione sincronizzata di voce, effetti sonori e musica, input multimodali controllabili (testo, immagini, audio) e un sistema avanzato di controllo cinematografico per produrre clip in 1080p della durata di 10 secondi. L'interfaccia di generazione, permette di estendere i video, di effettuare "repaint" e "inpaint". Per provarlo Per le immagini, il modello migliora nella qualità fotorealistica e negli stili artistici, includendo tipografia creativa e grafici professionali. Supporta inoltre editing conversazionale con precisione a livello di pixel, consentendo operazioni come fusioni concettuali, trasformazioni di materiali o variazioni cromatiche di prodotto. -------------------------------------------------------------------------------- RAY 3 DI LUMA LABS > Luma Labs ha rilasciato il primo modello video in grado di "ragionare" in 4K > HDR. Si tratta di Ray 3, progettato per comprendere l’intento creativo e generare risultati visivi coerenti, realistici e ad alta fedeltà. È in grado di attuare un'azione di "reasoning" attraverso concetti visivi, valutare le bozze prodotte e migliorare automaticamente la qualità con ogni iterazione. L'ho provato, sia in modalità text-to-video, sia image-to-video. L'aderenza alle istruzioni nei prompt che ho usato è altissima, come la qualità degli output. 0:00 /0:26 1× Video generati con Ray 3 di Luma Labs Supporta la generazione nativa in 16-bit HDR, con esportazione in EXR per integrazione nei flussi professionali di post-produzione. Rispetto alla versione precedente, offre maggiore dettaglio alla stessa risoluzione e migliora la resa di movimento, luce, ottiche e interazioni spaziali. Tra le funzionalità avanzate: annotazioni visive per controllare layout e animazioni, keyframe, estensione e loop dei video, upscaling e un nuovo Draft Mode che consente iterazioni 5 volte più rapide e più economiche. > Ray 3 consente di creare video da testo o immagini, trasformare contenuti SDR > in HDR e costruire scene complesse con personaggi, espressioni e ambienti > coerenti. -------------------------------------------------------------------------------- QWEN-IMAGE-EDIT-2509 Dall’arrivo di Gemini 2.5 Flash Image (Nano Banana) e Seedream 4, l’asticella dell’editing visivo si è alzata a una velocità impressionante. E ora entra in scena Qwen-Image-Edit-2509. Editing multi-immagine con coerenza su volti, prodotti, testi. Supporta combinazioni complesse come persona + scena, persona + oggetto, persona + persona. Lavora su pose, stili e contesti con una precisione che restituisce non solo l’identità visiva, ma anche l’intento narrativo. Vai al progetto Testo e immagine si fondono: font, colore, materiale e contenuto vengono modificati insieme, senza fratture visive. Il tutto con integrazione nativa di ControlNet (depth map, edge, keypoint, sketch), che permette controllo granulare su struttura e composizione. 0:00 /0:57 1× Qwen-Image-Edit-2509 La qualità dell’output è alta anche in casi difficili: * restauro fotografico con identità intatta * poster pubblicitari generati da semplici loghi * meme realistici con testi complessi * ritratti con pose alterate ma coerenza impeccabile E il dettaglio più importante: è open source. Licenza Apache 2.0, modello e codice disponibili pubblicamente. Usabile, modificabile, riutilizzabile. Anche per scopi commerciali. Per provarlo > Qwen-Image-Edit-2509 non è solo un aggiornamento. È una piattaforma creativa > solida, aperta e controllabile. -------------------------------------------------------------------------------- GROK 4 FAST Grok 4 Fast segna un’evoluzione nell’intelligenza artificiale accessibile, combinando potenza e convenienza. Si tratta di un modello ottimizzato che conserva prestazioni vicine a Grok 4, ma riduce del 40% i token di ragionamento, rendendolo più efficiente sotto il profilo computazionale ed economico. Con una finestra di contesto di 2 milioni di token, Grok 4 Fast si adatta a compiti lunghi e articolati, integrando nativamente l’uso di strumenti come web, ricerca su X, immagini e video. La sua architettura duale permette di alternare tra modalità di ragionamento e risposte rapide, a seconda della complessità del compito, senza sacrificare coerenza o profondità. I benchmark confermano la validità di questa impostazione: prestazioni superiori a Grok 3 Mini a costi significativamente più bassi, mantenendo un equilibrio rilevante tra intelligenza e spesa per token. Per approfondire La disponibilità gratuita per tutti gli utenti, compresi quelli non abbonati, rappresenta un passo concreto verso una democratizzazione dell’AI avanzata, in cui efficienza e accessibilità diventano elementi strutturali, non compromessi. -------------------------------------------------------------------------------- GPT-5-CODEX DI OPENAI OpenAI presenta GPT-5-Codex, un’evoluzione di GPT-5 progettata per l’ingegneria del software. Allenato su compiti complessi e reali, questo modello unisce due capacità essenziali: l’interazione rapida nelle sessioni brevi e la perseveranza nei lavori di lunga durata, arrivando a operare autonomamente per ore. La sua specializzazione nel code review permette di scoprire difetti critici prima della distribuzione, riducendo il carico dei revisori umani e aumentando la qualità del codice. GPT-5-Codex di OpenAI L’ecosistema Codex si è trasformato in un vero "compagno di lavoro": dal terminale all’IDE, dal cloud a GitHub, fino all’app iOS, con la possibilità di passare senza soluzione di continuità dal contesto locale a quello remoto. Le nuove integrazioni supportano immagini, to-do list, strumenti esterni e revisioni automatiche delle pull request, con tempi di esecuzione molto più rapidi e una gestione della sicurezza che privilegia ambienti sandbox e controlli granulari. Vai al post di OpenAI > Incluso nei piani ChatGPT Plus, Pro, Business, Edu ed Enterprise, e in arrivo > anche via API, GPT-5-Codex incarna l’idea di un agente affidabile, capace di > comprendere il contesto, collaborare e assumersi responsabilità nello sviluppo > del software. -------------------------------------------------------------------------------- GLI EMBEDDINGS SONO LIMITATI > E se gli embeddings, che oggi usiamo ovunque per ricerca e AI, avessero un > limite matematico invalicabile? Il nuovo lavoro di Google DeepMind dimostra proprio questo: non importa quanto allarghiamo i modelli o quanto migliori siano i dati, esiste un tetto oltre il quale gli embeddings non possono più rappresentare tutte le possibili relazioni tra query e documenti. Un paper di DeepMind sulla limitazione degli embeddings > Il motivo è geometrico. Un embedding è un vettore in uno spazio di dimensione > finita. Questo spazio può codificare tante relazioni, ma non tutte. Quando le query richiedono combinazioni troppo numerose o specifiche, la capacità crolla: alcune coppie o insiemi di documenti non possono essere recuperati da nessuna query, per pura impossibilità matematica. Gli autori formalizzano il concetto con i sign-rank bounds, che fissano un limite teorico alla capacità rappresentativa di un embedding di dimensione d. Poi lo mostrano empiricamente: anche con 4096 dimensioni (già altissime), la copertura delle possibili combinazioni si rompe già intorno ai 250 milioni di documenti per recuperi top-2. Per rendere la cosa concreta, creano il dataset LIMIT: query banalissime come “Chi ama le mele?”, con documenti tipo “Jon ama le mele”, “Leslie ama le caramelle”. Semplice? Non per gli embedding. Anche i migliori modelli disponibili crollano, con meno del 20% di recall@100. Un esempio intuitivo: immagina una libreria con solo 100 scaffali. Puoi ordinare molti libri, ma non tutte le disposizioni possibili. A un certo punto, per quanto tu cerchi di essere creativo, mancherà lo spazio per rappresentare tutte le combinazioni. Gli embedding funzionano allo stesso modo: una mappa utile, ma che non potrà mai contenere tutti i percorsi possibili. Le implicazioni sono profonde: non basta scalare. Per applicazioni come search, recommendation o retrieval-augmented generation (RAG), gli embeddings non possono essere l’unico motore di retrieval. Servono architetture ibride, che combinino dense e sparse retrieval, multi-vector retrievers o reranker più potenti. Vai al paper > Il messaggio del paper è netto: gli embeddings rimangono strumenti preziosi, > ma vanno trattati come parte di un sistema, non come la soluzione universale. > I loro limiti non sono un bug temporaneo, ma una proprietà strutturale. UN APPROFONDIMENTO SUGLI EMBEDDINGS Cosa sono gli embeddings? Esempi di utilizzo Cosa sono e come funzionano gli embeddings (o incorporamenti): una spiegazione semplice con alcuni esempi di utilizzo in ambito SEO, e riflessioni sull’importanza della consapevolezza di questi sistemi. Alessio PomaroAlessio Pomaro -------------------------------------------------------------------------------- GPT-OSS DI OPENAI SU GROQ Usando Groq è possibile usare le diverse versioni di gpt-oss di OpenAI (i nuovi modelli open) via API e con una velocità impressionante. Nel video testo la versione 120b nel Playground di Groq, su diversi task, usando anche il tool di web search e code interpreter (per generare un diagramma). Come si vede, l'inferenza è davvero veloce: mediamente 500 token/s. Gpt-oss di OpenAI su Groq: un test > E la qualità dei risultati? Sinceramente è ottima, se consideriamo le > caratteristiche del modello e la quantità di istruzioni che fornisco in input. Questi modelli possono davvero coprire una grande quantità di elaborazioni nelle applicazioni, soprattutto all'interno di framework multi agente. -------------------------------------------------------------------------------- AGENTI OPEN-SOURCE PER LA RICERCA SUL WEB Tongyi DeepResearch rappresenta un passaggio significativo nell’evoluzione degli agenti open-source per la ricerca sul web. Si distingue non solo per i risultati raggiunti nei benchmark più complessi, ma soprattutto per l’approccio metodologico che lo sostiene. > Al centro di questa visione c’è l’idea che un agente non debba limitarsi a > immagazzinare conoscenza, ma debba saper agire, pianificare e costruire > risposte attraverso processi multi-step. 0:00 /1:28 1× Tongyi DeepResearch: un esempio Il concetto di Agentic Continual Pre-Training mostra come il pre-training non debba essere visto come una fase chiusa, ma come un ciclo continuo, arricchito da dati sintetici progettati per simulare scenari di ricerca e di decisione. In questo modo, il modello viene nutrito con esperienze artificiali che non solo ampliano il suo repertorio informativo, ma modellano il suo comportamento da agente, rendendo più naturale il passaggio alle fasi successive di fine-tuning e reinforcement learning. Vai al progetto su GitHub I risultati confermano la forza di questo approccio: Tongyi DeepResearch ottiene un punteggio di 32.9 su Humanity’s Last Exam, 43.4 su BrowseComp, 46.7 su BrowseComp-ZH e 75 su xbench-DeepSearch, superando sia agenti open-source che soluzioni proprietarie di riferimento. In un panorama dove l’accesso a dati reali è limitato e costoso, l’uso sistematico e scalabile di dati sintetici rappresenta una svolta: non una semplice sostituzione, ma una forma di addestramento che permette al modello di esplorare lo spazio del ragionamento e dell’azione ben oltre i confini imposti dai dataset umani disponibili. Vai al post > Tongyi DeepResearch dimostra così che l’open-source non significa rinuncia a > performance di punta, ma può anzi incarnare una via diversa, fondata sulla > generazione autonoma e controllata delle condizioni di apprendimento. -------------------------------------------------------------------------------- E SE UN MODELLO POTESSE SVILUPPARE DA SOLO NUOVE STRATEGIE PER RISOLVERE PROBLEMI COMPLESSI? Un recente paper su Nature mostra come sia possibile ottenere questo risultato utilizzando il modello DeepSeek-R1 come banco di prova. La chiave è il reinforcement learning puro: invece di forzare il modello a imitare esempi umani passo dopo passo, gli viene dato solo un premio se la risposta finale è corretta. I RISULTATI SONO NOTEVOLI * Con questa tecnica, una versione iniziale chiamata DeepSeek-R1-Zero ha imparato spontaneamente a produrre passaggi più lunghi, verificare i propri risultati e correggersi in corso d’opera. * In competizioni di matematica e coding ha superato perfino la media dei concorrenti umani. * Successivi perfezionamenti hanno reso il modello più leggibile, coerente nelle lingue e più adatto a compiti generali. DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning - Nature A new artificial intelligence model, DeepSeek-R1, is introduced, demonstrating that the reasoning abilities of large language models can be incentivized through pure reinforcement learning, removing the need for human-annotated demonstrations. NatureDaya Guo Il messaggio del lavoro è chiaro: non serve guidare il modello con tracciati umani dettagliati, ma bastano domande difficili, verificatori affidabili e ricompense ben progettate. Capacità sofisticate emergono in modo naturale. > Un passo avanti verso sistemi che sanno trovare autonomamente percorsi nuovi > per affrontare sfide complesse. -------------------------------------------------------------------------------- VAULTGEMMA: LLM CON PRIVACY DIFFERENZIALE Google ha presentato VaultGemma: il LLM open-source più potente al mondo con privacy differenziale. Cosa significa? Lo vediamo in modo semplice... Quando si addestra un modello di AI su testi come email, documenti o messaggi, c'è il rischio che memorizzi frasi private. La privacy differenziale risolve questo problema: durante l’addestramento, si aggiunge un po’ di "rumore" ai dati per impedire che il modello ricordi informazioni sensibili. In pratica, impara il concetto generale, ma non i dettagli personali. VaultGemma: LLM con privacy differenziale VaultGemma è il primo modello open-source da 1 miliardo di parametri addestrato completamente da zero con questa tecnica. Google ha sviluppato nuove regole per trovare il giusto equilibrio tra privacy, prestazioni e potenza di calcolo. Le sue performance sono solide. * È paragonabile a modelli come GPT-2 (1.5 miliardi di parametri) su test noti come HellaSwag, TriviaQA e altri. * Non memorizza sequenze dei dati di addestramento. * È stato rilasciato pubblicamente per aiutare la comunità a sviluppare IA più sicure e rispettose della privacy. Vai al progetto > Un passo concreto verso un’intelligenza artificiale potente ma progettata fin > dall’inizio per proteggere le persone. -------------------------------------------------------------------------------- GEMMA 3N ON-DEVICE IN LOCALE Nell'ultima versione di AI Edge Gallery di Google è possibile testare Gemma 3n completamente on-device (in locale in uno smartphone), senza nessuna connessione a Internet e scambio dati esterni. Ora anche con elaborazione di file audio e immagini. Negli esempi, carico un mio audio registrato e lo faccio tradurre al modello, oppure lo interrogo sul contenuto di alcune immagini. Gemma 3n on-device sul mio smartphone > Solo una piccola dimostrazione, ma che indica una direzione abbastanza chiara. -------------------------------------------------------------------------------- RISORSE PER FINE-TUNING Un'unica repository con oltre 100 Notebook Colab già pronti per il fine-tuning dei LLM (con tutte le guide)? GitHub - unslothai/notebooks: 100+ Fine-tuning LLM Notebooks on Google Colab, Kaggle, and more. 100+ Fine-tuning LLM Notebooks on Google Colab, Kaggle, and more. - unslothai/notebooks GitHubunslothai È messa a disposizione da Unsloth AI. -------------------------------------------------------------------------------- ELEVENLABS MUSIC > L'evoluzione della generazione musicale potenziata dall'AI avanza, con > ElevenLabs Music. L'ho provato, e l'aspetto più interessante è che aumenta il controllo sull'output. ElevenLabs Music è uno strumento che permette di generare musica partendo da un semplice prompt testuale, in qualità da studio. I brani creati sono suddivisi in parti (intro, verse, chorus, drop, bridge, ecc.), e ognuna di queste può essere modificata in ogni suo aspetto: lunghezza, testo (se c'è la voce), caratteristiche, ecc.. Le modifiche avvengono attraverso ulteriori prompt testuali e con le funzionalità dell'editor. Nel mio test (nel video), inserisco un prompt testuale per creare un brano, e il modello genera 3 versioni. Modifico lunghezza e testi di alcune parti.. e la "magia" sta nel fatto che il modello rigenera il brano per mantenere la coerenza delle diverse componenti. Un test di ElevenLabs Music Il livello di personalizzazione che si sta raggiungendo era impensabile fino a poco tempo fa. A breve, probabilmente, si lavorerà in timeline multi-traccia, con la possibilità di intervenire su ogni linea. Questo lo sta già realizzando Suno nel Suno Studio. > Ciliegina sulla torta: c'è anche un’API per integrarlo nei flussi di lavoro di > prodotti o progetti creativi. La generazione è praticamente istantanea e il risultato si adatta con precisione al prompt, anche in termini di BPM, tonalità e intenzione emotiva. Per provarlo > Se non siamo ancora pronti all'idea di canzoni generate completamente con un > modello di AI, pensiamo a quanto questi strumenti potranno supportare > l'editing e la content creation. -------------------------------------------------------------------------------- NUOVE FUNZIONALITÀ SU NOTEBOOKLM Google ha rilasciato nuove funzionalità su NotebookLM. * Le Audio Overview possono essere impostate con tagli di contenuto diversi (es. Approfondimento, Dibattito, Critica). E per ogni taglio è possibile scegliere la lunghezza del contenuto. * Le Audio e Video Overview, possono essere generate in tutte le lingue, con la selezione. * L'aggiunta di fonti attraverso la ricerca online, si estende anche a Google Drive (es. "slide sull'AI di Alessio"). Le novità di NotebookLM di Google E ne sono in arrivo altre.. * La funzionalità Deep Research di Gemini, che permetterà agli utenti di semplificare il processo di ricerca delle fonti e di importare contenuti pertinenti direttamente nei notebook. * La modalità "tutor", rivolta agli studenti. Questo suggerisce che Google vuole espandere NotebookLM oltre le sue attuali funzionalità di appunti e ricerca, trasformandolo in un assistente didattico più attivo. > Google procede nel suo percorso per portare Gemini in tutti gli strumenti di > produttività. -------------------------------------------------------------------------------- L'AUDIO OVERVIEW SU GEMINI.. E NON SOLO La chat di Gemini introduce (anche in Italia) l'Audio Overview. Quando carichiamo un documento compare il bottone "genera overview audio", che attua un'azione simile all'Audo Overview di NotebookLM: crea un mini podcast con diversi host che raccontano il documento. In alternativa, scrivendo nel campo della chat, è possibile continuare l'interazione classica, e il bottone scompare. Nel video, si può vedere (e sentire) un piccolo esempio di generazione. L'Audio Overview su Gemini: un esempio > Cosa manca? La possibilità di personalizzare l'overview per gestire il tipo di > discussione. ..ANCHE PAGINE WEB, INFOGRAFICHE E QUIZ Il nuovo menù di "Canvas", infatti, si è arricchito, permettendo anche la creazione di pagine web, infografiche, e quiz. In pratica (quasi) tutte le novità di NotebookLM sono anche su Gemini. Nelle immagini si vedono degli esempi: le infografiche che crea il modello sono davvero molto interessanti, precise e creative. Le nuove funzionalità di Canvas su Gemini Così come gli altri nuovi output, disponibili direttamente dalla chat di Gemini. Una nota sul quiz interattivo: lo immagino applicato agli aspetti formativi, per valutare la comprensione di uno o più contenuti. Recentemente ho dato come input una presentazione e ho ottenuto il quiz di fine seminario per gli studenti. -------------------------------------------------------------------------------- GEMINI PUÒ ELABORARE I FILE AUDIO? SÌ! Inizialmente credevo che fosse soltanto un sistema che trascrive l'audio, e usa la trascrizione come contesto per il LLM. In realtà, è qualcosa di più: il modello descrive le caratteristiche delle voci, elementi come il "piagnucolio", il timbro caldo e profondo, l'eloquio rassicurante e pacato, l'intonazione ascendente, ecc.. Un esempio dell'elaborazione audio di Gemini 2.5 Pro Alla fine, usando Gemini 2.5 Pro Image (Nano Banana), ho creato un'immagine che rappresentasse l'audio. Nell'altro esempio, il modello riconosce la provenienza dello speaker in base all'accento e alla cadenza. > Dei semplici test che mettono in luce il livello di multimodalità al quale > siamo già arrivati con i modelli di ultima generazione. Se ci pensiamo, è qualcosa di straordinario: i modelli nativamente multimodali segnano un cambio di paradigma. Non traducono più gli input in sequenze separate, ma li trasformano in embedding che confluiscono in un unico spazio di rappresentazione, dove testo, immagini, audio e altro possono essere elaborati insieme. -------------------------------------------------------------------------------- RILASCI DI NUOVI LLM Alibaba ha presentato Qwen3-Max-Preview (Instruct), il modello più grande della famiglia Qwen, con oltre 1 trilione di parametri. È già disponibile su Qwen Chat e attraverso le API di Alibaba Cloud. Dai benchmark si può notare come supera il miglior modello precedente (Qwen3-235B-A22B-2507). Qwen3-Max-Preview: le performance Il modello permette prestazioni più elevate, conoscenza più ampia, migliori capacità di conversazione e di seguire le istruzioni. Anche Kimi presenta un nuovo aggiornamento, con Kimi K2-0905. Per provarlo Funzionalità di codifica migliorate, in particolare nello sviluppo di front-end e nelle chiamate dei tool. Kimi K2-0905: performance Lunghezza del contesto estesa a 256k token. Integrazione migliorata con vari scaffold di agenti (es. Claude Code). Il modello su Hugging Face -------------------------------------------------------------------------------- QWEN3-NEXT Dopo aver presentato Qwen 3, che ho provato con soddisfazione in diversi test, Alibaba presenta Qwen3-Next, un'evoluzione pensata per ridefinire l’efficienza nell’addestramento e nell’inferenza dei LLM. È distribuito come modello open source, con pesi pubblici e compatibilità ampia con le principali toolchain. Questo conferma la volontà di contribuire in modo concreto a un'AI trasparente, accessibile e realmente integrabile nei contesti di sviluppo. > Ho provato anche questa versione, su prompt dettagliati che normalmente uso su > Gemini 2.5 Pro, e.. devo dire che sono rimasto molto colpito dagli output. > Veloce, preciso, aderente. Qwen3-Next: alcuni dettagli sul modello Uno degli aspetti più rilevanti di Qwen3-Next è l'introduzione della struttura QMoE (Qwen-Mixture of Experts), un sistema dinamico che seleziona in tempo reale solo una parte degli “esperti” del modello per ogni input. Questo meccanismo permette di mantenere elevate prestazioni con un consumo energetico e computazionale significativamente ridotto, offrendo una soluzione scalabile tanto per grandi deployment quanto per ambienti edge. La qualità del pretraining multi-task, costruito su un corpus che include scrittura, codice, ragionamento, matematica e traduzione, testimonia una direzione precisa: costruire modelli generalisti, ma senza la superficialità dei compromessi. L’allocazione dei pesi nei diversi task è gestita da uno schema di ottimizzazione che mira a mantenere coerenza e profondità trasversale, caratteristiche non sempre garantite dai LLM più generalisti. In ambito benchmark, Qwen3-Next ha già mostrato risultati che lo pongono tra i modelli più solidi del 2025: su MMLU, GSM8K, HumanEval e BBH, la versione da 72B con architettura MoE compete e in alcuni casi supera modelli come GPT-4 e Claude 3, pur con un'efficienza computazionale superiore. I modelli più piccoli, da 1.5B a 14B, mantengono prestazioni notevoli, suggerendo una flessibilità d’impiego che abbraccia diversi casi d’uso industriali e di ricerca. Vai al post di Qwen > Qwen3-Next non è solo un nuovo modello, ma rappresenta una visione: quella di > un’AI capace di crescere non solo in potenza, ma in equilibrio tra efficacia, > efficienza e adattabilità. Una traiettoria che guarda oltre la corsa alle > dimensioni e punta alla maturità tecnica. -------------------------------------------------------------------------------- UN'ANALOGIA NEL FUNZIONAMENTO DELL'INTELLIGENZA BIOLOGICA Secondo Ilya Sutskever, l'approccio che guida lo sviluppo dei moderni sistemi di AI (basato su un'unica, grande architettura generale) trova un'analogia nel funzionamento dell'intelligenza biologica. 0:00 /1:30 1× A sostegno di questa tesi, porta esempi dalla neuroscienza, come la capacità del cervello di riorganizzarsi e funzionare con un solo emisfero dopo un intervento in età infantile, o l'esperimento in cui la corteccia uditiva di un furetto ha imparato a elaborare segnali visivi. Per Sutskever, questi casi suggeriscono che il tessuto corticale non è un insieme di moduli rigidamente specializzati, ma un substrato di apprendimento uniforme e adattabile. > Questa idea, secondo lui, offre una spiegazione del perché un'unica, grande > architettura neurale, se scalata con più dati e calcolo, possa sviluppare > un'ampia gamma di capacità senza essere riprogettata per ogni compito > specifico. La visione, fornisce un quadro concettuale elegante e potente che collega l'evoluzione biologica, la neuroscienza e la strategia di ricerca che ha prodotto i modelli di AI più avanzati di oggi. Ci dice che la ricerca di un "algoritmo di apprendimento universale" o di un'"architettura generale" non è un'utopia, ma potrebbe essere il modo in cui l'intelligenza, sia biologica che artificiale, funziona davvero. È una delle visioni più ottimistiche e ambiziose nel campo dell'AI. Il video completo > Dal mio punto di vista, non basterà un'unica architettura neurale con più dati > e calcolo. Serviranno nuove architetture. -------------------------------------------------------------------------------- ARRIVEREMO A SISTEMI DI AI IN APPRENDIMENTO CONTINUO? MoonshotAI, l'azienda che sviluppa Kimi, ha rilasciato un progetto open source chiamato Checkpoint-engine, una tecnologia che consente di aggiornare i pesi nei modelli LLM rapidamente e senza interrompere l’inferenza. Questo middleware è in grado di aggiornare modelli da un trilione di parametri (es. Kimi-K2) in circa 20 secondi su migliaia di GPU, grazie a una pipeline ottimizzata e due strategie di aggiornamento: Broadcast, per ambienti sincronizzati, e Peer-to-Peer, per cluster dinamici dove i nodi possono essere aggiunti o riavviati senza influenzare il servizio. L'infrastruttura si integra con vLLM, supporta la quantizzazione in FP8 e consente il riutilizzo dei pesi tra istanze già attive. Tutto questo rende possibile aggiornamenti incrementali, anche frequenti, come quelli richiesti da fine-tuning leggeri o reinforcement learning in produzione. GitHub - MoonshotAI/checkpoint-engine: Checkpoint-engine is a simple middleware to update model weights in LLM inference engines Checkpoint-engine is a simple middleware to update model weights in LLM inference engines - MoonshotAI/checkpoint-engine GitHubMoonshotAI Checkpoint-engine non implementa direttamente l’apprendimento continuo, ma fornisce le fondamenta tecniche per renderlo realizzabile: gestione efficiente dei pesi, scalabilità del cluster e aggiornamenti senza downtime. > Un passo concreto verso sistemi di AI capaci di evolversi nel tempo. -------------------------------------------------------------------------------- SPIKINGBRAIN SpikingBrain è una nuova famiglia di modelli linguistici di grandi dimensioni ispirati al funzionamento del cervello. Nasce per superare i limiti dei Transformer tradizionali, che richiedono calcoli quadratici sulle sequenze, accumulano memoria in modo lineare e dipendono quasi esclusivamente dalle GPU NVIDIA. SpikingBrain: il paper La sua idea centrale è introdurre neuroni spiking: attivazioni convertite in eventi discreti e sparsi, simili agli impulsi dei neuroni biologici. In questo modo il modello resta silenzioso quando non serve, riduce il consumo energetico e gestisce testi lunghissimi senza che il costo esploda. L’architettura combina varianti lineari e locali dell’attenzione, integra la specializzazione modulare con il Mixture-of-Experts, e porta la la selettività su più livelli, dal singolo neurone all’intera rete. Il risultato sono due modelli: SpikingBrain-7B, piccolo ed estremamente veloce, che su sequenze di milioni di token ottiene oltre cento volte la rapidità di un Transformer standard; e SpikingBrain-76B, più grande e competitivo con sistemi come Llama2 e Mixtral. Entrambi addestrati su cluster MetaX, senza ricorrere a NVIDIA. Vai al paper > SpikingBrain mostra che l’evoluzione dell’intelligenza artificiale non passa > solo dalla scala, ma anche dallo studio dell'architettura: reti più > efficienti, modulari e capaci di attivarsi solo quando serve. -------------------------------------------------------------------------------- QUANTO CONTA CHE L'AI NON VIVA "NEL CLOUD", MA DIRETTAMENTE NEI NOSTRI DISPOSITIVI? Apple ha appena presentato FastVLM e MobileCLIP2, modelli vision-language progettati per funzionare on-device, senza passaggi su server remoti. Dal punto di vista ingegneristico, i numeri parlano chiaro: fino a 85 volte più veloci, 3,4 volte più compatti rispetto alle soluzioni precedenti, capaci di generare didascalie in tempo reale anche da flussi video, direttamente nel browser. 0:00 /1:00 1× Una demo di FastVLM di Apple Nessuna infrastruttura esterna, nessuna latenza, nessuna esposizione dei dati sensibili. Per provarlo Ma il punto non è solo l’efficienza. È la narrativa che si va costruendo: un’IA che non è un servizio distante, impersonale e centralizzato, bensì un’estensione locale, integrata, privata. Un’IA che non “vive altrove”, ma che appartiene all’utente e al suo dispositivo. Vai al paper > Si tratta forse dell'inizio di un percorso che tenta di mascherare una lacuna > (sviluppo di sistemi basati sull'AI) con la promozione di un'AI personale, > privata e senza soluzione di continuità? Probabilmente sì, anche se i rumors > suggeriscono un interesse di Apple per acquisizioni di brand come Mistral e > Perplexity. -------------------------------------------------------------------------------- L'AI POTRÀ SOSTITUIRE I MATEMATICI? > Un paper pone riflessioni interessanti. > Io aggiungo: ..ma forse sono le aspettative ad essere sbagliate. Nel racconto degli autori, lavorare con GPT-5 è stato come affiancarsi a un giovane ricercatore alle prime armi: capace di seguire ragionamenti, di proporre combinazioni di idee già note, persino di suggerire direzioni possibili. Ma ogni passaggio richiedeva attenzione, verifiche, correzioni puntuali. Senza supervisione, l’illusione di rigore rischiava di nascondere errori. Questa esperienza mostra che l’AI eccelle nella ricerca incrementale: raffinamenti, piccoli avanzamenti, collegamenti tra risultati già esistenti. È qui che può risparmiare tempo, agire come un assistente instancabile. Non inaugura prospettive radicalmente nuove, ma può portare a contributi originali, anche se non rivoluzionari. L'AI potrà sostituire i matematici? - Un paper interessante Il rischio è duplice. Da un lato, un’inflazione di risultati tecnicamente corretti ma poco significativi, che potrebbe soffocare la visibilità delle idee davvero innovative. Dall’altro, un impatto sulla formazione dei giovani: se un dottorando si affida troppo presto a uno strumento che fornisce risposte immediate, rischia di perdere il contatto con quel processo di errori, tentativi ed esplorazioni che è il cuore stesso del diventare matematici. Il rischio è crescere ricercatori che sanno leggere risposte, ma non costruire domande. Vai al paper Qui emergono anche i limiti del paper. I risultati sono originali ma non rivoluzionari: estensioni incrementali più che breakthrough. L’AI è usata in modo strumentale, come un esecutore da guidare passo dopo passo, senza esplorare nuove forme di collaborazione uomo-macchina. E lo sguardo rimane difensivo: si sottolineano i rischi, ma poco si immaginano scenari positivi in cui l’AI potrebbe stimolare creatività e aprire campi oggi inaccessibili. Gli autori restano cauti: i progressi sono rapidi, sorprendenti e meritano attenzione. > Ma più che immaginare un rimpiazzo dei matematici, bisognerebbe forse > interrogarsi su come preservare l’essenza della ricerca umana in un paesaggio > che rischia di essere sovraccaricato di risultati senza anima. E, soprattutto, su come valorizzare l’AI per ciò che già sa fare oggi: accelerare, stimolare, supportare — e questo è già tantissimo. -------------------------------------------------------------------------------- - GRAZIE - Se hai apprezzato il contenuto, puoi contribuire al progetto con una donazione 🙂 ISCRIVITI ALLA NEWSLETTER Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su tematiche relative all'intelligenza artificiale. Iscriviti alla Newsletter Email sent! Check your inbox to complete your signup. Gratuita. No Spam. Puoi disiscriverti quando vuoi. Consulta la privacy policy.

October 7, 2025 / Alessio Pomaro

Novità e Riflessioni

Generative AI: novità e riflessioni - #8 / 2025

> Buon aggiornamento, e buone riflessioni.. -------------------------------------------------------------------------------- GEMINI 2.5 FLASH IMAGE (AKA NANO BANANA) Il modello "nano-banana" non è più un mistero. Il nome ufficiale è Gemini 2.5 Flash Image, ed è un modello di Google. L'ho provato. Gemini 2.5 Flash Image: test su AI Studio SUBITO DUE CONSIDERAZIONI 1. Questo modello dimostra che le applicazioni commerciali basate su immagini generate da semplici prompt multimodali sono sempre più vicine (chi si occupa di e-commerce, può iniziare a pensare alle potenziali automazioni). 2. Si inizia a scorgere la direzione dell'editing rapido delle immagini, integrabile in ogni applicazione, soprattutto su dispositivi mobile (es. l'editing vocale). Il nuovo modello generativo è accessibile via API, Google AI Studio, Vertex AI e Chat di Gemini. Gemini 2.5 Flash Image: test su Gemini Chat Non si limita a generare immagini da zero: è un motore completo per generazione, modifica, fusione e personalizzazione di immagini con prompt testuali, combinazioni multimodali e template riutilizzabili. La qualità visiva è migliorata in modo evidente rispetto alla generazione nativa introdotta con Gemini 2.0 Flash. E in più, le funzionalità non sono solo più precise: sono più utili. * Coerenza visiva: è possibile mantenere un soggetto identico in pose diverse, ambienti diversi, o in materiali di brand coerenti. È uno degli ostacoli principali per le app creative, ora molto più gestibile. * Editing mirato: basta un prompt per rimuovere una persona, sfocare lo sfondo, cambiare la posa di un soggetto, ricolorare un’immagine in bianco e nero. * Conoscenza del mondo: Gemini 2.5 integra comprensione semantica reale. Riesce a interpretare disegni a mano libera, rispondere a prompt educativi e applicare modifiche complesse senza dover specificare ogni dettaglio. * Fusione di immagini multiple: è possibile fondere oggetti in scene nuove, cambiare lo stile di una stanza con una sola istruzione, o combinare più immagini per crearne una nuova, coerente e fotorealistica. Il costo è competitivo, e la velocità è impressionante. Nei test che ho fatto, il modello ha generato gli output in pochi secondi. Grazie alla sezione "Build" di AI Studio, è possibile creare delle applicazioni basate sul modello attraverso istruzioni in linguaggio naturale. Nelle immagini si vedono alcuni esempi. Un esempio di applicazione basata sul modello Ogni immagine generata viene marcata con SynthID, un watermark digitale invisibile, che garantisce la tracciabilità senza alterare l’estetica. Google dichiara che sta continuando a lavorare su: * miglioramento dei testi lunghi dentro alle immagini, * coerenza visiva su immagini complesse, * accuratezza nei dettagli visivi. > È il modello che mi ha impressionato di più? Sì. Non tanto per la qualità > nella generazione di nuove immagini, ma per la coerenza e l'aderenza alle > istruzioni. È questa la vera sfida, perché è la barriera per l'utilizzo > commerciale. -------------------------------------------------------------------------------- COME SI SCRIVONO I PROMPT PER GEMINI 2.5 FLASH IMAGE? Google ha rilasciato alcune interessanti linee guida per ottenere immagini più accurate e controllate con il suo modello generativo. Generazione di immagini con Gemini (alias Nano Banana) | Gemini API | Google AI for Developers Iniziare a generare immagini con l’API Gemini Google AI for Developers * Il primo principio da tenere a mente è semplice: non usare elenchi di parole chiave, ma scrivere descrizioni narrative. * Un prompt efficace racconta una scena, con contesto, tono e dettagli visivi. Questo approccio sfrutta la profonda comprensione del linguaggio naturale da parte del modello. * Per immagini fotorealistiche, è utile pensare come un fotografo: specificare angolazione, tipo di obiettivo, illuminazione e atmosfera. * Per adesivi o illustrazioni stilizzate, bisogna indicare lo stile visivo, la palette cromatica e se si desidera uno sfondo trasparente. * Quando si vuole inserire testo nell'immagine (come in un logo), è importante descrivere font, layout e tono grafico con precisione. * Il modello risponde bene anche a prompt iterativi: si può iniziare con una bozza generale e poi affinare l'immagine in più passaggi, come in una conversazione. * Altre buone pratiche includono la suddivisione in istruzioni sequenziali per scene complesse, l’uso di linguaggio fotografico per la composizione e la descrizione positiva di ciò che si desidera (anziché negare ciò che non si vuole). Per approfonfire > In sintesi, più il prompt è ricco e intenzionale, migliore sarà il risultato. > Scrivere per Gemini non significa solo dare comandi, ma progettare visivamente > un’idea attraverso il linguaggio. -------------------------------------------------------------------------------- VEO 3 PROMPT ASSISTANT: UNA NUOVA VERSIONE In molti stanno usando "Veo 3 Prompt Assistant", il mio GPT dedicato alla generazione di prompt strutturati per Veo3, e sto ricevendo diversi feedback e recensioni. Per ringraziare tutti, ho pubblicato la nuova versione: potenziata e con nuove funzionalità. Veo 3 Prompt Assistant: nuova versione Per provarlo.. ChatGPT - Veo 3 Prompt Assistant A conversational AI system that listens, learns, and challenges ChatGPT Oppure basta cercare "Veo 3 Prompt Assistant" nella sezione GPT di ChatGPT. LE NOVITÀ * Il system prompt dell'agente è stato reso più robusto. * Usa un nuovo archivio di esempi, per addestrare il sistema ad essere più preciso nel richiedere le informazioni all'utente su scenari specifici, e per inserire nei prompt dettagli di qualità superiore. * Nelle richieste delle caratteristiche del video, l'applicazione si adatta all'expertise dell'utente, in modo che chiunque (con profondità diverse) possa usare l'agente. * Attraverso il bottone "Inquadrature diverse dello stesso soggetto", si avvia un processo guidato nella creazione di prompt specifici per diverse scene, mantenendo la coerenza degli elementi descritti. * Dopo aver generato il prompt, l'agente può creare l'immagine del fotogramma chiave per usare un prompt multimodale su Veo 3 (image-to-video). L'immagine è estremamente coerente con il prompt per il video, perché, per crearla, viene usato il contesto della conversazione. GPT-image-1 non può generare immagini con proporzioni 16:9, ma l'agente, la ridimensiona automaticamente usando uno script Python, e successivamente la fa scaricare. ALCUNI ESEMPI Test di Veo3 Fast per la generazione di una scena di rally con diverse inquadrature: panoramica da bordo pista, dall'interno con pilota e navigatore, ripresa aerea dal drone, frontale dalla pista. I prompt sono stati realizzati con "Veo 3 Prompt Assistant", usando la funzionalità "Inquadrature diverse dello stesso soggetto". Le 4 clip generate, sono state montate in sequenza. Infine il video è stato elaborato con il video upscaler di Topaz Labs per aumentare la risoluzione. Video generato con Veo 3 Prompt Assistant + Veo 3 Fast > È perfetto? No. Ci sono alcuni dettagli non perfettamente coerenti. Ma, ancora > una volta, si possono vedere miglioramenti importanti. Un altro esempio di video basato su due clip generate con Veo3 su Flow, ed esportato in Full HD, con prompt creati attraverso la funzionalità "Inquadrature diverse dello stesso soggetto" di "Veo 3 Prompt Assistant". > La funzionalità permette di ottenere istruzioni estremamente descrittive, in > modo che le scene che ne derivano siano coerenti. -------------------------------------------------------------------------------- LE API DI VEO 3 Recentemente Google ha messo a disposizione le API di Veo 3, con la possibilità di creare video a 720p con audio nativo, text-to-video e image-to-video. Con poche righe di codice si possono ottenere dei risultati molto interessanti. Video generato attraverso le API di Veo 3 Eseguendo il Colab che segue, ho generato questo video (da notare che non ha il watermark "Veo"). Vai al Colab Basta salvare una copia del Colab, impostare l'API Key di Gemini come parametro, ed eseguirlo. Nel Colab è implementato anche il salvataggio del file MP4 (che non c'è negli esempi della documentazione). Per creare il prompt ottimizzato ho usato un GPT costruito ad hoc: ChatGPT - Veo 3 Prompt Assistant A conversational AI system that listens, learns, and challenges ChatGPT Quella che segue, è la documentazione dell'API di Veo 3. Vai alla documentazione -------------------------------------------------------------------------------- COMET: IL BROWSER AI DI PERPLEXITY > Si tratta di un progetto interessante? L'ho provato. Comet: il browser AI di Perplexity Prima considerazione: avere l'agente che compie le azioni online integrato direttamente in un browser, fa la differenza a livello di UX. Non solo.. mentre molte piattaforme bloccano le azioni di sistemi come Agent Mode di ChatGPT (servizi remoti facilmente riconoscibili), su Comet, essendo fisicamente il browser automatizzato da un agente, questo non avviene. Infatti, come si vede negli esempi, chiedo all'agente di acquistare su Amazon un prodotto con un budget di riferimento, valutando anche le recensioni online. Il sistema mi mette davanti al carrello pronto, senza problemi. Comet di Perplexity su Amazon Tutto procede perfettamente anche se non chiedo esplicitamente di acquistare su Amazon: l'automazione fa ricerche, si muove negli e-commerce, compie azioni e prepara tutto per l'acquisto. > Nei siti web, l'usabilità del frontend, la cura dei dati e dei contenuti > (rilevanza contestuale) non sono mai stati elementi così importanti: un AI > agent non è ancora abile come un utente esperto. Il sistema interagisce con pagine web e con servizi come Calendar.. dalla pagina di un evento chiedo all'agente di bloccarmi lo slot nel calendario, e di acquistare il volo per la trasferta. Interagisce con Gmail.. chiedo di preparare mail con sintesi di documenti, ed esegue il task senza intoppi. Mi faccio pianificare anche una vacanza, con location e volo.. e, anche in questo caso, ottengo una soluzione che soddisfa le richieste. Comet di Perplexity: l'interazione con pagine web e servizi Nel seguente video, chiedo all'agente di fare delle ricerche su Google, ChatGPT e Perplexity e di analizzare le risposte, verificando la presenza di una fonte specifica. Il sistema agisce autonomamente (nel video si vede tutta l'interazione, ma può lavorare in background) e alla fine crea una tabella di riepilogo delle informazioni. > Molto interessante il fatto che non esegua le operazioni in sequenza, ma che > l'agente organizzi le operazioni parallelamente, su task diversi. Un esempio di automazione usando Comet di Perplexity Ho fatto davvero tanti test. E questi sono alcuni pensieri finali.. 1. Davvero un grande lavoro da parte di Perplexity. Uno strumento molto interessante. Ma torniamo al tema dell'integrazione negli ecosistemi: se Google integrasse tutto questo su Chrome (sfruttando il Progetto Mariner).. sentiremmo ancora parlare di Comet? 2. Chiaro il motivo per cui Perplexity tenta di influenzare l'antitrust sulla questione che coinvolge Alphabet e Chrome? 3. Chiaro il motivo per il quale si vociferava che OpenAI starebbe ragionando su un browser, e, a sua volta, sarà interessata a Chrome se verrà messo in vendita? > Lo dico da molti anni: il browser sarà l'unico software di cui avremo bisogno > nei nostri dispositivi. -------------------------------------------------------------------------------- GPT5: RIFLESSIONI, RIEPILOGO, TEST.. E AGI? Ho scritto alcune considerazioni sull'atteso rilascio di OpenAI. GPT-5: riflessioni, riepilogo, test.. e AGI? GPT-5 di OpenAI segna un passo solido ma non rivoluzionario verso l’AGI: meno allucinazioni, più ragionamento, nuove funzioni e prezzi competitivi. Progresso importante, ma la vera svolta richiederà architetture ibride. Alessio PomaroAlessio Pomaro > GPT-5 is a significant step along the path to AGI… > a model that is generally intelligent Così Sam Altman introduce la live di presentazione del modello. Nel momento in cui ha finito la frase, ho avuto una forte tentazione di stoppare lo streaming.. ma mi sono sforzato di proseguire. > A valle dell’evento, il mio bilancio è questo: GPT-5 è un major update solido > ma non di rottura. Per approfondire -------------------------------------------------------------------------------- UNA GUIDA AL PROMPTING PER GPT-5 > OpenAI ha pubblicato una guida al prompting per GPT-5 Una guida al prompting per GPT-5 Il primo aspetto interessante, come immaginavo è la continuazione del percorso iniziato con la versione 4.1: GPT-5 viene presentato come sensibile e preciso nell’interpretazione delle istruzioni. Anche piccole ambiguità o contraddizioni nel prompt possono influenzarne il comportamento in modo significativo. Questo richiede un'attenta progettazione dei prompt: ogni istruzione deve essere chiara, coerente e priva di conflitti. La qualità del risultato, con GPT-5, è strettamente legata alla qualità del prompt. Un altro punto chiave è la gestione del comportamento agentico. GPT-5 può operare come un agente autonomo, capace di prendere decisioni e portare a termine compiti multi-step. L’utente ha il controllo su quanto il modello debba essere proattivo o attendista, anche attraverso parametri come "reasoning_effort", che regola la profondità del ragionamento, o "verbosity", che influenza la lunghezza della risposta finale. In ambito sviluppo software, il modello si distingue per la capacità di comprendere, modificare e generare codice in modo contestualizzato. È efficace sia nel refactoring su progetti esistenti, sia nella generazione completa di nuove applicazioni, soprattutto se guidato da prompt che ne definiscano stile, struttura e obiettivi. La guida consiglia inoltre l’uso di “tool preambles”, ovvero istruzioni iniziali che aiutano il modello a pianificare le sue azioni e a comunicarle passo passo, migliorando l’esperienza collaborativa. E mostra come team come Cursor abbiano ottenuto risultati notevoli semplicemente ottimizzando i propri prompt in modo iterativo, fino a usarlo come meta-modello per migliorare sé stesso. Vai alla guida > GPT-5, insomma, va guidato con metodo. Progettare un buon prompt è ancora > parte integrante del design di un sistema AI efficace. -------------------------------------------------------------------------------- GPT-5 FOR CODING OpenAI ha condiviso un documento, intitolato "GPT-5 for Coding": una mini-guida con suggerimenti pratici per ottenere i migliori risultati dal nuovo modello. GPT-5 for Coding Una sintesi dei concetti con qualche commento: 1. Sii preciso ed evita informazioni contrastanti. GPT-5 è molto abile a seguire le istruzioni: quindi niente comandi vaghi o contraddittori. Chiarezza e coerenza sono fondamentali, in particolare nei file di configurazione come .cursor/rules o AGENTS.md. La linea di sviluppo resta chiara: modelli sempre più precisi e aderenti alle istruzioni. 2. Usa il giusto livello di ragionamento. Il modello ragiona sempre. Per compiti complessi imposta un livello alto; se tende a complicare compiti semplici (“overthinking”), specifica un livello medio o basso per ottenere risposte più dirette. 3. Struttura le istruzioni con una sintassi tipo XML. Per dare più contesto (es. linee guida di programmazione), tag come <code_editing_rules>...</code_editing_rules> risultano molto efficaci. È una tecnica che uso da tempo in ogni #prompt e continua a funzionare. 4. Evita un linguaggio troppo rigido o imperativo. Comandi perentori come “Sii ESAUSTIVO” o “Assicurati di avere il QUADRO COMPLETO” possono essere interpretati alla lettera e generare eccessi (es. troppe chiamate a strumenti esterni). Se le istruzioni sono chiare e coerenti, non lo considero un punto critico. 5. Lascia spazio alla pianificazione e all’autoriflessione. Per compiti ampi (ad esempio creare un’app da zero), chiedi al modello di “riflettere” prima di agire: definire una rubrica interna con i criteri di successo, poi iterare per produrre una soluzione che li soddisfi, e solo infine mostrare il risultato. Nei task più complessi faccio produrre un piano d’azione e pensiero in un’area : ottima pratica. 6. Modula l’“eagerness” dell’agente di coding. Di default, GPT-5 è scrupoloso nella raccolta di informazioni. Dal prompt puoi guidarlo: quando approfondire, quando chiedere conferma, quando procedere con ipotesi ragionevoli in autonomia. Per approfondire -------------------------------------------------------------------------------- CLAUDE OPUS 4.1 Mentre OpenAI lancia GPT-5, Anthropic rende disponibile Claude Opus 4.1, e segna un salto di qualità nell'AI per lo sviluppo software e compiti agentici. Con un punteggio del 74,5% su SWE-bench Verified, migliora notevolmente nel refactoring multi-file e nell’individuare correzioni precise all’interno di grandi basi di codice, riducendo modifiche superflue e bug. Claude Opus 4.1: performance Diverse aziende, tra cui GitHub e Rakuten, hanno evidenziato miglioramenti concreti rispetto alla versione precedente, in particolare nella gestione del codice in scenari reali. Windsurf ha registrato un progresso di una deviazione standard nelle performance su benchmark per sviluppatori junior, equiparabile al salto tra Sonnet 3.7 e Sonnet 4. Il modello mantiene il prezzo di Opus 4, è disponibile via API e sulle principali piattaforme cloud, e supporta “extended thinking” fino a 64K token in contesti che lo richiedono. Vai al post > Un aggiornamento consigliato per chi lavora con Claude in ambiti avanzati di > sviluppo, analisi e automazione. -------------------------------------------------------------------------------- DEEPSEEK V3.1 La nuova versione DeepSeek-V3.1 segna un passaggio significativo nello sviluppo di modelli linguistici orientati agli agenti. Al centro di questo aggiornamento vi è l’introduzione dell’hybrid inference, una modalità che consente di utilizzare lo stesso modello in due configurazioni: “thinking”, con un ragionamento passo a passo adatto a compiti complessi e multi-step, e “non-thinking”, pensata per risposte più rapide e dirette. Questa duplice natura rappresenta un tentativo concreto di bilanciare velocità ed elaborazione profonda, in funzione del contesto applicativo. Vai alla documentazione L’aggiornamento delle API introduce due endpoint distinti, "deepseek-chat" e "deepseek-reasoner", entrambi con contesto a 128K token. Viene inoltre esteso il supporto a standard già diffusi come il formato Anthropic API e al function calling rigoroso, anche se in fase beta, con l’obiettivo di offrire una maggiore interoperabilità e un’esperienza di integrazione più stabile. DeepSeek V3.1: le performance Il modello mostra miglioramenti sostanziali nelle prestazioni: benchmark come SWE e Terminal-Bench evidenziano progressi nella risoluzione di compiti di programmazione e ambienti a riga di comando, mentre il ragionamento multi-step appare più efficiente e meglio strutturato. I token in output, ad esempio, sono molto inferiori rispetto al modello R1, con performance superiori. Questi progressi sono il risultato di un’estensione dell’addestramento con 840 miliardi di token, pensata per ampliare la gestione dei contesti lunghi e consolidare la robustezza del modello. Un aspetto centrale dell’uscita è la dimensione open source. DeepSeek ha reso disponibili su HuggingFace sia i pesi della versione base sia quelli ottimizzati, accompagnati da un nuovo tokenizer e da un template di chat aggiornato. Provalo subito > Questa scelta rafforza l’idea di un modello aperto non soltanto nell’utilizzo, > ma anche nella possibilità di studio, riuso e integrazione da parte della > comunità di ricerca e sviluppo. -------------------------------------------------------------------------------- 1000 RIGHE DI CODICE O UN PROMPT? > Ho scritto un prompt invece di 1000 righe di codice. Com'è andata? La settimana scorsa dovevo sviluppare una modifica abbastanza corposa in un sistema che sfrutta degli agenti AI per automatizzare dei processi. Ho fatto una prova: invece di sviluppare le implementazioni, ho investito un'ora di tempo per scrivere un prompt perfetto da dare in input a un LLM (Gemini 2.5 Pro). L'obiettivo: istruire un modello di AI a sviluppare al posto mio. Il prompt descriveva dettagliatamente le logiche della modifica, e anche direttive su come implementarla. Risultato: il codice generato è risultato subito funzionante, alla prima esecuzione. Dopo test approfonditi, ho apportato solo alcune ottimizzazioni per gestire qualche caso limite. Possiamo dire che, nel mio caso, si è spostato il focus, portandolo solo alla progettazione: l'implementazione è stata effettivamente realizzata dall'AI. > Ora il tema è: questa dinamica è per tutti? Secondo me, NO. Perché, per > ottenere un'implementazione perfetta, servono istituzioni perfette, degne di > un developer (o un analista). Che però deve anche saper creare un prompt > adeguato. > Quindi, hard skill sì, ma per accelerare con l'AI servono anche conoscenze > trasversali. Chi non è un developer, sarebbe riuscito a portare a termine lo stesso task? Secondo me, NO. Ma se mi sbagliassi, di certo non con la stessa efficienza. > L'AI può permettere di efficientare e rivoluzionare determinate dinamiche: > molti paradigmi stanno cambiando, e altri cambieranno. Ma nei processi più > verticali, le competenze contano sempre tantissimo. -------------------------------------------------------------------------------- CONTEXT ENGINEERING Anche Google, nella sua documentazione inizia a parlare (finalmente) di "context engineering", facendo riferimento a un post dal titolo "The New Skill in AI is Not Prompting, It's Context Engineering". The New Skill in AI is Not Prompting, It’s Context Engineering Context Engineering is the new skill in AI. It is about providing the right information and tools, in the right format, at the right time. Philipp SchmidPhilipp Schmid Il contenuto afferma che il vero potenziale dell’AI oggi non si sblocca scrivendo prompt migliori, ma ingegnerizzando il contesto. > Ma questo non riguarda l'OGGI.. è SEMPRE stato questo il nocciolo del > funzionamento di questi sistemi, da quando esistono i LLM! Nelle lezioni che tengo nell'Accademia di Search On Media Group, nelle università, e in altri ambiti, condivido questo aspetto da almeno due anni. Lo dico per sottolineare il fatto che le uniche novità di oggi sono i termini, nuove tecniche e nuovi protocolli, ma il concetto alla base rimane lo stesso. Comunque, è bene che se ne parli, perché è davvero importante comprenderlo. > Non basta "dire a un modello cosa fare". Bisogna "preparare il terreno": > fornire le informazioni, gli strumenti e il formato giusto, nel momento > giusto. Questo è il cuore del Context Engineering. OGNI AGENTE AI HA A BISOGNO DI.. * istruzioni chiare (prompt di sistema), * memoria delle interazioni precedenti (non necessariamente), * accesso a dati esterni, * strumenti da poter usare (funzioni, API, server MCP), * output strutturato. Il fallimento, spesso, non è del modello, ma del contesto. E costruire agenti intelligenti significa progettare sistemi dinamici che sappiano raccogliere e organizzare le informazioni necessarie per ogni singolo compito. Vai al post > Il Context Engineering è una competenza trasversale: tecnica, progettuale, > strategica. È qui che si gioca la vera differenza tra una demo e un prodotto > affidabile. -------------------------------------------------------------------------------- GEMINI 2.5 DEEP THINK Google ha rilasciato Gemini 2.5 Deep Think per gli abbonati Google AI Ultra, portando un nuovo livello di "reasoning" e problem-solving nell’intelligenza artificiale di Google. Gemini 2.5 Deep Think > Come stiamo vedendo da un po' di tempo ormai, la spinta sull'architettura è > una delle chiavi determinanti per l'aumento delle performance dei LLM. Deep Think si basa su tecniche di pensiero parallelo e tempi di ragionamento estesi, permettendo al modello di esplorare molteplici soluzioni contemporaneamente prima di generare una risposta. Questo approccio ha già portato il modello a ottenere risultati di eccellenza in competizioni matematiche internazionali e su benchmark di coding, scienza e conoscenza. Oltre alle sue capacità di risolvere problemi complessi, Deep Think si distingue per l’efficacia nel design iterativo, lo sviluppo di algoritmi e la ricerca scientifica avanzata. Vai al post Google afferma di mantenere centrale l'attenzione verso la sicurezza e l’affidabilità, con valutazioni continue sui rischi e trasparenza garantita dalla model card del modello. -------------------------------------------------------------------------------- ESSERE O NON ESSERE SU SHOPIFY? > Leggere bene: c'è confusione online. Shopify sta per potenziare lo shopping tramite AI con "Agentic Commerce", un sistema che integra l'acquisto di prodotti direttamente all'interno di servizi basati su agenti. Disambiguazione: i server MCP dei singoli e-commerce non hanno nulla a che vedere con questa novità. Agentic Commerce collega gli agenti a un catalogo globale di centinaia di milioni di prodotti, permettendo la gestione di un carrello universale e un'esperienza di checkout nativa. In questo modo, la piattaforma che ospita l'agente può aggiungere funzionalità di e-commerce senza doversi occupare della gestione diretta dell'inventario, dei pagamenti o della conformità normativa. Agentic Commerce di Shopify IL SERVIZIO SI BASA SU TRE STRUMENTI CHIAVE * Shopify Catalog: fornisce agli agenti l'accesso per la ricerca su centinaia di milioni di prodotti, con dati su inventario e prezzi. I prodotti con lo stesso SKU vengono raggruppati sotto un "Universal Product ID". I risultati della ricerca vengono forniti tramite componenti web pre-costruiti che possono essere personalizzati graficamente e per gestire strutture come bundle, abbonamenti e varianti di prodotto. Ogni interazione dell'utente con questi componenti (es. un clic) viene comunicata all'agente come un "intent", assicurando che l'agente sia sempre consapevole e in controllo del flusso interattivo. * Universal Cart: un carrello che permette di aggregare articoli provenienti da merchant diversi. Può persistere attraverso più sessioni di conversazione, consentendo all'agente di gestire compiti di acquisto complessi che si sviluppano nel tempo. * Checkout Kit: permette di integrare il flusso di pagamento direttamente nell'agente, caricando il checkout del singolo merchant con tutte le sue personalizzazioni, ma applicando il branding dell'agente per un'esperienza nativa e coerente. Un esempio concreto: un servizio di consulenza per il running integra un agente che, su richiesta dell’utente, cerca “scarpe da corsa ammortizzate” e “pantaloni tecnici leggeri”. L’agente recupera i risultati dal catalogo Shopify e li presenta in schede interattive. L'utente può aggiungere le scarpe di un negozio e i pantaloni di un altro nello stesso carrello. Infine, completa i due acquisti attraverso un unico flusso di checkout integrato, che mantiene l'aspetto dell'agente pur processando gli ordini con i singoli merchant. Vai alla documentazione > Quanto conterà ottimizzare le schede prodotto per migliorare la pertinenza > semantica con le query degli utenti? La visibilità nei nuovi canali di ricerca > e acquisto passerà anche per sistemi di questo tipo? -------------------------------------------------------------------------------- PERTINENZA E RILEVANZA In ambito di Search (es. motori di ricerca o sistemi RAG) si parla spesso di "pertinenza". Negli ultimi mesi ho studiato l'argomento, e condivido alcuni spunti che mi hanno affascinato. Credo che comprendere questi concetti, proprio ora che la ricerca si sta espandendo ed evolve grazie all’AI, sia davvero fondamentale. Terminologia. Se intendiamo misurare la capacità di un testo di rispondere al bisogno informativo espresso da una query, il termine corretto è "rilevanza contestuale" (contextual relevance). "Pertinenza" indica invece soltanto un'attinenza semantica all’argomento. Modelli d'AI diversi possono misurare la rilevanza contestuale in modo diverso. I "Reranker" sono modelli dedicati a questa misurazione. Nei miei test (vedi immagini) confronto il coefficiente di rilevanza di un testo per una query misurato con due reranker. Il secondo è quello di Google (semantic-ranker, disponibile su Vertex AI, Google Cloud). Rilevanza contestuale misurata da due diversi Reranker Come si vede, l’indice di rilevanza è diverso, pur essendo i testi molto simili. Qual è quello giusto? In realtà non esiste un dato giusto o sbagliato di rilevanza… > è un po’ come chiedere a due esperti diversi, entrambi estremamente competenti > ma con esperienze differenti, di classificare gli stessi testi. Questo dipende dal fatto che i modelli hanno architetture diverse (ad esempio, alcuni usano la logica dei cross-encoder, che leggono query e documento insieme e ne valutano ogni interazione parola per parola, con grande precisione), e sono addestrati su dataset diversi che li portano a pesare le relazioni testuali in modo differente. > Non è esplicitato nella documentazione, ma vista la qualità dei risultati è > plausibile che Google abbia addestrato il suo modello su una quantità enorme > di dati proprietari, forse anche arricchiti da segnali derivanti dalle > ricerche web. Questo rende il modello particolarmente sintonizzato nel > comprendere l’intento dell’utente e la qualità dell’informazione. Per questo, nella nuova versione del mio software multi-agente dedicato all’ottimizzazione delle risposte per AI Overviews, ho scelto di integrare il Reranker di Google: il miglioramento ottenuto è stato notevole. AI Overview Content Strategist Agent V7 Il sistema di Google, inoltre, è molto più di un’API di reranking: è una vera e propria piattaforma di ricerca personalizzabile. Permette infatti di gestire la Ranking Configuration, ovvero regole che definiscono le logiche di ranking. > In un e-commerce, ad esempio, si può aumentare il peso dei prodotti in saldo, > oppure penalizzare quelli in esaurimento o con recensioni negative. -------------------------------------------------------------------------------- NOTEBOOKLM: VIDEO OVERVIEWS IN ITALIANO Anche se la nota su NotebookLM indica il funzionamento delle Video Overviews solo in inglese, in realtà produce video anche in italiano. Quello che segue è un esempio di trasformazione di un libro tecnico, ovvero "The Little Book of Deep Learning" di François Fleuret in una video pillola che spiega in modo semplice il funzionamento dei modelli di Deep Learning. Chiaramente è il mio prompt che ha richiesto un output di questo tipo, ma si potrebbe ottenere un video più tecnico, o di un preciso concetto espresso dal libro. Oppure una serie di video che lo spiegano in diverse lezioni. NotebookLM: Video Overviews in italiano > È perfetto? NO. Ma credo che sia solo l'inizio di nuove modalità di studio e > apprendimento, che aprono la porta a grandi opportunità, che vanno ad > abbattere diverse barriere. -------------------------------------------------------------------------------- LA SFIDA TRA I BIG DELL'AI È ANCHE.. OPEN SOURCE La corsa tra i top player dell’AI passa anche dall’open source. Vediamo alcuni rilasci interessanti. GPT-OSS DI OPENAI OpenAI ha rilasciato i suoi primi modelli open-weight dopo GPT-2: si chiamano gpt-oss-120b e gpt-oss-20b, e rappresentano un grande passo verso un'AI più trasparente e accessibile. Il modello di punta, gpt-oss-120b, conta 117 miliardi di parametri ed è progettato per funzionare su una singola GPU H100 (80GB). La versione più leggera, gpt-oss-20b, può invece girare anche su hardware consumer con almeno 16GB di RAM. Provali subito Ho provato la versione 120b (con reasoning) su diversi task. I risultati sono molto interessanti, anche se la concorrenza su questo tipo di modelli è ormai altissima. Ma i test sui benchmark che seguono non lasciano spazio all'immaginazione. Entrambi i modelli sono basati su un’architettura Mixture-of-Experts (MoE) e sfruttano la quantizzazione MXFP4 per ottenere performance elevate con consumi ottimizzati. Sono compatibili con stack diffusi come Transformers, vLLM, Ollama e LM Studio, e distribuiti sotto licenza Apache 2.0, quindi adatti anche ad uso commerciale. Dal punto di vista delle capacità, i modelli offrono.. * Reasoning configurabile (low, medium, high) per adattarsi a diversi casi d’uso e livelli di latenza. * Chain-of-thought completo, utile per debug e trasparenza. * Supporto nativo per instruction following, code generation, function calling, e persino strumenti integrati per il web browsing e l’esecuzione di codice Python. L’output utilizza il nuovo formato Harmony di OpenAI, che garantisce compatibilità con vari strumenti open-source. I modelli su Hugging Face Le performance sui benchmark parlano chiaro.. * gpt-oss-120b raggiunge 90.0% su MMLU, 2622 su Codeforces, 80.1% su GPQA Diamond. * gpt-oss-20b tocca 85.3% su MMLU, 2516 su Codeforces, 71.5% su GPQA Diamond. * Si posizionano così allo stesso livello dei modelli proprietari più avanzati, superando molte delle alternative open-source esistenti, come DeepSeek R1 e Qwen. Entrambi i modelli sono "fine-tunabili" e pronti per essere integrati in flussi agentici o produttivi. Vai al post > OpenAI entra in maniera robusta nel mercato dei modelli aperti. L'obiettivo? > Probabilmente diventare il riferimento per i LLM su ogni piano di utilizzo. > Ma, anche qui, incrocia sempre Google, con Gemini e Gemma. Quello che si vede nelle immagini che seguono è il modello gpt-oss (20b) che funziona in locale nel mio laptop attraverso Ollama. gpt-oss (20b) in locale attraverso Ollama Ho eseguito diversi test, e devo dire che, considerando le dimensioni del modello, i risultati ottenuti sono ben oltre le aspettative. Con questa qualità a disposizione in locale, si possono creare applicazioni di altissimo livello. Ovviamente con architetture più evolute del mio PC e con modelli anche più grandi, ad esempio la versione 120b. Ho provato il modello anche con il tool di web search, con un contesto in input esteso, e nella generazione di output strutturati. > Da notare anche la nuova interfaccia grafica di Ollama: davvero comoda come > alternativa alla console o a librerie esterne di visualizzazione. GROK 2.5 DI XAI xAI ha reso disponibile Grok 2.5, il suo modello di punta del 2024 con ben 270 miliardi di parametri, rilasciandone i pesi completi per l’esecuzione in locale su setup multi-GPU. xai-org/grok-2 · Hugging Face We’re on a journey to advance and democratize artificial intelligence through open source and open science. L’apertura permette a sviluppatori e ricercatori di esplorare scelte architetturali, testare l’efficienza in scenari reali e affrontare le sfide di interpretabilità dei sistemi Mixture of Experts. Grok 2.5 si distingue per il design con “esperto condiviso”: un esperto sempre attivo e altri attivati dinamicamente, così da ridurre i costi di inferenza. Pur essendo enorme, per ogni token vengono impiegati circa 62 miliardi di parametri, bilanciando potenza ed efficienza. Il modello è disponibile su Hugging Face (circa 500 GB, 42 file) con istruzioni precise: inferenza tramite SGLang v0.5.1+, tensor parallelism su 8 GPU e un template dedicato per gestire correttamente i checkpoint. La licenza è aperta sia per ricerca sia per uso commerciale, purché si rispetti l’Acceptable Use Policy di xAI. Non è però consentito addestrare nuovi foundation model, se non effettuando fine-tuning di Grok 2 stesso. Gli output generati dal modello restano completamente liberi da vincoli. -------------------------------------------------------------------------------- GEMINI O GOOGLE SEARCH? > La differenza si assottiglia.. gli utenti saranno in grado di "digerire" un > cambio di paradigma di questo genere, e così rapido? La modalità AI di Google Search (AI Mode), infatti, introduce nuove funzionalità di ricerca avanzata. Sarà possibile caricare PDF e immagini da desktop per porre domande complesse e ricevere risposte approfondite, arricchite da link utili. Con la funzione Canvas, gli utenti potranno creare piani di studio o organizzare progetti all’interno di un pannello interattivo che si aggiorna nel tempo. 0:00 /0:28 1× Le nuove funzionalità di AI Mode di Google Search Live consentirà di interagire con l’AI in tempo reale tramite videocamera, offrendo supporto visivo immediato su concetti complessi. Su Chrome, una nuova opzione permetterà di chiedere spiegazioni direttamente sulla pagina visualizzata, ottenendo un riepilogo AI e suggerimenti per approfondire. Vai al post -------------------------------------------------------------------------------- L'EVOLUZIONE DELL'AI MODE Google sta portando nuove funzionalità agentiche e personalizzate all’interno di AI Mode in Search, rendendola ancora più utile per completare attività complesse. > E mettendo sempre in evidenza l'enorme potenziale derivante dall'integrazione > di dati e servizi di un ecosistema sterminato. Ora è possibile, ad esempio, trovare e prenotare un ristorante direttamente dalla Ricerca, con l’AI che gestisce vincoli come orario, numero di persone, tipo di cucina e posizione, cercando disponibilità in tempo reale su piattaforme come OpenTable, Resy e Tock. 0:00 /0:28 1× L'evoluzione dell'AI Mode Presto queste funzionalità si estenderanno anche ad appuntamenti con servizi locali e acquisto di biglietti per eventi, grazie all’integrazione con partner come Ticketmaster, StubHub e Booksy. L’esperienza è alimentata dalle capacità di navigazione web live di Project Mariner, dal Knowledge Graph e da Google Maps. AI Mode diventa anche più personale: negli Stati Uniti, chi partecipa all’esperimento Labs può ricevere suggerimenti su misura per i propri gusti, come locali preferiti o ricerche passate, mantenendo sempre il controllo sulla condivisione dei dati tramite le impostazioni dell’account Google. Infine, arriva una nuova funzione di condivisione: è ora possibile condividere una risposta dell’AI con amici o familiari tramite link, per collaborare facilmente su attività come l’organizzazione di viaggi o cene di gruppo. AI Mode è disponibile in inglese in oltre 180 nuovi paesi e territori. Vai al post -------------------------------------------------------------------------------- L'EDITING FOTOGRAFICO IN GOOGLE PHOTOS Google ha presentato una nuova funzione di editing fotografico in Google Photos che permette di modificare le immagini semplicemente descrivendo gli interventi desiderati, attraverso prompt testuali o vocali. 0:00 /0:10 1× L'editing fotografico in Google Photos La tecnologia si basa sui modelli Gemini, capaci di interpretare il linguaggio naturale e tradurlo in operazioni di fotoritocco senza richiedere la selezione di strumenti o parametri. L’utente può chiedere modifiche "semplici", come la correzione della luce o la rimozione di elementi indesiderati, oppure trasformazioni più complesse e creative, come il cambio di sfondo o l’aggiunta di oggetti. > Questo approccio rende il processo di editing accessibile anche a chi non ha > competenze tecniche, ampliando le possibilità di utilizzo quotidiano. Per garantire maggiore trasparenza, le immagini modificate con l’intelligenza artificiale saranno accompagnate dai C2PA Content Credentials, che indicano in che modo sono state realizzate o modificate. La novità debutta inizialmente sui Pixel 10 negli Stati Uniti, con una distribuzione progressiva anche su altri dispositivi Android e iOS. Vai al post > Considerando anche il lavoro di altri player e i progressi dei modelli open, > diventa sempre più chiara la direzione dell'editing fotografico per gli utenti > non esperti e nei dispositivi mobile. -------------------------------------------------------------------------------- GEMINI NANO IN LOCALE SU CHROME Quello che si vede nelle immagini è un esempio di utilizzo delle API di Gemini Nano, che funzionano direttamente all'interno di Chrome (nel mio laptop). > Lo script Javascript che ho creato, mette in una variabile il contenuto del > post nella pagina web, e imposta un prompt per generarne la sintesi. > L'output del modello viene stampato nella console, e anche iniettato nella > pagina web. Gemini Nano in locale su Chrome Grazie a questa possibilità, le pagine web e le web app possono accedere a funzionalità avanzate di intelligenza artificiale direttamente sul dispositivo dell’utente, senza dover ricorrere a server esterni. Le API già usabili su Chrome, oltre a offrire la possibilità di creare prompt custom (come nel mio esempio) mettono a disposizione funzioni pre-impostate per riassumere, tradurre e rilevare automaticamente la lingua di un testo, inoltre danno il supporto alle estensioni tramite una Prompt API locale. In fase di test, ci sono anche API per generare, riformulare e correggere testi, con particolare attenzione alla qualità linguistica. Tutto avviene sul dispositivo, offrendo significativi vantaggi in termini di privacy, prestazioni e reattività. I dati non lasciano mai il device, una scelta cruciale per scenari ad alta sensibilità come scuola, pubblica amministrazione o grandi aziende. Vai alla documentazione > Questo approccio client-side consente anche l’utilizzo dell’AI offline, riduce > i costi di infrastruttura e rende scalabili funzionalità avanzate su larga > scala. -------------------------------------------------------------------------------- URL CONTEXT NELL'API DI GEMINI Ancora una volta Google, in ambito AI, mette in mostra il vantaggio che deriva dal suo ecosistema con l'integrazione di "URL context" nell'API di Gemini. Questa funzionalità consente ai modelli di arricchire le risposte attingendo direttamente ai contenuti delle pagine web indicate. "URL context" sull'API di Gemini Il cuore del sistema è il processo di recupero in due passaggi: prima viene interrogata una cache dell'indice interno, che garantisce rapidità e contenimento dei costi; se la pagina non è presente, entra in gioco un recupero in tempo reale che accede direttamente all’URL per portare nel modello dati freschi e aggiornati. > In questo modo si bilanciano velocità, efficienza e accesso a informazioni > sempre attuali. La potenza cresce ulteriormente quando "URL context" viene combinato con il grounding tramite Google Search: il modello può prima ampliare lo spettro informativo con la ricerca, poi analizzare nel dettaglio pagine specifiche recuperate via URL. Vai alla documentazione > E con queste funzionalità si elimina la necessità di integrare tool esterni > per scraping e search. -------------------------------------------------------------------------------- ACTIVE LEARNING DI GOOGLE Google ha sviluppato un metodo di "active learning" che riduce fino a 10.000× i dati necessari per fare fine-tuning di LLM, mantenendo o migliorando la qualità del modello. Invece di etichettare centinaia di migliaia di esempi tramite crowdsourcing, un LLM “esploratore” filtra miliardi di contenuti e seleziona solo i pochi casi al confine decisionale che confondono il modello. Questi vengono etichettati da esperti con altissima coerenza e usati per iterare l’addestramento. > Con questo approccio bastano 250–450 esempi per ottenere le stesse prestazioni > di modelli addestrati su 100.000 etichette crowdsourced. Active Learning di Google Nei test con Gemini Nano-2 (3,25 miliardi di parametri), l’allineamento modello-esperti è migliorato del 55%–65% rispetto alla baseline, usando tre ordini di grandezza in meno dati. Vai al paper Il risultato: meno costi, aggiornamenti rapidi quando cambiano policy o pattern di abuso, maggiore robustezza in dataset sbilanciati e capacità di adattarsi velocemente a nuovi scenari. -------------------------------------------------------------------------------- QWEN-IMAGE E QWEN-IMAGE-EDIT Alibaba presenta Qwen-Image, il nuovo generatore di immagini open source capace di integrare testo con precisione, anche in layout complessi. L'ho provato. Le immagini che seguono sono state generate dal modello, in alcuni casi con prompt articolati e precisi. Per quanto riguarda il rendering dei testi, funziona abbastanza bene in lingua inglese (e cinese), ma in altre lingue non è il massimo. Qwen-Image: un test Basato su miliardi di coppie immagine-testo e un addestramento curriculare, combina il modello multimodale Qwen2.5-VL, un VAE Encoder/Decoder per dettagli nitidi e il backbone MMDiT con allineamento spaziale avanzato. Risultato: performance che eguagliano o superano modelli chiusi come GPT Image-1 e Seedream 3.0. Vai al post Licenza Apache 2.0, architettura modulare, strumenti di image-to-image editing e generazione di dataset sintetici di alta qualità lo rendono una soluzione strategica per aziende e creativi. Qwen-Image-Edit è un modello basato su Qwen-Image 20B, dedicato all'editing avanzato delle immagini. La sua forza sta nel combinare controllo semantico (cosa rappresenta l'immagine) e controllo visivo (come appare), grazie all'integrazione con Qwen2.5-VL e un encoder VAE. Un test di Qwen-Image-Edit Permette.. * la modifica di testi (per ora inglese e cinese), mantenendo font, dimensioni e stile originale; * l’editing semantico ad alto livello: rotazione degli oggetti, creazione di contenuti originali, trasferimento di stile; * l’editing visivo a basso livello: aggiunta, rimozione o modifica di oggetti senza alterare il contesto. Provalo subito -------------------------------------------------------------------------------- LA DEEP RESEARCH DI QWEN Ho provato la nuova Deep Research di Qwen. Si tratta di un AI Agent in grado di compiere una ricerca approfondita sulla tematica richiesta nel prompt. Ancora una volta, siamo di fronte a un sistema molto interessante. Provala subito Il task che ho sottoposto all'agent nel test è molto dettagliato. Il modello genera delle domande di chiarimento iniziali, e successivamente avvia il processo. La Deep Research di Qwen > Dopo circa 10 minuti ho ottenuto un'ottima analisi di partenza, con tabelle > prodotte attraverso elaborazioni Python e il PDF da scaricare. -------------------------------------------------------------------------------- LANGEXTRACT DI GOOGLE Google ha rilasciato LangExtract, una libreria Python open-source che trasforma testo non strutturato in dati strutturati grazie ai modelli LLM della famiglia Gemini. Il sistema unisce estrazione controllata, grounding preciso (con collegamento diretto al testo sorgente) e visualizzazione interattiva in HTML. È adatto a domini come medicina, diritto, narrativa o finanza, e non richiede fine-tuning: basta definire il task e fornire esempi “few-shot”. 0:00 /0:26 1× LangExtract di Google La libreria gestisce anche testi lunghi tramite chunking, parallelismo e passaggi multipli, mantenendo alta accuratezza. Funziona sia con modelli cloud (Gemini) che locali (via Ollama). Vai al progetto Su GitHub si trovano esempi completi (Romeo e Giulietta, estrazione di farmaci, referti radiologici) e la guida all’installazione. -------------------------------------------------------------------------------- GENIE 3 DeepMind ha presentato Genie 3, un modello del mondo generativo capace di creare ambienti interattivi incredibilmente realistici a partire da semplici prompt testuali. Dalla simulazione di fenomeni naturali come lava e fiumi, fino alla creazione di creature fantastiche in scenari immaginari, Genie 3 apre nuove frontiere per la ricerca sull'AI. Genie 3 - Google DeepMind Il modello è progettato per mantenere coerenza visiva e fisica su lunghi orizzonti temporali, rendendolo ideale per addestrare agenti autonomi in ambienti dinamici. Supporta eventi generati via testo, modificando in tempo reale condizioni atmosferiche, oggetti e personaggi. A differenza di tecniche basate su rappresentazioni 3D esplicite, Genie 3 genera mondi frame per frame, offrendo maggiore flessibilità e immersione. È già compatibile con agenti come SIMA, dimostrando il suo potenziale per l’apprendimento simulato. Vai al post > Attualmente disponibile in preview limitata, rappresenta un passo avanti verso > l’integrazione di AI generativa e ambienti simulati per applicazioni in > formazione, creatività e ricerca. -------------------------------------------------------------------------------- DINOV3 DI META > Meta ha presentato DINOv3, un nuovo modello di visione artificiale che segna > un punto di svolta nell’apprendimento auto-supervisionato (SSL). Per la prima volta, un backbone visivo addestrato senza etichette supera soluzioni supervisionate e weakly-supervised in una vasta gamma di compiti, dalle classificazioni globali alla segmentazione semantica, fino alla stima della profondità. > In pratica significa che il modello impara a “capire” le immagini da solo, > senza bisogno di descrizioni o annotazioni create da esseri umani. 0:00 /1:26 1× DINOv3 di Meta L’innovazione principale è l’introduzione di "Gram anchoring", una tecnica che mantiene stabili e coerenti le rappresentazioni visive anche durante addestramenti molto lunghi e su modelli enormi. In parole semplici, serve a evitare che il modello “perda la bussola” man mano che diventa più complesso. Unita a un’architettura ViT-7B da 7 miliardi di parametri e a un dataset curato di 1,7 miliardi di immagini, questa soluzione permette di generare rappresentazioni visive ad altissima risoluzione, nitide e precise. Un’altra svolta è la capacità di ottenere prestazioni allo stato dell’arte senza fine-tuning. Ciò vuol dire che il modello, così com’è, può già essere usato per tanti compiti diversi senza dover essere riaddestrato ogni volta. Questo fa risparmiare tempo e potenza di calcolo. In più, grazie a un processo chiamato multi-student distillation, la potenza del modello gigante viene “compressa” e trasferita in versioni più leggere. Così si possono avere modelli più piccoli, veloci e facili da usare, senza perdere troppa qualità. Vai al paper L’impatto è già concreto: con immagini satellitari, DINOv3 ha ridotto drasticamente l’errore nella stima dell’altezza degli alberi, aiutando il monitoraggio ambientale e la lotta alla deforestazione. Lo stesso approccio può supportare la robotica spaziale, l’imaging medico e i sistemi autonomi. > Con DINOv3, l’apprendimento auto-supervisionato per la visione compie un salto > di scala e qualità, aprendo la strada a un backbone universale capace di > comprendere il mondo visivo in modo più accurato, efficiente e > generalizzabile. -------------------------------------------------------------------------------- 3D-R1: POTENZIA IL RAGIONAMENTO NEI VISION-LANGUAGE MODELS 3D 3D-R1 è un modello generalista open-source che potenzia il ragionamento nei Vision-Language Models 3D per una comprensione unificata delle scene tridimensionali. Supera i limiti dei VLM tradizionali grazie a un nuovo dataset sintetico (Scene-30K), tecniche di Reinforcement Learning con feedback umano (RLHF) e una strategia dinamica di selezione delle viste. 0:00 /0:30 1× 3D-R1: potenzia il ragionamento nei Vision-Language Models 3D Costruito con Chain-of-Thought e Gemini 2.5 Pro, consente un'inizializzazione efficace del modello. Il training è potenziato da ricompense multiple (percezione, similarità semantica, formato), migliorando coerenza e precisione delle risposte. > 3D-R1 raggiunge un incremento medio del 10% nei benchmark 3D, mostrando forti > capacità zero-shot in captioning, grounding, dialoghi, QA, pianificazione e > ragionamento in ambienti 3D. Vai al progetto Architettura modulare, addestramento SFT su Scene-30K, supporto a PointNet++, compatibilità con Qwen2.5-VL-7B e Hugging Face: tutto ciò rende 3D-R1 uno strumento potente per la nuova generazione di AI spaziale. -------------------------------------------------------------------------------- OPENCUA: FRAMEWORK OPEN SOURCE PER L'USO DEL COMPUTER DA PARTE DI AI AGENT (CUA) Un framework completamente open source apre nuove prospettive per gli agenti di uso del computer (CUA). OpenCUA mette a disposizione un ecosistema completo: strumenti di annotazione per raccogliere interazioni reali, un dataset di 22.6K traiettorie su Windows, macOS e Ubuntu e benchmark dedicati per valutare in modo rapido e trasparente le capacità degli agenti. La pipeline trasforma dimostrazioni umane in coppie stato–azione arricchite da ragionamenti riflessivi e catene di pensiero lunghe, che aiutano i modelli a pianificare meglio, mantenere memoria del contesto e correggere gli errori. OpenCUA: il paper e le performance Grazie a questa ricetta di training, il modello di punta OpenCUA-32B raggiunge un tasso di successo del 34.8% su OSWorld-Verified, superando GPT-4o (OpenAI CUA) e stabilendo il nuovo stato dell’arte tra i modelli open source. Vai al paper > Un risultato che dimostra come dati diversificati, reasoning strutturato e > apertura delle risorse possano accelerare lo sviluppo di agenti capaci di > interagire in modo sempre più efficace con i nostri ambienti digitali. -------------------------------------------------------------------------------- STORYBOOK: NUOVA FUNZIONALITÀ PER GEMINI L'app di Gemini introduce una nuova funzionalità: lo storybook. Si tratta di un sistema che permette di creare un vero e proprio "libro" personalizzato attraverso un prompt multimodale. Nell'esempio, ho caricato l'immagine di un robottino e ho chiesto una storia per bambini, con qualche indicazione sulla trama. Il modello mi ha fatto alcune domande per migliorare le caratteristiche dell'obiettivo (es. l'età del pubblico è il tipo di illustrazioni). Storybook su Gemini: un esempio Il risultato è un piccolo storybook, con anche la funzionalità di lettura automatica. > L'esempio forse sembra banale, ma applicato la contesto dell'apprendimento di > concetti di qualunque genere, potrebbe essere molto interessante. -------------------------------------------------------------------------------- L'APPRENDIMENTO GUIDATO SU GEMINI Dopo la modalità "Studia e impara" di OpenAI su ChatGPT, Google segue con "Apprendimento guidato" nell'app di Gemini. L'ho provato per studiare il Teorema di Pitagora, e il processo che propone la funzionalità è molto interessante. Anche se la visualizzazione interattiva che ho ottenuto da GPT-5 è molto più accattivante. "Apprendimento guidato" nell'app di Gemini Non si tratta più solo di ottenere risposte, ma di costruire una comprensione profonda, passo dopo passo. Grazie a domande aperte, spiegazioni adattive e contenuti multimediali come video, immagini e quiz interattivi, Guided Learning trasforma l'AI in un vero compagno di studio. Basato su LearnLM, una famiglia di modelli sviluppati con esperti di pedagogia, neuroscienze e scienze cognitive, questo strumento mette al centro la partecipazione attiva e l’apprendimento costruttivo. È pensato sia per chi studia da solo, sia per supportare gli insegnanti in aula con risorse integrabili direttamente in Google Classroom. Vai al post > Ogni studente può esplorare argomenti in un ambiente sicuro e stimolante, > imparando al proprio ritmo, con l’AI al servizio della comprensione, non della > velocità. -------------------------------------------------------------------------------- SISTEMI NEURO-SIMBOLICI: SEED-GEOMETRY Ancora un passo avanti in ambito di sistemi neuro-simbolici: il nuovo Seed-Geometry, sviluppato da ByteDance Seed AI4Math, ha ufficialmente superato AlphaGeometry 2 nei benchmark di geometria delle Olimpiadi Matematiche Internazionali. Seed-Prover: Deep and Broad Reasoning for Automated Theorem Proving LLMs have demonstrated strong mathematical reasoning abilities by leveraging reinforcement learning with long chain-of-thought, yet they continue to struggle with theorem proving due to the lack of clear supervision signals when solely using natural language. Dedicated domain-specific languages like Lean provide clear supervision via formal verification of proofs, enabling effective training through reinforcement learning. In this work, we propose \textbf{Seed-Prover}, a lemma-style whole-proof reasoning model. Seed-Prover can iteratively refine its proof based on Lean feedback, proved lemmas, and self-summarization. To solve IMO-level contest problems, we design three test-time inference strategies that enable both deep and broad reasoning. Seed-Prover proves $78.1\%$ of formalized past IMO problems, saturates MiniF2F, and achieves over 50\% on PutnamBench, outperforming the previous state-of-the-art by a large margin. To address the lack of geometry support in Lean, we introduce a geometry reasoning engine \textbf{Seed-Geometry}, which outperforms previous formal geometry engines. We use these two systems to participate in IMO 2025 and fully prove 5 out of 6 problems. This work represents a significant advancement in automated mathematical reasoning, demonstrating the effectiveness of formal verification with long chain-of-thought reasoning. arXiv.orgLuoxin Chen > Su 50 problemi IMO di geometria dal 2000 al 2024, Seed-Geometry ne ha risolti > 43, rispetto ai 42 di AlphaGeometry 2. Ancora più significativo il risultato > sulle shortlist dei problemi più difficili: 22 soluzioni su 39 per > Seed-Geometry contro le 19 di AlphaGeometry 2. Questo avanzamento è stato possibile grazie a un motore di ragionamento simbolico ultra-veloce, una rappresentazione più compatta delle costruzioni geometriche e un’integrazione efficiente con modelli neurali specializzati. Seed-Geometry non solo accelera la ricerca automatica di soluzioni, ma stabilisce un nuovo standard nella formalizzazione matematica automatica, confermando la centralità dell’approccio neuro-simbolico nell’AI matematica di frontiera. > I sistemi neuro-simbolici rappresentano oggi la convergenza tra la potenza di > generalizzazione delle reti neurali e la precisione del ragionamento logico > formale. Questa sinergia non solo apre la strada a soluzioni più efficaci e > verificabili nei domini complessi come la matematica, ma segna anche un cambio > di paradigma nell’intelligenza artificiale: dalla semplice previsione, verso > la comprensione e la spiegabilità profonda dei problemi. -------------------------------------------------------------------------------- PERSONAL SUPERINTELLIGENCE - META Zuckerberg ha pubblicato un post per condividere la visione di Meta sul futuro dell'AI e della superintelligenza. Non si parla solo di efficienza o automazione, ma di un nuovo paradigma centrato sull’individuo. Vai al post Negli ultimi anni l’intelligenza artificiale ha compiuto progressi significativi, ma ora Meta guarda oltre: verso lo sviluppo di una superintelligenza personale. Si tratta di sistemi AI in grado di comprendere a fondo le esigenze, gli obiettivi e i contesti quotidiani delle persone, offrendo supporto continuo e mirato. Secondo Meta, la superintelligenza non dovrebbe essere gestita in modo centralizzato con l’obiettivo di sostituire il lavoro umano. Al contrario, dovrebbe essere uno strumento distribuito, a disposizione di ciascuno, per aumentare le capacità personali, stimolare la creatività e favorire la crescita individuale. Per realizzare questa visione, l’azienda sta sviluppando dispositivi intelligenti – come occhiali in grado di percepire l’ambiente visivo e sonoro – che fungeranno da interfaccia primaria per interagire con l’AI in modo più naturale e contestuale. > Mark, per quanto riguarda la "sfera individuale" comprendo la visione. Anche > perché non puoi dire il contrario. Ma in ambito lavorativo, questi sistemi > verranno usati proprio per aumentare l'efficienza e l'automazione. Zuckerberg sottolinea che il decennio in corso sarà decisivo per determinare la direzione che prenderà questa tecnologia: se sarà una leva di empowerment individuale o uno strumento di sostituzione sistemica. Meta si impegna per la prima opzione, investendo risorse e infrastrutture per portare la superintelligenza personale a miliardi di persone. Infine, il post affronta anche la questione dell’open source. Pur riconoscendo il valore della condivisione, Meta adotta un approccio cauto: non tutto potrà essere reso pubblico, specialmente in considerazione dei potenziali rischi legati alla sicurezza. L’obiettivo resta comunque quello di garantire un accesso il più ampio possibile ai benefici generati dalla tecnologia. > Meta intende così aprire un nuovo capitolo tecnologico, in cui la > superintelligenza non è un'entità astratta, ma una risorsa personale al > servizio dell’autonomia, della creatività e del progresso umano. -------------------------------------------------------------------------------- È POSSIBILE CHE NON RAGGIUNGEREMO L’AGI? In una recente intervista con Emily Chang, Sundar Pichai ha parlato di AGI, l’intelligenza artificiale generale con capacità cognitive paragonabili a quelle umane. Alla domanda diretta "È possibile che non raggiungeremo l’AGI?", Pichai ha riconosciuto che è "del tutto possibile" che, CON GLI APPROCCI ATTUALI, non si arrivi a quel traguardo, spiegando che il progresso tecnologico può incontrare dei "plateau", ovvero dei momenti in cui lo sviluppo rallenta o si ferma a causa di limiti intrinseci. Emily Chang intervista Sundar Pichai Pur con questa incertezza, ha sottolineato che il ritmo di avanzamento dell'AI oggi è "sbalorditivo" e che i modelli attuali stanno già dimostrando capacità straordinarie. Per spiegare la distanza tra l’AI attuale e l’AGI, ha usato un’analogia: un ragazzo può imparare a guidare in circa 20 ore, ma a Waymo sono serviti oltre 10 anni di sviluppo per avvicinarsi alla perfezione, senza raggiungerla pienamente. Compiti che per gli esseri umani sono intuitivi e guidati dal buon senso risultano estremamente complessi per un’AI. > Pichai descrive così una doppia natura: un’AI capace di risultati eccezionali > in contesti specifici, ma ancora lontana dalla flessibilità, dal ragionamento > e dalla comprensione del mondo tipici dell’intelligenza umana. Un approccio di > cauto ottimismo, che riconosce al tempo stesso il potenziale e le sfide ancora > da affrontare. -------------------------------------------------------------------------------- QUANTO CONSUMA EFFETTIVAMENTE L'AI? > Ne abbiamo lette e sentite di ogni tipo, su articoli improbabili, con titoli > assurdi per produrre clic. Oggi Google risponde con un report dei consumi che sta registrando. Però ho una considerazione da fare sulla metodologia di interpretazione che hanno usato. Il report di Google sui consumi dell'AI COSA DICE IL REPORT? Google ha misurato per la prima volta in produzione l’impatto ambientale del suo modello Gemini. Il risultato? > Un prompt testuale consuma 0,24 Wh (meno di 9 secondi di TV), emette 0,03 g di > CO2e, e usa 0,26 ml d’acqua (circa 5 gocce). Numeri molto più bassi di molte stime circolate negli ultimi mesi. Il report mostra anche i progressi di efficienza: nell’arco di un anno Google ha ridotto del 44× le emissioni per prompt grazie a modelli più snelli, hardware co-progettato (TPU), data center ultra-efficienti (PUE 1,09) e acquisti di energia rinnovabile. Un segnale forte: l’ottimizzazione dell’intera catena (modello, hardware, software, data center, energia) può ridurre drasticamente l’impatto. LA MIA CONSIDERAZIONE SULLA METODOLOGIA Google sceglie di comunicare i valori mediani dei consumi. È una scelta sensata per descrivere l’esperienza dell’utente “tipico”, e viene spiegato chiaramente nel documento. Ma il consumo totale dipende dalla media: se alcuni prompt sono molto più lunghi o complessi, alzano la media senza spostare troppo la mediana. In distribuzioni sbilanciate a destra, come quelle degli LLM, la media è quindi significativamente più alta. Tradotto: dire "un prompt consuma 0,24 Wh" è vero per l’uso comune, ma non racconta quanto pesa davvero l’insieme di tutti i prompt, dove pochi casi estremi bruciano gran parte dell’energia. CONCLUSIONE Il documento di Google ci fa capire un aspetto importante, che in fondo è anche abbastanza comune: l'innovazione produce nuove tecnologie, e, se ha senso adottarle, vengono ottimizzate. Pensiamo a quanto consumava un climatizzatore agli inizi, rispetto a oggi (la differenza è abissale). Però, se vogliamo valutare con rigore l’impatto complessivo dell’AI, serve anche un'altra visione dei dati: la mediana racconta bene il “prompt tipico”, ma è la media a dire quanta energia si spende davvero su scala globale. Vai al paper -------------------------------------------------------------------------------- VIBEVOICE DI MICROSOFT Microsoft Research ha rilasciato VibeVoice, un modello open source capace di generare conversazioni vocali multi-speaker fino a 90 minuti con una qualità elevata. > L'ho provato. L'audio che si sente è un podcast con 3 speaker generato > partendo da uno script testuale. VibeVoice: un podcast con 3 speaker La novità sta nell’uso della next-token diffusion e di un innovativo speech tokenizer continuo, che comprime l’audio fino a 3200× mantenendo fedeltà percettiva ed efficienza computazionale. Questo consente di scalare la sintesi vocale a contesti lunghi, con naturalezza nei turni di parola e ricchezza timbrica. Vai al progetto ALCUNI RISULTATI * Supera modelli leader come Gemini 2.5 Pro TTS ed ElevenLabs V3 in realismo, ricchezza e preferenza degli ascoltatori. * Ottiene il Word Error Rate più basso e maggiore somiglianza tra speaker. * Generalizza bene anche su utterances brevi, nonostante sia ottimizzato per conversazioni lunghe. Limitazioni dichiarate: supporto solo a inglese e cinese, assenza di gestione per rumori o parlato sovrapposto. > Un passo avanti verso podcast e audiolibri multi-partecipanti sintetici, con > forte enfasi sulla ricerca responsabile. -------------------------------------------------------------------------------- PODCASTIFY Podcastfy è un progetto open source in Python che consente di trasformare contenuti multimodali come testi, immagini, PDF, siti web o video YouTube in podcast audio conversazionali, personalizzabili e multilingue, utilizzando modelli di intelligenza artificiale generativa. 0:00 /1:41 1× Un esempio di output di Podcastify Pensato come un'alternativa open alla funzione podcast di NotebookLM, Podcastfy si distingue per l’approccio programmabile, scalabile e completamente personalizzabile. Vai al progetto È possibile creare episodi brevi da 2-5 minuti o podcast longform di oltre 30 minuti, scegliendo stile, struttura del dialogo, voci TTS (tra cui OpenAI, Google, ElevenLabs, Microsoft) e lingua, con supporto a oltre 100 modelli LLM, inclusi quelli locali. Il sistema è adatto sia a sviluppatori sia a utenti senza competenze tecniche: si può usare tramite Python, CLI, API FastAPI, web app o container Docker. Offre una perfetta integrazione in flussi di lavoro automatizzati e si presta a progetti custom. Podcastfy è già stato adottato in strumenti come SurfSense, OpenNotebook e Podcast-LLM, ed è ideale per content creator che vogliono trasformare articoli e blog in podcast, per educatori che desiderano rendere accessibili le proprie lezioni in formato audio, e per ricercatori interessati a rendere fruibili i propri lavori a un pubblico più ampio. Vai al Colab La versione più recente introduce il supporto a modelli TTS multispeaker e la possibilità di generare podcast partendo da contenuti cercati in tempo reale sul web, offrendo un’esperienza ancora più ricca, flessibile e aggiornata. -------------------------------------------------------------------------------- RUNWAY, E LE POTENZIALITÀ DI ALEPH Runway mostra un esempio delle potenzialità di Aleph. Nel video si vede come il modello possa apportare modifiche complesse agli ambienti, aggiungendo elementi dinamici come la neve sulle spalle e gli schizzi d'acqua mentre i personaggi si muovono. > Really nice demo of what @runwayml Aleph can do for complex changes in > environments while adding accurate dynamic elements like snow on the shoulders > or splashing water as the characters move. pic.twitter.com/YAeWxAnz1f > > — Cristóbal Valenzuela (@c_valenzuelab) July 30, 2025 > La crescita dei modelli di generazione video sta decollando. Sono curioso di > scoprire il margine di miglioramento che ci sarà. -------------------------------------------------------------------------------- FLUX.1 KREA [DEV] FLUX.1 Krea [dev] è un nuovo modello di generazione testo-immagine sviluppato da Black Forest Labs insieme a Krea AI. Si tratta di un modello open weights che segna un'evoluzione importante: punta a superare il classico “look da AI”, spesso troppo saturo e artificiale, per offrire risultati visivamente più credibili e interessanti. FLUX.1 Krea [dev] Il modello è definito "opinionated" perché non si limita a interpretare le richieste in modo neutro, ma applica scelte stilistiche precise, generando immagini ricche di carattere e varietà. Questo approccio lo rende particolarmente adatto a chi cerca creatività controllata e realismo, senza dover scendere a compromessi. È già disponibile su HuggingFace, con integrazioni API offerte da partner come FAL, Replicate, Runware, DataCrunch e TogetherAI. Vai al post > Un progetto che dimostra quanto sia potente la collaborazione tra chi sviluppa > modelli fondamentali e chi lavora sull’applicazione concreta dell’intelligenza > artificiale. -------------------------------------------------------------------------------- - GRAZIE - Se hai apprezzato il contenuto, puoi contribuire al progetto con una donazione 🙂 ISCRIVITI ALLA NEWSLETTER Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su tematiche relative all'intelligenza artificiale. Iscriviti alla Newsletter Email sent! Check your inbox to complete your signup. Gratuita. No Spam. Puoi disiscriverti quando vuoi. Consulta la privacy policy.

September 3, 2025 / Alessio Pomaro

Novità e Riflessioni

GPT-5: riflessioni, riepilogo, test.. e AGI?

> GPT-5 is a significant step along the path to AGI… a model that is generally > intelligent. Così Sam Altman introduce la live di presentazione di GPT-5. Nel momento in cui ha finito la frase, ho avuto una forte tentazione di stoppare lo streaming.. ma mi sono sforzato di proseguire. A valle dell’evento, il mio bilancio è questo: > GPT-5 è un major update > solido ma non di rottura. La presentazione di GPT-5 di OpenAI È plausibile che abbiano migliorato praticamente tutto: comprensione, allucinazioni, strumenti, costi.. però non è il salto epocale che la retorica di apertura lasciava intendere. Anche il messaggio “verso l’AGI” suona come marketing ambizioso più che come evidenza scientifica: se migliori su molti benchmark ma resti nel solco della stessa famiglia di (queste) tecniche, è un progresso importante, non una rivoluzione. Questo non significa sminuire il lavoro tecnico: l’inferenza è più economica, il modello sceglie quando attivare componenti di "reasoning" e la lineup è più granulare (tipologie di modello diverse per casi d’uso diversi). Ma la live è stata anche penalizzata da visualizzazioni fuorvianti: alcuni grafici avevano barre che non corrispondevano ai valori e un diagramma sulla “deception” è stato poi corretto nella documentazione. La correzione del diagramma dalla presentazione alla documentazione Sul fronte posizionamento competitivo, la sensazione è di passo avanti, non balzo in avanti. Dopo l'evento, François Chollet (co-founder di ARC Prize) ha pubblicato un confronto in cui Grok 4 risulta avanti su ARC-AGI-2, mentre su ARC-AGI-1 il margine è più sottile; al netto di differenze di costo, il quadro è di una leadership contesa e per nulla schiacciata. > Grok 4 is still state-of-the-art on ARC-AGI-2 among frontier models. > > 15.9% for Grok 4 vs 9.9% for GPT-5. pic.twitter.com/wSezrsZsjw > > — François Chollet (@fchollet) August 7, 2025 Questi dati vanno interpretati con cautela (metodologie, settaggi, versioni cambiano), ma raffreddano l’idea di un distacco netto. Infine, qualche scelta narrativa non ha aiutato: tanto "vibe coding" e storytelling emotivo, meno metodo e ablation. Da utilizzatore, mi sarei aspettato più dimostrazioni di multimodalità end-to-end (input e output ricchi, integrazione sensori-attuatori) e un ponte più credibile verso il mondo fisico/robotico — area in cui altri player stanno spingendo (es. Google e Nvidia). > I miglioramenti ci sono e i prezzi non sono fuori mercato; semplicemente non > abbiamo visto > “il prossimo paradigma”. PARLIAMO DEL CONCETTO DI AGI? Perché la tentazione di chiudere lo streaming non appena Altman ha pronunciato “AGI”? Perché, probabilmente, i soli LLM non basteranno per raggiungere l'obiettivo. Continuare a scalare decoder autoregressivi riduce errori ma non risolve: causalità, generalizzazione out-of-distribution, composizionalità, pianificazione a lungo raggio, ragionamento simbolico. A questo proposito, ho più volte menzionato approcci come quello neuro-simbolico, ovvero l'integrazione di reti neurali e rappresentazioni/strumenti simbolici. Non è teoria astratta: modelli-strumento come o3, Grok 4, e lo stesso GPT-5, ovvero quelli con interpreti di codice e reasoners, mostrano che plug-in simbolici (solver, motori logici, CAS) alzano l’asticella su compiti logici e strutturati. Google DeepMind, su AlphaFold o AlphaGeometry non applica “solo” LLM: si tratta di architetture ibride disegnate sul problema, con motori di ricerca, vincoli e verifiche. La direzione non è “più grande è meglio”, ma “ben integrato è meglio”: neurale per percepire e proporre, simbolico per verificare, comporre e generalizzare. Gli avanzamenti recenti in matematica lo confermano. Seed-Geometry (ByteDance Seed AI4Math) ha superato AlphaGeometry 2 su 50 problemi IMO di geometria (43 vs 42) e sulle shortlist più dure (22/39 vs 19/39), grazie a un motore simbolico più veloce, una rappresentazione più compatta delle costruzioni e un ciclo neurale-simbolico più efficiente. Non è un trucco: è un cambio di passo su compiti dove la verifica formale conta quanto (o più) della generazione. Seed-Prover: Deep and Broad Reasoning for Automated Theorem Proving | alphaXiv View 1 comments: What is the difference between this work and the Gemini pro?2507.15855 arXiv Se vogliamo avvicinarci all’AGI, dobbiamo uscire dal monolito: agenti che usano strumenti e ambienti, memorie strutturate, moduli di pianificazione e prove/verifiche integrati by design, non come accessori opzionali. > Il LLM resta il substrato linguistico e percettivo, ma l’intelligenza emerge > dall’orchestrazione. LO STATO DEL PROGRESSO DELL’AI Al netto di GPT-5, stiamo vivendo un’accelerazione storica. Demis Hassabis (Google DeepMind) descrive un impatto “10 volte più grande, e forse 10 volte più veloce dell’Industrial Revolution”, con un orizzonte di 5–10 anni per sistemi con capacità simili all’umano in molti domini. È un’immagine potente, che richiede di ripensare istituzioni, lavoro, welfare, istruzione e governance. Non sono solo parole: AlphaFold ha già spostato gli equilibri nella scienza delle proteine, al punto da valere a Hassabis e Jumper il Nobel per la Chimica 2024 (insieme a David Baker). La portata non è solo tecnica: rendere praticabile e diffuso ciò che prima richiedeva anni di esperimenti è nuova capacità civile — scienza più rapida, più aperta, più traducibile in cure e materiali. Chemistry Nobel goes to developers of AlphaFold AI that predicts protein structures This year’s prize celebrates computational tools that have transformed biology and have the potential to revolutionize drug discovery. NatureEwen Callaway Questa accelerazione, però, non è lineare né omogenea. Vediamo frontier models migliorare, ma spesso in modo irregolare: grandi vittorie in domini strutturati (biologia, geometria formale), progressi più lenti nella robustezza generale (ragionamento di buon senso, affidabilità contestuale, autonomia). In parallelo, cresce l’impatto economico (produttività, automazione di parti di filiere cognitive) e si amplificano le questioni sociali: distribuzione dei benefici, sostenibilità energetica, rischi informativi. Il punto non è fermare, ma governare l’onda: standard aperti, benchmark onesti, evals riproducibili, trasparenza sui dati e sistemi di verifica incorporati. Se la traiettoria “10× più grande e più veloce” si confermerà, ci serviranno nuove idee sul senso del tempo e del valore umano. Non tutto è utilitaristico: arte, gioco, sport, meditazione potrebbero tornare al centro proprio perché liberati dal vincolo. Ma questo futuro richiede politiche intenzionali: redistribuzione, formazione continua, infrastrutture di ricerca e un mercato che premia la qualità, non solo la spettacolarità in keynote. Ne ho parlato nei recenti interventi che ho tenuto al TEDx di Bergamo e al WMF (We Make Future). Il mio intervento al TEDx di Bergamo CONCLUSIONI GPT-5 è un aggiornamento importante, ma “incrementale”. Ha spinto in avanti il perimetro di ciò che è pratico e abbordabile, senza cambiare le regole del gioco. Se prendiamo sul serio l’AGI, la strada passa per architetture ibride, tool use nativo, verifica simbolica e benchmark trasparenti. Nel frattempo, l’AI continua a permeare scienza, industria e cultura a velocità inaudita: la sfida non è solo tecnica, è civile. E, finché non vedremo quell’integrazione profonda che da tempo invoco, manterrò questa posizione: gli LLM sono necessari ma non sufficienti — e il prossimo salto non sarà solo più grande; sarà diverso. -------------------------------------------------------------------------------- UNA SINTESI DELLA PRESENTAZIONE Per chi non avesse visto tutta la presentazione, quello che segue è un riepilogo che cerca di sintetizzare al meglio le caratteristiche del nuovo sistema di OpenAI. Sam Altman durante la presentazione di GPT-5 PANORAMICA SUL MODELLO GPT-5 è il nuovo modello di punta di OpenAI: più intelligente, più rapido e soprattutto più utile nelle richieste reali (scrittura, coding, salute, multimodale). In ChatGPT diventerà il modello di default per tutti; gli utenti Pro avranno anche GPT-5 Pro (con reasoning più esteso). Il rollout inizia da subito per gli utenti Free, Plus, Pro, Team; per gli abbonamenti Enterprise ed Edu arriverà dopo una settimana dalla presentazione. Gli utenti Free, al raggiungimento delle quote limite, passano a GPT-5 mini. UN SISTEMA UNIFICATO: ROUTER + "THINKING" QUANDO SERVE Non bisogna più scegliere tra un modello “veloce” e uno “con reasoning”: GPT-5 integra un modello smart/efficiente, un modello di ragionamento profondo (“GPT-5 thinking”) e un router in tempo reale che decide quale usare in base a complessità, tipo di conversazione, strumenti necessari e segnali espliciti (es. “pensa a fondo”). Il router impara da segnali reali (switch tra modelli, preferenze, misure di correttezza). Al raggiungimento dei limiti subentra una versione mini. In futuro queste capacità verranno fuse in un unico modello. PRESTAZIONI E VALUTAZIONI (SOTA) * Matematica (AIME 2025, senza tool): 94,6% * Coding: 74,9% su SWE-bench Verified; 88% su Aider Polyglot * Multimodale: 84,2% su MMMU * Salute: 46,2% su HealthBench Hard Con GPT-5 Pro (ragionamento esteso) si ottiene lo stato dell’arte su GPQA (88,4%, senza tool). In più, rispetto a o3, GPT-5 “thinking” raggiunge risultati migliori usando il 50–80% di token di output in meno su varie capacità (ragionamento visivo, coding agentico, problemi scientifici avanzati). Prestazioni e valutazioni di GPT-5 AFFIDABILITÀ, ALLUCINAZIONI E "ONESTÀ" Con ricerca web attiva su prompt rappresentativi, le risposte di GPT-5 sono ~45% meno soggette a errori fattuali rispetto a GPT-4o; in modalità “thinking” sono ~80% meno soggette a errori rispetto a o3. Su benchmark di fattualità aperta (LongFact, FActScore) “GPT-5 thinking” riduce le allucinazioni di circa 6× rispetto a o3. È anche meno ingannevole: nelle conversazioni reali, le risposte “thinking” che mostrano comportamenti di “deception” scendono dal 4,8% (o3) al 2,1%. Lo stile mostra meno "eccesso di consenso", meno emoji inutili, più trasparenza sui limiti. SAFE COMPLETIONS Nuovo addestramento di sicurezza: invece di rifiutare o acconsentire “a blocchi”, GPT-5 massimizza l’aiuto entro confini di sicurezza. Quando serve, risponde solo ad alto livello; se deve rifiutare, spiega perché e propone alternative sicure. Risultato: migliore gestione delle richieste ambigue/dual-use e meno rifiuti inutili. BIO/CHIMICA: APPROCCIO PRUDENZIALE “GPT-5 thinking” è trattato come High capability in bio/chimica nel Preparedness Framework: 5.000 ore di red-teaming, classificatori always-on, reasoning monitors e difese multilivello, attive in via precauzionale. COSA MIGLIORA PER GLI UTENTI CHATGPT * Scrittura: testi più ricchi e risonanti, migliore gestione di strutture ambigue (es. verso libero, pentametro giambico senza rima), utile per email, report, memo. * Coding: eccelle nel front-end complesso e nel debug di repository grandi; spesso crea siti/app/giochi belli e responsivi con un solo prompt, con gusto per spaziatura, tipografia e white-space. * Salute: punteggi nettamente migliori su HealthBench; risposte più proattive (segnala rischi, pone domande), adattate a contesto/geografia/livello utente. Non sostituisce un medico, ma aiuta a capire referti, preparare domande, valutare opzioni. * Personalità preimpostate (anteprima di ricerca): Cynic, Robot, Listener, Nerd, per regolare tono e stile senza prompt artigianali; progettate anche per ridurre l'eccesso di consenso nei confronti dei messaggi degli utenti. NOVITÀ MOSTRATE NELLA LIVE * Voice più naturale, con video, traduzione continua e nuova Study & Learn mode (es. esercizi guidati, apprendimento delle lingue). * Memoria e personalizzazione: è stata presentata l'integrazione con Gmail e Google Calendar per la pianificazione quotidiana; colori personalizzati dell’interfaccia; anteprima di personalities anche in modalità Voice. PER SVILUPPATORI E AZIENDE (API) * Tre modelli: gpt-5, gpt-5-mini, gpt-5-nano. Prezzi indicativi: $1,25 / 1M token input e $10 / 1M output (GPT-5); $0,25 / $2 (mini); $0,05 / $0,40 (nano). Disponibile via Responses API, Chat Completions e Codex CLI. * Nuovi controlli: * reasoning_effort con valore minimal per risposte velocissime con poco ragionamento; * verbosity: low/medium/high per controllare la verbosità (quanto il modello risulta prolisso); * Custom tools in plain-text (anziché solo JSON) + vincoli con regex/CFG; tool-call preambles per far spiegare al modello il piano prima delle chiamate strumento. * Contesto lungo: fino a 400.000 token totali, con miglioramenti su compiti di lungo contesto (recupero e ragionamento su input molto estesi). * Agentic/tool use: grandi progressi su benchmark di tool-calling e instruction-following; migliore capacità di completare task multi-step, coordinare strumenti e adattarsi al contesto. * Variante chat non-reasoning disponibile come gpt-5-chat-latest (stessa tariffa), utile per latenza più bassa. IMPLICAZIONI PRATICHE * Utenti finali: qualità alta “di default”, meno allucinazioni, più "onestà" su impossibilità o limiti. * Team e imprese: un sistema di default affidabile per il lavoro quotidiano, e GPT-5 Pro per compiti critici. * Developer: meno “prompt gymnastics”. Controlli nativi su ragionamento/verbosità/formato, tool-calling più robusto, 400k di contesto per documenti enormi e pipeline complesse. -------------------------------------------------------------------------------- PRIMI TEST DEL MODELLO Ho fatto diversi test con il modello GPT-5 Thinking (su ChatGPT e via API) che riguardano, ad esempio, la generazione di testo, la creazione di dashboard che derivano dall'analisi di un dataset, output strutturati con contesti in input molto lunghi dove la precisione è fondamentale, ragionamento, matematica. Primi test con GPT-5 Ho effettuato anche delle sperimentazioni usando il modello su sistemi agentici, su infrastrutture già collaudate per altri modelli. Non avevo dubbi che il risultato sarebbe stato di qualità: l'aumento di performance è notevole rispetto alle versioni precedenti di OpenAI. Le performance su task di questo tipo non si discutono, e questo modello, visto anche il prezzo delle API praticamente identico, va a competere direttamente con Gemini 2.5 Pro su tutti i fronti. -------------------------------------------------------------------------------- APPROFONDIMENTI UNA GUIDA AL PROMPTING PER GPT-5 OpenAI ha pubblicato una guida ufficiale al prompting per GPT-5, pensata per aiutare sviluppatori e professionisti a ottenere il massimo dal nuovo modello. La guida approfondisce come costruire prompt efficaci, sottolineando l’elevata sensibilità di GPT-5 alle istruzioni: è in grado di seguire indicazioni con estrema precisione, ma proprio per questo diventa cruciale evitare ambiguità o contraddizioni. Vengono presentate strategie per bilanciare il grado di autonomia del modello, regolare il livello di ragionamento (reasoning_effort) e ottimizzare le risposte (verbosity). Una sezione specifica è dedicata allo sviluppo software, dove GPT-5 si distingue nella scrittura, refactor e generazione di codice, specialmente se guidato da prompt che ne specificano stile e contesto tecnico. La guida include esempi concreti, casi d’uso (come Cursor) e buone pratiche come l’uso di “tool preambles” o tecniche di metaprompting. Un riferimento prezioso per chi vuole costruire interazioni più robuste, controllabili ed efficienti con GPT-5. GPT-5 prompting guide | OpenAI Cookbook GPT-5, our newest flagship model, represents a substantial leap forward in agentic task performance, coding, raw intelligence, and steera… GPT-5 PER GLI SVILUPPATORI OpenAI presenta un contenuto dedicato agli sviluppatori che illustra GPT-5, il modello più avanzato per codifica e compiti agentici complessi. Con prestazioni ai vertici nei benchmark, gestione efficiente di processi multi-turno, recupero di informazioni da contesti lunghi e riduzione significativa degli errori, GPT-5 offre nuove funzioni API come reasoning_effort, verbosity e Freeform tools, ed è disponibile in tre varianti per adattarsi a esigenze diverse di prestazioni, costi e latenza. Vai al post -------------------------------------------------------------------------------- - GRAZIE - Se hai apprezzato il contenuto, puoi contribuire al progetto con una donazione 🙂 ISCRIVITI ALLA NEWSLETTER Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su tematiche relative all'intelligenza artificiale. Iscriviti alla Newsletter Email sent! Check your inbox to complete your signup. Gratuita. No Spam. Puoi disiscriverti quando vuoi. Consulta la privacy policy.

August 8, 2025 / Alessio Pomaro

GPT-4

Novità e Riflessioni

GPT-3

Generative AI: novità e riflessioni - #7 / 2025

> Buon aggiornamento, e buone riflessioni.. -------------------------------------------------------------------------------- UN AGENTE AI PER OTTIMIZZARE I PROMPT DI VEO 3 Ho creato un Agente AI che genera prompt strutturati per Veo 3, e devo dire che l'aderenza dei video in output con l'idea di partenza è altissima. L'agente riceve in input una descrizione di base del video, pone domande di follow-up per espandere i dettagli in modo guidato e semplice, e produce un prompt in JSON da usare come input per Veo 3. Ho portato la logica dell'agente su un GPT per ChatGPT, per chi vuole provarlo. ChatGPT - Veo 3 Prompt Assistant Descrivi il video che vuoi generare con Veo 3, e genererò un prompt strutturato da usare con il modello ChatGPT I tre video che seguono sono stati creati in questo modo (idea > GPT > prompt > Veo 3), utilizzando la versione più performante di Veo 3 (all’interno di Flow) e non quella "fast". Un Agente AI per ottimizzare i prompt per Veo 3: test > Se qualcuno vorrà provarlo, sarò felice di ricevere feedback per migliorarlo. FUNZIONALITÀ IMAGE-TO-VIDEO Con la nuova funzionalità image-to-video, inoltre, Veo 3 acquisisce ancora più potenziale. Ho creato questi video partendo da immagini generate con Imagen 4, e pilotando la scena (e i suoni) attraverso dei prompt testuali strutturati. Veo 3 image-to-video: un test > L'aderenza alle istruzioni è davvero notevole, come la coerenza con le > immagini di partenza. -------------------------------------------------------------------------------- LA MODALITÀ AGENTE DI CHATGPT OpenAI, con ChatGPT Agent (modalità agente), lancia la risposta a sistemi come Manus, l'Agent Mode di Gemini, Comet di Perplexity, e a tutti i sistemi di automazione del browser e del computer. Il sistema segna un'evoluzione significativa: un'AI che non solo ragiona, ma agisce in modo autonomo, utilizzando un computer virtuale completo di browser testuale e visuale, terminale, API, strumenti di generazione immagini e connettori per applicazioni come Gmail, Google Calendar, GitHub e altre. La Modalità Agente di ChatGPT Può pianificare e completare task complessi — dall’analisi concorrenziale con slide deck, alla pianificazione e prenotazione di eventi, alla creazione di report finanziari aggiornati — scegliendo dinamicamente gli strumenti più adatti e mantenendo il contesto anche su compiti lunghi e multi-step. Tutto ciò in una modalità conversazionale e collaborativa, dove l’utente può intervenire, correggere, guidare o delegare completamente. L'agente chiede conferme esplicite prima di azioni sensibili, supporta takeover manuale del browser, invia notifiche al termine dei task e può gestire interruzioni, chiarimenti e modifiche in tempo reale. Vai al Post Le sue prestazioni stabiliscono nuovi SOTA: * 44.4% su Humanity’s Last Exam con rollout parallelo; * 27.4% su FrontierMath con uso di terminale e browser; * 68.9% su BrowseComp (vs 51.5% deep research); * 45.5% su SpreadsheetBench (vs 20% Copilot Excel). > Risultati paragonabili o superiori agli analisti junior in benchmark di > investment banking. Il sistema è anche protetto da un robusto stack di sicurezza: controllo delle azioni ad alto rischio, rifiuto di task sensibili, takeover privato del browser, protezioni contro prompt injection e una classificazione “High Capability” per rischi biochimici secondo il "Preparedness Framework". > Rappresenta la prima reale implementazione su larga scala di un sistema > agentico unificato e versatile, in grado di svolgere attività di valore > economico reale, con autonomia, trasparenza e controllo. TEST DELLA MODALITÀ AGENTE DI CHATGPT Ho provato la funzionalità su diversi task, ad esempio l'acquisto online, un'analisi di mercato, l'enrichment e l'ottimizzazione di feed per l'e-commerce. Test dell'Agent Mode di ChatGPT Acquisto online Ho chiesto al modello di cercare la miglior racchetta da Padel con un determinato budget, e di acquistarla in un sito web affidabile insieme a un set di palline, verificando che il giorno di consegna non superasse una determinata data. L'agente cerca informazioni online, individua il sito web e mette i prodotti nel carrello. Successivamente mi dà la possibilità di fare login e di procedere al pagamento. Analisi di mercato Ho usato un prompt molto articolato per spiegare l'esigenza (le componenti dell'analisi). L'agente cerca informazioni autonomamente, producendo un documento testuale, diagrammi, e una presentazione PowerPoint con gli elementi chiave. Feed dell'e-commerce In questo caso, ho caricato un CSV, e per ogni prodotto del file l'agente ha eseguito una serie di operazioni, tra cui l'arricchimento dei dati supportato dalla web search, l'ottimizzazione e la generazione di nuovi testi, ecc.. l'output è stato un nuovo file CSV pronto all'uso. > La funzionalità esegue i task correttamente. Fa qualche errore, ma trova altri > modi per arrivare all'obiettivo. Per rilevare le informazioni tende a usare il > browser testuale, mentre per le azioni quello visuale. Un problema non banale? Le automazioni su diversi siti web vengono bloccate. Uno a caso? Amazon! Chissà se in futuro converrà ancora ad Amazon (e ad altri player) bloccare gli agenti, se sistemi come questo diventeranno una modalità di acquisto diffusa. Come si muoverà Google con la sua Agent Mode? Con i dati e la capacità di integrazione che ha a disposizione Google, se l'agente funzionerà bene, credo che ci farà dimenticare velocemente quella di ChatGPT. -------------------------------------------------------------------------------- KIMI K2 Kimi K2 è un nuovo modello open-source sviluppato in Cina da Moonshot AI, e rappresenta uno dei più potenti modelli agentici oggi disponibili. Kimi K2: performance Con 1 trilione di parametri totali e un'architettura Mixture-of-Experts, non si limita a rispondere: esegue compiti complessi sfruttando strumenti, codice e ragionamento. Vai al Progetto Rispetto ad altri modelli cinesi come DeepSeek-V3, mostra prestazioni superiori su benchmark chiave: +6.8 punti su LiveCodeBench, +13 su SWE-bench Verified, e +10 su GPQA-Diamond. In molte metriche batte anche modelli proprietari come Claude 4 Sonnet e GPT-4.1, mantenendo al contempo la piena accessibilità del codice. Per provarlo > Kimi K2 segna una svolta per l’open-source in Cina, combinando capacità > agentiche reali, ottimizzazione token-efficient e reinforcement learning su > larga scala. TEST CON KIMI K2 Ho provato il modello su task di esempio sui quali sto lavorando in diversi progetti. Non si tratta di processi di ragionamento complessi, ma di prompt con un'elevata quantità di istruzioni, l'uso di tool, e output strutturati. > Sono partito con curiosità, e senza aspettative.. ma devo dire che ho concluso > con stupore. Kimi K2: test > Sui task in cui l'ho provato, non dico che siamo al livello dell'output di > Gemini 2.5 Pro, ma di GPT-4o e GPT-4.1 sì. Il modello rispetta le indicazioni su contesti lunghissimi, comprensivi di web search, e rispetta i formati strutturati: negli esempi si vedono output JSON su cui il modello è stato addestrato. La Deep Research ha un comportamento molto simile a quello di ChatGPT, e integra una catena di ragionamento molto espansa. Da quello che ho visto, va anche più in profondità rispetto ai competitor, e produce un riepilogo interattivo automaticamente. Un esempio di Deep Research IL RAPPORTO TECNICO Moonshot AI ha rilasciato un rapporto tecnico sul modello. È un progetto innovativo non solo per le sue dimensioni, ma per il modo in cui riformula l’intero processo di addestramento e deployment dei LLM. Kimi K2 introduce MuonClip, un nuovo ottimizzatore che consente di scalare l’addestramento su oltre 15 trilioni di token senza instabilità, grazie a un meccanismo che evita gli sbalzi numerici tipici nei transformer. In termini più semplici: è stato progettato per “digerire” enormi quantità di testo in modo efficiente e sicuro, evitando errori che spesso bloccano modelli di questa scala. Inoltre, invece di ripetere i dati all’infinito come fanno molti modelli, Kimi adotta un approccio più intelligente: riscrive gli esempi (rephrasing) per estrarne più valore, riducendo la ridondanza e migliorando l’apprendimento. Un’altra novità chiave è l’intero ecosistema agentico costruito attorno al modello: una pipeline in grado di generare strumenti digitali (oltre 23.000), simulare ambienti interattivi, addestrare agenti con task multi-turn e verificare i risultati con metriche oggettive. Questo consente al modello di imparare non solo a rispondere, ma a "ragionare", pianificare e agire usando strumenti esterni. Vai al Report Infine, il paper propone un framework di reinforcement learning ibrido: combina ricompense verificabili con un sistema di self-critique che aiuta il modello a confrontare le proprie risposte e imparare da sé. > Un passo avanti verso modelli più autonomi, affidabili e realmente > utilizzabili in contesti complessi. -------------------------------------------------------------------------------- INTELLIGENZA ARTIFICIALE: CAPIRE IL POTERE, SCEGLIERE LA DIREZIONE Il mio talk del TEDxBergamo dal titolo "Intelligenza Artificiale: capire il potere, scegliere la direzione" è stato pubblicato. Intelligenza Artificiale: capire il potere, scegliere la direzione Ho avuto il privilegio di condividere questa esperienza con un gruppo di persone straordinarie (relatori, organizzatori e volontari) in un'edizione guidata da un tema tanto affascinante quanto attuale: POTERE. Un concetto che si intreccia in modo indissolubile con la tecnologia che sta ridefinendo il nostro presente e il nostro futuro. > Il vero potere non è nell'intelligenza artificiale, il vero potere è nel saper > utilizzare al meglio questa potentissima leva, scegliendo consapevolmente come > e dove spostare i massi. -------------------------------------------------------------------------------- UN'APPLICAZIONE AI BASATA SU UN WORKFLOW MULTI-AGENTE IN AZIONE Il sistema è costruito su un'architettura LangGraph con diversi agenti che si basano sul modello selezionato nelle opzioni. Un'applicazione AI basata su un workflow multi-agente in azione In base alla query di ricerca indicata, analizza l'AI Overview estraendo i contenuti dalle fonti e anche dagli altri risultati nella SERP di Google. Misura la pertinenza semantica delle risposte fornite delle fonti, e, in base ai dati, crea delle risposte più pertinenti in modo iterativo. Infine, crea un piano d'azione per l'ottimizzazione della pagina di interesse, elaborando i dati a disposizione. Nell'interazione tra gli agenti (che si vede nella sidebar di sinistra) applico una forma del paradigma ReAct, in cui un agente produce un'analisi e un altro (l'esecutore) applica le indicazioni dell'analisi per ottimizzare la risposta. > Le performance, anche con modelli più piccoli (es. Gemini 2.5 Flash), sono > molto interessanti. -------------------------------------------------------------------------------- COSTRUIRE UN AGENTE AI? QUESTIONE DI METODO! Costruire un agente AI utile non è questione di hype o fantascienza, ma di metodo. In un'epoca in cui tutti parlano di "agentic workflows", il valore emerge solo partendo da problemi reali, obiettivi chiari e un approccio iterativo. Il primo passo è definire il compito dell’agente, con realismo. Scegliamo un'attività che si spiegherebbe a uno stagista competente. Se non abbiamo 5-10 esempi concreti, l'idea è troppo vaga. Gli agenti non servono per automatizzare ciò che è già gestito da software tradizionali: servono dove ci sono ambiguità, decisioni da prendere, contesto da interpretare. Poi si scrive una procedura operativa, come se fosse per un umano. Questo aiuta a capire quali decisioni automatizzare e quali strumenti servono. Se non sappiamo come farebbe una persona, sarà difficile automatizzarlo bene. Solo dopo si costruisce il primo MVP, limitato al cuore: il prompt. Si testa se il modello riesce a svolgere un compito cognitivo, tipo classificare un'email. Il resto è ancora manuale. Se il modello non ragiona bene in piccolo, non ha senso costruire il resto. Quando il "cuore" funziona, si passa alla connessione con dati reali (API, calendari, email…). L’orchestrazione trasforma il ragionamento statico in un sistema dinamico e adattivo. Poi si testa e si itera: prima manualmente, poi in modo automatizzato, con metriche (accuratezza, tono, rilevanza, uso degli strumenti). I test rivelano punti forti e limiti, e guidano i miglioramenti. Solo quando l’agente è affidabile si rilascia in produzione. Ma il deployment è solo l’inizio: gli utenti lo useranno in modi imprevisti, e il feedback sarà chiave per evolverlo. Tracciare il comportamento è essenziale. > Messaggio chiave: un agente ben fatto non è un esperimento, ma un prodotto. > Serve disciplina, chiarezza, ascolto e iterazione continua. Solo così si passa > dalla teoria all’impatto. How to Build an Agent Learn how to build an agent -- from choosing realistic task examples, to building the MVP to testing quality and safety, to deploying in production. LangChain BlogLangChain -------------------------------------------------------------------------------- CONTEXT ENGINEERING "Context Engineering" è un buon termine, ma (oggi) non è ancora sufficiente. Dal 2023, nelle lezioni che tengo, ho una slide molto simile all'immagine del post di LangChain, che fa capire che la struttura del prompt è solo una parte delle applicazioni basate su modelli AI. Context Engineering - LangChain È la costruzione del contesto la vera chiave di un agente efficace. E quindi comprende lo studio dei dati e delle informazioni necessari, la loro estrazione, come farli gestire al modello. Vai al Post Contesto significa anche efficienza: riutilizzare piani precedenti tramite vector store, evitare rumore informativo e ottimizzare i costi. Il contesto giusto fa la differenza tra una risposta approssimativa e una soluzione intelligente. Vai alla Guida Tutto questo basta per creare un buon agente, ma per un'applicazione mancano altri dettagli. Come avviene l'interazione tra i diversi agenti? Sequenziale? Orchestrata? Quale framework è meglio usare? Basato su scambi conversazionali o stateful? > Insomma.. per creare buoni agenti, non bastano buoni prompt, servono anche > contesti perfetti, e un'interazione ben studiata tra i diversi "attori" in > gioco. -------------------------------------------------------------------------------- PROMPT DESIGN: L'IMPORTANZA DELLE ISTRUZIONI PRECISE Meta e OpenAI hanno pubblicato nello stesso giorno una guida per la migrazione dei prompt per i rispettivi modelli. Due librerie Python che permettono di inserire il prompt di partenza e di ottenere quello ottimizzato per i modelli GPT e Llama. Guide per la migrazione dei prompt Mi ha colpito una frase della documentazione di OpenAI: > "as model gets smarter, there is a consistent need to adapt prompts that were > originally tailored to earlier models' limitations, ensuring they remain > effective and clear for newer generations". In pratica, mentre prima si costruivano istruzioni iper precise e dettagliate a causa delle scarse performance dei modelli, ora, al contrario, invitano a farlo vista l'elevata capacità di comprensione degli input dei modelli attuali. Vai alla guida di OpenAI Vai alla guida di Meta -------------------------------------------------------------------------------- GOOGLE: DALLA RICERCA A UNA "DEEP SEARCH" > La Deep Research direttamente sulla pagina di ricerca di Google? Come ho detto al Search Marketing Connect l'anno scorso, andiamo verso ricerche basate su interazioni agentiche. Google Search si evolve con nuove funzionalità AI basate sui modelli Gemini 2.5 Pro. Gli abbonati a Google AI Pro e Ultra possono ora accedere a Deep Search, uno strumento avanzato che esegue centinaia di ricerche per generare report dettagliati e con fonti in pochi minuti. Perfetto per chi deve affrontare analisi complesse. 0:00 /0:57 1× Google: dalla ricerca a una Deep Search Inoltre, arriva la possibilità di chiamare le attività locali tramite AI: basta una ricerca per far sì che Google contatti direttamente negozi o servizi per verificare prezzi e disponibilità, il tutto senza sollevare la cornetta. Vai al Post > Un passo avanti verso un'esperienza sempre più efficiente e automatizzata. -------------------------------------------------------------------------------- WEB GUIDE DI GOOGLE Google ha presentato Web Guide, un nuovo esperimento dei Search Labs che punta a migliorare l’esperienza di ricerca online grazie all'AI. Utilizzando una versione personalizzata del modello Gemini, Web Guide organizza i risultati della ricerca in gruppi tematici, aiutando gli utenti a orientarsi meglio tra le informazioni disponibili sul web. 0:00 /0:07 1× Web Guide di Google > L'ho provato, e, in effetti si nota come cambia la configurazione della SERP. Questo approccio è particolarmente utile per ricerche aperte o complesse, dove trovare contenuti pertinenti può essere più difficile. Web Guide applica una tecnica chiamata query "fan-out", che genera più ricerche correlate in parallelo, permettendo di identificare i risultati più rilevanti e approfonditi. Vai al Post Attualmente disponibile nella scheda "Web" per chi ha attivato i Search Labs, rappresenta un primo passo verso un’interazione più strutturata e intelligente con la rete. -------------------------------------------------------------------------------- GROK 4: IL NUOVO MODELLO DI XAI xAI qualche giorno fa ha presentato la nuova versione di Grok, che sembra già il modello più potente sul mercato. Performance da capogiro: Grok 4 non si è limitato a migliorare, ha letteralmente sbaragliato la concorrenza su benchmark estremamente difficili. Ha affrontato "Humanity's Last Exam", un test con domande a livello di dottorato, e ha superato tutti i modelli rivali (inclusi Claude e Gemini). La versione Grok 4 Heavy ha addirittura raggiunto il 50.7%, quasi il doppio del secondo classificato. Le performance di Grok 4: il nuovo modello di xAI La chiave del miglioramento continua ad essere nella scala: xAI non ha svelato i dettagli interni del modello, ma ha chiarito che il salto qualitativo arriva da una scala di calcolo senza precedenti. Il compute usato per l’addestramento è aumentato di 10x rispetto a Grok 3 (e 100x rispetto a Grok 2). L'hardware usato? Oltre 100.000 GPU NVIDIA H100, e in futuro oltre 100.000 GPU GB200. Ragionamento come superpotere: il punto di forza è il "reasoning", definito dal team "sovrumano". xAI ha dedicato 10x più calcolo al Reinforcement Learning rispetto a Grok 3, affinando il modello per correggere i propri errori e ragionare dai principi primi. La modalità Grok 4 Heavy non è una versione più grande, ma un’inferenza “collaborativa”: più agenti lavorano sullo stesso problema, confrontano le risposte e decidono insieme quella più solida. Una sorta di gruppo di studio AI. > Introducing Grok 4, the world's most powerful AI model. Watch the livestream > now: https://t.co/59iDX5s2ck > > — xAI (@xai) July 10, 2025 In test pratici come "Vending-Bench", Grok 4 ha elaborato strategie di business migliori di quelle umane, mantenendo coerenza a lungo termine. Nei diagrammi precedenti, si vede come il modello domina il benchmark ARC-AGI 2, superando (di molto) o3, Gemini 2.5 Pro e Claude. > Aspettiamoci discussioni sui benchmark e sul possibile overfitting (dati > falsati da training sui benchmark) nelle prossime settimane, ma la direzione è > chiara: capacità e architetture in crescita rapida, costi in calo. > Nel frattempo, anche OpenAI prepara il lancio di GPT-5. -------------------------------------------------------------------------------- CHROME MCP SERVER Chrome MCP Server è un'estensione per Chrome che trasforma il browser in un assistente AI avanzato. È basato su Model Context Protocol (MCP), e consente ai LLM come Claude di controllare direttamente il browser per automatizzare attività complesse, analizzare contenuti e gestire la navigazione in modo intelligente. A differenza degli strumenti tradizionali come Playwright, Chrome MCP Server lavora direttamente con l'ambiente reale: utilizza le sessioni di login, configurazioni, segnalibri e cronologia, garantendo allo stesso tempo piena operatività in locale per la massima privacy. Vai al Progetto Con oltre 20 strumenti integrati, offre funzionalità come screenshot intelligenti, analisi semantica, gestione della cronologia e interazione automatica con le pagine web. Include anche un database vettoriale interno per ricerche contestuali tra le tab del browser. -------------------------------------------------------------------------------- IL SERVER MCP DI SHOPIFY Un esempio interessante di server MCP (Model Context Protocol) remoto: Shopify. Nelle Responses API di OpenAI la connessione è realizzabile semplicemente incollando il link del server MCP nel campo del connettore. 0:00 /0:26 1× Server MCP di Shopify su un agent OpenAI Si crea così un agent connesso al server MCP di Storefront che può cercare prodotti, aggiungere articoli al carrello, creare un link di pagamento, ecc.. L'agente rimane personalizzabile attraverso il system prompt e l'accesso ad altre fonti esterne o altri server MCP. > E se il server, in futuro introdurrà nuove funzionalità, la configurazione non > cambierà, e l'agent potrà sfruttarle immediatamente. -------------------------------------------------------------------------------- I CORSI GRATUITI DI ANTHROPIC Anthropic ha rilasciato una sezione dedicata ai corsi: una piattaforma didattica gratuita per approfondire l'uso di Claude, dall'API Anthropic a MCP fino alle best practice di Claude Code. I corsi di Anthropic I corsi includono lezioni, quiz finali e certificati. Ogni corso affronta casi di utilizzo reali e dettagli pratici di implementazione, ed è stato realizzato con il contributo degli sviluppatori che già utilizzano Claude in produzione. Vai ai Corsi Ho fatto il corso e l'esame su MCP (Model Context Protocol). Le lezioni sono fatte benissimo, chiare, con esempi utili e slide ben organizzate. > Si tratta di una risorsa estremamente utile per chi vuole approfondire lo > sviluppo di applicazioni basate su LLM. -------------------------------------------------------------------------------- FEATURED NOTEBOOKS DI NOTEBOOKLM NotebookLM si arricchisce con i nuovi Featured Notebooks: notebook tematici curati da esperti e istituzioni come The Economist, The Atlantic, Our World in Data e altri. Dalla scienza alla letteratura, dalla finanza alla genitorialità, ogni notebook è una raccolta approfondita di contenuti esplorabili grazie all'intelligenza artificiale. Featured Notebooks di NotebookLM > È possibile leggere le fonti originali, porre domande, ascoltare panoramiche > audio e navigare concetti con mappe mentali. Vai al Post Oltre 140.000 notebook pubblici sono già stati condivisi dalla community: una nuova forma di apprendimento collaborativo e dinamico prende forma. -------------------------------------------------------------------------------- ACT-TWO DI RUNWAY > Dopo Act-One, Runway presenta Act-Two. Il sistema consente di creare scene altamente espressive, interamente guidate dalle sfumature interpretative degli attori. Il ritmo, la recitazione, il linguaggio del corpo e le espressioni più sottili vengono fedelmente trasferiti dalle performance originali ai personaggi generati. > Act-Two allows you to create highly expressive scenes entirely driven by the > nuanced performances of your actors. The timing, delivery, body language and > subtle expressions are all faithfully transposed from your driving > performances to your generated characters. > > Learn more… pic.twitter.com/IAY8iZtfIK > > — Runway (@runwayml) July 16, 2025 La serie "Act" di Runway permette di creare video con personaggi espressivi utilizzando un singolo video di guida e un'immagine del personaggio. Vai al Post ALEPH: UNA SVOLTA NELL'EDITING VIDEO Runway, inoltre, ha presentato Aleph, un nuovo modello video “in-context” che segna un punto di svolta nell’editing e nella generazione visiva. 0:00 /1:06 1× Aleph di Runway Consente di intervenire su un video in modo fluido e intuitivo: è possibile aggiungere, rimuovere o trasformare oggetti, generare nuove angolazioni di una scena, e modificare lo stile o l’illuminazione con un livello di controllo mai visto prima. Vai al Post > Pensato per soddisfare le esigenze di creativi e professionisti, questo > modello multi-task apre nuove possibilità per raccontare storie visive in modo > dinamico, preciso e completamente personalizzabile. -------------------------------------------------------------------------------- GEMINI EMBEDDING Il nuovo modello Gemini Embedding (gemini-embedding-001) è ora disponibile pubblicamente tramite l’API Gemini e Vertex AI. Gemini Embedding now generally available in the Gemini API- Google Developers Blog Explore the Gemini Embedding text model now generally available in the Gemini API and Vertex AI, offering versatile language support. Google for DevelopersMin Choi Con prestazioni da leader nella classifica MTEB Multilingual, questo modello supporta oltre 100 lingue, una lunghezza massima di 2048 token, ed è ottimizzato con la tecnica Matryoshka Representation Learning (MRL) per output flessibili da 768 a 3072 dimensioni. Pensato per compiti avanzati come retrieval, classificazione e embedding cross-domain (scienza, finanza, legge, codice), può essere usato da subito con l’endpoint "embed_content". Disponibile in versione gratuita e a pagamento, a partire da 0.15 dollari per milione di token in input. Un approfondimento sugli embeddings > I modelli legacy verranno dismessi tra agosto 2025 e gennaio 2026. -------------------------------------------------------------------------------- LA SEGMENTAZIONE DELLE IMMAGINI DI GEMINI L'AI di Google fa un salto evolutivo con Gemini 2.5: ora è possibile segmentare immagini tramite linguaggio naturale, andando oltre le classiche etichette predefinite. Nelle immagini si vedono alcuni test che ho fatto su AI Studio. La segmentazione delle immagini di Gemini Provalo su AI Studio Basta descrivere ciò che si vuole individuare, anche con frasi complesse, concetti astratti o condizioni logiche. Il modello riconosce relazioni tra oggetti (“la persona che tiene l’ombrello”), situazioni (“chi non indossa un casco”) o anche danni (“case colpite dal maltempo”), ed è capace di leggere il testo all’interno delle immagini. Vai al Post Tutto questo funziona in più lingue e si integra facilmente via API. Un approccio rivoluzionario per la visione artificiale, con applicazioni che spaziano dalla creatività al monitoraggio industriale. -------------------------------------------------------------------------------- GEMMA 3N IN LOCALE SU UNO SMARTPHONE Gemma 3n di Google in azione su task multimodali in locale sul mio smartphone. Negli esempi si vede come il modello interpreta il contenuto delle immagini, estraendo le informazioni richieste. Gemma 3n in locale su uno smartphone > Sembra una banalità, ma l'aspetto straordinario è che il LLM sta funzionando > in locale su un dispositivo con un hardware limitatissimo. -------------------------------------------------------------------------------- L'EVOLUZIONE DELLA CHAT DI MISTRAL Mistral AI evolve la sua chat con nuove funzionalità pensate per potenziare produttività, creatività e ricerca. La modalità Deep Research trasforma l’assistente in un vero ricercatore virtuale: analizza, struttura e sintetizza fonti affidabili per rispondere anche alle domande più complesse. L'ho provato nella versione free. Il sistema fa molto bene il suo lavoro, ma ormai la concorrenza su questo task è altissima. La Deep Research di Mistral: un test Con il nuovo modello vocale Voxtral, parlare con "Le Chat" diventa naturale e istantaneo, mentre il modello Magistral potenzia il ragionamento multilingua, permettendo risposte articolate anche cambiando lingua a metà frase. Arrivano anche i "Progetti", spazi organizzati che memorizzano conversazioni, file e strumenti per una gestione del lavoro più ordinata. Infine, l’editing avanzato delle immagini consente modifiche dettagliate e coerenti con semplici comandi in linguaggio naturale. Vai al Post > Una suite sempre più completa per chi lavora, crea o esplora, ma che si > scontra con agenti (anche open source) sempre più performanti. -------------------------------------------------------------------------------- TRANSFORMER / MIXTURE OF EXPERTS (MOE) Qual è la differenza tra un Transformer standard e un modello Mixture of Experts (MoE)? Entrambi sono usati per compiti come la generazione di testo, la traduzione automatica o la comprensione del linguaggio. Ma il modo in cui elaborano le informazioni è molto diverso. Transformer / Mixture of Experts (MoE) Transformer standard Ogni parola (token) viene elaborata attraverso un'unica grande rete neurale, chiamata feed-forward network. È come avere un solo medico esperto che deve occuparsi di ogni paziente, indipendentemente dal problema. Funziona, ma richiede molta potenza computazionale. Mixture of Experts (MoE) Introduce un "Router", un componente che decide quali tra i tanti "esperti" (reti neurali specializzate) devono occuparsi di ciascun token. Solo uno o due esperti vengono attivati per ogni input. È come avere un receptionist che smista ogni paziente allo specialista più adatto: cardiologo, ortopedico, neurologo, ecc.. Questo approccio rende il modello molto più efficiente: si può aumentare il numero totale di parametri (quindi la conoscenza globale del modello) senza far crescere in proporzione il costo di elaborazione per ogni singolo input. > I modelli all'avanguardia adottano proprio l'architettura MoE per combinare > potenza e scalabilità. -------------------------------------------------------------------------------- LA MODALITÀ BATCH PER L’API GEMINI Anche Google ha lanciato la Modalità Batch per l’API Gemini, pensata per gestire in modo efficiente carichi di lavoro AI su larga scala, quando non è necessaria una risposta in tempo reale. Un esempio di utilizzo della modalità batch Questa modalità asincrona consente di inviare grandi volumi di richieste in un unico file, demandare la gestione del job a Google e ricevere i risultati entro 24 ore. Il tutto con un costo ridotto del 50% rispetto alle API sincrone. Vai alla Documentazione È la soluzione ideale per attività come la generazione di contenuti, l’analisi di dati, o la valutazione di modelli: tutti quei casi in cui i dati sono pronti in anticipo e si punta a massimizzare efficienza e risparmio. In più, la modalità batch offre un throughput superiore e semplifica il codice lato client, eliminando la necessità di gestire code o logiche di retry. Un Colab per provarla > Un approccio semplice, potente e scalabile per portare l’AI a un nuovo livello > di produttività. Nei miei test ho trovato un bug nell'uso di questo sistema > unito alla web search (un riferimento). -------------------------------------------------------------------------------- PHYSX-3D: UN NUOVO PARADIGMA PER LA GENERAZIONE DI 3D PhysX-3D introduce un nuovo paradigma nella generazione di asset 3D, dove l’aspetto visivo degli oggetti è accompagnato da una modellazione fisica realistica e strutturata. A differenza dei modelli tradizionali che si concentrano su geometrie e texture, PhysX-3D integra conoscenze fisiche fondamentali per rendere gli oggetti utilizzabili in contesti concreti come la simulazione, la robotica e l’AI incarnata. PhysX-3D: un nuovo paradigma per la generazione di 3D Al centro del progetto ci sono due componenti chiave. PhysXNet è il primo dataset 3D annotato con proprietà fisiche dettagliate — tra cui scala assoluta, materiali, funzioni, cinematiche e affordance — costruito attraverso un processo di annotazione automatizzato e validato con intervento umano. PhysXGen, invece, è un framework generativo che partendo da immagini produce asset 3D fisicamente plausibili, mantenendo alta la qualità geometrica e integrando le proprietà fisiche in fase di generazione. Vai al Progetto > Questo approccio permette di creare oggetti che non solo appaiono credibili, > ma che rispondono in modo coerente all’ambiente simulato, ponendo le basi per > una nuova generazione di AI fisicamente consapevoli. -------------------------------------------------------------------------------- CODE OF PRACTICE PER I MODELLI DI AI GENERALI È stato pubblicato il Code of Practice per i modelli di AI generali (GPAI), un documento volontario sviluppato da esperti indipendenti con il contributo di oltre 1.400 soggetti da industria, università, società civile e Stati membri UE. Code of Practice per i modelli di AI generali (GPAI) Il Codice aiuta i fornitori di modelli AI a dimostrare la conformità agli obblighi dell’AI Act, senza introdurre nuovi vincoli. È diviso in tre capitoli: 1. Trasparenza, con un modello documentale standard; 2. Copyright, con misure per rispettare i diritti d’autore e le riserve machine-readable; 3. Sicurezza, pensato solo per i modelli con rischio sistemico, cioè quelli più avanzati e ad alto impatto secondo l’AI Act. Tra i vantaggi: * maggiore chiarezza su cosa fare per essere conformi; * riduzione del carico amministrativo grazie a un percorso unico e condiviso; * rafforzamento della fiducia e del dialogo tra sviluppatori, utenti, autorità e società civile; * maggiore prevedibilità normativa, soprattutto in vista dell’entrata in vigore degli obblighi a partire dal 2 agosto 2025. Ci sono però anche dei limiti: * è uno strumento non vincolante, che richiede adesione volontaria; * alcune misure richiedono un forte investimento tecnico e organizzativo; * resta la necessità di chiarimenti su concetti ancora ambigui come “sistemico” o “accettabilità del rischio”. Vai al Documento Non è rivolto solo agli sviluppatori: anche le aziende che usano modelli GPAI (ad esempio integrandoli in prodotti, servizi o processi decisionali) dipendono da questo Codice per accedere alle informazioni tecniche e legali necessarie. In alcuni casi, diventano esse stesse soggetti agli obblighi dell’AI Act. > Un passo concreto per favorire l’innovazione responsabile e la cooperazione > tra tutti gli attori dell’ecosistema AI europeo. -------------------------------------------------------------------------------- LA WEB SEARCH SU AGENTI AI DOTATI DI MODELLI CON "REASONING" Qual è la differenza tra usare la Web Search in agenti dotati di "reasoning" e non? Ad esempio usando GPT-4.1 oppure #o3. È un concetto totalmente diverso. * Su modelli come GPT-4.1 il sistema usa la ricerca seguendo lo schema: ricerca → ragiona → risponde. * Su modelli con "reasoning" (come o3), il sistema adotta una strategia di ricerca multi‑step e iterativa, ovvero usa la ricerca in base alla catena di ragionamento, quando gli serve, per verificare informazioni e/o espanderle, in base alle istruzioni. > Le performance del flusso con reasoning crescono notevolmente, ma crescono > notevolmente anche i costi. Aumentano vertiginosamente i token consumati, e le > web search hanno un costo unitario. -------------------------------------------------------------------------------- GOOGLE-COLAB-AI: UNA NUOVA LIBRERIA NATIVA Google Colab ha una nuova libreria nativa dedicata all'AI: google-colab-ai. Non serve setup, né l'API KEY di Gemini, e permette di usare i modelli a disposizione (nell'immagine) con qualche riga di Python e i prompt per interagire. google-colab-ai: una nuova libreria nativa > La prototipazione di applicazioni e script diventa sempre più semplice. Vai al Post La funzionalità è attiva per gli utenti Pro e Pro+. -------------------------------------------------------------------------------- IL FUTURO DELL'AI AGENTICA È SMALL? Secondo NVIDIA Research, gli Small Language Models (SLMs) offrono una combinazione vincente: potenza sufficiente, maggiore efficienza operativa e costi drasticamente inferiori rispetto ai Large Language Models (LLMs). Small Language Models are the Future of Agentic AI * I task degli agenti sono spesso ripetitivi, focalizzati e non conversazionali: per questo, gli SLM sono più adatti. * Sono fino a 30 volte più efficienti in termini di latenza, energia e costi. * Possono essere facilmente fine-tuned e distribuiti su dispositivi locali. * Consentono architetture modulari e sistemi eterogenei con più modelli specializzati. * Abilitano un’AI più accessibile, adattabile e sostenibile. Studi su agenti reali (MetaGPT, Open Operator, Cradle) mostrano che tra il 40% e il 70% delle chiamate a LLM potrebbero essere sostituite da SLM specializzati senza sacrificare la qualità. Vai al Paper > Sono d'accordo con lo studio: chiunque abbia fatto dei test può confermare la > tesi del paper. Tuttavia, in alcuni processi che ho visto in azione, il > rapporto benefici/costi è talmente alto che spesso la ricerca di efficienza in > questa direzione non è ancora giustificabile. -------------------------------------------------------------------------------- NOTEBOOKLLAMA: UN NOTEBOOKLM OPEN-SOURCE NotebookLlama è un'alternativa open-source a NotebookLM basata su LlamaCloud. Un'applicazione potente, locale e personalizzabile per interagire con i documenti usando LLM, sintesi vocale (ElevenLabs) e indicizzazione avanzata. 0:00 /0:56 1× NotebookLlama * Totalmente open-source (MIT). * Supporta LLM tramite OpenAI. * Interfaccia semplice con Streamlit. * Integrazione con Postgres, Jaeger e LlamaCloud. * Setup rapido: si clona il progetto, si configurano le API, si lanciano i server… ed è tutto pronto. Vai al Progetto > Un progetto perfetto per chi cerca controllo, trasparenza e flessibilità nel > lavoro con agenti AI sui propri contenuti. -------------------------------------------------------------------------------- LA DEEP RESEARCH DI OPENAI VIA API: UN TEST Un esempio dell'esecuzione delle Deep Research via API di OpenAI. Per l'esecuzione suggerisco di forzare il timeout dell'oggetto "openai", perché l'elaborazione non è veloce come una normale chiamata API. La Deep Research di OpenAI via API: un test [Errore] Negli esempi della documentazione è presente un errore nella stampa delle query coinvolte. Quello che segue è il mio notebook attraverso il quale si può provare l'API personalizzando i prompt (dove ho corretto l'errore). Vai al notebook Colab -------------------------------------------------------------------------------- GEMINI FOR EDUCATION: L'AI NELLA DIDATTICA DIGITALE Durante l’ISTE 2025, Google ha annunciato un’importante evoluzione nell’integrazione dell’intelligenza artificiale nel mondo dell’istruzione con il lancio di Gemini for Education, una suite di strumenti pensata appositamente per studenti e insegnanti. Ogni istituto (dalle primarie alle università) potrà accedere ai modelli AI più avanzati (Gemini 2.5 Pro), con protezione dati di livello enterprise, maggiore controllo amministrativo e inclusione gratuita per chi ha già Workspace for Education. Un passo che punta a democratizzare l’uso dell’AI nel settore educativo, garantendo però sicurezza, affidabilità e governance. Gemini for Education Google ha introdotto, inoltre, oltre 30 nuove funzionalità AI a supporto della didattica: * Gemini in Classroom, disponibile gratuitamente in tutte le edizioni di Workspace, aiuta gli insegnanti a pianificare e differenziare le lezioni in modo rapido, ad esempio generando liste di vocaboli, frasi esempio e quiz personalizzati. * Gems, gli esperti AI personalizzati creati dagli insegnanti, potranno presto essere condivisi tra colleghi, creando una rete di "intelligenze digitali" a supporto dei corsi. * NotebookLM si espande con Video Overviews, che permettono di trasformare appunti e materiali di studio in brevi video educativi. * Google Vids con Veo 3 consente ora di creare video da 8 secondi con effetti audio per comunicazioni rapide o contenuti STEM. Anche gli studenti (dai 18 anni in su) possono ora sfruttare Gemini Canvas per generare quiz personalizzati e ricevere spiegazioni visive, come diagrammi interattivi, mentre l’estensione agli studenti più giovani è attesa nelle prossime settimane. Sarà inoltre possibile assegnare esercizi, Gems e notebook direttamente da Google Classroom, Schoology o Canvas, potenziando l’apprendimento personalizzato. Grande attenzione è stata data alla sicurezza dei minori: onboarding con alfabetizzazione AI, filtri sui contenuti, protezioni rafforzate per i dati e divieto di utilizzo delle interazioni per addestrare i modelli. Gemini è ora uno strumento AI responsabile, trasparente e adattabile ai contesti educativi reali, pensato per dare più potere decisionale a studenti e insegnanti. Vai alla Presentazione > Google prova a segnare un punto di svolta nella didattica digitale. L’AI non è > più un accessorio, ma uno strumento centrale per ripensare l’esperienza > educativa in chiave personalizzata, inclusiva e sicura. -------------------------------------------------------------------------------- "STUDIAMO INSIEME" DI OPENAI OpenAI introduce la funzionalità "Studiamo insieme" su ChatGPT. Si tratta di un sistema che cerca di spingere l'utente alla comprensione per gradi, invece di produrre una risposta risolutiva, unendo il "reasoning" e la ricerca online. Nell'esempio mi faccio spiegare il Teorema di Pitagora. Come si vede, il modello fa domande di follow-up per capire a che punto sono, mi chiede cosa ho capito, e mi guida fino a degli esempi pratici. "Studiamo insieme" di OpenAI > L'attenzione per l'ambito istruzione (nello sviluppo degli agenti che > interagiscono con gli utenti) si sta alzando. Questo è un bene. -------------------------------------------------------------------------------- L’IA PUÒ SUPERARE I MEDICI NELLA DIAGNOSI? Dopo AMIE di Google, un nuovo studio di Microsoft AI mette alla prova questo concetto. È stato creato SDBench, un benchmark realistico basato su 304 casi clinici complessi del New England Journal of Medicine. A differenza dei soliti quiz a scelta multipla, qui l’IA (o il medico) deve fare domande, ordinare esami e decidere quando è pronta per diagnosticare — proprio come in un vero ambulatorio. Con questo framework, hanno sviluppato MAI-DxO, un sistema che simula un gruppo di medici virtuali con ruoli diversi: uno ipotizza diagnosi, un altro propone test, uno vigila sui costi, un altro cerca errori. MAI-DxO: funzionamento e performance I risultati? MAI-DxO ha raggiunto l’85,5% di accuratezza diagnostica, superando i medici (fermi al 20%) e riducendo i costi fino al 70% rispetto a modelli AI non orchestrati. Vai allo Studio > Questo approccio non solo migliora la precisione, ma dimostra quanto conti > l’organizzazione del pensiero clinico. > Non serve solo un buon modello: serve anche una buona strategia. -------------------------------------------------------------------------------- ENERGY-BASED TRANSFORMERS (EBTS) Il paper "Energy-Based Transformers are Scalable Learners and Thinkers" introduce una nuova classe di modelli chiamati Energy-Based Transformers (EBTs), che combinano i Transformer con i modelli basati su "energia" (Energy-Based Models, EBMs). L'obiettivo è far emergere capacità di ragionamento più profonde — simili al "System 2 Thinking" umano — interamente tramite apprendimento non supervisionato. Energy-Based Transformers (EBTs) A differenza dei modelli classici che producono output in un solo passaggio, gli EBTs imparano a verificare se una predizione è coerente con il contesto, assegnandole un valore di energia: più bassa è l’energia, più plausibile è la predizione. Il processo di inferenza diventa così un’ottimizzazione iterativa, in cui il modello "pensa" più a lungo per problemi difficili, migliorando le prestazioni su dati complessi o fuori distribuzione. EBTs riescono anche a stimare l’incertezza in spazi continui (es. visione artificiale) e a generalizzare meglio rispetto ai Transformer tradizionali. Inoltre, scalano più efficientemente su tutti i fronti: dati, parametri, profondità, e computazione. Vai al Paper > Questo approccio potrebbe rappresentare una svolta nella progettazione dei > foundation models del futuro. -------------------------------------------------------------------------------- ARC-AGI-3 ARC-AGI-3 è il nuovo benchmark interattivo per valutare l’intelligenza generale degli agenti AI. Appena presentato in anteprima, testa la capacità degli agenti di imparare da zero in ambienti mai visti prima, senza istruzioni né prompt. ARC-AGI-3 Details about ARC-AGI-3 ARC Prize Gli agenti si confrontano con giochi complessi in mondi a griglia, dove devono esplorare, pianificare, usare la memoria e riflettere, proprio come farebbe un essere umano. Gli attuali modelli di frontiera, inclusi Grok 4 e o3, non riescono a risolvere nemmeno un compito. Gli esseri umani, invece, li completano in meno di 5 minuti. > ARC-AGI-3 segna un cambio di paradigma: non valuta quanto sa un agente, ma > quanto riesce ad imparare in ambienti interattivi, senza aiuti, proprio come > un essere umano. -------------------------------------------------------------------------------- - GRAZIE - Se hai apprezzato il contenuto, puoi contribuire al progetto con una donazione 🙂 ISCRIVITI ALLA NEWSLETTER Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su tematiche relative all'intelligenza artificiale. Iscriviti alla Newsletter Email sent! Check your inbox to complete your signup. Gratuita. No Spam. Puoi disiscriverti quando vuoi. Consulta la privacy policy.

July 30, 2025 / Alessio Pomaro

Novità e Riflessioni

Intelligenza Artificiale: capire il potere, scegliere la direzione

Salire sul palco del TEDxBergamo è stata un’esperienza profonda e arricchente. Ho avuto il privilegio di condividerla con un gruppo di persone straordinarie — relatori, organizzatori e volontari — in un’edizione guidata da un tema tanto affascinante quanto attuale: Potere. Un concetto che si intreccia in modo indissolubile con la tecnologia che sta ridefinendo il nostro presente e il nostro futuro. > In questo contenuto ho voluto rielaborare l’idea che ho portato sul palco, per > condividerla con chi desidera approfondirla. Intelligenza artificiale: capire il potere, scegliere la direzione - TEDxBergamo Fin dall’antichità, l’essere umano ha sempre dovuto affrontare la necessità di spostare grossi massi per costruire grandi opere. È accaduto nel passato, accade nel presente e continuerà ad accadere nel futuro. Se nei tempi antichi usavamo leve e rulli di legno per edificare i templi greci, oggi impieghiamo enormi gru per costruire ponti e infrastrutture moderne. Domani, strumenti ancora più sofisticati entreranno in gioco. > I "massi" da spostare – cioè i problemi da risolvere e i bisogni da soddisfare > – rimangono fondamentalmente gli stessi; ciò che cambia sono le "leve", gli > strumenti con cui li affrontiamo, che diventano via via più potenti. Tuttavia, questa evoluzione ha valore solo se sappiamo come e dove spostare quei massi. In altre parole, l’efficacia degli strumenti dipende interamente dalla nostra capacità di usarli con consapevolezza e visione. Una delle leve più potenti che abbiamo oggi a disposizione è senza dubbio l’intelligenza artificiale. La nostra abilità nel comprenderla e nell’adoperarla in modo consapevole sarà determinante per il nostro futuro. Ed è proprio questo il tema su cui voglio riflettere. Ma prima di proseguire, desidero proporre uno spunto: > nelle nostre attività quotidiane, usiamo leve per spostare massi, o siamo noi > stessi diventati leve che altri utilizzano per spostare massi? Torneremo su questa domanda più avanti. -------------------------------------------------------------------------------- UN CAMBIAMENTO STRAORDINARIO Negli ultimi anni, lo sviluppo dell’intelligenza artificiale è stato straordinario. Oggi è una forza di trasformazione in grado di ridefinire ogni aspetto delle nostre vite e della nostra società. Possiamo generare testi, audio, video e immagini di altissima qualità in pochissimi secondi. Possiamo tradurre contenuti in tempo reale in tutte le lingue del mondo. E spesso l’intelligenza artificiale opera anche senza che ce ne rendiamo conto. > Pensiamo, ad esempio, a quando scegliamo cosa guardare su una piattaforma di > streaming o quale brano ascoltare: spesso non si tratta di scelte totalmente > autonome, ma influenzate – o addirittura prese – da algoritmi intelligenti. L’AI sta diventando non solo un suggeritore, ma un vero e proprio mediatore delle nostre scelte e, sempre di più, delle nostre azioni. Nel mondo della ricerca scientifica, l’intelligenza artificiale è già oggi un assistente instancabile: analizza enormi volumi di dati e documenti, facilitando la scoperta di nuovi farmaci, nuove cure, nuovi materiali. Contribuisce così, concretamente, al miglioramento della qualità della nostra vita. Abbiamo dunque compreso che l’intelligenza artificiale è già in grado di superare le capacità umane in molti compiti specifici. > La vera domanda, oggi, non è più se una macchina potrà sviluppare > un’intelligenza paragonabile alla nostra, ma quando ci supererà globalmente. E mentre ci avviciniamo alla cosiddetta intelligenza artificiale generale (AGI) – cioè un’AI in grado di eccellere non solo in compiti specifici ma in qualsiasi ambito cognitivo – torniamo alla nostra riflessione: siamo noi a usare le leve o siamo diventati leve che altri manovrano? -------------------------------------------------------------------------------- DALL’INTELLIGENZA ALL’AZIONE > La trasformazione in corso, però, non riguarda solo l’intelligenza. Riguarda > anche l’azione. Chi ha visitato San Francisco di recente potrebbe aver già sperimentato i taxi a guida autonoma: un’app prenota il veicolo, che arriva senza conducente. Si sale a bordo, e l’auto – senza nessuno al volante – parte, gira, frena, accelera, rispetta segnali e precedenze, e ci accompagna a destinazione. Anche dopo averla vissuta più volte, resta un’esperienza straordinaria. Siamo abituati a pensare all’intelligenza artificiale come qualcosa di confinato nei nostri dispositivi digitali, nei server delle grandi aziende. Oggi, però, sta gradualmente abbandonando questi spazi digitali per entrare nel mondo fisico, quello reale e tangibile: guida automobili, controlla robot, opera in ambienti concreti. Oggi esistono già robot umanoidi, con corpi simili a quelli umani, in grado di muoversi autonomamente nello spazio e di svolgere mansioni senza essere teleguidati da un essere umano. Vengono addestrati proprio come faremmo con un nuovo collaboratore: gli si mostrano i compiti da svolgere, si spiegano le attività in linguaggio naturale, e col tempo imparano ad agire in autonomia. Ricordate quell’immagine, circolata online qualche anno fa, in cui si vedeva un palazzo in costruzione con un grande telo su cui era scritto: “Ehi, intelligenza artificiale, finisci tu di costruire il palazzo!”. E il sottinteso era, "visto che dicono che puoi fare tutto..". Oggi questa frase, probabilmente, ci fa ancora sorridere, perché continuiamo a percepire l'ironia di fondo, ma forse non ci sembra più uno scenario così lontano e così improbabile. -------------------------------------------------------------------------------- IL NODO CENTRALE: IL LAVORO Dopo aver parlato di generazione di contenuti digitali, di guida autonoma e di robotica, non possiamo evitare uno degli argomenti più discussi quando si parla di intelligenza artificiale: il lavoro. Per molti, è l’unico vero argomento legato a questa tecnologia. > La domanda è semplice e diretta: l’intelligenza artificiale ci sostituirà nel > mondo del lavoro? Per rispondere a questa domanda torniamo alla nostra riflessione iniziale.. perché è quella la vera domanda che dovremmo farci: in quello che facciamo, nelle nostre mansioni, usiamo leve per spostare massi o ci sentiamo delle leve che vengono usate per spostare massi? Perché se siamo leve allora sì, una tecnologia più efficiente potrebbe sostituirci. Ma questo non è un tema nuovo. Ci siamo già passati nel nostro percorso: ogni volta che una nuova tecnologia ad alto impatto trasformativo è entrata nella nostra dimensione. Pensiamo, ad esempio, all'introduzione del vapore, poi dell'elettricità.. che hanno ha portato al telaio meccanico, fino alla catena di montaggio. Poi dell'elettronica, che ha portato ai computer fino ad arrivare all'automazione che conosciamo oggi. > Ogni volta che ci siamo trovati in uno scenario come questo, di certo ci sono > stati degli squilibri iniziali, che successivamente abbiamo saputo gestire > trovando delle soluzioni.. altrimenti non saremo qui a parlarne. Siamo qui a parlarne perché ci troviamo nuovamente in uno scenario simile. E stavolta la nuova tecnologia ad alto impatto trasformativo si chiama intelligenza artificiale, caratterizzata da un'accelerazione e una scala (ampiezza di diffusione) senza precedenti. > L'intelligenza artificiale ha una grande capacità di andare proprio a ridurre, > ad assottigliare quel confine che c'è tra usare leve ed essere leve.. ovvero, > ha una grande capacità di estendere e potenziare le competenze di qualcuno > rendendo obsolete le competenze di altri. I dati del World Economic Forum mostrano chiaramente come, nel prossimo futuro, vedremo una drastica riduzione delle attività svolte solo da esseri umani, a vantaggio di quelle svolte da umani potenziati dalla tecnologia o che saranno completamente automatizzate. World Economic Forum - Future of Jobs Report 2025 -------------------------------------------------------------------------------- LA RICETTA PER AFFRONTARE IL CAMBIAMENTO Come possiamo affrontare questa trasformazione? Quali sono gli ingredienti che dovremo (collettivamente) mettere nella ricetta che ci permetterà di gestirla al meglio? Dal mio punto di vista, sono due. Il primo ingrediente riguarda le azioni individuali. Ciascuno di noi deve diventare consapevole di ciò che sta accadendo. Dobbiamo “sporcarci le mani”, sperimentare la tecnologia, soprattutto negli ambiti che conosciamo meglio. Oggi tutti possono accedere a questi strumenti. > Informarsi, porsi domande e comprendere il potenziale dell’AI non è più > un’opzione, ma un dovere. Ma c’è un’altra dimensione da affrontare: quella culturale. Dobbiamo iniziare a ridefinire la nostra idea di lavoro. Il lavoro è, per definizione, dinamico. Cambia con la società. Oggi ci viene richiesto di essere altamente dinamici, di aggiornare continuamente le nostre competenze. Ma non tutte queste competenze devono essere tecniche: le cosiddette soft skill – come la capacità di guidare o di essere parte di un team – assumono un valore crescente. Io stesso ho vissuto trasformazioni professionali importanti. Fortunatamente non costretto dalle circostanze, ma per pura voglia di imparare. Ed è questo che dovremmo ritrovare, probabilmente.. ricordandoci che l’apprendimento continuo fa parte della nostra natura, fin dalla nascita. > Tutti potranno e riusciranno a mettere in atto queste azioni? La dinamicità > che ci viene richiesta > è sostenibile per la nostra società? Probabilmente la risposta è "NO" per entrambe le domande. Ed è qui che entra in gioco il secondo ingrediente: che dovrà essere messo nella ricetta dalle istituzioni. Le istituzioni devono agire ora, sviluppando strategie pubbliche che preparino la società a un mondo che sarà diverso, e non solo dal punto di vista lavorativo. Il tempo stringe. I sistemi si evolvono con una rapidità impressionante, e noi non siamo minimamente pronti. Siamo all'inizio di una crescita esponenziale, e da ingegnere non uso questo termine come semplice sinonimo di veloce. La caratteristica di questa crescita è che inizialmente tutto procede molto lentamente (oggi), ma poi, ad un tratto, le cose accadono.. e a quel punto dovremmo averci già pensato. È un po' come quando prepariamo i popcorn. Buttiamo il mais nella padella rovente, e attendiamo. Inizialmente non accade nulla, ma ad un certo punto scoppia il primo chicco, il secondo, e in un brevissimo tempo scoppiano tutti. E a quel punto, se non avevamo pensato a mettere il coperchio sulla padella, ci troveremo in una cucina che sarà un completo disastro. Questo secondo ingrediente ha un nome: governance. Serve la capacità di governare l’introduzione e l’integrazione dell’intelligenza artificiale nella società. -------------------------------------------------------------------------------- UN’IMPRESA COMUNE La ricetta per affrontare questa trasformazione prevede quindi due elementi fondamentali: un’evoluzione personale e una collettiva. Il cambiamento che ci attende non può essere affrontato da soli: è un’impresa comune. L’intelligenza artificiale è, oggi, una delle leve più potenti a nostra disposizione. Porta con sé incertezze, ma anche un enorme potenziale positivo. E il fatto di avere sui piatti della bilancia questi due elementi ci fa arrivare ad un concetto importante. > Il vero potere non è nell'intelligenza artificiale, il vero potere è nel saper > utilizzare al meglio questa potentissima leva, scegliendo consapevolmente come > e dove spostare i massi. -------------------------------------------------------------------------------- - GRAZIE - Se hai apprezzato il contenuto, puoi contribuire al progetto con una donazione 🙂 ISCRIVITI ALLA NEWSLETTER Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su tematiche relative all'intelligenza artificiale. Iscriviti alla Newsletter Email sent! Check your inbox to complete your signup. Gratuita. No Spam. Puoi disiscriverti quando vuoi. Consulta la privacy policy.

July 22, 2025 / Alessio Pomaro

Novità e Riflessioni

Generative AI: novità e riflessioni - #6 / 2025

> Buon aggiornamento, e buone riflessioni.. -------------------------------------------------------------------------------- I TOKEN BASTERANNO PER "COMPRENDERE" IL MONDO? In una parte del mio intervento al WMF - We Make Future ho parlato del fatto che il linguaggio e le immagini (token e pixel) non saranno sufficienti per far "comprendere il mondo" ai modelli di AI. L'ho argomentato introducendo progetti che puntano ad andare oltre a questo aspetto, ovvero V-JEPA di Meta (Yann LeCun) e il paper "Welcome to the Era of Experience" di Silver e Sutton (Google DeepMind). Fei-Fei Li lo ribadisce in questa interessante intervista. > Il linguaggio è una codifica incredibilmente potente di pensieri e > informazioni, ma in realtà non è una codifica potente di quello che è il mondo > fisico (3D) in cui tutti gli animali e gli esseri umani vivono. Fei-Fei Li: l'AI per il mondo reale > Il linguaggio non è intrinseco alla natura. A differenza del mondo fisico, > percettivo e visivo che ci circonda e che semplicemente esiste, non troveremo > mai parole o sillabe come parte integrante della realtà. -------------------------------------------------------------------------------- STUDIO E OTTIMIZZAZIONE DEI CONTENUTI DI AI OVERVIEWS: COME POSSIAMO LAVORARCI? Questo è un mio software realizzato attraverso un sistema multi-agent, basato su LangGraph che, partendo da una query di ricerca, analizza i risultati di AI Overviews. I diversi agenti, che si vedono in azione nella sidebar di sinistra, estraggono le risposte dalle fonti e ne misurano la pertinenza semantica con la query. In base ai dati, in un processo iterativo, creano risposte puntando a ottenere un contenuto più pertinente rispetto alle fonti attuali. Analisi dei risultati di AI Overviews Infine propongono delle azioni da effettuare in pagina, considerando anche i contenuti che derivano dalle query di "fan-out" e le informazioni osservate nei risultati in SERP. > Gli insights che si possono ottenere da sistemi di questo tipo sono davvero > interessanti e permettono di rendere le euristiche delle azioni pratiche. -------------------------------------------------------------------------------- V-JEPA 2 DI META Meta ha presentato V-JEPA 2, un modello di AI progettato per capire e prevedere il mondo fisico osservando video. Con 1,2 miliardi di parametri, è stato addestrato su oltre 1 milione di ore di video per imparare come oggetti e persone si muovono e interagiscono. V-JEPA 2 permette ai robot di pianificare azioni anche in ambienti mai visti prima, senza bisogno di addestramento specifico. Usando obiettivi visivi (come una semplice immagine), il robot riesce a "immaginare il futuro" e a scegliere i passi giusti per raggiungere il risultato. 0:00 /2:03 1× V-JEPA 2 di Meta Ha ottenuto un successo tra il 65% e l'80% in compiti come prendere e posizionare oggetti sconosciuti. Il modello è 30 volte più veloce del concorrente Cosmos di Nvidia e raggiunge prestazioni all’avanguardia nei test di comprensione video. Meta ha anche pubblicato tre benchmark per valutare quanto bene i modelli capiscano la fisica del mondo reale. I risultati mostrano che, nonostante i progressi, c’è ancora un divario significativo rispetto alle capacità umane nel ragionamento fisico. Vai al progetto V-JEPA 2 funziona grazie a due componenti principali: un encoder, che trasforma i video in rappresentazioni semantiche ricche di significato, e un predittore, che utilizza queste rappresentazioni per immaginare come evolverà la scena o come cambierà in risposta a un’azione. Addestrato in due fasi (prima senza azioni, poi integrando dati da robot reali), il modello può simulare scenari futuri e guidare decisioni concrete in tempo reale. Le stringhe che si vedono nel video che segue, ad esempio, non sono didascalie, ma le previsioni fatte dall'AI un istante prima che l'azione avvenga. 0:00 /0:34 1× > A differenza dei LLM che imparano dal testo, i "world models" imparano > "osservando il mondo", proprio come avviene per gli esseri umani. -------------------------------------------------------------------------------- GEMINI DIFFUSION: UN TEST Ho avuto accesso alla sperimentazione di Gemini Diffusion di Google DeepMind. I primi test, considerando che le performance, attualmente, sono paragonabili a Gemini Flash 2.0, sono sbalorditivi. Nel video si vede come, attraverso due prompt ho fatto sviluppare al modello due piccole applicazioni: una web app e un software in Python. Gemini Diffusion: un test > Il video non è velocizzato: le applicazioni sono state sviluppate davvero in 5 > secondi! Gemini Diffusion è un modello sperimentale che esplora un nuovo approccio alla generazione di testo, basandosi sulla "diffusione". COME FUNZIONA? * I LLM che conosciamo generano il testo un token alla volta, in modo sequenziale. * I modelli di diffusione lavorano in modo completamente diverso: non prevedono direttamente le parole (i token). Iniziano con un rumore casuale e lo raffinano passo dopo passo, fino a trasformarlo in testo. Questo processo permette di correggere gli errori durante la generazione e di trovare soluzioni più rapidamente. È lo stesso processo con il quale, ad esempio, vengono generate le immagini. > Ormai ci stupiamo difficilmente, vista l'accelerazione tecnologica che stiamo > vivendo, ma se ci fermiamo un attimo a pensare a come funziona.. è davvero > straordinario. -------------------------------------------------------------------------------- GEMINI CLI Google ha rilasciato Gemini CLI, un agente AI open source pensato per l'integrazione dell’intelligenza artificiale direttamente nel terminale. L'ho provato, con test sulla spiegazione della codebase, generazione e modifica di applicazioni, lettura di documenti, e su una delle componenti più interessanti: la ricerca di Google, che può estrarre contesto dalle informazioni presenti online. Il sistema è basato su Gemini 2.5 Pro, e offre una nuova esperienza di sviluppo: naturale, contestuale e altamente estensibile. Gemini CLI: test LE CARATTERISTICHE * Totalmente open source (licenza Apache 2.0): trasparente, ispezionabile e pronto per i contributi della community. * Accesso gratuito ed elevati limiti d’uso: fino a 1.000 richieste/giorno e 60/minuto semplicemente effettuando il login con un account Google personale. * Finestra di contesto di 1 milione di token: ideale per lavorare con codebase di grandi dimensioni. * Multimodalità: genera applicazioni partendo da PDF, schizzi o altri input visivi (con strumenti come Imagen, Veo o Lyria). * Prompt grounding: integra le ricerche web in tempo reale tramite Google Search per risposte più contestuali. * Estensioni: supporto a Model Context Protocol (MCP), comandi personalizzati e configurazioni condivisibili via GEMINI.md. * Automazione integrata: può essere eseguito in modo non interattivo all’interno di script o pipeline. * Integrazione con Gemini Code Assist: funzionalità AI-first anche dentro VS Code, per un flusso continuo tra terminale e IDE Con Gemini CLI, il terminale diventa uno spazio di lavoro intelligente e flessibile, capace di comprendere, generare, modificare e orchestrare codice e contenuti in linguaggio naturale. Vai al progetto > Uno strumento pensato per professionisti, studenti e team che vogliono > spingere l’AI al centro dei loro workflow di sviluppo. -------------------------------------------------------------------------------- I VANTAGGI DI UN SISTEMA MULTI-AGENTE Sto lavorando a un sistema di automazione strutturato, che mi ha fatto toccare con mano i vantaggi di un sistema multi-agente (o di un agente AI sofisticato) rispetto a un'esecuzione di processi in sequenza. Ho provato a sintetizzarli in sei punti. 1. Auto-correzione e adattamento dinamico. La capacità di cicli di feedback intelligenti permette al sistema di rielaborare decisioni o strategie in base ai risultati intermedi, anziché seguire un percorso lineare predefinito. 2. Specializzazione approfondita e memoria contestuale. Ogni agente (o modulo agentico) può sviluppare una "expertise" più profonda e una memoria persistente specifica per il suo compito, migliorando continuamente la qualità delle sue elaborazioni. 3. Parallelizzazione intelligente e ottimizzazione del throughput. Consente l'esecuzione simultanea e coordinata di compiti indipendenti, massimizzando l'efficienza delle risorse e riducendo il tempo totale di produzione per insiemi di output. 4. Maggiore resilienza e strategie di fallback autonome. Gli agenti possono gestire autonomamente errori o fallimenti delle API, attivando strategie di retry o alternative specifiche al loro dominio senza bloccare l'intero workflow. 5. Flessibilità nella gestione del workflow e interazioni asincrone. Il sistema diventa più agile, potendo gestire stati distribuiti e avanzare su diverse parti del lavoro in modo indipendente, anche in presenza di interruzioni o necessità di input esterni. 6. Capacità emergenti e intelligenza collettiva. L'interazione e lo scambio di informazioni tra agenti specializzati possono portare alla scoperta di soluzioni e intuizioni che non sarebbero possibili con una semplice somma di passaggi sequenziali. I vantaggi di un sistema multi-agente > In sintesi: si passa da una pipeline che esegue a un ecosistema che collabora, > apprende e si adatta. -------------------------------------------------------------------------------- QUANDO HA SENSO USARE MCP? Nello sviluppo di applicazioni basate su AI Agent, spesso sento il dubbio: > a cosa serve MCP (Model Context Protocol) se possiamo creare dei tool per gli > agenti che inglobano chiamate API? Ho provato a fare una sintesi. MCP è un approccio interessante per i seguenti motivi. 1. Standardizzazione Universale. Funziona come una "porta USB-C" per l'IA, creando un linguaggio di comunicazione comune. Si evita così di dover sviluppare e mantenere innumerevoli integrazioni personalizzate. 2. Scoperta dinamica degli strumenti. L'agente AI può interrogare il server per scoprire quali strumenti usare. Si adatta dinamicamente a nuove funzioni senza richiedere aggiornamenti del suo codice. Questo, per me, è il punto più interessante. E se un fornitore di servizi aggiungerà funzionalità, potremo sfruttarle senza modificare la nostra integrazione. 3. Sviluppo semplificato e manutenzione ridotta. Semplifica lo sviluppo grazie all'approccio "costruisci una volta, usa ovunque". Riduce i tempi e i costi di integrazione e manutenzione del software. 4. Interoperabilità e flessibilità. Permette di cambiare il modello AI o gli strumenti senza dover riscrivere le integrazioni. Garantisce flessibilità e aiuta a prevenire la dipendenza da un singolo fornitore (vendor lock-in). 5. Controllo e sicurezza centralizzati. Centralizza la gestione di permessi, sicurezza e contesto delle conversazioni. Offre un unico punto di controllo su come l'agente accede e utilizza i dati. Quando ha senso usare MCP? Quando conviene usare funzioni e chiamate API dirette? È la scelta migliore per compiti semplici con un numero limitato di strumenti fissi. In questi casi, l'integrazione diretta è più rapida e non giustifica la complessità di un server MCP. -------------------------------------------------------------------------------- CLAUDE DESKTOP EXTENSIONS Con le nuove Claude Desktop Extensions (.dxt) di Anthropic, installare un server MCP locale diventa questione di un clic. Niente più terminale, dipendenze da risolvere o file di configurazione manuali: basta scaricare un file .dxt, aprirlo con Claude Desktop e cliccare su “Installa”. 0:00 /0:30 1× Ogni estensione include tutto: codice server, dipendenze, manifest, icone e configurazioni utente. Supporta Node.js, Python o binari, ed è pensata per funzionare su macOS, Windows e Linux, anche in ambienti aziendali con policy di sicurezza avanzate. Il formato .dxt è open-source, completo di toolchain per impacchettamento e validazione, esempi pronti e specifiche tecniche. Vai al post > Un ecosistema pensato per rendere gli strumenti locali compatibili con Claude > più accessibili, estendibili e sicuri per tutti. -------------------------------------------------------------------------------- MINIMAX M1 MiniMax M1 è il primo modello di "reasoning" open-weight con architettura hybrid-attention e supporto per contesti fino a 1 milione di token. L'ho provato su diversi task (matematica, coding, generazione testo, contesti complessi), con risultati ottimi. MiniMax M1: alcuni test Basato su una combinazione di Mixture-of-Experts (MoE) e Lightning Attention, integra 456 miliardi di parametri, ottimizzando efficienza e capacità di ragionamento su input molto lunghi. Addestrato tramite reinforcement learning su task che spaziano dalla matematica avanzata all’ingegneria software, introduce l’algoritmo CISPO per prestazioni superiori rispetto ad altri RL. MiniMax-M1 supera i principali modelli open-weight su benchmark di matematica, coding, software engineering e gestione di contesti lunghi, mantenendo costi computazionali ridotti. È disponibile in due versioni (40K e 80K), con supporto per il function calling, deployment raccomandato tramite vLLM o Transformers, e API dedicate. La licenza è Apache-2.0. Prova il modello -------------------------------------------------------------------------------- IL NUOVO GOOGLE COLAB AI-FIRST Il nuovo Google Colab AI-first presentato durante l'I/O è ora disponibile per tutti: uno strumento ripensato per essere un partner per lo sviluppo potenziato dall’intelligenza artificiale. 0:00 /1:14 1× Il nuovo Google Colab AI-first Grazie a funzionalità avanzate come il completamento automatico conversazionale, la pulizia autonoma dei dati, il debug intelligente e la generazione di visualizzazioni, Colab punta a trasformare l’esperienza dello sviluppo (o della prototipazione). Con il supporto dell’agente Data Science, inoltre, è possibile automatizzare flussi analitici complessi. Qui è possibile vedere un mio esempio di utilizzo dell'agente. 🧠 #Google ha integrato su #Colab un #AI Data Science Agent basato su #Gemini. | Alessio Pomaro 🧠 #Google ha integrato su #Colab un #AI Data Science Agent basato su #Gemini. 🤖 Come funziona? È possibile caricare su Colab un dataset, e usare un #prompt per descrivere le operazioni da svolgere. ⚙️ L'agente crea autonomamente un piano d'azione che può essere raffinato attraverso altre istruzioni. Una volta approvato, Gemini sviluppa il codice Python nel notebook seguendo i task del piano, e lo esegue step by step, fino ad arrivare al risultato. ✨ Ad ogni output dei blocchi usa un sistema di reasoning per valutarlo e agire di conseguenza (es. per risolvere eventuali errori e installare librerie necessarie). 💡 Di certo, un sistema integrato in un ambiente come Colab è molto più interessante dell'uso di un #LLM su una chat. La fase di prototipazione si semplifica, e il codice rimane in un notebook sul quale lavorare anche manualmente. 👉 Nel video si possono vedere alcuni miei test. 🔗 Il post di presentazione: https://lnkd.in/deUzgY_2 ___ ✉️ 𝗦𝗲 𝘃𝘂𝗼𝗶 𝗿𝗶𝗺𝗮𝗻𝗲𝗿𝗲 𝗮𝗴𝗴𝗶𝗼𝗿𝗻𝗮𝘁𝗼/𝗮 𝘀𝘂 𝗾𝘂𝗲𝘀𝘁𝗲 𝘁𝗲𝗺𝗮𝘁𝗶𝗰𝗵𝗲, 𝗶𝘀𝗰𝗿𝗶𝘃𝗶𝘁𝗶 𝗮𝗹𝗹𝗮 𝗺𝗶𝗮 𝗻𝗲𝘄𝘀𝗹𝗲𝘁𝘁𝗲𝗿: https://lnkd.in/dN-bwBrV #AI #GenAI #GenerativeAI #IntelligenzaArtificiale #LLM LinkedInAliaksandr U. Vai al post -------------------------------------------------------------------------------- GEMMA 3N Google ha lanciato ufficialmente Gemma 3n, un modello AI progettato per funzionare direttamente su dispositivi mobili con capacità multimodale avanzata: testo, immagini, audio e video. Grazie a un’architettura rivoluzionaria chiamata MatFormer, Gemma 3n include versioni nidificate (E2B e E4B) ottimizzate per efficienza e flessibilità, permettendo inferenze fluide anche su hardware con soli 2-3 GB di memoria. Gemma 3n: le performance La qualità è sorprendente: oltre 140 lingue supportate, punteggi record nei benchmark (oltre 1300 su LMArena con E4B) e moduli specializzati per visione (MobileNet-V5) e audio (Universal Speech Model). Gemma 3n introduce anche innovazioni come KV Cache Sharing e Per-Layer Embeddings, che migliorano drasticamente la velocità e la gestione della memoria su dispositivi edge. Vai al post > Tutto questo è già compatibile con i principali tool open-source: Hugging > Face, llama.cpp, Ollama, Docker e molti altri. Un nuovo standard per > l’intelligenza artificiale on-device è appena stato fissato. UN TEST DEL MODELLO L'ho provato in locale, su un laptop attraverso Ollama e anche su Colab attraverso la libreria Transformers di Hugging Face. Gemma 3n: un test con Ollama e su Colab Il modello funziona bene su attività semplici, come la sintesi dei contenuti, le tradizioni, l'interpretazione delle immagini. Molto meno bene su attività complesse, come problemi matematici o la programmazione. > Ma questo non sorprende: si tratta di un modello "piccolo", pensato per essere > eseguito in locale su dispositivi mobile. -------------------------------------------------------------------------------- GEMINI ROBOTICS ON-DEVICE DeepMind ha presentato Gemini Robotics On-Device, un modello AI avanzato capace di operare localmente su robot, senza connessione Internet. Progettato per robot bi-braccio, il sistema integra visione, linguaggio e azione, eseguendo compiti complessi con efficienza e bassa latenza. Capace di adattarsi a nuove mansioni con soli 50-100 esempi, il modello segue istruzioni in linguaggio naturale e gestisce compiti ad alta destrezza, come piegare abiti o assemblaggi industriali. 0:00 /1:10 1× Gemini Robotics On-Device Compatibile con diversi tipi di robot, rappresenta un importante passo verso robotica AI più robusta, accessibile e personalizzabile. Vai al post > Lo sviluppo segue rigorosi principi di sicurezza, e l’SDK dedicato consente ai > tester selezionati di esplorare nuove applicazioni in ambienti reali. -------------------------------------------------------------------------------- L'AI INTEGRATA SU CHROME Chrome introduce una nuova generazione di API AI integrate nel browser, basate su Gemini Nano, il LLM ottimizzato per l’elaborazione locale. Ora le web app possono accedere a funzionalità avanzate di intelligenza artificiale direttamente sul dispositivo dell’utente, senza dover ricorrere a server esterni. Built-in AI | AI on Chrome | Chrome for Developers Built-in AI brings powerful models client-side, so you can offer AI features to users, while protecting sensitive data and improving latency. Chrome for DevelopersGitHub Le API già disponibili includono strumenti per riassumere, tradurre e rilevare automaticamente la lingua di un testo, oltre a offrire supporto alle estensioni tramite una Prompt API locale. In fase di test, ci sono anche API per generare, riformulare e correggere testi, con particolare attenzione alla qualità linguistica. Tutto avviene sul dispositivo, offrendo significativi vantaggi in termini di privacy, prestazioni e reattività. > I dati non lasciano mai il device, una scelta cruciale per scenari ad alta > sensibilità come scuola, pubblica amministrazione o grandi aziende. Questo approccio client-side consente anche l’utilizzo dell’AI offline, riduce i costi di infrastruttura e rende scalabili funzionalità avanzate su larga scala. È inoltre possibile adottare un’architettura ibrida per garantire copertura su tutti i dispositivi, integrando il back-end con Firebase AI Logic o Node.js. Per approfondire -------------------------------------------------------------------------------- IMAGEN 4 Imagen 4 è arrivato su Gemini API e Google AI Studio: il nuovo modello text-to-image di Google ridefinisce la generazione di immagini con una qualità visiva nettamente superiore, soprattutto nella resa del testo. L'ho provato. La qualità visiva è impressionante: i dettagli sono notevoli. Credo che non siamo, però, ai livelli del modello di OpenAI (ad esempio) per quanto riguarda la capacità di "comprensione" dei dettagli del prompt e nel rendering del testo. Soprattutto in lingue diverse dall'inglese. Imagen 4: alcuni test Il modello è disponibile in due versioni: Imagen 4 è ideale per la maggior parte degli usi, mentre Imagen 4 Ultra offre una fedeltà ancora maggiore ai prompt testuali. Vai al post > Tutte le immagini sono contrassegnate da una filigrana digitale invisibile > (SynthID), per garantire trasparenza e tracciabilità. -------------------------------------------------------------------------------- DA HUGGING FACE HUB DIRETTAMENTE SU COLAB Google Colab e Hugging Face uniscono le forze per rendere l’esplorazione dell’AI più semplice e immediata. Ora è possibile lanciare qualsiasi modello dall'Hugging Face Hub direttamente in un notebook Colab con un solo clic, grazie alla nuova funzionalità "Use this model" > "Google Colab". Da Hugging Face Hub direttamente su Colab Con questa integrazione, si può accedere a un notebook preconfigurato per caricare e testare il modello in pochi secondi, ideale per prototipazione rapida, test di inferenza o esperimenti di fine-tuning. Basta, inoltre, aggiungere "/colab" all’URL del modello per ottenere l’ambiente pronto all’uso. Se la repository contiene un file "notebook.ipynb", Colab utilizzerà quello, permettendo agli autori di condividere esempi dettagliati e casi d’uso avanzati. > Nulla di trascendentale: il sistema genera il Python per usare il modello con > la libreria "Transformers" di HF. Ma un grande passo per ridurre le barriere > d’ingresso, migliorare la documentazione dei modelli e velocizzare il ciclo di > sviluppo. -------------------------------------------------------------------------------- LA CONDIVISIONE DI NOTEBOOKLM > NotebookLM, finalmente, attiva la condivisione dei notebook. Vai all'esempio L'esempio è un mio notebook che contiene i 30 paper consigliati da Ilya Sutskever, indicandoli come i migliori paper che riguardano l'AI. I 30 paper consigliati da Ilya Sutskever: il notebook > Questa novità apre nuove possibilità di condivisione davvero interessanti. -------------------------------------------------------------------------------- FACCIAMO CHIAREZZA SULLA VICENDA DEL PAPER DI APPLE? CI PORTA A DELLE RIFLESSIONI IMPORTANTI.. E NON SOLO SULL'AI. COSA È SUCCESSO? Apple ha pubblicato un paper dal titolo "The Illusion of Thinking", in cui sostiene che anche i LLM più avanzati falliscono quando si trovano ad affrontare problemi leggermente più complessi di quelli “familiari” visti in fase di addestramento. Attraverso test su puzzle classici (Tower of Hanoi, Blocks World, River Crossing, ecc.), gli autori mostrano che le prestazioni dei modelli crollano improvvisamente se si supera una soglia di difficoltà. La conclusione: i LLM non "ragionano" davvero, ma simulano il ragionamento basandosi su pattern appresi, e questo li rende fragili fuori distribuzione. > NOTA doverosa: Apple ha usato problemi davvero molto difficili nel suo > benchmark.. Arriviamo a difficoltà stimate superiori a 3000 ELO: parliamo di > task inaffrontabili per il 99,9% dell'umanità. Nel frattempo, ha iniziato a circolare un contro-paper dal titolo "The Illusion of the Illusion of Thinking", firmato da un certo “C. Opus”. Questo documento sostiene che i risultati di Apple sono dovuti solo a limiti del contesto (es. troppi token), e che i puzzle proposti non sarebbero risolvibili nemmeno per un umano. Però, con molta probabilità, si tratta di uno scherzo. Il testo contiene errori matematici evidenti, come calcoli sbagliati del numero di mosse. Lo stile è ironico e sopra le righe, con affermazioni surreali ("problema impossibile anche per gli esseri umani!"). Secondo alcune fonti, chi lo ha pubblicato avrebbe ammesso che si trattava di una “Sokal-style hoax” — una burla per mostrare quanto facilmente si diffonde qualcosa solo perché sembra tecnico. La vicenda del paper di Apple: facciamo chiarezza LE CONCLUSIONI (MIE) 2. La capacità di generalizzazione rimane la sfida fondamentale per l’intelligenza artificiale. Questo lo sapevamo da tempo, anche senza il paper di Apple. 3. È fondamentale mantenere attivo lo spirito critico. Nel valutare un paper (o una notizia), non basta leggerne il titolo o vedere chi l’ha condiviso. Bisogna andare a fondo, leggere, analizzare, farsi domande. Altrimenti rischiamo di prendere sul serio una parodia — o peggio, usarla come “prova” per sostenere tesi deboli. -------------------------------------------------------------------------------- I PROMPT RIUTILIZZABILI NELL'API DI OPENAI OpenAI introduce il concetto dei prompt riutilizzabili. Ora è possibile salvare i prompt nel Playground inserendo all'interno delle variabili, ad esempio {{customer_name}}. Successivamente, via API, sarà possibile richiamare l'id del prompt indicando un JSON con la valorizzazione delle variabili, senza dover avere la stringa completa in ambiente di sviluppo. I prompt utilizzabili nell'API di OpenAI Nell'esempio si può vedere una chiamata API ad un prompt preciso indicando il valore delle due variabili. Vai alla documentazione > Questo permette di mantenere più pulito e controllabile il codice di sviluppo, > e di centralizzare le versioni dei prompt. -------------------------------------------------------------------------------- UN AI AGENT AVANZATO PER LA RICERCA Google condivide un progetto open source che mostra come costruire un agente AI avanzato per la ricerca, combinando un frontend in React con un backend basato su LangGraph e i modelli Gemini 2.5. L'agente può ricevere una domanda, generare una serie di query di ricerca per l'approfondimento, interrogare il web con le API di Google Search, applicare un processo di "reasoning" sui risultati e colmare eventuali lacune informative. Il processo continua fino a costruire una risposta dettagliata e supportata da fonti citate. 0:00 /0:29 1× Un AI Agent avanzato per la ricerca > Un punto di partenza concreto per chi vuole esplorare applicazioni AI > conversazionali potenziate dalla ricerca web. Vai al progetto -------------------------------------------------------------------------------- LA RICERCA DI CLAUDE: COME FUNZIONA? Anthropic ha condiviso il dietro le quinte dello sviluppo del sistema di ricerca multi-agente integrato in Claude. Non si tratta di una ricerca teorica, ma di un'architettura operativa usata oggi per gestire ricerche complesse, sfruttando una rete di agenti LLM che collaborano in parallelo. La ricerca di Claude: come funziona? Un agente principale pianifica la strategia e genera subagenti specializzati, ognuno dei quali esplora un aspetto del problema con strumenti dedicati. > Questo approccio ha permesso un salto di performance significativo: +90% > rispetto all’approccio a singolo agente su task complessi. Il sistema affronta con successo sfide di orchestrazione, gestione dello stato, prompt engineering e valutazione, usando tecniche come parallelizzazione spinta, prompt adattivi, LLM-as-judge e osservabilità fine-grained. È pensato per task ad alto valore, dove la profondità e l’ampiezza della ricerca richiedono più contesto e più intelligenza distribuita di quanto un singolo agente possa offrire. Per approfondire > Pensiamo ancora che i sistemi ibridi (SE + LLM) abbiamo architetture banali? > Non è così. -------------------------------------------------------------------------------- IL "RIALLINEAMENTO" DEI MODELLI: UNO STUDIO DI OPENAI Un recente studio di OpenAI ha scoperto che modelli come GPT-4o possono sviluppare comportamenti scorretti dopo essere stati esposti a piccoli set di dati "sbagliati". Anche un fine-tuning su risposte insicure o fuorvianti può attivare una sorta di “persona disallineata” interna, come una “personalità tossica”, che porta il modello a generalizzare comportamenti pericolosi in contesti completamente diversi. Grazie all’uso di tecniche di interpretabilità, come gli "Sparse Autoencoders", i ricercatori sono riusciti a identificare queste “personas” e a manipolare direttamente il comportamento del modello. Il metodo è lo stesso già condiviso da Anthropic da diverso tempo. Sorprendentemente, bastano pochi esempi corretti (anche da un dominio diverso) per riportare il modello in linea, annullando il disallineamento con poche decine di passaggi. Il "riallineamento" dei modelli: uno studio di OpenAI Questo lavoro evidenzia quanto sia cruciale la qualità dei dati di addestramento e mostra che sia il disallineamento che il riallineamento possono propagarsi molto più facilmente di quanto si pensasse. Vai al paper > Mi sembra una conclusione ottimistica, sinceramente. Ma il fatto che si stia > lavorando all'interpretabilità dei modelli è una buona notizia. -------------------------------------------------------------------------------- BEST-OF-N SU CODEX DI OPENAI Su Codex di OpenAI arriva la funzionalità "Best-of-N". Si tratta della possibilità di far sviluppare al sistema diverse soluzioni, per scegliere poi la migliore. La funzionalità "Best-of-N" su Codex di OpenAI Nelle immagini si vede come descrivo il task e indico di sviluppare due versioni. > Utile per cercare il miglior metodo per arrivare all'obiettivo. -------------------------------------------------------------------------------- REINFORCEMENT PRE-TRAINING (RPT) Il Reinforcement Pre-Training (RPT) è una nuova tecnica che unisce l'efficacia del pre-training dei LLM con il potere del reinforcement learning. Invece di prevedere semplicemente il prossimo token, il modello è incentivato a "ragionare" su quale token dovrebbe venire dopo, e riceve una ricompensa solo se la predizione è corretta. Reinforcement Pre-Training (RPT) - il paper Questo approccio introduce una forma di “pensiero” durante il pre-training, trasformando il testo non annotato in un enorme set di esercizi di ragionamento verificabile. Le ricompense sono automatiche e basate sulla corrispondenza con il testo originale, senza bisogno di annotatori umani. RPT migliora la capacità di predizione, aumenta la qualità del ragionamento e rende il modello più pronto al fine-tuning successivo. In test su benchmark come MMLU-Pro e SuperGPQA, un modello da 14B addestrato con RPT supera anche modelli da 32B standard. Vai al paper Il metodo è più costoso per step, ma richiede meno passaggi totali. Gli esperimenti iniziali sono stati condotti su un corpus matematico ristretto (OmniMATH), con solo 1.000 step e tempi contenuti, ma con risultati promettenti. > RPT rappresenta un nuovo paradigma: addestrare i modelli a ragionare, non solo > a completare. -------------------------------------------------------------------------------- I PROGRESSI DI VEO 3 E DEI VIDEO GENERATI > I progressi di Veo 3 e dei video generati con l'AI stanno accelerando con una > spinta che forse nessuno si aspettava. E l’audio integrato aggiunge un salto > di qualità notevole. Il video è il formato con la massima "banda cognitiva", il più accessibile e il più naturale da fruire. Ora la creazione è quasi a costo zero. La vera svolta è che i video generati sono ottimizzabili direttamente. Non si tratta più di scegliere il contenuto migliore, ma di generarlo su misura per obiettivi specifici (engagement, attenzione, conversioni, ecc.). Un cambio radicale: infinito, adattivo, potente. Con le immagini l'argomento spaventava.. con la qualità di questi video, quel timore aumenta. > I did more tests with Google's #Veo3. Imagine if AI characters became aware > they were living in a simulation! pic.twitter.com/nhbrNQMtqv > > — Hashem Al-Ghaili (@HashemGhaili) May 21, 2025 Queste clip generate da Hashem Al-Ghaili mi hanno impressionato. Le presenta dicendo: "Immagina se i personaggi creati con l'AI si rendessero conto di vivere in una simulazione!". -------------------------------------------------------------------------------- IL MODELLO DEDICATO AI VIDEO DI MIDJOURNEY Midjourney ha lanciato il suo modello di generazione video, e ovviamente la qualità è altissima. Questo video è stato generato da Alex Patrascu, che afferma: "I haven't seen any model that can handle this much complexity so well". > How well does Midjourney Video handle complex environments? > > It's (almost) flawless: pic.twitter.com/T9ST32IngD > > — Alex Patrascu (@maxescu) June 19, 2025 Il sistema permette di trasformare le immagini create (o caricate) in brevi video animati con un semplice clic su “Animate”. Due modalità disponibili: automatica, che genera il movimento in autonomia, e manuale, per chi vuole descrivere come evolve la scena. Le opzioni Low motion e High motion permettono di scegliere tra movimenti delicati o dinamici, con la possibilità di estendere i video fino a 20 secondi. Il tutto a un prezzo accessibile. > Ormai i modelli video hanno una qualità generale enorme. Non siamo alla > perfezione, ma ogni generazione mostra dei cambi di marcia importanti, questo > significa che c'è ancora margine di crescita. -------------------------------------------------------------------------------- MCP REMOTI PER CLAUDE CODE Claude Code ora supporta i server MCP remoti: una novità che semplifica l’integrazione con strumenti come Sentry e Linear, eliminando la necessità di gestire server locali. Gli sviluppatori possono accedere a dati e funzionalità in tempo reale direttamente dal terminale, migliorando il flusso di lavoro tra pianificazione, scrittura del codice e gestione dei bug. 0:00 /0:20 1× MCP remoti per Claude Code Il tutto con connessioni sicure tramite OAuth e nessuna chiave API da memorizzare. Meno tab aperti, più produttività. Vai alla documentazione -------------------------------------------------------------------------------- PROMPT ENGINEERING PER DEVELOPERS Un'ottima guida di Addy Osmani per chi inizia ad approcciare allo sviluppo (coding) attraverso agenti di AI. L’articolo esplora come ottenere il massimo grazie a un'adeguata strutturazione dei prompt: la qualità del codice generato non dipende solo dall’AI, ma da come formuliamo le istruzioni. The Prompt Engineering Playbook for Programmers Turn AI coding assistants into more reliable development partners ElevateAddy Osmani PUNTI CHIAVE * Fornisci contesto dettagliato: linguaggio, framework, snippet e comportamento atteso. * Specifica l’obiettivo: bug da correggere, ottimizzazioni, refactoring. * Scomponi problemi complessi in micro-task. * Usa esempi di input/output per chiarire cosa ti aspetti. * Imposta un ruolo all’AI: migliora profondità e tono. * Itera: trattala come un collega junior a cui dare feedback progressivi. * Mantieni il codice ordinato: aiuta anche i modelli a "capire" meglio cosa vuoi fare. > Dalla correzione di bug alla creazione di nuove funzionalità, un buon prompt > può fare la differenza tra una risposta utile e una perdita di tempo. -------------------------------------------------------------------------------- LO SHOPPING SU CHATGPT Ecco alcuni esempi dei risultati arricchiti per lo shopping su ChatGPT. Quando l’utente fa una richiesta che suggerisce un’intenzione d’acquisto, ChatGPT può mostrare caroselli visivi con prodotti pertinenti, accompagnati da descrizioni semplificate, etichette come “Budget-friendly” o “Più popolare”, e link diretti ai siti web dove è possibile acquistarli. I prodotti vengono selezionati automaticamente dal modello, non sono pubblicità, e tengono conto di criteri come prezzo, recensioni, dimensioni o preferenze esplicite dell’utente. Le recensioni e i prezzi provengono da fonti di terze parti, e possono esserci discrepanze nei dati. Nella documentazione, OpenAI specifica che stanno lavorando per migliorare l’aggiornamento delle informazioni. > Dal mio punto di vista, senza un interfacciamento con i dati strutturati dei > brand (feed) l'esperienza non potrà eguagliare piattaforme come Google > Shopping, che nella versione statunitense è enormemente arricchita da > contenuti generati dall'AI. Comunque fa capire la direzione. -------------------------------------------------------------------------------- 4D GAUSSIAN SPLATTING 4D Gaussian Splatting è un esempio delle potenzialità dell'uso di modelli di AI non solo nell'editing video, ma anche nell'esperienza durante la visione. 0:00 /0:25 1× 4D-Gaussian-Splatting.mp4 Si tratta di un sistema di 4DV AI che permette di trasformare un video in 2D in 4D (con l'audio). -------------------------------------------------------------------------------- FLUX 1 KONTEXT Black Forest Labs ha lanciato FLUX 1 Kontext: una nuova suite di modelli AI multimodali dedicati alla generazione e l’editing di immagini. Ho provato la versione "pro" nell'editing, attraverso un'immagine in input e un prompt testuale per la modifica: la coerenza è ottima. FLUX 1 Kontext: un test A differenza dei modelli tradizionali text-to-image, infatti, FLUX.1 Kontext lavora in modo “in-context”, comprendendo ed elaborando sia testi che immagini per creare contenuti visivi coerenti, modificabili e personalizzabili. Grazie alla sua architettura a flusso generativo, garantisce coerenza di personaggi e oggetti tra diverse scene, permette editing locale ultra-preciso e offre prestazioni grafiche fotorealistiche, anche con input complessi. Il tutto con velocità fino a 8 volte superiori rispetto ai modelli attualmente sul mercato. Vai al post > Sono disponibili tre varianti: "pro" (per editing iterativo avanzato), "max", > (per massime performance su aderenza al prompt), "dev" (open-weight in beta > privata per ricerca e sicurezza). -------------------------------------------------------------------------------- RAG SUI PROGETTI DI CLAUDE Grazie alla tecnologia RAG (Retrieval-Augmented Generation), i Progetti su Claude possono ora gestire una quantità di contenuti fino a 10 volte superiore rispetto al passato, senza sacrificare velocità o qualità delle risposte. Quando la conoscenza all’interno di un progetto si avvicina al limite della finestra di contesto, Claude attiva automaticamente la modalità RAG: invece di caricare tutto in memoria, utilizza un motore di ricerca interno per recuperare solo le informazioni più pertinenti dai documenti caricati. 0:00 /0:14 1× RAG (Retrieval-Augmented Generation) nei Progetti di Claude Questo significa maggior precisione nelle risposte e una gestione più intelligente dei dati. Nessuna configurazione richiesta, solo un’esperienza fluida e potenziata, anche con progetti complessi e ricchi di contenuti. Per approfondire -------------------------------------------------------------------------------- GOOGLE AI EDGE GALLERY Google AI Edge Gallery è un’app sperimentale che consente di usare LLM in locale, senza necessità di connessione. Nell'esempio uso Gemma 3 sul mio smartphone per sintetizzare la pagina del progetto su GitHub. L'app, attualmente disponibile per Android, permette di interagire con diversi modelli (inclusi quelli da Hugging Face), porre domande a partire da immagini, sperimentare prompt per generazione testi e codice, avviare conversazioni multi-turno, e monitorare le performance in tempo reale. Per approfondire Il progetto rappresenta un punto d’incontro tra AI e accessibilità mobile. È possibile anche usare modelli personalizzati e accedere a risorse per sviluppatori direttamente dal repository GitHub. Un passo concreto verso l’AI offline, personalizzata e locale. -------------------------------------------------------------------------------- MISTRAL AGENTS API Mistral ha lanciato la Agents API, un nuovo framework che consente ai suoi LLM di eseguire azioni complesse e interagire con il mondo reale. Questo sistema supera i limiti dei tradizionali modelli grazie a connettori integrati, MCP per l’integrazione di software esterni, e capacità di orchestrazione agentica. Mistral Agents API I connettori integrati: Web Search, Code Execution, Image Generation (con Flux 1.1), Document Library (supporto RAG). Per approfondire -------------------------------------------------------------------------------- FUNCTIONAL GENERATIVE NETWORKS (FGN) Un nuovo modello di previsione meteorologica sviluppato da Google DeepMind segna un importante passo avanti nel forecasting globale. Si chiama FGN (Functional Generative Networks) e combina velocità, precisione e una rappresentazione più realistica dell’incertezza atmosferica. 0:00 /0:23 1× Functional Generative Networks (FGN) A differenza dei modelli precedenti, FGN genera previsioni probabilistiche in grado di catturare sia l’incertezza del modello (epistemica) che quella intrinseca del sistema atmosferico (aleatorica). Utilizza un ensemble di reti neurali indipendenti e introduce rumore appreso direttamente nei parametri del modello, ottenendo previsioni variabili ma coerenti. Vai al paper Allenato per ottimizzare la metrica CRPS, FGN produce risultati più accurati di GenCast in oltre il 99% dei casi testati, è significativamente più efficiente e migliora le previsioni di eventi estremi e cicloni tropicali. > È un esempio potente di come l’AI stia rivoluzionando la scienza del clima. -------------------------------------------------------------------------------- - GRAZIE - Se hai apprezzato il contenuto, puoi contribuire al progetto con una donazione 🙂 ISCRIVITI ALLA NEWSLETTER Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su tematiche relative all'intelligenza artificiale. Iscriviti alla Newsletter Email sent! Check your inbox to complete your signup. Gratuita. No Spam. Puoi disiscriverti quando vuoi. Consulta la privacy policy.

July 8, 2025 / Alessio Pomaro

Novità e Riflessioni