Blob di C.I.R.C.E.

Tag - SEO

Feed, contenuti, intelligenza: il nuovo motore della discovery

Vorrei portarvi in un viaggio in 3 tappe: tre “studi e sperimentazioni” che oggi sono diventati progetti reali, e che nel 2025 mi hanno accompagnato (e, soprattutto, entusiasmato) più di altri. Le tre tappe hanno nomi molto semplici: Reranker → Contenuti → Feed Per ognuna di queste tappe andremo a mettere a fuoco il pensiero, a capire il progetto (cioè come diventa operativo), e a descrivere i takeaway da portare a casa. Feed, contenuti, intelligenza: il nuovo motore della discovery -------------------------------------------------------------------------------- 1 - RERANKER: LA RILEVANZA CONTESTUALE COME “METRICA” OPERATIVA Partiamo dalla prima tappa: Reranker. Un reranker è un modello in grado di valutare la rilevanza contestuale di un contenuto rispetto a una query: in altre parole, misura la forza con cui quel contenuto riesce davvero a rispondere alla domanda. > E qui la domanda diventa inevitabile: perché è interessante considerare questa > tipologia di modelli? IL FLUSSO "REALE" DEI SISTEMI DI RICERCA MODERNI Se guardiamo quello che Google definisce nella documentazione come “Typical search and retrieval flow”, vediamo un pattern molto chiaro. Typical search and retrieval flow Il flusso, semplificando, è il seguente: * si parte da milioni di documenti in un archivio; * viene posta una query di ricerca; * il sistema effettua un retrieval, cioè “screma” i contenuti estraendo quelli più pertinenti; * interviene un reranker, che ordina i contenuti estratti nella fase precedente in base alla rilevanza; * a quel punto i più rilevanti diventano la lista dei risultati, oppure il contesto elaborato da un AI Agent per generare una risposta. Come funzionano le due fasi cruciali nel flusso (ovvero retrieval e reranking)? RETRIEVAL: PERTINENZA SEMANTICA (BI-ENCODER) La prima fase, il retrieval, si basa sulla pertinenza semantica. Query e documenti vengono codificati in embeddings, e attraverso un calcolo di similarità vengono estratte le parti dei documenti più "vicine" semanticamente alla query. Questa architettura è il classico bi-encoder. Retrieval: architettura bi-encoder * La query viene codificata in embedding; * ogni documento viene codificato in embedding; * viene calcolata la similarità tra gli embeddings e si ottiene uno score di pertinenza. Ed è esattamente per questo che viene definito bi-encoder: due encoding separati, per poi procedere al confronto. Questo processo ha le seguenti caratteristiche: ✅ veloce ✅ scalabile ❌ poco preciso Questa fase è perfetta per “ridurre” la knowledge di riferimento per ottenere una risposta: considera un archivio enorme per portarlo a un set di candidati "gestibile". RERANKING: RILEVANZA CONTESTUALE (CROSS-ENCODER) La seconda fase, il reranking, funziona in modo diverso. Qui entra in gioco il reranker, che riceve in input query + contenuto e calcola uno score di rilevanza. E cambia anche l’architettura: stavolta è cross-encoder. Reranking: architettura cross-encoder In questo caso, query e contenuto vengono concatenati, entrano insieme nel reranker (modello transformer) e il modello usa il noto meccanismo dell’attenzione per cogliere ogni minima sfumatura e correlazione tra concetti. Questo processo (cross-encoder) ha caratteristiche complementari rispetto all'architettura bi-encoder: ❌ lento ❌ costoso ✅ molto preciso PIPELINE IBRIDA: BI-ENCODER PER RECALL PRIMA + CROSS-ENCODER PER PRECISION I moderni sistemi di ricerca, quindi, sono una pipeline ibrida: * bi-encoder (veloce, meno preciso) per scremare la knowledge; * cross-encoder (lento, preciso) per affinare e ordinare. > Questo non è solo un dettaglio tecnico: è un modo di ragionare che poi diventa > operativo. -------------------------------------------------------------------------------- COME POSSIAMO USARE QUESTE CONOSCENZE NEI NOSTRI WORKFLOW OPERATIVI? Un’idea molto concreta è usare i reranker per misurare quanto i nostri contenuti sono rilevanti rispetto alle query di interesse. E, ovviamente, possiamo anche confrontare la rilevanza dei nostri contenuti rispetto ad altri contenuti già presenti online. Emerge, però, un altro punto, spesso sottovalutato: reranker diversi producono ranking diversi. 3 reranker a confronto: Jina, Google, Cohere Nelle immagini si può vedere un confronto tra 3 reranker (Jina, Google, Cohere) sulle query “cos’è la curcuma?” e “cosa sono i core web vitals?” per diversi contenuti estratti da pagine web attualmente online. Come si nota, i modelli attribuiscono score di rilevanza diversi. > Qual è il dato corretto? Non esiste un dato “giusto” o “sbagliato”, perché la misurazione dipende dai dati e dalle procedure messe in atto durante la fase di training dei modelli. È un po’ come chiedere a esperti estremamente competenti, ma con esperienze differenti, di valutare gli stessi testi: tenderanno a convergere, ma non saranno identici. -------------------------------------------------------------------------------- RERANKER COME RICERCA PERSONALIZZABILE: BOOST E PENALIZZAZIONI C’è un ulteriore step di conoscenza da apprendere sui reranker: non si tratta solo di “modelli di scoring”, ma di vere e proprie piattaforme di ricerca personalizzabile. Attraverso azioni di boost o penalizzazione, infatti, possiamo influenzare la valutazione del modello: dare più peso a certe caratteristiche, e penalizzarne altre. Un esempio di ranking configuration (boost/bury) Negli esempi influenzo il reranker di Google per dare boost ai contenuti in cui la fonte ha un popularity score maggiore, i contenuti più recenti, e quelli in cui l’autore è più autorevole, e penalizzo quelli di scarsa qualità. > Ecco come un motore di ricerca può valutare parametri esterni che vanno oltre > il contenuto che scriviamo. -------------------------------------------------------------------------------- UN SISTEMA MULTI-AGENTE PER L'OTTIMIZZAZIONE DEI CONTENUTI PER AI OVERVIEWS Facendo tesoro di questi concetti, internamente, con il mio team, abbiamo sviluppato un sistema multi-agente che: * analizza l’AI Overview e i contenuti della SERP, * sfrutta il reranker di Google (opportunamente configurato), * crea risposte più rilevanti e contenuti strutturati meglio per concorrere nei sistemi di ricerca ibridi (come le AI Overview di Google). Un sistema multi-agente per l'ottimizzazione dei contenuti per AI Overviews Nel seguente video è possibile vedere l'applicazione in azione all'interno della nostra piattaforma dedicata alle applicazioni AI che abbiamo sviluppato. Un esempio dell'applicazione in azione Attraverso il seguente post, è possibile approfondire il funzionamento del sistema. Rilevanza contestuale: la nuova metrica della visibilità Il segreto è la pertinenza... ma non basta più. Come funziona DAVVERO la ricerca oggi, tra embeddings, reranker e AI Overviews. Alessio PomaroAlessio Pomaro -------------------------------------------------------------------------------- OLTRE I RERANKER: IN-CONTEXT RANKING (ICR) E BLOCKRANK Direzione successiva: come si supera la precisione dei reranker? Un metodo è l’In-context Ranking (ICR): usare un LLM per processare non query e contenuti a coppie, ma query e tutti i contenuti pertinenti insieme. Risultato: precisione altissima e comprensione dell’intero contesto. Contro: estremamente lento e oneroso. In-context Ranking (ICR) e BlockRank Per rendere l’ICR scalabile entra in scena BlockRank: un approccio pubblicato da Google che punta a risolvere i contro dell’ICR. Per approfondire: Scalable In-context Ranking with Generative Models Srinadh Bhojanapalli -------------------------------------------------------------------------------- TAKEAWAY DELLA PRIMA TAPPA Quali sono i takeaway che ci portiamo a casa dalla prima tappa? 1. L’evoluzione di queste tecnologie ci fa capire quanto migliorerà la ricerca nei prossimi anni, con modelli in grado di comprendere ogni sfumatura del linguaggio. 2. Oggi abbiamo strumenti e documentazione per comprendere meglio la ricerca, anche tecnicamente. Sforziamoci di approfondire questi aspetti, perché possono regalarci intuizioni, e le intuizioni diventano strategie e tool da mettere in campo nei nostri flussi di lavoro. -------------------------------------------------------------------------------- 2 - CONTENUTI: L’AI CAMBIA LO SCENARIO, MA PORTA ANCHE NUOVI STRUMENTI Seconda tappa: Contenuti. Quante volte abbiamo sentito questa frase nell'ultimo periodo? > “Con le AI Overview è tutto finito > per i progetti editoriali…” È vero? Ognuno tragga le proprie conclusioni. Ma un fatto è chiaro: l’AI sta cambiando lo scenario, ma, nello stesso momento, ci mette a disposizione strumenti nuovi. UNA REDAZIONE IBRIDA: CREA, AGGIORNA, MASSIMIZZA Nel nostro team abbiamo realizzato una redazione ibrida a supporto dell’editoria, basata su LangGraph e Gemini, che lavora su tre funzioni: CREA → AGGIORNA → MASSIMIZZA -------------------------------------------------------------------------------- CREA: CATTURARE TREND, TRASFORMARLI IN PIANO EDITORIALE Domanda iniziale: > quali sono i contenuti che in questo momento stanno vivendo una crescita di > interesse per gli utenti? Un Agente AI lo verifica costantemente, attingendo a più fonti: * feed internazionali di riferimento per il settore, * Google News su diversi mercati, * Google Trends, * social media, * Google Discover. Processa questi dati e produce un piano editoriale sul trend, pensato per "catturare" i trend "istantanei", cioè quello che è interessante per gli utenti nel momento in cui si esegue l'osservazione. L’editore riceve il piano nel suo CMS e può approvarlo (anche parzialmente). I contenuti approvati vengono processati da un agente specializzato che: usa tool esterni via MCP (Model Context Protocol), coopera con il sistema dedicato alla rilevanza (quello visto nella prima tappa), produce la scrittura completa di una bozza di altissima qualità, e la salva direttamente nel CMS. Infine l’editore arricchisce, modifica, aggiunge elementi multimediali e pubblica. Uno schema di funzionamento della creazione dei contenuti Questa parte, per come la vedo, è già un cambio di paradigma: non è “scrittura automatica”, è.. > orchestrazione di un flusso, dove l’AI fa il lavoro pesante e ripetitivo e > l’umano si mette nella posizione giusta: quella in cui può davvero alzare la > qualità. -------------------------------------------------------------------------------- AGGIORNA: MANTENERE I CONTENUTI VIVI (E COMPETITIVI) Un agente osserva in modo costante i dati di Search Console ed estrae i contenuti che stanno performando meno (in termini di clic, impressioni e posizionamento), e che non vengono aggiornati da diverso tempo. Un altro agente processa questi contenuti, usa tool esterni via MCP, e si occupa di aggiornarli e ottimizzarli, salvando l’elaborato direttamente nel CMS. Uno schema di funzionamento dell'aggiornamento dei contenuti Risultato: un sistema che mantiene tutti i contenuti costantemente aggiornati e ottimizzati. Questo sta contribuendo a una crescita generale di clic e impressioni, e soprattutto a una presenza costante su Google Discover, con picchi che corrispondono a diversi milioni di impressioni. -------------------------------------------------------------------------------- MASSIMIZZA: CONTENUTI, AFFILIAZIONE E SOSTITUZIONE INTELLIGENTE Spesso i progetti editoriali lavorano con l’affiliazione. Abbiamo creato degli agenti che verificano costantemente se, nei contenuti: * sono presenti prodotti consigliati non più disponibili nel marketplace di riferimento, * oppure prodotti che non stanno performando, ovvero che non stanno producendo clic. Uno schema di funzionamento del lavoro degli agenti Gli agenti usano strumenti esterni via MCP per trovare prodotti simili da sostituire e producono descrizioni testuali che vengono integrate in modo armonioso nel contenuto, rispettando il contesto in cui avviene l'inserimento. -------------------------------------------------------------------------------- TAKEAWAY DELLA SECONDA TAPPA I takeaway della seconda tappa sono molto concreti. * Un team ibrido ben strutturato può garantire output di altissima qualità: l’AI svolge i compiti più onerosi e ripetitivi, l’essere umano supervisiona e si concentra sulla qualità. * Il flusso di lavoro cambia completamente, e cambiano le mansioni delle persone quando l’AI è davvero al centro della strategia. * L’AI abilita un'azione su larga scala che permette di agire sulla frequenza di pubblicazione e sulla qualità generale del progetto. Operazioni di questo tipo sarebbero irrealizzabili senza automazioni come quella descritta nella tappa del viaggio. * Si può intravvedere un pattern chiaro: trend di interesse + alta frequenza + qualità globale aumentano la capacità di entrare in Discover in modo costante. -------------------------------------------------------------------------------- 3 - FEED: DA “FILE TECNICO” A CENTRO DELLA STRATEGIA Quante volte abbiamo sentito una frase come quella che segue, soprattutto nel mondo e-commerce? > “Sì, l’e-commerce genera automaticamente il feed, poi lo ottimizziamo con XYZ > Feed Manager…” Spesso, però, per “ottimizzazione” si intende la creazione di pattern che mettono in sequenza i dati prodotto presenti nel database dell'e-commerce, oppure un timido utilizzo dell’AI per farlo in modo un po’ meno schematico. L’approccio che, con il mio team, abbiamo messo in campo è diverso: usare un sistema multi-agente per un’ottimizzazione su larga scala. UN SISTEMA MULTI-AGENTE PER OTTIMIZZARE IL FEED SU LARGA SCALA Il sistema riceve in input il feed dell'e-commerce. Un agente lo elabora analizzando anche la pagina prodotto, le immagini, i dati strutturati, e connettendosi a fonti esterne: Search Console, web search, scraping di dati online e altre fonti specifiche. Un altro agente si occupa dell’arricchimento: aggiunge dati potenzialmente rilevanti assenti nel feed. Infine, un agente revisore monitora la correttezza dei dati anche con verifiche incrociate. Un sistema multi-agente per ottimizzare il feed su larga scala In output otteniamo un feed supplementare con title e description ottimizzati e dati di enrichment, personalizzabile per qualunque piattaforma. Dopo aver inserito in piattaforma il feed ottimizzato su alcuni progetti, stiamo registrando (su Google Merchant Center) un aumento dei clic sui prodotti e del CTR (Click-Through Rate) degli annunci di advertising Azione successiva: portare i dati ottimizzati del feed anche nell'e-commerce, usandoli per l’ottimizzazione delle pagine prodotto e categoria, e l'integrazione dei dati strutturati. Questo permette di ottenere la coerenza delle informazioni. -------------------------------------------------------------------------------- TAKEAWAY DELLA TERZA TAPPA > Il feed non è (solo) un “file tecnico” che l’e-commerce deve produrre. È il > centro della strategia: la chiave per portare le nostre entità su tutte le > piattaforme digitali. E il sito web è solo una di queste piattaforme. Per il futuro, due direzioni diventano obbligate: * essere sempre più abili nel curare i dati delle nostre entità; * essere sempre più agili nel portarle ottimizzate su ogni piattaforma. -------------------------------------------------------------------------------- SI CHIUDE IL VIAGGIO, SI APRE LA STRATEGIA Arrivati qui, il punto non è aver visto tre argomenti separati. Il punto è capire che.. > feed, contenuti e intelligenza sono parti dello stesso motore: il motore della > discovery. E oggi abbiamo tante opportunità per rendere questo motore più potente. -------------------------------------------------------------------------------- - GRAZIE - Se hai apprezzato il contenuto, puoi contribuire al progetto con una donazione 🙂 ISCRIVITI ALLA NEWSLETTER Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su tematiche relative all'intelligenza artificiale. Iscriviti alla Newsletter Email sent! Check your inbox to complete your signup. Gratuita. No Spam. Puoi disiscriverti quando vuoi. Consulta la privacy policy.

January 13, 2026 / Alessio Pomaro

Novità e Riflessioni

SEO

Rilevanza contestuale: la nuova metrica della visibilità

Negli ultimi mesi ho passato parecchio tempo a studiare un tema che viene spesso ridotto a una frase semplice: > “Il segreto è la pertinenza” La sentiamo ovunque nel mondo della search, soprattutto da quando si parla di AI, RAG, AEO, AIO, GEO, ecc.. Il concetto, a livello intuitivo, è chiaro… ma per un algoritmo, che cosa significa davvero "pertinenza"? E, soprattutto: * è davvero l’unico concetto importante? * Come entra in gioco quando Google (o un sistema RAG) deve scegliere una risposta? * Possiamo misurare e ottimizzare questo processo, fino a creare dei tool che ci aiutano a farlo in modo scalabile? In questo percorso entriamo nel flusso "reale" dei moderni sistemi di ricerca, vediamo un test concreto su AI Overviews di Google, e un sistema multi-agent per ottimizzare le risposte in modo automatico. Partiamo da concetti tecnici (embeddings, bi-encoder, cross-encoder, reranker…) e arriviamo a strategie e tool operativi. Rilevanza contestuale: la nuova metrica della visibilità PERTINENZA E RILEVANZA: DUE PAROLE, DUE CONCETTI DIVERSI Prima di tutto chiariamo i concetti alla base dei moderni sistemi di ricerca, con un esempio concreto di query: > "come rinnovare il passaporto scaduto" Questa query attiva un flusso di lavoro che, semplificando, ha due fasi principali. 1. Pertinenza semantica (semantic matching) Il sistema di ricerca analizza la query e la confronta con i contenuti presenti nella knowledge (l’insieme dei documenti disponibili: pagine, testi, ecc.). In questa fase vengono estratti i contenuti più simili a livello semantico alla query. 2. Rilevanza contestuale (contextual relevance) A partire dai contenuti pertinenti, il sistema seleziona quelli più rilevanti nel contesto della query, cioè quelli che rispondono meglio alla domanda dell’utente. Cosa otteniamo alla fine? Una lista di contenuti ordinati per rilevanza, che può tradursi in una SERP (lista di risultati), oppure diventare il contesto per un modello di AI (LLM/agent), che genera una risposta. Già da qui vediamo un punto importante: > la pertinenza è necessaria, ma non sufficiente. > Prima il sistema decide quali informazioni sono potenzialmente interessanti, e > successivamente determina quelle utili per ottenere la miglior risposta. Come funzionano, nel dettaglio, questi due step? -------------------------------------------------------------------------------- COME SI CALCOLA LA PERTINENZA SEMANTICA: EMBEDDINGS & SIMILARITÀ Per lo step di pertinenza semantica entrano in gioco due concetti chiave: * embeddings * similarità tra vettori Cosa sono gli embeddings? Esempi di utilizzo Cosa sono e come funzionano gli embeddings (o incorporamenti): una spiegazione semplice con alcuni esempi di utilizzo in ambito SEO, e riflessioni sull’importanza della consapevolezza di questi sistemi. Alessio PomaroAlessio Pomaro In breve.. 1. Trasformazione in embeddings Sia la query che i contenuti della knowledge vengono trasformati in vettori numerici (embeddings). Ogni embedding è un vettore in uno spazio multidimensionale che rappresenta il significato del testo. 2. Calcolo della similarità Il sistema misura la similarità tra l’embedding della query e gli embeddings dei contenuti. Più i due vettori sono simili, più il contenuto è considerato pertinente. Il risultato di questa fase è: > Una lista di contenuti pertinenti, cioè i documenti semanticamente più vicini > alla query. UNA NOTA SULLA SIMILARITÀ (NON SOLO COSENO) Spesso si sente parlare di similarità del coseno come metodo standard di confronto tra embeddings. È importante sottolineare che: * la similarità del coseno è solo uno dei modi possibili per misurare la distanza/similarità tra vettori; * il metodo migliore dipende da come sono stati generati gli embeddings: dall’architettura del modello, dal processo di training, dalla normalizzazione dei vettori, ecc.. A parità di embeddings, metodi diversi possono portare a risultati diversi. Ci basta conservare un concetto: > Non è sufficiente “avere gli embeddings”: dobbiamo conoscerne la struttura per > scegliere il metodo di similarità giusto. -------------------------------------------------------------------------------- COME SI CALCOLA LA RILEVANZA: RERANKER, BI-ENCODER E CROSS-ENCODER Quando passiamo dalla pertinenza semantica alla rilevanza contestuale, cambia completamente il tipo di modello utilizzato. Qui entrano in gioco i reranker, ovvero modelli che: * ricevono in input una query e un contenuto/documento, * restituiscono in output uno score di rilevanza, cioè un valore numerico che indica quanto quel contenuto è candidato a rispondere alla query. Alla fine di questo step, otteniamo: > una lista ordinata dei contenuti più rilevanti per la query. BI-ENCODER VS CROSS-ENCODER Per capire meglio, facciamo un passo indietro sulle architetture. BI-ENCODER → PERTINENZA Per la pertinenza semantica, usiamo sistemi che vengono definiti "bi-encoder". * La query viene codificata in un embedding. * Il contenuto viene codificato in un embedding. * Un calcolo matematico di similarità tra i due embeddings determina lo score di pertinenza. Sono chiamati "bi-encoder" proprio perché vengono usati due encoding separati. CROSS-ENCODER → RILEVANZA Per la rilevanza, invece, usiamo sistemi "cross-encoder" (reranker). * La query e il contenuto vengono concatenati in un unico input, * l'input combinato viene passato a un modello transformer, * il modello elabora tutto insieme e restituisce uno score di rilevanza. Schema mentale: > [query + contenuto] → modello transformer → score di rilevanza Questa differenza di architettura spiega perché, nei sistemi di ricerca moderni, si usano due fasi distinte. -------------------------------------------------------------------------------- PERCHÉ SERVONO DUE FASI: VELOCE E SCALABILE VS LENTO E PRECISO Perché si usano queste due fasi per la ricerca? Perché il calcolo della pertinenza è veloce, scalabile, e meno preciso. Mentre il calcolo della rilevanza è lento, costoso, e iper preciso. Riassumendo.. * Bi-encoder (pertinenza) ✅ veloci ✅ scalabili ❌ meno precisi * Cross-encoder / reranker (rilevanza) ❌ lenti ❌ costosi ✅ estremamente precisi ❌ con finestra di contesto limitata Queste caratteristiche fanno nascere la necessità di una pipeline ibrida: 1. un sistema veloce e meno preciso (bi-encoder) agisce per scremare la knowledge; 2. un sistema lento e iper preciso (cross-encoder) agisce per raffinare e ordinare. -------------------------------------------------------------------------------- DALLA TEORIA AL RAG (E OLTRE): IL “TYPICAL SEARCH & RETRIEVAL FLOW” Il flusso che abbiamo descritto è esattamente quello dei sistemi RAG (Retrieval Augmented Generation), in cui.. * abbiamo una knowledge base (documenti, pagine, FAQ, ecc.), * l’utente effettua una query, * un sistema di retrieval estrae i contenuti più pertinenti (bi-encoder), * un reranker seleziona e ordina i contenuti più rilevanti (cross-encoder), * il risultato: può essere mostrato come lista di documenti, oppure passato a un LLM per generare una risposta. Nella documentazione di Google, questo flusso oggi viene definito: > "typical search and retrieval flow" Typical search & retrieval flow Il messaggio implicito è... * non è solo “RAG per documenti interni”, * è un pattern generale per la ricerca: vale per la knowledge locale, per il web, per sistemi ibridi. Ed è qui che entra in scena qualcosa che ormai tutti stiamo guardando con attenzione: AI Overview (e, in generale, i nuovi sistemi di risposta ibridi che uniscono un motore di ricerca a un modello di linguaggio). -------------------------------------------------------------------------------- AI OVERVIEW COME SISTEMA IBRIDO: COSA CONTA DAVVERO? Guardando il flusso che abbiamo descritto, viene spontaneo chiedersi: > "l'AI Overview, quando mostra le fonti vicino alla risposta, > su cosa si basa per scegliere quelle pagine?" È ragionevole ipotizzare che: * le fonti mostrate siano le pagine che contengono le risposte con rilevanza contestuale più alta nella knowledge di Google; * non basta essere in prima posizione tra i risultati organici per essere automaticamente una fonte dell'AI Overview. E infatti… IL MIO CASO: IN PRIMA POSIZIONE, MA FUORI DA AI OVERVIEW Per la query "cosa sono i priority hints", il mio contenuto era primo tra i risultati organici, ma, inizialmente, non compariva tra le fonti dell'AI Overview. Ho deciso, quindi, di fare un esperimento per capire meglio cosa stava succedendo "sotto il cofano". -------------------------------------------------------------------------------- IL TEST: MISURARE LA RILEVANZA DELLE RISPOSTE (E SCOPRIRE CHE LA MIA ERA... LA PEGGIORE) Vediamo il test, step by step. 1. Ho considerato le pagine che erano fonti della risposta principale dell'AI Overview. 2. Da ciascuna di queste pagine ho estratto la risposta alla query dell’utente (la parte di contenuto che risponde effettivamente alla domanda). 3. Ho fatto la stessa operazione con la mia pagina web, che comunque era prima tra i risultati organici, e quindi un candidato naturale per diventare fonte della risposta. 4. Ho usato un reranker per misurare la rilevanza contestuale tra la query e le risposte dei contenuti che erano già fonte dell'AI Overview, e tra la query e la risposta del mio contenuto. IL RISULTATO? La risposta nella mia pagina.. > era quella con rilevanza > contestuale più bassa tra tutte. Questo allinea perfettamente l’esperimento con l’ipotesi: l'AI Overview non “premia” chi è semplicemente ben posizionato tra i risultati organici, ma dà priorità ai contenuti che forniscono risposte più rilevanti. -------------------------------------------------------------------------------- OTTIMIZZARE LA RISPOSTA A COLPI DI RERANKER A questo punto, passiamo alla seconda fase del test. * Ho analizzato le risposte delle pagine che il reranker considerava più rilevanti, osservando: le entità trattate, i termini usati, gli aspetti della query che venivano valorizzati, i focus che venivano messi in atto. * Ho modificato la mia risposta cercando di includere le entità rilevanti, coprire tutti i punti che le altre risposte trattavano in maniera esaustiva, mantenere coerenza con il mio stile e con il contesto della pagina. * Ogni volta che aggiornavo il contenuto, misuravo nuovamente la rilevanza contestuale di tutte le risposte attraverso il reranker, verificando se la mia risposta stava salendo nel ranking. Ho iterato questo processo finché: > la mia risposta ha ottenuto uno score di rilevanza superiore a tutte le altre. E cosa è successo dopo pochi giorni? La mia pagina è diventata prima fonte dell'AI Overview per quella query. Quindi funziona! Ma andiamo a fare un bilancio dell'operazione. BILANCIO DELL’OPERAZIONE * Effort: altissimo. * Certezza del risultato: nessuna, perché Google non documenta in modo completo il comportamento di AI Overviews. * Utilità strategica: sì, in ottica di branding e autorevolezza, e forse garantisce qualche clic in più. * Scalabilità: zero, perché si tratta di un'operazione manuale che se dovesse essere applicata a centinaia di query si tradurrebbe in un effort enorme. Da qui nasce la domanda naturale: > "E se provassimo a automatizzare questo processo?" -------------------------------------------------------------------------------- DAL TEST AL TOOL: UN SISTEMA MULTI-AGENT PER OTTIMIZZARE LE RISPOSTE Trasformiamo l'esperimento in un tool. L'architettura di base è LangGraph, con un approccio multi-agent. Un tool multi-agente per l'ottimizzazione per l'AI Overview ARCHITETTURA AD ALTO LIVELLO Il sistema funziona attraverso i seguenti step. * Un Agent Orchestrator riceve in input la query e l'URL della pagina web da ottimizzare. * Un altro agent, recupera il risultato di AI Overview per la query, estrae le fonti della risposta principale, estrae anche le fonti delle risposte secondarie (quelle legate alle query di fan-out). * Attraverso un LLM, viene rilevata la risposta alla query da ciascuna fonte, ovvero il testo all'interno delle pagine web che mira a rispondere direttamente alla domanda. Viene attuato lo stesso processo anche per la pagina da ottimizzare. * A questo punto abbiamo una tabella concettuale con: query, risposta di ogni fonte dell'AI Overview, risposta della pagina da ottimizzare. * Diversi agenti, successivamente, usano un reranker per misurare la rilevanza contestuale di ogni risposta rispetto alla query, e producono un ranking delle risposte. In maniera iterativa, prendono in considerazione le risposte delle fonti, il contesto complessivo della SERP, la risposta della pagina da ottimizzare, e generano una nuova risposta candidata. * La nuova risposta viene valutata dal reranker. Se lo score è inferiore rispetto alle migliori risposte, il sistema: genera una nuova variante considerando tutti i dati a disposizione, ricalcola la rilevanza, e così via, fino a quando la risposta generata non ottiene lo score di rilevanza più alto tra tutte. * Un ulteriore gruppo di agenti analizzano le query di fan-out (derivate dalle risposte secondarie dell'AI Overview), analizzano le pagine in SERP, costruiscono una proposta di ottimizzazione per la struttura della pagina, per intercettare anche le query di fan-out. RISULTATO FINALE DEL SISTEMA Una volta terminata l'azione del workflow, otteniamo una risposta ottimizzata da inserire nella pagina web, e un'analisi SEO che mira a riorganizzare/arricchire il contenuto, valorizzare in modo più completo il topic, posizionarsi meglio anche per le ricerche correlate. E se lo pensiamo come sistema che lavora in background? > Potrebbe analizzare costantemente le query, monitorare le AI Overview e > ottimizzare in autonomia (costantemente) i contenuti per aumentare la > probabilità di essere fonte. > Nei nostri test, questa idea è già diventata realtà su alcuni progetti. -------------------------------------------------------------------------------- L’INDICE DI RILEVANZA È UN VALORE ASSOLUTO? (SPOILER: NO) A questo punto sorge una domanda importante: > Se, secondo il reranker, un contenuto è più rilevante di un altro, > si tratta di una verità assoluta? La risposta è no, perché lo score di rilevanza dipende da: * l’architettura del modello di reranking, * i dati usati in fase di training, * gli eventuali processi di fine-tuning, * le scelte di ottimizzazione fatte in fase di sviluppo. Quindi, reranker diversi, applicati allo stesso set di dati, possono restituire punteggi differenti, e quindi classifiche diverse. Nell'immagine che segue, ad esempio, vediamo a confronto la misurazione della rilevanza contestuale di due reranker diversi (Jina Reranker V3 e Semantir Ranker di Google). Un test usando due reranker diversi Come si può notare, gli score sono diversi, e danno vita a una "classifica" diversa. > È un po' come chiedere a due esperti molto competenti, ma con formazione > diversa, di classificare gli stessi contenuti: avranno tendenzialmente > opinioni simili, ma non per forza identiche. QUAL È IL "DATO CORRETTO"? Non esiste un “dato corretto” in assoluto. Esiste un modello che "guarda il mondo" secondo la propria formazione, e restituisce il suo "giudizio". Nel tool, ho scelto di usare il reranker di Google, considerando il fatto che, probabilmente, è stato addestrato su una quantità enorme di dati proprietari, compresi i dati derivanti dalla ricerca online (click, comportamenti, feedback impliciti, ecc.). -------------------------------------------------------------------------------- IL TOOL IN AZIONE: UNA RAPIDA PANORAMICA Nel seguente video, è possibile vedere l'esecuzione del tool su una query di ricerca. AI Overview Content Strategist Agent V7 L'output, come indicato in precedenza, è composto dal testo dedicato alla risposta per l'AI Overview e dall'analisi per l'ottimizzazione del contenuto. -------------------------------------------------------------------------------- AEO, AIO, GEO, ECC.: COSA CAMBIA DAVVERO NELLA SEO? Dopo aver fatto funzionare questo sistema su centinaia di pagine, e dopo aver osservato l’evoluzione di tutte le sigle che stanno emergendo (AEO, AIO, GEO, ecc.), viene spontanea una domanda: > Rispetto alla SEO che conoscevamo, > quali sono le vere novità? Per come la vedo oggi, la mia risposta è: "molto poche". Quello che emerge come davvero rilevante sono le attività che avremmo sempre dovuto svolgere: rispondere in modo esaustivo alle query degli utenti, esplorare il topic in modo completo, usare un linguaggio chiaro e corretto, fornire un valore reale. QUINDI, COS'È CAMBIATO? > È cambiato il fatto che oggi abbiamo nuove piattaforme e nuove SERP Features > che ce lo fanno presente. E nuovi strumenti per migliorare la qualità del > nostro lavoro. -------------------------------------------------------------------------------- È FONDAMENTALE APPROFONDIRE ANCHE GLI ASPETTI TECNICI Oggi abbiamo a disposizione strumenti, informazioni, documentazione, esempi pratici che ci permettono di comprendere la ricerca anche dal punto di vista tecnico. Questo non significa dover essere in grado di sviluppare migliaia di righe di codice o diventare ingegneri esperti nel Machine Learning. Significa capire i concetti di base, ad esempio cosa sono gli embeddings, come si calcola la similarità, come lavorano i bi-encoder e i cross-encoder, cosa significa parlare di reranking e rilevanza contestuale, come funziona un flusso RAG o un sistema ibrido tipo l'AI Overview, avere una visione chiara di come i sistemi "prendono decisioni". PERCHÉ? > Capire gli aspetti tecnici → genera nuove intuizioni > Nuove intuizioni → generano nuove strategie e nuovi strumenti > Nuovi tool → migliorano concretamente la qualità del nostro lavoro Ed è esattamente quello che abbiamo fatto in questo viaggio: * siamo partiti da concetti molto tecnici (embeddings, similarità del coseno, reranker, transformer, multi-agent…), * li abbiamo usati per interpretare il comportamento di un sistema reale (AI Overviews), costruire un tool concreto che ci aiuta a migliorare i contenuti, ottenere risultati misurabili in progetti reali. Se vogliamo far performare la SEO nel mondo della ricerca aumentata dall’AI, la strada, secondo me, è questa: > sforzarci di comprendere i concetti tecnici chiave, > per poi trasformarli in strategie e automazioni che fanno la differenza. Buona ricerca (e buona "comprensione tecnica" 😊). - GRAZIE - Se hai apprezzato il contenuto, puoi contribuire al progetto con una donazione 🙂 ISCRIVITI ALLA NEWSLETTER Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su tematiche relative all'intelligenza artificiale. Iscriviti alla Newsletter Email sent! Check your inbox to complete your signup. Gratuita. No Spam. Puoi disiscriverti quando vuoi. Consulta la privacy policy.

November 25, 2025 / Alessio Pomaro

Novità e Riflessioni

SEO

Generative AI: novità e riflessioni - #4 / 2025

> Buon aggiornamento, e buone riflessioni.. -------------------------------------------------------------------------------- TEDX BERGAMO: POTERE Il 25 maggio avrò l'onore di essere sul palco di TEDx Bergamo 2025, e il tema centrale sarà "POTERE". > "POTERE" è la capacità di generare cambiamento. Attraverso l’AI, possiamo > affrontare sfide globali e aprire strade inedite. Ma c’è un potere ancora più > intimo e umano: quello di comprendere la trasformazione per decidere come > viverla e in quale direzione guidarla. > - Alessio Pomaro Vai ai Biglietti -------------------------------------------------------------------------------- WELCOME TO THE ERA OF EXPERIENCE Un paper (da leggere) in cui i ricercatori di Google DeepMind invitano a ripensare l'AI: > non come una copia dell’intelligenza umana, ma come un sistema autonomo che > impara, pianifica e agisce nel mondo reale. L'era dell'esperienza permetterà di superare i limiti dell’imitazione e raggiungere capacità realmente superumane? Secondo Silver e Sutton, la dipendenza dai dati umani (supervisionati o preferenziali) sta mostrando i suoi limiti. L’AI ha bisogno di nuovi stimoli, non più statici, ma dinamici, generati attraverso l’interazione continua con ambienti reali o simulati. Gli agenti del futuro non vivranno più in episodi brevi e scollegati, ma in "stream" di esperienza continua, adattandosi nel tempo e perseguendo obiettivi di lungo termine. Le ricompense non arriveranno da valutazioni umane, ma da segnali concreti e misurabili dell’ambiente: salute, apprendimento, scoperta scientifica. Non si tratta solo di efficienza, ma di visione. Uscire dal recinto del pensiero umano, imparare dal mondo, e scoprire strategie o conoscenze che ancora non esistono. Vai al paper > Un salto evolutivo, non solo tecnologico. -------------------------------------------------------------------------------- LA SPIEGABILITÀ DEI MODELLI DI AI Com'è noto, Anthropic sta facendo un grande lavoro sulla spiegabilità dei modelli di AI, condividendo paper e promuovendo delle riflessioni fondamentali. Il post pubblicato da Dario Amodei richiama con urgenza l'importanza di capire il funzionamento interno dei modelli prima che diventino troppo potenti. Un invito ad agire per chiunque lavori sull'AI o abbia a cuore il futuro della tecnologia, toccando anche argomenti delicati che riguardano la geopolitica ("I believe that democratic countries must remain ahead of autocracies in AI"). Anche se sembra una mossa ovvia da parte di chi possiede più esperienza di tutti in quest'ambito (e non possiede il modello più potente), ritengo sia un documento molto interessante per avere consapevolezza sull'argomento. Ho provato a sintetizzare i punti principali. * Amodei racconta come, in dieci anni di lavoro sull'AI, il settore sia passato da un ambito accademico a una delle questioni più decisive per il futuro dell'umanità. Anche se l’avanzamento è inarrestabile, possiamo influenzarne la direzione. Oggi, la vera sfida è l'interpretabilità: capire come funzionano internamente i sistemi prima che diventino troppo ampi per essere controllati. * L'AI generativa prende decisioni che non sappiamo spiegare: a differenza del software tradizionale, i suoi meccanismi interni emergono spontaneamente, rendendo difficile prevedere o correggere i comportamenti indesiderati. * Questa opacità alimenta rischi concreti, come comportamenti ingannevoli o usi pericolosi. Inoltre, senza spiegazioni comprensibili, l'AI non può essere applicata in settori critici come finanza o medicina. Se riuscissimo a "guardare dentro" ai modelli, potremmo prevenire errori e abusi. * Negli ultimi anni è nata l'interpretabilità meccanicistica, grazie a pionieri come Chris Olah. Dai primi studi sui modelli visivi si è passati a quelli linguistici, scoprendo milioni di concetti nascosti, anche se sovrapposti e complessi. Tecniche come gli autoencoder sparsi stanno aiutando a mappare e manipolare questi concetti, rendendo visibili anche i "ragionamenti" attraverso circuiti interni. * Nonostante i progressi, resta la sfida pratica: applicare l'interpretabilità per individuare e correggere "difetti" reali nei modelli. Esperimenti interni mostrano che è possibile. * Amodei conclude affermando che siamo in una corsa tra l'avanzamento dell'AI e la nostra capacità di interpretarla. Per vincere, serve: investire nella ricerca, promuovere la trasparenza, adottare misure geopolitiche. Vai al post > Capire i nostri modelli prima che trasformino il mondo è una responsabilità > che non possiamo rimandare. -------------------------------------------------------------------------------- AGENTIC AI: UN WEBINAR DI STANFORD Stanford ha pubblicato un'interessante lezione che riepiloga il funzionamento dei LLM e arriva fino agli AI Agent. Agentic AI: un webinar di Stanford I punti salienti.. * LLM Base: modelli che predicono i token successivi. Addestrati su enormi testi (pre-training), poi affinati (fine-tuning con SFT/RLHF) per seguire istruzioni e preferenze umane. * Limiti dei LLM: possono "allucinare" (dare informazioni errate), hanno conoscenza limitata nel tempo (knowledge cutoff), non citano fonti, non accedono a dati privati/real-time e hanno un contesto limitato. * RAG: fornisce contesto esterno rilevante (da documenti/DB) al LLM per risposte più accurate e aggiornate. * Tool Usage: permette ai LLM di usare API esterne o eseguire codice per accedere a dati real-time o fare calcoli. * Agentic AI: l'evoluzione dei LLM. Non solo testo, ma sistemi che: ragionano e pianificano (scompongono compiti), agiscono (usano RAG e Tools per interagire con l'ambiente), osservano (ricevono feedback dalle loro azioni) iterano (si adattano in un ciclo azione-osservazione-pianificazione). * Pattern Agentici, per costruire agenti efficaci: pianificazione, riflessione (auto-correzione), utilizzo di strumenti e collaborazione multi-agente (più agenti specializzati). > In breve, l'Agentic AI combina il ragionamento dei LLM con l'azione nel mondo > esterno, permettendo di affrontare compiti molto più complessi e interattivi. -------------------------------------------------------------------------------- "STOP & THINK" DI ANTHROPIC SU UN AGENT DI OPENAI CON O3 In questo esempio ho implementato la dinamica di "Stop & Think" definita da Anthropic su un Agent di OpenAI, basato su o3. In pratica, il sistema è configurato per eseguire un task estraendo i dati necessari attraverso "function calling". Una volta ottenuti i dati, prima di restituire l'output, usa una funzione di "reasoning", la quale sfrutta il modello per mettere in atto delle catene di pensiero che verificano i dati, creano il miglior piano d'azione per procedere, e controllano la conformità in base alle richieste. Se è tutto conforme, procede con l'output, altrimenti ripete le operazioni, finché il controllo sarà positivo (o fino al raggiungimento del numero massimo delle interazioni consentite). Una dinamica davvero interessante per migliorare la qualità dell'output. "Stop & Think" di Anthropic su un Agent di OpenAI con o3 > Il porting del codice di Anthropic per usare i modelli di OpenAI sul mio > esempio è stato generato interamente con Gemini 2.5 Pro. Il modello ha > prodotto tutto il codice partendo dall'esempio fornito da Anthropic + il > prompt che usavo in precedenza nel mio progetto, che eseguiva l'operazione in > un'unica azione. -------------------------------------------------------------------------------- OPENAI ACADEMY OpenAI ha lanciato ufficialmente l'AI Academy: una piattaforma formativa gratuita pensata per chi vuole portare l’AI dal laboratorio alla realtà operativa. OpenAI Academy I contenuti sono pensati per l’uso pratico: automazioni, agenti AI, pipeline con GraphRAG, Q&A su documenti, integrazioni reali con diversi modelli. Vai all'Academy TRA I PUNTI FORTI * Live coding sessions * Prompt engineering, fine-tuning, RAG, multimodalità * Esempi di codice commentato per API, automazioni e gestione dati * Percorsi ideali per chi è agli inizi o ha esperienza intermedia -------------------------------------------------------------------------------- LE NOVITÀ DI NOTEBOOKLM DI GOOGLE Google introduce due novità molto interessanti su NotebookLM. 1) RICERCA ONLINE Ora è possibile descrivere un argomento e ottenere una selezione di fonti rilevanti dal web, già riassunte dall'IA e integrabili con un clic al notebook. La ricerca online su NotebookLM di Google La nuova funzione "Carica Origini", alimentata da Gemini, permette di approfondire rapidamente qualsiasi tema e integrarlo con strumenti come briefing, FAQ e Audio Overviews. Ho provato lo strumento, e credo sia una funzionalità fantastica per esplorare gli argomenti. Ho inserito il topic, selezionato le fonti tra quelle suggerite, fatto richieste, generato note, creato un podcast interattivo. Vai al post > Ho detto spesso che l'integrazione dell'AI nel suo ecosistema è la vera forza > di Google. Verissimo, ma ora hanno anche il modello più performante. 2) AUDIO OVERVIEWS ANCHE IN ITALIANO Audio Overviews diventa disponibile in più di 50 lingue. L'italiano è tra queste, e l'ho provato su un notebook che ha come fonte l'ultimo post di Dario Amodei sull'importanza dell'interpretabilità dell'AI. Il prompt che ho usato è specifico, indicando l'ambito sul quale concentrarsi maggiormente. Audio Overviews in italiano: un test > Il risultato? Per me è incredibile. Una risorsa davvero interessante. > Immaginiamo solo la potenzialità per l'aggiornamento personale nelle > connessioni dei concetti su larga scala. -------------------------------------------------------------------------------- NON PUÒ ESISTERE LA FIGURA DEL PROMPT ENGINEER Il WSJ ha condiviso dei dati su un concetto che ho sempre sostenuto: non può esistere la figura del "prompt engineer". E non si tratta di obsolescenza di una professione, ma di consapevolezza di un miraggio. Il WSJ sulla figura del prompt engineer La motivazione che danno nell'articolo, però, è solo parzialmente centrata. Non è solo questione di avanzamento dei LLM nella comprensione delle richieste in linguaggio naturale. > Il fatto è che la capacità di ottenere l'output desiderato da un agente basato > sull'AI è una competenza trasversale che potenzia delle hard skill. Se non si > possiedono quelle hard skill, nessun "mago del prompt" potrà ottenere > risultati avanzati necessari in ambito professionale. Vai al post -------------------------------------------------------------------------------- PROMPT ENGINEERING: IL PAPER DI GOOGLE Google ha pubblicato un interessante documento sul "Prompt Engineering": una guida sulla creazione di prompt efficaci. Prompt Engineering: il paper di Google Non ci sono novità eclatanti, ma di certo un percorso chiaro e ordinato. Le parti più interessanti riguardano gli approcci Chain of Thought (CoT) e ReAct. * CoT è utile per migliorare l'accuratezza facendo sviluppare al LLM un "ragionamento" logico. * ReAct è utile per applicazioni che richiedono interazione con fonti esterne o task complessi. Vai al paper -------------------------------------------------------------------------------- OPENAI: 3 GUIDE PRATICHE DEDICATE ALL'AI 1- A PRACTICAL GUIDE TO BUILDING AGENTS È pensata per chi vuole costruire agenti AI in grado di svolgere task multi-step in autonomia. Descrive come scegliere i modelli, integrare strumenti e impostare istruzioni chiare. Spiega modelli di orchestrazione come il "manager agent" o sistemi decentralizzati, e introduce i "guardrail" per garantire sicurezza, privacy e intervento umano nei casi critici. Vai alla guida 2- IDENTIFYING AND SCALING AI USE CASES Offre un metodo per scoprire e scalare casi d’uso ad alto impatto. Si parte da sfide comuni come attività ripetitive, colli di bottiglia di competenze e ambiguità decisionali, e si esplorano sei "primitivi" come content creation, automazioni e analisi dati. Esempi come Promega, Tinder e BBVA mostrano come anche attività complesse possano essere trasformate in flussi AI scalabili. Vai alla guida 3- AI IN THE ENTERPRISE Raccoglie sette lezioni chiave per adottare l’AI su larga scala. Vengono presentati esempi concreti come Morgan Stanley, che ha migliorato l’efficienza dei suoi advisor grazie a valutazioni sistematiche (evals), e Indeed, che ha potenziato il job matching con GPT-4o mini. Klarna ha implementato un assistente AI per il customer service, riducendo i tempi di risposta da 11 a 2 minuti. La guida sottolinea l’importanza di investire presto, personalizzare i modelli, e mettere l’AI nelle mani degli esperti aziendali. Vai alla guida -------------------------------------------------------------------------------- I 30 PAPER DI ILYA SUTSKEVER > "If you really learn all of these, you’ll know 90% of what matters today". Con queste parole, Ilya Sutskever (co-founder di OpenAI) condivide quelli che ritiene i migliori 30 paper che riguardano l'AI. Vai ai paper Molti mi hanno chiesto suggerimenti per affrontare questi documenti, non semplici da consultare. Un buon aiuto per iniziare potrebbe essere l'utilizzo di NotebookLM di Google. Nelle immagini si può vedere il mio notebook. Una volta inseriti tutti i documenti e le pagine web, è possibile creare la mappa mentale interattiva: cliccando le voci il sistema usa Gemini per estrarre tutte le informazioni utili. Il mio notebook con i 30 paper di Ilya Sutskever Altra idea: attraverso un prompt, ho fatto sviluppare al LLM un corso con una serie di lezioni che esplorano tutti i concetti in modo sequenziale e connesso (con riferimenti alle fonti). > Mi piacerebbe condividerlo, ma NotebookLM non permette di farlo attraverso un > link, e ha politiche molto restrittive per gli utenti. Tuttavia è realizzabile > in modo semplice. -------------------------------------------------------------------------------- SHOPPING SU CHATGPT? OpenAI migliora l'esperienza di shopping su ChatGPT, con risultati migliorati, dettagli dei prodotti, prezzi e recensioni, con i link diretti per l'acquisto. La funzionalità è in fase di rilascio. 0:00 /0:25 1× Shopping su ChatGPT Un upgrade interessante, anche se l'esperienza di Google Shopping (soprattutto negli USA) è difficilmente eguagliabile. Tenendo conto anche del fatto che questi dati non sono interfacciati con i feed degli e-commerce. Nella documentazione parlano di "structured metadata from third-party providers", ma non è ben chiaro il processo: di certo non potrà essere strutturato come quello di Google. -------------------------------------------------------------------------------- NUOVI MODELLI PER OPENAI GPT-4.1 Il nuovo modello (senza "reasoning") più potente, veloce ed economico, ideale per coding, gestione dei contesti lunghi (1M di token) e per l'aderenza a precise istruzioni. E, come previsto, GPT-4.5 verrà dismesso a luglio. L'ho provato su diversi task (le immagini riportano qualche esempio): logica, matematica, coding, elaborazione di file lunghi, generazione di dati strutturati da contenuti non strutturati, analisi del testo, generazione di testo con precise istruzioni. GPT-4.1 di OpenAI: test Le impressioni sono ottime. Due note. 1. Con un singolo prompt (senza interazioni successive) ho realizzato un piccolo software con interfaccia grafica che raccoglie una serie di utility per i PDF (estrazione di pagine, compressione, conversione in immagini, rotazione, unione). 2. Da diversi test svolti nei mesi scorsi, su prompt con tantissime istruzioni, avevo sempre trovato GPT-4 migliore rispetto alla versione "o". Finalmente il 4.1 supera quel limite. Qualche dettaglio sul modello.. La nuova famiglia GPT-4.1 include tre versioni: Standard, Mini e Nano. Il modello non solo supera GPT-4o nei benchmark più rilevanti, ma in molti casi va oltre anche GPT-4.5, motivo per cui quest’ultimo verrà ritirato. È più preciso nei compiti multi-turno, più affidabile nei formati richiesti, e significativamente più performante nello sviluppo software (con +21% su SWE-bench). È pensato esclusivamente per l’uso via API: in ChatGPT, molte delle sue migliorie sono già confluite in GPT-4o e continueranno a essere integrate. Grazie a ottimizzazioni nel sistema di inferenza, GPT-4.1 è anche più economico del 26% rispetto a GPT-4o, mentre Nano è il modello più economico e rapido mai rilasciato. Vai al post > Anche OpenAI, come Google, dimostra l'avanzamento in termini di efficienza, > dopo il passo falso della versione 4.5. O3 E O4-MINI + CODEX CLI OpenAI ha presentato i nuovi modelli o3 e o4-mini (con avanzamenti della fase di reasoning), e ha lanciato Codex CLI (un AI Agent open-source). Ho provato o3 in diversi task: coding, generazione di testo, analisi dei dati, ricerca online, logica, matematica, istruzioni complesse, analisi delle immagini, e in un sistema multi-agent via API. o3 e o4-mini + Codex CLI: test * Sul coding, è molto performante: ho realizzato un'applicazione locale (Python) con interfaccia grafica che converte un gruppo di immagini in tutti i formati, con resize e gestione della qualità, funzionante alla prima esecuzione. * Fantastici la ricerca online e code interpreter in fase di reasoning, perché sono dinamici in base al flusso di ragionamento. * Ho provato anche Codex CLI, un agente AI per il terminale che consente di scrivere codice, navigare file, interpretare immagini e interagire con il computer in modo multimodale e controllato. Nel test, entro in una directory e faccio sintetizzare al modello un PDF locale. Una funzionalità davvero interessante. o3 è il modello più potente, dedicato a compiti complessi come coding, matematica, e ragionamento visivo. o4-mini, invece, offre prestazioni sorprendentemente elevate in rapporto a dimensioni e costi, risultando ideale per usi ad alto volume di richieste. Entrambi possono usare l’intera suite di strumenti di ChatGPT: ricerca web, code interpreter, generazione e modifica immagini, function calling e tool personalizzati. Per la prima volta, ragionano anche sulle immagini: le usano come parte integrante della catena di pensiero, sbloccando nuove modalità di problem solving. Le performance: o4-mini raggiunge il 93,4% di accuratezza su AIME 2024 e 2719 ELO su Codeforces. o3 ottiene 83,3% su GPQA (domande da PhD), 86,8% su MathVista, 78,6% su CharXiv, e domina nei task di software engineering, superando ampiamente i predecessori. La sicurezza è stata potenziata con nuovi sistemi di rifiuto delle richieste, rilevamento di prompt rischiosi e test rigorosi: entrambi i modelli restano sotto le soglie critiche su tutti i fronti (biochimica, cybersecurity, auto-miglioramento AI). Vai al post -------------------------------------------------------------------------------- UN TEST DI CODEX CLI > Codex CLI di OpenAI: l'ho provato con o3, ed è una bomba! Il dettaglio dei test che si vedono nel video.. 1. Entro nella directory di un'applicazione, avvio Codex e mi faccio spiegare la codebase. Successivamente, chiedo all'agente di modificare l'app e inserire il bottone per la "dark mode". Il sistema edita direttamente i file, ed esegue tutto perfettamente (nel video si vede anche l'app modificata). Può gestire anche l'interazione con GitHub autonomamente. 2. Entro in una directory dov'è presente un dataset in CSV. Attraverso un prompt dettagliato, chiedo all'agente di analizzare i dati, pulirli, e produrre una pagina web con un report. Non solo lo crea, ma fornisce anche il Python per aggiornare il report nel caso il dataset cambi. Un test di Codex CLI di OpenAI Cos'è Codex CLI? Si tratta di un AI Agent open source che funziona in locale, sfruttando qualunque modello di OpenAI. Consente di scrivere codice, navigare file, interpretare immagini e interagire con il computer in modo multimodale e controllato. -------------------------------------------------------------------------------- DISPONIBILITÀ GENERALE PER VEO 2 DI GOOGLE È già usabile via API, e chiaramente su AI Studio. Veo 2: un test su AI Studio Nel video si vedono due esempi di "image to video" e uno di "text to video". Nei due esempi di "image to video", le immagini sono state generate con il modello di OpenAI, in modo da essere coerenti. Usando Veo per animarle, si possono creare due clip da montare per un unico video. Vai al post -------------------------------------------------------------------------------- TEST: UN'APPLICAZIONE CON GEMINI 2.5 PRO Un esempio di generazione di un'applicazione da prompt testuale con Gemini 2.5 Pro: semplice, ma funzionante alla prima esecuzione! Ho chiesto al modello di creare un'applicazione che permette di caricare un file audio o video, e che produce la trascrizione con separazione degli speaker usando le API di Gemini (con download del TXT completo alla fine del processo). Il sistema ha prodotto un'applicazione basata su Flask, con la struttura delle directory, HTML, Python, requirements e il file "env" per le API key. Dopo aver avviato il server Flask, l'applicazione funziona via browser. Test: un'applicazione con Gemini 2.5 Pro > È semplice, ma ho impiegato più tempo a produrre il video rispetto a un > sistema utile e funzionante, senza errori da gestire. -------------------------------------------------------------------------------- LE NOVITÀ NEL WORKSPACE DI GOOGLE Con uno dei migliori modelli di AI a disposizione, e un ecosistema che fa già parte della quotidianità di un'enorme insieme di utenti, Google rilascia le nuove funzionalità per Workspace. La nuova ondata di strumenti basati su Gemini mira a migliorare concretamente l’efficienza aziendale: automazioni avanzate con Workspace Flows, assistenti intelligenti nei documenti, analisi dei dati semplificata e la possibilità di generare contenuti audio e video direttamente dalle app Workspace. * Workspace Flows usa agenti AI personalizzati (Gems) per gestire processi multi-step con logica e contesto, senza bisogno di codice. In pratica, si potranno creare flussi e automazioni che coinvolgono azioni di ogni software di Workspace. Google Workspace Flows * Docs introduce la lettura audio dei testi e la funzione "Help me refine" per migliorare la scrittura in modo evoluto. Il Canvas di ChatGPT direttamente su Google Docs. * Sheets include "Help me analyze", un analista AI sempre disponibile per scoprire insight nascosti nei dati. I più attenti avranno notato che è già disponibile su Colab. * Google Vids si potenzia con Veo2, generando video realistici direttamente dall'app. * Google Meet e Chat diventano ancora più smart con riepiloghi, note automatiche e suggerimenti in tempo reale. Vai al post > L'integrazione e l'accelerazione di Google.. si prepara a diventare > irraggiungibile? -------------------------------------------------------------------------------- UN AGENT BUILDER PER POSTMAN Postman ha presentato il suo AI Agent builder. Un sistema che permette di creare agenti basati su LLM, che possono usare una rete di oltre 100k API pubbliche. Il tutto attraverso un'interfaccia drag & drop. 0:00 /0:13 1× Un Agent Builder per Postman Vai al progetto > La prototipazione di applicazioni diventa sempre più agile. -------------------------------------------------------------------------------- GROK STUDIO xAI ha rilasciato Grok Studio, con la possibilità di eseguire il codice generato e il supporto a Google Drive. Grok Studio: un test È molto simile a Canvas su ChatGPT, ma la funzionalità di generazione report da un foglio dati è fantastica. La connessione a Google Drive è comoda, e permette di creare dei Workspace importando direttamente i file. > L'editor di ChatGPT è migliore, ma la generazione dei report è vincente. -------------------------------------------------------------------------------- LE API DI GROK 3 La "guerra dei prezzi" delle API dei LLM continua: xAI rilascia le API di Grok3 mini. In base ai dati diffusi, sembra che il modello superi diversi modelli di reasoning in diversi benchmark, con un prezzo di 5 volte inferiore. Le API di Grok 3 ALCUNI DETTAGLI * Grok 3 Mini guida le classifiche su test STEM avanzati, matematica e coding, superando modelli flagship 20 volte più costosi. * È 5 volte più economico di qualsiasi altro modello di reasoning sul mercato. * Ogni risposta API include l’intero "reasoning trace", grezzo e non filtrato. Vai alla documentazione -------------------------------------------------------------------------------- AI INDEX REPORT 2025 Stanford ha pubblicato l'AI Index Report 2025. AI Index Report 2025 > L’intelligenza artificiale evolve rapidamente, trasformando società ed > economia, tra progressi straordinari, investimenti globali e sfide ancora > aperte. UNA SINTESI DEI TAKE AWAY DEL REPORT 1. Le prestazioni dell’AI migliorano rapidamente nei benchmark avanzati. I modelli AI hanno fatto grandi progressi su nuovi benchmark complessi come MMMU, GPQA e SWE-bench, superando anche le performance umane in alcuni compiti di programmazione. 2. L’AI è sempre più presente nella vita quotidiana. L’intelligenza artificiale è ormai diffusa in settori come la sanità e i trasporti, con dispositivi medici approvati e robotaxi operativi su larga scala. 3. Le aziende puntano tutto sull’AI, trainando investimenti record. Gli investimenti privati negli Stati Uniti hanno raggiunto 109 miliardi di dollari nel 2024, con una crescita d’uso nelle aziende e prove sempre più solide del suo impatto positivo sulla produttività. 4. Gli Stati Uniti guidano, ma la Cina riduce il divario qualitativo. Gli USA producono più modelli AI di punta, ma la Cina li sta rapidamente raggiungendo in termini di qualità, mantenendo il primato per pubblicazioni e brevetti. 5. L’ecosistema dell’AI responsabile si evolve, ma in modo disomogeneo. Aumentano gli incidenti legati all’AI, mentre le valutazioni standardizzate sono ancora rare. I governi mostrano maggiore impegno con nuove linee guida sulla trasparenza e sicurezza. 6. L’ottimismo globale verso l’AI cresce, ma con forti differenze regionali. Paesi asiatici mostrano un forte ottimismo verso l’AI, mentre Stati Uniti, Canada ed Europa restano più scettici, sebbene con segnali di miglioramento. 7. L’AI diventa più efficiente, economica e accessibile. I costi per far girare modelli potenti sono crollati, mentre l’efficienza energetica è aumentata. I modelli open-source stanno colmando rapidamente il divario con quelli chiusi. 8. I governi aumentano regolamentazione e investimenti sull’AI. Nel 2024 le normative sull’AI sono raddoppiate negli USA e cresciute a livello globale, accompagnate da investimenti miliardari in vari paesi per sostenere l’innovazione. 9. L’educazione all’AI cresce, ma persistono disuguaglianze. Sempre più paesi offrono educazione informatica K-12, ma permangono barriere infrastrutturali, soprattutto in Africa, e molti insegnanti non si sentono pronti a insegnare l’AI. 10. L’industria domina lo sviluppo AI, ma la competizione si intensifica. La quasi totalità dei modelli più avanzati proviene dall’industria. Tuttavia, la differenza di prestazioni tra i migliori modelli si sta riducendo, segno di una frontiera sempre più affollata. 11. L’AI riceve riconoscimenti scientifici di massimo livello. Nel 2024 l’AI è stata protagonista di premi Nobel e del Turing Award, evidenziando il suo impatto decisivo nella scienza, dalla fisica al ripiegamento proteico. 12. Il ragionamento complesso resta una sfida. Nonostante i successi in compiti avanzati, i modelli AI faticano ancora con il ragionamento logico e la risoluzione di problemi complessi in contesti critici. Vai al report -------------------------------------------------------------------------------- WORK TREND INDEX 2025 DI MICROSOFT L'AI sta ridefinendo il lavoro nelle aziende, e Microsoft ne traccia i contorni nel suo Work Trend Index 2025. Il rapporto evidenzia come le organizzazioni che adottano l’AI in modo strutturale — definite "Frontier Firms" — registrano benefici tangibili: il 71% dei dipendenti afferma che la propria azienda sta prosperando, e l’83% dei leader riconosce che l’AI contribuisce a una maggiore adozione di compiti strategici. In parallelo, Microsoft ha presentato importanti evoluzioni per Copilot, puntando su un’integrazione sempre più pervasiva dell’AI nei flussi operativi. Copilot Studio è una nuova piattaforma low-code che consente alle imprese di costruire agenti intelligenti personalizzati, con memoria, capacità di pianificazione e integrazione via OpenAPI. Questi agenti possono operare all’interno delle app Microsoft 365 e connettersi a sistemi esterni come Jira, Miro o Monday. Sono stati inoltre lanciati due nuovi agenti nativi — Copilot Researcher e Copilot Analyst — pensati per attività di ricerca e analisi su larga scala, capaci di interagire con Word, Excel, Outlook e Teams grazie ai dati real-time di Microsoft Graph. Il tutto è orchestrato con modelli GPT-4-turbo, in grado di mantenere il contesto e generare output coerenti e document-aware. Vai al report -------------------------------------------------------------------------------- OPEN MANUS: UN TEST Ho provato Open Manus, il progetto open source che mira a replicare le capacità dell'Agente Manus AI. Nel video si vedono diversi task che l'agent (nel mio caso basato su GPT-4o) svolge in modo autonomo, sfruttando l'automazione del browser, e anche del computer locale. Open Manus: un test Le mie considerazioni: questo tipo di agenti sono davvero molto interessanti, ma acerbi per essere "liberati" a compiere operazioni autonome online senza riferimenti specifici. Vai al progetto > Ma di certo miglioreranno, e saranno direttamente nel browser, e > successivamente nei sistemi operativi. -------------------------------------------------------------------------------- FIREBASE STUDIO DI GOOGLE: UN TEST Google lancia Firebase Studio, un nuovo IDE open source basato sull’AI che unisce Project IDX, Genkit e i modelli Gemini in un’unica piattaforma per creare app full-stack. L'ho provato: con un prompt testuale ho creato un'applicazione che trasforma un contenuto in una mappa mentale modificabile. Con altri prompt successivi l'ho rifinita per ottenere il risultato che avevo in mente. Firebase Studio di Google: un test Il cuore del progetto è l’agente di prototipazione, capace di generare app Next.js complete in pochi secondi non solo da prompt testuali, ma anche da immagini, annotazioni visuali e schemi. L’ambiente crea UI, backend e integrazione AI in automatico, con anteprima nel browser, test mobile via QR code e codice pronto da modificare. L’IDE web-based, costruito su CodeOSS, offre funzionalità avanzate come modifica e debug nel browser, terminale integrato, suggerimenti di codice con Gemini e documentazione automatica. Il tutto gira su una VM configurabile con Nix, con supporto a oltre 60 modelli ufficiali e l’importazione da GitHub, GitLab e Bitbucket. Vai al post -------------------------------------------------------------------------------- TEST SU AI OVERVIEWS DI GOOGLE In questo test, in una SERP di Google in cui compare AI Overviews, ho considerato i contenuti nelle prime 12 posizioni e ho creato un piccolo RAG usando LangChain, Chroma DB e GPT-4o. > Inviandolo la query al RAG, ottengo una risposta simile a quella proposta da > AI Overviews. Test su AI Overviews di Google: RAG Chiaramente Google usa anche query correlate ("fan-out") e il Knowledge Graph per espandere i risultati. Quindi, il funzionamento l'abbiamo intuito, e possiamo anche pensare di usare dei modelli per misurare la pertinenza dei contenuti alle query per ragionare sul "posizionamento" su AI Overviews. > Chiaramente, il primo step rimane l'essere tra i risultati rilevanti, che > rappresentano la knowledge a disposizione del "RAG". COME ESSERE PRESENTI SU AI OVERVIEWS Per essere presenti nelle fonti delle risposte di AI Overviews (ma in generale nei sistemi ibridi come ChatGPT, Perplexity, ecc.), vanno considerati due aspetti. 1. Essere tra i risultati che il sistema prende in considerazione per la query principale (quella che scriviamo nel campo): tendenzialmente le prime due pagine dei risultati, compresi PAA e SERP snippet. 2. Intercettare risposte pertinenti (semanticamente vicine) alla query principale o a quelle secondarie che il motore genera per quel contesto ("fan-out"). > È come ragionare su un sistema RAG, in cui ogni documento è di un'azienda > diversa. Test su AI Overviews di Google: query Per la query "cos'è il CSSOM", ad esempio, il mio contenuto è in seconda pagina della SERP (è tra i risultati presi in considerazione), e intercetta la risposta ad una query secondaria ("come si applicano gli stili agli elementi HTML"). Ma se si cerca direttamente la query secondaria, il mio contenuto non è tra le fonti di AI Overviews, perché il contesto cambia, ed esistono molte fonti più rilevanti per questa query. Per la query "cosa sono i priority hints", il mio risultato è primo su Google, ma non compare tra le fonti di AI Overviews. Misurando la pertinenza semantica del mio contenuto con un algoritmo, infatti, risulta inferiore a quella dei risultati che invece compaiono. > Si tratta di un sottile equilibrio, non semplice da gestire e da controllare. -------------------------------------------------------------------------------- AGENT2AGENT (A2A) E AGENT DEVELOPMENT KIT (ADK) DI GOOGLE Google presenta Agent2Agent (A2A), un protocollo aperto per l'interoperabilità tra agenti AI, sviluppato in collaborazione con oltre 50 aziende (es. Atlassian, MongoDB, PayPal, Salesforce, SAP, Langchain). A2A consente agli agenti AI, anche se costruiti con tecnologie o da fornitori diversi, di comunicare, coordinarsi e scambiarsi informazioni in modo sicuro. È pensato per scenari enterprise complessi: dalla gestione della supply chain alla selezione del personale, fino all'automazione dei flussi di lavoro interni. 0:00 /1:22 1× Un esempio concreto: la ricerca dei candidati Basato su standard diffusi (HTTP, JSON-RPC, SSE), A2A supporta task rapidi o di lunga durata, anche multimodali (testo, audio, video). Ogni agente può esporre le proprie capacità tramite una “Agent Card” e collaborare con altri per completare compiti condivisi, producendo artefatti come risultati finali. Complementare al Model Context Protocol (MCP) di Anthropic, A2A punta a rendere gli agenti realmente interoperabili, scalabili e integrabili in ambienti già esistenti. Vai al post > Un passo chiave per costruire un ecosistema in cui gli agenti AI non siano > strumenti isolati, ma veri colleghi digitali capaci di collaborare in tempo > reale. A supporto dello sviluppo di AI agent interoperabili, Google ha rilasciato anche l’Agent Development Kit (ADK), un toolkit open-source in Python per costruire, testare e distribuire agenti complessi, modulari e orchestrabili. Con ADK, gli sviluppatori possono definire logiche, strumenti e workflow direttamente da codice, integrandoli con Google Cloud, Vertex AI o ambienti locali. Vai al progetto -------------------------------------------------------------------------------- PYSPUR: AI AGENT WORKFLOW PySpur è una nuova libreria open source che consente di creare workflow di AI Agent attraverso un'interfaccia drag & drop. 0:00 /0:22 1× PySpur: AI Agent Workflow Semplifica la creazione, il test e il deploy di agenti, riducendo i tempi di sviluppo. Si installa in pochi secondi con pip, permette l’aggiunta di tool personalizzati e l’esportazione degli agenti in JSON. Vai alla documentazione -------------------------------------------------------------------------------- GOOGLE IRONWOOD Google ha presentato Ironwood, la sua settima generazione di TPU (Tensor Processing Unit), progettata specificamente per l’inferenza nell’era dell’AI generativa. Ironwood è pensata per gestire modelli di "reasoning", come i LLM e le Mixture of Experts (MoE), offrendo prestazioni senza precedenti. TRA LE CARATTERISTICHE PRINCIPALI.. * Fino a 9.216 chip per pod, raggiungendo 42,5 Exaflops, più di 24 volte la potenza del supercomputer El Capitan. * Miglioramenti significativi in memoria (192 GB HBM per chip) e velocità di interconnessione tra chip (1,2 Tbps). * 2x più efficiente dal punto di vista energetico rispetto alla generazione precedente (Trillium). * Supporta carichi di lavoro AI intensivi con alta efficienza e scalabilità. * Utilizza la piattaforma software Pathways per facilitare l’elaborazione distribuita su larga scala. 0:00 /0:30 1× Google Ironwood Ironwood si inserisce nell’architettura AI Hypercomputer di Google Cloud, diventando la base per nuovi progressi nel campo dell’AI, tra cui modelli come Gemini 2.5 e AlphaFold. Vai al post > L'infrastruttura hardware sarà il fattore differenziante nel prossimo futuro? -------------------------------------------------------------------------------- OPENAI PRESENTA LE "EVALS" API Permettono di definire dei test, e di valutare rapidamente i prompt automatizzando le esecuzioni. OpenAI presenta le "Evals" API: un test Nell'esempio ho caricato nel Playground un CSV contenente stringhe e label. Successivamente ho configurato il test, creando un prompt dinamico che si valorizza attraverso i dati del CSV. L'ultimo ingrediente è un "grader" per valutare le risposte del modello in base a un criterio che possiamo definire. Il sistema esegue automaticamente tutti i prompt e possiamo valutare il risultato del test. Vai alla documentazione > Il tutto, completamente realizzabile via API: questo permette di creare > procedure di test per diverse versioni di prompt. -------------------------------------------------------------------------------- COPILOT SEARCH Bing lancia la risposta a AI Mode di Google: Copilot Search. Il funzionamento è molto simile: l'utente può porre una domanda, il sistema usa il reasoning per espandere la ricerca, estrae le fonti, e compone una risposta usando un LLM. Copilot Search di Bing È possibile visualizzare il "ragionamento" e le query correlate. Tutte le fonti sono consultabili. Successivamente permette delle ricerche di follow-up. Vai alla ricerca -------------------------------------------------------------------------------- MCP (MODEL CONTEXT PROTOCOL): UN TEST Un test in cui un Agente basato su o3 di OpenAI accede a file in locale attraverso il protocollo MCP (Model Context Protocol). MCP (Model Context Protocol): un test Come funziona? Ho implementato un server MCP che può effettuare diverse operazioni sul filesystem locale del mio laptop, e l'agente è connesso a quel server. Quando faccio richieste all'agente (che usa o3-mini via API), il sistema accede ai file in locale e cerca le informazioni necessarie per rispondere. Infine restituisce la risposta. Nell'area di tracciamento del Playground di OpenAI è possibile monitorare tutte le operazioni compiute dall'agente. > MCP permette di creare applicazioni basate sui LLM che accedono a dati, > software esterni e potenzialmente qualunque sistema. Questo apre la strada ad > automazioni davvero interessanti. -------------------------------------------------------------------------------- GEMINI LIVE: CONDIVISIONE SCHERMO E VIDEOCAMERA Su Gemini Live è disponibile anche in Italia la funzionalità di condivisione in real time dello schermo e della videocamera. Nel video, condivido lo schermo del mio dispositivo con l'assistente e interagisco attraverso la voce chiedendo informazioni su ciò che sto vedendo. Gemini Live: condivisione schermo > Queste funzionalità fanno comprendere il grande potenziale di interazione di > questi sistemi con il mondo reale. -------------------------------------------------------------------------------- CLAUDE FOR EDUCATION Claude for Education è il nuovo progetto di Anthropic pensato per rivoluzionare il mondo universitario con l’AI. Grazie alla modalità Learning Mode, Claude stimola il pensiero critico degli studenti invece di fornire risposte pronte, utilizzando domande socratiche e strumenti strutturati per lo studio. Partnership con università come Northeastern, LSE e Champlain College portano l'intelligenza artificiale in aula e negli uffici amministrativi, aiutando studenti, docenti e staff a lavorare in modo più efficace e intelligente. Vai al post > Con programmi dedicati agli studenti, API gratuite per progetti innovativi e > integrazione nei principali sistemi educativi come Canvas LMS, Claude si > afferma come un alleato concreto per un'educazione del futuro, costruita su > responsabilità, accessibilità e innovazione. -------------------------------------------------------------------------------- RUNWAY GEN-4 Runway ha presentato Gen-4, il nuovo modello dedicato ai contenuti visivi. Consente la generazione di immagini e video mantenendo coerenza tra personaggi, oggetti e ambientazioni anche in scenari complessi. Utilizza riferimenti visivi e istruzioni testuali per produrre contenuti uniformi in termini di stile, composizione e prospettiva, senza necessità di ulteriori addestramenti. Runway Gen-4: presentazione Tutti i brand che sviluppano modelli stanno creando piattaforme in grado di generare sia immagini che video, in modo da dare un'unica soluzione agli utenti. Vai al post > Nella presentazione parlano anche di "simulazione fisica".. su questo non sono > molto convinto, ma di certo i miglioramenti sono incredibili. -------------------------------------------------------------------------------- FLORA: DIVERSI MODELLI IN UN UNICO AMBIENTE Flora è un esempio di strumento che riunisce diversi modelli visuali in un unico ambiente consentendo sperimentazione e prototipazione rapida. Un esempio di utilizzo di Flora Nell'esempio si vede un progetto che parte da un'immagine generata da prompt testuale usando Flux Pro. Vengono create diverse inquadrature con prompt multimodale con Gemini 2.0 Flash. Infine le clip video usando Ray2 di Luma: da prompt + immagine, ma anche con prompt + due frame. Tra i vari modelli sono a disposizione anche Flux Dev, Ideogram, Stable Diffusion, Photon di Luma, Kling e Runway. Vai al progetto > Un tool davvero interessante, e la coerenza delle immagini è notevole. -------------------------------------------------------------------------------- SEAWEED: UN MODELLO DA 7B DI PARAMETRI CHE COMPETE CON I GIGANTI Seaweed 7B è un nuovo modello da 7 miliardi di parametri capace di competere con giganti del settore, ma con una frazione delle risorse. Seaweed: un nuovo modello di generazione video Addestrato con "sole" 665.000 ore di GPU H100, raggiunge livelli di qualità visiva, fedeltà al prompt e coerenza narrativa che lo pongono tra i migliori sistemi di generazione video. Con il supporto a testo, immagini e audio, Seaweed-7B genera video realistici, coerenti e controllabili fino a 720p in tempo reale. Il suo design include un VAE 3D causale e un Diffusion Transformer ottimizzato per performance e scalabilità, riducendo drasticamente i costi computazionali. Vai al progetto > Come abbiamo detto più volte, la scala non può essere l'unica leva per > migliorare le performance dei modelli. Ora serve evoluzione architetturale, e > questo è un esempio. -------------------------------------------------------------------------------- UI-TARS-1.5 DI BYTEDANCE ByteDance ha rilasciato UI-TARS-1.5, un agente multimodale basato su Qwen2.5-VL-7B che unisce visione e linguaggio con "reasoning". UI-TARS - Next-generation native GUI agent model UI-TARS：Next-generation native GUI agent model designed to interact seamlessly with GUIs using human-like perception UI-TARS Team Il modello valuta prima di agire, migliorando l’esecuzione dei task in ambienti complessi. Brilla nei benchmark GUI, superando modelli come Claude 3.7 e OpenAI CUA in compiti su desktop e browser. Ottimi risultati anche in giochi web, grazie a una forte capacità di pianificazione a lungo termine. Si distingue nella navigazione web con performance superiori in SimpleQA e BrowseComp, gestendo con precisione interazioni real-time su interfacce grafiche. In ambienti 3D come Minecraft, batte agenti top usando input visivi e controlli nativi, migliorando le decisioni grazie al suo modulo di “pensiero prima dell’azione”. -------------------------------------------------------------------------------- MIDJOURNEY V7 Midjourney mancava da tempo in ambito di rilasci, ma ora annuncia la versione V7 del suo modello, attualmente in fase Alpha. Più intelligente nell’interpretazione dei prompt testuali, offre una qualità visiva superiore e migliora drasticamente la coerenza nei dettagli di corpi, mani e oggetti. Vai al post V7 introduce per la prima volta la personalizzazione del modello attiva di default, che si sblocca in circa 5 minuti. Questa funzione mira a interpretare meglio ciò che l’utente desidera e trova visivamente affascinante. Grande novità è anche il Draft Mode, che consente rendering 10 volte più veloci al 50% del costo. È pensato per esplorare idee in modo rapido: le immagini sono a qualità ridotta, ma esteticamente coerenti. È disponibile anche una modalità vocale per iterare i prompt in modo conversazionale. -------------------------------------------------------------------------------- - GRAZIE - Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre persone, condividilo 🙂 ISCRIVITI ALLA NEWSLETTER Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su tematiche relative all'intelligenza artificiale. Iscriviti alla Newsletter Email sent! Check your inbox to complete your signup. Gratuita. No Spam. Puoi disiscriverti quando vuoi. Consulta la privacy policy.

May 6, 2025 / Alessio Pomaro

Generative AI: novità e riflessioni - #11 / 2024

> Buon aggiornamento, e buone riflessioni.. -------------------------------------------------------------------------------- CI VEDIAMO AL SEARCH MARKETING CONNECT Nei giorni 11 e 12 dicembre, a Bologna, ci sarà la diciottesima edizione del Search Marketing Connect, che sarà orientata all'impatto dell'Intelligenza Artificiale su SEO, Analytics, ADV, Digital Strategy e Content. Terrò due interventi: * il primo sulla ricerca online potenziata dall'AI; * il secondo sulle nuove architetture volte ad aumentare la qualità dell'inferenza nei modelli di linguaggio (sistemi di "reasoning" e multi-agent). In entrambi, porterò concetti, sperimentazione e riflessioni. Vai al programma completo -------------------------------------------------------------------------------- COSA SONO GLI AI AGENTS? Tutti parlano gli AI Agents e sistemi multi-agente. Ma di cosa si tratta? Spiegazione semplice: un agente è un sistema che usa un LLM come motore di "ragionamento", ed è in grado di eseguire operazioni autonomamente per raggiungere l'obiettivo richiesto. Cosa sono gli AI Agents? > Un GPT connesso a diverse API esterne è un semplice esempio di agente: è il > LLM, in base alla richiesta e ai servizi ai quali può accedere, che decide le > azioni da compiere. Qui è possibile consultare un esempio di implementazione di un semplice agente usando LangChain. Build an Agent | 🦜️🔗 LangChain By themselves, language models can’t take actions - they just output text. 🦜️🔗 LangChain UN ESEMPIO DI APPLICAZIONE MULTI-AGENTE Nel video, è possibile vedere un esempio di applicazione multi-agent su AutoGen Studio, per pianificare il miglior periodo per una vacanza con determinate caratteristiche. Un'applicazione multi-agent su AutoGen Studio Gli agenti coinvolti sono: un proxy che riceve la richiesta, il team leader, l'esperto di meteorologia, l'esperto della Grecia e l'esperto di surf. Ogni agente è basato su GPT-4o, e ha accesso a una knowledge specifica, o a tool che estraggono dati via API in base alle interazioni. > I vantaggi di sistemi di questo tipo: specializzazione, scomposizione di > problemi complessi, scalabilità, flessibilità. -------------------------------------------------------------------------------- MODEL CONTEXT PROTOCOL (MCP) Anthropic introduce Model Context Protocol (MCP), uno standard che semplifica la connessione degli agenti AI a fonti di dati locali e remote. Grazie a sistemi di questo tipo, l'LLM può collegarsi alla knowledge senza bisogno di connettori specifici, ma con "semplici" architetture client-server. Introducing the Model Context Protocol The Model Context Protocol (MCP) is an open standard for connecting AI assistants to the systems where data lives, including content repositories, business tools, and development environments. Its aim is to help frontier models produce better, more relevant responses. > Questo permette di aumentare la precisione e di creare ecosistemi più > scalabili e sostenibili, accelerando la transizione verso sistemi di AI più > "agentici" e collaborativi. -------------------------------------------------------------------------------- LA RICERCA SU CHATGPT OpenAI porta su ChatGPT l'esperienza (e i feedback) di SearchGPT e le partnership editoriali nate nell'ultimo periodo. Si basa su GPT-4o ottimizzato con nuove tecniche di generazione di dati sintetici e di distillazione che sfrutta o1. > L'ho provato. È senza dubbio migliorabile, ma mi sembra un ottimo inizio di > una nuova esperienza di ricerca. La ricerca su ChatGPT Mancano le integrazioni che siamo abituati a trovare nelle SERP di Google, ad esempio.. ma le potenzialità sono enormi. Esempi di ricerca su ChatGPT La capacità di distillare una grande quantità di fonti in pochissimo tempo è stupefacente. La sintesi delle competizioni sportive è un esempio lampante. > E vogliamo parlare dell'estensione per Chrome che permette di rendere la > ricerca di ChatGPT quella di default del browser!? COME FUNZIONA LA RICERCA SU CHATGPT? Il dettaglio del video fa intuire la natura del funzionamento della ricerca di ChatGPT. Search su ChatGPT: come funziona? È una sorta di RAG (Retrieval-Augmented Generation): la SERP di Bing è la lista dei "documenti" che compongono la knowledge. Le informazioni vengono trasformate in embeddings, e con una query vettoriale il LLM costruisce la risposta. Nell'area "citazioni" sono presenti i documenti della knowledge con le parti più vicine semanticamente alla query, e che, come nel RAG vengono indicate tra le fonti della risposta. > Questo cambia il paradigma di ricerca delle informazioni: la prima estrazione > può essere anche poco precisa (rimanendo importante), mentre il lavoro > semantico raffinato avviene in seconda battuta. LA RICERCA SU CHATGPT NON È SEARCHGPT! Ho letto diversi post in cui si afferma di aver scoperto che i risultati della ricerca di ChatGPT derivano da Bing: È COSÌ, e la documentazione lo riporta in modo chiaro (..ma bisogna leggerla!). La ricerca su ChatGPT non è SearchGPT È stata migliorata la distillazione dei risultati, vengono sfruttare le partnership editoriali, ed è stata sfruttata L'ESPERIENZA di SearchGPT (i feedback del prototipo) per migliorare le risposte della ricerca. > Ergo: non leggiamo solo i titoli degli articoli che troviamo online. I > concetti vanno approfonditi. -------------------------------------------------------------------------------- AI OVERVIEWS SU GOOGLE SHOPPING NEGLI USA L'esperienza di AI Overviews all'interno di Google Shopping nelle SERP USA è davvero interessante. AI Overviews su Google Shopping in USA Google sta "spingendo" questa tecnologia dove (attualmente) non ha rivali, ovvero nelle piattaforme in cui i risultati sono guidati dai dati strutturati. > Anche se la recente integrazione dello "shopping" su Perplexity fa riflettere. GOOGLE AI SALES ASSISTANT Sembra che Google, inoltre, stia testando AI Sales Assistant in SERP, raggiungibile attraverso una CTA "Shop" dopo i sitelink dei brand. La chat permette di fare domande e affinare la ricerca dei prodotti. Google AI Sales Assistant > I dati ben strutturati, diventano sempre di più il motore che alimenta touch > point digitali. E il sito web è solo uno di questi. SEO è anche comprendere questo aspetto, e curare feed e dati strutturati. -------------------------------------------------------------------------------- LO SHOPPING DI PERPLEXITY Perplexity introduce "shopping", che permette di fare una ricerca con intento d'acquisto, ottenere un listing di prodotti distillato dai risultati con informazioni dettagliate, e acquistare direttamente dalla SERP. La ricerca può essere anche visuale.. anzi, multimodale (immagine + query testuale). Per approfondire > I sistemi basati sull'AI diventano sempre di più un intermediario tra l'utente > e l'acquisto di prodotti e servizi. -------------------------------------------------------------------------------- BRAVE SEARCH INTRODUCE "ANSWER WITH AI" Una nuova funzionalità che distilla risposte in base ai risultati di ricerca, e permette una conversazione con domande di follow-up. Il sistema si basa sui dati dell'indice di Brave e su LLM open-source e proprietari per la generazione di risposte. Answer with AI di Brave Search Lo stile è quello di AI Overviews di Google, con la risposta in alto e i risultati tradizionali a seguire. > Il panorama si amplia, e gli ibridi tra motore di ricerca e LLM diventano > sempre di più parte dell'esperienza utente. -------------------------------------------------------------------------------- LA VERSIONE DESKTOP DI CHATGPT OpenAI ha rilasciato l'applicazione desktop per Windows e MacOS. L'ho provata, e si capisce subito come la facilità di utilizzo aumenta. La versione desktop di ChatGP Alt + Spazio, e l'interazione è subito pronta per ricerche, azioni sui documenti, "vision" sullo schermo, e voce. -------------------------------------------------------------------------------- GOOGLE SEARCH PER I MODELLI GEMINI Dopo la ricerca su ChatGPT arriva Google Search per i modelli Gemini. L'ho provato. La funzionalità si chiama "Grounding with Google Search" ed è molto simile a quella di ChatGPT. Grounding with Google Search Permette, però, anche si gestire il "dynamic retrieval": un parametro per impostare l'influenza del recupero dai risultati di ricerca nella risposta del modello. Interessante anche vedere come il sistema scompone la richiesta in diverse query. > L'aspetto interessante è che sarà usabile via API, consentendo agli > sviluppatori di creare applicazioni più accurate. -------------------------------------------------------------------------------- SISTEMI DI "REASONING": LA QUALITÀ DELL'INFERENZA Durante il TED AI di San Francisco, Noam Brown (OpenAI), ha affermato: > Si è scoperto che far riflettere un bot per soli 20 secondi durante una mano > di poker ha ottenuto lo stesso miglioramento delle prestazioni che si > otterrebbe aumentando le dimensioni del modello di 100.000 volte e > addestrandolo per 100.000 volte più a lungo. Si stava riferendo alla tecnica usata su sistemi come "o1", che probabilmente tutti i modelli (anche di altri player) adotteranno prossimamente. Sul palco dell'AI Festival, ho condiviso la riflessione: > La potenza di calcolo e l'accesso a grandi set di dati saranno ancora > sufficienti per progredire? O forse siamo arrivati in un momento in cui la > scala potrebbe non bastare più, rendendo necessarie intuizioni innovative ed > evoluzioni algoritmiche? Alessio Pomaro: AI Festival 2024 Sembra, infatti, che il focus si stia spostando sulla qualità dell'inferenza e su nuove architetture, e meno sulla scala del training (visto anche che i progressi di Orion sembrano essere al di sotto delle aspettative). > Successivamente, si dovrà cercare l'accuratezza e la "comprensione" coerente. -------------------------------------------------------------------------------- COSA SONO GLI EMBEDDINGS? Sentiamo sempre più spesso parlare di embeddings: di cosa si tratta, come si generano, e come possono essere utili nei flussi operativi? Una spiegazione semplice, con alcuni esempi di utilizzo: Cosa sono gli embeddings? Esempi di utilizzo Cosa sono e come funzionano gli embeddings (o incorporamenti): una spiegazione semplice con alcuni esempi di utilizzo in ambito SEO, e riflessioni sull’importanza della consapevolezza di questi sistemi. Alessio PomaroAlessio Pomaro In ambito SEO, ad esempio, possono essere utilizzati per creare delle redirection automatizzate per le migrazioni degli e-commerce, per gestire i 404 e per rafforzare la rete di link interni. > Facciamo anche alcune importanti riflessioni sull'importanza della > consapevolezza di questi sistemi per ottenere performance. Per approfondire -------------------------------------------------------------------------------- KLING CUSTOM MODEL E SUNO V4 Con questo video vediamo due novità incredibili: Kling Custom Models e Suno v4. Kling Custom Model e Suno V4 Kling ora permette un training per la coerenza dei personaggi attraverso dei video di esempio. Il video è stato creato da Alex Patrascu, addestrando Kling a riprodurre sé stesso. L'audio del video è stato realizzato con l'ultima versione di Suno, la 4. Anche le tracce audio iniziano ad avere una qualità importante. > Il risultato è.. una parte del futuro della content creation. -------------------------------------------------------------------------------- RUNWAY: FRAMES + EXPAND VIDEO Runway ha presentato due nuove funzionalità molto interessanti (una dedicata alle generazione delle immagini). FRAMES Frames è un nuovo modello di generazione di immagini di Runway. Le chiavi di sviluppo sembrano essere la coerenza stilistica e la fedeltà visiva. Il tutto per essere il primo step per la generazione di video sempre migliori. Esempi di immagini generate con Frames di Runway Le anteprime sono notevoli. Per approfondire EXPAND VIDEO Expand Video è una nuova funzionalità per modificare le proporzioni dei video estendendo il frame originale e mantenendo la coerenza visiva. A questo è possibile abbinare i movimenti della telecamera ed effetti. Expand Video di Runway > Questo permette di creare diversi formati di video senza dover fare riprese > aggiuntive. Per approfondire -------------------------------------------------------------------------------- FUGATTO DI NVIDIA Fugatto è un nuovo modello di Nvidia dedicato al mondo audio. > È in grado di generare e modificare qualunque tipo di mix di musica, voci e > suoni utilizzando prompt basati su testo e file audio. Esempi di funzionalità: creazione di nuovi suoni, cambiamento di emozioni o accenti in una voce, manipolazione di strumenti musicali in un brano esistente, voice-over personalizzati. Fugatto di Nvidia > La qualità e la precisione di questi strumenti li renderà indispensabili nei > flussi di lavoro. Per approfondire -------------------------------------------------------------------------------- STILI PERSONALIZZATI SU CLAUDE Anthropic ha introdotto una funzionalità che permette di scegliere lo stile di scrittura su Claude. Gli stili personalizzati su Claude Ma soprattutto, consente di creare stili personalizzati attraverso un addestramento: caricando esempi o usando prompt descrittivi. -------------------------------------------------------------------------------- AISUITE DI ANDREW NG Andrew Ng ha rilasciato Aisuite nella sua repository di GitHub: un framework open che permette di usare qualunque LLM con poche righe di Python. GitHub - andrewyng/aisuite: Simple, unified interface to multiple Generative AI providers Simple, unified interface to multiple Generative AI providers - GitHub - andrewyng/aisuite: Simple, unified interface to multiple Generative AI providers GitHubandrewyng > In pratica incapsula le chiamate API dei più noti modelli, facilitando test e > prototipazione. -------------------------------------------------------------------------------- IGNITE 2024: LE NOVITÀ DI MICROSOFT * Sicurezza e Data Governance. Nuove funzionalità in Microsoft Purview per proteggere i dati e prevenire rischi legati all'AI. * Evoluzione di Co-Pilot. Co-Pilot diventa centrale per produttività e creatività con azioni automatizzate e agenti personalizzabili. * Nuovi Agenti AI. Agenti specifici per moderare riunioni, gestire progetti e fornire accesso alle informazioni in tempo reale. Un esempio è "Interpreter": un agente AI connesso a Teams in grado di tradurre in tempo reale la conversazione in qualunque lingua riproducendo la voce delle persone. > Fino a qualche anno fa lo immaginavamo.. adesso è realtà * Co-Pilot Analytics. Strumenti per misurare l’impatto aziendale dell’uso di Co-Pilot. * Windows 365. Nuove soluzioni per il lavoro sicuro nel cloud e aggiornamenti senza interruzioni. * Innovazioni Hardware. Lancio di chip e DPUs per migliorare sicurezza, prestazioni e sostenibilità. * Microsoft Fabric. Unificazione di analisi e gestione operativa con database SQL Server su Fabric. * Azure AI Foundry. Piattaforma centralizzata per sviluppatori con modelli AI e strumenti avanzati. * Computing Quantistico. Progresso con 24 qubit logici entangled per affrontare sfide scientifiche complesse. Ignite 2024: le novità di Microsoft -------------------------------------------------------------------------------- I NUOVI STRUMENTI DI MISTRAL Mistral ha rilasciato una nuova versione della sua Chat, introducendo nuovi strumenti: le ricerca online, Canvas, Advanced OCR (vision) e Image Generator. L'ho provato! * La ricerca online non è perfezionata: è lenta e ho ottenuto informazioni sbagliate. Non è specificato il motore, ma spesso i risultati derivano da una SERP in inglese. Anche se si forza la Search, non sempre esegue la ricerca. * La generazione delle immagini è basata su Flux Pro, e questa è un'ottima notizia. Tuttavia, ci sono problemi di incapsulamento dei prompt con la lingua: meglio usare l'inglese. * Canvas è interessante, ma ha problemi nel prompt multimodale: in un prompt ho istruito il modello per generare un post a partire da un PDF, ma ha dato errore. Al netto di questo, siamo lontani dalle funzionalità di Canvas su ChatGPT. > L'ottimo inizio di un nuovo sviluppo. -------------------------------------------------------------------------------- OPERATOR DI OPENAI OpenAI, secondo Bloomberg, starebbe lavorando sul progetto "Operator", un agente autonomo in grado di controllare anche i dispositivi svolgendo compiti in modo indipendente. Questo segue un trend già avviato da Anthropic e da Google, ma ancor prima da progetti open source come Open Interpreter. > Gli agenti autonomi sono probabilmente il prossimo passo evolutivo per l'AI, > che si avvia a diventare uno strato non solo tra gli utenti e le piattaforme > digitali, ma anche nei confronti dell'hardware. -------------------------------------------------------------------------------- USARE I MODELLI DI LINGUAGGIO SU SCREAMING FROG Screaming Frog introduce le API per l'interfacciamento con i modelli di OpenAI, Google e con Ollama. Lavora sull'HTML salvato in fase di scansione, mentre nella versione precedente si usavano snippet JavaScript personalizzati eseguiti durante il rendering delle pagine. È possibile generare embeddings e contenuti con prompt personalizzati su contesti selezionabili (attraverso estrattori predefiniti e custom). L'integrazione dei LLM su Screaming Frog COSA MANCA? La possibilità di comporre il contesto che mettiamo a disposizione del modello in base all'utilizzo di più elementi delle pagine estraibili con XPath. Questo è realizzabile con la versione JS! > Ho scritto al team di Screaming Frog, e hanno già messo la funzionalità nella > roadmap di sviluppo. Ottimo! -------------------------------------------------------------------------------- GEMINI NEL WORKSPACE DI GOOGLE Google inizia ad integrare Gemini nei software del Workspace. Negli esempi si vedono alcune interazioni su Gmail e su Drive. Esempi dell'integrazione di Gemini nel Workspace di Google > Tutto molto interessante, anche se le performance non sono ancora ottimali > (almeno per l'italiano). -------------------------------------------------------------------------------- LA SENSIBILITÀ DEI LLM NEI CONFRONTI DEI PROMPT I LLM più grandi sono meno sensibili alle variazioni dei prompt. Ne parla questo paper molto interessante. Ma basta fare dei test con o1 di OpenAI per rendersene conto. La sensibilità dei LLM nei confronti dei prompt Questo è ottimo perché il margine d'errore si riduce anche se le interazioni diventano più scarse, ma si riducono anche le potenzialità. Vai al paper -------------------------------------------------------------------------------- USARE GEMINI CON LA LIBRERIA PYTHON DI OPENAI Gemini può essere usato attraverso la libreria Python di OpenAI. Com'è possibile? Semplice: hanno sviluppato un proxy che traduce la sintassi delle chiamate API di OpenAI nel formato richiesto dalle API di Gemini. Usare Gemini con la libreria Python di OpenAI Mossa intelligente, perché gli sviluppatori possono switchare da un modello all'altro cambiando 2 parametri. Ma così il confronto diventa semplice. Vai alla documentazione > È la dimostrazione che il formato di OpenAI sta diventando uno standard. -------------------------------------------------------------------------------- - GRAZIE - Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre persone, condividilo 🙂 ISCRIVITI ALLA NEWSLETTER Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su tematiche relative all'intelligenza artificiale. Iscriviti alla Newsletter Email sent! Check your inbox to complete your signup. Gratuita. No Spam. Puoi disiscriverti quando vuoi.Consulta la privacy policy.

December 4, 2024 / Alessio Pomaro

Cosa sono gli embeddings? Esempi di utilizzo

PUNTI SALIENTI * Definizione di embeddings Gli embeddings rappresentano parole e frasi come vettori numerici in uno spazio multidimensionale, rendendo possibile una rappresentazione semantica del linguaggio. * Formazione degli embeddings Durante il training, il modello perfeziona i vettori numerici per avvicinare quelli con significati simili, facilitando la comprensione delle relazioni semantiche tra le parole. * Tokenizzazione e embeddings contestualizzati I modelli suddividono il testo in token, generano embeddings per ogni token e li combinano per rappresentare il significato dell’intero testo. * Utilità degli embeddings nella SEO L’uso degli embeddings supporta il miglioramento della SEO con applicazioni come redirection automatizzata, gestione dei 404 e rafforzamento della rete di link interni. * Calcolo della similarità La similarità tra embeddings si può misurare con vari metodi, con la similarità del coseno spesso preferita, anche se il prodotto scalare e altre tecniche possono offrire risultati comparabili. * Integrazione nei tool SEO Strumenti come Screaming Frog permettono di generare embeddings durante la scansione dei siti web, integrando le API di modelli di AI (es. OpenAI, Google, Ollama). * Consapevolezza nell'uso degli embeddings Per massimizzare i benefici degli embeddings, è cruciale comprendere la loro natura e i metodi di calcolo utilizzati, evidenziando l’importanza di un approccio consapevole e ben studiato. Immaginiamo che lo spazio 3D che segue rappresenti uno spazio semantico del linguaggio. 0:00 /0:28 1× In questo scenario, ogni puntino viola rappresenta l'embedding di una parola, ossia la sua rappresentazione numerica in uno spazio tridimensionale (la sequenza numerica dell'embedding corrisponde alle coordinate nello spazio multidimensionale del puntino). > Gli embeddings sono rappresentazioni numeriche che trasformano parole o frasi > in vettori di numeri reali. In questo esempio, li vediamo rappresentati in 3 dimensioni, ma nella realtà questi vettori esistono in spazi con molte più dimensioni. Gli embeddings di OpenAI, ad esempio, arrivano a oltre 3000 dimensioni: uno spazio che non possiamo visualizzare facilmente. La potenza degli embeddings risiede nel fatto che i vettori "catturano" le caratteristiche semantiche e sintattiche del linguaggio, permettendo ai modelli di linguaggio di "comprendere" e manipolare il testo in modo matematico. In che modo riescono a rappresentare queste caratteristiche? Le coordinate dei vettori nello spazio multidimensionale fanno sì che parole con significati simili siano vicine tra loro. Ad esempio, parole come "gatto" e "felino" si troveranno vicine nello spazio degli embeddings, mentre parole come "gatto" e "automobile" saranno molto lontane. Un esempio semplificato del concetto di embeddings Possiamo intuire con semplicità, quindi, che più aumentano le dimensioni dello spazio, e più aumenta la precisione della rappresentazione. COME VENGONO DEFINITI GLI EMBEDDINGS? Nella fase iniziale del training di un LLM, i vettori numerici che rappresentano le parole sono casuali o derivano da una pre-inizializzazione. Il modello, durante l'addestramento, analizza ampie collezioni di testo, che includono dati provenienti da libri, articoli e contenuti web, osservando l’uso delle parole in vari contesti. Attraverso questo processo di ottimizzazione, il modello raffina progressivamente i valori numerici dei vettori, in modo da avvicinare tra loro quelli che rappresentano parole con significati simili, rendendo così esplicite le relazioni semantiche tra le parole. Ad esempio, parole che appaiono frequentemente in contesti simili avranno rappresentazioni vettoriali simili. Una volta concluso il training, i vettori diventano altamente raffinati e riescono a cogliere molte delle sottigliezze del linguaggio umano, come sinonimi e analogie. > Ecco perché i modelli di linguaggio sono così abili nell’interpretare e > generare testo. Come vengono definiti gli embeddings: training del modello Successivamente, quando usiamo un modello per generare gli embeddings, forniamo una parola in input, e il modello recupera l'embedding corrispondente dalla matrice di embeddings ottimizzata durante la fase di training. Il vettore restituito rappresenta le caratteristiche semantiche della parola, basate sulla conoscenza acquisita dal modello. Come vengono generati gli embeddings da un modello Se, ad esempio, diamo in input al modello "text-embedding-3-large" di OpenAI la parola "marketing", otteniamo il vettore numerico che segue. I valori che si percepiscono dall'immagine sono le 3.072 dimensioni con le quali il modello rappresenta la parola. > "marketing" = [-0.0021438375115394592, -0.00014348721015267074, > -0.0066122193820774555, 0.001951836864463985, ..., -0.004653195384889841, > 0.018990622833371162, 0.008846410550177097, -0.0012166894739493728, > 0.015064360573887825, -0.0035094046033918858, -0.0026982782874256372] PAROLE O TOKEN? Fino a questo punto, abbiamo ragionato in termini di "parole." Ma i LLM non si basano direttamente sulle parole come unità di base, bensì sui token. > Un token è una sequenza di caratteri, e può rappresentare una parola, una > parte di parola o persino un singolo carattere, a seconda del contesto e della > lingua. È l’unità fondamentale che i modelli di linguaggio utilizzano per > processare il testo. RICOSTRUIAMO IL FLUSSO DELLE OPERAZIONI Con questa precisazione, rivediamo il flusso con il quale il modello genera gli embeddings di un testo. * Forniamo al modello un testo (che può essere una parola, una frase o un paragrafo, o un documento), * il modello lo divide in token (un processo chiamato tokenizzazione), * recupera gli embeddings contestualizzati per ogni token, ovvero rappresentazioni numeriche che catturano il significato di ogni token nel suo contesto, * infine, attraverso tecniche come l’attenzione e la media pesata, combina gli embeddings dei singoli token per ottenere un embedding complessivo, che rappresenta il significato dell’intero testo. Il processo di generazione degli embeddings Naturalmente, anche la fase di training, e quindi di ottimizzazione dei vettori, deve essere rivista in ottica di utilizzo di token A COSA SERVONO GLI EMBEDDINGS? Ora che abbiamo compreso la natura di questi sistemi, che sono alla base del funzionamento dei modelli di linguaggio (LLM) possiamo chiederci: a cosa può servire la vettorializzazione dei testi nei flussi operativi? La trasformazione di contenuti in sequenze numeriche che ne rappresentano il significato permette di determinare la similarità dei testi attraverso semplici calcoli matematici. E questo può trasformarsi, ad esempio, in sistemi di recommendation (di prodotti, di articoli, o di contenuti multimediali in base alle preferenze degli utenti), ricerche evolute su richieste in linguaggio naturale (i moderni sistemi RAG - Retrieval Augmented Generation - si basano esattamente su questi concetti), automazioni di processi su larga scala. NOTA: il calcolo della similarità non è l'unica operazione attuabile sugli embeddings, ma è probabilmente quella più usata. -------------------------------------------------------------------------------- ESEMPI DI UTILIZZO NELLA SEO In ambito SEO, possiamo usare gli embeddings in diversi contesti, ad esempio la redirection in fase di migrazione, la gestione dei 404 post migrazione e il rafforzamento della rete di link interni. Per la trasformazione di contenuti testuali in embeddings possiamo usare uno script in Python (o in altri linguaggi di programmazione) che implementa le API del modello di linguaggio che scegliamo. Ecco un esempio di codice Python che sfrutta le API di OpenAI per ottenere l'embedding di un testo. from openai import OpenAI client = OpenAI() response = client.embeddings.create( input="Your text string goes here", model="text-embedding-3-small" ) print(response.data[0].embedding) Oppure possiamo usare Screaming Frog SEO Spider, che ha introdotto la generazione degli embeddings (compatibile con i modelli di OpenAI, Gemini di Google e Ollama) direttamente in fase di scansione dei siti web. Questo significa che, mentre il sistema effettua il crawling, può considerare dei contenuti presenti nelle pagine come testi da trasformare in embeddings. E siamo noi a poter configurare il sistema in modo da scegliere i testi di interesse. La configurazione può avvenire in due modalità: * usando uno snippet nella sezione JavaScript personalizzato (documentazione); * usando una connessione diretta alle API dei modelli (dalla versione 21.0). La configurazione delle API di OpenAI su Screaming Frog > Chiaramente lo strumento può fare anche altre operazioni usando gli LLM, ma > rimaniamo sul tema degli embeddings. REDIRECTION IN FASE DI MIGRAZIONE In questo caso, possiamo scansionare il vecchio sito web e il nuovo sito web (quello che lo sostituirà), ottenendo gli embeddings dei contenuti delle diverse pagine. Con uno script Python, quindi, possiamo misurare la similarità tra le pagine, e, in base a questa, determinare delle associazioni tra gli URL delle vecchie risorse e gli URL delle nuove risorse. Un esempio dell'uso degli embeddings per la redirection automatizzata Infine, sempre attraverso semplici istruzioni in Python, possiamo ottenere automaticamente le regole di rewrite per la redirection. GESTIONE DEI 404 POST MIGRAZIONE In questo caso, abbiamo a disposizione la lista delle pagine che restituiscono uno status code 404 in Search Console. Come possiamo gestirle in modo automatizzato? O comunque, come possiamo avere un'automazione che ci fornisce un aiuto per gestirle? Possiamo, ad esempio, trasformare in embeddings gli URL (la stringa dell'URL), oppure gli slug degli URL. Allo stesso modo, dalla scansione del sito web online, possiamo ottenere gli embeddings delle stringhe dei nuovi URL. Un esempio dell'uso degli embeddings per la gestione dei 404 Attraverso un calcolo della similarità, quindi, possiamo, ancora una volta, ottenere un'associazione tra vecchi URL e nuovi URL, producendo una redirection automatizzata. > Con questa tecnica, in alcuni progetti, abbiamo ottenuto un matching corretto > quasi al 100%. Chiaramente, una condizione determinante per il funzionamento è > che gli URL siano "parlanti". RAFFORZAMENTO DEI LINK INTERNI Usando Screaming Frog, possiamo scansionare, ad esempio, le categorie di un e-commerce ottenendo gli embeddings dei contenuti al loro interno. Usando uno script per determinare la similarità, possiamo ottenere una lista di link tra le categorie più simili che possono diventare link in pagina verso categorie semanticamente affini e "related link" nei dati strutturati. Un esempio dell'uso degli embeddings per il potenziamento dei link interni NOTE SULL'USO DI SCREAMING FROG In questi esempi ho usato la modalità basata sugli snippet JavaScript per creare gli embeddings, perché permettono una configurazione come quella che segue. In pratica, non sto usando lo snippet di default dedicato agli embeddings (il quale vettorializza tutto il testo presente nel body), ma una variante in cui vado a creare una precisa stringa da vettorializzare, composta dal nome della categoria e dal testo della categoria. Configurazione di Screaming Frog per l'uso di OpenAI per generare gli embeddings Grazie a questo accorgimento, possiamo ottenere degli embeddings che rappresentano dei testi molto precisi, e soprattutto confrontabili. Considerare tutto il testo presente nel body sarebbe troppo dispersivo e poco preciso per dei confronti sulla semantica. > Dobbiamo usare dati puliti e confrontabili, se vogliamo ottenere il massimo da > questi sistemi! -------------------------------------------------------------------------------- COME CALCOLIAMO LA SIMILARITÀ TRA GLI EMBEDDINGS? Come calcoliamo la similarità? Questo è un tema importantissimo, perché fa parte del processo necessario all'ottenimento di un output usabile a partire dagli embeddings. Il metodo più usato è la similarità del coseno, che si basa sull’angolo tra due vettori (angolo piccolo = vettori simili; angolo grande = similarità scarsa). MA È SEMPRE LA SCELTA GIUSTA? Secondo uno studio di Netflix, la risposta è NO. Piccola parentesi: perché Netflix fa uno studio sulla similarità tra embeddings? Perché anche queste piattaforme usano tecnologie di questo tipo per l'analisi dei contenuti che propone agli utenti. Può non essere sempre la scelta giusta perché la similarità del coseno, come visto in precedenza, considera l’angolo, ma non della lunghezza dei vettori (la cosiddetta magnitude). E se usiamo embeddings in cui la magnitude è un elemento utile alla rappresentazione del testo, non stiamo effettuando un confronto corretto. Is Cosine-Similarity of Embeddings Really About Similarity? Cosine-similarity is the cosine of the angle between two vectors, or equivalently the dot product between their normalizations. A popular application is to quantify semantic similarity between high-dimensional objects by applying cosine-similarity to a learned low-dimensional feature embedding. This can work better but sometimes also worse than the unnormalized dot-product between embedded vectors in practice. To gain insight into this empirical observation, we study embeddings derived from regularized linear models, where closed-form solutions facilitate analytical insights. We derive analytically how cosine-similarity can yield arbitrary and therefore meaningless `similarities.′ For some linear models the similarities are not even unique, while for others they are implicitly controlled by the regularization. We discuss implications beyond linear models: a combination of different regularizations are employed when learning deep models; these have implicit and unintended effects when taking cosine-similarities of the resulting embeddings, rendering results opaque and possibly arbitrary. Based on these insights, we caution against blindly using cosine-similarity and outline alternatives. arXiv.orgHarald Steck FACCIAMO UN TEST Proviamo a usare gli embeddings di uno degli esempi precedenti per confrontare il calcolo della similarità effettuato con diversi metodi: similarità del coseno, prodotto scalare, similarità di Jaccard, distanza euclidea, distanza di Manhattan. Un esempio di calcolo di similarità con diversi metodi In base ai risultati del test, usando gli embeddings generati con i modelli di OpenAI, la similarità del coseno è effettivamente il metodo migliore. Ma il test mette in evidenza un aspetto interessante: come si vede, infatti, gli indici di similarità del coseno e del prodotto scalare sono identici. Eppure sono determinati da calcoli diversi: il prodotto scalare tiene conto anche della lunghezza dei vettori, mentre, come visto in precedenza, la similarità del coseno no. Calcoli di similarità tra embeddings con metodi diversi Quindi perché otteniamo risultati identici? Non è magia, e la spiegazione la troviamo nella documentazione degli embeddings di OpenAI. Molto semplicemente, gli embeddings di OpenAI sono normalizzati alla lunghezza "1". Questo fa sì che usando la similarità del coseno, il prodotto scalare, o anche la distanza euclidea, otterremo sempre lo stesso ranking di similarità. Tutto questo per arrivare a una conclusione che mi sta particolarmente a cuore. > Se vogliamo ottenere performance da questi sistemi, dobbiamo essere > consapevoli della natura degli strumenti che stiamo utilizzando.. e per farlo > ci sono 3 consigli: studiare, studiare, studiare. -------------------------------------------------------------------------------- ADVANCED SEO TOOL Il 30 ottobre ho raccontato questi concetti all'Advanced SEO Tool a Milano. Quello che segue è il video completo dell'intervento. Embeddings e SEO.. è QUASI magia - Advanced SEO Tool 2024 -------------------------------------------------------------------------------- - GRAZIE - Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre persone, condividilo 🙂 ISCRIVITI ALLA NEWSLETTER Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su tematiche relative all'intelligenza artificiale. Iscriviti alla Newsletter Email sent! Check your inbox to complete your signup. Gratuita. No Spam. Puoi disiscriverti quando vuoi.Consulta la privacy policy.

November 19, 2024 / Alessio Pomaro

GPT-4

Novità e Riflessioni

SEO

AI Overviews: meglio cercare su ChatGPT?

Dopo il rilascio negli Stati Uniti di AI Overviews, il nuovo sistema integrato alla ricerca di Google che compone le risposte attraverso l'AI generativa, ci sono stati diversi commenti in cui gli utenti hanno mostrato errori e informazioni non corrette. Il post della BBC che segue, racconta i casi più noti. Google AI search tells users to glue pizza and eat rocks Google has defended the answers given by AI Overview, describing them as “isolated examples”. BBC News Google, successivamente, ha pubblicato un articolo in cui spiega come funziona il sistema e i motivi per i quali può commettere imprecisioni. AI Overviews: About last week Here’s what happened with AI Overviews, the feedback we’ve received, and the steps we’ve taken. GoogleLiz Reid Il contenuto descrive concetti in modo chiaro e quasi scontato per chi conosce il mondo dei modelli di linguaggio. UNA BREVE SINTESI AI Overviews, di fatto, è simile a un sistema RAG (Retrieval Augmented Generation) che usa i risultati del motore di ricerca come contesto per l'elaborazione del modello di linguaggio, il quale compone la risposta. Secondo Google, quindi, parte del problema (risposte errate) deriva dal tipo di contenuti estratti dalla ricerca: se le pagine degli utenti contengono informazioni non corrette, anche la risposta del modello potrebbe non essere corretta. A questo aggiungiamo il fatto che il LLM spesso non è in grado di interpretare situazioni in cui gli esseri umani usano forme di ironia e sarcasmo. E questo porta a informazioni completamente fuori contesto. In uno degli esempi, infatti, la query che ha scatenato l'errore è stata: > "How many rocks should I eat?" AI Overviews ha risposto sostenendo che i geologi raccomandano agli esseri umani di mangiare una roccia al giorno. Questo deriva da una pagina in cui l'autore fa questa affermazione con ironia, per poi spiegare il concetto nell'articolo. Geologists Recommend Eating At Least One Small Rock Per Day - ResFrac Corporation Professor Zoback in The Onion ResFrac Corporation - Hydraulic Fracturing and Reservoir Simulation NON CI SIAMO! Tutto si gioca su ciò che viene proposto all'utente. Finché si propone una selezione di pagine coerenti alla query di ricerca (risultati di ricerca classici), il problema non si pone, perché sarà l'utente a fare le sue valutazioni consultando i risultati. Ma se la proposta mira a dare una risposta alla domanda dell'utente distillando i risultati del motore di ricerca, allora la risposta deve avere un senso. Sempre. E deve rispettare determinati canoni. Anche perché, ci sono sistemi che questo lo sanno fare meglio! FACCIAMO LA STESSA DOMANDA SU CHATGPT? Proviamo a fare la stessa richiesta su ChatGPT sfruttando la capacità di navigazione online. Un esempio di ricerca su ChatGPT ChatGPT, come si vede nell'immagine, effettua la ricerca online, e tra le fonti estrae anche lo stesso contenuto considerato da AI Overviews di Google. Vediamo, quindi che tipo di risposta compone il sistema di OpenAI. La risposta di ChatGPT alla stessa domanda posta su Google Come si vede, la risposta di ChatGPT è più sensata. Non solo. Rileva correttamente il senso dell'articolo che ha ingannato il modello di Google. Forse qualcuno può pensare che il motivo sia il fatto che la pagina di ResFrac è stata aggiornata recentemente riportando la vicenda. Allora ho fatto un ulteriore test, riportando manualmente solo il contesto della pagina in cui viene consigliato di mangiare una roccia la giorno. Risposta di ChatGPT con un contesto riportato da ResFrac Ancora una volta, ChatGPT risponde riconoscendo il tono con il quale è stato scritto il contenuto. COME SE LA CAVA CON LA PIZZA? Vediamo un ulteriore test con l'altra ricerca che ha scatenato le critiche. All'affermazione "cheese not sticking on pizza", AI Overviews ha consigliato di usare la colla. Vediamo ChatGPT. La risposta di ChatGPT alla richiesta sul formaggio sulla pizza Risposte sensate e bilanciate, usando contenuti disponibili online. L'EQUILIBRIO DELL'IBRIDO (MOTORE DI RICERCA + LLM) Google è senza dubbio il miglior motore di ricerca per la capacità di estrazione di contenuti coerenti alle query e di integrazione delle informazioni, ma questo non basta per generare risposte di valore (e non dannose) per gli utenti. > L'AI generativa di OpenAI è migliore? Si tratta di lacune della configurazione > del comportamento dell'agente che genera le risposte su AI Overviews? Nel post di Google questi esempi vengono descritti come casi isolati in cui la query non è mai stata eseguita nel motore di ricerca. Questo è assolutamente probabile, ma non può essere correlato al fatto di dare una risposta dannosa. Il problema è nel modello o nel suo utilizzo nel sistema. > Il titolo di questo post è una provocazione.. ma osservando gli output, quali > sono le migliori risposte? CONCLUSIONE La mia riflessione non è orientata a consigliare l'utilizzo di ChatGPT + web search come motore di ricerca. Anzi, metto in guardia le persone in tutti i corsi ai quali partecipo su questo tipo di azione. Ma se si vuole aggiungere una funzionalità in grado di dare risposte agli utenti basate su fonti online, il modello deve essere in grado di farlo in maniera corretta, con delle linee guida rigide e dei "guardrails" opportuni. Concludo con una nota di Giorgio Taverniti, emersa riflettendo su queste tematiche. > Il problema si trova alla base della progettazione dell'interfaccia: se > qualcosa è pensato per la massa, deve rispettare l'aspettativa del prodotto e > non ingannare l'utente. > > Inserire l'AI Generativa in una chat, è fuorviante, ma è anche il modo > migliore di farlo. Una piccola nota in grigio non risolverà il problema. > Le Big Tech dovranno trovare una soluzione. Questi sistemi, attualmente, non > contemplano la verifica dei fatti o, ancora più difficile, della "verità". > Quindi mi aspetto che si lavorerà anche in questa direzione, per quanto sia > davvero difficile. > > Sono contento che ChatGPT sia arrivato a questo livello. È davvero > incredibile. -------------------------------------------------------------------------------- - GRAZIE - Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre persone, condividilo 🙂 ISCRIVITI ALLA NEWSLETTER Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su tematiche relative all'intelligenza artificiale. Iscriviti alla Newsletter Email sent! Check your inbox to complete your signup. Gratuita. No Spam. Puoi disiscriverti quando vuoi.Consulta la privacy policy.

June 4, 2024 / Alessio Pomaro

GPT-4

Gemini

SEO

Google I/O in 10 punti chiave e qualche considerazione

Ieri sera abbiamo seguito il tanto atteso Google I/O, e come annunciato, sono state presentate tutte le novità che ruotano attorno all'intelligenza artificiale, in quella che Sundar Pichai ha definito "The Gemini Era".. un'era sempre più multimodale, e sempre più "long context", che mantiene Gemini 1.5 Pro come flagship model. L'evento è stato una lunga carrellata (quasi stordente) di applicazioni rivoluzionarie in cui emerge, ancora una volta, la vera forza di Google: l'integrazione dell'AI generativa in ogni elemento del suo vasto ecosistema. Google I/O 2024: la live completa -------------------------------------------------------------------------------- I 10 ESEMPI CHIAVE Quella che segue è la mia selezione dei 10 esempi più significativi presentati durante l'evento. 1) VEO, IL MODELLO DEDICATO ALLA GENERAZIONE VIDEO Un potente modello text-to-video che, nella visione di Google, consentirà ai registi di creare riprese cinematografiche attraverso prompt testuali. Può generare video di alta qualità con risoluzione 1080p che possono superare il minuto di durata, con un'ampia gamma di stili cinematografici e visivi. Esempi di video generati con Veo - Google DeepMind Il modello sarà disponibile su VideoFX e la proiezione futura lo vede integrato anche su YouTube per la creazione di shorts. La pagina che segue è l'approfondimento nel sito web di Google DeepMind. Veo Veo is our most capable video generation model to date. It generates high-quality, 1080p resolution videos that can go beyond a minute, in a wide range of cinematic and visual styles. Google DeepMind -------------------------------------------------------------------------------- 2) L'INTEGRAZIONE NATIVA DELL'AI NELLA RICERCA Google sta trasformando radicalmente l'esperienza di ricerca, integrando tecnologie avanzate di AI per semplificare e arricchire l'interazione degli utenti con il web, rendendo la ricerca più intuitiva e adattata alle esigenze personali. L'evoluzione della ricerca online Le nuove funzionalità consentiranno di formulare domande complesse in una sola ricerca, integrando capacità di ragionamento a più step e pianificazione. Sarà possibile personalizzare l'esperienza per semplificare il linguaggio o dettagliarlo maggiormente. Utile per chi si avvicina a nuovi argomenti o per spiegazioni a un pubblico giovane. Attraverso le nuove capacità di pianificazione direttamente nella ricerca, Google mira ad aiutare gli utenti a creare programmi (es. per dieta e vacanze), con possibilità di customizzazione. Verrà introdotto un nuovo formato di pagina dei risultati organizzata dall'AI, con l'obiettivo di facilitare l'esplorazione di idee con titoli e box generati che categorizzano i contenuti in modo innovativo. Sarà possibile effettuare ricerche basate su video, ampliando ulteriormente le capacità di search visuale. L'approfondimento nel blog di Google. Generative AI in Search: Let Google do the searching for you We’re bringing AI Overviews to everyone in the U.S. and adding new gen AI experiences to take more of the legwork out of searching. GoogleLiz Reid -------------------------------------------------------------------------------- 3) PROJECT ASTRA: IL FUTURO DEGLI AI ASSISTANT Un progetto dedicato alla creazione di agenti AI universali che possono interagire in modo naturale e immediato, comprendendo e rispondendo al contesto dinamico del mondo reale. Project Astra - Google DeepMind Non permette soltanto l'interazione con l'acquisizione della fotocamera in real-time, ma addirittura di interagire con il video nello schermo, ad esempio indicando gli elementi di interesse. > Davvero emozionante l'utilizzo del sistema > attraverso gli smart glasses e la voce. Gli aggiornamenti recenti alla famiglia di modelli Gemini da parte di Google indicano passi significativi verso sistemi più veloci, efficienti e capaci di interazioni multimodali avanzate, spianando la strada per assistenti AI futuristici e onnipresenti. L'approfondimento nel blog di Google. Gemini breaks new ground with a faster model, longer context, AI agents and more We’re sharing updates across our Gemini family of models and a glimpse of Project Astra, our vision for the future of AI assistants. GoogleDemis Hassabis -------------------------------------------------------------------------------- 4) IMAGEN 3: IL NUOVO MODELLO TEXT-TO-IMAGE Imagen 3 rappresenta un significativo avanzamento nella tecnologia di generazione di immagini da input testuale, con migliorie sostanziali nella qualità visiva, nella comprensione dei prompt e in termini di sicurezza, promettendo una più ampia applicabilità e integrazione nei prodotti e servizi di Google. Imagen 3: il nuovo modello text-to-image Il sistema si basa sulle ultime innovazioni di Google DeepMind per la sicurezza e la responsabilità, includendo watermarking digitale, impercettibile all'occhio umano ma rilevabile per l'identificazione. Watermarking AI-generated text and video with SynthID Announcing our novel watermarking method for AI-generated text and video, and how we’re bringing SynthID to key Google products Google DeepMind Imagen 3 avrà presto le funzionalità della versione precedente, come inpainting e outpainting, e verrà integrato nei prodotti Google come Gemini, Workspace e Ads. L'approfondimento dal sito web di Google DeepMind. Imagen 3 Imagen 3 is our highest quality text-to-image model, capable of generating images with even better detail, richer lighting and fewer distracting artifacts than our previous models. Google DeepMind -------------------------------------------------------------------------------- 5) GEMINI 1.5 PRO È ORA DISPONIBILE PER TUTTI Disponibile per tutti e con un'espansione della finestra di contesto a 2 milioni di token. Gemini 1.5 Pro è ora disponibile per tutti L'approfondimento nel blog di Google. Get more done with Gemini: Try 1.5 Pro and more intelligent features Gemini Advanced subscribers will get access to Gemini 1.5 Pro, a 1 million token context window and more personalized features. GoogleSissie Hsiao -------------------------------------------------------------------------------- 6) TRILLIUM: UNA NUOVA ARCHITETTURA DI TPU EFFICIENTE E PERFORMANTE Il lancio delle TPU Trillium di sesta generazione segna un significativo avanzamento nella tecnologia delle unità di elaborazione di Google, promettendo notevoli miglioramenti nella velocità di training e nell'efficienza energetica, essenziali per il futuro dello sviluppo di modelli di intelligenza artificiale su larga scala. Trillium: una nuova architettura di TPU efficiente e performante Questa generazione di TPU raggiunge un impressionante aumento di 4,7 volte rispetto alle prestazioni di calcolo di picco per chip della versione precedente. L'approfondimento nel blog di Google Cloud. Introducing Trillium, sixth-generation TPUs | Google Cloud Blog The new sixth-generation Trillium Tensor Processing Unit (TPU) makes it possible to train and serve the next generation of AI foundation models. Google Cloud -------------------------------------------------------------------------------- 7) GEMINI 1.5 FLASH Un modello più leggero, ottimizzato per attività in cui diventano fondamentali la bassa latenza e i costi. Gemini 1.5 Flash Gli sviluppatori possono utilizzarlo con una finestra di contesto di 1 milione di token su Google AI Studio e Vertex AI. Gemini Flash Our lightweight model, optimized for when speed and efficiency matter most, with a context window of up to one million tokens. Google DeepMind -------------------------------------------------------------------------------- 8) GENERATIVE MUSIC CON MUSICFX MusicFX consentirà di liberare il DJ nascosto in ognuno di noi, per creare nuovi ritmi e composizioni. Generative Music con MusicFX Il sistema aiuta a mixare i ritmi combinando generi, strumenti e altro, per dare vita a storie musicali. È un playground per ispirare la generazione di nuova musica. Un approfondimento nel blog di Google. Introducing VideoFX, plus new features for ImageFX and MusicFX Today we’re introducing VideoFX, plus new features for ImageFX and MusicFX that are now available in 110 countries. GoogleThomas Iljic -------------------------------------------------------------------------------- 9) GEMINI INTEGRATO SU GOOGLE SHEETS Grazie a questa integrazione sarà possibile interagire con Gemini direttamente all'interno di Google Sheets, per analizzare i dati nei fogli attraverso il linguaggio naturale. Gemini integrato su Google Sheets La possibilità di organizzare gli allegati di Drive, generare un foglio e analizzare i dati verrà implementata su Labs entro la fine dell'anno. Collaborate with Gemini in Google Sheets (Workspace Labs) - Google Docs Editors Help With Gemini in Google Sheets, you can: Create tables. Create formulas. Summarize your files from Drive and emails from Gmail. Feature availability Th Google Docs Editors Help -------------------------------------------------------------------------------- 10) L'INTEGRAZIONE DI GEMINI ANCHE SU GMAIL, DOCS, CALENDAR Gemini sarà inserito su Gmail, Docs e Calendar. Gli strumenti funzionano già bene insieme, ma l'integrazione renderà ancora più semplici le operazioni tra le applicazioni. Ad esempio sarà possibile riconoscere determinate mail, organizzandole su Drive e Sheets. L'integrazione di Gemini anche con Gmail, Docs, Calendar -------------------------------------------------------------------------------- CONSIDERAZIONI FINALI Le applicazioni presentate sono assolutamente straordinarie, e vanno oltre ai 10 punti condivisi. Si è parlato, infatti, anche di: * LearnLM, una famiglia di modelli ottimizzati per l'apprendimento; * Intelligenza Artificiale responsabile; * Ask Photos, un nuovo modo per cercare le tue foto con Gemini; * Android, con un'integrazione di Gemini Nano sui device; * Vertex AI, con i nuovi modelli integrati e disponibili; * Gemma, con i nuovi modelli PaliGemma (un VLM) e Gemma 2. I/O 2024 Here’s a look at everything we announced at Google I/O 2024. blog.googleThomas Iljic Tuttavia ho trovato qualche sintomo di frammentazione nell'azione di Google, con una miriade di progetti basati sull'AI senza dare un riferimento chiaro all'utente. Chi ha seguito le due ore di diretta, di certo è rimasto disorientato.. o almeno per me la sensazione è stata questa. > Useremo Astra, Assistant, SGE o Gemini per una ricerca multimodale? Continuo a > ripetere che manca davvero un unico assistente centrale per tutto > l'ecosistema. Infine, dopo aver visto la naturalezza dell'interazione messa in atto da OpenAI durante lo Spring Update, per quanto innovativo sia il progetto Astra, rimane difficile affrontare un altro assistente. GPT-4o: il più performante, multimodale, e.. gratuito!? 3 riflessioni sulle novità presentate da OpenAI durante lo Spring Update Alessio PomaroAlessio Pomaro -------------------------------------------------------------------------------- - GRAZIE - Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre persone, condividilo 🙂 ISCRIVITI ALLA NEWSLETTER Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su tematiche relative all'intelligenza artificiale. Iscriviti alla Newsletter Email sent! Check your inbox to complete your signup. Gratuita. No Spam. Puoi disiscriverti quando vuoi.Consulta la privacy policy.

May 15, 2024 / Alessio Pomaro