Vorrei portarvi in un viaggio in 3 tappe: tre “studi e sperimentazioni” che oggi
sono diventati progetti reali, e che nel 2025 mi hanno accompagnato (e,
soprattutto, entusiasmato) più di altri.
Le tre tappe hanno nomi molto semplici:
Reranker → Contenuti → Feed
Per ognuna di queste tappe andremo a mettere a fuoco il pensiero, a capire il
progetto (cioè come diventa operativo), e a descrivere i takeaway da portare a
casa.
Feed, contenuti, intelligenza: il nuovo motore della discovery
--------------------------------------------------------------------------------
1 - RERANKER: LA RILEVANZA CONTESTUALE COME “METRICA” OPERATIVA
Partiamo dalla prima tappa: Reranker.
Un reranker è un modello in grado di valutare la rilevanza contestuale di un
contenuto rispetto a una query: in altre parole, misura la forza con cui quel
contenuto riesce davvero a rispondere alla domanda.
> E qui la domanda diventa inevitabile: perché è interessante considerare questa
> tipologia di modelli?
IL FLUSSO "REALE" DEI SISTEMI DI RICERCA MODERNI
Se guardiamo quello che Google definisce nella documentazione come “Typical
search and retrieval flow”, vediamo un pattern molto chiaro.
Typical search and retrieval flow
Il flusso, semplificando, è il seguente:
* si parte da milioni di documenti in un archivio;
* viene posta una query di ricerca;
* il sistema effettua un retrieval, cioè “screma” i contenuti estraendo quelli
più pertinenti;
* interviene un reranker, che ordina i contenuti estratti nella fase precedente
in base alla rilevanza;
* a quel punto i più rilevanti diventano la lista dei risultati, oppure il
contesto elaborato da un AI Agent per generare una risposta.
Come funzionano le due fasi cruciali nel flusso (ovvero retrieval e reranking)?
RETRIEVAL: PERTINENZA SEMANTICA (BI-ENCODER)
La prima fase, il retrieval, si basa sulla pertinenza semantica.
Query e documenti vengono codificati in embeddings, e attraverso un calcolo di
similarità vengono estratte le parti dei documenti più "vicine" semanticamente
alla query.
Questa architettura è il classico bi-encoder.
Retrieval: architettura bi-encoder
* La query viene codificata in embedding;
* ogni documento viene codificato in embedding;
* viene calcolata la similarità tra gli embeddings e si ottiene uno score di
pertinenza.
Ed è esattamente per questo che viene definito bi-encoder: due encoding
separati, per poi procedere al confronto.
Questo processo ha le seguenti caratteristiche:
✅ veloce
✅ scalabile
❌ poco preciso
Questa fase è perfetta per “ridurre” la knowledge di riferimento per ottenere
una risposta: considera un archivio enorme per portarlo a un set di candidati
"gestibile".
RERANKING: RILEVANZA CONTESTUALE (CROSS-ENCODER)
La seconda fase, il reranking, funziona in modo diverso.
Qui entra in gioco il reranker, che riceve in input query + contenuto e calcola
uno score di rilevanza. E cambia anche l’architettura: stavolta è cross-encoder.
Reranking: architettura cross-encoder
In questo caso, query e contenuto vengono concatenati, entrano insieme nel
reranker (modello transformer) e il modello usa il noto meccanismo
dell’attenzione per cogliere ogni minima sfumatura e correlazione tra concetti.
Questo processo (cross-encoder) ha caratteristiche complementari rispetto
all'architettura bi-encoder:
❌ lento
❌ costoso
✅ molto preciso
PIPELINE IBRIDA: BI-ENCODER PER RECALL PRIMA + CROSS-ENCODER PER PRECISION
I moderni sistemi di ricerca, quindi, sono una pipeline ibrida:
* bi-encoder (veloce, meno preciso) per scremare la knowledge;
* cross-encoder (lento, preciso) per affinare e ordinare.
> Questo non è solo un dettaglio tecnico: è un modo di ragionare che poi diventa
> operativo.
--------------------------------------------------------------------------------
COME POSSIAMO USARE QUESTE CONOSCENZE NEI NOSTRI WORKFLOW OPERATIVI?
Un’idea molto concreta è usare i reranker per misurare quanto i nostri contenuti
sono rilevanti rispetto alle query di interesse. E, ovviamente, possiamo anche
confrontare la rilevanza dei nostri contenuti rispetto ad altri contenuti già
presenti online.
Emerge, però, un altro punto, spesso sottovalutato: reranker diversi producono
ranking diversi.
3 reranker a confronto: Jina, Google, Cohere
Nelle immagini si può vedere un confronto tra 3 reranker (Jina, Google, Cohere)
sulle query “cos’è la curcuma?” e “cosa sono i core web vitals?” per diversi
contenuti estratti da pagine web attualmente online. Come si nota, i modelli
attribuiscono score di rilevanza diversi.
> Qual è il dato corretto?
Non esiste un dato “giusto” o “sbagliato”, perché la misurazione dipende dai
dati e dalle procedure messe in atto durante la fase di training dei modelli. È
un po’ come chiedere a esperti estremamente competenti, ma con esperienze
differenti, di valutare gli stessi testi: tenderanno a convergere, ma non
saranno identici.
--------------------------------------------------------------------------------
RERANKER COME RICERCA PERSONALIZZABILE: BOOST E PENALIZZAZIONI
C’è un ulteriore step di conoscenza da apprendere sui reranker: non si tratta
solo di “modelli di scoring”, ma di vere e proprie piattaforme di ricerca
personalizzabile.
Attraverso azioni di boost o penalizzazione, infatti, possiamo influenzare la
valutazione del modello: dare più peso a certe caratteristiche, e penalizzarne
altre.
Un esempio di ranking configuration (boost/bury)
Negli esempi influenzo il reranker di Google per dare boost ai contenuti in cui
la fonte ha un popularity score maggiore, i contenuti più recenti, e quelli in
cui l’autore è più autorevole, e penalizzo quelli di scarsa qualità.
> Ecco come un motore di ricerca può valutare parametri esterni che vanno oltre
> il contenuto che scriviamo.
--------------------------------------------------------------------------------
UN SISTEMA MULTI-AGENTE PER L'OTTIMIZZAZIONE DEI CONTENUTI PER AI OVERVIEWS
Facendo tesoro di questi concetti, internamente, con il mio team, abbiamo
sviluppato un sistema multi-agente che:
* analizza l’AI Overview e i contenuti della SERP,
* sfrutta il reranker di Google (opportunamente configurato),
* crea risposte più rilevanti e contenuti strutturati meglio per concorrere nei
sistemi di ricerca ibridi (come le AI Overview di Google).
Un sistema multi-agente per l'ottimizzazione dei contenuti per AI Overviews
Nel seguente video è possibile vedere l'applicazione in azione all'interno della
nostra piattaforma dedicata alle applicazioni AI che abbiamo sviluppato.
Un esempio dell'applicazione in azione
Attraverso il seguente post, è possibile approfondire il funzionamento del
sistema.
Rilevanza contestuale: la nuova metrica della visibilità
Il segreto è la pertinenza... ma non basta più. Come funziona DAVVERO la ricerca
oggi, tra embeddings, reranker e AI Overviews.
Alessio PomaroAlessio Pomaro
--------------------------------------------------------------------------------
OLTRE I RERANKER: IN-CONTEXT RANKING (ICR) E BLOCKRANK
Direzione successiva: come si supera la precisione dei reranker?
Un metodo è l’In-context Ranking (ICR): usare un LLM per processare non query e
contenuti a coppie, ma query e tutti i contenuti pertinenti insieme.
Risultato: precisione altissima e comprensione dell’intero contesto.
Contro: estremamente lento e oneroso.
In-context Ranking (ICR) e BlockRank
Per rendere l’ICR scalabile entra in scena BlockRank: un approccio pubblicato da
Google che punta a risolvere i contro dell’ICR. Per approfondire:
Scalable In-context Ranking with Generative Models
Srinadh Bhojanapalli
--------------------------------------------------------------------------------
TAKEAWAY DELLA PRIMA TAPPA
Quali sono i takeaway che ci portiamo a casa dalla prima tappa?
1. L’evoluzione di queste tecnologie ci fa capire quanto migliorerà la ricerca
nei prossimi anni, con modelli in grado di comprendere ogni sfumatura del
linguaggio.
2. Oggi abbiamo strumenti e documentazione per comprendere meglio la ricerca,
anche tecnicamente. Sforziamoci di approfondire questi aspetti, perché
possono regalarci intuizioni, e le intuizioni diventano strategie e tool da
mettere in campo nei nostri flussi di lavoro.
--------------------------------------------------------------------------------
2 - CONTENUTI: L’AI CAMBIA LO SCENARIO, MA PORTA ANCHE NUOVI STRUMENTI
Seconda tappa: Contenuti.
Quante volte abbiamo sentito questa frase nell'ultimo periodo?
> “Con le AI Overview è tutto finito
> per i progetti editoriali…”
È vero? Ognuno tragga le proprie conclusioni. Ma un fatto è chiaro: l’AI sta
cambiando lo scenario, ma, nello stesso momento, ci mette a disposizione
strumenti nuovi.
UNA REDAZIONE IBRIDA: CREA, AGGIORNA, MASSIMIZZA
Nel nostro team abbiamo realizzato una redazione ibrida a supporto
dell’editoria, basata su LangGraph e Gemini, che lavora su tre funzioni:
CREA → AGGIORNA → MASSIMIZZA
--------------------------------------------------------------------------------
CREA: CATTURARE TREND, TRASFORMARLI IN PIANO EDITORIALE
Domanda iniziale:
> quali sono i contenuti che in questo momento stanno vivendo una crescita di
> interesse per gli utenti?
Un Agente AI lo verifica costantemente, attingendo a più fonti:
* feed internazionali di riferimento per il settore,
* Google News su diversi mercati,
* Google Trends,
* social media,
* Google Discover.
Processa questi dati e produce un piano editoriale sul trend, pensato per
"catturare" i trend "istantanei", cioè quello che è interessante per gli utenti
nel momento in cui si esegue l'osservazione.
L’editore riceve il piano nel suo CMS e può approvarlo (anche parzialmente).
I contenuti approvati vengono processati da un agente specializzato che: usa
tool esterni via MCP (Model Context Protocol), coopera con il sistema dedicato
alla rilevanza (quello visto nella prima tappa), produce la scrittura completa
di una bozza di altissima qualità, e la salva direttamente nel CMS.
Infine l’editore arricchisce, modifica, aggiunge elementi multimediali e
pubblica.
Uno schema di funzionamento della creazione dei contenuti
Questa parte, per come la vedo, è già un cambio di paradigma: non è “scrittura
automatica”, è..
> orchestrazione di un flusso, dove l’AI fa il lavoro pesante e ripetitivo e
> l’umano si mette nella posizione giusta: quella in cui può davvero alzare la
> qualità.
--------------------------------------------------------------------------------
AGGIORNA: MANTENERE I CONTENUTI VIVI (E COMPETITIVI)
Un agente osserva in modo costante i dati di Search Console ed estrae i
contenuti che stanno performando meno (in termini di clic, impressioni e
posizionamento), e che non vengono aggiornati da diverso tempo.
Un altro agente processa questi contenuti, usa tool esterni via MCP, e si occupa
di aggiornarli e ottimizzarli, salvando l’elaborato direttamente nel CMS.
Uno schema di funzionamento dell'aggiornamento dei contenuti
Risultato: un sistema che mantiene tutti i contenuti costantemente aggiornati e
ottimizzati. Questo sta contribuendo a una crescita generale di clic e
impressioni, e soprattutto a una presenza costante su Google Discover, con
picchi che corrispondono a diversi milioni di impressioni.
--------------------------------------------------------------------------------
MASSIMIZZA: CONTENUTI, AFFILIAZIONE E SOSTITUZIONE INTELLIGENTE
Spesso i progetti editoriali lavorano con l’affiliazione. Abbiamo creato degli
agenti che verificano costantemente se, nei contenuti:
* sono presenti prodotti consigliati non più disponibili nel marketplace di
riferimento,
* oppure prodotti che non stanno performando, ovvero che non stanno producendo
clic.
Uno schema di funzionamento del lavoro degli agenti
Gli agenti usano strumenti esterni via MCP per trovare prodotti simili da
sostituire e producono descrizioni testuali che vengono integrate in modo
armonioso nel contenuto, rispettando il contesto in cui avviene l'inserimento.
--------------------------------------------------------------------------------
TAKEAWAY DELLA SECONDA TAPPA
I takeaway della seconda tappa sono molto concreti.
* Un team ibrido ben strutturato può garantire output di altissima qualità:
l’AI svolge i compiti più onerosi e ripetitivi, l’essere umano supervisiona e
si concentra sulla qualità.
* Il flusso di lavoro cambia completamente, e cambiano le mansioni delle
persone quando l’AI è davvero al centro della strategia.
* L’AI abilita un'azione su larga scala che permette di agire sulla frequenza
di pubblicazione e sulla qualità generale del progetto. Operazioni di questo
tipo sarebbero irrealizzabili senza automazioni come quella descritta nella
tappa del viaggio.
* Si può intravvedere un pattern chiaro: trend di interesse + alta frequenza +
qualità globale aumentano la capacità di entrare in Discover in modo
costante.
--------------------------------------------------------------------------------
3 - FEED: DA “FILE TECNICO” A CENTRO DELLA STRATEGIA
Quante volte abbiamo sentito una frase come quella che segue, soprattutto nel
mondo e-commerce?
> “Sì, l’e-commerce genera automaticamente il feed, poi lo ottimizziamo con XYZ
> Feed Manager…”
Spesso, però, per “ottimizzazione” si intende la creazione di pattern che
mettono in sequenza i dati prodotto presenti nel database dell'e-commerce,
oppure un timido utilizzo dell’AI per farlo in modo un po’ meno schematico.
L’approccio che, con il mio team, abbiamo messo in campo è diverso: usare un
sistema multi-agente per un’ottimizzazione su larga scala.
UN SISTEMA MULTI-AGENTE PER OTTIMIZZARE IL FEED SU LARGA SCALA
Il sistema riceve in input il feed dell'e-commerce.
Un agente lo elabora analizzando anche la pagina prodotto, le immagini, i dati
strutturati, e connettendosi a fonti esterne: Search Console, web search,
scraping di dati online e altre fonti specifiche.
Un altro agente si occupa dell’arricchimento: aggiunge dati potenzialmente
rilevanti assenti nel feed.
Infine, un agente revisore monitora la correttezza dei dati anche con verifiche
incrociate.
Un sistema multi-agente per ottimizzare il feed su larga scala
In output otteniamo un feed supplementare con title e description ottimizzati e
dati di enrichment, personalizzabile per qualunque piattaforma.
Dopo aver inserito in piattaforma il feed ottimizzato su alcuni progetti, stiamo
registrando (su Google Merchant Center) un aumento dei clic sui prodotti e del
CTR (Click-Through Rate) degli annunci di advertising
Azione successiva: portare i dati ottimizzati del feed anche nell'e-commerce,
usandoli per l’ottimizzazione delle pagine prodotto e categoria, e
l'integrazione dei dati strutturati. Questo permette di ottenere la coerenza
delle informazioni.
--------------------------------------------------------------------------------
TAKEAWAY DELLA TERZA TAPPA
> Il feed non è (solo) un “file tecnico” che l’e-commerce deve produrre. È il
> centro della strategia: la chiave per portare le nostre entità su tutte le
> piattaforme digitali. E il sito web è solo una di queste piattaforme.
Per il futuro, due direzioni diventano obbligate:
* essere sempre più abili nel curare i dati delle nostre entità;
* essere sempre più agili nel portarle ottimizzate su ogni piattaforma.
--------------------------------------------------------------------------------
SI CHIUDE IL VIAGGIO, SI APRE LA STRATEGIA
Arrivati qui, il punto non è aver visto tre argomenti separati.
Il punto è capire che..
> feed, contenuti e intelligenza sono parti dello stesso motore: il motore della
> discovery.
E oggi abbiamo tante opportunità per rendere questo motore più potente.
--------------------------------------------------------------------------------
- GRAZIE -
Se hai apprezzato il contenuto, puoi
contribuire al progetto con una donazione 🙂
ISCRIVITI ALLA NEWSLETTER
Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su
tematiche relative all'intelligenza artificiale.
Iscriviti alla Newsletter
Email sent! Check your inbox to complete your signup.
Gratuita. No Spam. Puoi disiscriverti quando vuoi.
Consulta la privacy policy.
Tag - SEO
Negli ultimi mesi ho passato parecchio tempo a studiare un tema che viene spesso
ridotto a una frase semplice:
> “Il segreto è la pertinenza”
La sentiamo ovunque nel mondo della search, soprattutto da quando si parla di
AI, RAG, AEO, AIO, GEO, ecc..
Il concetto, a livello intuitivo, è chiaro… ma per un algoritmo, che cosa
significa davvero "pertinenza"? E, soprattutto:
* è davvero l’unico concetto importante?
* Come entra in gioco quando Google (o un sistema RAG) deve scegliere una
risposta?
* Possiamo misurare e ottimizzare questo processo, fino a creare dei tool che
ci aiutano a farlo in modo scalabile?
In questo percorso entriamo nel flusso "reale" dei moderni sistemi di ricerca,
vediamo un test concreto su AI Overviews di Google, e un sistema multi-agent per
ottimizzare le risposte in modo automatico.
Partiamo da concetti tecnici (embeddings, bi-encoder, cross-encoder, reranker…)
e arriviamo a strategie e tool operativi.
Rilevanza contestuale: la nuova metrica della visibilità
PERTINENZA E RILEVANZA: DUE PAROLE, DUE CONCETTI DIVERSI
Prima di tutto chiariamo i concetti alla base dei moderni sistemi di ricerca,
con un esempio concreto di query:
> "come rinnovare il passaporto scaduto"
Questa query attiva un flusso di lavoro che, semplificando, ha due fasi
principali.
1. Pertinenza semantica (semantic matching)
Il sistema di ricerca analizza la query e la confronta con i contenuti
presenti nella knowledge (l’insieme dei documenti disponibili: pagine,
testi, ecc.).
In questa fase vengono estratti i contenuti più simili a livello semantico
alla query.
2. Rilevanza contestuale (contextual relevance)
A partire dai contenuti pertinenti, il sistema seleziona quelli più
rilevanti nel contesto della query, cioè quelli che rispondono meglio alla
domanda dell’utente.
Cosa otteniamo alla fine? Una lista di contenuti ordinati per rilevanza, che può
tradursi in una SERP (lista di risultati), oppure diventare il contesto per un
modello di AI (LLM/agent), che genera una risposta.
Già da qui vediamo un punto importante:
> la pertinenza è necessaria, ma non sufficiente.
> Prima il sistema decide quali informazioni sono potenzialmente interessanti, e
> successivamente determina quelle utili per ottenere la miglior risposta.
Come funzionano, nel dettaglio, questi due step?
--------------------------------------------------------------------------------
COME SI CALCOLA LA PERTINENZA SEMANTICA: EMBEDDINGS & SIMILARITÀ
Per lo step di pertinenza semantica entrano in gioco due concetti chiave:
* embeddings
* similarità tra vettori
Cosa sono gli embeddings? Esempi di utilizzo
Cosa sono e come funzionano gli embeddings (o incorporamenti): una spiegazione
semplice con alcuni esempi di utilizzo in ambito SEO, e riflessioni
sull’importanza della consapevolezza di questi sistemi.
Alessio PomaroAlessio Pomaro
In breve..
1. Trasformazione in embeddings
Sia la query che i contenuti della knowledge vengono trasformati in vettori
numerici (embeddings). Ogni embedding è un vettore in uno spazio
multidimensionale che rappresenta il significato del testo.
2. Calcolo della similarità
Il sistema misura la similarità tra l’embedding della query e gli embeddings
dei contenuti. Più i due vettori sono simili, più il contenuto è considerato
pertinente.
Il risultato di questa fase è:
> Una lista di contenuti pertinenti, cioè i documenti semanticamente più vicini
> alla query.
UNA NOTA SULLA SIMILARITÀ (NON SOLO COSENO)
Spesso si sente parlare di similarità del coseno come metodo standard di
confronto tra embeddings.
È importante sottolineare che:
* la similarità del coseno è solo uno dei modi possibili per misurare la
distanza/similarità tra vettori;
* il metodo migliore dipende da come sono stati generati gli embeddings:
dall’architettura del modello, dal processo di training, dalla
normalizzazione dei vettori, ecc..
A parità di embeddings, metodi diversi possono portare a risultati diversi.
Ci basta conservare un concetto:
> Non è sufficiente “avere gli embeddings”: dobbiamo conoscerne la struttura per
> scegliere il metodo di similarità giusto.
--------------------------------------------------------------------------------
COME SI CALCOLA LA RILEVANZA: RERANKER, BI-ENCODER E CROSS-ENCODER
Quando passiamo dalla pertinenza semantica alla rilevanza contestuale, cambia
completamente il tipo di modello utilizzato.
Qui entrano in gioco i reranker, ovvero modelli che:
* ricevono in input una query e un contenuto/documento,
* restituiscono in output uno score di rilevanza, cioè un valore numerico che
indica quanto quel contenuto è candidato a rispondere alla query.
Alla fine di questo step, otteniamo:
> una lista ordinata dei contenuti più rilevanti per la query.
BI-ENCODER VS CROSS-ENCODER
Per capire meglio, facciamo un passo indietro sulle architetture.
BI-ENCODER → PERTINENZA
Per la pertinenza semantica, usiamo sistemi che vengono definiti "bi-encoder".
* La query viene codificata in un embedding.
* Il contenuto viene codificato in un embedding.
* Un calcolo matematico di similarità tra i due embeddings determina lo score
di pertinenza.
Sono chiamati "bi-encoder" proprio perché vengono usati due encoding separati.
CROSS-ENCODER → RILEVANZA
Per la rilevanza, invece, usiamo sistemi "cross-encoder" (reranker).
* La query e il contenuto vengono concatenati in un unico input,
* l'input combinato viene passato a un modello transformer,
* il modello elabora tutto insieme e restituisce uno score di rilevanza.
Schema mentale:
> [query + contenuto] → modello transformer → score di rilevanza
Questa differenza di architettura spiega perché, nei sistemi di ricerca moderni,
si usano due fasi distinte.
--------------------------------------------------------------------------------
PERCHÉ SERVONO DUE FASI:
VELOCE E SCALABILE VS LENTO E PRECISO
Perché si usano queste due fasi per la ricerca? Perché il calcolo della
pertinenza è veloce, scalabile, e meno preciso. Mentre il calcolo della
rilevanza è lento, costoso, e iper preciso.
Riassumendo..
* Bi-encoder (pertinenza)
✅ veloci
✅ scalabili
❌ meno precisi
* Cross-encoder / reranker (rilevanza)
❌ lenti
❌ costosi
✅ estremamente precisi
❌ con finestra di contesto limitata
Queste caratteristiche fanno nascere la necessità di una pipeline ibrida:
1. un sistema veloce e meno preciso (bi-encoder) agisce per scremare la
knowledge;
2. un sistema lento e iper preciso (cross-encoder) agisce per raffinare e
ordinare.
--------------------------------------------------------------------------------
DALLA TEORIA AL RAG (E OLTRE): IL “TYPICAL SEARCH & RETRIEVAL FLOW”
Il flusso che abbiamo descritto è esattamente quello dei sistemi RAG (Retrieval
Augmented Generation), in cui..
* abbiamo una knowledge base (documenti, pagine, FAQ, ecc.),
* l’utente effettua una query,
* un sistema di retrieval estrae i contenuti più pertinenti (bi-encoder),
* un reranker seleziona e ordina i contenuti più rilevanti (cross-encoder),
* il risultato: può essere mostrato come lista di documenti, oppure passato a
un LLM per generare una risposta.
Nella documentazione di Google, questo flusso oggi viene definito:
> "typical search and retrieval flow"
Typical search & retrieval flow
Il messaggio implicito è...
* non è solo “RAG per documenti interni”,
* è un pattern generale per la ricerca: vale per la knowledge locale, per il
web, per sistemi ibridi.
Ed è qui che entra in scena qualcosa che ormai tutti stiamo guardando con
attenzione: AI Overview (e, in generale, i nuovi sistemi di risposta ibridi che
uniscono un motore di ricerca a un modello di linguaggio).
--------------------------------------------------------------------------------
AI OVERVIEW COME SISTEMA IBRIDO: COSA CONTA DAVVERO?
Guardando il flusso che abbiamo descritto, viene spontaneo chiedersi:
> "l'AI Overview, quando mostra le fonti vicino alla risposta,
> su cosa si basa per scegliere quelle pagine?"
È ragionevole ipotizzare che:
* le fonti mostrate siano le pagine che contengono le risposte con rilevanza
contestuale più alta nella knowledge di Google;
* non basta essere in prima posizione tra i risultati organici per essere
automaticamente una fonte dell'AI Overview.
E infatti…
IL MIO CASO: IN PRIMA POSIZIONE, MA FUORI DA AI OVERVIEW
Per la query "cosa sono i priority hints", il mio contenuto era primo tra i
risultati organici, ma, inizialmente, non compariva tra le fonti dell'AI
Overview.
Ho deciso, quindi, di fare un esperimento per capire meglio cosa stava
succedendo "sotto il cofano".
--------------------------------------------------------------------------------
IL TEST: MISURARE LA RILEVANZA DELLE RISPOSTE (E SCOPRIRE CHE LA MIA ERA... LA
PEGGIORE)
Vediamo il test, step by step.
1. Ho considerato le pagine che erano fonti della risposta principale dell'AI
Overview.
2. Da ciascuna di queste pagine ho estratto la risposta alla query dell’utente
(la parte di contenuto che risponde effettivamente alla domanda).
3. Ho fatto la stessa operazione con la mia pagina web, che comunque era prima
tra i risultati organici, e quindi un candidato naturale per diventare fonte
della risposta.
4. Ho usato un reranker per misurare la rilevanza contestuale tra la query e le
risposte dei contenuti che erano già fonte dell'AI Overview, e tra la query
e la risposta del mio contenuto.
IL RISULTATO?
La risposta nella mia pagina..
> era quella con rilevanza
> contestuale più bassa tra tutte.
Questo allinea perfettamente l’esperimento con l’ipotesi: l'AI Overview non
“premia” chi è semplicemente ben posizionato tra i risultati organici, ma dà
priorità ai contenuti che forniscono risposte più rilevanti.
--------------------------------------------------------------------------------
OTTIMIZZARE LA RISPOSTA A COLPI DI RERANKER
A questo punto, passiamo alla seconda fase del test.
* Ho analizzato le risposte delle pagine che il reranker considerava più
rilevanti, osservando: le entità trattate, i termini usati, gli aspetti della
query che venivano valorizzati, i focus che venivano messi in atto.
* Ho modificato la mia risposta cercando di includere le entità rilevanti,
coprire tutti i punti che le altre risposte trattavano in maniera esaustiva,
mantenere coerenza con il mio stile e con il contesto della pagina.
* Ogni volta che aggiornavo il contenuto, misuravo nuovamente la rilevanza
contestuale di tutte le risposte attraverso il reranker, verificando se la
mia risposta stava salendo nel ranking.
Ho iterato questo processo finché:
> la mia risposta ha ottenuto uno score di rilevanza superiore a tutte le altre.
E cosa è successo dopo pochi giorni? La mia pagina è diventata prima fonte
dell'AI Overview per quella query.
Quindi funziona!
Ma andiamo a fare un bilancio dell'operazione.
BILANCIO DELL’OPERAZIONE
* Effort: altissimo.
* Certezza del risultato: nessuna, perché Google non documenta in modo completo
il comportamento di AI Overviews.
* Utilità strategica: sì, in ottica di branding e autorevolezza, e forse
garantisce qualche clic in più.
* Scalabilità: zero, perché si tratta di un'operazione manuale che se dovesse
essere applicata a centinaia di query si tradurrebbe in un effort enorme.
Da qui nasce la domanda naturale:
> "E se provassimo a automatizzare questo processo?"
--------------------------------------------------------------------------------
DAL TEST AL TOOL: UN SISTEMA MULTI-AGENT PER OTTIMIZZARE LE RISPOSTE
Trasformiamo l'esperimento in un tool. L'architettura di base è LangGraph, con
un approccio multi-agent.
Un tool multi-agente per l'ottimizzazione per l'AI Overview
ARCHITETTURA AD ALTO LIVELLO
Il sistema funziona attraverso i seguenti step.
* Un Agent Orchestrator riceve in input la query e l'URL della pagina web da
ottimizzare.
* Un altro agent, recupera il risultato di AI Overview per la query, estrae le
fonti della risposta principale, estrae anche le fonti delle risposte
secondarie (quelle legate alle query di fan-out).
* Attraverso un LLM, viene rilevata la risposta alla query da ciascuna fonte,
ovvero il testo all'interno delle pagine web che mira a rispondere
direttamente alla domanda. Viene attuato lo stesso processo anche per la
pagina da ottimizzare.
* A questo punto abbiamo una tabella concettuale con: query, risposta di ogni
fonte dell'AI Overview, risposta della pagina da ottimizzare.
* Diversi agenti, successivamente, usano un reranker per misurare la rilevanza
contestuale di ogni risposta rispetto alla query, e producono un ranking
delle risposte. In maniera iterativa, prendono in considerazione le risposte
delle fonti, il contesto complessivo della SERP, la risposta della pagina da
ottimizzare, e generano una nuova risposta candidata.
* La nuova risposta viene valutata dal reranker. Se lo score è inferiore
rispetto alle migliori risposte, il sistema: genera una nuova variante
considerando tutti i dati a disposizione, ricalcola la rilevanza, e così via,
fino a quando la risposta generata non ottiene lo score di rilevanza più alto
tra tutte.
* Un ulteriore gruppo di agenti analizzano le query di fan-out (derivate dalle
risposte secondarie dell'AI Overview), analizzano le pagine in SERP,
costruiscono una proposta di ottimizzazione per la struttura della pagina,
per intercettare anche le query di fan-out.
RISULTATO FINALE DEL SISTEMA
Una volta terminata l'azione del workflow, otteniamo una risposta ottimizzata da
inserire nella pagina web, e un'analisi SEO che mira a riorganizzare/arricchire
il contenuto, valorizzare in modo più completo il topic, posizionarsi meglio
anche per le ricerche correlate.
E se lo pensiamo come sistema che lavora in background?
> Potrebbe analizzare costantemente le query, monitorare le AI Overview e
> ottimizzare in autonomia (costantemente) i contenuti per aumentare la
> probabilità di essere fonte.
> Nei nostri test, questa idea è già diventata realtà su alcuni progetti.
--------------------------------------------------------------------------------
L’INDICE DI RILEVANZA È UN VALORE ASSOLUTO? (SPOILER: NO)
A questo punto sorge una domanda importante:
> Se, secondo il reranker, un contenuto è più rilevante di un altro,
> si tratta di una verità assoluta?
La risposta è no, perché lo score di rilevanza dipende da:
* l’architettura del modello di reranking,
* i dati usati in fase di training,
* gli eventuali processi di fine-tuning,
* le scelte di ottimizzazione fatte in fase di sviluppo.
Quindi, reranker diversi, applicati allo stesso set di dati, possono restituire
punteggi differenti, e quindi classifiche diverse. Nell'immagine che segue, ad
esempio, vediamo a confronto la misurazione della rilevanza contestuale di due
reranker diversi (Jina Reranker V3 e Semantir Ranker di Google).
Un test usando due reranker diversi
Come si può notare, gli score sono diversi, e danno vita a una "classifica"
diversa.
> È un po' come chiedere a due esperti molto competenti, ma con formazione
> diversa, di classificare gli stessi contenuti: avranno tendenzialmente
> opinioni simili, ma non per forza identiche.
QUAL È IL "DATO CORRETTO"?
Non esiste un “dato corretto” in assoluto. Esiste un modello che "guarda il
mondo" secondo la propria formazione, e restituisce il suo "giudizio".
Nel tool, ho scelto di usare il reranker di Google, considerando il fatto che,
probabilmente, è stato addestrato su una quantità enorme di dati proprietari,
compresi i dati derivanti dalla ricerca online (click, comportamenti, feedback
impliciti, ecc.).
--------------------------------------------------------------------------------
IL TOOL IN AZIONE: UNA RAPIDA PANORAMICA
Nel seguente video, è possibile vedere l'esecuzione del tool su una query di
ricerca.
AI Overview Content Strategist Agent V7
L'output, come indicato in precedenza, è composto dal testo dedicato alla
risposta per l'AI Overview e dall'analisi per l'ottimizzazione del contenuto.
--------------------------------------------------------------------------------
AEO, AIO, GEO, ECC.: COSA CAMBIA DAVVERO NELLA SEO?
Dopo aver fatto funzionare questo sistema su centinaia di pagine, e dopo aver
osservato l’evoluzione di tutte le sigle che stanno emergendo (AEO, AIO, GEO,
ecc.), viene spontanea una domanda:
> Rispetto alla SEO che conoscevamo,
> quali sono le vere novità?
Per come la vedo oggi, la mia risposta è: "molto poche". Quello che emerge come
davvero rilevante sono le attività che avremmo sempre dovuto svolgere:
rispondere in modo esaustivo alle query degli utenti, esplorare il topic in modo
completo, usare un linguaggio chiaro e corretto, fornire un valore reale.
QUINDI, COS'È CAMBIATO?
> È cambiato il fatto che oggi abbiamo nuove piattaforme e nuove SERP Features
> che ce lo fanno presente. E nuovi strumenti per migliorare la qualità del
> nostro lavoro.
--------------------------------------------------------------------------------
È FONDAMENTALE APPROFONDIRE ANCHE GLI ASPETTI TECNICI
Oggi abbiamo a disposizione strumenti, informazioni, documentazione, esempi
pratici che ci permettono di comprendere la ricerca anche dal punto di vista
tecnico.
Questo non significa dover essere in grado di sviluppare migliaia di righe di
codice o diventare ingegneri esperti nel Machine Learning.
Significa capire i concetti di base, ad esempio cosa sono gli embeddings, come
si calcola la similarità, come lavorano i bi-encoder e i cross-encoder, cosa
significa parlare di reranking e rilevanza contestuale, come funziona un flusso
RAG o un sistema ibrido tipo l'AI Overview, avere una visione chiara di come i
sistemi "prendono decisioni".
PERCHÉ?
> Capire gli aspetti tecnici → genera nuove intuizioni
> Nuove intuizioni → generano nuove strategie e nuovi strumenti
> Nuovi tool → migliorano concretamente la qualità del nostro lavoro
Ed è esattamente quello che abbiamo fatto in questo viaggio:
* siamo partiti da concetti molto tecnici (embeddings, similarità del coseno,
reranker, transformer, multi-agent…),
* li abbiamo usati per interpretare il comportamento di un sistema reale (AI
Overviews), costruire un tool concreto che ci aiuta a migliorare i contenuti,
ottenere risultati misurabili in progetti reali.
Se vogliamo far performare la SEO nel mondo della ricerca aumentata dall’AI, la
strada, secondo me, è questa:
> sforzarci di comprendere i concetti tecnici chiave,
> per poi trasformarli in strategie e automazioni che fanno la differenza.
Buona ricerca (e buona "comprensione tecnica" 😊).
- GRAZIE -
Se hai apprezzato il contenuto, puoi
contribuire al progetto con una donazione 🙂
ISCRIVITI ALLA NEWSLETTER
Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su
tematiche relative all'intelligenza artificiale.
Iscriviti alla Newsletter
Email sent! Check your inbox to complete your signup.
Gratuita. No Spam. Puoi disiscriverti quando vuoi.
Consulta la privacy policy.
> Buon aggiornamento, e buone riflessioni..
--------------------------------------------------------------------------------
TEDX BERGAMO: POTERE
Il 25 maggio avrò l'onore di essere sul palco di TEDx Bergamo 2025, e il tema
centrale sarà "POTERE".
> "POTERE" è la capacità di generare cambiamento. Attraverso l’AI, possiamo
> affrontare sfide globali e aprire strade inedite. Ma c’è un potere ancora più
> intimo e umano: quello di comprendere la trasformazione per decidere come
> viverla e in quale direzione guidarla.
> - Alessio Pomaro
Vai ai Biglietti
--------------------------------------------------------------------------------
WELCOME TO THE ERA OF EXPERIENCE
Un paper (da leggere) in cui i ricercatori di Google DeepMind invitano a
ripensare l'AI:
> non come una copia dell’intelligenza umana, ma come un sistema autonomo che
> impara, pianifica e agisce nel mondo reale.
L'era dell'esperienza permetterà di superare i limiti dell’imitazione e
raggiungere capacità realmente superumane?
Secondo Silver e Sutton, la dipendenza dai dati umani (supervisionati o
preferenziali) sta mostrando i suoi limiti. L’AI ha bisogno di nuovi stimoli,
non più statici, ma dinamici, generati attraverso l’interazione continua con
ambienti reali o simulati.
Gli agenti del futuro non vivranno più in episodi brevi e scollegati, ma in
"stream" di esperienza continua, adattandosi nel tempo e perseguendo obiettivi
di lungo termine. Le ricompense non arriveranno da valutazioni umane, ma da
segnali concreti e misurabili dell’ambiente: salute, apprendimento, scoperta
scientifica.
Non si tratta solo di efficienza, ma di visione. Uscire dal recinto del pensiero
umano, imparare dal mondo, e scoprire strategie o conoscenze che ancora non
esistono.
Vai al paper
> Un salto evolutivo, non solo tecnologico.
--------------------------------------------------------------------------------
LA SPIEGABILITÀ DEI MODELLI DI AI
Com'è noto, Anthropic sta facendo un grande lavoro sulla spiegabilità dei
modelli di AI, condividendo paper e promuovendo delle riflessioni fondamentali.
Il post pubblicato da Dario Amodei richiama con urgenza l'importanza di capire
il funzionamento interno dei modelli prima che diventino troppo potenti. Un
invito ad agire per chiunque lavori sull'AI o abbia a cuore il futuro della
tecnologia, toccando anche argomenti delicati che riguardano la geopolitica ("I
believe that democratic countries must remain ahead of autocracies in AI").
Anche se sembra una mossa ovvia da parte di chi possiede più esperienza di tutti
in quest'ambito (e non possiede il modello più potente), ritengo sia un
documento molto interessante per avere consapevolezza sull'argomento.
Ho provato a sintetizzare i punti principali.
* Amodei racconta come, in dieci anni di lavoro sull'AI, il settore sia passato
da un ambito accademico a una delle questioni più decisive per il futuro
dell'umanità. Anche se l’avanzamento è inarrestabile, possiamo influenzarne
la direzione. Oggi, la vera sfida è l'interpretabilità: capire come
funzionano internamente i sistemi prima che diventino troppo ampi per essere
controllati.
* L'AI generativa prende decisioni che non sappiamo spiegare: a differenza del
software tradizionale, i suoi meccanismi interni emergono spontaneamente,
rendendo difficile prevedere o correggere i comportamenti indesiderati.
* Questa opacità alimenta rischi concreti, come comportamenti ingannevoli o usi
pericolosi. Inoltre, senza spiegazioni comprensibili, l'AI non può essere
applicata in settori critici come finanza o medicina. Se riuscissimo a
"guardare dentro" ai modelli, potremmo prevenire errori e abusi.
* Negli ultimi anni è nata l'interpretabilità meccanicistica, grazie a pionieri
come Chris Olah. Dai primi studi sui modelli visivi si è passati a quelli
linguistici, scoprendo milioni di concetti nascosti, anche se sovrapposti e
complessi. Tecniche come gli autoencoder sparsi stanno aiutando a mappare e
manipolare questi concetti, rendendo visibili anche i "ragionamenti"
attraverso circuiti interni.
* Nonostante i progressi, resta la sfida pratica: applicare l'interpretabilità
per individuare e correggere "difetti" reali nei modelli. Esperimenti interni
mostrano che è possibile.
* Amodei conclude affermando che siamo in una corsa tra l'avanzamento dell'AI e
la nostra capacità di interpretarla. Per vincere, serve: investire nella
ricerca, promuovere la trasparenza, adottare misure geopolitiche.
Vai al post
> Capire i nostri modelli prima che trasformino il mondo è una responsabilità
> che non possiamo rimandare.
--------------------------------------------------------------------------------
AGENTIC AI: UN WEBINAR DI STANFORD
Stanford ha pubblicato un'interessante lezione che riepiloga il funzionamento
dei LLM e arriva fino agli AI Agent.
Agentic AI: un webinar di Stanford
I punti salienti..
* LLM Base: modelli che predicono i token successivi. Addestrati su enormi
testi (pre-training), poi affinati (fine-tuning con SFT/RLHF) per seguire
istruzioni e preferenze umane.
* Limiti dei LLM: possono "allucinare" (dare informazioni errate), hanno
conoscenza limitata nel tempo (knowledge cutoff), non citano fonti, non
accedono a dati privati/real-time e hanno un contesto limitato.
* RAG: fornisce contesto esterno rilevante (da documenti/DB) al LLM per
risposte più accurate e aggiornate.
* Tool Usage: permette ai LLM di usare API esterne o eseguire codice per
accedere a dati real-time o fare calcoli.
* Agentic AI: l'evoluzione dei LLM. Non solo testo, ma sistemi che: ragionano e
pianificano (scompongono compiti), agiscono (usano RAG e Tools per interagire
con l'ambiente), osservano (ricevono feedback dalle loro azioni) iterano (si
adattano in un ciclo azione-osservazione-pianificazione).
* Pattern Agentici, per costruire agenti efficaci: pianificazione, riflessione
(auto-correzione), utilizzo di strumenti e collaborazione multi-agente (più
agenti specializzati).
> In breve, l'Agentic AI combina il ragionamento dei LLM con l'azione nel mondo
> esterno, permettendo di affrontare compiti molto più complessi e interattivi.
--------------------------------------------------------------------------------
"STOP & THINK" DI ANTHROPIC SU UN AGENT DI OPENAI CON O3
In questo esempio ho implementato la dinamica di "Stop & Think" definita da
Anthropic su un Agent di OpenAI, basato su o3.
In pratica, il sistema è configurato per eseguire un task estraendo i dati
necessari attraverso "function calling". Una volta ottenuti i dati, prima di
restituire l'output, usa una funzione di "reasoning", la quale sfrutta il
modello per mettere in atto delle catene di pensiero che verificano i dati,
creano il miglior piano d'azione per procedere, e controllano la conformità in
base alle richieste. Se è tutto conforme, procede con l'output, altrimenti
ripete le operazioni, finché il controllo sarà positivo (o fino al
raggiungimento del numero massimo delle interazioni consentite).
Una dinamica davvero interessante per migliorare la qualità dell'output.
"Stop & Think" di Anthropic su un Agent di OpenAI con o3
> Il porting del codice di Anthropic per usare i modelli di OpenAI sul mio
> esempio è stato generato interamente con Gemini 2.5 Pro. Il modello ha
> prodotto tutto il codice partendo dall'esempio fornito da Anthropic + il
> prompt che usavo in precedenza nel mio progetto, che eseguiva l'operazione in
> un'unica azione.
--------------------------------------------------------------------------------
OPENAI ACADEMY
OpenAI ha lanciato ufficialmente l'AI Academy: una piattaforma formativa
gratuita pensata per chi vuole portare l’AI dal laboratorio alla realtà
operativa.
OpenAI Academy
I contenuti sono pensati per l’uso pratico: automazioni, agenti AI, pipeline con
GraphRAG, Q&A su documenti, integrazioni reali con diversi modelli.
Vai all'Academy
TRA I PUNTI FORTI
* Live coding sessions
* Prompt engineering, fine-tuning, RAG, multimodalità
* Esempi di codice commentato per API, automazioni e gestione dati
* Percorsi ideali per chi è agli inizi o ha esperienza intermedia
--------------------------------------------------------------------------------
LE NOVITÀ DI NOTEBOOKLM DI GOOGLE
Google introduce due novità molto interessanti su NotebookLM.
1) RICERCA ONLINE
Ora è possibile descrivere un argomento e ottenere una selezione di fonti
rilevanti dal web, già riassunte dall'IA e integrabili con un clic al notebook.
La ricerca online su NotebookLM di Google
La nuova funzione "Carica Origini", alimentata da Gemini, permette di
approfondire rapidamente qualsiasi tema e integrarlo con strumenti come
briefing, FAQ e Audio Overviews.
Ho provato lo strumento, e credo sia una funzionalità fantastica per esplorare
gli argomenti. Ho inserito il topic, selezionato le fonti tra quelle suggerite,
fatto richieste, generato note, creato un podcast interattivo.
Vai al post
> Ho detto spesso che l'integrazione dell'AI nel suo ecosistema è la vera forza
> di Google. Verissimo, ma ora hanno anche il modello più performante.
2) AUDIO OVERVIEWS ANCHE IN ITALIANO
Audio Overviews diventa disponibile in più di 50 lingue.
L'italiano è tra queste, e l'ho provato su un notebook che ha come fonte
l'ultimo post di Dario Amodei sull'importanza dell'interpretabilità dell'AI.
Il prompt che ho usato è specifico, indicando l'ambito sul quale concentrarsi
maggiormente.
Audio Overviews in italiano: un test
> Il risultato? Per me è incredibile. Una risorsa davvero interessante.
> Immaginiamo solo la potenzialità per l'aggiornamento personale nelle
> connessioni dei concetti su larga scala.
--------------------------------------------------------------------------------
NON PUÒ ESISTERE LA FIGURA DEL PROMPT ENGINEER
Il WSJ ha condiviso dei dati su un concetto che ho sempre sostenuto: non può
esistere la figura del "prompt engineer". E non si tratta di obsolescenza di una
professione, ma di consapevolezza di un miraggio.
Il WSJ sulla figura del prompt engineer
La motivazione che danno nell'articolo, però, è solo parzialmente centrata. Non
è solo questione di avanzamento dei LLM nella comprensione delle richieste in
linguaggio naturale.
> Il fatto è che la capacità di ottenere l'output desiderato da un agente basato
> sull'AI è una competenza trasversale che potenzia delle hard skill. Se non si
> possiedono quelle hard skill, nessun "mago del prompt" potrà ottenere
> risultati avanzati necessari in ambito professionale.
Vai al post
--------------------------------------------------------------------------------
PROMPT ENGINEERING: IL PAPER DI GOOGLE
Google ha pubblicato un interessante documento sul "Prompt Engineering": una
guida sulla creazione di prompt efficaci.
Prompt Engineering: il paper di Google
Non ci sono novità eclatanti, ma di certo un percorso chiaro e ordinato.
Le parti più interessanti riguardano gli approcci Chain of Thought (CoT) e
ReAct.
* CoT è utile per migliorare l'accuratezza facendo sviluppare al LLM un
"ragionamento" logico.
* ReAct è utile per applicazioni che richiedono interazione con fonti esterne o
task complessi.
Vai al paper
--------------------------------------------------------------------------------
OPENAI: 3 GUIDE PRATICHE DEDICATE ALL'AI
1- A PRACTICAL GUIDE TO BUILDING AGENTS
È pensata per chi vuole costruire agenti AI in grado di svolgere task multi-step
in autonomia. Descrive come scegliere i modelli, integrare strumenti e impostare
istruzioni chiare. Spiega modelli di orchestrazione come il "manager agent" o
sistemi decentralizzati, e introduce i "guardrail" per garantire sicurezza,
privacy e intervento umano nei casi critici.
Vai alla guida
2- IDENTIFYING AND SCALING AI USE CASES
Offre un metodo per scoprire e scalare casi d’uso ad alto impatto. Si parte da
sfide comuni come attività ripetitive, colli di bottiglia di competenze e
ambiguità decisionali, e si esplorano sei "primitivi" come content creation,
automazioni e analisi dati. Esempi come Promega, Tinder e BBVA mostrano come
anche attività complesse possano essere trasformate in flussi AI scalabili.
Vai alla guida
3- AI IN THE ENTERPRISE
Raccoglie sette lezioni chiave per adottare l’AI su larga scala. Vengono
presentati esempi concreti come Morgan Stanley, che ha migliorato l’efficienza
dei suoi advisor grazie a valutazioni sistematiche (evals), e Indeed, che ha
potenziato il job matching con GPT-4o mini. Klarna ha implementato un assistente
AI per il customer service, riducendo i tempi di risposta da 11 a 2 minuti. La
guida sottolinea l’importanza di investire presto, personalizzare i modelli, e
mettere l’AI nelle mani degli esperti aziendali.
Vai alla guida
--------------------------------------------------------------------------------
I 30 PAPER DI ILYA SUTSKEVER
> "If you really learn all of these, you’ll know 90% of what matters today".
Con queste parole, Ilya Sutskever (co-founder di OpenAI) condivide quelli che
ritiene i migliori 30 paper che riguardano l'AI.
Vai ai paper
Molti mi hanno chiesto suggerimenti per affrontare questi documenti, non
semplici da consultare.
Un buon aiuto per iniziare potrebbe essere l'utilizzo di NotebookLM di Google.
Nelle immagini si può vedere il mio notebook. Una volta inseriti tutti i
documenti e le pagine web, è possibile creare la mappa mentale interattiva:
cliccando le voci il sistema usa Gemini per estrarre tutte le informazioni
utili.
Il mio notebook con i 30 paper di Ilya Sutskever
Altra idea: attraverso un prompt, ho fatto sviluppare al LLM un corso con una
serie di lezioni che esplorano tutti i concetti in modo sequenziale e connesso
(con riferimenti alle fonti).
> Mi piacerebbe condividerlo, ma NotebookLM non permette di farlo attraverso un
> link, e ha politiche molto restrittive per gli utenti. Tuttavia è realizzabile
> in modo semplice.
--------------------------------------------------------------------------------
SHOPPING SU CHATGPT?
OpenAI migliora l'esperienza di shopping su ChatGPT, con risultati migliorati,
dettagli dei prodotti, prezzi e recensioni, con i link diretti per l'acquisto.
La funzionalità è in fase di rilascio.
0:00
/0:25
1×
Shopping su ChatGPT
Un upgrade interessante, anche se l'esperienza di Google Shopping (soprattutto
negli USA) è difficilmente eguagliabile.
Tenendo conto anche del fatto che questi dati non sono interfacciati con i feed
degli e-commerce. Nella documentazione parlano di "structured metadata from
third-party providers", ma non è ben chiaro il processo: di certo non potrà
essere strutturato come quello di Google.
--------------------------------------------------------------------------------
NUOVI MODELLI PER OPENAI
GPT-4.1
Il nuovo modello (senza "reasoning") più potente, veloce ed economico, ideale
per coding, gestione dei contesti lunghi (1M di token) e per l'aderenza a
precise istruzioni. E, come previsto, GPT-4.5 verrà dismesso a luglio.
L'ho provato su diversi task (le immagini riportano qualche esempio): logica,
matematica, coding, elaborazione di file lunghi, generazione di dati strutturati
da contenuti non strutturati, analisi del testo, generazione di testo con
precise istruzioni.
GPT-4.1 di OpenAI: test
Le impressioni sono ottime. Due note.
1. Con un singolo prompt (senza interazioni successive) ho realizzato un
piccolo software con interfaccia grafica che raccoglie una serie di utility
per i PDF (estrazione di pagine, compressione, conversione in immagini,
rotazione, unione).
2. Da diversi test svolti nei mesi scorsi, su prompt con tantissime istruzioni,
avevo sempre trovato GPT-4 migliore rispetto alla versione "o". Finalmente
il 4.1 supera quel limite.
Qualche dettaglio sul modello..
La nuova famiglia GPT-4.1 include tre versioni: Standard, Mini e Nano.
Il modello non solo supera GPT-4o nei benchmark più rilevanti, ma in molti casi
va oltre anche GPT-4.5, motivo per cui quest’ultimo verrà ritirato. È più
preciso nei compiti multi-turno, più affidabile nei formati richiesti, e
significativamente più performante nello sviluppo software (con +21% su
SWE-bench).
È pensato esclusivamente per l’uso via API: in ChatGPT, molte delle sue
migliorie sono già confluite in GPT-4o e continueranno a essere integrate.
Grazie a ottimizzazioni nel sistema di inferenza, GPT-4.1 è anche più economico
del 26% rispetto a GPT-4o, mentre Nano è il modello più economico e rapido mai
rilasciato.
Vai al post
> Anche OpenAI, come Google, dimostra l'avanzamento in termini di efficienza,
> dopo il passo falso della versione 4.5.
O3 E O4-MINI + CODEX CLI
OpenAI ha presentato i nuovi modelli o3 e o4-mini (con avanzamenti della fase di
reasoning), e ha lanciato Codex CLI (un AI Agent open-source).
Ho provato o3 in diversi task: coding, generazione di testo, analisi dei dati,
ricerca online, logica, matematica, istruzioni complesse, analisi delle
immagini, e in un sistema multi-agent via API.
o3 e o4-mini + Codex CLI: test
* Sul coding, è molto performante: ho realizzato un'applicazione locale
(Python) con interfaccia grafica che converte un gruppo di immagini in tutti
i formati, con resize e gestione della qualità, funzionante alla prima
esecuzione.
* Fantastici la ricerca online e code interpreter in fase di reasoning, perché
sono dinamici in base al flusso di ragionamento.
* Ho provato anche Codex CLI, un agente AI per il terminale che consente di
scrivere codice, navigare file, interpretare immagini e interagire con il
computer in modo multimodale e controllato. Nel test, entro in una directory
e faccio sintetizzare al modello un PDF locale. Una funzionalità davvero
interessante.
o3 è il modello più potente, dedicato a compiti complessi come coding,
matematica, e ragionamento visivo. o4-mini, invece, offre prestazioni
sorprendentemente elevate in rapporto a dimensioni e costi, risultando ideale
per usi ad alto volume di richieste.
Entrambi possono usare l’intera suite di strumenti di ChatGPT: ricerca web, code
interpreter, generazione e modifica immagini, function calling e tool
personalizzati. Per la prima volta, ragionano anche sulle immagini: le usano
come parte integrante della catena di pensiero, sbloccando nuove modalità di
problem solving.
Le performance: o4-mini raggiunge il 93,4% di accuratezza su AIME 2024 e 2719
ELO su Codeforces. o3 ottiene 83,3% su GPQA (domande da PhD), 86,8% su
MathVista, 78,6% su CharXiv, e domina nei task di software engineering,
superando ampiamente i predecessori.
La sicurezza è stata potenziata con nuovi sistemi di rifiuto delle richieste,
rilevamento di prompt rischiosi e test rigorosi: entrambi i modelli restano
sotto le soglie critiche su tutti i fronti (biochimica, cybersecurity,
auto-miglioramento AI).
Vai al post
--------------------------------------------------------------------------------
UN TEST DI CODEX CLI
> Codex CLI di OpenAI: l'ho provato con o3, ed è una bomba!
Il dettaglio dei test che si vedono nel video..
1. Entro nella directory di un'applicazione, avvio Codex e mi faccio spiegare
la codebase. Successivamente, chiedo all'agente di modificare l'app e
inserire il bottone per la "dark mode". Il sistema edita direttamente i
file, ed esegue tutto perfettamente (nel video si vede anche l'app
modificata). Può gestire anche l'interazione con GitHub autonomamente.
2. Entro in una directory dov'è presente un dataset in CSV. Attraverso un
prompt dettagliato, chiedo all'agente di analizzare i dati, pulirli, e
produrre una pagina web con un report. Non solo lo crea, ma fornisce anche
il Python per aggiornare il report nel caso il dataset cambi.
Un test di Codex CLI di OpenAI
Cos'è Codex CLI? Si tratta di un AI Agent open source che funziona in locale,
sfruttando qualunque modello di OpenAI. Consente di scrivere codice, navigare
file, interpretare immagini e interagire con il computer in modo multimodale e
controllato.
--------------------------------------------------------------------------------
DISPONIBILITÀ GENERALE PER VEO 2 DI GOOGLE
È già usabile via API, e chiaramente su AI Studio.
Veo 2: un test su AI Studio
Nel video si vedono due esempi di "image to video" e uno di "text to video".
Nei due esempi di "image to video", le immagini sono state generate con il
modello di OpenAI, in modo da essere coerenti. Usando Veo per animarle, si
possono creare due clip da montare per un unico video.
Vai al post
--------------------------------------------------------------------------------
TEST: UN'APPLICAZIONE CON GEMINI 2.5 PRO
Un esempio di generazione di un'applicazione da prompt testuale con Gemini 2.5
Pro: semplice, ma funzionante alla prima esecuzione!
Ho chiesto al modello di creare un'applicazione che permette di caricare un file
audio o video, e che produce la trascrizione con separazione degli speaker
usando le API di Gemini (con download del TXT completo alla fine del processo).
Il sistema ha prodotto un'applicazione basata su Flask, con la struttura delle
directory, HTML, Python, requirements e il file "env" per le API key.
Dopo aver avviato il server Flask, l'applicazione funziona via browser.
Test: un'applicazione con Gemini 2.5 Pro
> È semplice, ma ho impiegato più tempo a produrre il video rispetto a un
> sistema utile e funzionante, senza errori da gestire.
--------------------------------------------------------------------------------
LE NOVITÀ NEL WORKSPACE DI GOOGLE
Con uno dei migliori modelli di AI a disposizione, e un ecosistema che fa già
parte della quotidianità di un'enorme insieme di utenti, Google rilascia le
nuove funzionalità per Workspace.
La nuova ondata di strumenti basati su Gemini mira a migliorare concretamente
l’efficienza aziendale: automazioni avanzate con Workspace Flows, assistenti
intelligenti nei documenti, analisi dei dati semplificata e la possibilità di
generare contenuti audio e video direttamente dalle app Workspace.
* Workspace Flows usa agenti AI personalizzati (Gems) per gestire processi
multi-step con logica e contesto, senza bisogno di codice. In pratica, si
potranno creare flussi e automazioni che coinvolgono azioni di ogni software
di Workspace.
Google Workspace Flows
* Docs introduce la lettura audio dei testi e la funzione "Help me refine" per
migliorare la scrittura in modo evoluto. Il Canvas di ChatGPT direttamente su
Google Docs.
* Sheets include "Help me analyze", un analista AI sempre disponibile per
scoprire insight nascosti nei dati. I più attenti avranno notato che è già
disponibile su Colab.
* Google Vids si potenzia con Veo2, generando video realistici direttamente
dall'app.
* Google Meet e Chat diventano ancora più smart con riepiloghi, note
automatiche e suggerimenti in tempo reale.
Vai al post
> L'integrazione e l'accelerazione di Google.. si prepara a diventare
> irraggiungibile?
--------------------------------------------------------------------------------
UN AGENT BUILDER PER POSTMAN
Postman ha presentato il suo AI Agent builder.
Un sistema che permette di creare agenti basati su LLM, che possono usare una
rete di oltre 100k API pubbliche.
Il tutto attraverso un'interfaccia drag & drop.
0:00
/0:13
1×
Un Agent Builder per Postman
Vai al progetto
> La prototipazione di applicazioni diventa sempre più agile.
--------------------------------------------------------------------------------
GROK STUDIO
xAI ha rilasciato Grok Studio, con la possibilità di eseguire il codice generato
e il supporto a Google Drive.
Grok Studio: un test
È molto simile a Canvas su ChatGPT, ma la funzionalità di generazione report da
un foglio dati è fantastica.
La connessione a Google Drive è comoda, e permette di creare dei Workspace
importando direttamente i file.
> L'editor di ChatGPT è migliore, ma la generazione dei report è vincente.
--------------------------------------------------------------------------------
LE API DI GROK 3
La "guerra dei prezzi" delle API dei LLM continua: xAI rilascia le API di Grok3
mini.
In base ai dati diffusi, sembra che il modello superi diversi modelli di
reasoning in diversi benchmark, con un prezzo di 5 volte inferiore.
Le API di Grok 3
ALCUNI DETTAGLI
* Grok 3 Mini guida le classifiche su test STEM avanzati, matematica e coding,
superando modelli flagship 20 volte più costosi.
* È 5 volte più economico di qualsiasi altro modello di reasoning sul mercato.
* Ogni risposta API include l’intero "reasoning trace", grezzo e non filtrato.
Vai alla documentazione
--------------------------------------------------------------------------------
AI INDEX REPORT 2025
Stanford ha pubblicato l'AI Index Report 2025.
AI Index Report 2025
> L’intelligenza artificiale evolve rapidamente, trasformando società ed
> economia, tra progressi straordinari, investimenti globali e sfide ancora
> aperte.
UNA SINTESI DEI TAKE AWAY DEL REPORT
1. Le prestazioni dell’AI migliorano rapidamente nei benchmark avanzati.
I modelli AI hanno fatto grandi progressi su nuovi benchmark complessi come
MMMU, GPQA e SWE-bench, superando anche le performance umane in alcuni
compiti di programmazione.
2. L’AI è sempre più presente nella vita quotidiana.
L’intelligenza artificiale è ormai diffusa in settori come la sanità e i
trasporti, con dispositivi medici approvati e robotaxi operativi su larga
scala.
3. Le aziende puntano tutto sull’AI, trainando investimenti record.
Gli investimenti privati negli Stati Uniti hanno raggiunto 109 miliardi di
dollari nel 2024, con una crescita d’uso nelle aziende e prove sempre più
solide del suo impatto positivo sulla produttività.
4. Gli Stati Uniti guidano, ma la Cina riduce il divario qualitativo.
Gli USA producono più modelli AI di punta, ma la Cina li sta rapidamente
raggiungendo in termini di qualità, mantenendo il primato per pubblicazioni
e brevetti.
5. L’ecosistema dell’AI responsabile si evolve, ma in modo disomogeneo.
Aumentano gli incidenti legati all’AI, mentre le valutazioni standardizzate
sono ancora rare. I governi mostrano maggiore impegno con nuove linee guida
sulla trasparenza e sicurezza.
6. L’ottimismo globale verso l’AI cresce, ma con forti differenze regionali.
Paesi asiatici mostrano un forte ottimismo verso l’AI, mentre Stati Uniti,
Canada ed Europa restano più scettici, sebbene con segnali di
miglioramento.
7. L’AI diventa più efficiente, economica e accessibile.
I costi per far girare modelli potenti sono crollati, mentre l’efficienza
energetica è aumentata. I modelli open-source stanno colmando rapidamente
il divario con quelli chiusi.
8. I governi aumentano regolamentazione e investimenti sull’AI.
Nel 2024 le normative sull’AI sono raddoppiate negli USA e cresciute a
livello globale, accompagnate da investimenti miliardari in vari paesi per
sostenere l’innovazione.
9. L’educazione all’AI cresce, ma persistono disuguaglianze.
Sempre più paesi offrono educazione informatica K-12, ma permangono
barriere infrastrutturali, soprattutto in Africa, e molti insegnanti non si
sentono pronti a insegnare l’AI.
10. L’industria domina lo sviluppo AI, ma la competizione si intensifica.
La quasi totalità dei modelli più avanzati proviene dall’industria.
Tuttavia, la differenza di prestazioni tra i migliori modelli si sta
riducendo, segno di una frontiera sempre più affollata.
11. L’AI riceve riconoscimenti scientifici di massimo livello.
Nel 2024 l’AI è stata protagonista di premi Nobel e del Turing Award,
evidenziando il suo impatto decisivo nella scienza, dalla fisica al
ripiegamento proteico.
12. Il ragionamento complesso resta una sfida.
Nonostante i successi in compiti avanzati, i modelli AI faticano ancora con
il ragionamento logico e la risoluzione di problemi complessi in contesti
critici.
Vai al report
--------------------------------------------------------------------------------
WORK TREND INDEX 2025 DI MICROSOFT
L'AI sta ridefinendo il lavoro nelle aziende, e Microsoft ne traccia i contorni
nel suo Work Trend Index 2025.
Il rapporto evidenzia come le organizzazioni che adottano l’AI in modo
strutturale — definite "Frontier Firms" — registrano benefici tangibili: il 71%
dei dipendenti afferma che la propria azienda sta prosperando, e l’83% dei
leader riconosce che l’AI contribuisce a una maggiore adozione di compiti
strategici.
In parallelo, Microsoft ha presentato importanti evoluzioni per Copilot,
puntando su un’integrazione sempre più pervasiva dell’AI nei flussi operativi.
Copilot Studio è una nuova piattaforma low-code che consente alle imprese di
costruire agenti intelligenti personalizzati, con memoria, capacità di
pianificazione e integrazione via OpenAPI.
Questi agenti possono operare all’interno delle app Microsoft 365 e connettersi
a sistemi esterni come Jira, Miro o Monday.
Sono stati inoltre lanciati due nuovi agenti nativi — Copilot Researcher e
Copilot Analyst — pensati per attività di ricerca e analisi su larga scala,
capaci di interagire con Word, Excel, Outlook e Teams grazie ai dati real-time
di Microsoft Graph. Il tutto è orchestrato con modelli GPT-4-turbo, in grado di
mantenere il contesto e generare output coerenti e document-aware.
Vai al report
--------------------------------------------------------------------------------
OPEN MANUS: UN TEST
Ho provato Open Manus, il progetto open source che mira a replicare le capacità
dell'Agente Manus AI.
Nel video si vedono diversi task che l'agent (nel mio caso basato su GPT-4o)
svolge in modo autonomo, sfruttando l'automazione del browser, e anche del
computer locale.
Open Manus: un test
Le mie considerazioni: questo tipo di agenti sono davvero molto interessanti, ma
acerbi per essere "liberati" a compiere operazioni autonome online senza
riferimenti specifici.
Vai al progetto
> Ma di certo miglioreranno, e saranno direttamente nel browser, e
> successivamente nei sistemi operativi.
--------------------------------------------------------------------------------
FIREBASE STUDIO DI GOOGLE: UN TEST
Google lancia Firebase Studio, un nuovo IDE open source basato sull’AI che
unisce Project IDX, Genkit e i modelli Gemini in un’unica piattaforma per creare
app full-stack.
L'ho provato: con un prompt testuale ho creato un'applicazione che trasforma un
contenuto in una mappa mentale modificabile. Con altri prompt successivi l'ho
rifinita per ottenere il risultato che avevo in mente.
Firebase Studio di Google: un test
Il cuore del progetto è l’agente di prototipazione, capace di generare app
Next.js complete in pochi secondi non solo da prompt testuali, ma anche da
immagini, annotazioni visuali e schemi. L’ambiente crea UI, backend e
integrazione AI in automatico, con anteprima nel browser, test mobile via QR
code e codice pronto da modificare.
L’IDE web-based, costruito su CodeOSS, offre funzionalità avanzate come modifica
e debug nel browser, terminale integrato, suggerimenti di codice con Gemini e
documentazione automatica. Il tutto gira su una VM configurabile con Nix, con
supporto a oltre 60 modelli ufficiali e l’importazione da GitHub, GitLab e
Bitbucket.
Vai al post
--------------------------------------------------------------------------------
TEST SU AI OVERVIEWS DI GOOGLE
In questo test, in una SERP di Google in cui compare AI Overviews, ho
considerato i contenuti nelle prime 12 posizioni e ho creato un piccolo RAG
usando LangChain, Chroma DB e GPT-4o.
> Inviandolo la query al RAG, ottengo una risposta simile a quella proposta da
> AI Overviews.
Test su AI Overviews di Google: RAG
Chiaramente Google usa anche query correlate ("fan-out") e il Knowledge Graph
per espandere i risultati.
Quindi, il funzionamento l'abbiamo intuito, e possiamo anche pensare di usare
dei modelli per misurare la pertinenza dei contenuti alle query per ragionare
sul "posizionamento" su AI Overviews.
> Chiaramente, il primo step rimane l'essere tra i risultati rilevanti, che
> rappresentano la knowledge a disposizione del "RAG".
COME ESSERE PRESENTI SU AI OVERVIEWS
Per essere presenti nelle fonti delle risposte di AI Overviews (ma in generale
nei sistemi ibridi come ChatGPT, Perplexity, ecc.), vanno considerati due
aspetti.
1. Essere tra i risultati che il sistema prende in considerazione per la query
principale (quella che scriviamo nel campo): tendenzialmente le prime due
pagine dei risultati, compresi PAA e SERP snippet.
2. Intercettare risposte pertinenti (semanticamente vicine) alla query
principale o a quelle secondarie che il motore genera per quel contesto
("fan-out").
> È come ragionare su un sistema RAG, in cui ogni documento è di un'azienda
> diversa.
Test su AI Overviews di Google: query
Per la query "cos'è il CSSOM", ad esempio, il mio contenuto è in seconda pagina
della SERP (è tra i risultati presi in considerazione), e intercetta la risposta
ad una query secondaria ("come si applicano gli stili agli elementi HTML").
Ma se si cerca direttamente la query secondaria, il mio contenuto non è tra le
fonti di AI Overviews, perché il contesto cambia, ed esistono molte fonti più
rilevanti per questa query.
Per la query "cosa sono i priority hints", il mio risultato è primo su Google,
ma non compare tra le fonti di AI Overviews. Misurando la pertinenza semantica
del mio contenuto con un algoritmo, infatti, risulta inferiore a quella dei
risultati che invece compaiono.
> Si tratta di un sottile equilibrio, non semplice da gestire e da controllare.
--------------------------------------------------------------------------------
AGENT2AGENT (A2A) E AGENT DEVELOPMENT KIT (ADK) DI GOOGLE
Google presenta Agent2Agent (A2A), un protocollo aperto per l'interoperabilità
tra agenti AI, sviluppato in collaborazione con oltre 50 aziende (es. Atlassian,
MongoDB, PayPal, Salesforce, SAP, Langchain).
A2A consente agli agenti AI, anche se costruiti con tecnologie o da fornitori
diversi, di comunicare, coordinarsi e scambiarsi informazioni in modo sicuro.
È pensato per scenari enterprise complessi: dalla gestione della supply chain
alla selezione del personale, fino all'automazione dei flussi di lavoro interni.
0:00
/1:22
1×
Un esempio concreto: la ricerca dei candidati
Basato su standard diffusi (HTTP, JSON-RPC, SSE), A2A supporta task rapidi o di
lunga durata, anche multimodali (testo, audio, video). Ogni agente può esporre
le proprie capacità tramite una “Agent Card” e collaborare con altri per
completare compiti condivisi, producendo artefatti come risultati finali.
Complementare al Model Context Protocol (MCP) di Anthropic, A2A punta a rendere
gli agenti realmente interoperabili, scalabili e integrabili in ambienti già
esistenti.
Vai al post
> Un passo chiave per costruire un ecosistema in cui gli agenti AI non siano
> strumenti isolati, ma veri colleghi digitali capaci di collaborare in tempo
> reale.
A supporto dello sviluppo di AI agent interoperabili, Google ha rilasciato anche
l’Agent Development Kit (ADK), un toolkit open-source in Python per costruire,
testare e distribuire agenti complessi, modulari e orchestrabili. Con ADK, gli
sviluppatori possono definire logiche, strumenti e workflow direttamente da
codice, integrandoli con Google Cloud, Vertex AI o ambienti locali.
Vai al progetto
--------------------------------------------------------------------------------
PYSPUR: AI AGENT WORKFLOW
PySpur è una nuova libreria open source che consente di creare workflow di AI
Agent attraverso un'interfaccia drag & drop.
0:00
/0:22
1×
PySpur: AI Agent Workflow
Semplifica la creazione, il test e il deploy di agenti, riducendo i tempi di
sviluppo. Si installa in pochi secondi con pip, permette l’aggiunta di tool
personalizzati e l’esportazione degli agenti in JSON.
Vai alla documentazione
--------------------------------------------------------------------------------
GOOGLE IRONWOOD
Google ha presentato Ironwood, la sua settima generazione di TPU (Tensor
Processing Unit), progettata specificamente per l’inferenza nell’era dell’AI
generativa. Ironwood è pensata per gestire modelli di "reasoning", come i LLM e
le Mixture of Experts (MoE), offrendo prestazioni senza precedenti.
TRA LE CARATTERISTICHE PRINCIPALI..
* Fino a 9.216 chip per pod, raggiungendo 42,5 Exaflops, più di 24 volte la
potenza del supercomputer El Capitan.
* Miglioramenti significativi in memoria (192 GB HBM per chip) e velocità di
interconnessione tra chip (1,2 Tbps).
* 2x più efficiente dal punto di vista energetico rispetto alla generazione
precedente (Trillium).
* Supporta carichi di lavoro AI intensivi con alta efficienza e scalabilità.
* Utilizza la piattaforma software Pathways per facilitare l’elaborazione
distribuita su larga scala.
0:00
/0:30
1×
Google Ironwood
Ironwood si inserisce nell’architettura AI Hypercomputer di Google Cloud,
diventando la base per nuovi progressi nel campo dell’AI, tra cui modelli come
Gemini 2.5 e AlphaFold.
Vai al post
> L'infrastruttura hardware sarà il fattore differenziante nel prossimo futuro?
--------------------------------------------------------------------------------
OPENAI PRESENTA LE "EVALS" API
Permettono di definire dei test, e di valutare rapidamente i prompt
automatizzando le esecuzioni.
OpenAI presenta le "Evals" API: un test
Nell'esempio ho caricato nel Playground un CSV contenente stringhe e label.
Successivamente ho configurato il test, creando un prompt dinamico che si
valorizza attraverso i dati del CSV. L'ultimo ingrediente è un "grader" per
valutare le risposte del modello in base a un criterio che possiamo definire.
Il sistema esegue automaticamente tutti i prompt e possiamo valutare il
risultato del test.
Vai alla documentazione
> Il tutto, completamente realizzabile via API: questo permette di creare
> procedure di test per diverse versioni di prompt.
--------------------------------------------------------------------------------
COPILOT SEARCH
Bing lancia la risposta a AI Mode di Google: Copilot Search.
Il funzionamento è molto simile: l'utente può porre una domanda, il sistema usa
il reasoning per espandere la ricerca, estrae le fonti, e compone una risposta
usando un LLM.
Copilot Search di Bing
È possibile visualizzare il "ragionamento" e le query correlate. Tutte le fonti
sono consultabili. Successivamente permette delle ricerche di follow-up.
Vai alla ricerca
--------------------------------------------------------------------------------
MCP (MODEL CONTEXT PROTOCOL): UN TEST
Un test in cui un Agente basato su o3 di OpenAI accede a file in locale
attraverso il protocollo MCP (Model Context Protocol).
MCP (Model Context Protocol): un test
Come funziona?
Ho implementato un server MCP che può effettuare diverse operazioni sul
filesystem locale del mio laptop, e l'agente è connesso a quel server.
Quando faccio richieste all'agente (che usa o3-mini via API), il sistema accede
ai file in locale e cerca le informazioni necessarie per rispondere. Infine
restituisce la risposta.
Nell'area di tracciamento del Playground di OpenAI è possibile monitorare tutte
le operazioni compiute dall'agente.
> MCP permette di creare applicazioni basate sui LLM che accedono a dati,
> software esterni e potenzialmente qualunque sistema. Questo apre la strada ad
> automazioni davvero interessanti.
--------------------------------------------------------------------------------
GEMINI LIVE: CONDIVISIONE SCHERMO E VIDEOCAMERA
Su Gemini Live è disponibile anche in Italia la funzionalità di condivisione in
real time dello schermo e della videocamera.
Nel video, condivido lo schermo del mio dispositivo con l'assistente e
interagisco attraverso la voce chiedendo informazioni su ciò che sto vedendo.
Gemini Live: condivisione schermo
> Queste funzionalità fanno comprendere il grande potenziale di interazione di
> questi sistemi con il mondo reale.
--------------------------------------------------------------------------------
CLAUDE FOR EDUCATION
Claude for Education è il nuovo progetto di Anthropic pensato per rivoluzionare
il mondo universitario con l’AI. Grazie alla modalità Learning Mode, Claude
stimola il pensiero critico degli studenti invece di fornire risposte pronte,
utilizzando domande socratiche e strumenti strutturati per lo studio.
Partnership con università come Northeastern, LSE e Champlain College portano
l'intelligenza artificiale in aula e negli uffici amministrativi, aiutando
studenti, docenti e staff a lavorare in modo più efficace e intelligente.
Vai al post
> Con programmi dedicati agli studenti, API gratuite per progetti innovativi e
> integrazione nei principali sistemi educativi come Canvas LMS, Claude si
> afferma come un alleato concreto per un'educazione del futuro, costruita su
> responsabilità, accessibilità e innovazione.
--------------------------------------------------------------------------------
RUNWAY GEN-4
Runway ha presentato Gen-4, il nuovo modello dedicato ai contenuti visivi.
Consente la generazione di immagini e video mantenendo coerenza tra personaggi,
oggetti e ambientazioni anche in scenari complessi.
Utilizza riferimenti visivi e istruzioni testuali per produrre contenuti
uniformi in termini di stile, composizione e prospettiva, senza necessità di
ulteriori addestramenti.
Runway Gen-4: presentazione
Tutti i brand che sviluppano modelli stanno creando piattaforme in grado di
generare sia immagini che video, in modo da dare un'unica soluzione agli utenti.
Vai al post
> Nella presentazione parlano anche di "simulazione fisica".. su questo non sono
> molto convinto, ma di certo i miglioramenti sono incredibili.
--------------------------------------------------------------------------------
FLORA: DIVERSI MODELLI IN UN UNICO AMBIENTE
Flora è un esempio di strumento che riunisce diversi modelli visuali in un unico
ambiente consentendo sperimentazione e prototipazione rapida.
Un esempio di utilizzo di Flora
Nell'esempio si vede un progetto che parte da un'immagine generata da prompt
testuale usando Flux Pro. Vengono create diverse inquadrature con prompt
multimodale con Gemini 2.0 Flash. Infine le clip video usando Ray2 di Luma: da
prompt + immagine, ma anche con prompt + due frame.
Tra i vari modelli sono a disposizione anche Flux Dev, Ideogram, Stable
Diffusion, Photon di Luma, Kling e Runway.
Vai al progetto
> Un tool davvero interessante, e la coerenza delle immagini è notevole.
--------------------------------------------------------------------------------
SEAWEED: UN MODELLO DA 7B DI PARAMETRI CHE COMPETE CON I GIGANTI
Seaweed 7B è un nuovo modello da 7 miliardi di parametri capace di competere con
giganti del settore, ma con una frazione delle risorse.
Seaweed: un nuovo modello di generazione video
Addestrato con "sole" 665.000 ore di GPU H100, raggiunge livelli di qualità
visiva, fedeltà al prompt e coerenza narrativa che lo pongono tra i migliori
sistemi di generazione video.
Con il supporto a testo, immagini e audio, Seaweed-7B genera video realistici,
coerenti e controllabili fino a 720p in tempo reale. Il suo design include un
VAE 3D causale e un Diffusion Transformer ottimizzato per performance e
scalabilità, riducendo drasticamente i costi computazionali.
Vai al progetto
> Come abbiamo detto più volte, la scala non può essere l'unica leva per
> migliorare le performance dei modelli. Ora serve evoluzione architetturale, e
> questo è un esempio.
--------------------------------------------------------------------------------
UI-TARS-1.5 DI BYTEDANCE
ByteDance ha rilasciato UI-TARS-1.5, un agente multimodale basato su
Qwen2.5-VL-7B che unisce visione e linguaggio con "reasoning".
UI-TARS - Next-generation native GUI agent model
UI-TARS:Next-generation native GUI agent model designed to interact seamlessly
with GUIs using human-like perception
UI-TARS Team
Il modello valuta prima di agire, migliorando l’esecuzione dei task in ambienti
complessi. Brilla nei benchmark GUI, superando modelli come Claude 3.7 e OpenAI
CUA in compiti su desktop e browser. Ottimi risultati anche in giochi web,
grazie a una forte capacità di pianificazione a lungo termine.
Si distingue nella navigazione web con performance superiori in SimpleQA e
BrowseComp, gestendo con precisione interazioni real-time su interfacce
grafiche.
In ambienti 3D come Minecraft, batte agenti top usando input visivi e controlli
nativi, migliorando le decisioni grazie al suo modulo di “pensiero prima
dell’azione”.
--------------------------------------------------------------------------------
MIDJOURNEY V7
Midjourney mancava da tempo in ambito di rilasci, ma ora annuncia la versione V7
del suo modello, attualmente in fase Alpha. Più intelligente
nell’interpretazione dei prompt testuali, offre una qualità visiva superiore e
migliora drasticamente la coerenza nei dettagli di corpi, mani e oggetti.
Vai al post
V7 introduce per la prima volta la personalizzazione del modello attiva di
default, che si sblocca in circa 5 minuti. Questa funzione mira a interpretare
meglio ciò che l’utente desidera e trova visivamente affascinante.
Grande novità è anche il Draft Mode, che consente rendering 10 volte più veloci
al 50% del costo. È pensato per esplorare idee in modo rapido: le immagini sono
a qualità ridotta, ma esteticamente coerenti. È disponibile anche una modalità
vocale per iterare i prompt in modo conversazionale.
--------------------------------------------------------------------------------
- GRAZIE -
Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre
persone, condividilo 🙂
ISCRIVITI ALLA NEWSLETTER
Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su
tematiche relative all'intelligenza artificiale.
Iscriviti alla Newsletter
Email sent! Check your inbox to complete your signup.
Gratuita. No Spam. Puoi disiscriverti quando vuoi.
Consulta la privacy policy.
> Buon aggiornamento, e buone riflessioni..
--------------------------------------------------------------------------------
CI VEDIAMO AL SEARCH MARKETING CONNECT
Nei giorni 11 e 12 dicembre, a Bologna, ci sarà la diciottesima edizione del
Search Marketing Connect, che sarà orientata all'impatto dell'Intelligenza
Artificiale su SEO, Analytics, ADV, Digital Strategy e Content.
Terrò due interventi:
* il primo sulla ricerca online potenziata dall'AI;
* il secondo sulle nuove architetture volte ad aumentare la qualità
dell'inferenza nei modelli di linguaggio (sistemi di "reasoning" e
multi-agent).
In entrambi, porterò concetti, sperimentazione e riflessioni.
Vai al programma completo
--------------------------------------------------------------------------------
COSA SONO GLI AI AGENTS?
Tutti parlano gli AI Agents e sistemi multi-agente. Ma di cosa si tratta?
Spiegazione semplice: un agente è un sistema che usa un LLM come motore di
"ragionamento", ed è in grado di eseguire operazioni autonomamente per
raggiungere l'obiettivo richiesto.
Cosa sono gli AI Agents?
> Un GPT connesso a diverse API esterne è un semplice esempio di agente: è il
> LLM, in base alla richiesta e ai servizi ai quali può accedere, che decide le
> azioni da compiere.
Qui è possibile consultare un esempio di implementazione di un semplice agente
usando LangChain.
Build an Agent | 🦜️🔗 LangChain
By themselves, language models can’t take actions - they just output text.
🦜️🔗 LangChain
UN ESEMPIO DI APPLICAZIONE MULTI-AGENTE
Nel video, è possibile vedere un esempio di applicazione multi-agent su AutoGen
Studio, per pianificare il miglior periodo per una vacanza con determinate
caratteristiche.
Un'applicazione multi-agent su AutoGen Studio
Gli agenti coinvolti sono: un proxy che riceve la richiesta, il team leader,
l'esperto di meteorologia, l'esperto della Grecia e l'esperto di surf.
Ogni agente è basato su GPT-4o, e ha accesso a una knowledge specifica, o a tool
che estraggono dati via API in base alle interazioni.
> I vantaggi di sistemi di questo tipo: specializzazione, scomposizione di
> problemi complessi, scalabilità, flessibilità.
--------------------------------------------------------------------------------
MODEL CONTEXT PROTOCOL (MCP)
Anthropic introduce Model Context Protocol (MCP), uno standard che semplifica la
connessione degli agenti AI a fonti di dati locali e remote.
Grazie a sistemi di questo tipo, l'LLM può collegarsi alla knowledge senza
bisogno di connettori specifici, ma con "semplici" architetture client-server.
Introducing the Model Context Protocol
The Model Context Protocol (MCP) is an open standard for connecting AI
assistants to the systems where data lives, including content repositories,
business tools, and development environments. Its aim is to help frontier models
produce better, more relevant responses.
> Questo permette di aumentare la precisione e di creare ecosistemi più
> scalabili e sostenibili, accelerando la transizione verso sistemi di AI più
> "agentici" e collaborativi.
--------------------------------------------------------------------------------
LA RICERCA SU CHATGPT
OpenAI porta su ChatGPT l'esperienza (e i feedback) di SearchGPT e le
partnership editoriali nate nell'ultimo periodo.
Si basa su GPT-4o ottimizzato con nuove tecniche di generazione di dati
sintetici e di distillazione che sfrutta o1.
> L'ho provato. È senza dubbio migliorabile, ma mi sembra un ottimo inizio di
> una nuova esperienza di ricerca.
La ricerca su ChatGPT
Mancano le integrazioni che siamo abituati a trovare nelle SERP di Google, ad
esempio.. ma le potenzialità sono enormi.
Esempi di ricerca su ChatGPT
La capacità di distillare una grande quantità di fonti in pochissimo tempo è
stupefacente. La sintesi delle competizioni sportive è un esempio lampante.
> E vogliamo parlare dell'estensione per Chrome che permette di rendere la
> ricerca di ChatGPT quella di default del browser!?
COME FUNZIONA LA RICERCA SU CHATGPT?
Il dettaglio del video fa intuire la natura del funzionamento della ricerca di
ChatGPT.
Search su ChatGPT: come funziona?
È una sorta di RAG (Retrieval-Augmented Generation): la SERP di Bing è la lista
dei "documenti" che compongono la knowledge. Le informazioni vengono trasformate
in embeddings, e con una query vettoriale il LLM costruisce la risposta.
Nell'area "citazioni" sono presenti i documenti della knowledge con le parti più
vicine semanticamente alla query, e che, come nel RAG vengono indicate tra le
fonti della risposta.
> Questo cambia il paradigma di ricerca delle informazioni: la prima estrazione
> può essere anche poco precisa (rimanendo importante), mentre il lavoro
> semantico raffinato avviene in seconda battuta.
LA RICERCA SU CHATGPT NON È SEARCHGPT!
Ho letto diversi post in cui si afferma di aver scoperto che i risultati della
ricerca di ChatGPT derivano da Bing: È COSÌ, e la documentazione lo riporta in
modo chiaro (..ma bisogna leggerla!).
La ricerca su ChatGPT non è SearchGPT
È stata migliorata la distillazione dei risultati, vengono sfruttare le
partnership editoriali, ed è stata sfruttata L'ESPERIENZA di SearchGPT (i
feedback del prototipo) per migliorare le risposte della ricerca.
> Ergo: non leggiamo solo i titoli degli articoli che troviamo online. I
> concetti vanno approfonditi.
--------------------------------------------------------------------------------
AI OVERVIEWS SU GOOGLE SHOPPING NEGLI USA
L'esperienza di AI Overviews all'interno di Google Shopping nelle SERP USA è
davvero interessante.
AI Overviews su Google Shopping in USA
Google sta "spingendo" questa tecnologia dove (attualmente) non ha rivali,
ovvero nelle piattaforme in cui i risultati sono guidati dai dati strutturati.
> Anche se la recente integrazione dello "shopping" su Perplexity fa riflettere.
GOOGLE AI SALES ASSISTANT
Sembra che Google, inoltre, stia testando AI Sales Assistant in SERP,
raggiungibile attraverso una CTA "Shop" dopo i sitelink dei brand.
La chat permette di fare domande e affinare la ricerca dei prodotti.
Google AI Sales Assistant
> I dati ben strutturati, diventano sempre di più il motore che alimenta touch
> point digitali. E il sito web è solo uno di questi.
SEO è anche comprendere questo aspetto, e curare feed e dati strutturati.
--------------------------------------------------------------------------------
LO SHOPPING DI PERPLEXITY
Perplexity introduce "shopping", che permette di fare una ricerca con intento
d'acquisto, ottenere un listing di prodotti distillato dai risultati con
informazioni dettagliate, e acquistare direttamente dalla SERP.
La ricerca può essere anche visuale.. anzi, multimodale (immagine + query
testuale).
Per approfondire
> I sistemi basati sull'AI diventano sempre di più un intermediario tra l'utente
> e l'acquisto di prodotti e servizi.
--------------------------------------------------------------------------------
BRAVE SEARCH INTRODUCE "ANSWER WITH AI"
Una nuova funzionalità che distilla risposte in base ai risultati di ricerca, e
permette una conversazione con domande di follow-up.
Il sistema si basa sui dati dell'indice di Brave e su LLM open-source e
proprietari per la generazione di risposte.
Answer with AI di Brave Search
Lo stile è quello di AI Overviews di Google, con la risposta in alto e i
risultati tradizionali a seguire.
> Il panorama si amplia, e gli ibridi tra motore di ricerca e LLM diventano
> sempre di più parte dell'esperienza utente.
--------------------------------------------------------------------------------
LA VERSIONE DESKTOP DI CHATGPT
OpenAI ha rilasciato l'applicazione desktop per Windows e MacOS.
L'ho provata, e si capisce subito come la facilità di utilizzo aumenta.
La versione desktop di ChatGP
Alt + Spazio, e l'interazione è subito pronta per ricerche, azioni sui
documenti, "vision" sullo schermo, e voce.
--------------------------------------------------------------------------------
GOOGLE SEARCH PER I MODELLI GEMINI
Dopo la ricerca su ChatGPT arriva Google Search per i modelli Gemini. L'ho
provato.
La funzionalità si chiama "Grounding with Google Search" ed è molto simile a
quella di ChatGPT.
Grounding with Google Search
Permette, però, anche si gestire il "dynamic retrieval": un parametro per
impostare l'influenza del recupero dai risultati di ricerca nella risposta del
modello.
Interessante anche vedere come il sistema scompone la richiesta in diverse
query.
> L'aspetto interessante è che sarà usabile via API, consentendo agli
> sviluppatori di creare applicazioni più accurate.
--------------------------------------------------------------------------------
SISTEMI DI "REASONING": LA QUALITÀ DELL'INFERENZA
Durante il TED AI di San Francisco, Noam Brown (OpenAI), ha affermato:
> Si è scoperto che far riflettere un bot per soli 20 secondi durante una mano
> di poker ha ottenuto lo stesso miglioramento delle prestazioni che si
> otterrebbe aumentando le dimensioni del modello di 100.000 volte e
> addestrandolo per 100.000 volte più a lungo.
Si stava riferendo alla tecnica usata su sistemi come "o1", che probabilmente
tutti i modelli (anche di altri player) adotteranno prossimamente.
Sul palco dell'AI Festival, ho condiviso la riflessione:
> La potenza di calcolo e l'accesso a grandi set di dati saranno ancora
> sufficienti per progredire? O forse siamo arrivati in un momento in cui la
> scala potrebbe non bastare più, rendendo necessarie intuizioni innovative ed
> evoluzioni algoritmiche?
Alessio Pomaro: AI Festival 2024
Sembra, infatti, che il focus si stia spostando sulla qualità dell'inferenza e
su nuove architetture, e meno sulla scala del training (visto anche che i
progressi di Orion sembrano essere al di sotto delle aspettative).
> Successivamente, si dovrà cercare l'accuratezza e la "comprensione" coerente.
--------------------------------------------------------------------------------
COSA SONO GLI EMBEDDINGS?
Sentiamo sempre più spesso parlare di embeddings: di cosa si tratta, come si
generano, e come possono essere utili nei flussi operativi?
Una spiegazione semplice, con alcuni esempi di utilizzo:
Cosa sono gli embeddings? Esempi di utilizzo
Cosa sono e come funzionano gli embeddings (o incorporamenti): una spiegazione
semplice con alcuni esempi di utilizzo in ambito SEO, e riflessioni
sull’importanza della consapevolezza di questi sistemi.
Alessio PomaroAlessio Pomaro
In ambito SEO, ad esempio, possono essere utilizzati per creare delle
redirection automatizzate per le migrazioni degli e-commerce, per gestire i 404
e per rafforzare la rete di link interni.
> Facciamo anche alcune importanti riflessioni sull'importanza della
> consapevolezza di questi sistemi per ottenere performance.
Per approfondire
--------------------------------------------------------------------------------
KLING CUSTOM MODEL E SUNO V4
Con questo video vediamo due novità incredibili: Kling Custom Models e Suno v4.
Kling Custom Model e Suno V4
Kling ora permette un training per la coerenza dei personaggi attraverso dei
video di esempio. Il video è stato creato da Alex Patrascu, addestrando Kling a
riprodurre sé stesso.
L'audio del video è stato realizzato con l'ultima versione di Suno, la 4. Anche
le tracce audio iniziano ad avere una qualità importante.
> Il risultato è.. una parte del futuro della content creation.
--------------------------------------------------------------------------------
RUNWAY: FRAMES + EXPAND VIDEO
Runway ha presentato due nuove funzionalità molto interessanti (una dedicata
alle generazione delle immagini).
FRAMES
Frames è un nuovo modello di generazione di immagini di Runway.
Le chiavi di sviluppo sembrano essere la coerenza stilistica e la fedeltà
visiva. Il tutto per essere il primo step per la generazione di video sempre
migliori.
Esempi di immagini generate con Frames di Runway
Le anteprime sono notevoli.
Per approfondire
EXPAND VIDEO
Expand Video è una nuova funzionalità per modificare le proporzioni dei video
estendendo il frame originale e mantenendo la coerenza visiva.
A questo è possibile abbinare i movimenti della telecamera ed effetti.
Expand Video di Runway
> Questo permette di creare diversi formati di video senza dover fare riprese
> aggiuntive.
Per approfondire
--------------------------------------------------------------------------------
FUGATTO DI NVIDIA
Fugatto è un nuovo modello di Nvidia dedicato al mondo audio.
> È in grado di generare e modificare qualunque tipo di mix di musica, voci e
> suoni utilizzando prompt basati su testo e file audio.
Esempi di funzionalità: creazione di nuovi suoni, cambiamento di emozioni o
accenti in una voce, manipolazione di strumenti musicali in un brano esistente,
voice-over personalizzati.
Fugatto di Nvidia
> La qualità e la precisione di questi strumenti li renderà indispensabili nei
> flussi di lavoro.
Per approfondire
--------------------------------------------------------------------------------
STILI PERSONALIZZATI SU CLAUDE
Anthropic ha introdotto una funzionalità che permette di scegliere lo stile di
scrittura su Claude.
Gli stili personalizzati su Claude
Ma soprattutto, consente di creare stili personalizzati attraverso un
addestramento: caricando esempi o usando prompt descrittivi.
--------------------------------------------------------------------------------
AISUITE DI ANDREW NG
Andrew Ng ha rilasciato Aisuite nella sua repository di GitHub: un framework
open che permette di usare qualunque LLM con poche righe di Python.
GitHub - andrewyng/aisuite: Simple, unified interface to multiple Generative AI
providers
Simple, unified interface to multiple Generative AI providers - GitHub -
andrewyng/aisuite: Simple, unified interface to multiple Generative AI providers
GitHubandrewyng
> In pratica incapsula le chiamate API dei più noti modelli, facilitando test e
> prototipazione.
--------------------------------------------------------------------------------
IGNITE 2024: LE NOVITÀ DI MICROSOFT
* Sicurezza e Data Governance. Nuove funzionalità in Microsoft Purview per
proteggere i dati e prevenire rischi legati all'AI.
* Evoluzione di Co-Pilot. Co-Pilot diventa centrale per produttività e
creatività con azioni automatizzate e agenti personalizzabili.
* Nuovi Agenti AI. Agenti specifici per moderare riunioni, gestire progetti e
fornire accesso alle informazioni in tempo reale.
Un esempio è "Interpreter": un agente AI connesso a Teams in grado di tradurre
in tempo reale la conversazione in qualunque lingua riproducendo la voce delle
persone.
> Fino a qualche anno fa lo immaginavamo.. adesso è realtà
* Co-Pilot Analytics. Strumenti per misurare l’impatto aziendale dell’uso di
Co-Pilot.
* Windows 365. Nuove soluzioni per il lavoro sicuro nel cloud e aggiornamenti
senza interruzioni.
* Innovazioni Hardware. Lancio di chip e DPUs per migliorare sicurezza,
prestazioni e sostenibilità.
* Microsoft Fabric. Unificazione di analisi e gestione operativa con database
SQL Server su Fabric.
* Azure AI Foundry. Piattaforma centralizzata per sviluppatori con modelli AI e
strumenti avanzati.
* Computing Quantistico. Progresso con 24 qubit logici entangled per affrontare
sfide scientifiche complesse.
Ignite 2024: le novità di Microsoft
--------------------------------------------------------------------------------
I NUOVI STRUMENTI DI MISTRAL
Mistral ha rilasciato una nuova versione della sua Chat, introducendo nuovi
strumenti: le ricerca online, Canvas, Advanced OCR (vision) e Image Generator.
L'ho provato!
* La ricerca online non è perfezionata: è lenta e ho ottenuto informazioni
sbagliate. Non è specificato il motore, ma spesso i risultati derivano da una
SERP in inglese. Anche se si forza la Search, non sempre esegue la ricerca.
* La generazione delle immagini è basata su Flux Pro, e questa è un'ottima
notizia. Tuttavia, ci sono problemi di incapsulamento dei prompt con la
lingua: meglio usare l'inglese.
* Canvas è interessante, ma ha problemi nel prompt multimodale: in un prompt ho
istruito il modello per generare un post a partire da un PDF, ma ha dato
errore. Al netto di questo, siamo lontani dalle funzionalità di Canvas su
ChatGPT.
> L'ottimo inizio di un nuovo sviluppo.
--------------------------------------------------------------------------------
OPERATOR DI OPENAI
OpenAI, secondo Bloomberg, starebbe lavorando sul progetto "Operator", un agente
autonomo in grado di controllare anche i dispositivi svolgendo compiti in modo
indipendente.
Questo segue un trend già avviato da Anthropic e da Google, ma ancor prima da
progetti open source come Open Interpreter.
> Gli agenti autonomi sono probabilmente il prossimo passo evolutivo per l'AI,
> che si avvia a diventare uno strato non solo tra gli utenti e le piattaforme
> digitali, ma anche nei confronti dell'hardware.
--------------------------------------------------------------------------------
USARE I MODELLI DI LINGUAGGIO SU SCREAMING FROG
Screaming Frog introduce le API per l'interfacciamento con i modelli di OpenAI,
Google e con Ollama.
Lavora sull'HTML salvato in fase di scansione, mentre nella versione precedente
si usavano snippet JavaScript personalizzati eseguiti durante il rendering delle
pagine.
È possibile generare embeddings e contenuti con prompt personalizzati su
contesti selezionabili (attraverso estrattori predefiniti e custom).
L'integrazione dei LLM su Screaming Frog
COSA MANCA? La possibilità di comporre il contesto che mettiamo a disposizione
del modello in base all'utilizzo di più elementi delle pagine estraibili con
XPath. Questo è realizzabile con la versione JS!
> Ho scritto al team di Screaming Frog, e hanno già messo la funzionalità nella
> roadmap di sviluppo. Ottimo!
--------------------------------------------------------------------------------
GEMINI NEL WORKSPACE DI GOOGLE
Google inizia ad integrare Gemini nei software del Workspace.
Negli esempi si vedono alcune interazioni su Gmail e su Drive.
Esempi dell'integrazione di Gemini nel Workspace di Google
> Tutto molto interessante, anche se le performance non sono ancora ottimali
> (almeno per l'italiano).
--------------------------------------------------------------------------------
LA SENSIBILITÀ DEI LLM NEI CONFRONTI DEI PROMPT
I LLM più grandi sono meno sensibili alle variazioni dei prompt.
Ne parla questo paper molto interessante. Ma basta fare dei test con o1 di
OpenAI per rendersene conto.
La sensibilità dei LLM nei confronti dei prompt
Questo è ottimo perché il margine d'errore si riduce anche se le interazioni
diventano più scarse, ma si riducono anche le potenzialità.
Vai al paper
--------------------------------------------------------------------------------
USARE GEMINI CON LA LIBRERIA PYTHON DI OPENAI
Gemini può essere usato attraverso la libreria Python di OpenAI.
Com'è possibile? Semplice: hanno sviluppato un proxy che traduce la sintassi
delle chiamate API di OpenAI nel formato richiesto dalle API di Gemini.
Usare Gemini con la libreria Python di OpenAI
Mossa intelligente, perché gli sviluppatori possono switchare da un modello
all'altro cambiando 2 parametri. Ma così il confronto diventa semplice.
Vai alla documentazione
> È la dimostrazione che il formato di OpenAI sta diventando uno standard.
--------------------------------------------------------------------------------
- GRAZIE -
Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre
persone, condividilo 🙂
ISCRIVITI ALLA NEWSLETTER
Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su
tematiche relative all'intelligenza artificiale.
Iscriviti alla Newsletter
Email sent! Check your inbox to complete your signup.
Gratuita. No Spam. Puoi disiscriverti quando vuoi.Consulta la privacy policy.
PUNTI SALIENTI
* Definizione di embeddings
Gli embeddings rappresentano parole e frasi come vettori numerici in uno
spazio multidimensionale, rendendo possibile una rappresentazione semantica
del linguaggio.
* Formazione degli embeddings
Durante il training, il modello perfeziona i vettori numerici per avvicinare
quelli con significati simili, facilitando la comprensione delle relazioni
semantiche tra le parole.
* Tokenizzazione e embeddings contestualizzati
I modelli suddividono il testo in token, generano embeddings per ogni token e
li combinano per rappresentare il significato dell’intero testo.
* Utilità degli embeddings nella SEO
L’uso degli embeddings supporta il miglioramento della SEO con applicazioni
come redirection automatizzata, gestione dei 404 e rafforzamento della rete
di link interni.
* Calcolo della similarità
La similarità tra embeddings si può misurare con vari metodi, con la
similarità del coseno spesso preferita, anche se il prodotto scalare e altre
tecniche possono offrire risultati comparabili.
* Integrazione nei tool SEO
Strumenti come Screaming Frog permettono di generare embeddings durante la
scansione dei siti web, integrando le API di modelli di AI (es. OpenAI,
Google, Ollama).
* Consapevolezza nell'uso degli embeddings
Per massimizzare i benefici degli embeddings, è cruciale comprendere la loro
natura e i metodi di calcolo utilizzati, evidenziando l’importanza di un
approccio consapevole e ben studiato.
Immaginiamo che lo spazio 3D che segue rappresenti uno spazio semantico del
linguaggio.
0:00
/0:28
1×
In questo scenario, ogni puntino viola rappresenta l'embedding di una parola,
ossia la sua rappresentazione numerica in uno spazio tridimensionale (la
sequenza numerica dell'embedding corrisponde alle coordinate nello spazio
multidimensionale del puntino).
> Gli embeddings sono rappresentazioni numeriche che trasformano parole o frasi
> in vettori di numeri reali.
In questo esempio, li vediamo rappresentati in 3 dimensioni, ma nella realtà
questi vettori esistono in spazi con molte più dimensioni. Gli embeddings di
OpenAI, ad esempio, arrivano a oltre 3000 dimensioni: uno spazio che non
possiamo visualizzare facilmente.
La potenza degli embeddings risiede nel fatto che i vettori "catturano" le
caratteristiche semantiche e sintattiche del linguaggio, permettendo ai modelli
di linguaggio di "comprendere" e manipolare il testo in modo matematico.
In che modo riescono a rappresentare queste caratteristiche? Le coordinate dei
vettori nello spazio multidimensionale fanno sì che parole con significati
simili siano vicine tra loro. Ad esempio, parole come "gatto" e "felino" si
troveranno vicine nello spazio degli embeddings, mentre parole come "gatto" e
"automobile" saranno molto lontane.
Un esempio semplificato del concetto di embeddings
Possiamo intuire con semplicità, quindi, che più aumentano le dimensioni dello
spazio, e più aumenta la precisione della rappresentazione.
COME VENGONO DEFINITI GLI EMBEDDINGS?
Nella fase iniziale del training di un LLM, i vettori numerici che rappresentano
le parole sono casuali o derivano da una pre-inizializzazione. Il modello,
durante l'addestramento, analizza ampie collezioni di testo, che includono dati
provenienti da libri, articoli e contenuti web, osservando l’uso delle parole in
vari contesti.
Attraverso questo processo di ottimizzazione, il modello raffina
progressivamente i valori numerici dei vettori, in modo da avvicinare tra loro
quelli che rappresentano parole con significati simili, rendendo così esplicite
le relazioni semantiche tra le parole. Ad esempio, parole che appaiono
frequentemente in contesti simili avranno rappresentazioni vettoriali simili.
Una volta concluso il training, i vettori diventano altamente raffinati e
riescono a cogliere molte delle sottigliezze del linguaggio umano, come sinonimi
e analogie.
> Ecco perché i modelli di linguaggio sono così abili nell’interpretare e
> generare testo.
Come vengono definiti gli embeddings: training del modello
Successivamente, quando usiamo un modello per generare gli embeddings, forniamo
una parola in input, e il modello recupera l'embedding corrispondente dalla
matrice di embeddings ottimizzata durante la fase di training. Il vettore
restituito rappresenta le caratteristiche semantiche della parola, basate sulla
conoscenza acquisita dal modello.
Come vengono generati gli embeddings da un modello
Se, ad esempio, diamo in input al modello "text-embedding-3-large" di OpenAI la
parola "marketing", otteniamo il vettore numerico che segue.
I valori che si percepiscono dall'immagine sono le 3.072 dimensioni con le quali
il modello rappresenta la parola.
> "marketing" = [-0.0021438375115394592, -0.00014348721015267074,
> -0.0066122193820774555, 0.001951836864463985, ..., -0.004653195384889841,
> 0.018990622833371162, 0.008846410550177097, -0.0012166894739493728,
> 0.015064360573887825, -0.0035094046033918858, -0.0026982782874256372]
PAROLE O TOKEN?
Fino a questo punto, abbiamo ragionato in termini di "parole." Ma i LLM non si
basano direttamente sulle parole come unità di base, bensì sui token.
> Un token è una sequenza di caratteri, e può rappresentare una parola, una
> parte di parola o persino un singolo carattere, a seconda del contesto e della
> lingua. È l’unità fondamentale che i modelli di linguaggio utilizzano per
> processare il testo.
RICOSTRUIAMO IL FLUSSO DELLE OPERAZIONI
Con questa precisazione, rivediamo il flusso con il quale il modello genera gli
embeddings di un testo.
* Forniamo al modello un testo (che può essere una parola, una frase o un
paragrafo, o un documento),
* il modello lo divide in token (un processo chiamato tokenizzazione),
* recupera gli embeddings contestualizzati per ogni token, ovvero
rappresentazioni numeriche che catturano il significato di ogni token nel suo
contesto,
* infine, attraverso tecniche come l’attenzione e la media pesata, combina gli
embeddings dei singoli token per ottenere un embedding complessivo, che
rappresenta il significato dell’intero testo.
Il processo di generazione degli embeddings
Naturalmente, anche la fase di training, e quindi di ottimizzazione dei vettori,
deve essere rivista in ottica di utilizzo di token
A COSA SERVONO GLI EMBEDDINGS?
Ora che abbiamo compreso la natura di questi sistemi, che sono alla base del
funzionamento dei modelli di linguaggio (LLM) possiamo chiederci: a cosa può
servire la vettorializzazione dei testi nei flussi operativi?
La trasformazione di contenuti in sequenze numeriche che ne rappresentano il
significato permette di determinare la similarità dei testi attraverso semplici
calcoli matematici. E questo può trasformarsi, ad esempio, in sistemi di
recommendation (di prodotti, di articoli, o di contenuti multimediali in base
alle preferenze degli utenti), ricerche evolute su richieste in linguaggio
naturale (i moderni sistemi RAG - Retrieval Augmented Generation - si basano
esattamente su questi concetti), automazioni di processi su larga scala.
NOTA: il calcolo della similarità non è l'unica operazione attuabile sugli
embeddings, ma è probabilmente quella più usata.
--------------------------------------------------------------------------------
ESEMPI DI UTILIZZO NELLA SEO
In ambito SEO, possiamo usare gli embeddings in diversi contesti, ad esempio la
redirection in fase di migrazione, la gestione dei 404 post migrazione e il
rafforzamento della rete di link interni.
Per la trasformazione di contenuti testuali in embeddings possiamo usare uno
script in Python (o in altri linguaggi di programmazione) che implementa le API
del modello di linguaggio che scegliamo. Ecco un esempio di codice Python che
sfrutta le API di OpenAI per ottenere l'embedding di un testo.
from openai import OpenAI
client = OpenAI()
response = client.embeddings.create(
input="Your text string goes here",
model="text-embedding-3-small"
)
print(response.data[0].embedding)
Oppure possiamo usare Screaming Frog SEO Spider, che ha introdotto la
generazione degli embeddings (compatibile con i modelli di OpenAI, Gemini di
Google e Ollama) direttamente in fase di scansione dei siti web.
Questo significa che, mentre il sistema effettua il crawling, può considerare
dei contenuti presenti nelle pagine come testi da trasformare in embeddings. E
siamo noi a poter configurare il sistema in modo da scegliere i testi di
interesse.
La configurazione può avvenire in due modalità:
* usando uno snippet nella sezione JavaScript personalizzato (documentazione);
* usando una connessione diretta alle API dei modelli (dalla versione 21.0).
La configurazione delle API di OpenAI su Screaming Frog
> Chiaramente lo strumento può fare anche altre operazioni usando gli LLM, ma
> rimaniamo sul tema degli embeddings.
REDIRECTION IN FASE DI MIGRAZIONE
In questo caso, possiamo scansionare il vecchio sito web e il nuovo sito web
(quello che lo sostituirà), ottenendo gli embeddings dei contenuti delle diverse
pagine. Con uno script Python, quindi, possiamo misurare la similarità tra le
pagine, e, in base a questa, determinare delle associazioni tra gli URL delle
vecchie risorse e gli URL delle nuove risorse.
Un esempio dell'uso degli embeddings per la redirection automatizzata
Infine, sempre attraverso semplici istruzioni in Python, possiamo ottenere
automaticamente le regole di rewrite per la redirection.
GESTIONE DEI 404 POST MIGRAZIONE
In questo caso, abbiamo a disposizione la lista delle pagine che restituiscono
uno status code 404 in Search Console. Come possiamo gestirle in modo
automatizzato? O comunque, come possiamo avere un'automazione che ci fornisce un
aiuto per gestirle?
Possiamo, ad esempio, trasformare in embeddings gli URL (la stringa dell'URL),
oppure gli slug degli URL. Allo stesso modo, dalla scansione del sito web
online, possiamo ottenere gli embeddings delle stringhe dei nuovi URL.
Un esempio dell'uso degli embeddings per la gestione dei 404
Attraverso un calcolo della similarità, quindi, possiamo, ancora una volta,
ottenere un'associazione tra vecchi URL e nuovi URL, producendo una redirection
automatizzata.
> Con questa tecnica, in alcuni progetti, abbiamo ottenuto un matching corretto
> quasi al 100%. Chiaramente, una condizione determinante per il funzionamento è
> che gli URL siano "parlanti".
RAFFORZAMENTO DEI LINK INTERNI
Usando Screaming Frog, possiamo scansionare, ad esempio, le categorie di un
e-commerce ottenendo gli embeddings dei contenuti al loro interno. Usando uno
script per determinare la similarità, possiamo ottenere una lista di link tra le
categorie più simili che possono diventare link in pagina verso categorie
semanticamente affini e "related link" nei dati strutturati.
Un esempio dell'uso degli embeddings per il potenziamento dei link interni
NOTE SULL'USO DI SCREAMING FROG
In questi esempi ho usato la modalità basata sugli snippet JavaScript per creare
gli embeddings, perché permettono una configurazione come quella che segue.
In pratica, non sto usando lo snippet di default dedicato agli embeddings (il
quale vettorializza tutto il testo presente nel body), ma una variante in cui
vado a creare una precisa stringa da vettorializzare, composta dal nome della
categoria e dal testo della categoria.
Configurazione di Screaming Frog per l'uso di OpenAI per generare gli embeddings
Grazie a questo accorgimento, possiamo ottenere degli embeddings che
rappresentano dei testi molto precisi, e soprattutto confrontabili. Considerare
tutto il testo presente nel body sarebbe troppo dispersivo e poco preciso per
dei confronti sulla semantica.
> Dobbiamo usare dati puliti e confrontabili, se vogliamo ottenere il massimo da
> questi sistemi!
--------------------------------------------------------------------------------
COME CALCOLIAMO LA SIMILARITÀ TRA GLI EMBEDDINGS?
Come calcoliamo la similarità? Questo è un tema importantissimo, perché fa parte
del processo necessario all'ottenimento di un output usabile a partire dagli
embeddings.
Il metodo più usato è la similarità del coseno, che si basa sull’angolo tra due
vettori (angolo piccolo = vettori simili; angolo grande = similarità scarsa).
MA È SEMPRE LA SCELTA GIUSTA?
Secondo uno studio di Netflix, la risposta è NO.
Piccola parentesi: perché Netflix fa uno studio sulla similarità tra embeddings?
Perché anche queste piattaforme usano tecnologie di questo tipo per l'analisi
dei contenuti che propone agli utenti.
Può non essere sempre la scelta giusta perché la similarità del coseno, come
visto in precedenza, considera l’angolo, ma non della lunghezza dei vettori (la
cosiddetta magnitude). E se usiamo embeddings in cui la magnitude è un elemento
utile alla rappresentazione del testo, non stiamo effettuando un confronto
corretto.
Is Cosine-Similarity of Embeddings Really About Similarity?
Cosine-similarity is the cosine of the angle between two vectors, or
equivalently the dot product between their normalizations. A popular application
is to quantify semantic similarity between high-dimensional objects by applying
cosine-similarity to a learned low-dimensional feature embedding. This can work
better but sometimes also worse than the unnormalized dot-product between
embedded vectors in practice. To gain insight into this empirical observation,
we study embeddings derived from regularized linear models, where closed-form
solutions facilitate analytical insights. We derive analytically how
cosine-similarity can yield arbitrary and therefore meaningless `similarities.′
For some linear models the similarities are not even unique, while for others
they are implicitly controlled by the regularization. We discuss implications
beyond linear models: a combination of different regularizations are employed
when learning deep models; these have implicit and unintended effects when
taking cosine-similarities of the resulting embeddings, rendering results opaque
and possibly arbitrary. Based on these insights, we caution against blindly
using cosine-similarity and outline alternatives.
arXiv.orgHarald Steck
FACCIAMO UN TEST
Proviamo a usare gli embeddings di uno degli esempi precedenti per confrontare
il calcolo della similarità effettuato con diversi metodi: similarità del
coseno, prodotto scalare, similarità di Jaccard, distanza euclidea, distanza di
Manhattan.
Un esempio di calcolo di similarità con diversi metodi
In base ai risultati del test, usando gli embeddings generati con i modelli di
OpenAI, la similarità del coseno è effettivamente il metodo migliore.
Ma il test mette in evidenza un aspetto interessante: come si vede, infatti, gli
indici di similarità del coseno e del prodotto scalare sono identici. Eppure
sono determinati da calcoli diversi: il prodotto scalare tiene conto anche della
lunghezza dei vettori, mentre, come visto in precedenza, la similarità del
coseno no.
Calcoli di similarità tra embeddings con metodi diversi
Quindi perché otteniamo risultati identici? Non è magia, e la spiegazione la
troviamo nella documentazione degli embeddings di OpenAI.
Molto semplicemente, gli embeddings di OpenAI sono normalizzati alla lunghezza
"1". Questo fa sì che usando la similarità del coseno, il prodotto scalare, o
anche la distanza euclidea, otterremo sempre lo stesso ranking di similarità.
Tutto questo per arrivare a una conclusione che mi sta particolarmente a cuore.
> Se vogliamo ottenere performance da questi sistemi, dobbiamo essere
> consapevoli della natura degli strumenti che stiamo utilizzando.. e per farlo
> ci sono 3 consigli: studiare, studiare, studiare.
--------------------------------------------------------------------------------
ADVANCED SEO TOOL
Il 30 ottobre ho raccontato questi concetti all'Advanced SEO Tool a Milano.
Quello che segue è il video completo dell'intervento.
Embeddings e SEO.. è QUASI magia - Advanced SEO Tool 2024
--------------------------------------------------------------------------------
- GRAZIE -
Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre
persone, condividilo 🙂
ISCRIVITI ALLA NEWSLETTER
Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su
tematiche relative all'intelligenza artificiale.
Iscriviti alla Newsletter
Email sent! Check your inbox to complete your signup.
Gratuita. No Spam. Puoi disiscriverti quando vuoi.Consulta la privacy policy.
Dopo il rilascio negli Stati Uniti di AI Overviews, il nuovo sistema integrato
alla ricerca di Google che compone le risposte attraverso l'AI generativa, ci
sono stati diversi commenti in cui gli utenti hanno mostrato errori e
informazioni non corrette.
Il post della BBC che segue, racconta i casi più noti.
Google AI search tells users to glue pizza and eat rocks
Google has defended the answers given by AI Overview, describing them as
“isolated examples”.
BBC News
Google, successivamente, ha pubblicato un articolo in cui spiega come funziona
il sistema e i motivi per i quali può commettere imprecisioni.
AI Overviews: About last week
Here’s what happened with AI Overviews, the feedback we’ve received, and the
steps we’ve taken.
GoogleLiz Reid
Il contenuto descrive concetti in modo chiaro e quasi scontato per chi conosce
il mondo dei modelli di linguaggio.
UNA BREVE SINTESI
AI Overviews, di fatto, è simile a un sistema RAG (Retrieval Augmented
Generation) che usa i risultati del motore di ricerca come contesto per
l'elaborazione del modello di linguaggio, il quale compone la risposta.
Secondo Google, quindi, parte del problema (risposte errate) deriva dal tipo di
contenuti estratti dalla ricerca: se le pagine degli utenti contengono
informazioni non corrette, anche la risposta del modello potrebbe non essere
corretta.
A questo aggiungiamo il fatto che il LLM spesso non è in grado di interpretare
situazioni in cui gli esseri umani usano forme di ironia e sarcasmo. E questo
porta a informazioni completamente fuori contesto.
In uno degli esempi, infatti, la query che ha scatenato l'errore è stata:
> "How many rocks should I eat?"
AI Overviews ha risposto sostenendo che i geologi raccomandano agli esseri umani
di mangiare una roccia al giorno. Questo deriva da una pagina in cui l'autore fa
questa affermazione con ironia, per poi spiegare il concetto nell'articolo.
Geologists Recommend Eating At Least One Small Rock Per Day - ResFrac
Corporation
Professor Zoback in The Onion
ResFrac Corporation - Hydraulic Fracturing and Reservoir Simulation
NON CI SIAMO!
Tutto si gioca su ciò che viene proposto all'utente. Finché si propone una
selezione di pagine coerenti alla query di ricerca (risultati di ricerca
classici), il problema non si pone, perché sarà l'utente a fare le sue
valutazioni consultando i risultati.
Ma se la proposta mira a dare una risposta alla domanda dell'utente distillando
i risultati del motore di ricerca, allora la risposta deve avere un senso.
Sempre. E deve rispettare determinati canoni.
Anche perché, ci sono sistemi che questo lo sanno fare meglio!
FACCIAMO LA STESSA DOMANDA SU CHATGPT?
Proviamo a fare la stessa richiesta su ChatGPT sfruttando la capacità di
navigazione online.
Un esempio di ricerca su ChatGPT
ChatGPT, come si vede nell'immagine, effettua la ricerca online, e tra le fonti
estrae anche lo stesso contenuto considerato da AI Overviews di Google. Vediamo,
quindi che tipo di risposta compone il sistema di OpenAI.
La risposta di ChatGPT alla stessa domanda posta su Google
Come si vede, la risposta di ChatGPT è più sensata. Non solo. Rileva
correttamente il senso dell'articolo che ha ingannato il modello di Google.
Forse qualcuno può pensare che il motivo sia il fatto che la pagina di ResFrac è
stata aggiornata recentemente riportando la vicenda. Allora ho fatto un
ulteriore test, riportando manualmente solo il contesto della pagina in cui
viene consigliato di mangiare una roccia la giorno.
Risposta di ChatGPT con un contesto riportato da ResFrac
Ancora una volta, ChatGPT risponde riconoscendo il tono con il quale è stato
scritto il contenuto.
COME SE LA CAVA CON LA PIZZA?
Vediamo un ulteriore test con l'altra ricerca che ha scatenato le critiche.
All'affermazione "cheese not sticking on pizza", AI Overviews ha consigliato di
usare la colla. Vediamo ChatGPT.
La risposta di ChatGPT alla richiesta sul formaggio sulla pizza
Risposte sensate e bilanciate, usando contenuti disponibili online.
L'EQUILIBRIO DELL'IBRIDO (MOTORE DI RICERCA + LLM)
Google è senza dubbio il miglior motore di ricerca per la capacità di estrazione
di contenuti coerenti alle query e di integrazione delle informazioni, ma questo
non basta per generare risposte di valore (e non dannose) per gli utenti.
> L'AI generativa di OpenAI è migliore? Si tratta di lacune della configurazione
> del comportamento dell'agente che genera le risposte su AI Overviews?
Nel post di Google questi esempi vengono descritti come casi isolati in cui la
query non è mai stata eseguita nel motore di ricerca. Questo è assolutamente
probabile, ma non può essere correlato al fatto di dare una risposta dannosa. Il
problema è nel modello o nel suo utilizzo nel sistema.
> Il titolo di questo post è una provocazione.. ma osservando gli output, quali
> sono le migliori risposte?
CONCLUSIONE
La mia riflessione non è orientata a consigliare l'utilizzo di ChatGPT + web
search come motore di ricerca. Anzi, metto in guardia le persone in tutti i
corsi ai quali partecipo su questo tipo di azione. Ma se si vuole aggiungere una
funzionalità in grado di dare risposte agli utenti basate su fonti online, il
modello deve essere in grado di farlo in maniera corretta, con delle linee guida
rigide e dei "guardrails" opportuni.
Concludo con una nota di Giorgio Taverniti, emersa riflettendo su queste
tematiche.
> Il problema si trova alla base della progettazione dell'interfaccia: se
> qualcosa è pensato per la massa, deve rispettare l'aspettativa del prodotto e
> non ingannare l'utente.
>
> Inserire l'AI Generativa in una chat, è fuorviante, ma è anche il modo
> migliore di farlo. Una piccola nota in grigio non risolverà il problema.
> Le Big Tech dovranno trovare una soluzione. Questi sistemi, attualmente, non
> contemplano la verifica dei fatti o, ancora più difficile, della "verità".
> Quindi mi aspetto che si lavorerà anche in questa direzione, per quanto sia
> davvero difficile.
>
> Sono contento che ChatGPT sia arrivato a questo livello. È davvero
> incredibile.
--------------------------------------------------------------------------------
- GRAZIE -
Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre
persone, condividilo 🙂
ISCRIVITI ALLA NEWSLETTER
Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su
tematiche relative all'intelligenza artificiale.
Iscriviti alla Newsletter
Email sent! Check your inbox to complete your signup.
Gratuita. No Spam. Puoi disiscriverti quando vuoi.Consulta la privacy policy.
Ieri sera abbiamo seguito il tanto atteso Google I/O, e come annunciato, sono
state presentate tutte le novità che ruotano attorno all'intelligenza
artificiale, in quella che Sundar Pichai ha definito "The Gemini Era".. un'era
sempre più multimodale, e sempre più "long context", che mantiene Gemini 1.5 Pro
come flagship model.
L'evento è stato una lunga carrellata (quasi stordente) di applicazioni
rivoluzionarie in cui emerge, ancora una volta, la vera forza di Google:
l'integrazione dell'AI generativa in ogni elemento del suo vasto ecosistema.
Google I/O 2024: la live completa
--------------------------------------------------------------------------------
I 10 ESEMPI CHIAVE
Quella che segue è la mia selezione dei 10 esempi più significativi presentati
durante l'evento.
1) VEO, IL MODELLO DEDICATO ALLA GENERAZIONE VIDEO
Un potente modello text-to-video che, nella visione di Google, consentirà ai
registi di creare riprese cinematografiche attraverso prompt testuali.
Può generare video di alta qualità con risoluzione 1080p che possono superare il
minuto di durata, con un'ampia gamma di stili cinematografici e visivi.
Esempi di video generati con Veo - Google DeepMind
Il modello sarà disponibile su VideoFX e la proiezione futura lo vede integrato
anche su YouTube per la creazione di shorts.
La pagina che segue è l'approfondimento nel sito web di Google DeepMind.
Veo
Veo is our most capable video generation model to date. It generates
high-quality, 1080p resolution videos that can go beyond a minute, in a wide
range of cinematic and visual styles.
Google DeepMind
--------------------------------------------------------------------------------
2) L'INTEGRAZIONE NATIVA DELL'AI NELLA RICERCA
Google sta trasformando radicalmente l'esperienza di ricerca, integrando
tecnologie avanzate di AI per semplificare e arricchire l'interazione degli
utenti con il web, rendendo la ricerca più intuitiva e adattata alle esigenze
personali.
L'evoluzione della ricerca online
Le nuove funzionalità consentiranno di formulare domande complesse in una sola
ricerca, integrando capacità di ragionamento a più step e pianificazione.
Sarà possibile personalizzare l'esperienza per semplificare il linguaggio o
dettagliarlo maggiormente. Utile per chi si avvicina a nuovi argomenti o per
spiegazioni a un pubblico giovane.
Attraverso le nuove capacità di pianificazione direttamente nella ricerca,
Google mira ad aiutare gli utenti a creare programmi (es. per dieta e vacanze),
con possibilità di customizzazione.
Verrà introdotto un nuovo formato di pagina dei risultati organizzata dall'AI,
con l'obiettivo di facilitare l'esplorazione di idee con titoli e box generati
che categorizzano i contenuti in modo innovativo.
Sarà possibile effettuare ricerche basate su video, ampliando ulteriormente le
capacità di search visuale.
L'approfondimento nel blog di Google.
Generative AI in Search: Let Google do the searching for you
We’re bringing AI Overviews to everyone in the U.S. and adding new gen AI
experiences to take more of the legwork out of searching.
GoogleLiz Reid
--------------------------------------------------------------------------------
3) PROJECT ASTRA: IL FUTURO DEGLI AI ASSISTANT
Un progetto dedicato alla creazione di agenti AI universali che possono
interagire in modo naturale e immediato, comprendendo e rispondendo al contesto
dinamico del mondo reale.
Project Astra - Google DeepMind
Non permette soltanto l'interazione con l'acquisizione della fotocamera in
real-time, ma addirittura di interagire con il video nello schermo, ad esempio
indicando gli elementi di interesse.
> Davvero emozionante l'utilizzo del sistema
> attraverso gli smart glasses e la voce.
Gli aggiornamenti recenti alla famiglia di modelli Gemini da parte di Google
indicano passi significativi verso sistemi più veloci, efficienti e capaci di
interazioni multimodali avanzate, spianando la strada per assistenti AI
futuristici e onnipresenti.
L'approfondimento nel blog di Google.
Gemini breaks new ground with a faster model, longer context, AI agents and more
We’re sharing updates across our Gemini family of models and a glimpse of
Project Astra, our vision for the future of AI assistants.
GoogleDemis Hassabis
--------------------------------------------------------------------------------
4) IMAGEN 3: IL NUOVO MODELLO TEXT-TO-IMAGE
Imagen 3 rappresenta un significativo avanzamento nella tecnologia di
generazione di immagini da input testuale, con migliorie sostanziali nella
qualità visiva, nella comprensione dei prompt e in termini di sicurezza,
promettendo una più ampia applicabilità e integrazione nei prodotti e servizi di
Google.
Imagen 3: il nuovo modello text-to-image
Il sistema si basa sulle ultime innovazioni di Google DeepMind per la sicurezza
e la responsabilità, includendo watermarking digitale, impercettibile all'occhio
umano ma rilevabile per l'identificazione.
Watermarking AI-generated text and video with SynthID
Announcing our novel watermarking method for AI-generated text and video, and
how we’re bringing SynthID to key Google products
Google DeepMind
Imagen 3 avrà presto le funzionalità della versione precedente, come inpainting
e outpainting, e verrà integrato nei prodotti Google come Gemini, Workspace e
Ads.
L'approfondimento dal sito web di Google DeepMind.
Imagen 3
Imagen 3 is our highest quality text-to-image model, capable of generating
images with even better detail, richer lighting and fewer distracting artifacts
than our previous models.
Google DeepMind
--------------------------------------------------------------------------------
5) GEMINI 1.5 PRO È ORA DISPONIBILE PER TUTTI
Disponibile per tutti e con un'espansione della finestra di contesto a 2 milioni
di token.
Gemini 1.5 Pro è ora disponibile per tutti
L'approfondimento nel blog di Google.
Get more done with Gemini: Try 1.5 Pro and more intelligent features
Gemini Advanced subscribers will get access to Gemini 1.5 Pro, a 1 million token
context window and more personalized features.
GoogleSissie Hsiao
--------------------------------------------------------------------------------
6) TRILLIUM: UNA NUOVA ARCHITETTURA DI TPU EFFICIENTE E PERFORMANTE
Il lancio delle TPU Trillium di sesta generazione segna un significativo
avanzamento nella tecnologia delle unità di elaborazione di Google, promettendo
notevoli miglioramenti nella velocità di training e nell'efficienza energetica,
essenziali per il futuro dello sviluppo di modelli di intelligenza artificiale
su larga scala.
Trillium: una nuova architettura di TPU efficiente e performante
Questa generazione di TPU raggiunge un impressionante aumento di 4,7 volte
rispetto alle prestazioni di calcolo di picco per chip della versione
precedente.
L'approfondimento nel blog di Google Cloud.
Introducing Trillium, sixth-generation TPUs | Google Cloud Blog
The new sixth-generation Trillium Tensor Processing Unit (TPU) makes it possible
to train and serve the next generation of AI foundation models.
Google Cloud
--------------------------------------------------------------------------------
7) GEMINI 1.5 FLASH
Un modello più leggero, ottimizzato per attività in cui diventano fondamentali
la bassa latenza e i costi.
Gemini 1.5 Flash
Gli sviluppatori possono utilizzarlo con una finestra di contesto di 1 milione
di token su Google AI Studio e Vertex AI.
Gemini Flash
Our lightweight model, optimized for when speed and efficiency matter most, with
a context window of up to one million tokens.
Google DeepMind
--------------------------------------------------------------------------------
8) GENERATIVE MUSIC CON MUSICFX
MusicFX consentirà di liberare il DJ nascosto in ognuno di noi, per creare nuovi
ritmi e composizioni.
Generative Music con MusicFX
Il sistema aiuta a mixare i ritmi combinando generi, strumenti e altro, per dare
vita a storie musicali. È un playground per ispirare la generazione di nuova
musica.
Un approfondimento nel blog di Google.
Introducing VideoFX, plus new features for ImageFX and MusicFX
Today we’re introducing VideoFX, plus new features for ImageFX and MusicFX that
are now available in 110 countries.
GoogleThomas Iljic
--------------------------------------------------------------------------------
9) GEMINI INTEGRATO SU GOOGLE SHEETS
Grazie a questa integrazione sarà possibile interagire con Gemini direttamente
all'interno di Google Sheets, per analizzare i dati nei fogli attraverso il
linguaggio naturale.
Gemini integrato su Google Sheets
La possibilità di organizzare gli allegati di Drive, generare un foglio e
analizzare i dati verrà implementata su Labs entro la fine dell'anno.
Collaborate with Gemini in Google Sheets (Workspace Labs) - Google Docs Editors
Help
With Gemini in Google Sheets, you can: Create tables. Create formulas. Summarize
your files from Drive and emails from Gmail. Feature availability Th
Google Docs Editors Help
--------------------------------------------------------------------------------
10) L'INTEGRAZIONE DI GEMINI ANCHE SU GMAIL, DOCS, CALENDAR
Gemini sarà inserito su Gmail, Docs e Calendar. Gli strumenti funzionano già
bene insieme, ma l'integrazione renderà ancora più semplici le operazioni tra le
applicazioni. Ad esempio sarà possibile riconoscere determinate mail,
organizzandole su Drive e Sheets.
L'integrazione di Gemini anche con Gmail, Docs, Calendar
--------------------------------------------------------------------------------
CONSIDERAZIONI FINALI
Le applicazioni presentate sono assolutamente straordinarie, e vanno oltre ai 10
punti condivisi. Si è parlato, infatti, anche di:
* LearnLM, una famiglia di modelli ottimizzati per l'apprendimento;
* Intelligenza Artificiale responsabile;
* Ask Photos, un nuovo modo per cercare le tue foto con Gemini;
* Android, con un'integrazione di Gemini Nano sui device;
* Vertex AI, con i nuovi modelli integrati e disponibili;
* Gemma, con i nuovi modelli PaliGemma (un VLM) e Gemma 2.
I/O 2024
Here’s a look at everything we announced at Google I/O 2024.
blog.googleThomas Iljic
Tuttavia ho trovato qualche sintomo di frammentazione nell'azione di Google, con
una miriade di progetti basati sull'AI senza dare un riferimento chiaro
all'utente. Chi ha seguito le due ore di diretta, di certo è rimasto
disorientato.. o almeno per me la sensazione è stata questa.
> Useremo Astra, Assistant, SGE o Gemini per una ricerca multimodale? Continuo a
> ripetere che manca davvero un unico assistente centrale per tutto
> l'ecosistema.
Infine, dopo aver visto la naturalezza dell'interazione messa in atto da OpenAI
durante lo Spring Update, per quanto innovativo sia il progetto Astra, rimane
difficile affrontare un altro assistente.
GPT-4o: il più performante, multimodale, e.. gratuito!?
3 riflessioni sulle novità presentate da OpenAI durante lo Spring Update
Alessio PomaroAlessio Pomaro
--------------------------------------------------------------------------------
- GRAZIE -
Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre
persone, condividilo 🙂
ISCRIVITI ALLA NEWSLETTER
Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su
tematiche relative all'intelligenza artificiale.
Iscriviti alla Newsletter
Email sent! Check your inbox to complete your signup.
Gratuita. No Spam. Puoi disiscriverti quando vuoi.Consulta la privacy policy.