> Immagino che tutti abbiamo provato, almeno una volta nella vita, a preparare i
> popcorn.
Si mette il mais in una padella rovente e si aspetta; all’inizio non accade
nulla, sembra un processo lento. Successivamente, qualche chicco inizia a
scoppiare, e improvvisamente scoppiano insieme tutti gli altri.
Io credo che, per quanto riguarda lo sviluppo e l’integrazione dell’intelligenza
artificiale, oggi siamo proprio in quel momento: abbiamo il mais nella padella
rovente e stiamo iniziando a sentire scoppiare i primi chicchi.
L'inizio di una trasformazione esponenziale - WMF 2025
> Per dirlo senza metafore, credo che siamo all'inizio di una trasformazione
> esponenziale.. non semplicemente veloce: esponenziale.
E iniziamo a percepire qualche segnale.
Oggi, ad esempio, è possibile usare l’AI per comprendere i complessi paper alla
base dell’AI stessa. Ilya Sutskever (co-founder di OpenAI) ha recentemente
pubblicato una selezione dei migliori studi scientifici che riguardano
l'Intelligenza Artificiale e il Machine Learning, e ho usato NotebookLM di
Google per trasformarli in un corso organizzato in lezioni, che permette di
apprendere tutto molto più velocemente.
Vai al Notebook
Gli strumenti migliorano, e accelerano la loro stessa evoluzione, aiutando le
persone ad apprendere e creare nuove conoscenze sempre più rapidamente.
ALPHAEVOLVE: L’AI CHE MIGLIORA L’AI
Un altro segnale importante è rappresentato da AlphaEvolve di Google DeepMind:
un progetto che usa un LLM (Gemini) per scrivere e migliorare codice
autonomamente.
AlphaEvolve: A Gemini-powered coding agent for designing advanced algorithms
New AI agent evolves algorithms for math and practical applications in computing
by combining the creativity of large language models with automated evaluators
Google DeepMindAlphaEvolve team
Nulla di nuovo, giusto? Ormai siamo saturi di modelli dedicati al coding. Ma
andiamo a capire meglio cosa significa.
* Ottimizzazione delle risorse. Ha permesso di recuperare in media lo 0,7%
delle risorse computazionali nei data center Google grazie a nuove euristiche
di scheduling.
* Accelerazione del training dei modelli. L’ottimizzazione dei kernel ha
portato fino al 23% di speedup e una riduzione dell'1% nei tempi di training
dei modelli Gemini.
* Scoperta di nuovi algoritmi. Ha migliorato algoritmi matematici come la
moltiplicazione di matrici 4×4 con 48 moltiplicazioni (il primo miglioramento
dopo 56 anni).
* Ottimizzazione del codice. Ha ottenuto un 32% di speedup nei kernel
FlashAttention e un 15% nei processi di pre/post-processing dei Transformer.
* Ricerca scientifica autonoma. Ha superato lo stato dell’arte nel 20% dei
problemi matematici affrontati, scoprendo nuove costruzioni ottimali
* Semplificazione dell'hardware. Modifiche ai circuiti delle TPU hanno permesso
una riduzione di area e consumi, con soluzioni validate dai progettisti
hardware.
> Chip migliori = modelli più potenti e veloci = chip ancora migliori = modelli
> sempre più potenti = ...
Un chiaro segnale dell’inizio di un momento esponenziale.
--------------------------------------------------------------------------------
INTELLIGENZA E AZIONE
Andiamo ad esplorare la trasformazione che stiamo vivendo attraverso due macro
aree: intelligenza, e azione.
INTELLIGENZA
Oggi l’AI supera già le capacità umane in molti compiti specifici, come il gioco
strategico, la ricerca scientifica, la diagnosi medica, le traduzioni.. e molto
altro.
QUALCHE ESEMPIO?
1) La nuova versione multimodale del sistema di AI diagnostica di Google (AMIE)
ha superato i medici di base su 29 delle 32 caratteristiche cliniche valutate da
specialisti e su 7 delle 9 scale dedicate alla gestione dei dati visivi (come
foto della pelle, ECG e documenti clinici), dimostrando capacità superiori anche
in empatia e accuratezza diagnostica secondo attori-pazienti e medici
specialisti.
AMIE gains vision: A research AI agent for multimodal diagnostic dialogue
2) Un sistema di AI sviluppato da MIT e Harvard ha scoperto una nuova classe di
antibiotici attivi contro batteri resistenti e selettivi per le cellule umane,
dimostrando efficacia in modelli animali e superando i metodi tradizionali
grazie a spiegazioni chimiche interpretabili — una conferma che l’apprendimento
profondo spiegabile può rivoluzionare la scoperta di farmaci, identificando una
delle poche nuove classi di antibiotici emerse negli ultimi 60 anni.
Discovery of a structural class of antibiotics with explainable deep learning -
Nature
An explainable deep learning model using a chemical substructure-based approach
for the exploration of chemical compound libraries identified structural classes
of compounds with antibiotic activity and low toxicity.
NatureFelix Wong
3) Il sistema AlphaDev di DeepMind ha scoperto nuovi algoritmi di ordinamento
che superano gli standard umani in efficienza, portando all’integrazione di
queste soluzioni nella libreria C++ standard di LLVM per la prima volta in oltre
un decennio.
Faster sorting algorithms discovered using deep reinforcement learning - Nature
Artificial intelligence goes beyond the current state of the art by
discovering unknown, faster sorting algorithms as a single-player game using a
deep reinforcement learning agent. These algorithms are now used in the standard
C++ sort library.
NatureDaniel J. Mankowitz
CONVERSAZIONE E RAGIONAMENTO
La macchina oggi è già in grado di conversare in modo indistinguibile dagli
esseri umani, e di produrre dei ragionamenti.
Un recente paper mostra come GPT-4.5 di OpenAI ha superato il Test di Touring
(per quanto possa essere ancora considerato interessante): chi ha fatto il test
era più propenso a credere che il modello fosse umano, rispetto agli altri
partecipanti umani.
Large Language Models Pass the Turing Test
We evaluated 4 systems (ELIZA, GPT-4o, LLaMa-3.1-405B, and GPT-4.5) in two
randomised, controlled, and pre-registered Turing tests on independent
populations. Participants had 5 minute conversations simultaneously with another
human participant and one of these systems before judging which conversational
partner they thought was human. When prompted to adopt a humanlike persona,
GPT-4.5 was judged to be the human 73% of the time: significantly more often
than interrogators selected the real human participant. LLaMa-3.1, with the same
prompt, was judged to be the human 56% of the time -- not significantly more or
less often than the humans they were being compared to -- while baseline models
(ELIZA and GPT-4o) achieved win rates significantly below chance (23% and 21%
respectively). The results constitute the first empirical evidence that any
artificial system passes a standard three-party Turing test. The results have
implications for debates about what kind of intelligence is exhibited by Large
Language Models (LLMs), and the social and economic impacts these systems are
likely to have.
arXiv.orgCameron R. Jones
--------------------------------------------------------------------------------
PAPPAGALLI STOCASTICI?
Dal 2021, grazie a un noto paper dal titolo "On the Dangers of Stochastic
Parrots: Can Language Models Be Too Big?", continuiamo a ripeterci che i Large
Language Model sono dei "semplici" pappagalli stocastici, che non comprendono né
ragionano, ma semplicemente riaggregano sequenze statisticamente probabili di
parole basate su dati di addestramento.
Paper molto più recenti, però, dimostrano che non si limitano a "rigurgitare"
informazioni apprese durante il training, ma possono formulare inferenze
predittive originali.
Large language models surpass human experts in predicting neuroscience results -
Nature Human Behaviour
Large language models (LLMs) can synthesize vast amounts of information. Luo et
al. show that LLMs—especially BrainGPT, an LLM the authors tuned on the
neuroscience literature—outperform experts in predicting neuroscience results
and could assist scientists in making future discoveries.
NatureXiaoliang Luo
Per non parlare dei progressi ottenuti dalle moderne tecniche di "reasoning",
che hanno portato a enormi progressi nei test psicometrici (che vengono usati
per capire le capacità cognitive dei modelli), anche se rimangono aperte molte
sfide.
VERSO UN'INTELLIGENZA ARTIFICIALE GENERALE (AGI)
Il lavoro che i leader tecnologici stanno facendo sui loro modelli, ad esempio
Google DeepMind con Gemini, è orientato a fare passi in avanti verso la
cosiddetta AGI (Artificial General Intelligence). Un’AI in grado di superare le
capacità dell'essere umano non solo su compiti specifici, ma su diversi piani:
su tutti i compiti che normalmente svolgiamo.
Basteranno le tecnologie odierne per raggiungere questi obiettivi? Yann LeCun
(Meta), ad esempio, pensa che serviranno ulteriori sviluppi e architetture.. e,
a questo proposito, ha recentemente presentato V-JEPA 2: un modello che impara a
comprendere e prevedere il mondo costruendo rappresentazioni astratte, invece di
limitarsi a prevedere parole o pixel.
Introducing V-JEPA 2
Video Joint Embedding Predictive Architecture 2 (V-JEPA 2) is the first world
model trained on video that achieves state-of-the-art visual understanding and
prediction, enabling zero-shot robot control in new environments.
Ma anche Google DeepMind sta lavorando su questi concetti. Infatti, un
recentissimo paper di Silver e Sutton si intitola proprio “Welcome to the Era of
Experience”, che delinea il raggiungimento di AGI allo stesso modo: un’AI che
apprenderà dall’esperienza diretta.. in uno stream continuo di dati reali o
simulati, e non da episodi brevi e scollegati (token e pixel).
Vai al paper
--------------------------------------------------------------------------------
AZIONE
Per “azione”, mi riferisco ai concetti di Agentic AI e Physical AI.
Gli Agents sono infrastrutture che consentono alle applicazioni basate su
modelli AI di interagire con sistemi esterni, attraverso API dedicate e nuovi
protocolli come MCP (Model Context Protocol), e di compiere azioni.
> E ormai, esistono server MCP per connettere agenti a qualunque applicazione
> esterna.
GitHub - modelcontextprotocol/servers: Model Context Protocol Servers
Model Context Protocol Servers. Contribute to modelcontextprotocol/servers
development by creating an account on GitHub.
GitHubmodelcontextprotocol
Visa sta addirittura sviluppando Intelligent Commerce, che permetterà agli
agenti di acquistare direttamente per conto nostro.
Visa - Intelligent Commerce
> Nel prossimo futuro, l'AI diventerà sempre di più un mediatore non solo delle
> nostre scelte, ma anche delle nostre azioni.
--------------------------------------------------------------------------------
PHYSICAL AI
> E se i modelli di AI potessero produrre come output non solo testo o chiamate
> API, ma anche azioni fisiche?
Questi robot sono controllati da Gemini Robotics: una versione evoluta del
modello Gemini, lo stesso che usiamo nella chat di Google. Ma invece di
restituire solo risposte testuali, interpreta immagini e istruzioni e le
trasforma direttamente in azioni nel mondo reale: afferrare oggetti, piegare
carta, versare liquidi.
Gemini Robotics: azioni robotiche guidate da istruzioni vocali
> È questo che intendiamo per Physical AI: l’intelligenza artificiale che non
> solo "pensa", ma agisce nel mondo fisico.
Questo è un altro esempio, un robot umanoide di Boston Dynamics, che si muove
nello spazio e svolge mansioni autonomamente.
Un robot umanoide autonomo di Boston Dynamics
Robot che possono essere addestrati direttamente mostrando loro le mansioni da
svolgere. Questo è Gr00t N1 di Nvidia, un sistema che parte dalla dimostrazione
di azioni svolte da un essere umano, usa un ambiente virtuale di simulazione per
produrre enormi quantità di dati sintetici, con i quali viene addestrato il
robot, che sarà poi in grado di agire autonomamente.
Gr00t N1 di Nvidia
--------------------------------------------------------------------------------
Due anni fa si diffuse online questa immagine..
Hey ChatGPT, finish this building...
> Oggi, probabilmente, ci fa ancora sorridere, ma non sembra più uno scenario
> così lontano e improbabile.
--------------------------------------------------------------------------------
UN MOMENTO "POPCORN"
Forse, dopo questo piccolo percorso, è un po' più chiaro perché dicevo che siamo
in un “momento popcorn”.. ovvero in un inizio di trasformazione esponenziale.
Il grande tema è che dobbiamo agire prima possibile per poterlo gestire al
meglio.
> Perché se non mettiamo il coperchio alla padella appena buttiamo il mais,
> presto ci ritroveremo con la cucina che sarà un completo disastro.
COME GESTIRE LA TRASFORMAZIONE
Quali sono gli "ingredienti" della "ricetta" che ci permetterà di gestire la
trasformazione che stiamo vivendo? Ho provato a sintetizzarli, suddividendoli
per "attori coinvolti".
1) LE PERSONE: OGNUNO DI NOI
* Dobbiamo diventare consapevoli prima possibile di questa trasformazione.
Come? Usando la tecnologia (ormai abbiamo mille possibilità di farlo), per
comprenderne il potenziale.
* Dobbiamo alzare l’asticella della dinamicità in ambito lavorativo, perché
quello che ci viene richiesto oggi è un continuo sviluppo di nuove
competenze: legate all’AI, ma anche complementari.
> Le soft skill diventano sempre più hard.
2) LE AZIENDE
* Oggi sentiamo parlare dell'adozione di strategie “AI-first”.. con
affermazioni forti da parte di importanti aziende tecnologiche. Che
successivamente fanno marcia indietro, per poi provare ad accelerare
nuovamente: è chiaro che siamo in un momento di transizione..
* ..e in un momento di transizione, diventano fondamentali percorsi di
re-skilling e up-skilling strategici, per facilitare la dinamicità che viene
richiesta alle persone, e una pianificazione accurata per evitare il rischio
di effettuare scelte troppo brusche che possono diventare dannose nel lungo
periodo.
3) LE ISTITUZIONI
Dovranno mettere l’ingrediente della governance, attraverso:
* politiche e strategie per preparare la società a un mondo che sarà diverso, e
non solo in ambito lavorativo;
* la gestione dello sviluppo tecnologico, per regolarne l’integrazione nella
società in modo che sia sostenibile.
4) I LEADER TECNOLOGICI
Dovranno lavorare sulla trasparenza e l’interpretabilità per i modelli che
sviluppano, in modo da renderli usabili in ogni settore, eliminando o riducendo
le "zone grigie" che caratterizzano queste tecnologie.
Tutti i leader stanno lavorando a questo ingrediente, e Dario Amodei, CEO di
Anthropic ne parla in un post molto interessante.
Dario Amodei — The Urgency of Interpretability
Inoltre, Anthropic ha anche condiviso recentemente uno strumento open source che
traccia i circuiti interni dei LLM per individuare il processo che determina
l’output.
Open-sourcing circuit-tracing tools
Anthropic is an AI safety and research company that’s working to build reliable,
interpretable, and steerable AI systems.
--------------------------------------------------------------------------------
> Questa è la ricetta.. e ci fa capire un concetto importante.. ovvero che il
> cambiamento è, e rimarrà sempre, un’impresa comune.
Come gestire la trasformazione: la ricetta
--------------------------------------------------------------------------------
LA SCELTA È NOSTRA
Il progresso tecnologico non si fermerà, e il nostro mais, nella padella
rovente, scoppierà.
> Sta a noi, collettivamente, attraverso delle scelte consapevoli, far sì che
> possiamo gustarci i popcorn serenamente sul divano.. invece di dover passare
> tutta la serata a ripulire la cucina.
- GRAZIE -
Se hai apprezzato il contenuto, puoi
contribuire al progetto con una donazione 🙂
ISCRIVITI ALLA NEWSLETTER
Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su
tematiche relative all'intelligenza artificiale.
Iscriviti alla Newsletter
Email sent! Check your inbox to complete your signup.
Gratuita. No Spam. Puoi disiscriverti quando vuoi.
Consulta la privacy policy.
Tag - Gemini
> Buon aggiornamento, e buone riflessioni..
--------------------------------------------------------------------------------
TEDX BERGAMO: POTERE
Il 25 maggio avrò l'onore di essere sul palco di TEDx Bergamo 2025, e il tema
centrale sarà "POTERE".
> "POTERE" è la capacità di generare cambiamento. Attraverso l’AI, possiamo
> affrontare sfide globali e aprire strade inedite. Ma c’è un potere ancora più
> intimo e umano: quello di comprendere la trasformazione per decidere come
> viverla e in quale direzione guidarla.
> - Alessio Pomaro
Vai ai Biglietti
--------------------------------------------------------------------------------
WELCOME TO THE ERA OF EXPERIENCE
Un paper (da leggere) in cui i ricercatori di Google DeepMind invitano a
ripensare l'AI:
> non come una copia dell’intelligenza umana, ma come un sistema autonomo che
> impara, pianifica e agisce nel mondo reale.
L'era dell'esperienza permetterà di superare i limiti dell’imitazione e
raggiungere capacità realmente superumane?
Secondo Silver e Sutton, la dipendenza dai dati umani (supervisionati o
preferenziali) sta mostrando i suoi limiti. L’AI ha bisogno di nuovi stimoli,
non più statici, ma dinamici, generati attraverso l’interazione continua con
ambienti reali o simulati.
Gli agenti del futuro non vivranno più in episodi brevi e scollegati, ma in
"stream" di esperienza continua, adattandosi nel tempo e perseguendo obiettivi
di lungo termine. Le ricompense non arriveranno da valutazioni umane, ma da
segnali concreti e misurabili dell’ambiente: salute, apprendimento, scoperta
scientifica.
Non si tratta solo di efficienza, ma di visione. Uscire dal recinto del pensiero
umano, imparare dal mondo, e scoprire strategie o conoscenze che ancora non
esistono.
Vai al paper
> Un salto evolutivo, non solo tecnologico.
--------------------------------------------------------------------------------
LA SPIEGABILITÀ DEI MODELLI DI AI
Com'è noto, Anthropic sta facendo un grande lavoro sulla spiegabilità dei
modelli di AI, condividendo paper e promuovendo delle riflessioni fondamentali.
Il post pubblicato da Dario Amodei richiama con urgenza l'importanza di capire
il funzionamento interno dei modelli prima che diventino troppo potenti. Un
invito ad agire per chiunque lavori sull'AI o abbia a cuore il futuro della
tecnologia, toccando anche argomenti delicati che riguardano la geopolitica ("I
believe that democratic countries must remain ahead of autocracies in AI").
Anche se sembra una mossa ovvia da parte di chi possiede più esperienza di tutti
in quest'ambito (e non possiede il modello più potente), ritengo sia un
documento molto interessante per avere consapevolezza sull'argomento.
Ho provato a sintetizzare i punti principali.
* Amodei racconta come, in dieci anni di lavoro sull'AI, il settore sia passato
da un ambito accademico a una delle questioni più decisive per il futuro
dell'umanità. Anche se l’avanzamento è inarrestabile, possiamo influenzarne
la direzione. Oggi, la vera sfida è l'interpretabilità: capire come
funzionano internamente i sistemi prima che diventino troppo ampi per essere
controllati.
* L'AI generativa prende decisioni che non sappiamo spiegare: a differenza del
software tradizionale, i suoi meccanismi interni emergono spontaneamente,
rendendo difficile prevedere o correggere i comportamenti indesiderati.
* Questa opacità alimenta rischi concreti, come comportamenti ingannevoli o usi
pericolosi. Inoltre, senza spiegazioni comprensibili, l'AI non può essere
applicata in settori critici come finanza o medicina. Se riuscissimo a
"guardare dentro" ai modelli, potremmo prevenire errori e abusi.
* Negli ultimi anni è nata l'interpretabilità meccanicistica, grazie a pionieri
come Chris Olah. Dai primi studi sui modelli visivi si è passati a quelli
linguistici, scoprendo milioni di concetti nascosti, anche se sovrapposti e
complessi. Tecniche come gli autoencoder sparsi stanno aiutando a mappare e
manipolare questi concetti, rendendo visibili anche i "ragionamenti"
attraverso circuiti interni.
* Nonostante i progressi, resta la sfida pratica: applicare l'interpretabilità
per individuare e correggere "difetti" reali nei modelli. Esperimenti interni
mostrano che è possibile.
* Amodei conclude affermando che siamo in una corsa tra l'avanzamento dell'AI e
la nostra capacità di interpretarla. Per vincere, serve: investire nella
ricerca, promuovere la trasparenza, adottare misure geopolitiche.
Vai al post
> Capire i nostri modelli prima che trasformino il mondo è una responsabilità
> che non possiamo rimandare.
--------------------------------------------------------------------------------
AGENTIC AI: UN WEBINAR DI STANFORD
Stanford ha pubblicato un'interessante lezione che riepiloga il funzionamento
dei LLM e arriva fino agli AI Agent.
Agentic AI: un webinar di Stanford
I punti salienti..
* LLM Base: modelli che predicono i token successivi. Addestrati su enormi
testi (pre-training), poi affinati (fine-tuning con SFT/RLHF) per seguire
istruzioni e preferenze umane.
* Limiti dei LLM: possono "allucinare" (dare informazioni errate), hanno
conoscenza limitata nel tempo (knowledge cutoff), non citano fonti, non
accedono a dati privati/real-time e hanno un contesto limitato.
* RAG: fornisce contesto esterno rilevante (da documenti/DB) al LLM per
risposte più accurate e aggiornate.
* Tool Usage: permette ai LLM di usare API esterne o eseguire codice per
accedere a dati real-time o fare calcoli.
* Agentic AI: l'evoluzione dei LLM. Non solo testo, ma sistemi che: ragionano e
pianificano (scompongono compiti), agiscono (usano RAG e Tools per interagire
con l'ambiente), osservano (ricevono feedback dalle loro azioni) iterano (si
adattano in un ciclo azione-osservazione-pianificazione).
* Pattern Agentici, per costruire agenti efficaci: pianificazione, riflessione
(auto-correzione), utilizzo di strumenti e collaborazione multi-agente (più
agenti specializzati).
> In breve, l'Agentic AI combina il ragionamento dei LLM con l'azione nel mondo
> esterno, permettendo di affrontare compiti molto più complessi e interattivi.
--------------------------------------------------------------------------------
"STOP & THINK" DI ANTHROPIC SU UN AGENT DI OPENAI CON O3
In questo esempio ho implementato la dinamica di "Stop & Think" definita da
Anthropic su un Agent di OpenAI, basato su o3.
In pratica, il sistema è configurato per eseguire un task estraendo i dati
necessari attraverso "function calling". Una volta ottenuti i dati, prima di
restituire l'output, usa una funzione di "reasoning", la quale sfrutta il
modello per mettere in atto delle catene di pensiero che verificano i dati,
creano il miglior piano d'azione per procedere, e controllano la conformità in
base alle richieste. Se è tutto conforme, procede con l'output, altrimenti
ripete le operazioni, finché il controllo sarà positivo (o fino al
raggiungimento del numero massimo delle interazioni consentite).
Una dinamica davvero interessante per migliorare la qualità dell'output.
"Stop & Think" di Anthropic su un Agent di OpenAI con o3
> Il porting del codice di Anthropic per usare i modelli di OpenAI sul mio
> esempio è stato generato interamente con Gemini 2.5 Pro. Il modello ha
> prodotto tutto il codice partendo dall'esempio fornito da Anthropic + il
> prompt che usavo in precedenza nel mio progetto, che eseguiva l'operazione in
> un'unica azione.
--------------------------------------------------------------------------------
OPENAI ACADEMY
OpenAI ha lanciato ufficialmente l'AI Academy: una piattaforma formativa
gratuita pensata per chi vuole portare l’AI dal laboratorio alla realtà
operativa.
OpenAI Academy
I contenuti sono pensati per l’uso pratico: automazioni, agenti AI, pipeline con
GraphRAG, Q&A su documenti, integrazioni reali con diversi modelli.
Vai all'Academy
TRA I PUNTI FORTI
* Live coding sessions
* Prompt engineering, fine-tuning, RAG, multimodalità
* Esempi di codice commentato per API, automazioni e gestione dati
* Percorsi ideali per chi è agli inizi o ha esperienza intermedia
--------------------------------------------------------------------------------
LE NOVITÀ DI NOTEBOOKLM DI GOOGLE
Google introduce due novità molto interessanti su NotebookLM.
1) RICERCA ONLINE
Ora è possibile descrivere un argomento e ottenere una selezione di fonti
rilevanti dal web, già riassunte dall'IA e integrabili con un clic al notebook.
La ricerca online su NotebookLM di Google
La nuova funzione "Carica Origini", alimentata da Gemini, permette di
approfondire rapidamente qualsiasi tema e integrarlo con strumenti come
briefing, FAQ e Audio Overviews.
Ho provato lo strumento, e credo sia una funzionalità fantastica per esplorare
gli argomenti. Ho inserito il topic, selezionato le fonti tra quelle suggerite,
fatto richieste, generato note, creato un podcast interattivo.
Vai al post
> Ho detto spesso che l'integrazione dell'AI nel suo ecosistema è la vera forza
> di Google. Verissimo, ma ora hanno anche il modello più performante.
2) AUDIO OVERVIEWS ANCHE IN ITALIANO
Audio Overviews diventa disponibile in più di 50 lingue.
L'italiano è tra queste, e l'ho provato su un notebook che ha come fonte
l'ultimo post di Dario Amodei sull'importanza dell'interpretabilità dell'AI.
Il prompt che ho usato è specifico, indicando l'ambito sul quale concentrarsi
maggiormente.
Audio Overviews in italiano: un test
> Il risultato? Per me è incredibile. Una risorsa davvero interessante.
> Immaginiamo solo la potenzialità per l'aggiornamento personale nelle
> connessioni dei concetti su larga scala.
--------------------------------------------------------------------------------
NON PUÒ ESISTERE LA FIGURA DEL PROMPT ENGINEER
Il WSJ ha condiviso dei dati su un concetto che ho sempre sostenuto: non può
esistere la figura del "prompt engineer". E non si tratta di obsolescenza di una
professione, ma di consapevolezza di un miraggio.
Il WSJ sulla figura del prompt engineer
La motivazione che danno nell'articolo, però, è solo parzialmente centrata. Non
è solo questione di avanzamento dei LLM nella comprensione delle richieste in
linguaggio naturale.
> Il fatto è che la capacità di ottenere l'output desiderato da un agente basato
> sull'AI è una competenza trasversale che potenzia delle hard skill. Se non si
> possiedono quelle hard skill, nessun "mago del prompt" potrà ottenere
> risultati avanzati necessari in ambito professionale.
Vai al post
--------------------------------------------------------------------------------
PROMPT ENGINEERING: IL PAPER DI GOOGLE
Google ha pubblicato un interessante documento sul "Prompt Engineering": una
guida sulla creazione di prompt efficaci.
Prompt Engineering: il paper di Google
Non ci sono novità eclatanti, ma di certo un percorso chiaro e ordinato.
Le parti più interessanti riguardano gli approcci Chain of Thought (CoT) e
ReAct.
* CoT è utile per migliorare l'accuratezza facendo sviluppare al LLM un
"ragionamento" logico.
* ReAct è utile per applicazioni che richiedono interazione con fonti esterne o
task complessi.
Vai al paper
--------------------------------------------------------------------------------
OPENAI: 3 GUIDE PRATICHE DEDICATE ALL'AI
1- A PRACTICAL GUIDE TO BUILDING AGENTS
È pensata per chi vuole costruire agenti AI in grado di svolgere task multi-step
in autonomia. Descrive come scegliere i modelli, integrare strumenti e impostare
istruzioni chiare. Spiega modelli di orchestrazione come il "manager agent" o
sistemi decentralizzati, e introduce i "guardrail" per garantire sicurezza,
privacy e intervento umano nei casi critici.
Vai alla guida
2- IDENTIFYING AND SCALING AI USE CASES
Offre un metodo per scoprire e scalare casi d’uso ad alto impatto. Si parte da
sfide comuni come attività ripetitive, colli di bottiglia di competenze e
ambiguità decisionali, e si esplorano sei "primitivi" come content creation,
automazioni e analisi dati. Esempi come Promega, Tinder e BBVA mostrano come
anche attività complesse possano essere trasformate in flussi AI scalabili.
Vai alla guida
3- AI IN THE ENTERPRISE
Raccoglie sette lezioni chiave per adottare l’AI su larga scala. Vengono
presentati esempi concreti come Morgan Stanley, che ha migliorato l’efficienza
dei suoi advisor grazie a valutazioni sistematiche (evals), e Indeed, che ha
potenziato il job matching con GPT-4o mini. Klarna ha implementato un assistente
AI per il customer service, riducendo i tempi di risposta da 11 a 2 minuti. La
guida sottolinea l’importanza di investire presto, personalizzare i modelli, e
mettere l’AI nelle mani degli esperti aziendali.
Vai alla guida
--------------------------------------------------------------------------------
I 30 PAPER DI ILYA SUTSKEVER
> "If you really learn all of these, you’ll know 90% of what matters today".
Con queste parole, Ilya Sutskever (co-founder di OpenAI) condivide quelli che
ritiene i migliori 30 paper che riguardano l'AI.
Vai ai paper
Molti mi hanno chiesto suggerimenti per affrontare questi documenti, non
semplici da consultare.
Un buon aiuto per iniziare potrebbe essere l'utilizzo di NotebookLM di Google.
Nelle immagini si può vedere il mio notebook. Una volta inseriti tutti i
documenti e le pagine web, è possibile creare la mappa mentale interattiva:
cliccando le voci il sistema usa Gemini per estrarre tutte le informazioni
utili.
Il mio notebook con i 30 paper di Ilya Sutskever
Altra idea: attraverso un prompt, ho fatto sviluppare al LLM un corso con una
serie di lezioni che esplorano tutti i concetti in modo sequenziale e connesso
(con riferimenti alle fonti).
> Mi piacerebbe condividerlo, ma NotebookLM non permette di farlo attraverso un
> link, e ha politiche molto restrittive per gli utenti. Tuttavia è realizzabile
> in modo semplice.
--------------------------------------------------------------------------------
SHOPPING SU CHATGPT?
OpenAI migliora l'esperienza di shopping su ChatGPT, con risultati migliorati,
dettagli dei prodotti, prezzi e recensioni, con i link diretti per l'acquisto.
La funzionalità è in fase di rilascio.
0:00
/0:25
1×
Shopping su ChatGPT
Un upgrade interessante, anche se l'esperienza di Google Shopping (soprattutto
negli USA) è difficilmente eguagliabile.
Tenendo conto anche del fatto che questi dati non sono interfacciati con i feed
degli e-commerce. Nella documentazione parlano di "structured metadata from
third-party providers", ma non è ben chiaro il processo: di certo non potrà
essere strutturato come quello di Google.
--------------------------------------------------------------------------------
NUOVI MODELLI PER OPENAI
GPT-4.1
Il nuovo modello (senza "reasoning") più potente, veloce ed economico, ideale
per coding, gestione dei contesti lunghi (1M di token) e per l'aderenza a
precise istruzioni. E, come previsto, GPT-4.5 verrà dismesso a luglio.
L'ho provato su diversi task (le immagini riportano qualche esempio): logica,
matematica, coding, elaborazione di file lunghi, generazione di dati strutturati
da contenuti non strutturati, analisi del testo, generazione di testo con
precise istruzioni.
GPT-4.1 di OpenAI: test
Le impressioni sono ottime. Due note.
1. Con un singolo prompt (senza interazioni successive) ho realizzato un
piccolo software con interfaccia grafica che raccoglie una serie di utility
per i PDF (estrazione di pagine, compressione, conversione in immagini,
rotazione, unione).
2. Da diversi test svolti nei mesi scorsi, su prompt con tantissime istruzioni,
avevo sempre trovato GPT-4 migliore rispetto alla versione "o". Finalmente
il 4.1 supera quel limite.
Qualche dettaglio sul modello..
La nuova famiglia GPT-4.1 include tre versioni: Standard, Mini e Nano.
Il modello non solo supera GPT-4o nei benchmark più rilevanti, ma in molti casi
va oltre anche GPT-4.5, motivo per cui quest’ultimo verrà ritirato. È più
preciso nei compiti multi-turno, più affidabile nei formati richiesti, e
significativamente più performante nello sviluppo software (con +21% su
SWE-bench).
È pensato esclusivamente per l’uso via API: in ChatGPT, molte delle sue
migliorie sono già confluite in GPT-4o e continueranno a essere integrate.
Grazie a ottimizzazioni nel sistema di inferenza, GPT-4.1 è anche più economico
del 26% rispetto a GPT-4o, mentre Nano è il modello più economico e rapido mai
rilasciato.
Vai al post
> Anche OpenAI, come Google, dimostra l'avanzamento in termini di efficienza,
> dopo il passo falso della versione 4.5.
O3 E O4-MINI + CODEX CLI
OpenAI ha presentato i nuovi modelli o3 e o4-mini (con avanzamenti della fase di
reasoning), e ha lanciato Codex CLI (un AI Agent open-source).
Ho provato o3 in diversi task: coding, generazione di testo, analisi dei dati,
ricerca online, logica, matematica, istruzioni complesse, analisi delle
immagini, e in un sistema multi-agent via API.
o3 e o4-mini + Codex CLI: test
* Sul coding, è molto performante: ho realizzato un'applicazione locale
(Python) con interfaccia grafica che converte un gruppo di immagini in tutti
i formati, con resize e gestione della qualità, funzionante alla prima
esecuzione.
* Fantastici la ricerca online e code interpreter in fase di reasoning, perché
sono dinamici in base al flusso di ragionamento.
* Ho provato anche Codex CLI, un agente AI per il terminale che consente di
scrivere codice, navigare file, interpretare immagini e interagire con il
computer in modo multimodale e controllato. Nel test, entro in una directory
e faccio sintetizzare al modello un PDF locale. Una funzionalità davvero
interessante.
o3 è il modello più potente, dedicato a compiti complessi come coding,
matematica, e ragionamento visivo. o4-mini, invece, offre prestazioni
sorprendentemente elevate in rapporto a dimensioni e costi, risultando ideale
per usi ad alto volume di richieste.
Entrambi possono usare l’intera suite di strumenti di ChatGPT: ricerca web, code
interpreter, generazione e modifica immagini, function calling e tool
personalizzati. Per la prima volta, ragionano anche sulle immagini: le usano
come parte integrante della catena di pensiero, sbloccando nuove modalità di
problem solving.
Le performance: o4-mini raggiunge il 93,4% di accuratezza su AIME 2024 e 2719
ELO su Codeforces. o3 ottiene 83,3% su GPQA (domande da PhD), 86,8% su
MathVista, 78,6% su CharXiv, e domina nei task di software engineering,
superando ampiamente i predecessori.
La sicurezza è stata potenziata con nuovi sistemi di rifiuto delle richieste,
rilevamento di prompt rischiosi e test rigorosi: entrambi i modelli restano
sotto le soglie critiche su tutti i fronti (biochimica, cybersecurity,
auto-miglioramento AI).
Vai al post
--------------------------------------------------------------------------------
UN TEST DI CODEX CLI
> Codex CLI di OpenAI: l'ho provato con o3, ed è una bomba!
Il dettaglio dei test che si vedono nel video..
1. Entro nella directory di un'applicazione, avvio Codex e mi faccio spiegare
la codebase. Successivamente, chiedo all'agente di modificare l'app e
inserire il bottone per la "dark mode". Il sistema edita direttamente i
file, ed esegue tutto perfettamente (nel video si vede anche l'app
modificata). Può gestire anche l'interazione con GitHub autonomamente.
2. Entro in una directory dov'è presente un dataset in CSV. Attraverso un
prompt dettagliato, chiedo all'agente di analizzare i dati, pulirli, e
produrre una pagina web con un report. Non solo lo crea, ma fornisce anche
il Python per aggiornare il report nel caso il dataset cambi.
Un test di Codex CLI di OpenAI
Cos'è Codex CLI? Si tratta di un AI Agent open source che funziona in locale,
sfruttando qualunque modello di OpenAI. Consente di scrivere codice, navigare
file, interpretare immagini e interagire con il computer in modo multimodale e
controllato.
--------------------------------------------------------------------------------
DISPONIBILITÀ GENERALE PER VEO 2 DI GOOGLE
È già usabile via API, e chiaramente su AI Studio.
Veo 2: un test su AI Studio
Nel video si vedono due esempi di "image to video" e uno di "text to video".
Nei due esempi di "image to video", le immagini sono state generate con il
modello di OpenAI, in modo da essere coerenti. Usando Veo per animarle, si
possono creare due clip da montare per un unico video.
Vai al post
--------------------------------------------------------------------------------
TEST: UN'APPLICAZIONE CON GEMINI 2.5 PRO
Un esempio di generazione di un'applicazione da prompt testuale con Gemini 2.5
Pro: semplice, ma funzionante alla prima esecuzione!
Ho chiesto al modello di creare un'applicazione che permette di caricare un file
audio o video, e che produce la trascrizione con separazione degli speaker
usando le API di Gemini (con download del TXT completo alla fine del processo).
Il sistema ha prodotto un'applicazione basata su Flask, con la struttura delle
directory, HTML, Python, requirements e il file "env" per le API key.
Dopo aver avviato il server Flask, l'applicazione funziona via browser.
Test: un'applicazione con Gemini 2.5 Pro
> È semplice, ma ho impiegato più tempo a produrre il video rispetto a un
> sistema utile e funzionante, senza errori da gestire.
--------------------------------------------------------------------------------
LE NOVITÀ NEL WORKSPACE DI GOOGLE
Con uno dei migliori modelli di AI a disposizione, e un ecosistema che fa già
parte della quotidianità di un'enorme insieme di utenti, Google rilascia le
nuove funzionalità per Workspace.
La nuova ondata di strumenti basati su Gemini mira a migliorare concretamente
l’efficienza aziendale: automazioni avanzate con Workspace Flows, assistenti
intelligenti nei documenti, analisi dei dati semplificata e la possibilità di
generare contenuti audio e video direttamente dalle app Workspace.
* Workspace Flows usa agenti AI personalizzati (Gems) per gestire processi
multi-step con logica e contesto, senza bisogno di codice. In pratica, si
potranno creare flussi e automazioni che coinvolgono azioni di ogni software
di Workspace.
Google Workspace Flows
* Docs introduce la lettura audio dei testi e la funzione "Help me refine" per
migliorare la scrittura in modo evoluto. Il Canvas di ChatGPT direttamente su
Google Docs.
* Sheets include "Help me analyze", un analista AI sempre disponibile per
scoprire insight nascosti nei dati. I più attenti avranno notato che è già
disponibile su Colab.
* Google Vids si potenzia con Veo2, generando video realistici direttamente
dall'app.
* Google Meet e Chat diventano ancora più smart con riepiloghi, note
automatiche e suggerimenti in tempo reale.
Vai al post
> L'integrazione e l'accelerazione di Google.. si prepara a diventare
> irraggiungibile?
--------------------------------------------------------------------------------
UN AGENT BUILDER PER POSTMAN
Postman ha presentato il suo AI Agent builder.
Un sistema che permette di creare agenti basati su LLM, che possono usare una
rete di oltre 100k API pubbliche.
Il tutto attraverso un'interfaccia drag & drop.
0:00
/0:13
1×
Un Agent Builder per Postman
Vai al progetto
> La prototipazione di applicazioni diventa sempre più agile.
--------------------------------------------------------------------------------
GROK STUDIO
xAI ha rilasciato Grok Studio, con la possibilità di eseguire il codice generato
e il supporto a Google Drive.
Grok Studio: un test
È molto simile a Canvas su ChatGPT, ma la funzionalità di generazione report da
un foglio dati è fantastica.
La connessione a Google Drive è comoda, e permette di creare dei Workspace
importando direttamente i file.
> L'editor di ChatGPT è migliore, ma la generazione dei report è vincente.
--------------------------------------------------------------------------------
LE API DI GROK 3
La "guerra dei prezzi" delle API dei LLM continua: xAI rilascia le API di Grok3
mini.
In base ai dati diffusi, sembra che il modello superi diversi modelli di
reasoning in diversi benchmark, con un prezzo di 5 volte inferiore.
Le API di Grok 3
ALCUNI DETTAGLI
* Grok 3 Mini guida le classifiche su test STEM avanzati, matematica e coding,
superando modelli flagship 20 volte più costosi.
* È 5 volte più economico di qualsiasi altro modello di reasoning sul mercato.
* Ogni risposta API include l’intero "reasoning trace", grezzo e non filtrato.
Vai alla documentazione
--------------------------------------------------------------------------------
AI INDEX REPORT 2025
Stanford ha pubblicato l'AI Index Report 2025.
AI Index Report 2025
> L’intelligenza artificiale evolve rapidamente, trasformando società ed
> economia, tra progressi straordinari, investimenti globali e sfide ancora
> aperte.
UNA SINTESI DEI TAKE AWAY DEL REPORT
1. Le prestazioni dell’AI migliorano rapidamente nei benchmark avanzati.
I modelli AI hanno fatto grandi progressi su nuovi benchmark complessi come
MMMU, GPQA e SWE-bench, superando anche le performance umane in alcuni
compiti di programmazione.
2. L’AI è sempre più presente nella vita quotidiana.
L’intelligenza artificiale è ormai diffusa in settori come la sanità e i
trasporti, con dispositivi medici approvati e robotaxi operativi su larga
scala.
3. Le aziende puntano tutto sull’AI, trainando investimenti record.
Gli investimenti privati negli Stati Uniti hanno raggiunto 109 miliardi di
dollari nel 2024, con una crescita d’uso nelle aziende e prove sempre più
solide del suo impatto positivo sulla produttività.
4. Gli Stati Uniti guidano, ma la Cina riduce il divario qualitativo.
Gli USA producono più modelli AI di punta, ma la Cina li sta rapidamente
raggiungendo in termini di qualità, mantenendo il primato per pubblicazioni
e brevetti.
5. L’ecosistema dell’AI responsabile si evolve, ma in modo disomogeneo.
Aumentano gli incidenti legati all’AI, mentre le valutazioni standardizzate
sono ancora rare. I governi mostrano maggiore impegno con nuove linee guida
sulla trasparenza e sicurezza.
6. L’ottimismo globale verso l’AI cresce, ma con forti differenze regionali.
Paesi asiatici mostrano un forte ottimismo verso l’AI, mentre Stati Uniti,
Canada ed Europa restano più scettici, sebbene con segnali di
miglioramento.
7. L’AI diventa più efficiente, economica e accessibile.
I costi per far girare modelli potenti sono crollati, mentre l’efficienza
energetica è aumentata. I modelli open-source stanno colmando rapidamente
il divario con quelli chiusi.
8. I governi aumentano regolamentazione e investimenti sull’AI.
Nel 2024 le normative sull’AI sono raddoppiate negli USA e cresciute a
livello globale, accompagnate da investimenti miliardari in vari paesi per
sostenere l’innovazione.
9. L’educazione all’AI cresce, ma persistono disuguaglianze.
Sempre più paesi offrono educazione informatica K-12, ma permangono
barriere infrastrutturali, soprattutto in Africa, e molti insegnanti non si
sentono pronti a insegnare l’AI.
10. L’industria domina lo sviluppo AI, ma la competizione si intensifica.
La quasi totalità dei modelli più avanzati proviene dall’industria.
Tuttavia, la differenza di prestazioni tra i migliori modelli si sta
riducendo, segno di una frontiera sempre più affollata.
11. L’AI riceve riconoscimenti scientifici di massimo livello.
Nel 2024 l’AI è stata protagonista di premi Nobel e del Turing Award,
evidenziando il suo impatto decisivo nella scienza, dalla fisica al
ripiegamento proteico.
12. Il ragionamento complesso resta una sfida.
Nonostante i successi in compiti avanzati, i modelli AI faticano ancora con
il ragionamento logico e la risoluzione di problemi complessi in contesti
critici.
Vai al report
--------------------------------------------------------------------------------
WORK TREND INDEX 2025 DI MICROSOFT
L'AI sta ridefinendo il lavoro nelle aziende, e Microsoft ne traccia i contorni
nel suo Work Trend Index 2025.
Il rapporto evidenzia come le organizzazioni che adottano l’AI in modo
strutturale — definite "Frontier Firms" — registrano benefici tangibili: il 71%
dei dipendenti afferma che la propria azienda sta prosperando, e l’83% dei
leader riconosce che l’AI contribuisce a una maggiore adozione di compiti
strategici.
In parallelo, Microsoft ha presentato importanti evoluzioni per Copilot,
puntando su un’integrazione sempre più pervasiva dell’AI nei flussi operativi.
Copilot Studio è una nuova piattaforma low-code che consente alle imprese di
costruire agenti intelligenti personalizzati, con memoria, capacità di
pianificazione e integrazione via OpenAPI.
Questi agenti possono operare all’interno delle app Microsoft 365 e connettersi
a sistemi esterni come Jira, Miro o Monday.
Sono stati inoltre lanciati due nuovi agenti nativi — Copilot Researcher e
Copilot Analyst — pensati per attività di ricerca e analisi su larga scala,
capaci di interagire con Word, Excel, Outlook e Teams grazie ai dati real-time
di Microsoft Graph. Il tutto è orchestrato con modelli GPT-4-turbo, in grado di
mantenere il contesto e generare output coerenti e document-aware.
Vai al report
--------------------------------------------------------------------------------
OPEN MANUS: UN TEST
Ho provato Open Manus, il progetto open source che mira a replicare le capacità
dell'Agente Manus AI.
Nel video si vedono diversi task che l'agent (nel mio caso basato su GPT-4o)
svolge in modo autonomo, sfruttando l'automazione del browser, e anche del
computer locale.
Open Manus: un test
Le mie considerazioni: questo tipo di agenti sono davvero molto interessanti, ma
acerbi per essere "liberati" a compiere operazioni autonome online senza
riferimenti specifici.
Vai al progetto
> Ma di certo miglioreranno, e saranno direttamente nel browser, e
> successivamente nei sistemi operativi.
--------------------------------------------------------------------------------
FIREBASE STUDIO DI GOOGLE: UN TEST
Google lancia Firebase Studio, un nuovo IDE open source basato sull’AI che
unisce Project IDX, Genkit e i modelli Gemini in un’unica piattaforma per creare
app full-stack.
L'ho provato: con un prompt testuale ho creato un'applicazione che trasforma un
contenuto in una mappa mentale modificabile. Con altri prompt successivi l'ho
rifinita per ottenere il risultato che avevo in mente.
Firebase Studio di Google: un test
Il cuore del progetto è l’agente di prototipazione, capace di generare app
Next.js complete in pochi secondi non solo da prompt testuali, ma anche da
immagini, annotazioni visuali e schemi. L’ambiente crea UI, backend e
integrazione AI in automatico, con anteprima nel browser, test mobile via QR
code e codice pronto da modificare.
L’IDE web-based, costruito su CodeOSS, offre funzionalità avanzate come modifica
e debug nel browser, terminale integrato, suggerimenti di codice con Gemini e
documentazione automatica. Il tutto gira su una VM configurabile con Nix, con
supporto a oltre 60 modelli ufficiali e l’importazione da GitHub, GitLab e
Bitbucket.
Vai al post
--------------------------------------------------------------------------------
TEST SU AI OVERVIEWS DI GOOGLE
In questo test, in una SERP di Google in cui compare AI Overviews, ho
considerato i contenuti nelle prime 12 posizioni e ho creato un piccolo RAG
usando LangChain, Chroma DB e GPT-4o.
> Inviandolo la query al RAG, ottengo una risposta simile a quella proposta da
> AI Overviews.
Test su AI Overviews di Google: RAG
Chiaramente Google usa anche query correlate ("fan-out") e il Knowledge Graph
per espandere i risultati.
Quindi, il funzionamento l'abbiamo intuito, e possiamo anche pensare di usare
dei modelli per misurare la pertinenza dei contenuti alle query per ragionare
sul "posizionamento" su AI Overviews.
> Chiaramente, il primo step rimane l'essere tra i risultati rilevanti, che
> rappresentano la knowledge a disposizione del "RAG".
COME ESSERE PRESENTI SU AI OVERVIEWS
Per essere presenti nelle fonti delle risposte di AI Overviews (ma in generale
nei sistemi ibridi come ChatGPT, Perplexity, ecc.), vanno considerati due
aspetti.
1. Essere tra i risultati che il sistema prende in considerazione per la query
principale (quella che scriviamo nel campo): tendenzialmente le prime due
pagine dei risultati, compresi PAA e SERP snippet.
2. Intercettare risposte pertinenti (semanticamente vicine) alla query
principale o a quelle secondarie che il motore genera per quel contesto
("fan-out").
> È come ragionare su un sistema RAG, in cui ogni documento è di un'azienda
> diversa.
Test su AI Overviews di Google: query
Per la query "cos'è il CSSOM", ad esempio, il mio contenuto è in seconda pagina
della SERP (è tra i risultati presi in considerazione), e intercetta la risposta
ad una query secondaria ("come si applicano gli stili agli elementi HTML").
Ma se si cerca direttamente la query secondaria, il mio contenuto non è tra le
fonti di AI Overviews, perché il contesto cambia, ed esistono molte fonti più
rilevanti per questa query.
Per la query "cosa sono i priority hints", il mio risultato è primo su Google,
ma non compare tra le fonti di AI Overviews. Misurando la pertinenza semantica
del mio contenuto con un algoritmo, infatti, risulta inferiore a quella dei
risultati che invece compaiono.
> Si tratta di un sottile equilibrio, non semplice da gestire e da controllare.
--------------------------------------------------------------------------------
AGENT2AGENT (A2A) E AGENT DEVELOPMENT KIT (ADK) DI GOOGLE
Google presenta Agent2Agent (A2A), un protocollo aperto per l'interoperabilità
tra agenti AI, sviluppato in collaborazione con oltre 50 aziende (es. Atlassian,
MongoDB, PayPal, Salesforce, SAP, Langchain).
A2A consente agli agenti AI, anche se costruiti con tecnologie o da fornitori
diversi, di comunicare, coordinarsi e scambiarsi informazioni in modo sicuro.
È pensato per scenari enterprise complessi: dalla gestione della supply chain
alla selezione del personale, fino all'automazione dei flussi di lavoro interni.
0:00
/1:22
1×
Un esempio concreto: la ricerca dei candidati
Basato su standard diffusi (HTTP, JSON-RPC, SSE), A2A supporta task rapidi o di
lunga durata, anche multimodali (testo, audio, video). Ogni agente può esporre
le proprie capacità tramite una “Agent Card” e collaborare con altri per
completare compiti condivisi, producendo artefatti come risultati finali.
Complementare al Model Context Protocol (MCP) di Anthropic, A2A punta a rendere
gli agenti realmente interoperabili, scalabili e integrabili in ambienti già
esistenti.
Vai al post
> Un passo chiave per costruire un ecosistema in cui gli agenti AI non siano
> strumenti isolati, ma veri colleghi digitali capaci di collaborare in tempo
> reale.
A supporto dello sviluppo di AI agent interoperabili, Google ha rilasciato anche
l’Agent Development Kit (ADK), un toolkit open-source in Python per costruire,
testare e distribuire agenti complessi, modulari e orchestrabili. Con ADK, gli
sviluppatori possono definire logiche, strumenti e workflow direttamente da
codice, integrandoli con Google Cloud, Vertex AI o ambienti locali.
Vai al progetto
--------------------------------------------------------------------------------
PYSPUR: AI AGENT WORKFLOW
PySpur è una nuova libreria open source che consente di creare workflow di AI
Agent attraverso un'interfaccia drag & drop.
0:00
/0:22
1×
PySpur: AI Agent Workflow
Semplifica la creazione, il test e il deploy di agenti, riducendo i tempi di
sviluppo. Si installa in pochi secondi con pip, permette l’aggiunta di tool
personalizzati e l’esportazione degli agenti in JSON.
Vai alla documentazione
--------------------------------------------------------------------------------
GOOGLE IRONWOOD
Google ha presentato Ironwood, la sua settima generazione di TPU (Tensor
Processing Unit), progettata specificamente per l’inferenza nell’era dell’AI
generativa. Ironwood è pensata per gestire modelli di "reasoning", come i LLM e
le Mixture of Experts (MoE), offrendo prestazioni senza precedenti.
TRA LE CARATTERISTICHE PRINCIPALI..
* Fino a 9.216 chip per pod, raggiungendo 42,5 Exaflops, più di 24 volte la
potenza del supercomputer El Capitan.
* Miglioramenti significativi in memoria (192 GB HBM per chip) e velocità di
interconnessione tra chip (1,2 Tbps).
* 2x più efficiente dal punto di vista energetico rispetto alla generazione
precedente (Trillium).
* Supporta carichi di lavoro AI intensivi con alta efficienza e scalabilità.
* Utilizza la piattaforma software Pathways per facilitare l’elaborazione
distribuita su larga scala.
0:00
/0:30
1×
Google Ironwood
Ironwood si inserisce nell’architettura AI Hypercomputer di Google Cloud,
diventando la base per nuovi progressi nel campo dell’AI, tra cui modelli come
Gemini 2.5 e AlphaFold.
Vai al post
> L'infrastruttura hardware sarà il fattore differenziante nel prossimo futuro?
--------------------------------------------------------------------------------
OPENAI PRESENTA LE "EVALS" API
Permettono di definire dei test, e di valutare rapidamente i prompt
automatizzando le esecuzioni.
OpenAI presenta le "Evals" API: un test
Nell'esempio ho caricato nel Playground un CSV contenente stringhe e label.
Successivamente ho configurato il test, creando un prompt dinamico che si
valorizza attraverso i dati del CSV. L'ultimo ingrediente è un "grader" per
valutare le risposte del modello in base a un criterio che possiamo definire.
Il sistema esegue automaticamente tutti i prompt e possiamo valutare il
risultato del test.
Vai alla documentazione
> Il tutto, completamente realizzabile via API: questo permette di creare
> procedure di test per diverse versioni di prompt.
--------------------------------------------------------------------------------
COPILOT SEARCH
Bing lancia la risposta a AI Mode di Google: Copilot Search.
Il funzionamento è molto simile: l'utente può porre una domanda, il sistema usa
il reasoning per espandere la ricerca, estrae le fonti, e compone una risposta
usando un LLM.
Copilot Search di Bing
È possibile visualizzare il "ragionamento" e le query correlate. Tutte le fonti
sono consultabili. Successivamente permette delle ricerche di follow-up.
Vai alla ricerca
--------------------------------------------------------------------------------
MCP (MODEL CONTEXT PROTOCOL): UN TEST
Un test in cui un Agente basato su o3 di OpenAI accede a file in locale
attraverso il protocollo MCP (Model Context Protocol).
MCP (Model Context Protocol): un test
Come funziona?
Ho implementato un server MCP che può effettuare diverse operazioni sul
filesystem locale del mio laptop, e l'agente è connesso a quel server.
Quando faccio richieste all'agente (che usa o3-mini via API), il sistema accede
ai file in locale e cerca le informazioni necessarie per rispondere. Infine
restituisce la risposta.
Nell'area di tracciamento del Playground di OpenAI è possibile monitorare tutte
le operazioni compiute dall'agente.
> MCP permette di creare applicazioni basate sui LLM che accedono a dati,
> software esterni e potenzialmente qualunque sistema. Questo apre la strada ad
> automazioni davvero interessanti.
--------------------------------------------------------------------------------
GEMINI LIVE: CONDIVISIONE SCHERMO E VIDEOCAMERA
Su Gemini Live è disponibile anche in Italia la funzionalità di condivisione in
real time dello schermo e della videocamera.
Nel video, condivido lo schermo del mio dispositivo con l'assistente e
interagisco attraverso la voce chiedendo informazioni su ciò che sto vedendo.
Gemini Live: condivisione schermo
> Queste funzionalità fanno comprendere il grande potenziale di interazione di
> questi sistemi con il mondo reale.
--------------------------------------------------------------------------------
CLAUDE FOR EDUCATION
Claude for Education è il nuovo progetto di Anthropic pensato per rivoluzionare
il mondo universitario con l’AI. Grazie alla modalità Learning Mode, Claude
stimola il pensiero critico degli studenti invece di fornire risposte pronte,
utilizzando domande socratiche e strumenti strutturati per lo studio.
Partnership con università come Northeastern, LSE e Champlain College portano
l'intelligenza artificiale in aula e negli uffici amministrativi, aiutando
studenti, docenti e staff a lavorare in modo più efficace e intelligente.
Vai al post
> Con programmi dedicati agli studenti, API gratuite per progetti innovativi e
> integrazione nei principali sistemi educativi come Canvas LMS, Claude si
> afferma come un alleato concreto per un'educazione del futuro, costruita su
> responsabilità, accessibilità e innovazione.
--------------------------------------------------------------------------------
RUNWAY GEN-4
Runway ha presentato Gen-4, il nuovo modello dedicato ai contenuti visivi.
Consente la generazione di immagini e video mantenendo coerenza tra personaggi,
oggetti e ambientazioni anche in scenari complessi.
Utilizza riferimenti visivi e istruzioni testuali per produrre contenuti
uniformi in termini di stile, composizione e prospettiva, senza necessità di
ulteriori addestramenti.
Runway Gen-4: presentazione
Tutti i brand che sviluppano modelli stanno creando piattaforme in grado di
generare sia immagini che video, in modo da dare un'unica soluzione agli utenti.
Vai al post
> Nella presentazione parlano anche di "simulazione fisica".. su questo non sono
> molto convinto, ma di certo i miglioramenti sono incredibili.
--------------------------------------------------------------------------------
FLORA: DIVERSI MODELLI IN UN UNICO AMBIENTE
Flora è un esempio di strumento che riunisce diversi modelli visuali in un unico
ambiente consentendo sperimentazione e prototipazione rapida.
Un esempio di utilizzo di Flora
Nell'esempio si vede un progetto che parte da un'immagine generata da prompt
testuale usando Flux Pro. Vengono create diverse inquadrature con prompt
multimodale con Gemini 2.0 Flash. Infine le clip video usando Ray2 di Luma: da
prompt + immagine, ma anche con prompt + due frame.
Tra i vari modelli sono a disposizione anche Flux Dev, Ideogram, Stable
Diffusion, Photon di Luma, Kling e Runway.
Vai al progetto
> Un tool davvero interessante, e la coerenza delle immagini è notevole.
--------------------------------------------------------------------------------
SEAWEED: UN MODELLO DA 7B DI PARAMETRI CHE COMPETE CON I GIGANTI
Seaweed 7B è un nuovo modello da 7 miliardi di parametri capace di competere con
giganti del settore, ma con una frazione delle risorse.
Seaweed: un nuovo modello di generazione video
Addestrato con "sole" 665.000 ore di GPU H100, raggiunge livelli di qualità
visiva, fedeltà al prompt e coerenza narrativa che lo pongono tra i migliori
sistemi di generazione video.
Con il supporto a testo, immagini e audio, Seaweed-7B genera video realistici,
coerenti e controllabili fino a 720p in tempo reale. Il suo design include un
VAE 3D causale e un Diffusion Transformer ottimizzato per performance e
scalabilità, riducendo drasticamente i costi computazionali.
Vai al progetto
> Come abbiamo detto più volte, la scala non può essere l'unica leva per
> migliorare le performance dei modelli. Ora serve evoluzione architetturale, e
> questo è un esempio.
--------------------------------------------------------------------------------
UI-TARS-1.5 DI BYTEDANCE
ByteDance ha rilasciato UI-TARS-1.5, un agente multimodale basato su
Qwen2.5-VL-7B che unisce visione e linguaggio con "reasoning".
UI-TARS - Next-generation native GUI agent model
UI-TARS:Next-generation native GUI agent model designed to interact seamlessly
with GUIs using human-like perception
UI-TARS Team
Il modello valuta prima di agire, migliorando l’esecuzione dei task in ambienti
complessi. Brilla nei benchmark GUI, superando modelli come Claude 3.7 e OpenAI
CUA in compiti su desktop e browser. Ottimi risultati anche in giochi web,
grazie a una forte capacità di pianificazione a lungo termine.
Si distingue nella navigazione web con performance superiori in SimpleQA e
BrowseComp, gestendo con precisione interazioni real-time su interfacce
grafiche.
In ambienti 3D come Minecraft, batte agenti top usando input visivi e controlli
nativi, migliorando le decisioni grazie al suo modulo di “pensiero prima
dell’azione”.
--------------------------------------------------------------------------------
MIDJOURNEY V7
Midjourney mancava da tempo in ambito di rilasci, ma ora annuncia la versione V7
del suo modello, attualmente in fase Alpha. Più intelligente
nell’interpretazione dei prompt testuali, offre una qualità visiva superiore e
migliora drasticamente la coerenza nei dettagli di corpi, mani e oggetti.
Vai al post
V7 introduce per la prima volta la personalizzazione del modello attiva di
default, che si sblocca in circa 5 minuti. Questa funzione mira a interpretare
meglio ciò che l’utente desidera e trova visivamente affascinante.
Grande novità è anche il Draft Mode, che consente rendering 10 volte più veloci
al 50% del costo. È pensato per esplorare idee in modo rapido: le immagini sono
a qualità ridotta, ma esteticamente coerenti. È disponibile anche una modalità
vocale per iterare i prompt in modo conversazionale.
--------------------------------------------------------------------------------
- GRAZIE -
Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre
persone, condividilo 🙂
ISCRIVITI ALLA NEWSLETTER
Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su
tematiche relative all'intelligenza artificiale.
Iscriviti alla Newsletter
Email sent! Check your inbox to complete your signup.
Gratuita. No Spam. Puoi disiscriverti quando vuoi.
Consulta la privacy policy.
> La recente storia dell'AI potrebbe essere sintetizzata in una sola parola:
> “SCALA”.
Così Noam Brown (Research Scientist di OpenAI) inizia il suo TED AI di San
Francisco.
Quindi, performance = modelli sempre più grandi, addestrati da sempre più dati e
con una potenza di calcolo necessaria sempre maggiore.
Agents e Reasoners - L'intervento integrale dall'AI Festival 2025
Le statistiche dimostrano questo aspetto: il diagramma che segue, infatti,
mostra la crescita della potenza di calcolo necessaria per addestrare i modelli
che utilizziamo abitualmente, con un incremento consistente in quella che viene
definita "Deep Learning Era".
Crescita della potenza di calcolo necessaria per addestrare i modelli
Ultimamente, però, sembra che la crescita di performance derivante direttamente
dalla scala si stia attenuando. L’anno scorso, sul palco dell'AI Festival, dissi
che il riferimento era ancora la serie di modelli GPT-4.. Oggi, un anno dopo, la
situazione non è cambiata significativamente, ma i competitor, con modelli open
source e non, hanno ridotto il gap.
Anche esperti influenti come Ilya Sutskever, hanno sottolineato questa
attenuazione.
La stessa OpenAI ha nominato il nuovo modello GPT-4.5 e non GPT-5..
probabilmente perché non ha rappresentato un salto qualitativo degno di quel
nome.
Anche Dario Amodei, CEO di Anthropic, in una recente intervista, ha affermato
che Claude 3.7 è stato uno step evolutivo, ma non abbastanza da giustificare la
versione "4".
--------------------------------------------------------------------------------
LE LEGGI DI SCALA E LA SOSTENIBILITÀ
Si pone quindi una domanda cruciale: conviene ancora investire sulla scala? Per
rispondere alla domanda ci sono due considerazioni da fare.
* Non è mai stato garantito che le leggi di scala sarebbero state valide per
sempre: si tratta di osservazioni empiriche, regole statistiche e
sperimentali.
* L'aumento della scala di altri ordini di grandezza comporterebbe costi e
consumi di risorse enormi.
Questo avviene oggi, naturalmente. Sul futuro torneremo tra poco.
FINE DELLA CRESCITA O NUOVA FASE?
Dunque, la crescita dell’AI è finita?
> No, anzi, mi sento ancora di dire che siamo solo all’inizio.
Di certo si attenuerà l’investimento "cieco" sulla scala, a vantaggio di un
maggiore interesse per l'efficienza, le architetture innovative e, soprattutto,
l'integrazione.
EFFICIENZA: IL NUOVO PARADIGMA
L'efficienza sta diventando una delle chiavi dello sviluppo futuro. Un ottimo
esempio di questo è il paper di DeepSeek R1, che non introduce elementi
rivoluzionari dal punto di vista architetturale (è un modello basato su
transformer e reinforcement learning in fase successiva), concentrandosi però
sull’efficientamento, cioè sulla capacità di ottenere performance elevate con
meno risorse durante la fase di training.
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement
Learning
We introduce our first-generation reasoning models, DeepSeek-R1-Zero and
DeepSeek-R1. DeepSeek-R1-Zero, a model trained via large-scale reinforcement
learning (RL) without supervised fine-tuning (SFT) as a preliminary step,
demonstrates remarkable reasoning capabilities. Through RL, DeepSeek-R1-Zero
naturally emerges with numerous powerful and intriguing reasoning behaviors.
However, it encounters challenges such as poor readability, and language mixing.
To address these issues and further enhance reasoning performance, we introduce
DeepSeek-R1, which incorporates multi-stage training and cold-start data before
RL. DeepSeek-R1 achieves performance comparable to OpenAI-o1-1217 on reasoning
tasks. To support the research community, we open-source DeepSeek-R1-Zero,
DeepSeek-R1, and six dense models (1.5B, 7B, 8B, 14B, 32B, 70B) distilled from
DeepSeek-R1 based on Qwen and Llama.
arXiv.orgDeepSeek-AI
LA CRESCITA DELL'OPEN SOURCE
In generale, i miglioramenti che stiamo osservando nei modelli open-source, ad
esempio DeepSeek R1, QwQ-32B di Qwen (Alibaba), Ernie 4.5 e X1 (Baidu),
permettono di ragionare su tecniche come la quantizzazione e la distillazione,
che riducono significativamente le dimensioni dei modelli mantenendo elevate
performance. Questo permette anche di far funzionare i modelli in dispositivi
con hardware limitati.
Nel video seguente, ad esempio, è possibile vedere DeepSeek R1 funzionare sul
mio laptop. Si tratta della versione 8B, basata su architettura Llama, con
quantizzazione a 4 bit (Q4_K_M).
DeepSeek R1 in locale: un test sul mio laptop
E stanno nascendo nuove tecniche come MatQuant di Google DeepMind, che mette in
azione una quantizzazione multi-scala che sfrutta la struttura nidificata degli
interi per ottimizzare modelli a diverse precisioni (int8 → int4 → int2)
mantenendo un’accuratezza elevata.
Matryoshka Quantization
Quantizing model weights is critical for reducing the communication and
inference costs of large models. However, quantizing models -- especially to low
precisions like int4 or int2 -- requires a trade-off in model quality; int2, in
particular, is known to severely degrade model quality. Consequently,
practitioners are often forced to maintain multiple models with different
quantization levels or serve a single model that best satisfies the
quality-latency trade-off. On the other hand, integer data types, such as int8,
inherently possess a nested (Matryoshka) structure where smaller bit-width
integers, like int4 or int2, are nested within the most significant bits. This
paper proposes Matryoshka Quantization (MatQuant), a novel multi-scale
quantization technique that addresses the challenge of needing multiple
quantized models. It allows training and maintaining just one model, which can
then be served at different precision levels. Furthermore, due to the
co-training and co-distillation regularization provided by MatQuant, the int2
precision models extracted by MatQuant can be up to $10\%$ more accurate than
standard int2 quantization (using techniques like QAT or OmniQuant). This
represents significant progress in model quantization, demonstrated by the fact
that, with the same recipe, an int2 FFN-quantized Gemma-2 9B model is more
accurate than an int8 FFN-quantized Gemma-2 2B model.
arXiv.orgPranav Nair
--------------------------------------------------------------------------------
ARCHITETTURA: "REASONING" E AI AGENTS
Noam Brown, che in OpenAI si occupa proprio di multi-step reasoning e
multi-agent AI, durante il talk citato in precedenza ha raccontato un'esperienza
del suo dottorato di ricerca, dicendo che permettere a un modello di "pensare"
per 20 secondi (dove per pensare intende un’esecuzione lenta, step by step) ha
generato un miglioramento delle prestazioni equivalente a un aumento della scala
di ben 100.000 volte.
Ecco perché oggi stiamo assistendo a un rilascio costante di modelli basati
sulla dinamica di “reasoning” o “thinking”. Alcuni esempi: la serie o1 e o3 di
OpenAI, Gemini, DeepSeek, Claude, QwQ di Qwen, e Grok. E anche GPT-5 sarà basato
su questo concetto.
Come funziona il "reasoning"? Il modello, prima di produrre l’output produce dei
token dedicati a sviluppare catene di pensiero (o di ragionamento), con lo scopo
di migliorare la qualità dell’inferenza. Quello che segue è un esempio in cui
possiamo vedere la fase di reasoning di QwQ-32B nella chat di Qwen.
Un test di QwQ-32B nella chat di Qwen
E questo concetto di miglioramento della qualità dell’inferenza, non vale solo
per i Large Language Model. "Inference-Time Scaling for Diffusion Models beyond
Scaling Denoising Steps", ad esempio, è un paper di Google DeepMind che dimostra
come, lavorando sull’ottimizzazione della del processo di diffusione, sia
possibile migliorare la qualità della generazione delle immagini senza agire
sulla scala.
Inference-Time Scaling for Diffusion Models beyond Scaling Denoising Steps
Generative models have made significant impacts across various domains, largely
due to their ability to scale during training by increasing data, computational
resources, and model size, a phenomenon characterized by the scaling laws.
Recent research has begun to explore inference-time scaling behavior in Large
Language Models (LLMs), revealing how performance can further improve with
additional computation during inference. Unlike LLMs, diffusion models
inherently possess the flexibility to adjust inference-time computation via the
number of denoising steps, although the performance gains typically flatten
after a few dozen. In this work, we explore the inference-time scaling behavior
of diffusion models beyond increasing denoising steps and investigate how the
generation performance can further improve with increased computation.
Specifically, we consider a search problem aimed at identifying better noises
for the diffusion sampling process. We structure the design space along two
axes: the verifiers used to provide feedback, and the algorithms used to find
better noise candidates. Through extensive experiments on class-conditioned and
text-conditioned image generation benchmarks, our findings reveal that
increasing inference-time compute leads to substantial improvements in the
quality of samples generated by diffusion models, and with the complicated
nature of images, combinations of the components in the framework can be
specifically chosen to conform with different application scenario.
arXiv.orgNanye Ma
LATENT REASONING
Esistono già idee di sviluppo ulteriori in ambito di "reasoning". Il paper dal
titolo "Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth
Approach", ad esempio, descrive un approccio per il quale il processo di
"ragionamento" non avviene attraverso la generazione di token di reasoning
(quindi catene di pensiero esplicite), ma all’interno dello spazio latente del
modello.. ovvero prima dell’inferenza, attraverso calcoli vettoriali.
Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach
We study a novel language model architecture that is capable of scaling
test-time computation by implicitly reasoning in latent space. Our model works
by iterating a recurrent block, thereby unrolling to arbitrary depth at
test-time. This stands in contrast to mainstream reasoning models that scale up
compute by producing more tokens. Unlike approaches based on chain-of-thought,
our approach does not require any specialized training data, can work with small
context windows, and can capture types of reasoning that are not easily
represented in words. We scale a proof-of-concept model to 3.5 billion
parameters and 800 billion tokens. We show that the resulting model can improve
its performance on reasoning benchmarks, sometimes dramatically, up to a
computation load equivalent to 50 billion parameters.
arXiv.orgJonas Geiping
--------------------------------------------------------------------------------
IL RUOLO CRESCENTE DEGLI AI AGENTS
Un ulteriore ambito di grande sviluppo, sempre in ambito dell'evoluzione
dell'architettura, riguarda gli AI Agents. Ma arriviamoci partendo da due
considerazioni sullo scenario che stiamo vivendo..
1. In questo momento abbiamo una grande ricchezza di modelli performanti, sia
open source, sia "chiusi": possiamo dire, con una dose di semplificazione,
che le prestazioni stanno convergendo, e i modelli andranno ad equipararsi.
2. I prezzi per token, nel tempo, stanno scendendo in modo importante. E credo
che nei prossimi anni si arriverà a zero. A questo proposito, ad esempio,
Baidu ha recentemente rilasciato la versione 4.5 di Ernie, che costa la metà
di DeepSeek e un infinitesimo di GPT-4.5.
Le performance dei modelli stanno convergendo, e il prezzo per token sta
scendendo
Questa situazione, in cui i LLM si equiparano e il prezzo per token diventa
trascurabile, fa sì che l'attenzione si sposti dai modelli a quello che possiamo
definire "layer applicativo" (applicazioni basate sui modelli).. e gli AI Agents
sono proprio quel layer applicativo.
> I LLM, in un certo senso, diventeranno parte dell’infrastruttura, una sorta di
> commodity che permette di dare vita alle applicazioni del futuro.
STRUTTURA E VANTAGGI DEGLI AI AGENTS
Un AI Agent presenta una struttura composta principalmente da un modello, un
sistema di orchestrazione (che ne determina il comportamento, la metodologia
nella pianificazione delle operazioni, e può essere dotato di memoria per
migliorare e personalizzare le performance nel tempo), e l'interfacciamento con
tool esterni per eseguire azioni specifiche.
Lo schema che segue, che deriva dal paper di Google dal titolo "Agents",
sintetizza in modo esaustivo l'architettura.
La struttura di un AI Agent
Mella prenotazione di un volo, ad esempio, un utente può interagire con un agent
specializzato che processa la richiesta, orchestra i processi, interroga i
servizi esterni, e restituisce una risposta completa e contestualizzata.
Un esempio dell'utilizzo di un AI Agent
Rispetto a un'interazione diretta con un LLM una struttura di questo tipo ha
diversi vantaggi, ad esempio:
* accesso a dati in tempo reale;
* memoria e personalizzazione;
* ragionamento avanzato;
* maggiore affidabilità;
* scalabilità e automazione.
FRAMEWORK E WORKFLOW AGENTICI
Nel prossimo futuro, potremo creare sempre più facilmente AI Agents sfruttando
dei framework. Parallelamente, le piattaforme metteranno a disposizione agenti
per ogni funzionalità. Google, ad esempio, sta lanciando l’Agent Space e
Microsoft il Copilot Studio. E abbiamo già iniziato a usare sistemi basati su
agenti, ad esempio Operator di OpenAI, Deep Research, e OmniParser di Microsoft.
Framework come Autogen, Crew AI e Lang Graph, invece, permettono di creare
agenti e workflow agentici per creare sistemi di automazione.
OpenAI, a questo proposito, ha appena rilasciato nuovi strumenti dedicati allo
sviluppo di AI Agents personalizzati e sistemi multi agente. Nello specifico:
* Responses API – L’API per la costruzione di agenti, che combina la semplicità
della Chat Completions API con le capacità di utilizzo degli strumenti
dell’Assistants API. Con una singola chiamata, gli sviluppatori possono
orchestrare più strumenti e modelli, rendendo gli agenti più intelligenti e
operativi.
* Agents SDK – Un framework open-source per orchestrare gli agenti e gestire
flussi di lavoro complessi. Grazie a questo strumento, gli sviluppatori
possono creare agenti che collaborano tra loro con handoff intelligenti,
tracciamento avanzato e guardrail di sicurezza integrati.
Per approfondire
Andrew NG, riferendosi agli AI Agent, afferma addirittura che i workfow basati
su AI Agent guideranno il prossimo sviluppo dell’AI più della prossima
generazione di foundation models.
Online troviamo diversi schemi di workflow agentici, più o meno teorici. Con il
mio team, stiamo realizzando una sperimentazione con Alpinestars in cui usiamo
un workflow multi-agent per ottenere traduzioni di alcuni contenuti
dell’e-commerce in 9 lingue. Il seguente video mostra un'esempio di interazione.
Un sistema multi agent per generare traduzioni di qualità
COME FUNZIONA?
* I dati da tradurre vengono estratti dal database e consegnati da un agente
proxy al team di lavoro.
* Nel "team virtuale" sono presenti diversi agenti traduttori esperti del
dominio, ma con verticalità diverse, i quali si confrontano ottimizzando la
traduzione ad ogni interazione, migliorando i termini utilizzati, la forma,
ecc..
* Il lavoro passa a un agente SEO Specialist, che, accedendo anche a dei tool
di analisi delle ricerche degli utenti, suggerisce al team l’utilizzo di
determinati termini.
* Un agente specializzato nell'inserimento di link nei contenuti, sfruttando la
conoscenza dell’e-commerce, inserisce nel testo tradotto dei link strategici
verso le categorie più interessanti.
* Un agente editor manager produce la revisione finale ottimizzando l'output
(ad esempio, togliendo eventuali ripetizioni e migliorando le forme di
espressione nella lingua di destinazione).
* Infine, l'agente team leader consegna l’output che viene salvato nel
database.
Il sistema è stato realizzato usando Autogen come framework, mentre gli agenti
sono basati su modelli di OpenAI. Alcuni sfruttano anche il reasoning di
o3-mini.
QUALI SONO I VANTAGGI DI UN SISTEMA COME QUESTO?
* Specializzazione e collaborazione: ogni agente è verticale in un'attività e
collabora con gli altri per migliorare l’output.
* Scalabilità e flessibilità: per aggiungere ulteriori funzionalità al sistema,
è sufficiente aggiungere uno o più agenti con specifiche capability.
* Robustezza e affidabilità: nel workflow possiamo avere agenti dedicati al
controllo dei flussi e dell'output. Nell'esempio, l'agente "editor manager" e
"team leader" hanno proprio questa funzione.
--------------------------------------------------------------------------------
I sistemi agentici si stanno evolvendo rapidamente, e iniziamo a vedere
applicazioni interessanti. Un esempio è AI co-scientist di Google: un sistema
multi agent basato su Gemini 2.0 che genera ipotesi, pianifica esperimenti e
migliora in modo iterativo i risultati, fungendo da collaboratore virtuale per i
ricercatori.
Stanno nascendo, inoltre progetti come Manus. Si tratta di un nuovo AI agent
"generale" in grado di eseguire compiti attraverso la pianificazione e azioni
autonome, il tutto attraverso l'interazione multimodale di un LLM con un
computer.
La presentazione di Manus
Nel seguente esempio, invece, un agent (Operator di OpenAI) gestisce un altro
agente su Replit per sviluppare un’applicazione in modo autonomo. In questo
caso, non abbiamo un framework che gestisce gli agenti, ma si tratta di
un'interazione multimodale via browser.. esattamente come farebbe un essere
umano.
Operator di OpenAI che controlla l'agente di Replit
Quando ho visto questa interazione, ho pensato a un talk interessante che ho
visto recentemente: quello del CEO di Nvidia al CES di Las Vegas.
Nell'intervento, viene mostrata una traiettoria che unisce l'AI Generativa
all'AI Agentica, fino ad arrivare all’AI Fisica: un’AI che interagisce
direttamente con il mondo reale, trovando applicazioni, ad esempio, in ambito
della robotica.
Questo passaggio fa capire molto bene un aspetto del quale si parla troppo
poco.. o forse non se ne parla affatto:
> La differenza tra un workflow multi-agent in grado di produrre una traduzione
> di qualità (AI Agentica), e un workflow multi-agent in grado di controllare
> dei robot che gestiscono un magazzino (AI Fisica) non è poi così marcata:
> cambiano gli input, cambiano le istruzioni di orchestrazione, cambiano i tool
> a disposizione, che da digitali diventano fisici.. ma l'architettura del
> sistema è praticamente la stessa.
Per sottolineare ulteriormente questo concetto, Google DeepMind ha recentemente
rilasciato Gemini Robotics: un modello basato su Gemini 2.0 (lo stesso che
usiamo nella chat!) con l'aggiunta di "azioni fisiche" come tipologia di output
allo scopo di controllare direttamente i robot.
Gemini Robotics: un esempio di applicazione
Il robot nel video, è controllato dallo stesso modello che usiamo nella chat di
Gemini.
> Credo che il passaggio all'AI fisica renderà molto più tangibile per tutti il
> progresso di questi sistemi, perché traccerà lo switch di pensiero da
> considerarli "giochini che scrivono testo in una chat" a "robot che ci
> affiancheranno in qualunque mansione".
Per approfondire
Chi si ricorda il meme "Hey ChatGPT, finish this building.."?
Hey ChatGPT, finish this building
--------------------------------------------------------------------------------
GLI SVILUPPI FUTURI: MODELLI E HARDWARE
Abbiamo visto il passaggio dalla "scala" all'efficienza e al miglioramento
architetturale.. Ma tutto questo significa che l’evoluzione dei modelli si
fermerà? Assolutamente no: stanno emergendo già nuovi approcci e tecnologie
avanzate da questo punto di vista.
Allo stesso modo, anche l’hardware continuerà a evolversi rapidamente, come
dimostrato da Nvidia al CES 2025:
> ormai possiamo avere un supercomputer delle dimensioni di un laptop.
Forse, un giorno, potremo avere la potenza di calcolo, i dati sintetici e
l’efficienza necessari per tornare a ragionare sulla scala.. e magari ci
accorgeremo che le leggi di scala sono sempre state valide.
Non possiamo sapere come andrà, ma la direzione sembra chiara, e la scopriremo
insieme.. Ma sempre più attenti, sempre più critici, sempre più consapevoli..
Ma dovremo lavorare con impegno per acquisire queste qualità, attraverso studio,
ricerca, sperimentazione, e un approccio flessibile.
> Buon percorso.
--------------------------------------------------------------------------------
- GRAZIE -
Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre
persone, condividilo 🙂
ISCRIVITI ALLA NEWSLETTER
Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su
tematiche relative all'intelligenza artificiale.
Iscriviti alla Newsletter
Email sent! Check your inbox to complete your signup.
Gratuita. No Spam. Puoi disiscriverti quando vuoi.
Consulta la privacy policy.
> Buon aggiornamento, e buone riflessioni..
--------------------------------------------------------------------------------
UN CORSO GRATUITO SUGLI AI AGENTS
Microsoft ha rilasciato un corso gratuito dedicato agli AI Agents.
Un percorso in 10 lezioni che parte dalla comprensione del concetto di agente
fino allo sviluppo e alla produzione.
Un corso gratuito sugli AI Agents
Include anche esempi di implementazione di workflow multi-agent usando Autogen.
È un contributo davvero interessante. Insieme al corso "Generative AI for
beginners" lo terrei tra le risorse da consultare di casa Microsoft.
Vai al corso
--------------------------------------------------------------------------------
GROK 3 DI XAI
Il team di xAI ha presentato Grok 3, e ha annunciato che renderà open source
Grok 2 una volta che il 3 sarà "maturo".
Il modello è in due varianti (standard e mini) per bilanciare velocità e
accuratezza, e ha la componente di "reasoning", simile a quella di o3, di Gemini
e DeepSeek. La modalità "Big Brain", invece, è una versione ancora più potente,
che usa più potenza di calcolo per task complessi.
Non potevano mancare gli Agenti, con l'integrazione dell'ormai immancabile "Deep
Search", che recupera informazioni su X e online per creare report dettagliati.
Secondo il team, i modelli superano quelli di OpenAI su diversi benchmark.
Grok 3 di xAI
> Ormai il livello generale delle performance dei LLM è elevato, mentre il
> riferimento continua a rimanere GPT-4x (una costante da oltre un anno). I
> modelli stanno diventando sempre di più una commodity per creare applicazioni
> ibride (agenti) verticali.
UN TEST DEL MODELLO
Ho fatto alcuni test usandolo anche in configurazione di "reasoning", Deep
Search e generazione di immagini.
Un test di Grok 3
Il modello è senza dubbio performante, ma ho l'impressione che o3 abbia una
marcia in più nel reasoning.
La Deep Search è più veloce di quella di Gemini, ma anche meno approfondita:
probabilmente è una scelta. Quella di OpenAI rimane la più dettagliata.
Interessante la suddivisione tra risposta diretta e note dettagliate.
Attualmente il modello è primo nella LLM Chatbot Arena Leaderboard.
LLM Chatbot Arena Leaderboard
--------------------------------------------------------------------------------
LE NOVITÀ DI OPENAI
OpenAI ha fatto diversi rilasci nell'ultimo mese. Vediamo i più importanti.
IL LANCIO DI GPT-4.5
OpenAI annuncia GPT-4.5, ma non ha convinto. Altman non ha partecipato alla
presentazione, e ha lasciato un post su X abbastanza "sulla difensiva".
Il modello è ampio, e necessita di molta potenza di calcolo. Per questo, ha API
costosissime: x30 (input) e x15 (output) rispetto a GPT-4o, e x3 rispetto a o1..
> Mi chiedo in quale caso potrebbe aver senso usarle, considerando che non
> sembra che ci sia stato un forte balzo evolutivo. Anche perché, altrimenti,
> l'avrebbero definito GPT-5.
Scrivono, addirittura: "we’re evaluating to continue serving it in the API
long-term as we balance supporting current capabilities with building future
models".
Sembra quasi un rilascio di risposta ai competitor, utile a riprendere la
leadership, in attesa degli sviluppi successivi. Infatti il modello ha raggiunto
Grok-3 nella LLM Chatbot Arena Leaderboard.
Il lancio di GPT-4.5
Caratteristiche
GPT-4.5 viene descritto come il modello più potente di casa OpenAI. Sarà
disponibile per ChatGPT Pro e via API (per gli utenti Plus arriverà in seconda
battuta).
Grazie a un apprendimento non supervisionato avanzato, offre migliore
comprensione, minori allucinazioni e interazioni più naturali.
* Maggiore accuratezza e affidabilità nelle risposte.
* Interazioni più fluide, empatiche e contestualizzate.
* Eccellenza in scrittura, programmazione e risoluzione di problemi complessi.
* Riduzione significativa degli errori e delle informazioni inesatte.
> Il fatto che la "scala" OGGI non sia più una leva di crescita delle
> performance è sempre più evidente. Questo sembra davvero un rilascio
> dimostrativo solo per "guardare" (su ChatGPT) ma "non toccare" (via API).
DEEP RESEARCH DISPONIBILE ANCHE PER GLI UTENTI PRO
L'agent di Deep Research è stato rilasciato anche per gli utenti Plus.
L'ho provato. Il sistema, inizialmente, fa domande di follow-up se la richiesta
è troppo generica, e successivamente fa partire il lavoro di "scoperta".
* Inizia con una ricerca, e man mano che analizza risultati, espande
l'approfondimento degli argomenti.
* Mostra sia il flusso di ragionamento, sia la lista delle fonti.
* Lavora in maniera leggermente diversa dall'agent di Google: mentre Gemini
crea un piano d'azione sugli argomenti e chiede conferma prima di iniziare,
l'agent di OpenAI costruisce il piano in base all'esplorazione.
* Il risultato di OpenAI sembra più curato ed esteso, infatti è anche più
lento: la stessa ricerca ha impegnato qualche minuto Gemini e quasi 17 minuti
ChatGPT.
Un test di Deep Research su ChatGPT
> È affascinante vedere questi sistemi in esecuzione, e permettono di creare dei
> report finali che fanno risparmiare grandi quantità di lavoro in fase di
> analisi.
O1 E O3 ORA SUPPORTANO IL CARICAMENTO DI FILE E IMMAGINI
Un passo in avanti è stato fatto, ora manca Code Interpreter per l'analisi dei
dataset.
Nell'esempio, carico un documento tecnico e fornisco istruzioni a ChatGPT per
estrarre tutti i dati in modo strutturato.
o3-mini: l'elaborazione di documenti
> Con o3, ultimamente, sono riuscito a eseguire operazioni che mi hanno davvero
> fatto risparmiare molto tempo.
L'INTERAZIONE CON CHATGPT VIA WHATSAPP
Si evolve l'interazione di ChatGPT via WhatsApp, con la possibilità di caricare
immagini e interagire attraverso messaggi vocali.
L'interazione con ChatGPT via Whatsapp
> Sembra un aggiornamento banale, ma intercetta esattamente le dinamiche delle
> interazioni tra le persone, rendendo il sistema usabile da chiunque.
--------------------------------------------------------------------------------
CLAUDE 3.7 SONNET DI ANTHROPIC
Anthropic lancia Claude 3.7 Sonnet, con la funzionalità di "reasoning" (nella
versione estesa solo per utenti Pro).
Nel post di presentazione viene descritto come un approccio diverso dai
competitor: un unico modello che può essere sfruttato con o senza ragionamento
avanzato.
> Sinceramente, credo che la base sia la stessa anche per i competitor. Grok, ad
> esempio, funziona allo stesso modo, e anche GPT-5 uniformerà completamente i
> modelli di OpenAI.
L'ho provato, e chiaramente è molto performante, e, come sempre, lato coding è
tra i migliori.
Un test di Claude 3.7 Sonnet
> Ormai siamo a un punto di convergenza nelle performance: ogni nuovo modello
> supera leggermente i competitor, fino a un nuovo rilascio di questi ultimi.
Vai al post
--------------------------------------------------------------------------------
IL MODELLO DI "REASONING" DI GEMINI
Anche in casa Google è arrivato il modello di "reasoning" nella chat di Gemini.
In due versioni: "2.0 Flash Thinking" e "2.0 Flash Thinking with apps". La
differenza è che il secondo può accedere anche alla Search, a YouTube e a Maps.
Gemini 2.0 Flash Thinking
> Nel video si vedono alcuni test dei due sistemi. È davvero molto interessante
> l'unione tra la ricerca online e il reasoning.
Tra i nuovi modelli, è a disposizione anche Gemini 2.0 Pro (Experimental).
Tutti questi modelli sono già nelle prime posizioni nella Chatbot Arena LLM
Leaderboard.
Ora manca un'integrazione solida in Workspace e il cerchio sarà chiuso.
--------------------------------------------------------------------------------
GEMINI CODE ASSIST
Google ha annunciato il rilascio gratuito di Gemini Code Assist, un potente
assistente AI per la programmazione basato su Gemini 2.0.
Ora disponibile per tutti gli sviluppatori, supporta tutti i linguaggi di
programmazione pubblici e offre suggerimenti avanzati per la scrittura e
revisione del codice.
0:00
/0:07
1×
Gemini Code Assist
Rispetto ad altri strumenti gratuiti, offre fino a 180k completamenti di codice
al mese.
Integrazione diretta con GitHub per revisioni AI-powered: rileva errori,
migliora la qualità del codice e si adatta a linee guida personalizzate.
Compatibile con Visual Studio Code, JetBrains IDEs, Firebase e Android Studio,
permette agli sviluppatori di lavorare in modo più efficiente con AI
direttamente nei loro ambienti di sviluppo.
Vai al post
--------------------------------------------------------------------------------
LA DEEP RESEARCH DI PERPLEXITY
Perplexity introduce diversi sistemi a supporto della ricerca, tra cui "Deep
Research".
La Deep Research di Perplexity
Il funzionamento è in linea con gli omonimi agenti di Google, OpenAI e con i
numerosi progetti open source simili: viene delineato un piano d'azione, avviate
le ricerche, e viene restituito un report dettagliato (anche ascoltabile). Le
fonti e il materiale multimediale (immagini e video) sono consultabili.
> Agenti di questo tipo diventano sempre più integrabili e personalizzabili
> facilmente.
--------------------------------------------------------------------------------
QUANTIZZAZIONE DINAMICA DI DEEPSEEK
La quantizzazione, cioè la tecnica usata per ridurre le dimensioni e il consumo
di memoria di un LLM senza perdere troppa precisione, non è un processo
standard.
Il team di Unsloth, ad esempio, ha ridotto le dimensioni di DeepSeek R1 dell'80%
mantenendo buone performance ed efficienza.
Quantizzazione dinamica di DeepSeek
Hanno usato una quantizzazione dinamica mantenendo alcune parti più precise (ad
esempio, i primi tre strati densi e alcune proiezioni MoE a 4 o 6 bit), mentre
altre vengono ridotte fino a 1.58-bit.
Vai al progetto
--------------------------------------------------------------------------------
MATQUANT DI GOOGLE DEEPMIND
Google DeepMind presenta MatQuant: una nuova tecnica di quantizzazione
multi-scala che sfrutta la struttura nidificata degli interi (Matryoshka
structure) per ottimizzare modelli a diverse precisioni (int8 → int4 → int2)
senza sacrificare l'accuratezza.
ALCUNI RISULTATI
* Gemma-2 9B (int2) con MatQuant è +8% più accurato rispetto alla
quantizzazione tradizionale.
* Mistral 7B (int2) migliora di +6,3%, riducendo la perdita di qualità nei
modelli ultra-compressi.
* Performance di int4 e int8 comparabili ai baseline, con maggiore efficienza.
* Interpolazione tra bit-widths (int6, int3) senza ulteriore addestramento.
* Mix'n'Match per combinare diverse precisioni nei layer, ottimizzando costi e
latenza.
MatQuant di Google DeepMind
Un passo avanti per l’efficienza dell’AI, con modelli flessibili e adatti a
diverse configurazioni hardware.
Vai al paper
--------------------------------------------------------------------------------
NSA (NATIVELY TRAINABLE SPARSE ATTENTION)
DeepSeek pubblica un nuovo paper dedicato all'efficientamento dei LLM.
NSA (Natively trainable Sparse Attention) è un nuovo meccanismo che introduce
un'architettura di attenzione sparsa che:
* riduce il numero di operazioni di attenzione senza sacrificare la qualità
delle predizioni;
* è ottimizzata per l'hardware moderno, migliorando l'efficienza;
* può essere allenata end-to-end, evitando il pre-training su "full attention".
Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse
Attention
Long-context modeling is crucial for next-generation language models, yet the
high computational cost of standard attention mechanisms poses significant
computational challenges. Sparse attention offers a promising direction for
improving efficiency while maintaining model capabilities. We present NSA, a
Natively trainable Sparse Attention mechanism that integrates algorithmic
innovations with hardware-aligned optimizations to achieve efficient
long-context modeling. NSA employs a dynamic hierarchical sparse strategy,
combining coarse-grained token compression with fine-grained token selection to
preserve both global context awareness and local precision. Our approach
advances sparse attention design with two key innovations: (1) We achieve
substantial speedups through arithmetic intensity-balanced algorithm design,
with implementation optimizations for modern hardware. (2) We enable end-to-end
training, reducing pretraining computation without sacrificing model
performance. As shown in Figure 1, experiments show the model pretrained with
NSA maintains or exceeds Full Attention models across general benchmarks,
long-context tasks, and instruction-based reasoning. Meanwhile, NSA achieves
substantial speedups over Full Attention on 64k-length sequences across
decoding, forward propagation, and backward propagation, validating its
efficiency throughout the model lifecycle.
arXiv.orgJingyang Yuan
Il sistema è più veloce di 9-11x su sequenze di 64k token, e ottiene performance
uguali o superiori su diversi benchmark.
--------------------------------------------------------------------------------
L'EVOLUZIONE DEI MODELLI DI REASONING
Un paper molto interessante che esplora l'evoluzione dei modelli di reasoning
attraverso il concetto di recurrent depth.
Recurrent depth: l'evoluzione dei sistemi di reasoning
Come funziona?
Invece di generare lunghe Chain-of-Thought esplicite, il modello ripete i
calcoli internamente, ottimizzando il ragionamento in uno spazio latente. Questo
gli permette di adattare il numero di iterazioni a test-time in base alla
complessità del problema, senza bisogno di addestramento su dati specializzati.
* Migliore efficienza computazionale
* Migliori capacità di ragionamento senza contesti lunghi
* Test-time scaling: più iterazioni = migliori risposte
Vai al paper
> Un nuovo approccio per rendere l’AI più efficiente senza aumentarne le
> dimensioni.
--------------------------------------------------------------------------------
UN'INTERAZIONE MULTIMODALE TRA AI AGENT
Un esempio in cui Operator di OpenAI usa l'agent di Replit per creare
un'applicazione in modo autonomo.
Gli agenti possono interagire in diversi modi, ad esempio orchestrati in un
framework connesso a diversi tool.
In questo caso vediamo un'interazione in cui un agente sfrutta il browser e la
multimodalità per usarne un altro, agendo come farebbe un essere umano.
> this is wild 🤯🤯🤯
>
> just paired openai operator with replit agent to build an app
>
> watch as two ai agents team up, exchange credentials, and start testing
>
> ai agent 🤝 ai agent
>
> the future is here and it’s insane! pic.twitter.com/jIZnqW4fJD
>
> — Lamar (@LamarDealMaker) February 15, 2025
> Per il flusso sono stati usati 5 prompt.
--------------------------------------------------------------------------------
AI CO-SCIENTIST DI GOOGLE
Google ha sviluppato AI co-scientist, un sistema avanzato basato su Gemini 2.0
che funge da collaboratore virtuale per i ricercatori.
Utilizzando un approccio multi-agente, il sistema genera ipotesi originali,
pianifica esperimenti e migliora iterativamente i propri risultati, aiutando gli
scienziati a navigare tra enormi quantità di dati e a identificare nuove
direzioni di ricerca.
0:00
/0:13
1×
AI co-scientist di Google
Applicato in ambito biomedico, AI co-scientist ha già dimostrato il suo
potenziale proponendo nuovi bersagli terapeutici per la fibrosi epatica,
identificando farmaci riproposti per il trattamento della leucemia mieloide
acuta e formulando ipotesi innovative sui meccanismi della resistenza
antimicrobica.
Vai al post
> Questo significa accelerazione nel processo di scoperta e ricerca. Ma, essendo
> un sistema completamente "neurale" rimane fondamentale una validazione umana
> altamente qualificata, in veste della componente "simbolica".
--------------------------------------------------------------------------------
IL PIANO DELL'EUROPA DEDICATO ALL'INTELLIGENZA ARTIFICIALE
L'Europa presenta un piano per mobilitare circa 200 miliardi in investimenti per
l’AI.
Il proposito è interessante, con l'idea di creare una sorta di "CERN dedicato
all'intelligenza artificiale".
Criticità: il piano c'è, ed è in linea con l'obiettivo, ma non si parla di
tempi. Inoltre, in Europa, sono presenti centri di ricerca e università
d'eccellenza, ma mancano aziende che si occupano di intelligenza artificiale a
livello delle Big Tech.
Vai al post
EU AI Champions Initiative
Unlock Europe’s Full Potential in AI
EU AI Champions Initiative
--------------------------------------------------------------------------------
THREE OBSERVATIONS
Sam Altman, in un nuovo post, afferma che l'AI cresce in modo logaritmico
rispetto alle risorse investite. Concetto che richiama un comportamento previsto
dalle leggi di scala.
Afferma, inoltre, che il costo dell'AI diminuisce drasticamente (di 10x ogni 12
mesi).
Three Observations
Our mission is to ensure that AGI (Artificial General Intelligence) benefits all
of humanity. Systems that start to point to AGI* are coming into view, and so we
think it’s important to…
Sam Altman
Il fatto è che si basa su trend attuali, ma non è garantito che la crescita
dell’IA seguirà le stesse leggi di scala per sempre. Se il costo del computing
continua a scendere, potremmo assistere a un’accelerazione senza precedenti,
oppure a un cambio di paradigma che renderà le attuali previsioni obsolete.
Il vero test sarà capire se la qualità e la capacità dell’IA continueranno a
migliorare al ritmo previsto una volta che il costo computazionale diventerà
quasi trascurabile (i dati di qualità, la scarsità di chip avanzati, il costo
energetico saranno trascurabili?).
> Attualmente credo che architetture basate su agenti ibridi specializzati (es.
> sistemi neuro-simbolici) siano più interessanti e "immediate" della rincorsa
> verso la chimera dell'AGI basata su LLM.
--------------------------------------------------------------------------------
MAJORANA 1 DI MICROSOFT
Microsoft ha presentato Majorana 1, il primo chip quantistico basato
sull’innovativa architettura Topological Core. Questo nuovo approccio sfrutta
materiali chiamati topoconduttori per rendere i qubit più stabili e scalabili,
aprendo la strada a computer quantistici con un milione di qubit.
Questa tecnologia potrebbe trasformare settori chiave come la chimica, la
scienza dei materiali e l'AI, risolvendo problemi impossibili per i computer
tradizionali. Un passo avanti decisivo verso il futuro del quantum computing.
Majorana 1 di Microsoft
> Oggi ci stiamo accorgendo che ragionare solo sulla scala non ha più molto
> senso per l'evoluzione dell'AI. Ma "domani" nuove tecnologie potrebbero
> azzerare i limiti hardware e permettere di ottenere dati sintetici di qualità.
> Dovremo arrenderci all'amara lezione (rif. "The Bitter Lesson", Rich Sutton)?
> Lo scopriremo insieme.
Vai al post
--------------------------------------------------------------------------------
OMNIPARSER V2 DI MICROSOFT
Microsoft ha rilasciato OmniParser V2: un sistema open source in grado di
compiere azioni nell'interfaccia utente.
Non solo sul browser, ma si tratta di un sistema che usa un LLM in un Computer
Use Agent.
OmniParser V2 di Microsoft
> Il panorama di questa tipologia di agenti si sta arricchendo di giorno in
> giorno. E probabilmente saranno sempre più efficaci.
Vai al progetto
UN TEST DI OMNIPARSER V2
> Come fanno questi sistemi a eseguire azioni sui browser e su qualunque
> interfaccia grafica?
Questo è un esempio di utilizzo di OmniParser V2 in esecuzione in locale. Il
sistema elabora ciò che "vede" nello schermo, e lo converte in dati strutturati
che mappano e classificano ogni elemento.
Un test di OmniParser V2
I dati diventano contesto per un LLM, che può eseguire operazioni sugli
elementi.
--------------------------------------------------------------------------------
ANIMATE ANYONE 2
Il Tongyi Lab di Alibaba Group ha presentato Animate Anyone 2: un modello
avanzato in grado di animare immagini di personaggi.
Rispetto ai metodi precedenti, introduce un'importante innovazione:
l'integrazione dell'ambiente circostante nella generazione dell'animazione.
Animate Anyone 2
Non si limita a estrarre segnali di movimento da un video sorgente, ma analizza
anche il contesto ambientale (le aree senza personaggi) per creare animazioni
più coerenti.
Vai al progetto
--------------------------------------------------------------------------------
OPENDEEPRESEARCHER
Vedremo nascere diversi sistemi open source come "Deep Research" di OpenAI e
Google.
OpenDeepResearcher è un esempio. Riceve in input un topic, effettua ricerche
online, approfondisce l'argomento sviluppando e usando nuove query di ricercae;
infine fornisce un report dettagliato.
GitHub - mshumer/OpenDeepResearcher
Contribute to mshumer/OpenDeepResearcher development by creating an account on
GitHub.
GitHubmshumer
--------------------------------------------------------------------------------
VIDEOLLAMA3 DI ALIBABA
Alibaba introduce VideoLLaMA 3, un modello vision-centric, costruito per
migliorare la comprensione visiva attraverso immagini di alta qualità invece di
enormi dataset video-text meno precisi.
LE PRINCIPALI INNOVAZIONI
* Any-Resolution Vision Tokenization (AVT): elabora immagini e video a
risoluzioni variabili senza perdita di dettagli.
* Differential Frame Pruner (DiffFP): riduce i frame ridondanti nei video,
migliorando efficienza e precisione.
* Vision-Language Alignment: allena il modello con descrizioni dettagliate per
una comprensione più profonda.
* Dataset VL3-Syn7M: immagini accuratamente selezionate per garantire qualità
nei dati di addestramento.
VideoLLaMA 3 di Alibaba
PERFORMANCE
VideoLLaMA 3 supera i modelli precedenti in:
* OCR e documenti (InfoVQA, DocVQA)
* Ragionamento matematico visuale (MathVista)
* Comprensione multi-immagine (MMMU)
* Analisi avanzata dei video (VideoMME, MLVU)
> Grazie alla sua architettura ottimizzata e alla gestione più intelligente dei
> video, VideoLLaMA 3 rappresenta un nuovo punto di riferimento
> nell’intelligenza artificiale multimodale.
--------------------------------------------------------------------------------
WORKFLOW MULTI-AGENT: LA GESTIONE DEI FLUSSI
Nella costruzione di workflow multi-agent, i framework come Autogen permettono
di creare delle regole di intervento per gli agenti.
In questo modo, possiamo gestire in quali momenti serve iterazione, e in quali
momenti sequenzialità nelle azioni.
Un esempio di funzione per gestire i flussi degli agenti su Autogen
La funzione dell'esempio determina logiche di intervento degli agenti (StateFlow
pattern), e viene usata dall'orchestratore per concedere i turni durante le
interazioni.
--------------------------------------------------------------------------------
ALPHAGEOMETRY 2: LE PERFORMANCE
AlphaGeometry 2 di Google DeepMind ha superato i risultati di una medaglia d'oro
medio nelle Olimpiadi Internazionali di Matematica (IMO), raggiungendo un tasso
di soluzione dell'84% sui problemi di geometria (contro il 54% della prima
versione).
> Per quanto si ragioni su "chatbot" generici in grado di affrontare qualunque
> problema, gli agenti specializzati, secondo me, sono quelli che oggi possono
> raggiungere performance e affidabilità per affiancarci nella crescita in
> diversi ambiti.
AlphaGeometry, infatti, è un sistema neuro-simbolico, e funziona in questo modo:
* un LLM (Gemini) traduce il problema in un linguaggio più adeguato al sistema;
* il motore simbolico analizza i dati iniziali e mette a disposizione tutti i
teoremi applicabili;
* se la soluzione non è immediata (in un problema delle IMO di certo non lo è),
usa una combinazione di reti neurali (Gemini) e ricerca simbolica avanzata
per individuare costruzioni ausiliarie (deduzione);
* il motore simbolico verifica la correttezza, e se la soluzione non è
dimostrabile si torna a fare nuove deduzioni;
* il sistema restituisce la dimostrazione con i diagrammi necessari.
Le performance di AlphaGeometry 2 di Google DeepMind
> In pratica unisce il ragionamento simbolico (rigore e affidabilità) alla
> velocità e flessibilità delle reti neurali (intuizioni).
Vai al paper
Di certo si tratta di sistemi che non scalano velocemente e che sono più
difficili da costruire, ma l'affidabilità, in certi contesti, vince.
--------------------------------------------------------------------------------
AI MODE DI GOOGLE
Secondo 9to5Google, Google starebbe lavorando all'AI Mode: una nuova esperienza
che unisce la ricerca a un'interfaccia generata da Gemini 2.0.
Sundar Pichai aveva annunciato che il 2025 sarebbe stato un anno importante per
l'innovazione in Search.. sarà questo l'inizio?
E sarà un inizio deciso o un "vorrei, ma non posso"? Di certo, per vincere la
concorrenza con gli ibridi di questo tipo dovranno puntare su quello che sanno
fare meglio: la ricerca potenziata dai dati strutturati che hanno a
disposizione.
AI mode di Google
COS'È AI MODE?
Progettata per rispondere a domande più aperte, esplorative o molto specifiche
(es. i confronti), offrirà risposte più strutturate, con collegamenti per
approfondire sulle pagine web.
Un'interfaccia in stile chatbot permetterà di interagire in modo più dinamico,
con possibilità di follow-up e input vocale nell’app di Google.
Attualmente sarebbe in test per i dipendenti negli USA.
--------------------------------------------------------------------------------
MUSE DI MICROSOFT RESEARCH
Microsoft Research ha presentato Muse, un avanzato modello di AI generativa
progettato per supportare la creazione di gameplay. È basato sul World and Human
Action Model (WHAM), ed è in grado di generare ambienti di gioco e azioni dei
controller, simulando sequenze di gameplay realistiche.
Muse di Microsoft Research
È stato addestrato con dati raccolti dal gioco Bleeding Edge, e ha analizzato
oltre un miliardo di immagini e azioni di giocatori (più di sette anni di
gameplay).
Il modello offre agli sviluppatori uno strumento potente per esplorare nuove
idee, migliorando la creatività e l’iterazione nei processi di sviluppo.
Vai al paper
> Microsoft ha reso il modello open-source, insieme ai pesi, ai dati di esempio
> e a WHAM Demonstrator, un’interfaccia che consente di sperimentare
> direttamente le sue capacità.
--------------------------------------------------------------------------------
L'EVOLUZIONE DELLA CHAT DI MISTRAL
Mistral evolve la sua chat con diverse novità.
* Velocità: può rispondere fino a 1k parole/s con la funzione Flash Answer.
* Ricerca online: combina fonti di qualità, tra cui pagine web, editoriali,
social media.
* Multimodale: elaborazione di immagini, documenti e fogli di calcolo.
* Generazione di immagini: usa Flux Ultra, per ottenere output di qualità.
* Code interpreter: può sviluppare codice Python ed eseguirlo a supporto delle
risposte all'utente.
* Mobile: disponibile per iOS e Android via app.
The all new le Chat: Your AI assistant for life and work | Mistral AI
Brand new features, iOS and Android apps, Pro, Team, and Enterprise tiers.
Mistral AI
> L'ho provato. Quello che posso dire è che attualmente siamo lontani dalle
> performance dei competitor.
--------------------------------------------------------------------------------
OMNIHUMAN-1 DI BYTEDANCE
Bytedance, l'azienda cinese che possiede TikTok, ha presentato OmniHuman-1, un
framework avanzato per la generazione di video umani basato su un'unica immagine
e segnali di movimento come audio e video.
OmniHuman-1 di Bytedance
Grazie a una tecnica di addestramento multimodale, il modello supera i limiti
delle precedenti tecniche end-to-end, migliorando la qualità e il realismo dei
video generati.
Vai al progetto
> Le anteprime sono tecnicamente sbalorditive, ma aprono inevitabilmente diversi
> ambiti di riflessione.
--------------------------------------------------------------------------------
VIDEOJAM DI META
Meta introduce VideoJAM: un framework progettato per migliorare la generazione
di movimento nei modelli video.
VideoJAM di Meta
Il sistema mira a risolvere un limite dei modelli di generazione video: la
rappresentazione di movimenti realistici.
Vai al progetto
> L'aspetto più interessante? Il framework può essere applicato a qualsiasi
> modello di generazione video con minime modifiche, senza richiedere nuovi dati
> di addestramento o maggiori risorse computazionali.
--------------------------------------------------------------------------------
QWEN-2.5 MAX: GENERAZIONE VIDEO
Attraverso la chat di Qwen è ora possibile generare video.
Un esempio di generazione video con la chat di Qwen
Vai alla Chat
> La qualità generale di questo modelli è sempre più elevata.
--------------------------------------------------------------------------------
- GRAZIE -
Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre
persone, condividilo 🙂
ISCRIVITI ALLA NEWSLETTER
Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su
tematiche relative all'intelligenza artificiale.
Iscriviti alla Newsletter
Email sent! Check your inbox to complete your signup.
Gratuita. No Spam. Puoi disiscriverti quando vuoi.
Consulta la privacy policy.
> Buon aggiornamento, e buone riflessioni..
--------------------------------------------------------------------------------
I MIEI INTERVENTI AL SEARCH MARKETING CONNECT
In chiusura del 2024 ho tenuto due interventi durante il Search Marketing
Connect a Bologna. I seguenti video riportano i contenuti integrali.
L'EVOLUZIONE DELLA RICERCA ONLINE POTENZIATA DALL'AI: COME CAMBIANO LE
ESPERIENZE ONLINE?
I modelli di linguaggio (LLM) stanno cambiando la ricerca online, unendo le
caratteristiche dei motori di ricerca a processi basati sull'intelligenza
artificiale. Come funzionanoquesti sistemi? Come si stanno evolvendo? Verso
quale direzione ci stanno conducendo? Un viaggio per capire i cambiamenti in
atto e per prepararsi a essere protagonisti delle nuove esperienze di ricerca
che stanno trasformando l'accesso alle informazioni.
Search Marketing Connect 2024 - Alessio Pomaro
> I sistemi ibridi, che uniscono i LLM ai motori di ricerca, miglioreranno.
> Crescerà l'accuratezza nel determinare i contenuti rilevanti, grazie a sistemi
> come il "reranking". Aumenterà la qualità dell'inferenza, grazie al
> "reasoning" e a implementazioni multi-agent. I modelli, in generale, si
> evolveranno.
CAPITOLO 2: “REASONING” E SISTEMI MULTI-AGENTE
L'AI generativa si è evoluta grazie all'aumento delle dimensioni dei modelli, ma
oggi i maggiori progressi si stanno ottenendo grazie all'aumento della qualità
dell'inferenza. Due esempi: i sistemi di "reasoning" (es. i modelli "o" di
OpenAI) e i sistemi multi-agente. Facciamo chiarezza su questo cambiamento, con
esempi pratici di applicazioni.
Search Marketing Connect 2024 - Alessio Pomaro
> I workflow basati sugli AI Agent rappresenteranno un enorme progresso per le
> applicazioni basate sull'AI. Forse più della prossima generazione di modelli.
--------------------------------------------------------------------------------
O3-MINI DI OPENAI
o3-mini è stato rilasciato, e disponibile su ChatGPT e via API.
Prezzo? 4,40$/1M token (o1 costa 60$/1M token, DeepSeek costa 2,19$/1M token).
* Più veloce e preciso, con efficienza paragonabile a o1.
* Reasoning effort regolabile.
* Supporta function calling e output strutturati.
* Disponibile anche per gli utenti "free", usando l'opzione "Reason" (effetto
DeepSeek R1?).
* Supera o1-mini in matematica e coding, con miglioramenti significativi in
diversi benchmark.
* Più veloce del 24% rispetto a o1-mini.
L'ho provato su diversi task, su logica e coding.
Un test di o3 di OpenAI
> È chiaramente una soluzione molto interessante.
Vai al post
--------------------------------------------------------------------------------
GLI AGENTI DI OPENAI
OpenAI, sta arricchendo ChatGPT con una serie di agenti che estendono le
potenzialità del sistema. Gli agenti rappresentano lo sviluppo del layer di
integrazione: strumenti basati su LLM che eseguono autonomamente operazioni
specifiche.
> Lo step successivo sarà la possibilità di creare dei workflow multi agente? Un
> framework più avanzato per sviluppare agenti personalizzati?
OPERATOR
OpenAI ha presentato il progetto Operator, un AI Agent in grado di utilizzare un
browser web autonomamente per svolgere compiti complessi. Sfruttando il modello
Computer-Using Agent (CUA), basato su GPT-4o, Operator rappresenta una delle
prime implementazioni di agenti AI capaci di interagire con interfacce grafiche
proprio come farebbe un essere umano.
Un esempio di interazione con Operator
Operator è progettato per eseguire attività quotidiane in modo indipendente,
offrendo un’esperienza intuitiva e versatile. Ad esempio, può prenotare
ristoranti in piattaforme come OpenTable, fare la spesa online su siti come
Instacart, anche interpretando liste scritte a mano, prenotare biglietti per
eventi, ecc..
Garantisce il pieno controllo agli utenti con conferme esplicite, modalità
takeover per interventi su dati sensibili (es. login o pagamenti), protezioni
avanzate contro siti malevoli e comportamenti sospetti.
Raggiunge risultati promettenti in benchmark come WebArena e OSWorld, ma è in
continuo miglioramento per gestire flussi di lavoro più complessi e situazioni
impreviste.
Per ora, è disponibile solo negli USA e con account Pro.
Vai al progetto
> Questo progetto rappresenta un passo verso agenti autonomi sempre più
> avanzati, che semplificheranno processi quotidiani e trasformeranno il nostro
> rapporto con la tecnologia.
DEEP RESEARCH
Dopo Operator, viene introdotto Deep Research: un nuovo agente che unisce il
"reasoning" alla ricerca.
Un sistema in grado di effettuare ricerche online approfondite e multi step
sintetizzando i contenuti e ragionando autonomamente su di essi.
Crea un piano d'azione, l'utente può confermarlo o modificarlo, e procede
estraendo le fonti ed elaborandole.
Non ha limiti di latenza, quindi può impiegare anche 30 minuti per fornire
risposte di qualità superiore.
Deep Research di OpenAI
In pratica, funziona come l'omonimo agente in casa Google (Gemini 1.5 Pro with
Deep Research): secondo me, quello più utile e interessante.
Vai al progetto
> Inizialmente sarà solo per utenti Pro.
--------------------------------------------------------------------------------
LA NATURA E LA DIREZIONE DEL CONCETTO DI AI AGENT
Il keynote di Jensen Huang al CES, scremato dai vari "effetti wow", traccia una
traiettoria che permette di capire meglio la natura e la direzione del concetto
di AI Agent.
> Un concetto di cui si parla ovunque, ma che non credo sia compreso
> completamente.
Credo che il passaggio che descrive il CEO di Nvidia, tra AI Agentica e AI
Fisica sia utile a comprendere meglio il potenziale in gioco. Sì, perché fa
capire che..
> la differenza tra l'interazione di più agenti per scrivere l'articolo di un
> blog o un blocco di codice, e l'interazione tra robot per gestire un magazzino
> è solo negli obiettivi, nelle istruzioni e negli attuatori (o tool, o skill) a
> disposizione dagli agenti stessi.
Forse, con questi esempi, diventano anche più chiari i timori di cui ha parlato
spesso Geoffrey Hinton dicendo: una volta che verrà dato un obiettivo a un
sistema autonomo, quanto saranno controllabili le azioni intermedie che compirà
per raggiungerlo?
Il keynote di Jensen Huang al CES
Torniamo sempre allo stesso concetto: più aumenta il potenziale di una
tecnologia, più gli attuatori che colleghiamo ad essa diventano potenti, e più
diventa urgente un controllo, una regolamentazione e un lavoro cooperativo a
livello globale per gestirne l'utilizzo e l'impatto.
--------------------------------------------------------------------------------
GEMINI 2.0 FLASH THINKING
Alcuni esempi del modello di "reasoning" di Google: Gemini 2.0 Flash Thinking.
Sono rimasto colpito dal potenziale.. e non a caso, nel momento in cui sto
scrivendo questo contenuto è al primo posto della Chatbot Arena LLM Leaderboard.
Un test di Google Gemini 2.0 Flash Thinking
L'ho provato su un task di coding e uno multimodale, in cui il sistema elabora
un file MP3 di un dialogo, trascrivendolo con la suddivisione degli speaker.
--------------------------------------------------------------------------------
DEEPSEEK R1: NAVIGAZIONE WEB + REASONING
DeepSeek R1 permette un'azione che mi ha davvero stupito, non realizzabile con
o1 di OpenAI: unisce la ricerca online al "reasoning".
Nel prompt dell'esempio, chiedo al modello di cercare online la documentazione
di Magentic-One (un AI agent per l'automazione del browser), e di implementare
un sistema che cerca su Amazon un prodotto e genera un report, mostrandomi anche
gli screenshot di navigazione.
> DeepSeek diventa un modello di "reasoning" evoluto, in grado di "documentarsi"
> online per sviluppare.
Nelle immagini si vede anche l'esecuzione del codice su Colab, con il risultato
e gli screenshot.
DeepSeek R1: navigazione web + reasoning
> Le fasi di prototipazione e di ottimizzazione possono avere degli interessati
> benefici.
--------------------------------------------------------------------------------
DEEPSEEK R1 IN LOCALE, SUL MIO LAPTOP
Ho provato DeepSeek R1 in locale, sul mio laptop.
La versione è la 8B, basata su architettura LLaMA, con quantizzazione a 4 bit
(Q4_K_M).
I task di test sono semplici (classificazione e sintesi), ma, pur essendo
quantizzato a 4 bit la qualità è sorprendente.
La velocità non è grandiosa, ma con l'hardware che ho usato è tutto come da
aspettative. Però è chiaro che, con l'aumento della qualità dei modelli open
source, con un discreto supporto di GPU (che consente di usare LLM più grandi e
quantizzazioni meno severe), e magari con architetture basate su sistemi
multi-agente, ormai si possono ottenere ottimi risultati in locale.
DeepSeek R1 in locale, sul mio laptop
> Questo tipo di sperimentazione, inoltre, fa ragionare meglio sulla potenza dei
> modelli che usiamo in base ai task da compiere. Queste ottimizzazioni, in
> ottica di applicazioni multi agente, possono migliorare le infrastruttura e
> ridurre i costi.
--------------------------------------------------------------------------------
QWEN 2.5 MAX
> Siamo in un momento in cui i modelli della stessa classe hanno prestazioni
> sempre più simili. Anche il prezzo per token generale, secondo me, tenderà a
> ridursi drasticamente (a zero). Il tutto renderà i LLM delle vere e proprie
> commodity, e ciò che farà davvero la differenza sarà l'integrazione e
> l'architettura che li saprà sfruttare meglio.
Durante il "frastuono" DeepSeek, infatti, Alibaba ha rilasciato diversi modelli,
tra cui Qwen 2.5 Max.
È basato su Mixture-of-Experts (MoE), addestrato su oltre 20 trilioni di token e
perfezionato con tecniche avanzate come Supervised Fine-Tuning (SFT) e
Reinforcement Learning from Human Feedback (RLHF).
L'ho provato in diversi task, ed è indubbiamente evoluto. Dai dati, batte
diversi modelli in diversi benchmark, tra cui DeepSeek V3.
Alcuni test di Qwen 2.5 Max
> L'integrazione? Ormai le chiamate API sono intercambiabili: basta cambiare un
> parametro per provare qualunque modello.
Vai al post
--------------------------------------------------------------------------------
IL PROGETTO MARINER DI GOOGLE
Il progetto Mariner di Google è un esempio di unione tra i concetti di AI Agent,
multimodalità, e reasoning.
Si tratta di un sistema agentico basato su Gemini 2.0 in grado di automatizzare
processi nel browser interagendo con l'utente.
Il progetto Mariner di Google
Per ogni task crea un piano attraverso catene di ragionamento, descrive le
operazioni e le esegue.
Nella demo viene specificato che non lavora in background, per sottolineare il
concetto di "human in the loop" e di "co-working".
Vai al progetto
> Tuttavia, è possibile realizzare sistemi simili completamente autonomi e
> automatizzati, con framework come Autogen e tool che eseguono la navigazione
> attraverso il browser.
--------------------------------------------------------------------------------
AGENTS: UN PAPER DI GOOGLE DEDICATO AI SISTEMI AGENTICI
Google ha pubblicato un paper sullo sviluppo di sistemi basati su AI Agent.
Gli agenti rappresentano un passo avanti per l'intelligenza artificiale
generativa, permettendo ai LLM di andare oltre la semplice elaborazione del
linguaggio.
Grazie a strumenti come API Extensions, Data Stores e framework di ragionamento
avanzati (es. ReAct, Chain-of-Thought), gli AI Agent possono interagire con il
mondo reale, prendere decisioni autonome e completare task complessi.
Agents: un paper di Google dedicato ai sistemi agentici
PUNTI CHIAVE
* Autonomia. Gli agenti combinano ragionamento, logica e accesso a dati esterni
per eseguire azioni in modo indipendente.
* Strumenti avanzati. L'uso di Extensions e Data Stores li rende capaci di
accedere a informazioni in tempo reale e integrarsi in sistemi esistenti.
* Applicazioni. Dallo sviluppo di tool con LangChain alla gestione end-to-end
tramite Vertex AI, le opportunità sono immense.
Vai al paper
> Il futuro? L’adozione di architetture collaborative, come il “mixture of agent
> experts”, promette di affrontare con successo problemi complessi, offrendo
> soluzioni sempre più scalabili e innovative.
--------------------------------------------------------------------------------
LA NUOVA VERSIONE DI AUTOGEN DI MICROSOFT
Microsoft rilascia la versione 0.4 "stable" di Autogen (il noto framework per
applicazioni multi-agent), e il nuovo Autogen Studio.
L'aggiornamento migliora scalabilità, robustezza e flessibilità, affrontando le
limitazioni delle versioni precedenti grazie a un'architettura asincrona e
basata su eventi.
LE NOVITÀ
1️. Scambi asincroni. Supporta interazioni dinamiche e scalabili tra AI Agent.
2️. Modularità. Gli utenti possono personalizzare agenti, strumenti, memoria e
modelli, rendendo il sistema adattabile.
3️. Osservabilità e debugging. Metriche integrate, tracciabilità e supporto
OpenTelemetry per monitorare e controllare i flussi di lavoro.
4️. Supporto multi linguaggio. Interoperabilità tra agenti scritti in Python,
.NET (e presto altri).
5️. Strumenti migliorati. AutoGen Bench per il benchmarking delle performance
degli agenti, e AutoGen Studio, un'interfaccia low-code per prototipare agenti
AI, con funzioni come controllo in tempo reale e visualizzazione dei messaggi.
Nelle immagini, si può vedere proprio un sistema che ho realizzato con questo
sistema.
Esempi di utilizzo di Autogen Studio e Magentic-One
Tra le applicazioni, è disponibile Magentic-One, che permette dei flussi
multi-agent già impostati per coding, ricerca web e ricerca tra i file. Nelle
immagini è possibile vederne un'esecuzione dalla console Python: il sistema fa
una ricerca online per eseguire il mio task.
Vai al post
> Lo sviluppo di architetture multi-agent migliora, e migliorano le potenzialità
> e le performance delle applicazioni. Autogen Studio lo trovo ancora troppo
> acerbo, ma l'inizio è notevole.
UN TEST DI MAGENTIC-ONE
In questo test basato su Magentic-One, ho usato il componente
MultimodalWebSurfer.
Un test di Magentic-One
Naviga online per eseguire una richiesta, mostrando anche gli screenshot delle
pagine che processa. Infine completa il task rispondendo alla mia domanda.
Vai a un altro test
--------------------------------------------------------------------------------
TITANS: UN'EVOLUZIONE DEI TRANSFORMER
Google Research ha presentato Titans, una nuova architettura che introduce un
modulo di memoria neurale a lungo termine. Non si tratta di uno stravolgimento
dei Transformers, ma di una variante che ne estende le capacità, affrontandone i
limiti principali.
Titans di Google
COME FUNZIONA?
Titans aggiunge una memoria a lungo termine che lavora insieme al noto
meccanismo dell'attenzione, ottimizzando il recupero delle informazioni dal
passato senza limitarsi alla finestra di contesto immediata. Questo permette di:
* ricordare informazioni lontane nel tempo;
* gestire sequenze molto estese (oltre 2 milioni di token);
* mantenere efficienza con un'inferenza veloce e scalabile.
UN CONTRIBUTO DISTINTIVO
Una delle innovazioni più interessanti di Titans è la capacità di imparare a
memorizzare durante il test. Questo è reso possibile grazie a un meccanismo di
apprendimento basato sulla "sorpresa": il gradiente della rete rispetto al suo
input viene usato come misura della sorpresa. I dati più inaspettati o
sorprendenti vengono prioritizzati per la memorizzazione, imitando il modo in
cui gli esseri umani trattengono più facilmente le informazioni nuove. Questo
processo è potenziato da un meccanismo di "decadimento" che evita il
sovraccarico delle risorse di memoria.
PERCHÉ È RILEVANTE?
I Transformers sono eccellenti per contesti brevi, ma diventano meno efficaci
con sequenze più lunghe. Titans combina tre tipi di memoria (breve termine,
lungo termine, persistente) per migliorare compiti complessi come modellazione
linguistica, ragionamento, genomica (analisi di dati genetici) e analisi di
serie temporali.
NON UNO STRAVOLGIMENTO, MA UN'EVOLUZIONE
Titans arricchisce i Transformers con nuove funzionalità senza riscrivere
l'architettura da zero. È un passo importante verso modelli che possono gestire
contesti enormi in modo più naturale ed efficiente.
Vai al paper
> Una nuova era per l'AI? Titans potrebbe segnare l'inizio di un nuovo capitolo
> nei modelli di linguaggio, promettendo di sbloccare scenari inediti per
> applicazioni complesse e agenti più intelligenti.
--------------------------------------------------------------------------------
GENERAZIONE DI IMMAGINI: UN PAPER DI GOOGLE
> Il lavoro sull'aumento della qualità dell'inferenza, invece di concentrarsi
> "solo" sulla scala dei modelli, è un trend che coinvolge non solo i LLM, ma
> anche i modelli di diffusione (generazione di immagini).
Il paper di Google DeepMind studia un modo per migliorare i modelli di
diffusione, non solo durante il training ma anche quando vengono usati per
generare immagini (inferenza).
Normalmente, questi modelli migliorano aumentando il numero di "step di pulizia"
(denoising), ma oltre un certo punto i miglioramenti diminuiscono drasticamente.
Si propone un nuovo approccio: invece di fare solo più step di denoising, si
cerca di trovare i migliori "punti di partenza" (rumori iniziali) per il
processo di generazione. Questo avviene attraverso un sistema che combina
strumenti per valutare la qualità delle immagini e algoritmi per esplorare nuove
opzioni.
Generazione di immagini: un paper di Google
Con questa strategia, si riescono a creare immagini più realistiche e migliori,
adattando il metodo alle esigenze di ogni situazione, come immagini condizionate
da un testo o classi specifiche.
> In parole semplici, il paper mostra che usando meglio le risorse
> computazionali durante l'inferenza, si possono ottenere risultati molto
> migliori dai modelli senza agire sulla scala.
Vai al paper
--------------------------------------------------------------------------------
BROWSER USE
Stanno nascendo diversi AI Agent che lavorano come Operator di OpenAI. I più
interessanti che ho visto sono Magentic-One (visto in precedenza) e Browser Use.
Entrambi sono progetti open source usabili con poche righe di Python, e Browser
Use ha anche la versione Cloud, con una comoda interfaccia web (costo:
30$/mese).
Anche con proxy, autenticazione persistente, cronologia dei messaggi e
"intervento umano" nelle azioni di automazione.
Browser Use - Make websites accessible to AI agents
Make websites accessible for AI agents. Extract interactive elements and
automate browser interactions.
Enable AI to control your browser
Browser Use supera Operator nel benchmark definito "WebVoyager".
* Browser Use: https://browser-use.com/
* Versione in Cloud: https://cloud.browser-use.com/
--------------------------------------------------------------------------------
CHAIN-OF-AGENTS (COA)
Google Research propone un nuovo approccio per la gestione di contesti lunghi:
Chain-of-Agents (CoA).
Gli input vengono suddivisi in segmenti, ognuno dei quali viene elaborato da un
AI Agent. Gli agenti del team comunicano le informazioni all'agente manager, il
quale crea un output per l'utente.
Nel paper vengono testati diversi LLM, tra cui Gemini e Claude, con risultati
che superano l'approccio RAG e l'uso di modelli con contesti estesi.
Chain of Agents: Large language models collaborating on long-context tasks
> Su input che superano i 400k token le performance migliorano anche del 100%.
--------------------------------------------------------------------------------
GLI AMBIENT AGENTS DI LANGCHAIN
LangChain introduce il concetto di "ambient agents", ovvero AI Agent che non
agiscono in base a interazioni con gli utenti (es. una richiesta in chat), ma in
base al verificarsi di eventi.
Introducing ambient agents
Most AI apps today follow a familiar chat pattern (“chat” UX). Though easy to
implement, they create unnecessary interaction overhead, limit the ability of us
humans to scale ourselves, and fail to use the full potential of LLMs. Over the
past six months, we’ve been exploring a different approach at
LangChain BlogHarrison Chase
Gli agenti monitorano dei flussi di eventi, e agiscono autonomamente, in base al
loro addestramento e ai tools che hanno a disposizione. Coinvolgono l'utente
solo quando è necessario attraverso notifiche, per approvazioni o richieste di
informazioni aggiuntive.
> Ad esempio, potrebbero monitorare le mail in ingresso, e agire su alcune di
> esse per automatizzare processi.
--------------------------------------------------------------------------------
TUTTO VIENE DEFINITO "AI AGENT"
Oggi tutto viene definito AI Agent: è il termine del momento. Ma non si tratta
di una novità (marketing a parte).. ChatGPT stesso si potrebbe definire un
agente, infatti si basa su un LLM che può usare autonomamente degli strumenti
(coding, web navigation, vision, image generation) per completare task forniti
in input. Così come i GPTs, che possono interagire con API esterne come tool.
Gli aspetti interessanti dell'attuale sviluppo in ambito di AI, invece,
riguardano i workflow multi-agent, e il concetto di "ambient agents". Ovvero
sistemi che mettono in gioco più agenti specializzati, ognuno con i propri tool,
che lavorano in team autonomi per completare task. Attivati non solo da input
diretti da parte degli esseri umani, ma da eventi, coinvolgendo gli utenti solo
quando è necessario.
> Questi meccanismi guideranno le prossime evoluzioni in ambito di AI, più delle
> nuove generazioni di modelli. Perché i modelli più performanti comunque
> lavoreranno in questi workflow potenziandoli ulteriormente.
Andrew Ng sul tema degli AI Agent
> E tutto questo non riguarderà solo il mondo digital, ma anche quello fisico,
> "semplicemente" con attuatori diversi (Physical AI).
--------------------------------------------------------------------------------
GOOSE
> L'open-source sta vivendo un momento straordinario nello sviluppo di soluzioni
> basate sull'AI.
DeepSeek ha lanciato V3 e R1, Alibaba ha presentato Qwen 2.5-1M, Microsoft con
la nuova versione di Autogen.
E Jack Dorsey ha presentato Goose, un framework open-source che semplifica la
creazione di AI Agent.
Il sistema permette di scegliere i LLM alla base degli agenti, e mette a
disposizione un'interfaccia desktop, una CLI (riga di comando) e integrazioni
con strumenti e applicazioni attraverso Model Context Protocol (MCP).
codename goose | codename goose
Your open source AI agent, automating engineering tasks seamlessly.
Block Logo
> È molto interessante vedere come l'attenzione si sta collocando non solo sui
> modelli (che ormai vengono dati per scontati e iniziano a equivalersi), ma
> anche sul layer di integrazione nelle applicazioni.
--------------------------------------------------------------------------------
IL PROGETTO COSMOS DI NVIDIA
Nvidia, dopo averlo raccontato al CES, inizia a mettere a disposizione strumenti
dedicati all'accelerazione dello sviluppo dell'AI "fisica" (Physical AI).
Cosmos è una piattaforma dedicata proprio a questo, attraverso World Foundation
Model (WFM), ovvero modelli costruiti per robotica, e veicoli autonomi.
Il progetto Cosmos di Nvidia
Include strumenti per elaborare dati visivi e video, creando modelli AI che
comprendono dinamiche fisiche e generano video di alta qualità basati su input
multimodali (immagini, testo, video).
Vai al progetto
> Nell'esempio, il modello riconosce gli elementi in una scena (che cambia), e
> li modifico attraverso prompt testuali.
--------------------------------------------------------------------------------
L'INTEGRAZIONE DI GEMINI SU CHROME
La forza dell'integrazione nell'ecosistema: Chrome > YouTube > Gemini.
Nel video, uso lo shortcode @Gemini, e scrivo un prompt direttamente nella barra
degli indirizzi di Chrome, includendo l'URL di un'intervista su YouTube.
L'elaborazione di un video di YouTube attraverso Gemini
Quello che ottengo, è l'elaborazione del contenuto del video su Gemini Advanced,
il quale si connette a YouTube per estrarre le informazioni necessarie.
> L'intervista dura quasi 3 ore, ma in qualche secondo ottengo le informazioni
> che cercavo.
--------------------------------------------------------------------------------
STORM: L'UNIONE DI UN LLM ALLA RICERCA ONLINE
Stanford lancia STORM, un sistema open source molto simile alla Deep Research di
Gemini (Google) e di OpenAI.
Utilizza modelli di linguaggio di grandi dimensioni (LLM) per generare articoli
in stile Wikipedia, basandosi su ricerche approfondite sul web, e fornendo le
citazioni.
STORM: l'unione di un LLM alla ricerca
Per provarlo
Co-STORM, una funzionalità ulteriore, estende STORM per supportare la
collaborazione tra esseri umani e modelli di AI. Include strumenti come mappe
concettuali dinamiche per semplificare il lavoro su argomenti complessi e
incoraggia il coinvolgimento umano per orientare le discussioni.
Vai alla libreria Python
--------------------------------------------------------------------------------
I TASK DI CHATGPT
ChatGPT, aggiungendo le "attività", prova ad accelerare il processo per
diventare un assistente personale per gli utenti.
La nuova funzionalità (beta), infatti permette di salvare delle attività
ricorrenti attraverso il linguaggio naturale, con la possibilità di gestirle e
modificarle successivamente.
Nell'esempio ho chiesto un report di notizie sull'AI ogni giorno alle 7:30.
Task di ChatGPT: un esempio
> L'unione del LLM con questo tipo di task è davvero interessante. Il top,
> sarebbe la possibilità di usare un prompt con dei GPT custom schedulati.
--------------------------------------------------------------------------------
LA CAPACITÀ DI RAGIONAMENTO DEI LLM: UN NUOVO BENCHMARK
> Entusiasmo sì, ma spirito critico sempre attivo.
Questo paper illustra un nuovo benchmark, chiamato Putnam-AXIOM, per valutare la
capacità di ragionamento matematico di modelli di linguaggio avanzati (LLM).
Come funziona? Viene usata una serie di problemi, sui quali vengono apportate
delle variazioni per capire se i modelli sono in grado di generalizzare o
lavorano per memorizzazione di soluzioni "già viste" in fase di addestramento.
Risultato: il modello più accurato che è stato testato (o1-preview) ha raggiunto
solo il 41.95% di accuratezza sul set originale, subendo un calo del 30% sui
problemi variati.
Putnam-AXIOM: un nuovo benchmark per i LLM
Questo dimostra che i modelli tendono a basarsi su memorizzazione piuttosto che
su un vero ragionamento.
Vai al paper
> Esistono già modelli più evoluti, ma il concetto cambierà? Lo scopriremo.
--------------------------------------------------------------------------------
AGENTIC RAG: UN NUOVO PARADIGMA
Avevo già fatto delle sperimentazioni unendo il concetto di RAG a un sistema
multi-agent, e questo paper ne definisce proprio il paradigma, con il termine
"Agentic RAG".
"Agentic Rag": un nuovo paradigma
Di fatto, i sistemi basati su workflow di AI Agent sono approcci per migliorare
la qualità dell'inferenza, e per rendere il sistema più affidabile.
Agentic RAG integra agenti autonomi nel flusso RAG per:
* gestire dinamicamente le strategie di recupero;
* rifinire iterativamente la comprensione del contesto;
* adattare i flussi di lavoro a compiti complessi, migliorando flessibilità,
scalabilità e consapevolezza contestuale.
Vai al paper
--------------------------------------------------------------------------------
AGENTS ARE NOT ENOUGH: AGENTS, SIMS, ASSISTANTS
In un interessante paper dal titolo "Agents Are Not Enough", si torna a parlare
di ibridi composti da reti neurali e AI simbolica.
Viene descritta una nuova architettura per superare le limitazioni degli AI
Agent, composta da:
1. Agenti Specializzati: moduli autonomi ottimizzati per compiti specifici,
capaci di collaborare tra loro per risolvere task complessi.
2. Sims: rappresentazioni virtuali degli utenti che combinano preferenze,
comportamenti e contesto. I Sims agiscono come avatar digitali per
interagire con gli agenti in modo personalizzato e sicuro.
3. Assistenti: interfacce intelligenti che orchestrano le interazioni tra Sims
e Agenti, garantendo che i compiti vengano eseguiti in maniera efficiente e
conforme alle esigenze dell’utente.
Agents Are Not Enough: Agents, Sims, Assistants
L’innovazione chiave è nell’integrazione tra reti neurali (adattabilità e
apprendimento) e AI simbolica (spiegabilità e trasparenza), creando un
ecosistema scalabile e affidabile, attento alla privacy.
Vai al paper
> Un passo avanti verso un'intelligenza artificiale più utile e sicura.
--------------------------------------------------------------------------------
I MODELLI TRANSFORMER NEL PLANNING STRATEGICO
Questo paper di Google DeepMind esplora l'idea di usare i modelli transformer
per affrontare il problema del planning strategico nel gioco degli scacchi.
Lo scopo principale è verificare se i transformer possono imparare a giocare a
scacchi e prendere decisioni strategiche senza fare una ricerca esplicita, come
fanno i motori tradizionali tipo Stockfish o AlphaZero.
> Il modello più grande (270M) è stato in grado di giocare a livello gran
> maestro con un Elo blitz di 2895 contro umani su Lichess.
I modelli transformer nel planning strategico
> I transformer riescono a generalizzare su nuove posizioni mai viste durante
> l’addestramento, dimostrando una capacità di ragionamento strategico.
Vai al paper
--------------------------------------------------------------------------------
SORA DI OPENAI: UN ESEMPIO DI SPOT PUBBLICITARIO
Come sarebbe lo spot per una campagna di un noto brand realizzato al 100% con
Sora di OpenAI (Text-To -Video)?
È un esperimento dimostrativo di Dave Clark, un creative director
professionista. Ci tengo a specificarlo per mettere in evidenza un concetto
importante: l'AI non genera skill, ma potenzia competenze già consolidate.
Un esempio di spot pubblicitario generato con Sora
Ci sarà chi critica a prescindere questi sistemi, chi dirà "è freddo e
senz'anima" (solo perché sa che è stato generato da un algoritmo), o chi andrà a
scomporre tutti i fotogrammi per trovare un'incoerenza..
> Probabilmente sì, è "freddo e senz'anima", ma questo non fermerà il progresso.
E le imprecisioni ci sono. Ma, secondo me, non si dovrebbe pensare a cosa sono
questi modelli oggi. Ma si dovrebbe ricordare cos'erano due anni fa, e cos'erano
un anno fa, per poi provare a immaginare quanto saranno di supporto alla
creazione tra un anno.
--------------------------------------------------------------------------------
VEO 2 DI GOOGLE: UN CORTOMETRAGGIO
Un cortometraggio dal titolo "Fade Out", realizzato da Jason Zada (regista
professionista) con Veo 2 di Google.
Il tentativo è stato quello di generare dettagli simili a quelli dei film (es.
movimenti della camera, illuminazione, texture, emozioni) "per creare una
storia, non un montaggio".
"Fade Out": un cortometraggio realizzato con Veo 2 di Google
> L'AI non genera skill, ma potenzia
> le competenze già consolidate.
--------------------------------------------------------------------------------
RAY2 DI LUMA LABS
Luma Labs ha rilasciato Ray2, un nuovo modello dedicato ai video. Inutile dire
che la qualità è impressionante.
* Realismo senza precedenti. Movimenti naturali e dettagli ultra-realistici.
* Versatilità creativa. Generazione Text-To-Video, Image-To-Video, editing
avanzato.
* Potenza amplificata. Architettura multimodale e potenza computazionale 10
volte superiore rispetto al modello precedente.
Video realizzati con Ray2 di Luma Labs
> Una nuova frontiera per l'immaginazione visiva?
--------------------------------------------------------------------------------
S2V-01 DI HAILUO: LA PERSONALIZZAZIONE DEL VIDEO
Hailuo presenta S2V-01, un nuovo modello di generazione video che si concentra
su una delle sfide più grandi del settore: mantenere i tratti del viso coerenti
e realistici, indipendentemente dalle inquadrature.
Genera video con personaggi da una sola immagine di riferimento, e ogni
fotogramma rimane fedele con accuratezza.
Un test di S2V-01 di Hailuo
Nel video un mio test: ho usato la mia immagine di profilo e dei prompt testuali
in cui descrivo le scene.
> I modelli di generazione video continuano a migliorare e ad evolversi.
--------------------------------------------------------------------------------
FLUX 1.1 PRO ULTRA
Ho fatto alcuni test con Flux 1.1 Pro Ultra.
La qualità delle immagini non stupisce più (ormai ci siamo abituati), ma
generare immagini di queste dimensioni in qualche secondo è impressionante.
Il modello, infatti, arriva fino a 4MP, con elevata aderenza al prompt in meno
di 10 secondi.
--------------------------------------------------------------------------------
FRAMES DI RUNWAY
Runway rilascia Frames, e il panorama della generazione di immagini cambia
nuovamente, con un altro player di peso.
Immagini generate attraverso Frames di Runway
Nella presentazione si parla di "controllo stilistico e fedeltà visiva senza
precedenti".. beh, lo vedremo, ma le anteprime non scherzano.
Vai al post
> Runway diventa una piattaforma per la content creation sempre più completa.
--------------------------------------------------------------------------------
INTELLIGENZA ARTIFICIALE E ISTRUZIONE: UNO STUDIO
Studio: in cinque moduli di un corso di laurea in psicologia, sono state inviate
alcune risposte create al 100% dall'AI, come se fossero scritte da studenti. I
professori che correggevano non lo sapevano.
Il 94% delle risposte generate non è stato rilevato come sospetto. L'algoritmo
ha ottenuto, in media, voti più alti rispetto agli studenti reali. In alcuni
casi, l'AI ha superato l'80% degli studenti.
Intelligenza Artificiale e Istruzione: uno studio
> L'esperimento ha dimostrato che l'AI può facilmente passare inosservata negli
> esami e che bisogna ripensare ai metodi di valutazione per affrontare questa
> nuova realtà.
Vai al paper
--------------------------------------------------------------------------------
- GRAZIE -
Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre
persone, condividilo 🙂
ISCRIVITI ALLA NEWSLETTER
Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su
tematiche relative all'intelligenza artificiale.
Iscriviti alla Newsletter
Email sent! Check your inbox to complete your signup.
Gratuita. No Spam. Puoi disiscriverti quando vuoi.
Consulta la privacy policy.
> Buon aggiornamento, e buone riflessioni..
--------------------------------------------------------------------------------
CI VEDIAMO AL SEARCH MARKETING CONNECT
Nei giorni 11 e 12 dicembre, a Bologna, ci sarà la diciottesima edizione del
Search Marketing Connect, che sarà orientata all'impatto dell'Intelligenza
Artificiale su SEO, Analytics, ADV, Digital Strategy e Content.
Terrò due interventi:
* il primo sulla ricerca online potenziata dall'AI;
* il secondo sulle nuove architetture volte ad aumentare la qualità
dell'inferenza nei modelli di linguaggio (sistemi di "reasoning" e
multi-agent).
In entrambi, porterò concetti, sperimentazione e riflessioni.
Vai al programma completo
--------------------------------------------------------------------------------
COSA SONO GLI AI AGENTS?
Tutti parlano gli AI Agents e sistemi multi-agente. Ma di cosa si tratta?
Spiegazione semplice: un agente è un sistema che usa un LLM come motore di
"ragionamento", ed è in grado di eseguire operazioni autonomamente per
raggiungere l'obiettivo richiesto.
Cosa sono gli AI Agents?
> Un GPT connesso a diverse API esterne è un semplice esempio di agente: è il
> LLM, in base alla richiesta e ai servizi ai quali può accedere, che decide le
> azioni da compiere.
Qui è possibile consultare un esempio di implementazione di un semplice agente
usando LangChain.
Build an Agent | 🦜️🔗 LangChain
By themselves, language models can’t take actions - they just output text.
🦜️🔗 LangChain
UN ESEMPIO DI APPLICAZIONE MULTI-AGENTE
Nel video, è possibile vedere un esempio di applicazione multi-agent su AutoGen
Studio, per pianificare il miglior periodo per una vacanza con determinate
caratteristiche.
Un'applicazione multi-agent su AutoGen Studio
Gli agenti coinvolti sono: un proxy che riceve la richiesta, il team leader,
l'esperto di meteorologia, l'esperto della Grecia e l'esperto di surf.
Ogni agente è basato su GPT-4o, e ha accesso a una knowledge specifica, o a tool
che estraggono dati via API in base alle interazioni.
> I vantaggi di sistemi di questo tipo: specializzazione, scomposizione di
> problemi complessi, scalabilità, flessibilità.
--------------------------------------------------------------------------------
MODEL CONTEXT PROTOCOL (MCP)
Anthropic introduce Model Context Protocol (MCP), uno standard che semplifica la
connessione degli agenti AI a fonti di dati locali e remote.
Grazie a sistemi di questo tipo, l'LLM può collegarsi alla knowledge senza
bisogno di connettori specifici, ma con "semplici" architetture client-server.
Introducing the Model Context Protocol
The Model Context Protocol (MCP) is an open standard for connecting AI
assistants to the systems where data lives, including content repositories,
business tools, and development environments. Its aim is to help frontier models
produce better, more relevant responses.
> Questo permette di aumentare la precisione e di creare ecosistemi più
> scalabili e sostenibili, accelerando la transizione verso sistemi di AI più
> "agentici" e collaborativi.
--------------------------------------------------------------------------------
LA RICERCA SU CHATGPT
OpenAI porta su ChatGPT l'esperienza (e i feedback) di SearchGPT e le
partnership editoriali nate nell'ultimo periodo.
Si basa su GPT-4o ottimizzato con nuove tecniche di generazione di dati
sintetici e di distillazione che sfrutta o1.
> L'ho provato. È senza dubbio migliorabile, ma mi sembra un ottimo inizio di
> una nuova esperienza di ricerca.
La ricerca su ChatGPT
Mancano le integrazioni che siamo abituati a trovare nelle SERP di Google, ad
esempio.. ma le potenzialità sono enormi.
Esempi di ricerca su ChatGPT
La capacità di distillare una grande quantità di fonti in pochissimo tempo è
stupefacente. La sintesi delle competizioni sportive è un esempio lampante.
> E vogliamo parlare dell'estensione per Chrome che permette di rendere la
> ricerca di ChatGPT quella di default del browser!?
COME FUNZIONA LA RICERCA SU CHATGPT?
Il dettaglio del video fa intuire la natura del funzionamento della ricerca di
ChatGPT.
Search su ChatGPT: come funziona?
È una sorta di RAG (Retrieval-Augmented Generation): la SERP di Bing è la lista
dei "documenti" che compongono la knowledge. Le informazioni vengono trasformate
in embeddings, e con una query vettoriale il LLM costruisce la risposta.
Nell'area "citazioni" sono presenti i documenti della knowledge con le parti più
vicine semanticamente alla query, e che, come nel RAG vengono indicate tra le
fonti della risposta.
> Questo cambia il paradigma di ricerca delle informazioni: la prima estrazione
> può essere anche poco precisa (rimanendo importante), mentre il lavoro
> semantico raffinato avviene in seconda battuta.
LA RICERCA SU CHATGPT NON È SEARCHGPT!
Ho letto diversi post in cui si afferma di aver scoperto che i risultati della
ricerca di ChatGPT derivano da Bing: È COSÌ, e la documentazione lo riporta in
modo chiaro (..ma bisogna leggerla!).
La ricerca su ChatGPT non è SearchGPT
È stata migliorata la distillazione dei risultati, vengono sfruttare le
partnership editoriali, ed è stata sfruttata L'ESPERIENZA di SearchGPT (i
feedback del prototipo) per migliorare le risposte della ricerca.
> Ergo: non leggiamo solo i titoli degli articoli che troviamo online. I
> concetti vanno approfonditi.
--------------------------------------------------------------------------------
AI OVERVIEWS SU GOOGLE SHOPPING NEGLI USA
L'esperienza di AI Overviews all'interno di Google Shopping nelle SERP USA è
davvero interessante.
AI Overviews su Google Shopping in USA
Google sta "spingendo" questa tecnologia dove (attualmente) non ha rivali,
ovvero nelle piattaforme in cui i risultati sono guidati dai dati strutturati.
> Anche se la recente integrazione dello "shopping" su Perplexity fa riflettere.
GOOGLE AI SALES ASSISTANT
Sembra che Google, inoltre, stia testando AI Sales Assistant in SERP,
raggiungibile attraverso una CTA "Shop" dopo i sitelink dei brand.
La chat permette di fare domande e affinare la ricerca dei prodotti.
Google AI Sales Assistant
> I dati ben strutturati, diventano sempre di più il motore che alimenta touch
> point digitali. E il sito web è solo uno di questi.
SEO è anche comprendere questo aspetto, e curare feed e dati strutturati.
--------------------------------------------------------------------------------
LO SHOPPING DI PERPLEXITY
Perplexity introduce "shopping", che permette di fare una ricerca con intento
d'acquisto, ottenere un listing di prodotti distillato dai risultati con
informazioni dettagliate, e acquistare direttamente dalla SERP.
La ricerca può essere anche visuale.. anzi, multimodale (immagine + query
testuale).
Per approfondire
> I sistemi basati sull'AI diventano sempre di più un intermediario tra l'utente
> e l'acquisto di prodotti e servizi.
--------------------------------------------------------------------------------
BRAVE SEARCH INTRODUCE "ANSWER WITH AI"
Una nuova funzionalità che distilla risposte in base ai risultati di ricerca, e
permette una conversazione con domande di follow-up.
Il sistema si basa sui dati dell'indice di Brave e su LLM open-source e
proprietari per la generazione di risposte.
Answer with AI di Brave Search
Lo stile è quello di AI Overviews di Google, con la risposta in alto e i
risultati tradizionali a seguire.
> Il panorama si amplia, e gli ibridi tra motore di ricerca e LLM diventano
> sempre di più parte dell'esperienza utente.
--------------------------------------------------------------------------------
LA VERSIONE DESKTOP DI CHATGPT
OpenAI ha rilasciato l'applicazione desktop per Windows e MacOS.
L'ho provata, e si capisce subito come la facilità di utilizzo aumenta.
La versione desktop di ChatGP
Alt + Spazio, e l'interazione è subito pronta per ricerche, azioni sui
documenti, "vision" sullo schermo, e voce.
--------------------------------------------------------------------------------
GOOGLE SEARCH PER I MODELLI GEMINI
Dopo la ricerca su ChatGPT arriva Google Search per i modelli Gemini. L'ho
provato.
La funzionalità si chiama "Grounding with Google Search" ed è molto simile a
quella di ChatGPT.
Grounding with Google Search
Permette, però, anche si gestire il "dynamic retrieval": un parametro per
impostare l'influenza del recupero dai risultati di ricerca nella risposta del
modello.
Interessante anche vedere come il sistema scompone la richiesta in diverse
query.
> L'aspetto interessante è che sarà usabile via API, consentendo agli
> sviluppatori di creare applicazioni più accurate.
--------------------------------------------------------------------------------
SISTEMI DI "REASONING": LA QUALITÀ DELL'INFERENZA
Durante il TED AI di San Francisco, Noam Brown (OpenAI), ha affermato:
> Si è scoperto che far riflettere un bot per soli 20 secondi durante una mano
> di poker ha ottenuto lo stesso miglioramento delle prestazioni che si
> otterrebbe aumentando le dimensioni del modello di 100.000 volte e
> addestrandolo per 100.000 volte più a lungo.
Si stava riferendo alla tecnica usata su sistemi come "o1", che probabilmente
tutti i modelli (anche di altri player) adotteranno prossimamente.
Sul palco dell'AI Festival, ho condiviso la riflessione:
> La potenza di calcolo e l'accesso a grandi set di dati saranno ancora
> sufficienti per progredire? O forse siamo arrivati in un momento in cui la
> scala potrebbe non bastare più, rendendo necessarie intuizioni innovative ed
> evoluzioni algoritmiche?
Alessio Pomaro: AI Festival 2024
Sembra, infatti, che il focus si stia spostando sulla qualità dell'inferenza e
su nuove architetture, e meno sulla scala del training (visto anche che i
progressi di Orion sembrano essere al di sotto delle aspettative).
> Successivamente, si dovrà cercare l'accuratezza e la "comprensione" coerente.
--------------------------------------------------------------------------------
COSA SONO GLI EMBEDDINGS?
Sentiamo sempre più spesso parlare di embeddings: di cosa si tratta, come si
generano, e come possono essere utili nei flussi operativi?
Una spiegazione semplice, con alcuni esempi di utilizzo:
Cosa sono gli embeddings? Esempi di utilizzo
Cosa sono e come funzionano gli embeddings (o incorporamenti): una spiegazione
semplice con alcuni esempi di utilizzo in ambito SEO, e riflessioni
sull’importanza della consapevolezza di questi sistemi.
Alessio PomaroAlessio Pomaro
In ambito SEO, ad esempio, possono essere utilizzati per creare delle
redirection automatizzate per le migrazioni degli e-commerce, per gestire i 404
e per rafforzare la rete di link interni.
> Facciamo anche alcune importanti riflessioni sull'importanza della
> consapevolezza di questi sistemi per ottenere performance.
Per approfondire
--------------------------------------------------------------------------------
KLING CUSTOM MODEL E SUNO V4
Con questo video vediamo due novità incredibili: Kling Custom Models e Suno v4.
Kling Custom Model e Suno V4
Kling ora permette un training per la coerenza dei personaggi attraverso dei
video di esempio. Il video è stato creato da Alex Patrascu, addestrando Kling a
riprodurre sé stesso.
L'audio del video è stato realizzato con l'ultima versione di Suno, la 4. Anche
le tracce audio iniziano ad avere una qualità importante.
> Il risultato è.. una parte del futuro della content creation.
--------------------------------------------------------------------------------
RUNWAY: FRAMES + EXPAND VIDEO
Runway ha presentato due nuove funzionalità molto interessanti (una dedicata
alle generazione delle immagini).
FRAMES
Frames è un nuovo modello di generazione di immagini di Runway.
Le chiavi di sviluppo sembrano essere la coerenza stilistica e la fedeltà
visiva. Il tutto per essere il primo step per la generazione di video sempre
migliori.
Esempi di immagini generate con Frames di Runway
Le anteprime sono notevoli.
Per approfondire
EXPAND VIDEO
Expand Video è una nuova funzionalità per modificare le proporzioni dei video
estendendo il frame originale e mantenendo la coerenza visiva.
A questo è possibile abbinare i movimenti della telecamera ed effetti.
Expand Video di Runway
> Questo permette di creare diversi formati di video senza dover fare riprese
> aggiuntive.
Per approfondire
--------------------------------------------------------------------------------
FUGATTO DI NVIDIA
Fugatto è un nuovo modello di Nvidia dedicato al mondo audio.
> È in grado di generare e modificare qualunque tipo di mix di musica, voci e
> suoni utilizzando prompt basati su testo e file audio.
Esempi di funzionalità: creazione di nuovi suoni, cambiamento di emozioni o
accenti in una voce, manipolazione di strumenti musicali in un brano esistente,
voice-over personalizzati.
Fugatto di Nvidia
> La qualità e la precisione di questi strumenti li renderà indispensabili nei
> flussi di lavoro.
Per approfondire
--------------------------------------------------------------------------------
STILI PERSONALIZZATI SU CLAUDE
Anthropic ha introdotto una funzionalità che permette di scegliere lo stile di
scrittura su Claude.
Gli stili personalizzati su Claude
Ma soprattutto, consente di creare stili personalizzati attraverso un
addestramento: caricando esempi o usando prompt descrittivi.
--------------------------------------------------------------------------------
AISUITE DI ANDREW NG
Andrew Ng ha rilasciato Aisuite nella sua repository di GitHub: un framework
open che permette di usare qualunque LLM con poche righe di Python.
GitHub - andrewyng/aisuite: Simple, unified interface to multiple Generative AI
providers
Simple, unified interface to multiple Generative AI providers - GitHub -
andrewyng/aisuite: Simple, unified interface to multiple Generative AI providers
GitHubandrewyng
> In pratica incapsula le chiamate API dei più noti modelli, facilitando test e
> prototipazione.
--------------------------------------------------------------------------------
IGNITE 2024: LE NOVITÀ DI MICROSOFT
* Sicurezza e Data Governance. Nuove funzionalità in Microsoft Purview per
proteggere i dati e prevenire rischi legati all'AI.
* Evoluzione di Co-Pilot. Co-Pilot diventa centrale per produttività e
creatività con azioni automatizzate e agenti personalizzabili.
* Nuovi Agenti AI. Agenti specifici per moderare riunioni, gestire progetti e
fornire accesso alle informazioni in tempo reale.
Un esempio è "Interpreter": un agente AI connesso a Teams in grado di tradurre
in tempo reale la conversazione in qualunque lingua riproducendo la voce delle
persone.
> Fino a qualche anno fa lo immaginavamo.. adesso è realtà
* Co-Pilot Analytics. Strumenti per misurare l’impatto aziendale dell’uso di
Co-Pilot.
* Windows 365. Nuove soluzioni per il lavoro sicuro nel cloud e aggiornamenti
senza interruzioni.
* Innovazioni Hardware. Lancio di chip e DPUs per migliorare sicurezza,
prestazioni e sostenibilità.
* Microsoft Fabric. Unificazione di analisi e gestione operativa con database
SQL Server su Fabric.
* Azure AI Foundry. Piattaforma centralizzata per sviluppatori con modelli AI e
strumenti avanzati.
* Computing Quantistico. Progresso con 24 qubit logici entangled per affrontare
sfide scientifiche complesse.
Ignite 2024: le novità di Microsoft
--------------------------------------------------------------------------------
I NUOVI STRUMENTI DI MISTRAL
Mistral ha rilasciato una nuova versione della sua Chat, introducendo nuovi
strumenti: le ricerca online, Canvas, Advanced OCR (vision) e Image Generator.
L'ho provato!
* La ricerca online non è perfezionata: è lenta e ho ottenuto informazioni
sbagliate. Non è specificato il motore, ma spesso i risultati derivano da una
SERP in inglese. Anche se si forza la Search, non sempre esegue la ricerca.
* La generazione delle immagini è basata su Flux Pro, e questa è un'ottima
notizia. Tuttavia, ci sono problemi di incapsulamento dei prompt con la
lingua: meglio usare l'inglese.
* Canvas è interessante, ma ha problemi nel prompt multimodale: in un prompt ho
istruito il modello per generare un post a partire da un PDF, ma ha dato
errore. Al netto di questo, siamo lontani dalle funzionalità di Canvas su
ChatGPT.
> L'ottimo inizio di un nuovo sviluppo.
--------------------------------------------------------------------------------
OPERATOR DI OPENAI
OpenAI, secondo Bloomberg, starebbe lavorando sul progetto "Operator", un agente
autonomo in grado di controllare anche i dispositivi svolgendo compiti in modo
indipendente.
Questo segue un trend già avviato da Anthropic e da Google, ma ancor prima da
progetti open source come Open Interpreter.
> Gli agenti autonomi sono probabilmente il prossimo passo evolutivo per l'AI,
> che si avvia a diventare uno strato non solo tra gli utenti e le piattaforme
> digitali, ma anche nei confronti dell'hardware.
--------------------------------------------------------------------------------
USARE I MODELLI DI LINGUAGGIO SU SCREAMING FROG
Screaming Frog introduce le API per l'interfacciamento con i modelli di OpenAI,
Google e con Ollama.
Lavora sull'HTML salvato in fase di scansione, mentre nella versione precedente
si usavano snippet JavaScript personalizzati eseguiti durante il rendering delle
pagine.
È possibile generare embeddings e contenuti con prompt personalizzati su
contesti selezionabili (attraverso estrattori predefiniti e custom).
L'integrazione dei LLM su Screaming Frog
COSA MANCA? La possibilità di comporre il contesto che mettiamo a disposizione
del modello in base all'utilizzo di più elementi delle pagine estraibili con
XPath. Questo è realizzabile con la versione JS!
> Ho scritto al team di Screaming Frog, e hanno già messo la funzionalità nella
> roadmap di sviluppo. Ottimo!
--------------------------------------------------------------------------------
GEMINI NEL WORKSPACE DI GOOGLE
Google inizia ad integrare Gemini nei software del Workspace.
Negli esempi si vedono alcune interazioni su Gmail e su Drive.
Esempi dell'integrazione di Gemini nel Workspace di Google
> Tutto molto interessante, anche se le performance non sono ancora ottimali
> (almeno per l'italiano).
--------------------------------------------------------------------------------
LA SENSIBILITÀ DEI LLM NEI CONFRONTI DEI PROMPT
I LLM più grandi sono meno sensibili alle variazioni dei prompt.
Ne parla questo paper molto interessante. Ma basta fare dei test con o1 di
OpenAI per rendersene conto.
La sensibilità dei LLM nei confronti dei prompt
Questo è ottimo perché il margine d'errore si riduce anche se le interazioni
diventano più scarse, ma si riducono anche le potenzialità.
Vai al paper
--------------------------------------------------------------------------------
USARE GEMINI CON LA LIBRERIA PYTHON DI OPENAI
Gemini può essere usato attraverso la libreria Python di OpenAI.
Com'è possibile? Semplice: hanno sviluppato un proxy che traduce la sintassi
delle chiamate API di OpenAI nel formato richiesto dalle API di Gemini.
Usare Gemini con la libreria Python di OpenAI
Mossa intelligente, perché gli sviluppatori possono switchare da un modello
all'altro cambiando 2 parametri. Ma così il confronto diventa semplice.
Vai alla documentazione
> È la dimostrazione che il formato di OpenAI sta diventando uno standard.
--------------------------------------------------------------------------------
- GRAZIE -
Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre
persone, condividilo 🙂
ISCRIVITI ALLA NEWSLETTER
Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su
tematiche relative all'intelligenza artificiale.
Iscriviti alla Newsletter
Email sent! Check your inbox to complete your signup.
Gratuita. No Spam. Puoi disiscriverti quando vuoi.Consulta la privacy policy.
> Buon aggiornamento, e buone riflessioni..
--------------------------------------------------------------------------------
[CORSO] AI PER AGENZIE E TEAM DIGITAL
Una giornata di formazione e un'opportunità unica per approfondire
l'intersezione tra l'AI e il mondo del marketing, dal Prompt Engineering alle
declinazioni dell'AI nella SEO, e i casi pratici nell'advertising e nel mondo
copy.
> Dalle basi alle applicazioni pratiche
Scopri il programma completo e l’offerta sul biglietto.
Vai al corso
--------------------------------------------------------------------------------
[CORSO GRATUITO] GENERATIVE AI FOR BEGINNERS
Microsoft rilascia la terza versione del corso "Generative AI for beginners".
21 lezioni gratuite dedicate allo sviluppo di applicazioni basate sui LLM.
Le lezioni sono etichettate: "Learn" per i concetti, mentre "Build" per esempi
di codice (Python e TypeScript).
Generative AI for beginners
Il corso fornisce istruzioni anche su come configurare un ambiente di sviluppo.
> Un'ottima risorsa, fin dalla prima versione.
Vai al corso
--------------------------------------------------------------------------------
CANVAS DI OPENAI
Ho provato il nuovissimo "Canvas" di OpenAI: un'interfaccia di ChatGPT che
consente di lavorare su testi e codice con funzionalità di editing e
"trasformazione".
Nei testi, è possibile affinare il contenuto (grammatica, chiarezza, coerenza),
cambiare il livello di lettura, aggiustare la lunghezza, ottenere suggerimenti
di miglioramento e aggiungere emoji pertinenti.
Test di Canvas di OpenAI
Nel codice, possiamo revisionare, aggiungere i commenti, i log, fixare i bug,
eseguire il porting ad un altro linguaggio.
> In entrambe le modalità, possiamo selezionare un blocco e applicate un prompt
> specifico alla selezione.
NON UNA SEMPLICE INTERFACCIA.. MA UN EDITOR!
> Non si tratta solo di un'interfaccia con nuove funzionalità, ma anche un
> EDITOR a tutti gli effetti.
Questo significa che è possibile lavorare sui contenuti direttamente dalla
piattaforma, collaborando con un assistente.
Canvas di OpenAI non è solo una nuova interfaccia
Nel video, un piccolo esempio in cui genero una bozza, faccio modifiche
insensate dall'editor, e infine applico la rifinitura. Come si vede il sistema
corregge tutti i miei errori e i contenuti fuori contesto.
> Uno strumento straordinario, per l'utilizzo di questi sistemi come "assistente
> personale".
--------------------------------------------------------------------------------
UN GPT CHE SI COMPORTA COME "O1" DI OPENAI, CON RISULTATI SIMILI
Ho fatto eseguire diversi task della presentazione di o1 di OpenAI al mio GPT
addestrato per comportarsi allo stesso modo (eseguendo catene di pensiero -
CoT).
I prompt sono identici, e i risultati sono ottimi. Nel video si vedono alcuni
esempi che nella presentazione sono stati definiti "Reasoning", "Logic Puzzles",
"HTML Snake", e "coding".
Un GPT che si comporta come "o1" di OpenAI, con risultati simili
Ho fatto questo test per dimostrare come questa modalità può essere utile per
migliorare le performance anche di altri LLM, quando per le risposte servono
passaggi logici.
> Attenzione: "o1" non è solo questo. Ha un addestramento specifico per
> sviluppare CoT, e quella che vediamo negli step di ragionamento, non è l'unica
> CoT che genera (la documentazione lo spiega chiaramente). Ma è uno spunto
> interessante per migliorare i prompt.
--------------------------------------------------------------------------------
L'ANALISI DEI DATI CON O1
Anche se o1 di OpenAI non ha accesso a file esterni, possiamo usare un altro
modello per analizzarli, per poi usare l'elaborazione di o1.
Nell'esempio, uso GPT-4o per descrivere il dataset, fornendo anche suggerimenti
per la pulizia dei dati.
Questo diventa il contesto per il prompt su o1, attraverso il quale ho generato
il codice Python per creare un piccolo modello predittivo sul dataset.
Dopo alcune interazioni e revisioni, il sistema fa predizioni con un errore
medio inferiore al 15%.
Un test di analisi dei dati usano o1 si OpenAI
> Il potenziale di o1 è davvero notevole. Durante tutte le interazioni, non ho
> mai ottenuto un solo errore nella console Python.
--------------------------------------------------------------------------------
[TEST] I BIAS DEI MODELLI DI LINGUAGGIO
Ho fatto un piccolo test usando gli embeddings di OpenAI per verificare la
presenza di bias evidenti.
Ho usato text-embedding-3-large (la rappresentazione più ampia), termini in
inglese, e similarità del coseno per il confronto.
Un test sui bias dei LLM
* C'è sbilanciamento di genere, ma moderato. Solo per il termine "nurse" è
significativo.
* C'è sbilanciamento quasi unidirezionale di razza, ma generalmente moderato.
> È un test molto limitato, ma credo sia interessante esplorare questi aspetti
> della rappresentazione dei modelli. Fa capire, inoltre, la meraviglia di
> questi strumenti in grado di "comprendere" anche sfumature complesse del
> linguaggio.
--------------------------------------------------------------------------------
[TEST] IL "CODE INTERPRETER" DI ANTHROPIC
Anche Anthropic introduce su Claude una sorta di code interpreter in grado di
sviluppare ed ESEGUIRE codice JavaScript per dare risposte agli utenti.
Può fare calcoli complessi e analizzare dati, e usa Artifacts per la
visualizzazione.
Nelle immagini si può vedere in un piccolo test che ho fatto.
Il "code interpreter" di Anthropic
> Chissà perché hanno scelto JavaScript come linguaggio.. forse perché è più
> orientato a generare un'interfaccia interattiva, ma preferisco la scelta di
> OpenAI di usare Python per l'analisi e lo sviluppo, per poi agganciare
> l'interattività al front end.
--------------------------------------------------------------------------------
FLUX 1.1 [PRO] "BLUEBERRY"
Black Forest Labs a rilascia Flux 1.1 [pro] "blueberry", e la beta delle API.
Una release che, secondo Black Forest Labs, segna in passo in avanti
significativo nell'ambito della generazione delle immagini.
L'ho provato, e la qualità è oggettivamente sempre migliore.
Immagini generate con Flux 1.1 Pro
> 6 volte più veloce, più aderente al prompt e con qualità di immagine
> superiore. È già primo nell'Artificial Intelligence Image Arena.
COME PROVARE FLUX 1.1 PRO PER LA GENERAZIONE DI IMMAGINI
* Attraverso le API di Black Forest Labs: https://docs.bfl.ml/
* Su FAL: https://fal.ai/models/fal-ai/flux-pro/v1.1.
* Su Replicate: https://replicate.com/black-forest-labs/flux-1.1-pro
* Su Freepik: https://www.freepik.com/pikaso/ai-image-generator
* Su Together:
https://api.together.ai/playground/image/black-forest-labs/FLUX.1.1-pro
COME ADDESTRARE FLUX CON IMMAGINI DI PRODOTTI E/O SOGGETTI
* Su Flux Labs: https://www.fluxlabs.ai/
* Su Flux AI: https://www.useflux.ai/
* Su Replicate: https://replicate.com/lucataco/ai-toolkit/train
> L'evoluzione di questi sistemi è davvero interessante, e merita una
> sperimentazione.
--------------------------------------------------------------------------------
[TEST] FLUX 1.1 PRO + HAILUO AI DI MINIMAX
Ho fatto qualche test con Hailuo AI, un nuovo prodotto della startup cinese
MiniMax.
Ho generato i video partendo da immagini create con Flux 1.1 Pro, e aggiungendo
prompt testuali per descrivere l'azione.
HailuoAI + #Flux 1.1 Pro + prompt testuale per la generazione video
> La qualità è notevole, ma lo è soprattutto l'aderenza dei video alla
> descrizione testuale. Le azioni dei soggetti sono esattamente quelle che ho
> descritto negli input.
Vai al servizio
--------------------------------------------------------------------------------
AI FESTIVAL - 26 E 27 FEBBRAIO 2025
> "Non esiste innovazione senza integrazione. Serve un lavoro sartoriale, di
> integrazione nei processi. Ed è proprio chi è a conoscenza dei processi
> aziendali, potenziato da questa tecnologie, che può cogliere i punti
> strategici dove l'AI può fare la differenza".
Il 26 e 27 febbraio vi aspetto a Milano per l'AI Festival, dove parleremo di
questo, ed esploreremo insieme il futuro dell'intelligenza artificiale,
scoprendo tutte le novità e tendenze più recenti.
Scopri l'evento
--------------------------------------------------------------------------------
ACT-ONE DI RUNWAY
> La nuova funzionalità di Runway è impressionante.
Si tratta di Act-One, e consente di creare video con personaggi espressivi
attraverso Gen-3 Alpha utilizzando un singolo video come guida e un'immagine del
personaggio.
È possibile, ad esempio, creare una scena come questa senza attrezzature
sofisticate (nella parte finale del video si può comprendere la tecnica).
Act-One di Runway: un esempio di utilizzo
> Le potenzialità sono elevate, come la necessità di gestire gli eventuali
> "utilizzi negativi".
--------------------------------------------------------------------------------
[TEST] L'EVOLUZIONE DI IMAGEN 3 DI GOOGLE
Dopo qualche test su Imagen 3 su Gemini Advanced, devo dire che la qualità è
cambiata di molto.
Il livello medio dei modelli di generazione di immagini si sta alzando, ma
soprattutto sta crescendo l'aderenza al prompt.
L'evoluzione di Imagen 3 di Google
> Le immagini sono state generate con istruzioni semplicissime e in italiano.
> Non permette ancora output in cui sono presenti persone.
--------------------------------------------------------------------------------
[TEST] IMAGEN 3 + HAILUO AI DI MINIMAX + ELEVENLABS SOUND EFFECTS
Test di generazione immagini + video + audio.
Ho generato le immagini attraverso Imagen 3 di Google (Text-To-Image), i video
con MiniMax (Image-To-Video), l'audio con ElevenLabs Sound Effects
(Text-To-Audio).
Imagen 3 + Hailuo AI di MiniMax + ElevenLabs Sound Effects
> Ancora una volta, non è tanto la qualità a stupirmi, ma l'aderenza degli
> output ai prompt.
Spesso la domanda è: quanto tempo serve per generare gli output? Pochi minuti.
Ma la vera domanda è: come avrei potuto crearli senza questi mezzi!?
--------------------------------------------------------------------------------
AI ASSISTANT SU CHROME DEVTOOLS
AI Assistant è una nuova funzionalità sperimentale di Chrome DevTools davvero
notevole.
Permette di usare Gemini per applicare prompt alla pagina web o a elementi
specifici, per spiegazioni o suggerimenti di implementazione, con la possibilità
di applicarli direttamente.
AI Assistant su Chrome DevTools
Nelle immagini lo uso per fare alcune azioni che modificano la pagina, con
generazione di JS e CSS. Creo il bottone per la "dark mode".
Vai alla documentazione
--------------------------------------------------------------------------------
ADVANCED VOICE MODE DI CHATGPT
Prime impressioni sull'Advanced Voice Mode di ChatGPT..
* Anche se sono stati fatti grandi passi, in italiano, non siamo ancora a
livelli di fluidità della versione USA.
* Il comportamento dell'agente non è il massimo: per una "chiacchierata", un
mio GPT addestrato per questo scopo, dà un'esperienza migliore. Infatti,
quando questa modalità sarà attiva anche per GPT custom, tutto diventerà
molto più interessante. Ricordate le applicazioni vocali di Alexa e Google
Assistant?
* Non accede al web per reperire informazioni.
* L'interruzione del parlato dell'assistente, non funziona benissimo, ma credo
sia una questione di hardware.
Advanced Voice Mode di ChatGPT
> Insieme a Gemini Live, siamo di fronte a un nuovo capitolo dell'interazione
> vocale. Un salto importante rispetto al precedente, ma il percorso verso la
> naturalezza non è concluso.
--------------------------------------------------------------------------------
ATLAS DI BOSTON DYNAMICS
Boston Dynamics ha pubblicato un video impressionante sull'evoluzione di Atlas,
il suo robot umanoide.
E specifica che le azioni NON sono pre-programmate o teleguidate: il robot
esegue le azioni di spostamento dei componenti autonomamente, eseguendo un
compito.
L'evoluzione di Atlas Boston Dynamics
Il tutto, due settimane dopo l'accordo epocale dell'azienda (di proprietà di
Hyundai) con Toyota Research Institute.
> Questa partnership è un esempio di due aziende con una solida base di ricerca
> e sviluppo che si uniscono per lavorare su molte sfide complesse, e costruire
> robot utili che risolvono problemi del mondo reale.
--------------------------------------------------------------------------------
SPARK DI GITHUB COPILOT
Non solo GitHub Copilot integrerà tutti i LLM più potenti, che gli sviluppatori
potranno scegliere anche in base alle attività (Claude 3.5 Sonnet di Anthropic,
Gemini 1.5 Pro di Google, GPT-4o e o1 di OpenAI), ma è stato presentato anche
Spark: uno strumento per creare applicazioni interamente in linguaggio naturale.
Spark di GitHub Copilot
Gli "spark" sono micro app completamente funzionali che possono integrare
funzionalità AI e fonti di dati esterne.
Vai al post
--------------------------------------------------------------------------------
SYNTHID-TEXT DI GOOGLE DEEPMIND
SynthID-Text di Google DeepMind è un nuovo metodo per aggiungere una filigrana
ai testi generati da LLM, senza degradare la qualità dell'output.
Il sistema, che ha come obiettivo quello di riconoscere i testi generati, è
stato reso open-source per proporre uno standard di integrazione.
La filigrana, successivamente può essere rilevata da un algoritmo.
Qual è il problema!? Una rielaborazione o una traduzione invalideranno la
filigrana.
> Il percorso per sistemi di questo tipo è necessario, ma rimane lungo e
> difficile, con soluzioni ancora fragilissime.
Vai al paper
--------------------------------------------------------------------------------
MICROSOFT INTRODUCE GLI AGENTI AUTONOMI IN COPILOT STUDIO
Grazie a questa funzionalità, i developer possono creare assistenti in grado di
usare dati di diverse fonti (es. Microsoft 365 Graph, Dataverse e Fabric), e di
automatizzare i processi aziendali.
Gli agenti autonomi in Copilot Studio
Gli agenti operano autonomamente su attività ripetitive o complesse, consentendo
di ridurre i tempi di esecuzione e i costi, migliorando al contempo l'efficienza
complessiva.
Vai al post
--------------------------------------------------------------------------------
COMPUTER USE DI ANTHROPIC
Anthropic introduce la funzionalità "Computer Use" con i nuovi modelli 3.5.
La nuova capability è sperimentale e consentirà a Claude di interagire con un
dispositivo via API (muovere il cursore, cliccare, digitare, ecc.). Sarà
disponibile nei prossimi mesi.
Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku
A refreshed, more powerful Claude 3.5 Sonnet, Claude 3.5 Haiku, and a new
experimental AI capability: computer use.
I nuovi modelli Sonnet e Haiku 3.5 hanno performance migliori, raggiungendo la
versione Opus in alcune funzioni.
> Sono molto curioso delle applicazioni che nasceranno dalla possibilità di
> interfacciarsi con i device.
--------------------------------------------------------------------------------
LE VERSIONI QUANTIZZATE PER LLAMA 3.2
Meta ha lanciato versioni quantizzate di Llama 3.2 1B e 2B, progettate per
funzionare direttamente sui dispositivi mobile.
Consentono l'implementazione diretta su smartphone e tablet con performance
comparabili alle versioni più grandi.
Alcuni dati di performance: velocità maggiore di 2-4 volte, riduzione delle
dimensioni del 56%, riduzione del 51% dell'uso di memoria.
Introducing quantized Llama models with increased speed and a reduced memory
footprint
As our first quantized models in this Llama category, these instruction-tuned
models retain the quality and safety of the original 1B and 3B models, while
achieving 2-4x speedup.
> I modelli piccoli diventano sempre più interessanti per gli sviluppi in locale
> sui device, con una competizione al pari dei modelli più grandi.
--------------------------------------------------------------------------------
MULTIMODAL EMBED 3 DI COHERE
Cohere lancia una novità davvero interessante: un nuovo modello di AI che crea
uno spazio di incorporamento unificato per testo e immagini.
Si chiama Multimodal Embed 3, e consente il confronto diretto tra testo e
contenuto visivo senza pipeline di elaborazione separate.
Immaginiamo, ad esempio, le potenzialità nella ricerca in ambito e-commerce
combinando query visive e testuali, oppure nel recupero delle informazioni da
una knowledge.
Introducing Multimodal Embed 3: Powering AI Search
Cohere releases a state-of-the-art multimodal AI search model unlocking real
business value for image data.
Cohere
> Più si evolve questa capacità di rappresentazione attraverso gli embeddings, e
> più la ritengo una piccola opera d'arte tecnologica.
--------------------------------------------------------------------------------
FIREFLY VIDEO: L'INTEGRAZIONE SU PREMIERE PRO
Adobe, durante la conferenza MAX ha presentato Firefly Video, e l'integrazione
su Premiere Pro.
La funzionalità "Generative Extend", infatti, permette di creare prolungamenti
delle clip senza la necessità di di ulteriori riprese.
Oltre a questo, hanno anche presentato l'interfaccia web per azioni di
Text-To-Video e Image-To-Video.
Firefly Video: l'integrazione su Premiere Pro
> La qualità, ormai, non stupisce più.. ma l'integrazione nei software più usati
> dai creator è una carta vincente.
--------------------------------------------------------------------------------
L'AI GENERATIVA A SUPPORTO DELL'E-COMMERCE
L'AI può essere uno strumento utile a mettere in atto strategie con un effort
ridotto. In questo caso, ha permesso operazioni che sarebbero state
insostenibili per il progetto.
I diagrammi, infatti, mostrano i risultati di azioni di ottimizzazione su un
e-commerce, basate sui dati, e messe in atto attraverso un LLM.
> Un ingranaggio nei flussi operativi in grado di avvicinare la strategia agli
> obiettivi.
--------------------------------------------------------------------------------
LA TRAPPOLA DELLE ALLUCINAZIONI DEI LLM
> In realtà, cadere nella trappola delle "allucinazioni" che i LLM possono
> produrre è più facile di quanto si pensi.
Un esempio di allucinazione prodotta da un LLM
Nella prima parte del video, uso Llama 3.1 senza accesso al web.
Quindi come genera l'output? Usa il contenuto che ha a disposizione per
completare il task: il nome del prodotto, le parole che compongono lo slug
dell'URL, e ciò che deriva dal training del modello.
> È convincente? Insospettabile, direi.. ma fuori controllo! Si tratta di
> un'allucinazione.
Nella seconda parte, uso uno scraper che va ad estrarre il testo dall'URL,
quindi l'output aderisce alle informazioni nella pagina.
> Takeaway: i LLM producono "allucinazioni" quando non hanno contesto
> sufficiente per poter completare il task. È necessario un "contesto
> controllato".
Serve questa consapevolezza per usarli con maggior sicurezza, e servono
strumenti come Opik, o sistemi multi-agent, per effettuare test e controlli
approfonditi degli output prima di andare in produzione.
--------------------------------------------------------------------------------
LA SUPERVISIONE UMANA E IL PENSIERO CRITICO
Un paper molto interessante di Harvard Business School che sottolinea
l'importanza di sviluppare competenze di interazione dell'AI nei processi di
valutazione creativi che combinano il giudizio umano con le intuizioni
dell'Intelligenza Artificiale.
Mentre l'AI può standardizzare il processo decisionale per criteri oggettivi, la
supervisione umana e il PENSIERO CRITICO rimangono indispensabili nelle
valutazioni soggettive, dove l'AI dovrebbe integrare, non sostituire, il
giudizio umano.
Vai al paper
--------------------------------------------------------------------------------
MINISTRAL 3B E 8B
> La competizione sui LLM "piccoli" inizia a diventare interessante quanto
> quella sui modelli "grandi".
Mistral rilascia due nuovi modelli destinati all'elaborazione on-device e a casi
d'uso at-the-edge: Ministral 3B e 8B.
Offrono prestazioni avanzate in ambiti come la comprensione del contesto, il
"ragionamento" e l'efficienza, con contesti fino a 128k token.
Sono pensati per applicazioni come traduzione on-device, assistenti intelligenti
offline e robotica autonoma.
Ministral 3B e 8B: performance
Le performance sono migliori rispetto ai concorrenti, con un'attenzione
particolare alla privacy e alla latenza ridotta.
Vai al post
--------------------------------------------------------------------------------
STATE OF AI 2024: UNA SINTESI
Una sintesi dei punti chiave del report "State of AI" 2024.
State of AI 2024: una sintesi
* Convergenza delle prestazioni dei modelli. I modelli open-source, come Llama
3.1 405B, hanno ormai raggiunto le prestazioni dei modelli proprietari. Llama
3.2 espande le capacità in modalità multimodale, dimostrando la crescente
competitività dei modelli open-source.
* Avanzamenti dell'AI cinese. Nonostante le sanzioni statunitensi, i modelli AI
cinesi continuano a scalare le classifiche, sfruttando hardware stoccato,
accesso cloud e soluzioni alternative. Ciò evidenzia la resilienza del
settore AI cinese.
* Miglioramenti in efficienza. Tecniche di pruning e distillazione hanno
migliorato significativamente l'efficienza dei modelli di testo e immagini,
mostrando che alte prestazioni possono essere raggiunte con modelli più
piccoli e meno dispendiosi.
* Espansione delle applicazioni AI. I modelli di linguaggio (LLMs) stanno
dimostrando capacità in campi scientifici come la progettazione di proteine e
l'editing genetico, aprendo nuovi orizzonti per l'AI in biologia e genomica.
* Sfide per hardware e infrastrutture. Nvidia continua a dominare l'hardware
AI, ma l'incremento della domanda energetica per le infrastrutture AI sta
creando pressioni sulle risorse e minacciando gli impegni di sostenibilità
delle aziende tecnologiche.
Vai al report
--------------------------------------------------------------------------------
MOVIE GEN DI META
Meta presenta Movie Gen, un nuovo modello per la generazione di video e audio di
alta qualità da prompt multimodale.
Le funzionalità principali:
* generazione video da una descrizione testuale;
* video personalizzati;
* editing video;
* generazione di audio (musica ed effetti sonori).
Movie Gen di Meta
È stato addestrato su dataset pubblici e con licenza, e punta a diventare un
riferimento per registi e i content creator.
Vai al post
--------------------------------------------------------------------------------
I NUOVI TOOL DI HUGGINGCHAT
HuggingChat, oltre alla possibilità di usare i migliori LLM open source, mette a
disposizione una serie di tool molto interessanti (es. scraping, analisi dei
file, generazione di immagini).
Nell'esempio, uso il sistema con Llama 3.1, e aggiungo Flux Realism Lora per la
generazione di immagini.
I nuovi tool di HuggingChat
> Il parco strumenti è molto ampio, e possono essere attivati più tool
> contemporaneamente.
Prova il servizio
--------------------------------------------------------------------------------
LEO AI DI BRAVE
Brave sta introducendo il suo assistente basato su AI generativa: Leo AI, che
può interagire direttamente con le pagine web che si navigano dal browser.
> Un aspetto interessante, è che il sistema può lavorare con un LLM locale,
> sfruttando Ollama.
Questo, ad esempio, consente di far elaborare anche dati personali al modello,
senza che questi lascino il dispositivo.
Leo AI di Brave
Sfruttando un hardware Nvidia RTX è possibile ottenere altissime performance
anche in locale. Con Llama 3 8B, ad esempio, si può ottenere la velocità di 149
token/secondo.
> L'utilizzo dei LLM in locale è sempre più "possibile".
Vai al post
--------------------------------------------------------------------------------
LLAMA STACK DI META
Meta rilascia un componente davvero interessante: Llama Stack.
> Si tratta di un framework open source per semplificare e standardizzare lo
> sviluppo e il rilascio di applicazioni basate sui LLM.
Facilita l'integrazione di azioni come inferenza, gestione della memoria,
moderazione / sicurezza.
GitHub - meta-llama/llama-stack: Model components of the Llama Stack APIs
Model components of the Llama Stack APIs. Contribute to meta-llama/llama-stack
development by creating an account on GitHub.
GitHubmeta-llama
Ad esempio, usando le API di inferenza, memoria e sicurezza si possono creare
assistenti che rispondono in modo contestuale e sicuro.
> Standard e linee guida è quello che serve per facilitare l'integrazione di
> questi sistemi in modo più sicuro ed efficiente.
--------------------------------------------------------------------------------
SEMANTIC CACHE DI REDIS
Semantic Cache di Redis è un esempio di componente che permette di ottimizzare
le applicazioni RAG (Retrieval Augmented Generation).
Semantic Cache di Redis
È un sistema che salva, vettorializza e indicizza le richieste degli utenti e le
risposte. In questo modo, se vengono poste domande simili dal punto di vista
semantico, non ci sarà bisogno di usare nuovamente il LLM.
> Risultato: abbattimento dei tempi di risposta e dei costi.
Vai alla documentazione
--------------------------------------------------------------------------------
SCIAGENTS: L'AI AL SERVIZIO DELLA SCOPERTA SCIENTIFICA
SciAgents è un sistema di Intelligenza Artificiale che automatizza la scoperta
scientifica combinando grafi ontologici della conoscenza, modelli di linguaggio
(LLM) e sistemi multi-agent.
Ogni agente ha un ruolo specifico, come creare ipotesi, espanderle o criticarle.
Gli agenti lavorano insieme per esplorare dati scientifici, identificare nuove
connessioni e generare proposte di ricerca innovative.
Il sistema ha rivelato relazioni interdisciplinari nascoste e prodotto scoperte
significative, superando i metodi di ricerca tradizionali per precisione e
scala, accelerando così la scoperta scientifica.
Vai al paper
--------------------------------------------------------------------------------
DEVDAY DI OPENAI
Cosa è stato condiviso durante il DevDay di OpenAI di San Francisco?
Una sintesi del DevDay di OpenAI
Vediamo una sintesi per punti.
* Realtime API: consente esperienze di voice-to-voice a bassa latenza, simili a
ChatGPT Advanced Voice, con 6 voci preimpostate. Beta disponibile per tutti
gli sviluppatori.
* Prompt Caching: disponibile per tutti, riduce i costi del 50% e la latenza
riutilizzando i token di input recenti.
* Model Distillation: nuovo workflow per addestrare modelli più piccoli ed
efficienti basati su modelli più grandi. Include Stored Completions ed Evals
(beta).
* Vision Fine-Tuning: possibilità di fine-tuning di GPT-4o con testo e
immagini, migliorando la ricerca visiva e l'analisi delle immagini.
* Aggiornamento di GPT-4o: nuovo modello gpt-4o-2024-08-06 con costi di input
ridotti del 50% e output ridotti del 33%.
* Disponibilità OpenAI o1: accesso API esteso ai modelli di ragionamento
o1-preview e o1-mini per gli utenti di livello 3. Limiti di velocità
aumentati per livelli 4 e 5.
* Generazione nel Playground: nuovo pulsante "Generate" per creare
automaticamente prompt, definizioni di funzioni e schemi strutturati.
Vai al post
> Il toolkit per l'implementazione di applicazioni basate sui LLM di OpenAI si
> amplia notevolmente!
--------------------------------------------------------------------------------
ASSISTANT EDITOR DI LANGCHAIN
LangChain ha annunciato "Assistant Editor", una nuova potente funzionalità di
LangGraph Studio che rende più facile la configurare e la personalizzazione
degli agenti basati su modelli di linguaggio.
Assistant Editor di LangChain
Questo strumento di editing visivo consente sia agli sviluppatori che agli
utenti non tecnici di mettere a punto il comportamento degli agenti senza usare
codice.
Vai al post
--------------------------------------------------------------------------------
PIKA 1.5
Pika presenta la versione 1.5, con clip più lunghe, nuovi effetti, riprese
cinematografiche e movimenti più realistici.
Il video è l'unione di clip di alcuni creator che stanno testando il nuovo
modello.
Pika 1.5
> La generazione di video fa costanti passi in avanti, e le clip diventano
> sempre più usabili in ambito professionale.
Vai al servizio
--------------------------------------------------------------------------------
EDGE RUNNER DI NVIDIA
EdgeRunner è una nuova tecnologia di Nvidia in grado di generare mesh 3D di alta
qualità con fino a 4.000 facce e una risoluzione spaziale di 512, partendo da
immagini e point-clouds.
Utilizza un innovativo algoritmo di tokenizzazione per comprimere le mesh in
sequenze di token 1D, migliorando l'efficienza e la qualità della generazione.
Edge Runner di Nvidia
Il sistema può creare varianti diverse da un singolo input, garantendo una
grande varietà di risultati.
> Immaginiamo questi sistemi al servizio di videogiochi e realtà virtuale (VR),
> effetti speciali e animazione nella produzione cinematografica e televisiva,
> architettura e design, additive manufacturing e stampa 3D, medicina e
> biotecnologie.
Vai al post
--------------------------------------------------------------------------------
LIQUID FOUNDATION MODELS
Liquid AI introduce una nuova architettura per LLM che "sfida" i Transformer,
superando le performance di Llama 3.2 (a parità di dimensioni), con ingombro di
memoria ridotto e maggior efficienza nell'inferenza.
Ho provato la versione più grande (40.3B Mixture of Experts - MoE) sul mio
benchmark di test.
Un test del LLM di Liquid AI
> Considerando le dimensioni, il sistema promette benissimo, e ha una velocità
> degna di nota.
Prova il modello
--------------------------------------------------------------------------------
OPEN NOTEBOOKLM
> Continuano a nascere progetti che trasformano documenti e pagine web in
> podcast.
Open NotebookLM è un sistema basato su modelli AI open source: Llama 3.1 405B,
MeloTTS, e Bark.
Dall'interfaccia di Hugging Face, è possibile caricare file e specificare URL
per creare il contesto al modello.
Un test di Open NotebookLM
Il podcast viene generato dal LLM e ottiene la voce dal TTS.
La qualità non è enorme, ma è un esempio di applicazione semplice per questo
scopo.
Prova il sistema
--------------------------------------------------------------------------------
- GRAZIE -
Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre
persone, condividilo 🙂
ISCRIVITI ALLA NEWSLETTER
Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su
tematiche relative all'intelligenza artificiale.
Iscriviti alla Newsletter
Email sent! Check your inbox to complete your signup.
Gratuita. No Spam. Puoi disiscriverti quando vuoi.Consulta la privacy policy.
> Buon aggiornamento, e buone riflessioni..
--------------------------------------------------------------------------------
[CORSO GRATUITO] GENERATIVE AI FOR BEGINNERS
Microsoft ha pubblicato una nuova versione del suo corso "Generative AI For
beginners" su YouTube (4 ore e 20 minuti di seminari).
Dalle basi al prompt engineering. Dalle applicazioni chat, fino al fine-tuning,
alla vettorializzazione (embeddings) e ai sistemi RAG (Retrieval Augmented
Generation).
Generative AI For beginners - Microsoft
> Uno dei contributi più interessanti disponibili online gratuitamente.
Vai al corso
--------------------------------------------------------------------------------
[RISORSA GRATUITA] TRASCRIZIONE VIDEO MULTILINGUA
Grazie a questo Colab è possibile usare Whisper per trascrivere qualunque video
(presente su YouTube o caricato su Drive), in qualunque lingua.
È semplicissimo da usare: non serve modificare il codice perché è tutto
configurabile attraverso un'interfaccia su Colab.
Nell'immagine si può vedere un esempio di trascrizione con il timestamp.
Esempio di trascrizione di un video su Drive
> Con sistemi come questo, creare delle automazioni diventa molto più semplice.
Vai al Colab
--------------------------------------------------------------------------------
UNO SPOT PUBBLICITARIO COMPLETAMENTE GENERATO CON MODELLI DI AI
Un esperimento di generazione di uno spot pubblicitario usando Flux per la
generazione delle immagini (segue un approfondimento), Runway Gen-3 per
animarle, Udio per la componente sonora e ElevenLabs per la voce narrante.
Uno spot pubblicitario generato con Flux + Runway + Udio + ElevenLabs
L'editing video è stato eseguito con CapCut. Il tutto in 2 ore circa.
Alcune delle immagini generate con Flux
Il post dell'autore
> È solo un esempio, ma abbastanza significativo. Se non per creare uno spot
> completo, per capire le potenzialità di questi supporti in fase di produzione.
> E miglioreranno.
--------------------------------------------------------------------------------
FLUX: TEST E COME USARLO
Alcuni test di Flux, una nuova famiglia di modelli Text-To-Image sviluppata
dagli stessi creatori di Stable Diffusion.
I modelli sembrano rappresentare un notevole passo in avanti nella generazione
delle immagini, per qualità e aderenza al prompt.
Sono state rilasciate 3 versioni: pro (alte performance), dev (modello open per
applicazioni non commerciali) e schnell (il più veloce, pensato per applicazioni
in locale).
Test di Flux
Le performance sono altissime, come si vede dalle immagini.
Vai al post
I modelli sono stati, inoltre, ottimizzati in alcune varianti, ad esempio Flux
Realism LoRA. Le immagini che seguono rappresentano alcuni test: sono state
generate attraverso un prompt testuale, e up-scalate con Magnific AI.
Flux Realism LoRA + Magnific AI
> Per quanto ormai sia dato per scontato, trovo sempre il processo tecnicamente
> sorprendente!
COME PROVARE FLUX
5 modi per provare Flux in modo semplice: su Replicate(via browser), su FAL(via
browser), su Krea.ai(via browser), su Freepik(via browser), su Colab(duplicando
il notebook e modificando il prompt). Su FAL, è possibile provare anche Flux
Realism LoRA e addestrare il modello su specifiche immagini, in modo da ottenere
risultati specifici (Train Flux LoRA).
--------------------------------------------------------------------------------
MIDJOURNEY + RUNWAY GEN-3
Immagini generate attraverso Midjourney, animate attraverso Runway Gen-3, per
una dimostrazione della cura dei dettagli del modello.
Midjourney + Runway Gen-3
> Direi che il livello è sempre più alto, anche in modalità Image-To-Video.
MIDJOURNEY 6.1 + NUOVO EDITOR
Midjourney, nel frattempo ha rilasciato la versione 6.1 del suo modello
generativo.
* Migliora la qualità dell'immagine, la coerenza e il testo.
* Include nuovi sistemi di upscaling e personalizzazione.
* È più veloce del 25% nella generazione di immagini standard.
Vai al post
È stata rilasciata, inoltre, la nuova interfaccia web per la generazione e la
modifica delle immagini, aperta a tutti gli utenti.
La nuova interfaccia web di Midjourney
> Ci avviciniamo a un'interazione semplice anche con il modello che
> probabilmente è ancora il più potente.
Quello che segue è un esempio di video generato che sfrutta la qualità delle
immagini di Midjourney v. 6.1, che vengono animate da Runway Gen-3. La
componente audio deriva da Udio v 1.5.
Video generato usando Midjourney 6.1, Runway Gen-3 e Udio
> Come sempre, si può discutere sui dettagli, ma credo che sia sempre più chiaro
> il livello che si sta raggiungendo.
Il post dell'autore
--------------------------------------------------------------------------------
GLI AGENTI AUTONOMI DI MISTRAL
Mistral rilascia la possibilità di creare agenti autonomi basati su LLM per
interazioni e funzionalità complesse.
È possibile creare gli agenti attraverso un'interfaccia web o via API.
Gli agenti, successivamente, possono essere usati e possono interagire tra di
loro attraverso la Chat di Mistral o via API.
Gli agenti autonomi di Mistral
> Possiamo dire che è un interessante mix tra GPTs e API Assistant di OpenAI.
> Con un grande vantaggio: l'entità dell'agente rimane unica, e può essere usata
> nella chat e via API.
Vai alla documentazione
--------------------------------------------------------------------------------
GEMINI LIVE: OTTIME INTENZIONI CON QUALCHE CONTRATTEMPO
> Sulla scia della modalità conversazionale di OpenAI, anche Google rilascia
> Gemini Live.
Anche in questo caso, si tratterà di una conversazione senza turni prestabiliti:
sarà possibile interrompere l'assistente in ogni momento, semplicemente..
parlando.
Avrà 10 nuove voci, potrà interagire con la fotocamera dello smartphone e con le
applicazioni Google.
Per ora sarà solo in lingua inglese e su Android.
Gemini makes your mobile device a powerful AI assistant
At Made by Google, we shared how Gemini is evolving to provide AI-powered
assistance that will be infinitely more helpful.
GoogleSissie Hsiao
> Sembra che gli assistenti che avremmo voluto ai tempi di Alexa e Google
> Assistant stiano arrivando.
La demo durante il Made by Google è stata d'effetto, anche se non è mancato il
momento di imbarazzo con i tentativi falliti nell'interazione multimodale.
Gemini Live nella presentazione del #MadeByGoogle.. con qualche momento di
imbarazzo
> Anche se c'è il vantaggio dell'integrazione con le applicazioni di Google,
> siamo ancora indietro rispetto a ChatGPT.
--------------------------------------------------------------------------------
LA CACHE PER I PROMPT DI CLAUDE
Anthropic rilascia la cache per i prompt su Claude.
* Permette di ridurre i costi del 90%, e la latenza dell'85%.
* La scrittura di token nella cache è più costosa del 25% rispetto a un normale
input.
* L'uso di un input già in cache costa il 10% di un input di base.
L'utilizzo, via API, avviene semplicemente aggiungendo un parametro alla
chiamata e all'header.
Prompt caching with Claude
Prompt caching, which enables developers to cache frequently used context
between API calls, is now available on the Anthropic API. With prompt caching,
customers can provide Claude with more background knowledge and example
outputs—all while reducing costs by up to 90% and latency by up to 85% for long
prompts.
> Queste funzionalità permettono di ottimizzare moltissimo le applicazioni.
> Mentre la lotta dei prezzi continua.
--------------------------------------------------------------------------------
LE PERFORMANCE DI GEMINI 1.5 PRO
L'ultima release di Gemini 1.5 Pro è stata (per un breve periodo, fino al
rilascio di agosto di OpenAI) in prima posizione nella Chatbot Arena
Leaderboard.
Ho fatto qualche test, perché fino a questo momento il modello di Google non mi
aveva mai convinto.
> Devo dire che i risultati mi hanno stupito: finalmente ho trovato la
> precisione nel rispettare i prompt e nel generare output.
Test su Gemini 1.5 Pro
È stata aggiunta anche la possibilità di sviluppo ed esecuzione di codice per
usare calcoli precisi nelle risposte (segue un esempio).
--------------------------------------------------------------------------------
GEMINI 1.5 FLASH
Google prova ad aggredire il mercato degli LLM, con prezzi bassi e funzionalità
per Gemini 1.5 Flash.
Gemini 1.5 Flash di Google
In effetti i prezzi sono più bassi di GPT-4o mini.
> Ma le performance?
> Da ricordare, inoltre, che OpenAI ha la funzione "batch".
--------------------------------------------------------------------------------
I RILASCI DI FINE AGOSTO DI GEMINI
Ad integrazione dei punti precedenti, Google, a fine agosto, ha rilasciato 3
nuovi modelli sperimentali, tra i quali un nuovo upgrade di Gemini 1.5 Pro.
I rilasci di fine agosto di Gemini
I primi test sul mio benchmark di riferimento (anche usando la JSON mode e
l'esecuzione del codice) hanno dato risultati ottimi.
Prova gratuitamente i modelli di Google
--------------------------------------------------------------------------------
L'ANALISI DEI DATI DI GEMINI
Gemini (versione chatbot), con gli ultimi aggiornamenti, è migliorato
notevolmente, introducendo, come visto in precedenza, qualcosa di molto simile a
Code Interpreter di ChatGPT. I diagrammi che si vedono nell'esempio che segue,
sono interattivi, modificabili e scaricabili.
L'analisi dei dati di Gemini
Siamo al livello dell'ambiente OpenAI?
NO. Gemini è più molto più lento (nel video ci sono dei tagli sui loading) e non
è sempre perfettamente aderente al prompt.
> Quello che su ChatGPT è normale da mesi, sul chatbot di Google non dà ancora
> fiducia.
--------------------------------------------------------------------------------
RUNWAY GEN-3 "TURBO"
> La generazione video migliora le performance, non solo per la qualità, ma
> anche per il consumo di risorse.
Runway ha addestrato una versione di Gen-3 "Turbo" che genera video 7 volte più
velocemente mantenendo la qualità.
Runway Gen-3 "Turbo"
Il modello sarà disponibile per gli utenti a un prezzo più basso.
> Vediamo dietro l'angolo la generazione in real-time?
--------------------------------------------------------------------------------
GLI EFFETTI VIDEO DI RUNWAY
Alcuni esempi di GVFX di Runway.
La funzionalità permette di aggiungere effetti a qualunque video attraverso l'AI
generativa.
Gli effetti video di Runway
> Queste funzionalità, nel prossimo futuro, verranno integrate in qualunque
> editor video e permetteranno di testare modifiche a bassissimo effort.
--------------------------------------------------------------------------------
FREEPIK INTEGRA FLUX
Freepik integra i modelli Flux nella generazione delle immagini, compreso il
modello dedicato alle immagini realistiche.
> Ancora una volta vediamo il potere dell'integrazione in piattaforma.
Generare immagini generiche di qualità dedicate alla grafica diventa
semplicissimo.
Freepik integra Flux
> Se aggiungiamo l'animazione con Runway Gen-3 o simili passiamo dall'idea alla
> scena in pochi minuti.
--------------------------------------------------------------------------------
OUTPUT STRUTTURATI PER LE API DI OPENAI
Molto spesso, vengono usati i prompt per ottenere JSON strutturati come output
dai LLM.
> Personalmente, con istruzioni ed esempi strutturati, ho sempre ottenuto output
> precisi.
OpenAI, però, ha introdotto nuovi parametri nelle chiamate API per rendere i
modelli estremamente fedeli allo schema fornito.
Output strutturati per le API di OpenAI
Si usa "response_format", con type "json_schema" e "strict" impostato a true.
In questo modo possiamo usare il LLM come un'API personalizzata e affidabile che
restituisce dati pronti all'uso per qualsiasi utilizzo.
Vai alla documentazione
--------------------------------------------------------------------------------
AGENTINSTRUCT DI MICROSOFT
> In questa fase dei LLM è più importante la quantità o la qualità dei dati di
> training per progredire?
AgentInstruct è un framework avanzato sviluppato da Microsoft per generare
grandi quantità di dati sintetici di alta qualità e diversità, utili per
l'addestramento di affinamento dei modelli.
Questo approccio, chiamato "Generative Teaching", permette di "insegnare" nuove
abilità ai LLM usando dati generati automaticamente da fonti grezze come
documenti di testo e file di codice.
Le performance di AgentInstruct di Microsoft
I test hanno dimostrato che i modelli addestrati con AgentInstruct, come Orca-3,
superano significativamente altri modelli come GPT-3.5-turbo e Llama-8B-instruct
in diversi benchmark.
Vai al progetto
--------------------------------------------------------------------------------
NVIDIA E L'OTTIMIZZAZIONE DEI MODELLI
Nvidia sta lavorando a processi per ridurre le dimensioni dei modelli, facendo
test su Llama 3.1 8B. Quelle che seguono sono alcune delle dinamiche sulle quali
sta lavorando.
* Pruning: riduzione del modello rimuovendo strati e canali di attenzione.
* Distillazione: trasferimento della conoscenza da un modello più grande a uno
più piccolo per crearne uno più efficiente che mantiene gran parte della
potenza predittiva.
RISULTATI
* Aumento del 16% dei punteggi MMLU rispetto al training da zero.
* Costi di calcolo di 1,8 volte inferiori.
> Da questo lavoro è nato Llama-3.1 Minitron 4B, che ottiene ottime performance
> confrontato con modelli di pari dimensioni.
Vai al post di Nvidia
--------------------------------------------------------------------------------
NUOVA FUNZIONALITÀ PER PINECONE
Pinecone introduce una nuova funzionalità definita "reranking", per migliorare i
risultati delle query vettoriali.
Può essere usata dopo il classico "retrieval", attraverso il quale vengono
estratti i documenti di una knowledge più simili alla query.
A questo punto, il modello di "reranking" attribuisce un punteggio di rilevanza
ai documenti estratti. Si tratta di un'azione più sofisticata (e lenta) del
recupero, e può considerare più fattori, come la comprensione del contesto e
delle sfumature semantiche.
The vector database to build knowledgeable AI | Pinecone
Search through billions of items for similar matches to any object, in
milliseconds. It’s the next generation of search, an API call away.
Pinecone Docs
> Grazie a sistemi come questo, migliorano le risposte che i sistemi
> restituiscono all'utente.
--------------------------------------------------------------------------------
L'AUTOMAZIONE DELLA RICERCA SCIENTIFICA
Sakana AI, in collaborazione l'Università di Oxford e della British Columbia, ha
sviluppato "The AI Scientist", un sistema rivoluzionario che automatizza
l'intero processo di ricerca scientifica.
> Dalla generazione di idee alla scrittura di articoli scientifici completi.
Il sistema, che sfrutta LLM avanzati, è in grado di condurre esperimenti,
analizzare risultati ed effettuare la revisione dei propri lavori, tutto in modo
autonomo.
The AI Scientist - Sakana AI
Un cambiamento significativo nel modo in cui viene condotta la ricerca
scientifica, sollevando questioni etiche e sfide per il bilanciamento
dell'efficienza dell'AI con l'intuizione e il giudizio umano.
Vai al progetto
--------------------------------------------------------------------------------
DIAGNOSI MEDICA ATTRAVERSO I "SUONI" DEL CORPO
Health Acoustic Representations (HeAR) è un modello di AI di Google in grado di
rilevare malattie attraverso i suoni prodotti dal corpo umano, come la tosse.
Health Acoustic Representations (HeAR)
In India, ad esempio, questa tecnologia viene usata per diagnosticare la
tubercolosi rendendo l'assistenza sanitaria più accessibile e conveniente.
Vai al post di Google
Tre anni fa, parlavo di questi sistemi con il professor Giovanni Saggio, con
risultati già sbalorditivi.
VoiceWise: la Voice Technology a servizio della salute
Insieme a Giovanni Saggio scopriamo come la Voice Technology può essere messa al
servizio della salute. Grazie all’analisi della voce, infatti, è possibile
ottenere delle diagnosi precise e veloci.
Alessio PomaroAlessio Pomaro
--------------------------------------------------------------------------------
DEMIS HASSABIS SULL'AGI (ARTIFICIAL GENERAL INTELLIGENCE)
Un'interessante intervista a Demis Hassabis, CEO di Google DeepMind.
Ancora una volta emerge un futuro di enormi benefici portati dall'AGI.
Ma un futuro che richiede una pianificazione meticolosa, una cooperazione
globale e un'attenta gestione dei rischi, compresa una riflessione seria su come
la tecnologia dovrebbe essere sviluppata e distribuita.
Demis Hassabis sull'AGI (Artificial General Intelligence)
> Troppo tecno-ottimismo sul raggiungimento di stadi avanzati di AGI?
> Probabilmente sì, ma lo scopriremo a breve.
> Necessità troppo evolute per essere gestire da questa società? Di certo sì.
--------------------------------------------------------------------------------
AI E CAMBIAMENTO CLIMATICO
Google e Nvidia hanno presentato due progetti estremamente interessanti ed
evoluti per supportare la scienza nello studio del cambiamento climatico.
NEURALGCM DI GOOGLE
NeuralGCM è un nuovo modello di Google che combina simulazioni basate sulla
fisica e AI per migliorare la precisione delle previsioni climatiche.
A differenza dei modelli tradizionali, NeuralGCM è in grado di analizzare grandi
quantità di dati e di correggere gli errori, permettendo simulazioni rapide e
dettagliate anche su computer meno potenti.
> Questo strumento OPEN SOURCE potrebbe essere cruciale per prevedere meglio i
> cambiamenti climatici e sviluppare politiche di adattamento e mitigazione più
> efficaci.
STORMCAST DI NVIDIA
Nvidia ha presentato StormCast, un nuovo modello di AI generativa, progettato
per migliorare la previsione meteorologica.
Collaborando con il Lawrence Berkeley National Laboratory e l'Università di
Washington, questo modello è in grado di fornire previsioni più accurate e a
risoluzione elevata, utilizzando una frazione dell'energia rispetto ai metodi
tradizionali.
AI Chases the Storm: New NVIDIA Research Boosts Weather Prediction, Climate
Simulation
Amid hurricane season, NVIDIA unveils breakthrough generative AI model for
emulating high-fidelity atmospheric dynamics.
NVIDIA BlogMike Pritchard
StormCast è parte della piattaforma Earth2, che combina AI, simulazioni fisiche
e grafica, per simulare il clima globale con una precisione senza precedenti.
> Questa innovazione promette di rivoluzionare la ricerca climatica e migliorare
> la sicurezza delle comunità esposte a eventi meteorologici estremi.
--------------------------------------------------------------------------------
FIGURE 02
Figure 02 è uno dei robot umanoidi più evoluti esistenti, che conta già delle
collaborazioni importanti per le applicazioni in azienda.
Figure 02: il lancio del robot umanoide
Il funzionamento è basato su un VLM di OpenAI che elabora richieste testuali
(ottenute convertendo l'audio) e immagini per valutare le azioni da compiere.
Questo permette al robot di rispondere e di generare movimenti.
I dati e le correzioni si trasformano in nuovo training, e questo fa sì che le
azioni migliorino costantemente.
I principi sono gli stessi che abbiamo già visto recentemente nel robot (non
umanoide) di Google DeepMind basato su Gemini.
> Il miglioramento del LLM, e l'uso di sistemi neuro-simbolici renderà questi
> robot sempre più performanti e affidabili, e chiaramente, ci saranno
> importanti discussioni da affrontare.
--------------------------------------------------------------------------------
COME FUNZIONANO I TRANSFORMER?
Una bellissima interazione che spiega il funzionamento dei Transformer nel
prevedere la parola successiva nel completamento.
Come funzionano i Transformer?
Scrivendo una frase nel campo e variando la "temperatura" è possibile capire ciò
che il modello prevede.
Provalo
--------------------------------------------------------------------------------
LE POTENZIALITÀ DELL'AI
> Nel 1882, l'elettricità era la nuova promessa tecnologica destinata a
> rivoluzionare l'industria manifatturiera.
> Tuttavia, il vero cambiamento arrivò solo quando le fabbriche furono ripensate
> da zero, mettendo l'elettricità al centro.
> Oggi, ci troviamo in una fase simile con l'intelligenza artificiale (AI), e
> molti sviluppatori stanno semplicemente aggiungendo AI ai prodotti esistenti
> senza sfruttarne appieno le potenzialità uniche.
Questa è la premessa dell'intervento di Alex Albert di Anthropic all'AI Engineer
World's Fair.
Alex Albert di Anthropic all'AI Engineer World's Fair
> È forse un parallelo esagerato (di certo scontato)? Forse sì, ma il concetto è
> assolutamente interessante.
--------------------------------------------------------------------------------
SAM (SEGMENT ANYTHING MODEL) 2 DI META
Meta ha introdotto SAM (Segment Anything Model) 2: un modello in grado di
segmentare in real-time qualunque oggetto presente su immagini e video.
Si tratta di un sistema aperto, del quale verrà condiviso il codice, i pesi e un
ampio dataset video.
SAM (Segment Anything Model) 2 di Meta
> Immaginiamoci sistemi come questo applicati alla generazione/editing video,
> all'etichettatura dei video, alla visione artificiale e all'AR.
Vai alla demo
--------------------------------------------------------------------------------
MODEL PLAYGROUND DI GITHUB
GitHub lancia un "model playground" per testare e sviluppare applicazioni basate
su LLM.
Introducing GitHub Models: A new generation of AI engineers building on GitHub
We are enabling the rise of the AI engineer with GitHub Models – bringing the
power of industry leading large and small language models to our more than 100
million users directly on GitHub.
The GitHub BlogThomas Dohmke
Il sistema permette agli utenti di:
* testare tutti i modelli (Llama, GPT-4, GPT-4o, Phi, Mistral, ecc.)
gratuitamente;
* portare il codice direttamente sull'editor;
* creare l'ambiente di produzione su Azure.
--------------------------------------------------------------------------------
TORCHCHAT DI PYTORCH
Torchchat è una libreria sviluppata da PyTorch che permette di eseguire in
locale modelli di linguaggio di grandi dimensioni (LLM), come Llama 3 e 3.1, su
diversi dispositivi, inclusi laptop, desktop e dispositivi mobili.
Chiaramente sfrutta delle tecniche di ottimizzazione, come la quantizzazione, la
compilazione avanzata e l'esecuzione Eager.
Introducing torchchat: Accelerating Local LLM Inference on Laptop, Desktop and
Mobile
Today, we’re releasing torchchat, a library showcasing how to seamlessly and
performantly run Llama 3, 3.1, and other large language models across laptop,
desktop, and mobile.
PyTorchTeam PyTorch
LE PERFORMANCE
* Su MacBook Pro M1 Max: oltre 17 T/s
* Linux con GPU A100 (CUDA): oltre 135 T/s
* Smartphone (quantizzazione a 4 bit): 8 T/s
--------------------------------------------------------------------------------
LE NOVITÀ DA OPENAI
> 3 novità di OpenAI, rilasciate abbastanza silenziosamente.
* ChatGPT (GPT-40) ha ricevuto un recente upgrade di modello, con correzioni e
ottimizzazioni. Se si nota, ad esempio, le risposte su task complessi tendono
a sviluppare step di "pensiero" più interessanti.
* Esiste una nuova versione sperimentale di GPT-4o con un output che può
raggiungere i 64k token. Diciamo che stiamo parlando di output paragonabili a
300 pagine di un libro.
* È stato annunciato il lancio del fine-tuning per GPT-4o. Ora è possibile
personalizzare il modello GPT-4o per migliorare le prestazioni e
l'accuratezza nelle applicazioni specifiche.
Le novità di OpenAI
--------------------------------------------------------------------------------
LA PARTNERSHIP TRA OPENAI E CONDÉ NAST
> Il passo da "blocchiamo il crawler di OpenAI per evitare che ci rubi i
> contenuti" a una gara per stringere accordi ed essere tra i risultati di
> SearchGPT è brevissimo..
Anche Condé Nast firma una partnership, e metterà a disposizione contenuti di
testate come Vogue, The New Yorker, Wired, GQ, e Vanity Fair.
Vai al comunicato
--------------------------------------------------------------------------------
SEARCHGPT E PERPLEXITY
Esistono differenze tecniche sostanziali tra sistemi come Perplexity e ciò che
sta costruendo OpenAI con SearchGPT.
* I primi usano un motore di ricerca per estrarre i contenuti dai risultati
derivanti dalle query che il sistema produce in base alla richiesta degli
utenti (il ranking viene demandato al motore). Questi contenuti diventano il
contesto per un LLM, che li trasforma in una risposta.
* SearchGPT avrà un crawler, e il sistema gestirà direttamente i contenuti per
stabilire le informazioni più aderenti alla richiesta.
SearchGPT e Perplexity
Molti affermano: "useranno la ricerca vettoriale su tutti i contenuti
scansionati ed embeddati". Non è così semplice.. comunque servirà la capacità di
attribuire una sorta di indice di affidabilità. E serviranno altri parametri di
affinamento.
Altro tema interessante..
> come verranno trattati gli editori che stanno stringendo accordi con OpenAI?
--------------------------------------------------------------------------------
INTELLIGENZA ARTIFICIALE E PRODUTTIVITÀ
Uno studio dell'Upwork Research Institute riporta..
> La metà (47%) dei dipendenti che utilizzano l'intelligenza artificiale afferma
> di non avere idea di come ottenere gli incrementi di produttività che i propri
> datori di lavoro si aspettano, e il 77% afferma che questi strumenti hanno in
> realtà ridotto la loro produttività e aumentato il loro carico di lavoro.
È un chiaro segnale del fatto che non possiamo pensare che sia tutto automatico:
non basta dare ChatGPT alle persone, e pensare che il processo sia finito.
Serve studio, sperimentazione e formazione, se si vogliono generare risultati.
Vai allo studio
--------------------------------------------------------------------------------
- GRAZIE -
Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre
persone, condividilo 🙂
ISCRIVITI ALLA NEWSLETTER
Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su
tematiche relative all'intelligenza artificiale.
Iscriviti alla Newsletter
Email sent! Check your inbox to complete your signup.
Gratuita. No Spam. Puoi disiscriverti quando vuoi.Consulta la privacy policy.
Dopo il rilascio negli Stati Uniti di AI Overviews, il nuovo sistema integrato
alla ricerca di Google che compone le risposte attraverso l'AI generativa, ci
sono stati diversi commenti in cui gli utenti hanno mostrato errori e
informazioni non corrette.
Il post della BBC che segue, racconta i casi più noti.
Google AI search tells users to glue pizza and eat rocks
Google has defended the answers given by AI Overview, describing them as
“isolated examples”.
BBC News
Google, successivamente, ha pubblicato un articolo in cui spiega come funziona
il sistema e i motivi per i quali può commettere imprecisioni.
AI Overviews: About last week
Here’s what happened with AI Overviews, the feedback we’ve received, and the
steps we’ve taken.
GoogleLiz Reid
Il contenuto descrive concetti in modo chiaro e quasi scontato per chi conosce
il mondo dei modelli di linguaggio.
UNA BREVE SINTESI
AI Overviews, di fatto, è simile a un sistema RAG (Retrieval Augmented
Generation) che usa i risultati del motore di ricerca come contesto per
l'elaborazione del modello di linguaggio, il quale compone la risposta.
Secondo Google, quindi, parte del problema (risposte errate) deriva dal tipo di
contenuti estratti dalla ricerca: se le pagine degli utenti contengono
informazioni non corrette, anche la risposta del modello potrebbe non essere
corretta.
A questo aggiungiamo il fatto che il LLM spesso non è in grado di interpretare
situazioni in cui gli esseri umani usano forme di ironia e sarcasmo. E questo
porta a informazioni completamente fuori contesto.
In uno degli esempi, infatti, la query che ha scatenato l'errore è stata:
> "How many rocks should I eat?"
AI Overviews ha risposto sostenendo che i geologi raccomandano agli esseri umani
di mangiare una roccia al giorno. Questo deriva da una pagina in cui l'autore fa
questa affermazione con ironia, per poi spiegare il concetto nell'articolo.
Geologists Recommend Eating At Least One Small Rock Per Day - ResFrac
Corporation
Professor Zoback in The Onion
ResFrac Corporation - Hydraulic Fracturing and Reservoir Simulation
NON CI SIAMO!
Tutto si gioca su ciò che viene proposto all'utente. Finché si propone una
selezione di pagine coerenti alla query di ricerca (risultati di ricerca
classici), il problema non si pone, perché sarà l'utente a fare le sue
valutazioni consultando i risultati.
Ma se la proposta mira a dare una risposta alla domanda dell'utente distillando
i risultati del motore di ricerca, allora la risposta deve avere un senso.
Sempre. E deve rispettare determinati canoni.
Anche perché, ci sono sistemi che questo lo sanno fare meglio!
FACCIAMO LA STESSA DOMANDA SU CHATGPT?
Proviamo a fare la stessa richiesta su ChatGPT sfruttando la capacità di
navigazione online.
Un esempio di ricerca su ChatGPT
ChatGPT, come si vede nell'immagine, effettua la ricerca online, e tra le fonti
estrae anche lo stesso contenuto considerato da AI Overviews di Google. Vediamo,
quindi che tipo di risposta compone il sistema di OpenAI.
La risposta di ChatGPT alla stessa domanda posta su Google
Come si vede, la risposta di ChatGPT è più sensata. Non solo. Rileva
correttamente il senso dell'articolo che ha ingannato il modello di Google.
Forse qualcuno può pensare che il motivo sia il fatto che la pagina di ResFrac è
stata aggiornata recentemente riportando la vicenda. Allora ho fatto un
ulteriore test, riportando manualmente solo il contesto della pagina in cui
viene consigliato di mangiare una roccia la giorno.
Risposta di ChatGPT con un contesto riportato da ResFrac
Ancora una volta, ChatGPT risponde riconoscendo il tono con il quale è stato
scritto il contenuto.
COME SE LA CAVA CON LA PIZZA?
Vediamo un ulteriore test con l'altra ricerca che ha scatenato le critiche.
All'affermazione "cheese not sticking on pizza", AI Overviews ha consigliato di
usare la colla. Vediamo ChatGPT.
La risposta di ChatGPT alla richiesta sul formaggio sulla pizza
Risposte sensate e bilanciate, usando contenuti disponibili online.
L'EQUILIBRIO DELL'IBRIDO (MOTORE DI RICERCA + LLM)
Google è senza dubbio il miglior motore di ricerca per la capacità di estrazione
di contenuti coerenti alle query e di integrazione delle informazioni, ma questo
non basta per generare risposte di valore (e non dannose) per gli utenti.
> L'AI generativa di OpenAI è migliore? Si tratta di lacune della configurazione
> del comportamento dell'agente che genera le risposte su AI Overviews?
Nel post di Google questi esempi vengono descritti come casi isolati in cui la
query non è mai stata eseguita nel motore di ricerca. Questo è assolutamente
probabile, ma non può essere correlato al fatto di dare una risposta dannosa. Il
problema è nel modello o nel suo utilizzo nel sistema.
> Il titolo di questo post è una provocazione.. ma osservando gli output, quali
> sono le migliori risposte?
CONCLUSIONE
La mia riflessione non è orientata a consigliare l'utilizzo di ChatGPT + web
search come motore di ricerca. Anzi, metto in guardia le persone in tutti i
corsi ai quali partecipo su questo tipo di azione. Ma se si vuole aggiungere una
funzionalità in grado di dare risposte agli utenti basate su fonti online, il
modello deve essere in grado di farlo in maniera corretta, con delle linee guida
rigide e dei "guardrails" opportuni.
Concludo con una nota di Giorgio Taverniti, emersa riflettendo su queste
tematiche.
> Il problema si trova alla base della progettazione dell'interfaccia: se
> qualcosa è pensato per la massa, deve rispettare l'aspettativa del prodotto e
> non ingannare l'utente.
>
> Inserire l'AI Generativa in una chat, è fuorviante, ma è anche il modo
> migliore di farlo. Una piccola nota in grigio non risolverà il problema.
> Le Big Tech dovranno trovare una soluzione. Questi sistemi, attualmente, non
> contemplano la verifica dei fatti o, ancora più difficile, della "verità".
> Quindi mi aspetto che si lavorerà anche in questa direzione, per quanto sia
> davvero difficile.
>
> Sono contento che ChatGPT sia arrivato a questo livello. È davvero
> incredibile.
--------------------------------------------------------------------------------
- GRAZIE -
Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre
persone, condividilo 🙂
ISCRIVITI ALLA NEWSLETTER
Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su
tematiche relative all'intelligenza artificiale.
Iscriviti alla Newsletter
Email sent! Check your inbox to complete your signup.
Gratuita. No Spam. Puoi disiscriverti quando vuoi.Consulta la privacy policy.
Ieri sera abbiamo seguito il tanto atteso Google I/O, e come annunciato, sono
state presentate tutte le novità che ruotano attorno all'intelligenza
artificiale, in quella che Sundar Pichai ha definito "The Gemini Era".. un'era
sempre più multimodale, e sempre più "long context", che mantiene Gemini 1.5 Pro
come flagship model.
L'evento è stato una lunga carrellata (quasi stordente) di applicazioni
rivoluzionarie in cui emerge, ancora una volta, la vera forza di Google:
l'integrazione dell'AI generativa in ogni elemento del suo vasto ecosistema.
Google I/O 2024: la live completa
--------------------------------------------------------------------------------
I 10 ESEMPI CHIAVE
Quella che segue è la mia selezione dei 10 esempi più significativi presentati
durante l'evento.
1) VEO, IL MODELLO DEDICATO ALLA GENERAZIONE VIDEO
Un potente modello text-to-video che, nella visione di Google, consentirà ai
registi di creare riprese cinematografiche attraverso prompt testuali.
Può generare video di alta qualità con risoluzione 1080p che possono superare il
minuto di durata, con un'ampia gamma di stili cinematografici e visivi.
Esempi di video generati con Veo - Google DeepMind
Il modello sarà disponibile su VideoFX e la proiezione futura lo vede integrato
anche su YouTube per la creazione di shorts.
La pagina che segue è l'approfondimento nel sito web di Google DeepMind.
Veo
Veo is our most capable video generation model to date. It generates
high-quality, 1080p resolution videos that can go beyond a minute, in a wide
range of cinematic and visual styles.
Google DeepMind
--------------------------------------------------------------------------------
2) L'INTEGRAZIONE NATIVA DELL'AI NELLA RICERCA
Google sta trasformando radicalmente l'esperienza di ricerca, integrando
tecnologie avanzate di AI per semplificare e arricchire l'interazione degli
utenti con il web, rendendo la ricerca più intuitiva e adattata alle esigenze
personali.
L'evoluzione della ricerca online
Le nuove funzionalità consentiranno di formulare domande complesse in una sola
ricerca, integrando capacità di ragionamento a più step e pianificazione.
Sarà possibile personalizzare l'esperienza per semplificare il linguaggio o
dettagliarlo maggiormente. Utile per chi si avvicina a nuovi argomenti o per
spiegazioni a un pubblico giovane.
Attraverso le nuove capacità di pianificazione direttamente nella ricerca,
Google mira ad aiutare gli utenti a creare programmi (es. per dieta e vacanze),
con possibilità di customizzazione.
Verrà introdotto un nuovo formato di pagina dei risultati organizzata dall'AI,
con l'obiettivo di facilitare l'esplorazione di idee con titoli e box generati
che categorizzano i contenuti in modo innovativo.
Sarà possibile effettuare ricerche basate su video, ampliando ulteriormente le
capacità di search visuale.
L'approfondimento nel blog di Google.
Generative AI in Search: Let Google do the searching for you
We’re bringing AI Overviews to everyone in the U.S. and adding new gen AI
experiences to take more of the legwork out of searching.
GoogleLiz Reid
--------------------------------------------------------------------------------
3) PROJECT ASTRA: IL FUTURO DEGLI AI ASSISTANT
Un progetto dedicato alla creazione di agenti AI universali che possono
interagire in modo naturale e immediato, comprendendo e rispondendo al contesto
dinamico del mondo reale.
Project Astra - Google DeepMind
Non permette soltanto l'interazione con l'acquisizione della fotocamera in
real-time, ma addirittura di interagire con il video nello schermo, ad esempio
indicando gli elementi di interesse.
> Davvero emozionante l'utilizzo del sistema
> attraverso gli smart glasses e la voce.
Gli aggiornamenti recenti alla famiglia di modelli Gemini da parte di Google
indicano passi significativi verso sistemi più veloci, efficienti e capaci di
interazioni multimodali avanzate, spianando la strada per assistenti AI
futuristici e onnipresenti.
L'approfondimento nel blog di Google.
Gemini breaks new ground with a faster model, longer context, AI agents and more
We’re sharing updates across our Gemini family of models and a glimpse of
Project Astra, our vision for the future of AI assistants.
GoogleDemis Hassabis
--------------------------------------------------------------------------------
4) IMAGEN 3: IL NUOVO MODELLO TEXT-TO-IMAGE
Imagen 3 rappresenta un significativo avanzamento nella tecnologia di
generazione di immagini da input testuale, con migliorie sostanziali nella
qualità visiva, nella comprensione dei prompt e in termini di sicurezza,
promettendo una più ampia applicabilità e integrazione nei prodotti e servizi di
Google.
Imagen 3: il nuovo modello text-to-image
Il sistema si basa sulle ultime innovazioni di Google DeepMind per la sicurezza
e la responsabilità, includendo watermarking digitale, impercettibile all'occhio
umano ma rilevabile per l'identificazione.
Watermarking AI-generated text and video with SynthID
Announcing our novel watermarking method for AI-generated text and video, and
how we’re bringing SynthID to key Google products
Google DeepMind
Imagen 3 avrà presto le funzionalità della versione precedente, come inpainting
e outpainting, e verrà integrato nei prodotti Google come Gemini, Workspace e
Ads.
L'approfondimento dal sito web di Google DeepMind.
Imagen 3
Imagen 3 is our highest quality text-to-image model, capable of generating
images with even better detail, richer lighting and fewer distracting artifacts
than our previous models.
Google DeepMind
--------------------------------------------------------------------------------
5) GEMINI 1.5 PRO È ORA DISPONIBILE PER TUTTI
Disponibile per tutti e con un'espansione della finestra di contesto a 2 milioni
di token.
Gemini 1.5 Pro è ora disponibile per tutti
L'approfondimento nel blog di Google.
Get more done with Gemini: Try 1.5 Pro and more intelligent features
Gemini Advanced subscribers will get access to Gemini 1.5 Pro, a 1 million token
context window and more personalized features.
GoogleSissie Hsiao
--------------------------------------------------------------------------------
6) TRILLIUM: UNA NUOVA ARCHITETTURA DI TPU EFFICIENTE E PERFORMANTE
Il lancio delle TPU Trillium di sesta generazione segna un significativo
avanzamento nella tecnologia delle unità di elaborazione di Google, promettendo
notevoli miglioramenti nella velocità di training e nell'efficienza energetica,
essenziali per il futuro dello sviluppo di modelli di intelligenza artificiale
su larga scala.
Trillium: una nuova architettura di TPU efficiente e performante
Questa generazione di TPU raggiunge un impressionante aumento di 4,7 volte
rispetto alle prestazioni di calcolo di picco per chip della versione
precedente.
L'approfondimento nel blog di Google Cloud.
Introducing Trillium, sixth-generation TPUs | Google Cloud Blog
The new sixth-generation Trillium Tensor Processing Unit (TPU) makes it possible
to train and serve the next generation of AI foundation models.
Google Cloud
--------------------------------------------------------------------------------
7) GEMINI 1.5 FLASH
Un modello più leggero, ottimizzato per attività in cui diventano fondamentali
la bassa latenza e i costi.
Gemini 1.5 Flash
Gli sviluppatori possono utilizzarlo con una finestra di contesto di 1 milione
di token su Google AI Studio e Vertex AI.
Gemini Flash
Our lightweight model, optimized for when speed and efficiency matter most, with
a context window of up to one million tokens.
Google DeepMind
--------------------------------------------------------------------------------
8) GENERATIVE MUSIC CON MUSICFX
MusicFX consentirà di liberare il DJ nascosto in ognuno di noi, per creare nuovi
ritmi e composizioni.
Generative Music con MusicFX
Il sistema aiuta a mixare i ritmi combinando generi, strumenti e altro, per dare
vita a storie musicali. È un playground per ispirare la generazione di nuova
musica.
Un approfondimento nel blog di Google.
Introducing VideoFX, plus new features for ImageFX and MusicFX
Today we’re introducing VideoFX, plus new features for ImageFX and MusicFX that
are now available in 110 countries.
GoogleThomas Iljic
--------------------------------------------------------------------------------
9) GEMINI INTEGRATO SU GOOGLE SHEETS
Grazie a questa integrazione sarà possibile interagire con Gemini direttamente
all'interno di Google Sheets, per analizzare i dati nei fogli attraverso il
linguaggio naturale.
Gemini integrato su Google Sheets
La possibilità di organizzare gli allegati di Drive, generare un foglio e
analizzare i dati verrà implementata su Labs entro la fine dell'anno.
Collaborate with Gemini in Google Sheets (Workspace Labs) - Google Docs Editors
Help
With Gemini in Google Sheets, you can: Create tables. Create formulas. Summarize
your files from Drive and emails from Gmail. Feature availability Th
Google Docs Editors Help
--------------------------------------------------------------------------------
10) L'INTEGRAZIONE DI GEMINI ANCHE SU GMAIL, DOCS, CALENDAR
Gemini sarà inserito su Gmail, Docs e Calendar. Gli strumenti funzionano già
bene insieme, ma l'integrazione renderà ancora più semplici le operazioni tra le
applicazioni. Ad esempio sarà possibile riconoscere determinate mail,
organizzandole su Drive e Sheets.
L'integrazione di Gemini anche con Gmail, Docs, Calendar
--------------------------------------------------------------------------------
CONSIDERAZIONI FINALI
Le applicazioni presentate sono assolutamente straordinarie, e vanno oltre ai 10
punti condivisi. Si è parlato, infatti, anche di:
* LearnLM, una famiglia di modelli ottimizzati per l'apprendimento;
* Intelligenza Artificiale responsabile;
* Ask Photos, un nuovo modo per cercare le tue foto con Gemini;
* Android, con un'integrazione di Gemini Nano sui device;
* Vertex AI, con i nuovi modelli integrati e disponibili;
* Gemma, con i nuovi modelli PaliGemma (un VLM) e Gemma 2.
I/O 2024
Here’s a look at everything we announced at Google I/O 2024.
blog.googleThomas Iljic
Tuttavia ho trovato qualche sintomo di frammentazione nell'azione di Google, con
una miriade di progetti basati sull'AI senza dare un riferimento chiaro
all'utente. Chi ha seguito le due ore di diretta, di certo è rimasto
disorientato.. o almeno per me la sensazione è stata questa.
> Useremo Astra, Assistant, SGE o Gemini per una ricerca multimodale? Continuo a
> ripetere che manca davvero un unico assistente centrale per tutto
> l'ecosistema.
Infine, dopo aver visto la naturalezza dell'interazione messa in atto da OpenAI
durante lo Spring Update, per quanto innovativo sia il progetto Astra, rimane
difficile affrontare un altro assistente.
GPT-4o: il più performante, multimodale, e.. gratuito!?
3 riflessioni sulle novità presentate da OpenAI durante lo Spring Update
Alessio PomaroAlessio Pomaro
--------------------------------------------------------------------------------
- GRAZIE -
Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre
persone, condividilo 🙂
ISCRIVITI ALLA NEWSLETTER
Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su
tematiche relative all'intelligenza artificiale.
Iscriviti alla Newsletter
Email sent! Check your inbox to complete your signup.
Gratuita. No Spam. Puoi disiscriverti quando vuoi.Consulta la privacy policy.