Blob di C.I.R.C.E.

Generative AI: novità e riflessioni - #4 / 2025

> Buon aggiornamento, e buone riflessioni.. -------------------------------------------------------------------------------- TEDX BERGAMO: POTERE Il 25 maggio avrò l'onore di essere sul palco di TEDx Bergamo 2025, e il tema centrale sarà "POTERE". > "POTERE" è la capacità di generare cambiamento. Attraverso l’AI, possiamo > affrontare sfide globali e aprire strade inedite. Ma c’è un potere ancora più > intimo e umano: quello di comprendere la trasformazione per decidere come > viverla e in quale direzione guidarla. > - Alessio Pomaro Vai ai Biglietti -------------------------------------------------------------------------------- WELCOME TO THE ERA OF EXPERIENCE Un paper (da leggere) in cui i ricercatori di Google DeepMind invitano a ripensare l'AI: > non come una copia dell’intelligenza umana, ma come un sistema autonomo che > impara, pianifica e agisce nel mondo reale. L'era dell'esperienza permetterà di superare i limiti dell’imitazione e raggiungere capacità realmente superumane? Secondo Silver e Sutton, la dipendenza dai dati umani (supervisionati o preferenziali) sta mostrando i suoi limiti. L’AI ha bisogno di nuovi stimoli, non più statici, ma dinamici, generati attraverso l’interazione continua con ambienti reali o simulati. Gli agenti del futuro non vivranno più in episodi brevi e scollegati, ma in "stream" di esperienza continua, adattandosi nel tempo e perseguendo obiettivi di lungo termine. Le ricompense non arriveranno da valutazioni umane, ma da segnali concreti e misurabili dell’ambiente: salute, apprendimento, scoperta scientifica. Non si tratta solo di efficienza, ma di visione. Uscire dal recinto del pensiero umano, imparare dal mondo, e scoprire strategie o conoscenze che ancora non esistono. Vai al paper > Un salto evolutivo, non solo tecnologico. -------------------------------------------------------------------------------- LA SPIEGABILITÀ DEI MODELLI DI AI Com'è noto, Anthropic sta facendo un grande lavoro sulla spiegabilità dei modelli di AI, condividendo paper e promuovendo delle riflessioni fondamentali. Il post pubblicato da Dario Amodei richiama con urgenza l'importanza di capire il funzionamento interno dei modelli prima che diventino troppo potenti. Un invito ad agire per chiunque lavori sull'AI o abbia a cuore il futuro della tecnologia, toccando anche argomenti delicati che riguardano la geopolitica ("I believe that democratic countries must remain ahead of autocracies in AI"). Anche se sembra una mossa ovvia da parte di chi possiede più esperienza di tutti in quest'ambito (e non possiede il modello più potente), ritengo sia un documento molto interessante per avere consapevolezza sull'argomento. Ho provato a sintetizzare i punti principali. * Amodei racconta come, in dieci anni di lavoro sull'AI, il settore sia passato da un ambito accademico a una delle questioni più decisive per il futuro dell'umanità. Anche se l’avanzamento è inarrestabile, possiamo influenzarne la direzione. Oggi, la vera sfida è l'interpretabilità: capire come funzionano internamente i sistemi prima che diventino troppo ampi per essere controllati. * L'AI generativa prende decisioni che non sappiamo spiegare: a differenza del software tradizionale, i suoi meccanismi interni emergono spontaneamente, rendendo difficile prevedere o correggere i comportamenti indesiderati. * Questa opacità alimenta rischi concreti, come comportamenti ingannevoli o usi pericolosi. Inoltre, senza spiegazioni comprensibili, l'AI non può essere applicata in settori critici come finanza o medicina. Se riuscissimo a "guardare dentro" ai modelli, potremmo prevenire errori e abusi. * Negli ultimi anni è nata l'interpretabilità meccanicistica, grazie a pionieri come Chris Olah. Dai primi studi sui modelli visivi si è passati a quelli linguistici, scoprendo milioni di concetti nascosti, anche se sovrapposti e complessi. Tecniche come gli autoencoder sparsi stanno aiutando a mappare e manipolare questi concetti, rendendo visibili anche i "ragionamenti" attraverso circuiti interni. * Nonostante i progressi, resta la sfida pratica: applicare l'interpretabilità per individuare e correggere "difetti" reali nei modelli. Esperimenti interni mostrano che è possibile. * Amodei conclude affermando che siamo in una corsa tra l'avanzamento dell'AI e la nostra capacità di interpretarla. Per vincere, serve: investire nella ricerca, promuovere la trasparenza, adottare misure geopolitiche. Vai al post > Capire i nostri modelli prima che trasformino il mondo è una responsabilità > che non possiamo rimandare. -------------------------------------------------------------------------------- AGENTIC AI: UN WEBINAR DI STANFORD Stanford ha pubblicato un'interessante lezione che riepiloga il funzionamento dei LLM e arriva fino agli AI Agent. Agentic AI: un webinar di Stanford I punti salienti.. * LLM Base: modelli che predicono i token successivi. Addestrati su enormi testi (pre-training), poi affinati (fine-tuning con SFT/RLHF) per seguire istruzioni e preferenze umane. * Limiti dei LLM: possono "allucinare" (dare informazioni errate), hanno conoscenza limitata nel tempo (knowledge cutoff), non citano fonti, non accedono a dati privati/real-time e hanno un contesto limitato. * RAG: fornisce contesto esterno rilevante (da documenti/DB) al LLM per risposte più accurate e aggiornate. * Tool Usage: permette ai LLM di usare API esterne o eseguire codice per accedere a dati real-time o fare calcoli. * Agentic AI: l'evoluzione dei LLM. Non solo testo, ma sistemi che: ragionano e pianificano (scompongono compiti), agiscono (usano RAG e Tools per interagire con l'ambiente), osservano (ricevono feedback dalle loro azioni) iterano (si adattano in un ciclo azione-osservazione-pianificazione). * Pattern Agentici, per costruire agenti efficaci: pianificazione, riflessione (auto-correzione), utilizzo di strumenti e collaborazione multi-agente (più agenti specializzati). > In breve, l'Agentic AI combina il ragionamento dei LLM con l'azione nel mondo > esterno, permettendo di affrontare compiti molto più complessi e interattivi. -------------------------------------------------------------------------------- "STOP & THINK" DI ANTHROPIC SU UN AGENT DI OPENAI CON O3 In questo esempio ho implementato la dinamica di "Stop & Think" definita da Anthropic su un Agent di OpenAI, basato su o3. In pratica, il sistema è configurato per eseguire un task estraendo i dati necessari attraverso "function calling". Una volta ottenuti i dati, prima di restituire l'output, usa una funzione di "reasoning", la quale sfrutta il modello per mettere in atto delle catene di pensiero che verificano i dati, creano il miglior piano d'azione per procedere, e controllano la conformità in base alle richieste. Se è tutto conforme, procede con l'output, altrimenti ripete le operazioni, finché il controllo sarà positivo (o fino al raggiungimento del numero massimo delle interazioni consentite). Una dinamica davvero interessante per migliorare la qualità dell'output. "Stop & Think" di Anthropic su un Agent di OpenAI con o3 > Il porting del codice di Anthropic per usare i modelli di OpenAI sul mio > esempio è stato generato interamente con Gemini 2.5 Pro. Il modello ha > prodotto tutto il codice partendo dall'esempio fornito da Anthropic + il > prompt che usavo in precedenza nel mio progetto, che eseguiva l'operazione in > un'unica azione. -------------------------------------------------------------------------------- OPENAI ACADEMY OpenAI ha lanciato ufficialmente l'AI Academy: una piattaforma formativa gratuita pensata per chi vuole portare l’AI dal laboratorio alla realtà operativa. OpenAI Academy I contenuti sono pensati per l’uso pratico: automazioni, agenti AI, pipeline con GraphRAG, Q&A su documenti, integrazioni reali con diversi modelli. Vai all'Academy TRA I PUNTI FORTI * Live coding sessions * Prompt engineering, fine-tuning, RAG, multimodalità * Esempi di codice commentato per API, automazioni e gestione dati * Percorsi ideali per chi è agli inizi o ha esperienza intermedia -------------------------------------------------------------------------------- LE NOVITÀ DI NOTEBOOKLM DI GOOGLE Google introduce due novità molto interessanti su NotebookLM. 1) RICERCA ONLINE Ora è possibile descrivere un argomento e ottenere una selezione di fonti rilevanti dal web, già riassunte dall'IA e integrabili con un clic al notebook. La ricerca online su NotebookLM di Google La nuova funzione "Carica Origini", alimentata da Gemini, permette di approfondire rapidamente qualsiasi tema e integrarlo con strumenti come briefing, FAQ e Audio Overviews. Ho provato lo strumento, e credo sia una funzionalità fantastica per esplorare gli argomenti. Ho inserito il topic, selezionato le fonti tra quelle suggerite, fatto richieste, generato note, creato un podcast interattivo. Vai al post > Ho detto spesso che l'integrazione dell'AI nel suo ecosistema è la vera forza > di Google. Verissimo, ma ora hanno anche il modello più performante. 2) AUDIO OVERVIEWS ANCHE IN ITALIANO Audio Overviews diventa disponibile in più di 50 lingue. L'italiano è tra queste, e l'ho provato su un notebook che ha come fonte l'ultimo post di Dario Amodei sull'importanza dell'interpretabilità dell'AI. Il prompt che ho usato è specifico, indicando l'ambito sul quale concentrarsi maggiormente. Audio Overviews in italiano: un test > Il risultato? Per me è incredibile. Una risorsa davvero interessante. > Immaginiamo solo la potenzialità per l'aggiornamento personale nelle > connessioni dei concetti su larga scala. -------------------------------------------------------------------------------- NON PUÒ ESISTERE LA FIGURA DEL PROMPT ENGINEER Il WSJ ha condiviso dei dati su un concetto che ho sempre sostenuto: non può esistere la figura del "prompt engineer". E non si tratta di obsolescenza di una professione, ma di consapevolezza di un miraggio. Il WSJ sulla figura del prompt engineer La motivazione che danno nell'articolo, però, è solo parzialmente centrata. Non è solo questione di avanzamento dei LLM nella comprensione delle richieste in linguaggio naturale. > Il fatto è che la capacità di ottenere l'output desiderato da un agente basato > sull'AI è una competenza trasversale che potenzia delle hard skill. Se non si > possiedono quelle hard skill, nessun "mago del prompt" potrà ottenere > risultati avanzati necessari in ambito professionale. Vai al post -------------------------------------------------------------------------------- PROMPT ENGINEERING: IL PAPER DI GOOGLE Google ha pubblicato un interessante documento sul "Prompt Engineering": una guida sulla creazione di prompt efficaci. Prompt Engineering: il paper di Google Non ci sono novità eclatanti, ma di certo un percorso chiaro e ordinato. Le parti più interessanti riguardano gli approcci Chain of Thought (CoT) e ReAct. * CoT è utile per migliorare l'accuratezza facendo sviluppare al LLM un "ragionamento" logico. * ReAct è utile per applicazioni che richiedono interazione con fonti esterne o task complessi. Vai al paper -------------------------------------------------------------------------------- OPENAI: 3 GUIDE PRATICHE DEDICATE ALL'AI 1- A PRACTICAL GUIDE TO BUILDING AGENTS È pensata per chi vuole costruire agenti AI in grado di svolgere task multi-step in autonomia. Descrive come scegliere i modelli, integrare strumenti e impostare istruzioni chiare. Spiega modelli di orchestrazione come il "manager agent" o sistemi decentralizzati, e introduce i "guardrail" per garantire sicurezza, privacy e intervento umano nei casi critici. Vai alla guida 2- IDENTIFYING AND SCALING AI USE CASES Offre un metodo per scoprire e scalare casi d’uso ad alto impatto. Si parte da sfide comuni come attività ripetitive, colli di bottiglia di competenze e ambiguità decisionali, e si esplorano sei "primitivi" come content creation, automazioni e analisi dati. Esempi come Promega, Tinder e BBVA mostrano come anche attività complesse possano essere trasformate in flussi AI scalabili. Vai alla guida 3- AI IN THE ENTERPRISE Raccoglie sette lezioni chiave per adottare l’AI su larga scala. Vengono presentati esempi concreti come Morgan Stanley, che ha migliorato l’efficienza dei suoi advisor grazie a valutazioni sistematiche (evals), e Indeed, che ha potenziato il job matching con GPT-4o mini. Klarna ha implementato un assistente AI per il customer service, riducendo i tempi di risposta da 11 a 2 minuti. La guida sottolinea l’importanza di investire presto, personalizzare i modelli, e mettere l’AI nelle mani degli esperti aziendali. Vai alla guida -------------------------------------------------------------------------------- I 30 PAPER DI ILYA SUTSKEVER > "If you really learn all of these, you’ll know 90% of what matters today". Con queste parole, Ilya Sutskever (co-founder di OpenAI) condivide quelli che ritiene i migliori 30 paper che riguardano l'AI. Vai ai paper Molti mi hanno chiesto suggerimenti per affrontare questi documenti, non semplici da consultare. Un buon aiuto per iniziare potrebbe essere l'utilizzo di NotebookLM di Google. Nelle immagini si può vedere il mio notebook. Una volta inseriti tutti i documenti e le pagine web, è possibile creare la mappa mentale interattiva: cliccando le voci il sistema usa Gemini per estrarre tutte le informazioni utili. Il mio notebook con i 30 paper di Ilya Sutskever Altra idea: attraverso un prompt, ho fatto sviluppare al LLM un corso con una serie di lezioni che esplorano tutti i concetti in modo sequenziale e connesso (con riferimenti alle fonti). > Mi piacerebbe condividerlo, ma NotebookLM non permette di farlo attraverso un > link, e ha politiche molto restrittive per gli utenti. Tuttavia è realizzabile > in modo semplice. -------------------------------------------------------------------------------- SHOPPING SU CHATGPT? OpenAI migliora l'esperienza di shopping su ChatGPT, con risultati migliorati, dettagli dei prodotti, prezzi e recensioni, con i link diretti per l'acquisto. La funzionalità è in fase di rilascio. 0:00 /0:25 1× Shopping su ChatGPT Un upgrade interessante, anche se l'esperienza di Google Shopping (soprattutto negli USA) è difficilmente eguagliabile. Tenendo conto anche del fatto che questi dati non sono interfacciati con i feed degli e-commerce. Nella documentazione parlano di "structured metadata from third-party providers", ma non è ben chiaro il processo: di certo non potrà essere strutturato come quello di Google. -------------------------------------------------------------------------------- NUOVI MODELLI PER OPENAI GPT-4.1 Il nuovo modello (senza "reasoning") più potente, veloce ed economico, ideale per coding, gestione dei contesti lunghi (1M di token) e per l'aderenza a precise istruzioni. E, come previsto, GPT-4.5 verrà dismesso a luglio. L'ho provato su diversi task (le immagini riportano qualche esempio): logica, matematica, coding, elaborazione di file lunghi, generazione di dati strutturati da contenuti non strutturati, analisi del testo, generazione di testo con precise istruzioni. GPT-4.1 di OpenAI: test Le impressioni sono ottime. Due note. 1. Con un singolo prompt (senza interazioni successive) ho realizzato un piccolo software con interfaccia grafica che raccoglie una serie di utility per i PDF (estrazione di pagine, compressione, conversione in immagini, rotazione, unione). 2. Da diversi test svolti nei mesi scorsi, su prompt con tantissime istruzioni, avevo sempre trovato GPT-4 migliore rispetto alla versione "o". Finalmente il 4.1 supera quel limite. Qualche dettaglio sul modello.. La nuova famiglia GPT-4.1 include tre versioni: Standard, Mini e Nano. Il modello non solo supera GPT-4o nei benchmark più rilevanti, ma in molti casi va oltre anche GPT-4.5, motivo per cui quest’ultimo verrà ritirato. È più preciso nei compiti multi-turno, più affidabile nei formati richiesti, e significativamente più performante nello sviluppo software (con +21% su SWE-bench). È pensato esclusivamente per l’uso via API: in ChatGPT, molte delle sue migliorie sono già confluite in GPT-4o e continueranno a essere integrate. Grazie a ottimizzazioni nel sistema di inferenza, GPT-4.1 è anche più economico del 26% rispetto a GPT-4o, mentre Nano è il modello più economico e rapido mai rilasciato. Vai al post > Anche OpenAI, come Google, dimostra l'avanzamento in termini di efficienza, > dopo il passo falso della versione 4.5. O3 E O4-MINI + CODEX CLI OpenAI ha presentato i nuovi modelli o3 e o4-mini (con avanzamenti della fase di reasoning), e ha lanciato Codex CLI (un AI Agent open-source). Ho provato o3 in diversi task: coding, generazione di testo, analisi dei dati, ricerca online, logica, matematica, istruzioni complesse, analisi delle immagini, e in un sistema multi-agent via API. o3 e o4-mini + Codex CLI: test * Sul coding, è molto performante: ho realizzato un'applicazione locale (Python) con interfaccia grafica che converte un gruppo di immagini in tutti i formati, con resize e gestione della qualità, funzionante alla prima esecuzione. * Fantastici la ricerca online e code interpreter in fase di reasoning, perché sono dinamici in base al flusso di ragionamento. * Ho provato anche Codex CLI, un agente AI per il terminale che consente di scrivere codice, navigare file, interpretare immagini e interagire con il computer in modo multimodale e controllato. Nel test, entro in una directory e faccio sintetizzare al modello un PDF locale. Una funzionalità davvero interessante. o3 è il modello più potente, dedicato a compiti complessi come coding, matematica, e ragionamento visivo. o4-mini, invece, offre prestazioni sorprendentemente elevate in rapporto a dimensioni e costi, risultando ideale per usi ad alto volume di richieste. Entrambi possono usare l’intera suite di strumenti di ChatGPT: ricerca web, code interpreter, generazione e modifica immagini, function calling e tool personalizzati. Per la prima volta, ragionano anche sulle immagini: le usano come parte integrante della catena di pensiero, sbloccando nuove modalità di problem solving. Le performance: o4-mini raggiunge il 93,4% di accuratezza su AIME 2024 e 2719 ELO su Codeforces. o3 ottiene 83,3% su GPQA (domande da PhD), 86,8% su MathVista, 78,6% su CharXiv, e domina nei task di software engineering, superando ampiamente i predecessori. La sicurezza è stata potenziata con nuovi sistemi di rifiuto delle richieste, rilevamento di prompt rischiosi e test rigorosi: entrambi i modelli restano sotto le soglie critiche su tutti i fronti (biochimica, cybersecurity, auto-miglioramento AI). Vai al post -------------------------------------------------------------------------------- UN TEST DI CODEX CLI > Codex CLI di OpenAI: l'ho provato con o3, ed è una bomba! Il dettaglio dei test che si vedono nel video.. 1. Entro nella directory di un'applicazione, avvio Codex e mi faccio spiegare la codebase. Successivamente, chiedo all'agente di modificare l'app e inserire il bottone per la "dark mode". Il sistema edita direttamente i file, ed esegue tutto perfettamente (nel video si vede anche l'app modificata). Può gestire anche l'interazione con GitHub autonomamente. 2. Entro in una directory dov'è presente un dataset in CSV. Attraverso un prompt dettagliato, chiedo all'agente di analizzare i dati, pulirli, e produrre una pagina web con un report. Non solo lo crea, ma fornisce anche il Python per aggiornare il report nel caso il dataset cambi. Un test di Codex CLI di OpenAI Cos'è Codex CLI? Si tratta di un AI Agent open source che funziona in locale, sfruttando qualunque modello di OpenAI. Consente di scrivere codice, navigare file, interpretare immagini e interagire con il computer in modo multimodale e controllato. -------------------------------------------------------------------------------- DISPONIBILITÀ GENERALE PER VEO 2 DI GOOGLE È già usabile via API, e chiaramente su AI Studio. Veo 2: un test su AI Studio Nel video si vedono due esempi di "image to video" e uno di "text to video". Nei due esempi di "image to video", le immagini sono state generate con il modello di OpenAI, in modo da essere coerenti. Usando Veo per animarle, si possono creare due clip da montare per un unico video. Vai al post -------------------------------------------------------------------------------- TEST: UN'APPLICAZIONE CON GEMINI 2.5 PRO Un esempio di generazione di un'applicazione da prompt testuale con Gemini 2.5 Pro: semplice, ma funzionante alla prima esecuzione! Ho chiesto al modello di creare un'applicazione che permette di caricare un file audio o video, e che produce la trascrizione con separazione degli speaker usando le API di Gemini (con download del TXT completo alla fine del processo). Il sistema ha prodotto un'applicazione basata su Flask, con la struttura delle directory, HTML, Python, requirements e il file "env" per le API key. Dopo aver avviato il server Flask, l'applicazione funziona via browser. Test: un'applicazione con Gemini 2.5 Pro > È semplice, ma ho impiegato più tempo a produrre il video rispetto a un > sistema utile e funzionante, senza errori da gestire. -------------------------------------------------------------------------------- LE NOVITÀ NEL WORKSPACE DI GOOGLE Con uno dei migliori modelli di AI a disposizione, e un ecosistema che fa già parte della quotidianità di un'enorme insieme di utenti, Google rilascia le nuove funzionalità per Workspace. La nuova ondata di strumenti basati su Gemini mira a migliorare concretamente l’efficienza aziendale: automazioni avanzate con Workspace Flows, assistenti intelligenti nei documenti, analisi dei dati semplificata e la possibilità di generare contenuti audio e video direttamente dalle app Workspace. * Workspace Flows usa agenti AI personalizzati (Gems) per gestire processi multi-step con logica e contesto, senza bisogno di codice. In pratica, si potranno creare flussi e automazioni che coinvolgono azioni di ogni software di Workspace. Google Workspace Flows * Docs introduce la lettura audio dei testi e la funzione "Help me refine" per migliorare la scrittura in modo evoluto. Il Canvas di ChatGPT direttamente su Google Docs. * Sheets include "Help me analyze", un analista AI sempre disponibile per scoprire insight nascosti nei dati. I più attenti avranno notato che è già disponibile su Colab. * Google Vids si potenzia con Veo2, generando video realistici direttamente dall'app. * Google Meet e Chat diventano ancora più smart con riepiloghi, note automatiche e suggerimenti in tempo reale. Vai al post > L'integrazione e l'accelerazione di Google.. si prepara a diventare > irraggiungibile? -------------------------------------------------------------------------------- UN AGENT BUILDER PER POSTMAN Postman ha presentato il suo AI Agent builder. Un sistema che permette di creare agenti basati su LLM, che possono usare una rete di oltre 100k API pubbliche. Il tutto attraverso un'interfaccia drag & drop. 0:00 /0:13 1× Un Agent Builder per Postman Vai al progetto > La prototipazione di applicazioni diventa sempre più agile. -------------------------------------------------------------------------------- GROK STUDIO xAI ha rilasciato Grok Studio, con la possibilità di eseguire il codice generato e il supporto a Google Drive. Grok Studio: un test È molto simile a Canvas su ChatGPT, ma la funzionalità di generazione report da un foglio dati è fantastica. La connessione a Google Drive è comoda, e permette di creare dei Workspace importando direttamente i file. > L'editor di ChatGPT è migliore, ma la generazione dei report è vincente. -------------------------------------------------------------------------------- LE API DI GROK 3 La "guerra dei prezzi" delle API dei LLM continua: xAI rilascia le API di Grok3 mini. In base ai dati diffusi, sembra che il modello superi diversi modelli di reasoning in diversi benchmark, con un prezzo di 5 volte inferiore. Le API di Grok 3 ALCUNI DETTAGLI * Grok 3 Mini guida le classifiche su test STEM avanzati, matematica e coding, superando modelli flagship 20 volte più costosi. * È 5 volte più economico di qualsiasi altro modello di reasoning sul mercato. * Ogni risposta API include l’intero "reasoning trace", grezzo e non filtrato. Vai alla documentazione -------------------------------------------------------------------------------- AI INDEX REPORT 2025 Stanford ha pubblicato l'AI Index Report 2025. AI Index Report 2025 > L’intelligenza artificiale evolve rapidamente, trasformando società ed > economia, tra progressi straordinari, investimenti globali e sfide ancora > aperte. UNA SINTESI DEI TAKE AWAY DEL REPORT 1. Le prestazioni dell’AI migliorano rapidamente nei benchmark avanzati. I modelli AI hanno fatto grandi progressi su nuovi benchmark complessi come MMMU, GPQA e SWE-bench, superando anche le performance umane in alcuni compiti di programmazione. 2. L’AI è sempre più presente nella vita quotidiana. L’intelligenza artificiale è ormai diffusa in settori come la sanità e i trasporti, con dispositivi medici approvati e robotaxi operativi su larga scala. 3. Le aziende puntano tutto sull’AI, trainando investimenti record. Gli investimenti privati negli Stati Uniti hanno raggiunto 109 miliardi di dollari nel 2024, con una crescita d’uso nelle aziende e prove sempre più solide del suo impatto positivo sulla produttività. 4. Gli Stati Uniti guidano, ma la Cina riduce il divario qualitativo. Gli USA producono più modelli AI di punta, ma la Cina li sta rapidamente raggiungendo in termini di qualità, mantenendo il primato per pubblicazioni e brevetti. 5. L’ecosistema dell’AI responsabile si evolve, ma in modo disomogeneo. Aumentano gli incidenti legati all’AI, mentre le valutazioni standardizzate sono ancora rare. I governi mostrano maggiore impegno con nuove linee guida sulla trasparenza e sicurezza. 6. L’ottimismo globale verso l’AI cresce, ma con forti differenze regionali. Paesi asiatici mostrano un forte ottimismo verso l’AI, mentre Stati Uniti, Canada ed Europa restano più scettici, sebbene con segnali di miglioramento. 7. L’AI diventa più efficiente, economica e accessibile. I costi per far girare modelli potenti sono crollati, mentre l’efficienza energetica è aumentata. I modelli open-source stanno colmando rapidamente il divario con quelli chiusi. 8. I governi aumentano regolamentazione e investimenti sull’AI. Nel 2024 le normative sull’AI sono raddoppiate negli USA e cresciute a livello globale, accompagnate da investimenti miliardari in vari paesi per sostenere l’innovazione. 9. L’educazione all’AI cresce, ma persistono disuguaglianze. Sempre più paesi offrono educazione informatica K-12, ma permangono barriere infrastrutturali, soprattutto in Africa, e molti insegnanti non si sentono pronti a insegnare l’AI. 10. L’industria domina lo sviluppo AI, ma la competizione si intensifica. La quasi totalità dei modelli più avanzati proviene dall’industria. Tuttavia, la differenza di prestazioni tra i migliori modelli si sta riducendo, segno di una frontiera sempre più affollata. 11. L’AI riceve riconoscimenti scientifici di massimo livello. Nel 2024 l’AI è stata protagonista di premi Nobel e del Turing Award, evidenziando il suo impatto decisivo nella scienza, dalla fisica al ripiegamento proteico. 12. Il ragionamento complesso resta una sfida. Nonostante i successi in compiti avanzati, i modelli AI faticano ancora con il ragionamento logico e la risoluzione di problemi complessi in contesti critici. Vai al report -------------------------------------------------------------------------------- WORK TREND INDEX 2025 DI MICROSOFT L'AI sta ridefinendo il lavoro nelle aziende, e Microsoft ne traccia i contorni nel suo Work Trend Index 2025. Il rapporto evidenzia come le organizzazioni che adottano l’AI in modo strutturale — definite "Frontier Firms" — registrano benefici tangibili: il 71% dei dipendenti afferma che la propria azienda sta prosperando, e l’83% dei leader riconosce che l’AI contribuisce a una maggiore adozione di compiti strategici. In parallelo, Microsoft ha presentato importanti evoluzioni per Copilot, puntando su un’integrazione sempre più pervasiva dell’AI nei flussi operativi. Copilot Studio è una nuova piattaforma low-code che consente alle imprese di costruire agenti intelligenti personalizzati, con memoria, capacità di pianificazione e integrazione via OpenAPI. Questi agenti possono operare all’interno delle app Microsoft 365 e connettersi a sistemi esterni come Jira, Miro o Monday. Sono stati inoltre lanciati due nuovi agenti nativi — Copilot Researcher e Copilot Analyst — pensati per attività di ricerca e analisi su larga scala, capaci di interagire con Word, Excel, Outlook e Teams grazie ai dati real-time di Microsoft Graph. Il tutto è orchestrato con modelli GPT-4-turbo, in grado di mantenere il contesto e generare output coerenti e document-aware. Vai al report -------------------------------------------------------------------------------- OPEN MANUS: UN TEST Ho provato Open Manus, il progetto open source che mira a replicare le capacità dell'Agente Manus AI. Nel video si vedono diversi task che l'agent (nel mio caso basato su GPT-4o) svolge in modo autonomo, sfruttando l'automazione del browser, e anche del computer locale. Open Manus: un test Le mie considerazioni: questo tipo di agenti sono davvero molto interessanti, ma acerbi per essere "liberati" a compiere operazioni autonome online senza riferimenti specifici. Vai al progetto > Ma di certo miglioreranno, e saranno direttamente nel browser, e > successivamente nei sistemi operativi. -------------------------------------------------------------------------------- FIREBASE STUDIO DI GOOGLE: UN TEST Google lancia Firebase Studio, un nuovo IDE open source basato sull’AI che unisce Project IDX, Genkit e i modelli Gemini in un’unica piattaforma per creare app full-stack. L'ho provato: con un prompt testuale ho creato un'applicazione che trasforma un contenuto in una mappa mentale modificabile. Con altri prompt successivi l'ho rifinita per ottenere il risultato che avevo in mente. Firebase Studio di Google: un test Il cuore del progetto è l’agente di prototipazione, capace di generare app Next.js complete in pochi secondi non solo da prompt testuali, ma anche da immagini, annotazioni visuali e schemi. L’ambiente crea UI, backend e integrazione AI in automatico, con anteprima nel browser, test mobile via QR code e codice pronto da modificare. L’IDE web-based, costruito su CodeOSS, offre funzionalità avanzate come modifica e debug nel browser, terminale integrato, suggerimenti di codice con Gemini e documentazione automatica. Il tutto gira su una VM configurabile con Nix, con supporto a oltre 60 modelli ufficiali e l’importazione da GitHub, GitLab e Bitbucket. Vai al post -------------------------------------------------------------------------------- TEST SU AI OVERVIEWS DI GOOGLE In questo test, in una SERP di Google in cui compare AI Overviews, ho considerato i contenuti nelle prime 12 posizioni e ho creato un piccolo RAG usando LangChain, Chroma DB e GPT-4o. > Inviandolo la query al RAG, ottengo una risposta simile a quella proposta da > AI Overviews. Test su AI Overviews di Google: RAG Chiaramente Google usa anche query correlate ("fan-out") e il Knowledge Graph per espandere i risultati. Quindi, il funzionamento l'abbiamo intuito, e possiamo anche pensare di usare dei modelli per misurare la pertinenza dei contenuti alle query per ragionare sul "posizionamento" su AI Overviews. > Chiaramente, il primo step rimane l'essere tra i risultati rilevanti, che > rappresentano la knowledge a disposizione del "RAG". COME ESSERE PRESENTI SU AI OVERVIEWS Per essere presenti nelle fonti delle risposte di AI Overviews (ma in generale nei sistemi ibridi come ChatGPT, Perplexity, ecc.), vanno considerati due aspetti. 1. Essere tra i risultati che il sistema prende in considerazione per la query principale (quella che scriviamo nel campo): tendenzialmente le prime due pagine dei risultati, compresi PAA e SERP snippet. 2. Intercettare risposte pertinenti (semanticamente vicine) alla query principale o a quelle secondarie che il motore genera per quel contesto ("fan-out"). > È come ragionare su un sistema RAG, in cui ogni documento è di un'azienda > diversa. Test su AI Overviews di Google: query Per la query "cos'è il CSSOM", ad esempio, il mio contenuto è in seconda pagina della SERP (è tra i risultati presi in considerazione), e intercetta la risposta ad una query secondaria ("come si applicano gli stili agli elementi HTML"). Ma se si cerca direttamente la query secondaria, il mio contenuto non è tra le fonti di AI Overviews, perché il contesto cambia, ed esistono molte fonti più rilevanti per questa query. Per la query "cosa sono i priority hints", il mio risultato è primo su Google, ma non compare tra le fonti di AI Overviews. Misurando la pertinenza semantica del mio contenuto con un algoritmo, infatti, risulta inferiore a quella dei risultati che invece compaiono. > Si tratta di un sottile equilibrio, non semplice da gestire e da controllare. -------------------------------------------------------------------------------- AGENT2AGENT (A2A) E AGENT DEVELOPMENT KIT (ADK) DI GOOGLE Google presenta Agent2Agent (A2A), un protocollo aperto per l'interoperabilità tra agenti AI, sviluppato in collaborazione con oltre 50 aziende (es. Atlassian, MongoDB, PayPal, Salesforce, SAP, Langchain). A2A consente agli agenti AI, anche se costruiti con tecnologie o da fornitori diversi, di comunicare, coordinarsi e scambiarsi informazioni in modo sicuro. È pensato per scenari enterprise complessi: dalla gestione della supply chain alla selezione del personale, fino all'automazione dei flussi di lavoro interni. 0:00 /1:22 1× Un esempio concreto: la ricerca dei candidati Basato su standard diffusi (HTTP, JSON-RPC, SSE), A2A supporta task rapidi o di lunga durata, anche multimodali (testo, audio, video). Ogni agente può esporre le proprie capacità tramite una “Agent Card” e collaborare con altri per completare compiti condivisi, producendo artefatti come risultati finali. Complementare al Model Context Protocol (MCP) di Anthropic, A2A punta a rendere gli agenti realmente interoperabili, scalabili e integrabili in ambienti già esistenti. Vai al post > Un passo chiave per costruire un ecosistema in cui gli agenti AI non siano > strumenti isolati, ma veri colleghi digitali capaci di collaborare in tempo > reale. A supporto dello sviluppo di AI agent interoperabili, Google ha rilasciato anche l’Agent Development Kit (ADK), un toolkit open-source in Python per costruire, testare e distribuire agenti complessi, modulari e orchestrabili. Con ADK, gli sviluppatori possono definire logiche, strumenti e workflow direttamente da codice, integrandoli con Google Cloud, Vertex AI o ambienti locali. Vai al progetto -------------------------------------------------------------------------------- PYSPUR: AI AGENT WORKFLOW PySpur è una nuova libreria open source che consente di creare workflow di AI Agent attraverso un'interfaccia drag & drop. 0:00 /0:22 1× PySpur: AI Agent Workflow Semplifica la creazione, il test e il deploy di agenti, riducendo i tempi di sviluppo. Si installa in pochi secondi con pip, permette l’aggiunta di tool personalizzati e l’esportazione degli agenti in JSON. Vai alla documentazione -------------------------------------------------------------------------------- GOOGLE IRONWOOD Google ha presentato Ironwood, la sua settima generazione di TPU (Tensor Processing Unit), progettata specificamente per l’inferenza nell’era dell’AI generativa. Ironwood è pensata per gestire modelli di "reasoning", come i LLM e le Mixture of Experts (MoE), offrendo prestazioni senza precedenti. TRA LE CARATTERISTICHE PRINCIPALI.. * Fino a 9.216 chip per pod, raggiungendo 42,5 Exaflops, più di 24 volte la potenza del supercomputer El Capitan. * Miglioramenti significativi in memoria (192 GB HBM per chip) e velocità di interconnessione tra chip (1,2 Tbps). * 2x più efficiente dal punto di vista energetico rispetto alla generazione precedente (Trillium). * Supporta carichi di lavoro AI intensivi con alta efficienza e scalabilità. * Utilizza la piattaforma software Pathways per facilitare l’elaborazione distribuita su larga scala. 0:00 /0:30 1× Google Ironwood Ironwood si inserisce nell’architettura AI Hypercomputer di Google Cloud, diventando la base per nuovi progressi nel campo dell’AI, tra cui modelli come Gemini 2.5 e AlphaFold. Vai al post > L'infrastruttura hardware sarà il fattore differenziante nel prossimo futuro? -------------------------------------------------------------------------------- OPENAI PRESENTA LE "EVALS" API Permettono di definire dei test, e di valutare rapidamente i prompt automatizzando le esecuzioni. OpenAI presenta le "Evals" API: un test Nell'esempio ho caricato nel Playground un CSV contenente stringhe e label. Successivamente ho configurato il test, creando un prompt dinamico che si valorizza attraverso i dati del CSV. L'ultimo ingrediente è un "grader" per valutare le risposte del modello in base a un criterio che possiamo definire. Il sistema esegue automaticamente tutti i prompt e possiamo valutare il risultato del test. Vai alla documentazione > Il tutto, completamente realizzabile via API: questo permette di creare > procedure di test per diverse versioni di prompt. -------------------------------------------------------------------------------- COPILOT SEARCH Bing lancia la risposta a AI Mode di Google: Copilot Search. Il funzionamento è molto simile: l'utente può porre una domanda, il sistema usa il reasoning per espandere la ricerca, estrae le fonti, e compone una risposta usando un LLM. Copilot Search di Bing È possibile visualizzare il "ragionamento" e le query correlate. Tutte le fonti sono consultabili. Successivamente permette delle ricerche di follow-up. Vai alla ricerca -------------------------------------------------------------------------------- MCP (MODEL CONTEXT PROTOCOL): UN TEST Un test in cui un Agente basato su o3 di OpenAI accede a file in locale attraverso il protocollo MCP (Model Context Protocol). MCP (Model Context Protocol): un test Come funziona? Ho implementato un server MCP che può effettuare diverse operazioni sul filesystem locale del mio laptop, e l'agente è connesso a quel server. Quando faccio richieste all'agente (che usa o3-mini via API), il sistema accede ai file in locale e cerca le informazioni necessarie per rispondere. Infine restituisce la risposta. Nell'area di tracciamento del Playground di OpenAI è possibile monitorare tutte le operazioni compiute dall'agente. > MCP permette di creare applicazioni basate sui LLM che accedono a dati, > software esterni e potenzialmente qualunque sistema. Questo apre la strada ad > automazioni davvero interessanti. -------------------------------------------------------------------------------- GEMINI LIVE: CONDIVISIONE SCHERMO E VIDEOCAMERA Su Gemini Live è disponibile anche in Italia la funzionalità di condivisione in real time dello schermo e della videocamera. Nel video, condivido lo schermo del mio dispositivo con l'assistente e interagisco attraverso la voce chiedendo informazioni su ciò che sto vedendo. Gemini Live: condivisione schermo > Queste funzionalità fanno comprendere il grande potenziale di interazione di > questi sistemi con il mondo reale. -------------------------------------------------------------------------------- CLAUDE FOR EDUCATION Claude for Education è il nuovo progetto di Anthropic pensato per rivoluzionare il mondo universitario con l’AI. Grazie alla modalità Learning Mode, Claude stimola il pensiero critico degli studenti invece di fornire risposte pronte, utilizzando domande socratiche e strumenti strutturati per lo studio. Partnership con università come Northeastern, LSE e Champlain College portano l'intelligenza artificiale in aula e negli uffici amministrativi, aiutando studenti, docenti e staff a lavorare in modo più efficace e intelligente. Vai al post > Con programmi dedicati agli studenti, API gratuite per progetti innovativi e > integrazione nei principali sistemi educativi come Canvas LMS, Claude si > afferma come un alleato concreto per un'educazione del futuro, costruita su > responsabilità, accessibilità e innovazione. -------------------------------------------------------------------------------- RUNWAY GEN-4 Runway ha presentato Gen-4, il nuovo modello dedicato ai contenuti visivi. Consente la generazione di immagini e video mantenendo coerenza tra personaggi, oggetti e ambientazioni anche in scenari complessi. Utilizza riferimenti visivi e istruzioni testuali per produrre contenuti uniformi in termini di stile, composizione e prospettiva, senza necessità di ulteriori addestramenti. Runway Gen-4: presentazione Tutti i brand che sviluppano modelli stanno creando piattaforme in grado di generare sia immagini che video, in modo da dare un'unica soluzione agli utenti. Vai al post > Nella presentazione parlano anche di "simulazione fisica".. su questo non sono > molto convinto, ma di certo i miglioramenti sono incredibili. -------------------------------------------------------------------------------- FLORA: DIVERSI MODELLI IN UN UNICO AMBIENTE Flora è un esempio di strumento che riunisce diversi modelli visuali in un unico ambiente consentendo sperimentazione e prototipazione rapida. Un esempio di utilizzo di Flora Nell'esempio si vede un progetto che parte da un'immagine generata da prompt testuale usando Flux Pro. Vengono create diverse inquadrature con prompt multimodale con Gemini 2.0 Flash. Infine le clip video usando Ray2 di Luma: da prompt + immagine, ma anche con prompt + due frame. Tra i vari modelli sono a disposizione anche Flux Dev, Ideogram, Stable Diffusion, Photon di Luma, Kling e Runway. Vai al progetto > Un tool davvero interessante, e la coerenza delle immagini è notevole. -------------------------------------------------------------------------------- SEAWEED: UN MODELLO DA 7B DI PARAMETRI CHE COMPETE CON I GIGANTI Seaweed 7B è un nuovo modello da 7 miliardi di parametri capace di competere con giganti del settore, ma con una frazione delle risorse. Seaweed: un nuovo modello di generazione video Addestrato con "sole" 665.000 ore di GPU H100, raggiunge livelli di qualità visiva, fedeltà al prompt e coerenza narrativa che lo pongono tra i migliori sistemi di generazione video. Con il supporto a testo, immagini e audio, Seaweed-7B genera video realistici, coerenti e controllabili fino a 720p in tempo reale. Il suo design include un VAE 3D causale e un Diffusion Transformer ottimizzato per performance e scalabilità, riducendo drasticamente i costi computazionali. Vai al progetto > Come abbiamo detto più volte, la scala non può essere l'unica leva per > migliorare le performance dei modelli. Ora serve evoluzione architetturale, e > questo è un esempio. -------------------------------------------------------------------------------- UI-TARS-1.5 DI BYTEDANCE ByteDance ha rilasciato UI-TARS-1.5, un agente multimodale basato su Qwen2.5-VL-7B che unisce visione e linguaggio con "reasoning". UI-TARS - Next-generation native GUI agent model UI-TARS：Next-generation native GUI agent model designed to interact seamlessly with GUIs using human-like perception UI-TARS Team Il modello valuta prima di agire, migliorando l’esecuzione dei task in ambienti complessi. Brilla nei benchmark GUI, superando modelli come Claude 3.7 e OpenAI CUA in compiti su desktop e browser. Ottimi risultati anche in giochi web, grazie a una forte capacità di pianificazione a lungo termine. Si distingue nella navigazione web con performance superiori in SimpleQA e BrowseComp, gestendo con precisione interazioni real-time su interfacce grafiche. In ambienti 3D come Minecraft, batte agenti top usando input visivi e controlli nativi, migliorando le decisioni grazie al suo modulo di “pensiero prima dell’azione”. -------------------------------------------------------------------------------- MIDJOURNEY V7 Midjourney mancava da tempo in ambito di rilasci, ma ora annuncia la versione V7 del suo modello, attualmente in fase Alpha. Più intelligente nell’interpretazione dei prompt testuali, offre una qualità visiva superiore e migliora drasticamente la coerenza nei dettagli di corpi, mani e oggetti. Vai al post V7 introduce per la prima volta la personalizzazione del modello attiva di default, che si sblocca in circa 5 minuti. Questa funzione mira a interpretare meglio ciò che l’utente desidera e trova visivamente affascinante. Grande novità è anche il Draft Mode, che consente rendering 10 volte più veloci al 50% del costo. È pensato per esplorare idee in modo rapido: le immagini sono a qualità ridotta, ma esteticamente coerenti. È disponibile anche una modalità vocale per iterare i prompt in modo conversazionale. -------------------------------------------------------------------------------- - GRAZIE - Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre persone, condividilo 🙂 ISCRIVITI ALLA NEWSLETTER Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su tematiche relative all'intelligenza artificiale. Iscriviti alla Newsletter Email sent! Check your inbox to complete your signup. Gratuita. No Spam. Puoi disiscriverti quando vuoi. Consulta la privacy policy.

May 6, 2025 / Alessio Pomaro

Agents e Reasoners: dalla scala all'ottimizzazione.. fino all'integrazione

> La recente storia dell'AI potrebbe essere sintetizzata in una sola parola: > “SCALA”. Così Noam Brown (Research Scientist di OpenAI) inizia il suo TED AI di San Francisco. Quindi, performance = modelli sempre più grandi, addestrati da sempre più dati e con una potenza di calcolo necessaria sempre maggiore. Agents e Reasoners - L'intervento integrale dall'AI Festival 2025 Le statistiche dimostrano questo aspetto: il diagramma che segue, infatti, mostra la crescita della potenza di calcolo necessaria per addestrare i modelli che utilizziamo abitualmente, con un incremento consistente in quella che viene definita "Deep Learning Era". Crescita della potenza di calcolo necessaria per addestrare i modelli Ultimamente, però, sembra che la crescita di performance derivante direttamente dalla scala si stia attenuando. L’anno scorso, sul palco dell'AI Festival, dissi che il riferimento era ancora la serie di modelli GPT-4.. Oggi, un anno dopo, la situazione non è cambiata significativamente, ma i competitor, con modelli open source e non, hanno ridotto il gap. Anche esperti influenti come Ilya Sutskever, hanno sottolineato questa attenuazione. La stessa OpenAI ha nominato il nuovo modello GPT-4.5 e non GPT-5.. probabilmente perché non ha rappresentato un salto qualitativo degno di quel nome. Anche Dario Amodei, CEO di Anthropic, in una recente intervista, ha affermato che Claude 3.7 è stato uno step evolutivo, ma non abbastanza da giustificare la versione "4". -------------------------------------------------------------------------------- LE LEGGI DI SCALA E LA SOSTENIBILITÀ Si pone quindi una domanda cruciale: conviene ancora investire sulla scala? Per rispondere alla domanda ci sono due considerazioni da fare. * Non è mai stato garantito che le leggi di scala sarebbero state valide per sempre: si tratta di osservazioni empiriche, regole statistiche e sperimentali. * L'aumento della scala di altri ordini di grandezza comporterebbe costi e consumi di risorse enormi. Questo avviene oggi, naturalmente. Sul futuro torneremo tra poco. FINE DELLA CRESCITA O NUOVA FASE? Dunque, la crescita dell’AI è finita? > No, anzi, mi sento ancora di dire che siamo solo all’inizio. Di certo si attenuerà l’investimento "cieco" sulla scala, a vantaggio di un maggiore interesse per l'efficienza, le architetture innovative e, soprattutto, l'integrazione. EFFICIENZA: IL NUOVO PARADIGMA L'efficienza sta diventando una delle chiavi dello sviluppo futuro. Un ottimo esempio di questo è il paper di DeepSeek R1, che non introduce elementi rivoluzionari dal punto di vista architetturale (è un modello basato su transformer e reinforcement learning in fase successiva), concentrandosi però sull’efficientamento, cioè sulla capacità di ottenere performance elevate con meno risorse durante la fase di training. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning We introduce our first-generation reasoning models, DeepSeek-R1-Zero and DeepSeek-R1. DeepSeek-R1-Zero, a model trained via large-scale reinforcement learning (RL) without supervised fine-tuning (SFT) as a preliminary step, demonstrates remarkable reasoning capabilities. Through RL, DeepSeek-R1-Zero naturally emerges with numerous powerful and intriguing reasoning behaviors. However, it encounters challenges such as poor readability, and language mixing. To address these issues and further enhance reasoning performance, we introduce DeepSeek-R1, which incorporates multi-stage training and cold-start data before RL. DeepSeek-R1 achieves performance comparable to OpenAI-o1-1217 on reasoning tasks. To support the research community, we open-source DeepSeek-R1-Zero, DeepSeek-R1, and six dense models (1.5B, 7B, 8B, 14B, 32B, 70B) distilled from DeepSeek-R1 based on Qwen and Llama. arXiv.orgDeepSeek-AI LA CRESCITA DELL'OPEN SOURCE In generale, i miglioramenti che stiamo osservando nei modelli open-source, ad esempio DeepSeek R1, QwQ-32B di Qwen (Alibaba), Ernie 4.5 e X1 (Baidu), permettono di ragionare su tecniche come la quantizzazione e la distillazione, che riducono significativamente le dimensioni dei modelli mantenendo elevate performance. Questo permette anche di far funzionare i modelli in dispositivi con hardware limitati. Nel video seguente, ad esempio, è possibile vedere DeepSeek R1 funzionare sul mio laptop. Si tratta della versione 8B, basata su architettura Llama, con quantizzazione a 4 bit (Q4_K_M). DeepSeek R1 in locale: un test sul mio laptop E stanno nascendo nuove tecniche come MatQuant di Google DeepMind, che mette in azione una quantizzazione multi-scala che sfrutta la struttura nidificata degli interi per ottimizzare modelli a diverse precisioni (int8 → int4 → int2) mantenendo un’accuratezza elevata. Matryoshka Quantization Quantizing model weights is critical for reducing the communication and inference costs of large models. However, quantizing models -- especially to low precisions like int4 or int2 -- requires a trade-off in model quality; int2, in particular, is known to severely degrade model quality. Consequently, practitioners are often forced to maintain multiple models with different quantization levels or serve a single model that best satisfies the quality-latency trade-off. On the other hand, integer data types, such as int8, inherently possess a nested (Matryoshka) structure where smaller bit-width integers, like int4 or int2, are nested within the most significant bits. This paper proposes Matryoshka Quantization (MatQuant), a novel multi-scale quantization technique that addresses the challenge of needing multiple quantized models. It allows training and maintaining just one model, which can then be served at different precision levels. Furthermore, due to the co-training and co-distillation regularization provided by MatQuant, the int2 precision models extracted by MatQuant can be up to $10\%$ more accurate than standard int2 quantization (using techniques like QAT or OmniQuant). This represents significant progress in model quantization, demonstrated by the fact that, with the same recipe, an int2 FFN-quantized Gemma-2 9B model is more accurate than an int8 FFN-quantized Gemma-2 2B model. arXiv.orgPranav Nair -------------------------------------------------------------------------------- ARCHITETTURA: "REASONING" E AI AGENTS Noam Brown, che in OpenAI si occupa proprio di multi-step reasoning e multi-agent AI, durante il talk citato in precedenza ha raccontato un'esperienza del suo dottorato di ricerca, dicendo che permettere a un modello di "pensare" per 20 secondi (dove per pensare intende un’esecuzione lenta, step by step) ha generato un miglioramento delle prestazioni equivalente a un aumento della scala di ben 100.000 volte. Ecco perché oggi stiamo assistendo a un rilascio costante di modelli basati sulla dinamica di “reasoning” o “thinking”. Alcuni esempi: la serie o1 e o3 di OpenAI, Gemini, DeepSeek, Claude, QwQ di Qwen, e Grok. E anche GPT-5 sarà basato su questo concetto. Come funziona il "reasoning"? Il modello, prima di produrre l’output produce dei token dedicati a sviluppare catene di pensiero (o di ragionamento), con lo scopo di migliorare la qualità dell’inferenza. Quello che segue è un esempio in cui possiamo vedere la fase di reasoning di QwQ-32B nella chat di Qwen. Un test di QwQ-32B nella chat di Qwen E questo concetto di miglioramento della qualità dell’inferenza, non vale solo per i Large Language Model. "Inference-Time Scaling for Diffusion Models beyond Scaling Denoising Steps", ad esempio, è un paper di Google DeepMind che dimostra come, lavorando sull’ottimizzazione della del processo di diffusione, sia possibile migliorare la qualità della generazione delle immagini senza agire sulla scala. Inference-Time Scaling for Diffusion Models beyond Scaling Denoising Steps Generative models have made significant impacts across various domains, largely due to their ability to scale during training by increasing data, computational resources, and model size, a phenomenon characterized by the scaling laws. Recent research has begun to explore inference-time scaling behavior in Large Language Models (LLMs), revealing how performance can further improve with additional computation during inference. Unlike LLMs, diffusion models inherently possess the flexibility to adjust inference-time computation via the number of denoising steps, although the performance gains typically flatten after a few dozen. In this work, we explore the inference-time scaling behavior of diffusion models beyond increasing denoising steps and investigate how the generation performance can further improve with increased computation. Specifically, we consider a search problem aimed at identifying better noises for the diffusion sampling process. We structure the design space along two axes: the verifiers used to provide feedback, and the algorithms used to find better noise candidates. Through extensive experiments on class-conditioned and text-conditioned image generation benchmarks, our findings reveal that increasing inference-time compute leads to substantial improvements in the quality of samples generated by diffusion models, and with the complicated nature of images, combinations of the components in the framework can be specifically chosen to conform with different application scenario. arXiv.orgNanye Ma LATENT REASONING Esistono già idee di sviluppo ulteriori in ambito di "reasoning". Il paper dal titolo "Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach", ad esempio, descrive un approccio per il quale il processo di "ragionamento" non avviene attraverso la generazione di token di reasoning (quindi catene di pensiero esplicite), ma all’interno dello spazio latente del modello.. ovvero prima dell’inferenza, attraverso calcoli vettoriali. Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach We study a novel language model architecture that is capable of scaling test-time computation by implicitly reasoning in latent space. Our model works by iterating a recurrent block, thereby unrolling to arbitrary depth at test-time. This stands in contrast to mainstream reasoning models that scale up compute by producing more tokens. Unlike approaches based on chain-of-thought, our approach does not require any specialized training data, can work with small context windows, and can capture types of reasoning that are not easily represented in words. We scale a proof-of-concept model to 3.5 billion parameters and 800 billion tokens. We show that the resulting model can improve its performance on reasoning benchmarks, sometimes dramatically, up to a computation load equivalent to 50 billion parameters. arXiv.orgJonas Geiping -------------------------------------------------------------------------------- IL RUOLO CRESCENTE DEGLI AI AGENTS Un ulteriore ambito di grande sviluppo, sempre in ambito dell'evoluzione dell'architettura, riguarda gli AI Agents. Ma arriviamoci partendo da due considerazioni sullo scenario che stiamo vivendo.. 1. In questo momento abbiamo una grande ricchezza di modelli performanti, sia open source, sia "chiusi": possiamo dire, con una dose di semplificazione, che le prestazioni stanno convergendo, e i modelli andranno ad equipararsi. 2. I prezzi per token, nel tempo, stanno scendendo in modo importante. E credo che nei prossimi anni si arriverà a zero. A questo proposito, ad esempio, Baidu ha recentemente rilasciato la versione 4.5 di Ernie, che costa la metà di DeepSeek e un infinitesimo di GPT-4.5. Le performance dei modelli stanno convergendo, e il prezzo per token sta scendendo Questa situazione, in cui i LLM si equiparano e il prezzo per token diventa trascurabile, fa sì che l'attenzione si sposti dai modelli a quello che possiamo definire "layer applicativo" (applicazioni basate sui modelli).. e gli AI Agents sono proprio quel layer applicativo. > I LLM, in un certo senso, diventeranno parte dell’infrastruttura, una sorta di > commodity che permette di dare vita alle applicazioni del futuro. STRUTTURA E VANTAGGI DEGLI AI AGENTS Un AI Agent presenta una struttura composta principalmente da un modello, un sistema di orchestrazione (che ne determina il comportamento, la metodologia nella pianificazione delle operazioni, e può essere dotato di memoria per migliorare e personalizzare le performance nel tempo), e l'interfacciamento con tool esterni per eseguire azioni specifiche. Lo schema che segue, che deriva dal paper di Google dal titolo "Agents", sintetizza in modo esaustivo l'architettura. La struttura di un AI Agent Mella prenotazione di un volo, ad esempio, un utente può interagire con un agent specializzato che processa la richiesta, orchestra i processi, interroga i servizi esterni, e restituisce una risposta completa e contestualizzata. Un esempio dell'utilizzo di un AI Agent Rispetto a un'interazione diretta con un LLM una struttura di questo tipo ha diversi vantaggi, ad esempio: * accesso a dati in tempo reale; * memoria e personalizzazione; * ragionamento avanzato; * maggiore affidabilità; * scalabilità e automazione. FRAMEWORK E WORKFLOW AGENTICI Nel prossimo futuro, potremo creare sempre più facilmente AI Agents sfruttando dei framework. Parallelamente, le piattaforme metteranno a disposizione agenti per ogni funzionalità. Google, ad esempio, sta lanciando l’Agent Space e Microsoft il Copilot Studio. E abbiamo già iniziato a usare sistemi basati su agenti, ad esempio Operator di OpenAI, Deep Research, e OmniParser di Microsoft. Framework come Autogen, Crew AI e Lang Graph, invece, permettono di creare agenti e workflow agentici per creare sistemi di automazione. OpenAI, a questo proposito, ha appena rilasciato nuovi strumenti dedicati allo sviluppo di AI Agents personalizzati e sistemi multi agente. Nello specifico: * Responses API – L’API per la costruzione di agenti, che combina la semplicità della Chat Completions API con le capacità di utilizzo degli strumenti dell’Assistants API. Con una singola chiamata, gli sviluppatori possono orchestrare più strumenti e modelli, rendendo gli agenti più intelligenti e operativi. * Agents SDK – Un framework open-source per orchestrare gli agenti e gestire flussi di lavoro complessi. Grazie a questo strumento, gli sviluppatori possono creare agenti che collaborano tra loro con handoff intelligenti, tracciamento avanzato e guardrail di sicurezza integrati. Per approfondire Andrew NG, riferendosi agli AI Agent, afferma addirittura che i workfow basati su AI Agent guideranno il prossimo sviluppo dell’AI più della prossima generazione di foundation models. Online troviamo diversi schemi di workflow agentici, più o meno teorici. Con il mio team, stiamo realizzando una sperimentazione con Alpinestars in cui usiamo un workflow multi-agent per ottenere traduzioni di alcuni contenuti dell’e-commerce in 9 lingue. Il seguente video mostra un'esempio di interazione. Un sistema multi agent per generare traduzioni di qualità COME FUNZIONA? * I dati da tradurre vengono estratti dal database e consegnati da un agente proxy al team di lavoro. * Nel "team virtuale" sono presenti diversi agenti traduttori esperti del dominio, ma con verticalità diverse, i quali si confrontano ottimizzando la traduzione ad ogni interazione, migliorando i termini utilizzati, la forma, ecc.. * Il lavoro passa a un agente SEO Specialist, che, accedendo anche a dei tool di analisi delle ricerche degli utenti, suggerisce al team l’utilizzo di determinati termini. * Un agente specializzato nell'inserimento di link nei contenuti, sfruttando la conoscenza dell’e-commerce, inserisce nel testo tradotto dei link strategici verso le categorie più interessanti. * Un agente editor manager produce la revisione finale ottimizzando l'output (ad esempio, togliendo eventuali ripetizioni e migliorando le forme di espressione nella lingua di destinazione). * Infine, l'agente team leader consegna l’output che viene salvato nel database. Il sistema è stato realizzato usando Autogen come framework, mentre gli agenti sono basati su modelli di OpenAI. Alcuni sfruttano anche il reasoning di o3-mini. QUALI SONO I VANTAGGI DI UN SISTEMA COME QUESTO? * Specializzazione e collaborazione: ogni agente è verticale in un'attività e collabora con gli altri per migliorare l’output. * Scalabilità e flessibilità: per aggiungere ulteriori funzionalità al sistema, è sufficiente aggiungere uno o più agenti con specifiche capability. * Robustezza e affidabilità: nel workflow possiamo avere agenti dedicati al controllo dei flussi e dell'output. Nell'esempio, l'agente "editor manager" e "team leader" hanno proprio questa funzione. -------------------------------------------------------------------------------- I sistemi agentici si stanno evolvendo rapidamente, e iniziamo a vedere applicazioni interessanti. Un esempio è AI co-scientist di Google: un sistema multi agent basato su Gemini 2.0 che genera ipotesi, pianifica esperimenti e migliora in modo iterativo i risultati, fungendo da collaboratore virtuale per i ricercatori. Stanno nascendo, inoltre progetti come Manus. Si tratta di un nuovo AI agent "generale" in grado di eseguire compiti attraverso la pianificazione e azioni autonome, il tutto attraverso l'interazione multimodale di un LLM con un computer. La presentazione di Manus Nel seguente esempio, invece, un agent (Operator di OpenAI) gestisce un altro agente su Replit per sviluppare un’applicazione in modo autonomo. In questo caso, non abbiamo un framework che gestisce gli agenti, ma si tratta di un'interazione multimodale via browser.. esattamente come farebbe un essere umano. Operator di OpenAI che controlla l'agente di Replit Quando ho visto questa interazione, ho pensato a un talk interessante che ho visto recentemente: quello del CEO di Nvidia al CES di Las Vegas. Nell'intervento, viene mostrata una traiettoria che unisce l'AI Generativa all'AI Agentica, fino ad arrivare all’AI Fisica: un’AI che interagisce direttamente con il mondo reale, trovando applicazioni, ad esempio, in ambito della robotica. Questo passaggio fa capire molto bene un aspetto del quale si parla troppo poco.. o forse non se ne parla affatto: > La differenza tra un workflow multi-agent in grado di produrre una traduzione > di qualità (AI Agentica), e un workflow multi-agent in grado di controllare > dei robot che gestiscono un magazzino (AI Fisica) non è poi così marcata: > cambiano gli input, cambiano le istruzioni di orchestrazione, cambiano i tool > a disposizione, che da digitali diventano fisici.. ma l'architettura del > sistema è praticamente la stessa. Per sottolineare ulteriormente questo concetto, Google DeepMind ha recentemente rilasciato Gemini Robotics: un modello basato su Gemini 2.0 (lo stesso che usiamo nella chat!) con l'aggiunta di "azioni fisiche" come tipologia di output allo scopo di controllare direttamente i robot. Gemini Robotics: un esempio di applicazione Il robot nel video, è controllato dallo stesso modello che usiamo nella chat di Gemini. > Credo che il passaggio all'AI fisica renderà molto più tangibile per tutti il > progresso di questi sistemi, perché traccerà lo switch di pensiero da > considerarli "giochini che scrivono testo in una chat" a "robot che ci > affiancheranno in qualunque mansione". Per approfondire Chi si ricorda il meme "Hey ChatGPT, finish this building.."? Hey ChatGPT, finish this building -------------------------------------------------------------------------------- GLI SVILUPPI FUTURI: MODELLI E HARDWARE Abbiamo visto il passaggio dalla "scala" all'efficienza e al miglioramento architetturale.. Ma tutto questo significa che l’evoluzione dei modelli si fermerà? Assolutamente no: stanno emergendo già nuovi approcci e tecnologie avanzate da questo punto di vista. Allo stesso modo, anche l’hardware continuerà a evolversi rapidamente, come dimostrato da Nvidia al CES 2025: > ormai possiamo avere un supercomputer delle dimensioni di un laptop. Forse, un giorno, potremo avere la potenza di calcolo, i dati sintetici e l’efficienza necessari per tornare a ragionare sulla scala.. e magari ci accorgeremo che le leggi di scala sono sempre state valide. Non possiamo sapere come andrà, ma la direzione sembra chiara, e la scopriremo insieme.. Ma sempre più attenti, sempre più critici, sempre più consapevoli.. Ma dovremo lavorare con impegno per acquisire queste qualità, attraverso studio, ricerca, sperimentazione, e un approccio flessibile. > Buon percorso. -------------------------------------------------------------------------------- - GRAZIE - Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre persone, condividilo 🙂 ISCRIVITI ALLA NEWSLETTER Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su tematiche relative all'intelligenza artificiale. Iscriviti alla Newsletter Email sent! Check your inbox to complete your signup. Gratuita. No Spam. Puoi disiscriverti quando vuoi. Consulta la privacy policy.

March 19, 2025 / Alessio Pomaro

Generative AI: novità e riflessioni - #2 / 2025

> Buon aggiornamento, e buone riflessioni.. -------------------------------------------------------------------------------- UN CORSO GRATUITO SUGLI AI AGENTS Microsoft ha rilasciato un corso gratuito dedicato agli AI Agents. Un percorso in 10 lezioni che parte dalla comprensione del concetto di agente fino allo sviluppo e alla produzione. Un corso gratuito sugli AI Agents Include anche esempi di implementazione di workflow multi-agent usando Autogen. È un contributo davvero interessante. Insieme al corso "Generative AI for beginners" lo terrei tra le risorse da consultare di casa Microsoft. Vai al corso -------------------------------------------------------------------------------- GROK 3 DI XAI Il team di xAI ha presentato Grok 3, e ha annunciato che renderà open source Grok 2 una volta che il 3 sarà "maturo". Il modello è in due varianti (standard e mini) per bilanciare velocità e accuratezza, e ha la componente di "reasoning", simile a quella di o3, di Gemini e DeepSeek. La modalità "Big Brain", invece, è una versione ancora più potente, che usa più potenza di calcolo per task complessi. Non potevano mancare gli Agenti, con l'integrazione dell'ormai immancabile "Deep Search", che recupera informazioni su X e online per creare report dettagliati. Secondo il team, i modelli superano quelli di OpenAI su diversi benchmark. Grok 3 di xAI > Ormai il livello generale delle performance dei LLM è elevato, mentre il > riferimento continua a rimanere GPT-4x (una costante da oltre un anno). I > modelli stanno diventando sempre di più una commodity per creare applicazioni > ibride (agenti) verticali. UN TEST DEL MODELLO Ho fatto alcuni test usandolo anche in configurazione di "reasoning", Deep Search e generazione di immagini. Un test di Grok 3 Il modello è senza dubbio performante, ma ho l'impressione che o3 abbia una marcia in più nel reasoning. La Deep Search è più veloce di quella di Gemini, ma anche meno approfondita: probabilmente è una scelta. Quella di OpenAI rimane la più dettagliata. Interessante la suddivisione tra risposta diretta e note dettagliate. Attualmente il modello è primo nella LLM Chatbot Arena Leaderboard. LLM Chatbot Arena Leaderboard -------------------------------------------------------------------------------- LE NOVITÀ DI OPENAI OpenAI ha fatto diversi rilasci nell'ultimo mese. Vediamo i più importanti. IL LANCIO DI GPT-4.5 OpenAI annuncia GPT-4.5, ma non ha convinto. Altman non ha partecipato alla presentazione, e ha lasciato un post su X abbastanza "sulla difensiva". Il modello è ampio, e necessita di molta potenza di calcolo. Per questo, ha API costosissime: x30 (input) e x15 (output) rispetto a GPT-4o, e x3 rispetto a o1.. > Mi chiedo in quale caso potrebbe aver senso usarle, considerando che non > sembra che ci sia stato un forte balzo evolutivo. Anche perché, altrimenti, > l'avrebbero definito GPT-5. Scrivono, addirittura: "we’re evaluating to continue serving it in the API long-term as we balance supporting current capabilities with building future models". Sembra quasi un rilascio di risposta ai competitor, utile a riprendere la leadership, in attesa degli sviluppi successivi. Infatti il modello ha raggiunto Grok-3 nella LLM Chatbot Arena Leaderboard. Il lancio di GPT-4.5 Caratteristiche GPT-4.5 viene descritto come il modello più potente di casa OpenAI. Sarà disponibile per ChatGPT Pro e via API (per gli utenti Plus arriverà in seconda battuta). Grazie a un apprendimento non supervisionato avanzato, offre migliore comprensione, minori allucinazioni e interazioni più naturali. * Maggiore accuratezza e affidabilità nelle risposte. * Interazioni più fluide, empatiche e contestualizzate. * Eccellenza in scrittura, programmazione e risoluzione di problemi complessi. * Riduzione significativa degli errori e delle informazioni inesatte. > Il fatto che la "scala" OGGI non sia più una leva di crescita delle > performance è sempre più evidente. Questo sembra davvero un rilascio > dimostrativo solo per "guardare" (su ChatGPT) ma "non toccare" (via API). DEEP RESEARCH DISPONIBILE ANCHE PER GLI UTENTI PRO L'agent di Deep Research è stato rilasciato anche per gli utenti Plus. L'ho provato. Il sistema, inizialmente, fa domande di follow-up se la richiesta è troppo generica, e successivamente fa partire il lavoro di "scoperta". * Inizia con una ricerca, e man mano che analizza risultati, espande l'approfondimento degli argomenti. * Mostra sia il flusso di ragionamento, sia la lista delle fonti. * Lavora in maniera leggermente diversa dall'agent di Google: mentre Gemini crea un piano d'azione sugli argomenti e chiede conferma prima di iniziare, l'agent di OpenAI costruisce il piano in base all'esplorazione. * Il risultato di OpenAI sembra più curato ed esteso, infatti è anche più lento: la stessa ricerca ha impegnato qualche minuto Gemini e quasi 17 minuti ChatGPT. Un test di Deep Research su ChatGPT > È affascinante vedere questi sistemi in esecuzione, e permettono di creare dei > report finali che fanno risparmiare grandi quantità di lavoro in fase di > analisi. O1 E O3 ORA SUPPORTANO IL CARICAMENTO DI FILE E IMMAGINI Un passo in avanti è stato fatto, ora manca Code Interpreter per l'analisi dei dataset. Nell'esempio, carico un documento tecnico e fornisco istruzioni a ChatGPT per estrarre tutti i dati in modo strutturato. o3-mini: l'elaborazione di documenti > Con o3, ultimamente, sono riuscito a eseguire operazioni che mi hanno davvero > fatto risparmiare molto tempo. L'INTERAZIONE CON CHATGPT VIA WHATSAPP Si evolve l'interazione di ChatGPT via WhatsApp, con la possibilità di caricare immagini e interagire attraverso messaggi vocali. L'interazione con ChatGPT via Whatsapp > Sembra un aggiornamento banale, ma intercetta esattamente le dinamiche delle > interazioni tra le persone, rendendo il sistema usabile da chiunque. -------------------------------------------------------------------------------- CLAUDE 3.7 SONNET DI ANTHROPIC Anthropic lancia Claude 3.7 Sonnet, con la funzionalità di "reasoning" (nella versione estesa solo per utenti Pro). Nel post di presentazione viene descritto come un approccio diverso dai competitor: un unico modello che può essere sfruttato con o senza ragionamento avanzato. > Sinceramente, credo che la base sia la stessa anche per i competitor. Grok, ad > esempio, funziona allo stesso modo, e anche GPT-5 uniformerà completamente i > modelli di OpenAI. L'ho provato, e chiaramente è molto performante, e, come sempre, lato coding è tra i migliori. Un test di Claude 3.7 Sonnet > Ormai siamo a un punto di convergenza nelle performance: ogni nuovo modello > supera leggermente i competitor, fino a un nuovo rilascio di questi ultimi. Vai al post -------------------------------------------------------------------------------- IL MODELLO DI "REASONING" DI GEMINI Anche in casa Google è arrivato il modello di "reasoning" nella chat di Gemini. In due versioni: "2.0 Flash Thinking" e "2.0 Flash Thinking with apps". La differenza è che il secondo può accedere anche alla Search, a YouTube e a Maps. Gemini 2.0 Flash Thinking > Nel video si vedono alcuni test dei due sistemi. È davvero molto interessante > l'unione tra la ricerca online e il reasoning. Tra i nuovi modelli, è a disposizione anche Gemini 2.0 Pro (Experimental). Tutti questi modelli sono già nelle prime posizioni nella Chatbot Arena LLM Leaderboard. Ora manca un'integrazione solida in Workspace e il cerchio sarà chiuso. -------------------------------------------------------------------------------- GEMINI CODE ASSIST Google ha annunciato il rilascio gratuito di Gemini Code Assist, un potente assistente AI per la programmazione basato su Gemini 2.0. Ora disponibile per tutti gli sviluppatori, supporta tutti i linguaggi di programmazione pubblici e offre suggerimenti avanzati per la scrittura e revisione del codice. 0:00 /0:07 1× Gemini Code Assist Rispetto ad altri strumenti gratuiti, offre fino a 180k completamenti di codice al mese. Integrazione diretta con GitHub per revisioni AI-powered: rileva errori, migliora la qualità del codice e si adatta a linee guida personalizzate. Compatibile con Visual Studio Code, JetBrains IDEs, Firebase e Android Studio, permette agli sviluppatori di lavorare in modo più efficiente con AI direttamente nei loro ambienti di sviluppo. Vai al post -------------------------------------------------------------------------------- LA DEEP RESEARCH DI PERPLEXITY Perplexity introduce diversi sistemi a supporto della ricerca, tra cui "Deep Research". La Deep Research di Perplexity Il funzionamento è in linea con gli omonimi agenti di Google, OpenAI e con i numerosi progetti open source simili: viene delineato un piano d'azione, avviate le ricerche, e viene restituito un report dettagliato (anche ascoltabile). Le fonti e il materiale multimediale (immagini e video) sono consultabili. > Agenti di questo tipo diventano sempre più integrabili e personalizzabili > facilmente. -------------------------------------------------------------------------------- QUANTIZZAZIONE DINAMICA DI DEEPSEEK La quantizzazione, cioè la tecnica usata per ridurre le dimensioni e il consumo di memoria di un LLM senza perdere troppa precisione, non è un processo standard. Il team di Unsloth, ad esempio, ha ridotto le dimensioni di DeepSeek R1 dell'80% mantenendo buone performance ed efficienza. Quantizzazione dinamica di DeepSeek Hanno usato una quantizzazione dinamica mantenendo alcune parti più precise (ad esempio, i primi tre strati densi e alcune proiezioni MoE a 4 o 6 bit), mentre altre vengono ridotte fino a 1.58-bit. Vai al progetto -------------------------------------------------------------------------------- MATQUANT DI GOOGLE DEEPMIND Google DeepMind presenta MatQuant: una nuova tecnica di quantizzazione multi-scala che sfrutta la struttura nidificata degli interi (Matryoshka structure) per ottimizzare modelli a diverse precisioni (int8 → int4 → int2) senza sacrificare l'accuratezza. ALCUNI RISULTATI * Gemma-2 9B (int2) con MatQuant è +8% più accurato rispetto alla quantizzazione tradizionale. * Mistral 7B (int2) migliora di +6,3%, riducendo la perdita di qualità nei modelli ultra-compressi. * Performance di int4 e int8 comparabili ai baseline, con maggiore efficienza. * Interpolazione tra bit-widths (int6, int3) senza ulteriore addestramento. * Mix'n'Match per combinare diverse precisioni nei layer, ottimizzando costi e latenza. MatQuant di Google DeepMind Un passo avanti per l’efficienza dell’AI, con modelli flessibili e adatti a diverse configurazioni hardware. Vai al paper -------------------------------------------------------------------------------- NSA (NATIVELY TRAINABLE SPARSE ATTENTION) DeepSeek pubblica un nuovo paper dedicato all'efficientamento dei LLM. NSA (Natively trainable Sparse Attention) è un nuovo meccanismo che introduce un'architettura di attenzione sparsa che: * riduce il numero di operazioni di attenzione senza sacrificare la qualità delle predizioni; * è ottimizzata per l'hardware moderno, migliorando l'efficienza; * può essere allenata end-to-end, evitando il pre-training su "full attention". Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention Long-context modeling is crucial for next-generation language models, yet the high computational cost of standard attention mechanisms poses significant computational challenges. Sparse attention offers a promising direction for improving efficiency while maintaining model capabilities. We present NSA, a Natively trainable Sparse Attention mechanism that integrates algorithmic innovations with hardware-aligned optimizations to achieve efficient long-context modeling. NSA employs a dynamic hierarchical sparse strategy, combining coarse-grained token compression with fine-grained token selection to preserve both global context awareness and local precision. Our approach advances sparse attention design with two key innovations: (1) We achieve substantial speedups through arithmetic intensity-balanced algorithm design, with implementation optimizations for modern hardware. (2) We enable end-to-end training, reducing pretraining computation without sacrificing model performance. As shown in Figure 1, experiments show the model pretrained with NSA maintains or exceeds Full Attention models across general benchmarks, long-context tasks, and instruction-based reasoning. Meanwhile, NSA achieves substantial speedups over Full Attention on 64k-length sequences across decoding, forward propagation, and backward propagation, validating its efficiency throughout the model lifecycle. arXiv.orgJingyang Yuan Il sistema è più veloce di 9-11x su sequenze di 64k token, e ottiene performance uguali o superiori su diversi benchmark. -------------------------------------------------------------------------------- L'EVOLUZIONE DEI MODELLI DI REASONING Un paper molto interessante che esplora l'evoluzione dei modelli di reasoning attraverso il concetto di recurrent depth. Recurrent depth: l'evoluzione dei sistemi di reasoning Come funziona? Invece di generare lunghe Chain-of-Thought esplicite, il modello ripete i calcoli internamente, ottimizzando il ragionamento in uno spazio latente. Questo gli permette di adattare il numero di iterazioni a test-time in base alla complessità del problema, senza bisogno di addestramento su dati specializzati. * Migliore efficienza computazionale * Migliori capacità di ragionamento senza contesti lunghi * Test-time scaling: più iterazioni = migliori risposte Vai al paper > Un nuovo approccio per rendere l’AI più efficiente senza aumentarne le > dimensioni. -------------------------------------------------------------------------------- UN'INTERAZIONE MULTIMODALE TRA AI AGENT Un esempio in cui Operator di OpenAI usa l'agent di Replit per creare un'applicazione in modo autonomo. Gli agenti possono interagire in diversi modi, ad esempio orchestrati in un framework connesso a diversi tool. In questo caso vediamo un'interazione in cui un agente sfrutta il browser e la multimodalità per usarne un altro, agendo come farebbe un essere umano. > this is wild 🤯🤯🤯 > > just paired openai operator with replit agent to build an app > > watch as two ai agents team up, exchange credentials, and start testing > > ai agent 🤝 ai agent > > the future is here and it’s insane! pic.twitter.com/jIZnqW4fJD > > — Lamar (@LamarDealMaker) February 15, 2025 > Per il flusso sono stati usati 5 prompt. -------------------------------------------------------------------------------- AI CO-SCIENTIST DI GOOGLE Google ha sviluppato AI co-scientist, un sistema avanzato basato su Gemini 2.0 che funge da collaboratore virtuale per i ricercatori. Utilizzando un approccio multi-agente, il sistema genera ipotesi originali, pianifica esperimenti e migliora iterativamente i propri risultati, aiutando gli scienziati a navigare tra enormi quantità di dati e a identificare nuove direzioni di ricerca. 0:00 /0:13 1× AI co-scientist di Google Applicato in ambito biomedico, AI co-scientist ha già dimostrato il suo potenziale proponendo nuovi bersagli terapeutici per la fibrosi epatica, identificando farmaci riproposti per il trattamento della leucemia mieloide acuta e formulando ipotesi innovative sui meccanismi della resistenza antimicrobica. Vai al post > Questo significa accelerazione nel processo di scoperta e ricerca. Ma, essendo > un sistema completamente "neurale" rimane fondamentale una validazione umana > altamente qualificata, in veste della componente "simbolica". -------------------------------------------------------------------------------- IL PIANO DELL'EUROPA DEDICATO ALL'INTELLIGENZA ARTIFICIALE L'Europa presenta un piano per mobilitare circa 200 miliardi in investimenti per l’AI. Il proposito è interessante, con l'idea di creare una sorta di "CERN dedicato all'intelligenza artificiale". Criticità: il piano c'è, ed è in linea con l'obiettivo, ma non si parla di tempi. Inoltre, in Europa, sono presenti centri di ricerca e università d'eccellenza, ma mancano aziende che si occupano di intelligenza artificiale a livello delle Big Tech. Vai al post EU AI Champions Initiative Unlock Europe’s Full Potential in AI EU AI Champions Initiative -------------------------------------------------------------------------------- THREE OBSERVATIONS Sam Altman, in un nuovo post, afferma che l'AI cresce in modo logaritmico rispetto alle risorse investite. Concetto che richiama un comportamento previsto dalle leggi di scala. Afferma, inoltre, che il costo dell'AI diminuisce drasticamente (di 10x ogni 12 mesi). Three Observations Our mission is to ensure that AGI (Artificial General Intelligence) benefits all of humanity. Systems that start to point to AGI* are coming into view, and so we think it’s important to… Sam Altman Il fatto è che si basa su trend attuali, ma non è garantito che la crescita dell’IA seguirà le stesse leggi di scala per sempre. Se il costo del computing continua a scendere, potremmo assistere a un’accelerazione senza precedenti, oppure a un cambio di paradigma che renderà le attuali previsioni obsolete. Il vero test sarà capire se la qualità e la capacità dell’IA continueranno a migliorare al ritmo previsto una volta che il costo computazionale diventerà quasi trascurabile (i dati di qualità, la scarsità di chip avanzati, il costo energetico saranno trascurabili?). > Attualmente credo che architetture basate su agenti ibridi specializzati (es. > sistemi neuro-simbolici) siano più interessanti e "immediate" della rincorsa > verso la chimera dell'AGI basata su LLM. -------------------------------------------------------------------------------- MAJORANA 1 DI MICROSOFT Microsoft ha presentato Majorana 1, il primo chip quantistico basato sull’innovativa architettura Topological Core. Questo nuovo approccio sfrutta materiali chiamati topoconduttori per rendere i qubit più stabili e scalabili, aprendo la strada a computer quantistici con un milione di qubit. Questa tecnologia potrebbe trasformare settori chiave come la chimica, la scienza dei materiali e l'AI, risolvendo problemi impossibili per i computer tradizionali. Un passo avanti decisivo verso il futuro del quantum computing. Majorana 1 di Microsoft > Oggi ci stiamo accorgendo che ragionare solo sulla scala non ha più molto > senso per l'evoluzione dell'AI. Ma "domani" nuove tecnologie potrebbero > azzerare i limiti hardware e permettere di ottenere dati sintetici di qualità. > Dovremo arrenderci all'amara lezione (rif. "The Bitter Lesson", Rich Sutton)? > Lo scopriremo insieme. Vai al post -------------------------------------------------------------------------------- OMNIPARSER V2 DI MICROSOFT Microsoft ha rilasciato OmniParser V2: un sistema open source in grado di compiere azioni nell'interfaccia utente. Non solo sul browser, ma si tratta di un sistema che usa un LLM in un Computer Use Agent. OmniParser V2 di Microsoft > Il panorama di questa tipologia di agenti si sta arricchendo di giorno in > giorno. E probabilmente saranno sempre più efficaci. Vai al progetto UN TEST DI OMNIPARSER V2 > Come fanno questi sistemi a eseguire azioni sui browser e su qualunque > interfaccia grafica? Questo è un esempio di utilizzo di OmniParser V2 in esecuzione in locale. Il sistema elabora ciò che "vede" nello schermo, e lo converte in dati strutturati che mappano e classificano ogni elemento. Un test di OmniParser V2 I dati diventano contesto per un LLM, che può eseguire operazioni sugli elementi. -------------------------------------------------------------------------------- ANIMATE ANYONE 2 Il Tongyi Lab di Alibaba Group ha presentato Animate Anyone 2: un modello avanzato in grado di animare immagini di personaggi. Rispetto ai metodi precedenti, introduce un'importante innovazione: l'integrazione dell'ambiente circostante nella generazione dell'animazione. Animate Anyone 2 Non si limita a estrarre segnali di movimento da un video sorgente, ma analizza anche il contesto ambientale (le aree senza personaggi) per creare animazioni più coerenti. Vai al progetto -------------------------------------------------------------------------------- OPENDEEPRESEARCHER Vedremo nascere diversi sistemi open source come "Deep Research" di OpenAI e Google. OpenDeepResearcher è un esempio. Riceve in input un topic, effettua ricerche online, approfondisce l'argomento sviluppando e usando nuove query di ricercae; infine fornisce un report dettagliato. GitHub - mshumer/OpenDeepResearcher Contribute to mshumer/OpenDeepResearcher development by creating an account on GitHub. GitHubmshumer -------------------------------------------------------------------------------- VIDEOLLAMA3 DI ALIBABA Alibaba introduce VideoLLaMA 3, un modello vision-centric, costruito per migliorare la comprensione visiva attraverso immagini di alta qualità invece di enormi dataset video-text meno precisi. LE PRINCIPALI INNOVAZIONI * Any-Resolution Vision Tokenization (AVT): elabora immagini e video a risoluzioni variabili senza perdita di dettagli. * Differential Frame Pruner (DiffFP): riduce i frame ridondanti nei video, migliorando efficienza e precisione. * Vision-Language Alignment: allena il modello con descrizioni dettagliate per una comprensione più profonda. * Dataset VL3-Syn7M: immagini accuratamente selezionate per garantire qualità nei dati di addestramento. VideoLLaMA 3 di Alibaba PERFORMANCE VideoLLaMA 3 supera i modelli precedenti in: * OCR e documenti (InfoVQA, DocVQA) * Ragionamento matematico visuale (MathVista) * Comprensione multi-immagine (MMMU) * Analisi avanzata dei video (VideoMME, MLVU) > Grazie alla sua architettura ottimizzata e alla gestione più intelligente dei > video, VideoLLaMA 3 rappresenta un nuovo punto di riferimento > nell’intelligenza artificiale multimodale. -------------------------------------------------------------------------------- WORKFLOW MULTI-AGENT: LA GESTIONE DEI FLUSSI Nella costruzione di workflow multi-agent, i framework come Autogen permettono di creare delle regole di intervento per gli agenti. In questo modo, possiamo gestire in quali momenti serve iterazione, e in quali momenti sequenzialità nelle azioni. Un esempio di funzione per gestire i flussi degli agenti su Autogen La funzione dell'esempio determina logiche di intervento degli agenti (StateFlow pattern), e viene usata dall'orchestratore per concedere i turni durante le interazioni. -------------------------------------------------------------------------------- ALPHAGEOMETRY 2: LE PERFORMANCE AlphaGeometry 2 di Google DeepMind ha superato i risultati di una medaglia d'oro medio nelle Olimpiadi Internazionali di Matematica (IMO), raggiungendo un tasso di soluzione dell'84% sui problemi di geometria (contro il 54% della prima versione). > Per quanto si ragioni su "chatbot" generici in grado di affrontare qualunque > problema, gli agenti specializzati, secondo me, sono quelli che oggi possono > raggiungere performance e affidabilità per affiancarci nella crescita in > diversi ambiti. AlphaGeometry, infatti, è un sistema neuro-simbolico, e funziona in questo modo: * un LLM (Gemini) traduce il problema in un linguaggio più adeguato al sistema; * il motore simbolico analizza i dati iniziali e mette a disposizione tutti i teoremi applicabili; * se la soluzione non è immediata (in un problema delle IMO di certo non lo è), usa una combinazione di reti neurali (Gemini) e ricerca simbolica avanzata per individuare costruzioni ausiliarie (deduzione); * il motore simbolico verifica la correttezza, e se la soluzione non è dimostrabile si torna a fare nuove deduzioni; * il sistema restituisce la dimostrazione con i diagrammi necessari. Le performance di AlphaGeometry 2 di Google DeepMind > In pratica unisce il ragionamento simbolico (rigore e affidabilità) alla > velocità e flessibilità delle reti neurali (intuizioni). Vai al paper Di certo si tratta di sistemi che non scalano velocemente e che sono più difficili da costruire, ma l'affidabilità, in certi contesti, vince. -------------------------------------------------------------------------------- AI MODE DI GOOGLE Secondo 9to5Google, Google starebbe lavorando all'AI Mode: una nuova esperienza che unisce la ricerca a un'interfaccia generata da Gemini 2.0. Sundar Pichai aveva annunciato che il 2025 sarebbe stato un anno importante per l'innovazione in Search.. sarà questo l'inizio? E sarà un inizio deciso o un "vorrei, ma non posso"? Di certo, per vincere la concorrenza con gli ibridi di questo tipo dovranno puntare su quello che sanno fare meglio: la ricerca potenziata dai dati strutturati che hanno a disposizione. AI mode di Google COS'È AI MODE? Progettata per rispondere a domande più aperte, esplorative o molto specifiche (es. i confronti), offrirà risposte più strutturate, con collegamenti per approfondire sulle pagine web. Un'interfaccia in stile chatbot permetterà di interagire in modo più dinamico, con possibilità di follow-up e input vocale nell’app di Google. Attualmente sarebbe in test per i dipendenti negli USA. -------------------------------------------------------------------------------- MUSE DI MICROSOFT RESEARCH Microsoft Research ha presentato Muse, un avanzato modello di AI generativa progettato per supportare la creazione di gameplay. È basato sul World and Human Action Model (WHAM), ed è in grado di generare ambienti di gioco e azioni dei controller, simulando sequenze di gameplay realistiche. Muse di Microsoft Research È stato addestrato con dati raccolti dal gioco Bleeding Edge, e ha analizzato oltre un miliardo di immagini e azioni di giocatori (più di sette anni di gameplay). Il modello offre agli sviluppatori uno strumento potente per esplorare nuove idee, migliorando la creatività e l’iterazione nei processi di sviluppo. Vai al paper > Microsoft ha reso il modello open-source, insieme ai pesi, ai dati di esempio > e a WHAM Demonstrator, un’interfaccia che consente di sperimentare > direttamente le sue capacità. -------------------------------------------------------------------------------- L'EVOLUZIONE DELLA CHAT DI MISTRAL Mistral evolve la sua chat con diverse novità. * Velocità: può rispondere fino a 1k parole/s con la funzione Flash Answer. * Ricerca online: combina fonti di qualità, tra cui pagine web, editoriali, social media. * Multimodale: elaborazione di immagini, documenti e fogli di calcolo. * Generazione di immagini: usa Flux Ultra, per ottenere output di qualità. * Code interpreter: può sviluppare codice Python ed eseguirlo a supporto delle risposte all'utente. * Mobile: disponibile per iOS e Android via app. The all new le Chat: Your AI assistant for life and work | Mistral AI Brand new features, iOS and Android apps, Pro, Team, and Enterprise tiers. Mistral AI > L'ho provato. Quello che posso dire è che attualmente siamo lontani dalle > performance dei competitor. -------------------------------------------------------------------------------- OMNIHUMAN-1 DI BYTEDANCE Bytedance, l'azienda cinese che possiede TikTok, ha presentato OmniHuman-1, un framework avanzato per la generazione di video umani basato su un'unica immagine e segnali di movimento come audio e video. OmniHuman-1 di Bytedance Grazie a una tecnica di addestramento multimodale, il modello supera i limiti delle precedenti tecniche end-to-end, migliorando la qualità e il realismo dei video generati. Vai al progetto > Le anteprime sono tecnicamente sbalorditive, ma aprono inevitabilmente diversi > ambiti di riflessione. -------------------------------------------------------------------------------- VIDEOJAM DI META Meta introduce VideoJAM: un framework progettato per migliorare la generazione di movimento nei modelli video. VideoJAM di Meta Il sistema mira a risolvere un limite dei modelli di generazione video: la rappresentazione di movimenti realistici. Vai al progetto > L'aspetto più interessante? Il framework può essere applicato a qualsiasi > modello di generazione video con minime modifiche, senza richiedere nuovi dati > di addestramento o maggiori risorse computazionali. -------------------------------------------------------------------------------- QWEN-2.5 MAX: GENERAZIONE VIDEO Attraverso la chat di Qwen è ora possibile generare video. Un esempio di generazione video con la chat di Qwen Vai alla Chat > La qualità generale di questo modelli è sempre più elevata. -------------------------------------------------------------------------------- - GRAZIE - Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre persone, condividilo 🙂 ISCRIVITI ALLA NEWSLETTER Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su tematiche relative all'intelligenza artificiale. Iscriviti alla Newsletter Email sent! Check your inbox to complete your signup. Gratuita. No Spam. Puoi disiscriverti quando vuoi. Consulta la privacy policy.

March 5, 2025 / Alessio Pomaro

Generative AI: novità e riflessioni - #1 / 2025

> Buon aggiornamento, e buone riflessioni.. -------------------------------------------------------------------------------- I MIEI INTERVENTI AL SEARCH MARKETING CONNECT In chiusura del 2024 ho tenuto due interventi durante il Search Marketing Connect a Bologna. I seguenti video riportano i contenuti integrali. L'EVOLUZIONE DELLA RICERCA ONLINE POTENZIATA DALL'AI: COME CAMBIANO LE ESPERIENZE ONLINE? I modelli di linguaggio (LLM) stanno cambiando la ricerca online, unendo le caratteristiche dei motori di ricerca a processi basati sull'intelligenza artificiale. Come funzionanoquesti sistemi? Come si stanno evolvendo? Verso quale direzione ci stanno conducendo? Un viaggio per capire i cambiamenti in atto e per prepararsi a essere protagonisti delle nuove esperienze di ricerca che stanno trasformando l'accesso alle informazioni. Search Marketing Connect 2024 - Alessio Pomaro > I sistemi ibridi, che uniscono i LLM ai motori di ricerca, miglioreranno. > Crescerà l'accuratezza nel determinare i contenuti rilevanti, grazie a sistemi > come il "reranking". Aumenterà la qualità dell'inferenza, grazie al > "reasoning" e a implementazioni multi-agent. I modelli, in generale, si > evolveranno. CAPITOLO 2: “REASONING” E SISTEMI MULTI-AGENTE L'AI generativa si è evoluta grazie all'aumento delle dimensioni dei modelli, ma oggi i maggiori progressi si stanno ottenendo grazie all'aumento della qualità dell'inferenza. Due esempi: i sistemi di "reasoning" (es. i modelli "o" di OpenAI) e i sistemi multi-agente. Facciamo chiarezza su questo cambiamento, con esempi pratici di applicazioni. Search Marketing Connect 2024 - Alessio Pomaro > I workflow basati sugli AI Agent rappresenteranno un enorme progresso per le > applicazioni basate sull'AI. Forse più della prossima generazione di modelli. -------------------------------------------------------------------------------- O3-MINI DI OPENAI o3-mini è stato rilasciato, e disponibile su ChatGPT e via API. Prezzo? 4,40$/1M token (o1 costa 60$/1M token, DeepSeek costa 2,19$/1M token). * Più veloce e preciso, con efficienza paragonabile a o1. * Reasoning effort regolabile. * Supporta function calling e output strutturati. * Disponibile anche per gli utenti "free", usando l'opzione "Reason" (effetto DeepSeek R1?). * Supera o1-mini in matematica e coding, con miglioramenti significativi in diversi benchmark. * Più veloce del 24% rispetto a o1-mini. L'ho provato su diversi task, su logica e coding. Un test di o3 di OpenAI > È chiaramente una soluzione molto interessante. Vai al post -------------------------------------------------------------------------------- GLI AGENTI DI OPENAI OpenAI, sta arricchendo ChatGPT con una serie di agenti che estendono le potenzialità del sistema. Gli agenti rappresentano lo sviluppo del layer di integrazione: strumenti basati su LLM che eseguono autonomamente operazioni specifiche. > Lo step successivo sarà la possibilità di creare dei workflow multi agente? Un > framework più avanzato per sviluppare agenti personalizzati? OPERATOR OpenAI ha presentato il progetto Operator, un AI Agent in grado di utilizzare un browser web autonomamente per svolgere compiti complessi. Sfruttando il modello Computer-Using Agent (CUA), basato su GPT-4o, Operator rappresenta una delle prime implementazioni di agenti AI capaci di interagire con interfacce grafiche proprio come farebbe un essere umano. Un esempio di interazione con Operator Operator è progettato per eseguire attività quotidiane in modo indipendente, offrendo un’esperienza intuitiva e versatile. Ad esempio, può prenotare ristoranti in piattaforme come OpenTable, fare la spesa online su siti come Instacart, anche interpretando liste scritte a mano, prenotare biglietti per eventi, ecc.. Garantisce il pieno controllo agli utenti con conferme esplicite, modalità takeover per interventi su dati sensibili (es. login o pagamenti), protezioni avanzate contro siti malevoli e comportamenti sospetti. Raggiunge risultati promettenti in benchmark come WebArena e OSWorld, ma è in continuo miglioramento per gestire flussi di lavoro più complessi e situazioni impreviste. Per ora, è disponibile solo negli USA e con account Pro. Vai al progetto > Questo progetto rappresenta un passo verso agenti autonomi sempre più > avanzati, che semplificheranno processi quotidiani e trasformeranno il nostro > rapporto con la tecnologia. DEEP RESEARCH Dopo Operator, viene introdotto Deep Research: un nuovo agente che unisce il "reasoning" alla ricerca. Un sistema in grado di effettuare ricerche online approfondite e multi step sintetizzando i contenuti e ragionando autonomamente su di essi. Crea un piano d'azione, l'utente può confermarlo o modificarlo, e procede estraendo le fonti ed elaborandole. Non ha limiti di latenza, quindi può impiegare anche 30 minuti per fornire risposte di qualità superiore. Deep Research di OpenAI In pratica, funziona come l'omonimo agente in casa Google (Gemini 1.5 Pro with Deep Research): secondo me, quello più utile e interessante. Vai al progetto > Inizialmente sarà solo per utenti Pro. -------------------------------------------------------------------------------- LA NATURA E LA DIREZIONE DEL CONCETTO DI AI AGENT Il keynote di Jensen Huang al CES, scremato dai vari "effetti wow", traccia una traiettoria che permette di capire meglio la natura e la direzione del concetto di AI Agent. > Un concetto di cui si parla ovunque, ma che non credo sia compreso > completamente. Credo che il passaggio che descrive il CEO di Nvidia, tra AI Agentica e AI Fisica sia utile a comprendere meglio il potenziale in gioco. Sì, perché fa capire che.. > la differenza tra l'interazione di più agenti per scrivere l'articolo di un > blog o un blocco di codice, e l'interazione tra robot per gestire un magazzino > è solo negli obiettivi, nelle istruzioni e negli attuatori (o tool, o skill) a > disposizione dagli agenti stessi. Forse, con questi esempi, diventano anche più chiari i timori di cui ha parlato spesso Geoffrey Hinton dicendo: una volta che verrà dato un obiettivo a un sistema autonomo, quanto saranno controllabili le azioni intermedie che compirà per raggiungerlo? Il keynote di Jensen Huang al CES Torniamo sempre allo stesso concetto: più aumenta il potenziale di una tecnologia, più gli attuatori che colleghiamo ad essa diventano potenti, e più diventa urgente un controllo, una regolamentazione e un lavoro cooperativo a livello globale per gestirne l'utilizzo e l'impatto. -------------------------------------------------------------------------------- GEMINI 2.0 FLASH THINKING Alcuni esempi del modello di "reasoning" di Google: Gemini 2.0 Flash Thinking. Sono rimasto colpito dal potenziale.. e non a caso, nel momento in cui sto scrivendo questo contenuto è al primo posto della Chatbot Arena LLM Leaderboard. Un test di Google Gemini 2.0 Flash Thinking L'ho provato su un task di coding e uno multimodale, in cui il sistema elabora un file MP3 di un dialogo, trascrivendolo con la suddivisione degli speaker. -------------------------------------------------------------------------------- DEEPSEEK R1: NAVIGAZIONE WEB + REASONING DeepSeek R1 permette un'azione che mi ha davvero stupito, non realizzabile con o1 di OpenAI: unisce la ricerca online al "reasoning". Nel prompt dell'esempio, chiedo al modello di cercare online la documentazione di Magentic-One (un AI agent per l'automazione del browser), e di implementare un sistema che cerca su Amazon un prodotto e genera un report, mostrandomi anche gli screenshot di navigazione. > DeepSeek diventa un modello di "reasoning" evoluto, in grado di "documentarsi" > online per sviluppare. Nelle immagini si vede anche l'esecuzione del codice su Colab, con il risultato e gli screenshot. DeepSeek R1: navigazione web + reasoning > Le fasi di prototipazione e di ottimizzazione possono avere degli interessati > benefici. -------------------------------------------------------------------------------- DEEPSEEK R1 IN LOCALE, SUL MIO LAPTOP Ho provato DeepSeek R1 in locale, sul mio laptop. La versione è la 8B, basata su architettura LLaMA, con quantizzazione a 4 bit (Q4_K_M). I task di test sono semplici (classificazione e sintesi), ma, pur essendo quantizzato a 4 bit la qualità è sorprendente. La velocità non è grandiosa, ma con l'hardware che ho usato è tutto come da aspettative. Però è chiaro che, con l'aumento della qualità dei modelli open source, con un discreto supporto di GPU (che consente di usare LLM più grandi e quantizzazioni meno severe), e magari con architetture basate su sistemi multi-agente, ormai si possono ottenere ottimi risultati in locale. DeepSeek R1 in locale, sul mio laptop > Questo tipo di sperimentazione, inoltre, fa ragionare meglio sulla potenza dei > modelli che usiamo in base ai task da compiere. Queste ottimizzazioni, in > ottica di applicazioni multi agente, possono migliorare le infrastruttura e > ridurre i costi. -------------------------------------------------------------------------------- QWEN 2.5 MAX > Siamo in un momento in cui i modelli della stessa classe hanno prestazioni > sempre più simili. Anche il prezzo per token generale, secondo me, tenderà a > ridursi drasticamente (a zero). Il tutto renderà i LLM delle vere e proprie > commodity, e ciò che farà davvero la differenza sarà l'integrazione e > l'architettura che li saprà sfruttare meglio. Durante il "frastuono" DeepSeek, infatti, Alibaba ha rilasciato diversi modelli, tra cui Qwen 2.5 Max. È basato su Mixture-of-Experts (MoE), addestrato su oltre 20 trilioni di token e perfezionato con tecniche avanzate come Supervised Fine-Tuning (SFT) e Reinforcement Learning from Human Feedback (RLHF). L'ho provato in diversi task, ed è indubbiamente evoluto. Dai dati, batte diversi modelli in diversi benchmark, tra cui DeepSeek V3. Alcuni test di Qwen 2.5 Max > L'integrazione? Ormai le chiamate API sono intercambiabili: basta cambiare un > parametro per provare qualunque modello. Vai al post -------------------------------------------------------------------------------- IL PROGETTO MARINER DI GOOGLE Il progetto Mariner di Google è un esempio di unione tra i concetti di AI Agent, multimodalità, e reasoning. Si tratta di un sistema agentico basato su Gemini 2.0 in grado di automatizzare processi nel browser interagendo con l'utente. Il progetto Mariner di Google Per ogni task crea un piano attraverso catene di ragionamento, descrive le operazioni e le esegue. Nella demo viene specificato che non lavora in background, per sottolineare il concetto di "human in the loop" e di "co-working". Vai al progetto > Tuttavia, è possibile realizzare sistemi simili completamente autonomi e > automatizzati, con framework come Autogen e tool che eseguono la navigazione > attraverso il browser. -------------------------------------------------------------------------------- AGENTS: UN PAPER DI GOOGLE DEDICATO AI SISTEMI AGENTICI Google ha pubblicato un paper sullo sviluppo di sistemi basati su AI Agent. Gli agenti rappresentano un passo avanti per l'intelligenza artificiale generativa, permettendo ai LLM di andare oltre la semplice elaborazione del linguaggio. Grazie a strumenti come API Extensions, Data Stores e framework di ragionamento avanzati (es. ReAct, Chain-of-Thought), gli AI Agent possono interagire con il mondo reale, prendere decisioni autonome e completare task complessi. Agents: un paper di Google dedicato ai sistemi agentici PUNTI CHIAVE * Autonomia. Gli agenti combinano ragionamento, logica e accesso a dati esterni per eseguire azioni in modo indipendente. * Strumenti avanzati. L'uso di Extensions e Data Stores li rende capaci di accedere a informazioni in tempo reale e integrarsi in sistemi esistenti. * Applicazioni. Dallo sviluppo di tool con LangChain alla gestione end-to-end tramite Vertex AI, le opportunità sono immense. Vai al paper > Il futuro? L’adozione di architetture collaborative, come il “mixture of agent > experts”, promette di affrontare con successo problemi complessi, offrendo > soluzioni sempre più scalabili e innovative. -------------------------------------------------------------------------------- LA NUOVA VERSIONE DI AUTOGEN DI MICROSOFT Microsoft rilascia la versione 0.4 "stable" di Autogen (il noto framework per applicazioni multi-agent), e il nuovo Autogen Studio. L'aggiornamento migliora scalabilità, robustezza e flessibilità, affrontando le limitazioni delle versioni precedenti grazie a un'architettura asincrona e basata su eventi. LE NOVITÀ 1️. Scambi asincroni. Supporta interazioni dinamiche e scalabili tra AI Agent. 2️. Modularità. Gli utenti possono personalizzare agenti, strumenti, memoria e modelli, rendendo il sistema adattabile. 3️. Osservabilità e debugging. Metriche integrate, tracciabilità e supporto OpenTelemetry per monitorare e controllare i flussi di lavoro. 4️. Supporto multi linguaggio. Interoperabilità tra agenti scritti in Python, .NET (e presto altri). 5️. Strumenti migliorati. AutoGen Bench per il benchmarking delle performance degli agenti, e AutoGen Studio, un'interfaccia low-code per prototipare agenti AI, con funzioni come controllo in tempo reale e visualizzazione dei messaggi. Nelle immagini, si può vedere proprio un sistema che ho realizzato con questo sistema. Esempi di utilizzo di Autogen Studio e Magentic-One Tra le applicazioni, è disponibile Magentic-One, che permette dei flussi multi-agent già impostati per coding, ricerca web e ricerca tra i file. Nelle immagini è possibile vederne un'esecuzione dalla console Python: il sistema fa una ricerca online per eseguire il mio task. Vai al post > Lo sviluppo di architetture multi-agent migliora, e migliorano le potenzialità > e le performance delle applicazioni. Autogen Studio lo trovo ancora troppo > acerbo, ma l'inizio è notevole. UN TEST DI MAGENTIC-ONE In questo test basato su Magentic-One, ho usato il componente MultimodalWebSurfer. Un test di Magentic-One Naviga online per eseguire una richiesta, mostrando anche gli screenshot delle pagine che processa. Infine completa il task rispondendo alla mia domanda. Vai a un altro test -------------------------------------------------------------------------------- TITANS: UN'EVOLUZIONE DEI TRANSFORMER Google Research ha presentato Titans, una nuova architettura che introduce un modulo di memoria neurale a lungo termine. Non si tratta di uno stravolgimento dei Transformers, ma di una variante che ne estende le capacità, affrontandone i limiti principali. Titans di Google COME FUNZIONA? Titans aggiunge una memoria a lungo termine che lavora insieme al noto meccanismo dell'attenzione, ottimizzando il recupero delle informazioni dal passato senza limitarsi alla finestra di contesto immediata. Questo permette di: * ricordare informazioni lontane nel tempo; * gestire sequenze molto estese (oltre 2 milioni di token); * mantenere efficienza con un'inferenza veloce e scalabile. UN CONTRIBUTO DISTINTIVO Una delle innovazioni più interessanti di Titans è la capacità di imparare a memorizzare durante il test. Questo è reso possibile grazie a un meccanismo di apprendimento basato sulla "sorpresa": il gradiente della rete rispetto al suo input viene usato come misura della sorpresa. I dati più inaspettati o sorprendenti vengono prioritizzati per la memorizzazione, imitando il modo in cui gli esseri umani trattengono più facilmente le informazioni nuove. Questo processo è potenziato da un meccanismo di "decadimento" che evita il sovraccarico delle risorse di memoria. PERCHÉ È RILEVANTE? I Transformers sono eccellenti per contesti brevi, ma diventano meno efficaci con sequenze più lunghe. Titans combina tre tipi di memoria (breve termine, lungo termine, persistente) per migliorare compiti complessi come modellazione linguistica, ragionamento, genomica (analisi di dati genetici) e analisi di serie temporali. NON UNO STRAVOLGIMENTO, MA UN'EVOLUZIONE Titans arricchisce i Transformers con nuove funzionalità senza riscrivere l'architettura da zero. È un passo importante verso modelli che possono gestire contesti enormi in modo più naturale ed efficiente. Vai al paper > Una nuova era per l'AI? Titans potrebbe segnare l'inizio di un nuovo capitolo > nei modelli di linguaggio, promettendo di sbloccare scenari inediti per > applicazioni complesse e agenti più intelligenti. -------------------------------------------------------------------------------- GENERAZIONE DI IMMAGINI: UN PAPER DI GOOGLE > Il lavoro sull'aumento della qualità dell'inferenza, invece di concentrarsi > "solo" sulla scala dei modelli, è un trend che coinvolge non solo i LLM, ma > anche i modelli di diffusione (generazione di immagini). Il paper di Google DeepMind studia un modo per migliorare i modelli di diffusione, non solo durante il training ma anche quando vengono usati per generare immagini (inferenza). Normalmente, questi modelli migliorano aumentando il numero di "step di pulizia" (denoising), ma oltre un certo punto i miglioramenti diminuiscono drasticamente. Si propone un nuovo approccio: invece di fare solo più step di denoising, si cerca di trovare i migliori "punti di partenza" (rumori iniziali) per il processo di generazione. Questo avviene attraverso un sistema che combina strumenti per valutare la qualità delle immagini e algoritmi per esplorare nuove opzioni. Generazione di immagini: un paper di Google Con questa strategia, si riescono a creare immagini più realistiche e migliori, adattando il metodo alle esigenze di ogni situazione, come immagini condizionate da un testo o classi specifiche. > In parole semplici, il paper mostra che usando meglio le risorse > computazionali durante l'inferenza, si possono ottenere risultati molto > migliori dai modelli senza agire sulla scala. Vai al paper -------------------------------------------------------------------------------- BROWSER USE Stanno nascendo diversi AI Agent che lavorano come Operator di OpenAI. I più interessanti che ho visto sono Magentic-One (visto in precedenza) e Browser Use. Entrambi sono progetti open source usabili con poche righe di Python, e Browser Use ha anche la versione Cloud, con una comoda interfaccia web (costo: 30$/mese). Anche con proxy, autenticazione persistente, cronologia dei messaggi e "intervento umano" nelle azioni di automazione. Browser Use - Make websites accessible to AI agents Make websites accessible for AI agents. Extract interactive elements and automate browser interactions. Enable AI to control your browser Browser Use supera Operator nel benchmark definito "WebVoyager". * Browser Use: https://browser-use.com/ * Versione in Cloud: https://cloud.browser-use.com/ -------------------------------------------------------------------------------- CHAIN-OF-AGENTS (COA) Google Research propone un nuovo approccio per la gestione di contesti lunghi: Chain-of-Agents (CoA). Gli input vengono suddivisi in segmenti, ognuno dei quali viene elaborato da un AI Agent. Gli agenti del team comunicano le informazioni all'agente manager, il quale crea un output per l'utente. Nel paper vengono testati diversi LLM, tra cui Gemini e Claude, con risultati che superano l'approccio RAG e l'uso di modelli con contesti estesi. Chain of Agents: Large language models collaborating on long-context tasks > Su input che superano i 400k token le performance migliorano anche del 100%. -------------------------------------------------------------------------------- GLI AMBIENT AGENTS DI LANGCHAIN LangChain introduce il concetto di "ambient agents", ovvero AI Agent che non agiscono in base a interazioni con gli utenti (es. una richiesta in chat), ma in base al verificarsi di eventi. Introducing ambient agents Most AI apps today follow a familiar chat pattern (“chat” UX). Though easy to implement, they create unnecessary interaction overhead, limit the ability of us humans to scale ourselves, and fail to use the full potential of LLMs. Over the past six months, we’ve been exploring a different approach at LangChain BlogHarrison Chase Gli agenti monitorano dei flussi di eventi, e agiscono autonomamente, in base al loro addestramento e ai tools che hanno a disposizione. Coinvolgono l'utente solo quando è necessario attraverso notifiche, per approvazioni o richieste di informazioni aggiuntive. > Ad esempio, potrebbero monitorare le mail in ingresso, e agire su alcune di > esse per automatizzare processi. -------------------------------------------------------------------------------- TUTTO VIENE DEFINITO "AI AGENT" Oggi tutto viene definito AI Agent: è il termine del momento. Ma non si tratta di una novità (marketing a parte).. ChatGPT stesso si potrebbe definire un agente, infatti si basa su un LLM che può usare autonomamente degli strumenti (coding, web navigation, vision, image generation) per completare task forniti in input. Così come i GPTs, che possono interagire con API esterne come tool. Gli aspetti interessanti dell'attuale sviluppo in ambito di AI, invece, riguardano i workflow multi-agent, e il concetto di "ambient agents". Ovvero sistemi che mettono in gioco più agenti specializzati, ognuno con i propri tool, che lavorano in team autonomi per completare task. Attivati non solo da input diretti da parte degli esseri umani, ma da eventi, coinvolgendo gli utenti solo quando è necessario. > Questi meccanismi guideranno le prossime evoluzioni in ambito di AI, più delle > nuove generazioni di modelli. Perché i modelli più performanti comunque > lavoreranno in questi workflow potenziandoli ulteriormente. Andrew Ng sul tema degli AI Agent > E tutto questo non riguarderà solo il mondo digital, ma anche quello fisico, > "semplicemente" con attuatori diversi (Physical AI). -------------------------------------------------------------------------------- GOOSE > L'open-source sta vivendo un momento straordinario nello sviluppo di soluzioni > basate sull'AI. DeepSeek ha lanciato V3 e R1, Alibaba ha presentato Qwen 2.5-1M, Microsoft con la nuova versione di Autogen. E Jack Dorsey ha presentato Goose, un framework open-source che semplifica la creazione di AI Agent. Il sistema permette di scegliere i LLM alla base degli agenti, e mette a disposizione un'interfaccia desktop, una CLI (riga di comando) e integrazioni con strumenti e applicazioni attraverso Model Context Protocol (MCP). codename goose | codename goose Your open source AI agent, automating engineering tasks seamlessly. Block Logo > È molto interessante vedere come l'attenzione si sta collocando non solo sui > modelli (che ormai vengono dati per scontati e iniziano a equivalersi), ma > anche sul layer di integrazione nelle applicazioni. -------------------------------------------------------------------------------- IL PROGETTO COSMOS DI NVIDIA Nvidia, dopo averlo raccontato al CES, inizia a mettere a disposizione strumenti dedicati all'accelerazione dello sviluppo dell'AI "fisica" (Physical AI). Cosmos è una piattaforma dedicata proprio a questo, attraverso World Foundation Model (WFM), ovvero modelli costruiti per robotica, e veicoli autonomi. Il progetto Cosmos di Nvidia Include strumenti per elaborare dati visivi e video, creando modelli AI che comprendono dinamiche fisiche e generano video di alta qualità basati su input multimodali (immagini, testo, video). Vai al progetto > Nell'esempio, il modello riconosce gli elementi in una scena (che cambia), e > li modifico attraverso prompt testuali. -------------------------------------------------------------------------------- L'INTEGRAZIONE DI GEMINI SU CHROME La forza dell'integrazione nell'ecosistema: Chrome > YouTube > Gemini. Nel video, uso lo shortcode @Gemini, e scrivo un prompt direttamente nella barra degli indirizzi di Chrome, includendo l'URL di un'intervista su YouTube. L'elaborazione di un video di YouTube attraverso Gemini Quello che ottengo, è l'elaborazione del contenuto del video su Gemini Advanced, il quale si connette a YouTube per estrarre le informazioni necessarie. > L'intervista dura quasi 3 ore, ma in qualche secondo ottengo le informazioni > che cercavo. -------------------------------------------------------------------------------- STORM: L'UNIONE DI UN LLM ALLA RICERCA ONLINE Stanford lancia STORM, un sistema open source molto simile alla Deep Research di Gemini (Google) e di OpenAI. Utilizza modelli di linguaggio di grandi dimensioni (LLM) per generare articoli in stile Wikipedia, basandosi su ricerche approfondite sul web, e fornendo le citazioni. STORM: l'unione di un LLM alla ricerca Per provarlo Co-STORM, una funzionalità ulteriore, estende STORM per supportare la collaborazione tra esseri umani e modelli di AI. Include strumenti come mappe concettuali dinamiche per semplificare il lavoro su argomenti complessi e incoraggia il coinvolgimento umano per orientare le discussioni. Vai alla libreria Python -------------------------------------------------------------------------------- I TASK DI CHATGPT ChatGPT, aggiungendo le "attività", prova ad accelerare il processo per diventare un assistente personale per gli utenti. La nuova funzionalità (beta), infatti permette di salvare delle attività ricorrenti attraverso il linguaggio naturale, con la possibilità di gestirle e modificarle successivamente. Nell'esempio ho chiesto un report di notizie sull'AI ogni giorno alle 7:30. Task di ChatGPT: un esempio > L'unione del LLM con questo tipo di task è davvero interessante. Il top, > sarebbe la possibilità di usare un prompt con dei GPT custom schedulati. -------------------------------------------------------------------------------- LA CAPACITÀ DI RAGIONAMENTO DEI LLM: UN NUOVO BENCHMARK > Entusiasmo sì, ma spirito critico sempre attivo. Questo paper illustra un nuovo benchmark, chiamato Putnam-AXIOM, per valutare la capacità di ragionamento matematico di modelli di linguaggio avanzati (LLM). Come funziona? Viene usata una serie di problemi, sui quali vengono apportate delle variazioni per capire se i modelli sono in grado di generalizzare o lavorano per memorizzazione di soluzioni "già viste" in fase di addestramento. Risultato: il modello più accurato che è stato testato (o1-preview) ha raggiunto solo il 41.95% di accuratezza sul set originale, subendo un calo del 30% sui problemi variati. Putnam-AXIOM: un nuovo benchmark per i LLM Questo dimostra che i modelli tendono a basarsi su memorizzazione piuttosto che su un vero ragionamento. Vai al paper > Esistono già modelli più evoluti, ma il concetto cambierà? Lo scopriremo. -------------------------------------------------------------------------------- AGENTIC RAG: UN NUOVO PARADIGMA Avevo già fatto delle sperimentazioni unendo il concetto di RAG a un sistema multi-agent, e questo paper ne definisce proprio il paradigma, con il termine "Agentic RAG". "Agentic Rag": un nuovo paradigma Di fatto, i sistemi basati su workflow di AI Agent sono approcci per migliorare la qualità dell'inferenza, e per rendere il sistema più affidabile. Agentic RAG integra agenti autonomi nel flusso RAG per: * gestire dinamicamente le strategie di recupero; * rifinire iterativamente la comprensione del contesto; * adattare i flussi di lavoro a compiti complessi, migliorando flessibilità, scalabilità e consapevolezza contestuale. Vai al paper -------------------------------------------------------------------------------- AGENTS ARE NOT ENOUGH: AGENTS, SIMS, ASSISTANTS In un interessante paper dal titolo "Agents Are Not Enough", si torna a parlare di ibridi composti da reti neurali e AI simbolica. Viene descritta una nuova architettura per superare le limitazioni degli AI Agent, composta da: 1. Agenti Specializzati: moduli autonomi ottimizzati per compiti specifici, capaci di collaborare tra loro per risolvere task complessi. 2. Sims: rappresentazioni virtuali degli utenti che combinano preferenze, comportamenti e contesto. I Sims agiscono come avatar digitali per interagire con gli agenti in modo personalizzato e sicuro. 3. Assistenti: interfacce intelligenti che orchestrano le interazioni tra Sims e Agenti, garantendo che i compiti vengano eseguiti in maniera efficiente e conforme alle esigenze dell’utente. Agents Are Not Enough: Agents, Sims, Assistants L’innovazione chiave è nell’integrazione tra reti neurali (adattabilità e apprendimento) e AI simbolica (spiegabilità e trasparenza), creando un ecosistema scalabile e affidabile, attento alla privacy. Vai al paper > Un passo avanti verso un'intelligenza artificiale più utile e sicura. -------------------------------------------------------------------------------- I MODELLI TRANSFORMER NEL PLANNING STRATEGICO Questo paper di Google DeepMind esplora l'idea di usare i modelli transformer per affrontare il problema del planning strategico nel gioco degli scacchi. Lo scopo principale è verificare se i transformer possono imparare a giocare a scacchi e prendere decisioni strategiche senza fare una ricerca esplicita, come fanno i motori tradizionali tipo Stockfish o AlphaZero. > Il modello più grande (270M) è stato in grado di giocare a livello gran > maestro con un Elo blitz di 2895 contro umani su Lichess. I modelli transformer nel planning strategico > I transformer riescono a generalizzare su nuove posizioni mai viste durante > l’addestramento, dimostrando una capacità di ragionamento strategico. Vai al paper -------------------------------------------------------------------------------- SORA DI OPENAI: UN ESEMPIO DI SPOT PUBBLICITARIO Come sarebbe lo spot per una campagna di un noto brand realizzato al 100% con Sora di OpenAI (Text-To -Video)? È un esperimento dimostrativo di Dave Clark, un creative director professionista. Ci tengo a specificarlo per mettere in evidenza un concetto importante: l'AI non genera skill, ma potenzia competenze già consolidate. Un esempio di spot pubblicitario generato con Sora Ci sarà chi critica a prescindere questi sistemi, chi dirà "è freddo e senz'anima" (solo perché sa che è stato generato da un algoritmo), o chi andrà a scomporre tutti i fotogrammi per trovare un'incoerenza.. > Probabilmente sì, è "freddo e senz'anima", ma questo non fermerà il progresso. E le imprecisioni ci sono. Ma, secondo me, non si dovrebbe pensare a cosa sono questi modelli oggi. Ma si dovrebbe ricordare cos'erano due anni fa, e cos'erano un anno fa, per poi provare a immaginare quanto saranno di supporto alla creazione tra un anno. -------------------------------------------------------------------------------- VEO 2 DI GOOGLE: UN CORTOMETRAGGIO Un cortometraggio dal titolo "Fade Out", realizzato da Jason Zada (regista professionista) con Veo 2 di Google. Il tentativo è stato quello di generare dettagli simili a quelli dei film (es. movimenti della camera, illuminazione, texture, emozioni) "per creare una storia, non un montaggio". "Fade Out": un cortometraggio realizzato con Veo 2 di Google > L'AI non genera skill, ma potenzia > le competenze già consolidate. -------------------------------------------------------------------------------- RAY2 DI LUMA LABS Luma Labs ha rilasciato Ray2, un nuovo modello dedicato ai video. Inutile dire che la qualità è impressionante. * Realismo senza precedenti. Movimenti naturali e dettagli ultra-realistici. * Versatilità creativa. Generazione Text-To-Video, Image-To-Video, editing avanzato. * Potenza amplificata. Architettura multimodale e potenza computazionale 10 volte superiore rispetto al modello precedente. Video realizzati con Ray2 di Luma Labs > Una nuova frontiera per l'immaginazione visiva? -------------------------------------------------------------------------------- S2V-01 DI HAILUO: LA PERSONALIZZAZIONE DEL VIDEO Hailuo presenta S2V-01, un nuovo modello di generazione video che si concentra su una delle sfide più grandi del settore: mantenere i tratti del viso coerenti e realistici, indipendentemente dalle inquadrature. Genera video con personaggi da una sola immagine di riferimento, e ogni fotogramma rimane fedele con accuratezza. Un test di S2V-01 di Hailuo Nel video un mio test: ho usato la mia immagine di profilo e dei prompt testuali in cui descrivo le scene. > I modelli di generazione video continuano a migliorare e ad evolversi. -------------------------------------------------------------------------------- FLUX 1.1 PRO ULTRA Ho fatto alcuni test con Flux 1.1 Pro Ultra. La qualità delle immagini non stupisce più (ormai ci siamo abituati), ma generare immagini di queste dimensioni in qualche secondo è impressionante. Il modello, infatti, arriva fino a 4MP, con elevata aderenza al prompt in meno di 10 secondi. -------------------------------------------------------------------------------- FRAMES DI RUNWAY Runway rilascia Frames, e il panorama della generazione di immagini cambia nuovamente, con un altro player di peso. Immagini generate attraverso Frames di Runway Nella presentazione si parla di "controllo stilistico e fedeltà visiva senza precedenti".. beh, lo vedremo, ma le anteprime non scherzano. Vai al post > Runway diventa una piattaforma per la content creation sempre più completa. -------------------------------------------------------------------------------- INTELLIGENZA ARTIFICIALE E ISTRUZIONE: UNO STUDIO Studio: in cinque moduli di un corso di laurea in psicologia, sono state inviate alcune risposte create al 100% dall'AI, come se fossero scritte da studenti. I professori che correggevano non lo sapevano. Il 94% delle risposte generate non è stato rilevato come sospetto. L'algoritmo ha ottenuto, in media, voti più alti rispetto agli studenti reali. In alcuni casi, l'AI ha superato l'80% degli studenti. Intelligenza Artificiale e Istruzione: uno studio > L'esperimento ha dimostrato che l'AI può facilmente passare inosservata negli > esami e che bisogna ripensare ai metodi di valutazione per affrontare questa > nuova realtà. Vai al paper -------------------------------------------------------------------------------- - GRAZIE - Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre persone, condividilo 🙂 ISCRIVITI ALLA NEWSLETTER Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su tematiche relative all'intelligenza artificiale. Iscriviti alla Newsletter Email sent! Check your inbox to complete your signup. Gratuita. No Spam. Puoi disiscriverti quando vuoi. Consulta la privacy policy.

February 4, 2025 / Alessio Pomaro

Generative AI: novità e riflessioni - #11 / 2024

> Buon aggiornamento, e buone riflessioni.. -------------------------------------------------------------------------------- CI VEDIAMO AL SEARCH MARKETING CONNECT Nei giorni 11 e 12 dicembre, a Bologna, ci sarà la diciottesima edizione del Search Marketing Connect, che sarà orientata all'impatto dell'Intelligenza Artificiale su SEO, Analytics, ADV, Digital Strategy e Content. Terrò due interventi: * il primo sulla ricerca online potenziata dall'AI; * il secondo sulle nuove architetture volte ad aumentare la qualità dell'inferenza nei modelli di linguaggio (sistemi di "reasoning" e multi-agent). In entrambi, porterò concetti, sperimentazione e riflessioni. Vai al programma completo -------------------------------------------------------------------------------- COSA SONO GLI AI AGENTS? Tutti parlano gli AI Agents e sistemi multi-agente. Ma di cosa si tratta? Spiegazione semplice: un agente è un sistema che usa un LLM come motore di "ragionamento", ed è in grado di eseguire operazioni autonomamente per raggiungere l'obiettivo richiesto. Cosa sono gli AI Agents? > Un GPT connesso a diverse API esterne è un semplice esempio di agente: è il > LLM, in base alla richiesta e ai servizi ai quali può accedere, che decide le > azioni da compiere. Qui è possibile consultare un esempio di implementazione di un semplice agente usando LangChain. Build an Agent | 🦜️🔗 LangChain By themselves, language models can’t take actions - they just output text. 🦜️🔗 LangChain UN ESEMPIO DI APPLICAZIONE MULTI-AGENTE Nel video, è possibile vedere un esempio di applicazione multi-agent su AutoGen Studio, per pianificare il miglior periodo per una vacanza con determinate caratteristiche. Un'applicazione multi-agent su AutoGen Studio Gli agenti coinvolti sono: un proxy che riceve la richiesta, il team leader, l'esperto di meteorologia, l'esperto della Grecia e l'esperto di surf. Ogni agente è basato su GPT-4o, e ha accesso a una knowledge specifica, o a tool che estraggono dati via API in base alle interazioni. > I vantaggi di sistemi di questo tipo: specializzazione, scomposizione di > problemi complessi, scalabilità, flessibilità. -------------------------------------------------------------------------------- MODEL CONTEXT PROTOCOL (MCP) Anthropic introduce Model Context Protocol (MCP), uno standard che semplifica la connessione degli agenti AI a fonti di dati locali e remote. Grazie a sistemi di questo tipo, l'LLM può collegarsi alla knowledge senza bisogno di connettori specifici, ma con "semplici" architetture client-server. Introducing the Model Context Protocol The Model Context Protocol (MCP) is an open standard for connecting AI assistants to the systems where data lives, including content repositories, business tools, and development environments. Its aim is to help frontier models produce better, more relevant responses. > Questo permette di aumentare la precisione e di creare ecosistemi più > scalabili e sostenibili, accelerando la transizione verso sistemi di AI più > "agentici" e collaborativi. -------------------------------------------------------------------------------- LA RICERCA SU CHATGPT OpenAI porta su ChatGPT l'esperienza (e i feedback) di SearchGPT e le partnership editoriali nate nell'ultimo periodo. Si basa su GPT-4o ottimizzato con nuove tecniche di generazione di dati sintetici e di distillazione che sfrutta o1. > L'ho provato. È senza dubbio migliorabile, ma mi sembra un ottimo inizio di > una nuova esperienza di ricerca. La ricerca su ChatGPT Mancano le integrazioni che siamo abituati a trovare nelle SERP di Google, ad esempio.. ma le potenzialità sono enormi. Esempi di ricerca su ChatGPT La capacità di distillare una grande quantità di fonti in pochissimo tempo è stupefacente. La sintesi delle competizioni sportive è un esempio lampante. > E vogliamo parlare dell'estensione per Chrome che permette di rendere la > ricerca di ChatGPT quella di default del browser!? COME FUNZIONA LA RICERCA SU CHATGPT? Il dettaglio del video fa intuire la natura del funzionamento della ricerca di ChatGPT. Search su ChatGPT: come funziona? È una sorta di RAG (Retrieval-Augmented Generation): la SERP di Bing è la lista dei "documenti" che compongono la knowledge. Le informazioni vengono trasformate in embeddings, e con una query vettoriale il LLM costruisce la risposta. Nell'area "citazioni" sono presenti i documenti della knowledge con le parti più vicine semanticamente alla query, e che, come nel RAG vengono indicate tra le fonti della risposta. > Questo cambia il paradigma di ricerca delle informazioni: la prima estrazione > può essere anche poco precisa (rimanendo importante), mentre il lavoro > semantico raffinato avviene in seconda battuta. LA RICERCA SU CHATGPT NON È SEARCHGPT! Ho letto diversi post in cui si afferma di aver scoperto che i risultati della ricerca di ChatGPT derivano da Bing: È COSÌ, e la documentazione lo riporta in modo chiaro (..ma bisogna leggerla!). La ricerca su ChatGPT non è SearchGPT È stata migliorata la distillazione dei risultati, vengono sfruttare le partnership editoriali, ed è stata sfruttata L'ESPERIENZA di SearchGPT (i feedback del prototipo) per migliorare le risposte della ricerca. > Ergo: non leggiamo solo i titoli degli articoli che troviamo online. I > concetti vanno approfonditi. -------------------------------------------------------------------------------- AI OVERVIEWS SU GOOGLE SHOPPING NEGLI USA L'esperienza di AI Overviews all'interno di Google Shopping nelle SERP USA è davvero interessante. AI Overviews su Google Shopping in USA Google sta "spingendo" questa tecnologia dove (attualmente) non ha rivali, ovvero nelle piattaforme in cui i risultati sono guidati dai dati strutturati. > Anche se la recente integrazione dello "shopping" su Perplexity fa riflettere. GOOGLE AI SALES ASSISTANT Sembra che Google, inoltre, stia testando AI Sales Assistant in SERP, raggiungibile attraverso una CTA "Shop" dopo i sitelink dei brand. La chat permette di fare domande e affinare la ricerca dei prodotti. Google AI Sales Assistant > I dati ben strutturati, diventano sempre di più il motore che alimenta touch > point digitali. E il sito web è solo uno di questi. SEO è anche comprendere questo aspetto, e curare feed e dati strutturati. -------------------------------------------------------------------------------- LO SHOPPING DI PERPLEXITY Perplexity introduce "shopping", che permette di fare una ricerca con intento d'acquisto, ottenere un listing di prodotti distillato dai risultati con informazioni dettagliate, e acquistare direttamente dalla SERP. La ricerca può essere anche visuale.. anzi, multimodale (immagine + query testuale). Per approfondire > I sistemi basati sull'AI diventano sempre di più un intermediario tra l'utente > e l'acquisto di prodotti e servizi. -------------------------------------------------------------------------------- BRAVE SEARCH INTRODUCE "ANSWER WITH AI" Una nuova funzionalità che distilla risposte in base ai risultati di ricerca, e permette una conversazione con domande di follow-up. Il sistema si basa sui dati dell'indice di Brave e su LLM open-source e proprietari per la generazione di risposte. Answer with AI di Brave Search Lo stile è quello di AI Overviews di Google, con la risposta in alto e i risultati tradizionali a seguire. > Il panorama si amplia, e gli ibridi tra motore di ricerca e LLM diventano > sempre di più parte dell'esperienza utente. -------------------------------------------------------------------------------- LA VERSIONE DESKTOP DI CHATGPT OpenAI ha rilasciato l'applicazione desktop per Windows e MacOS. L'ho provata, e si capisce subito come la facilità di utilizzo aumenta. La versione desktop di ChatGP Alt + Spazio, e l'interazione è subito pronta per ricerche, azioni sui documenti, "vision" sullo schermo, e voce. -------------------------------------------------------------------------------- GOOGLE SEARCH PER I MODELLI GEMINI Dopo la ricerca su ChatGPT arriva Google Search per i modelli Gemini. L'ho provato. La funzionalità si chiama "Grounding with Google Search" ed è molto simile a quella di ChatGPT. Grounding with Google Search Permette, però, anche si gestire il "dynamic retrieval": un parametro per impostare l'influenza del recupero dai risultati di ricerca nella risposta del modello. Interessante anche vedere come il sistema scompone la richiesta in diverse query. > L'aspetto interessante è che sarà usabile via API, consentendo agli > sviluppatori di creare applicazioni più accurate. -------------------------------------------------------------------------------- SISTEMI DI "REASONING": LA QUALITÀ DELL'INFERENZA Durante il TED AI di San Francisco, Noam Brown (OpenAI), ha affermato: > Si è scoperto che far riflettere un bot per soli 20 secondi durante una mano > di poker ha ottenuto lo stesso miglioramento delle prestazioni che si > otterrebbe aumentando le dimensioni del modello di 100.000 volte e > addestrandolo per 100.000 volte più a lungo. Si stava riferendo alla tecnica usata su sistemi come "o1", che probabilmente tutti i modelli (anche di altri player) adotteranno prossimamente. Sul palco dell'AI Festival, ho condiviso la riflessione: > La potenza di calcolo e l'accesso a grandi set di dati saranno ancora > sufficienti per progredire? O forse siamo arrivati in un momento in cui la > scala potrebbe non bastare più, rendendo necessarie intuizioni innovative ed > evoluzioni algoritmiche? Alessio Pomaro: AI Festival 2024 Sembra, infatti, che il focus si stia spostando sulla qualità dell'inferenza e su nuove architetture, e meno sulla scala del training (visto anche che i progressi di Orion sembrano essere al di sotto delle aspettative). > Successivamente, si dovrà cercare l'accuratezza e la "comprensione" coerente. -------------------------------------------------------------------------------- COSA SONO GLI EMBEDDINGS? Sentiamo sempre più spesso parlare di embeddings: di cosa si tratta, come si generano, e come possono essere utili nei flussi operativi? Una spiegazione semplice, con alcuni esempi di utilizzo: Cosa sono gli embeddings? Esempi di utilizzo Cosa sono e come funzionano gli embeddings (o incorporamenti): una spiegazione semplice con alcuni esempi di utilizzo in ambito SEO, e riflessioni sull’importanza della consapevolezza di questi sistemi. Alessio PomaroAlessio Pomaro In ambito SEO, ad esempio, possono essere utilizzati per creare delle redirection automatizzate per le migrazioni degli e-commerce, per gestire i 404 e per rafforzare la rete di link interni. > Facciamo anche alcune importanti riflessioni sull'importanza della > consapevolezza di questi sistemi per ottenere performance. Per approfondire -------------------------------------------------------------------------------- KLING CUSTOM MODEL E SUNO V4 Con questo video vediamo due novità incredibili: Kling Custom Models e Suno v4. Kling Custom Model e Suno V4 Kling ora permette un training per la coerenza dei personaggi attraverso dei video di esempio. Il video è stato creato da Alex Patrascu, addestrando Kling a riprodurre sé stesso. L'audio del video è stato realizzato con l'ultima versione di Suno, la 4. Anche le tracce audio iniziano ad avere una qualità importante. > Il risultato è.. una parte del futuro della content creation. -------------------------------------------------------------------------------- RUNWAY: FRAMES + EXPAND VIDEO Runway ha presentato due nuove funzionalità molto interessanti (una dedicata alle generazione delle immagini). FRAMES Frames è un nuovo modello di generazione di immagini di Runway. Le chiavi di sviluppo sembrano essere la coerenza stilistica e la fedeltà visiva. Il tutto per essere il primo step per la generazione di video sempre migliori. Esempi di immagini generate con Frames di Runway Le anteprime sono notevoli. Per approfondire EXPAND VIDEO Expand Video è una nuova funzionalità per modificare le proporzioni dei video estendendo il frame originale e mantenendo la coerenza visiva. A questo è possibile abbinare i movimenti della telecamera ed effetti. Expand Video di Runway > Questo permette di creare diversi formati di video senza dover fare riprese > aggiuntive. Per approfondire -------------------------------------------------------------------------------- FUGATTO DI NVIDIA Fugatto è un nuovo modello di Nvidia dedicato al mondo audio. > È in grado di generare e modificare qualunque tipo di mix di musica, voci e > suoni utilizzando prompt basati su testo e file audio. Esempi di funzionalità: creazione di nuovi suoni, cambiamento di emozioni o accenti in una voce, manipolazione di strumenti musicali in un brano esistente, voice-over personalizzati. Fugatto di Nvidia > La qualità e la precisione di questi strumenti li renderà indispensabili nei > flussi di lavoro. Per approfondire -------------------------------------------------------------------------------- STILI PERSONALIZZATI SU CLAUDE Anthropic ha introdotto una funzionalità che permette di scegliere lo stile di scrittura su Claude. Gli stili personalizzati su Claude Ma soprattutto, consente di creare stili personalizzati attraverso un addestramento: caricando esempi o usando prompt descrittivi. -------------------------------------------------------------------------------- AISUITE DI ANDREW NG Andrew Ng ha rilasciato Aisuite nella sua repository di GitHub: un framework open che permette di usare qualunque LLM con poche righe di Python. GitHub - andrewyng/aisuite: Simple, unified interface to multiple Generative AI providers Simple, unified interface to multiple Generative AI providers - GitHub - andrewyng/aisuite: Simple, unified interface to multiple Generative AI providers GitHubandrewyng > In pratica incapsula le chiamate API dei più noti modelli, facilitando test e > prototipazione. -------------------------------------------------------------------------------- IGNITE 2024: LE NOVITÀ DI MICROSOFT * Sicurezza e Data Governance. Nuove funzionalità in Microsoft Purview per proteggere i dati e prevenire rischi legati all'AI. * Evoluzione di Co-Pilot. Co-Pilot diventa centrale per produttività e creatività con azioni automatizzate e agenti personalizzabili. * Nuovi Agenti AI. Agenti specifici per moderare riunioni, gestire progetti e fornire accesso alle informazioni in tempo reale. Un esempio è "Interpreter": un agente AI connesso a Teams in grado di tradurre in tempo reale la conversazione in qualunque lingua riproducendo la voce delle persone. > Fino a qualche anno fa lo immaginavamo.. adesso è realtà * Co-Pilot Analytics. Strumenti per misurare l’impatto aziendale dell’uso di Co-Pilot. * Windows 365. Nuove soluzioni per il lavoro sicuro nel cloud e aggiornamenti senza interruzioni. * Innovazioni Hardware. Lancio di chip e DPUs per migliorare sicurezza, prestazioni e sostenibilità. * Microsoft Fabric. Unificazione di analisi e gestione operativa con database SQL Server su Fabric. * Azure AI Foundry. Piattaforma centralizzata per sviluppatori con modelli AI e strumenti avanzati. * Computing Quantistico. Progresso con 24 qubit logici entangled per affrontare sfide scientifiche complesse. Ignite 2024: le novità di Microsoft -------------------------------------------------------------------------------- I NUOVI STRUMENTI DI MISTRAL Mistral ha rilasciato una nuova versione della sua Chat, introducendo nuovi strumenti: le ricerca online, Canvas, Advanced OCR (vision) e Image Generator. L'ho provato! * La ricerca online non è perfezionata: è lenta e ho ottenuto informazioni sbagliate. Non è specificato il motore, ma spesso i risultati derivano da una SERP in inglese. Anche se si forza la Search, non sempre esegue la ricerca. * La generazione delle immagini è basata su Flux Pro, e questa è un'ottima notizia. Tuttavia, ci sono problemi di incapsulamento dei prompt con la lingua: meglio usare l'inglese. * Canvas è interessante, ma ha problemi nel prompt multimodale: in un prompt ho istruito il modello per generare un post a partire da un PDF, ma ha dato errore. Al netto di questo, siamo lontani dalle funzionalità di Canvas su ChatGPT. > L'ottimo inizio di un nuovo sviluppo. -------------------------------------------------------------------------------- OPERATOR DI OPENAI OpenAI, secondo Bloomberg, starebbe lavorando sul progetto "Operator", un agente autonomo in grado di controllare anche i dispositivi svolgendo compiti in modo indipendente. Questo segue un trend già avviato da Anthropic e da Google, ma ancor prima da progetti open source come Open Interpreter. > Gli agenti autonomi sono probabilmente il prossimo passo evolutivo per l'AI, > che si avvia a diventare uno strato non solo tra gli utenti e le piattaforme > digitali, ma anche nei confronti dell'hardware. -------------------------------------------------------------------------------- USARE I MODELLI DI LINGUAGGIO SU SCREAMING FROG Screaming Frog introduce le API per l'interfacciamento con i modelli di OpenAI, Google e con Ollama. Lavora sull'HTML salvato in fase di scansione, mentre nella versione precedente si usavano snippet JavaScript personalizzati eseguiti durante il rendering delle pagine. È possibile generare embeddings e contenuti con prompt personalizzati su contesti selezionabili (attraverso estrattori predefiniti e custom). L'integrazione dei LLM su Screaming Frog COSA MANCA? La possibilità di comporre il contesto che mettiamo a disposizione del modello in base all'utilizzo di più elementi delle pagine estraibili con XPath. Questo è realizzabile con la versione JS! > Ho scritto al team di Screaming Frog, e hanno già messo la funzionalità nella > roadmap di sviluppo. Ottimo! -------------------------------------------------------------------------------- GEMINI NEL WORKSPACE DI GOOGLE Google inizia ad integrare Gemini nei software del Workspace. Negli esempi si vedono alcune interazioni su Gmail e su Drive. Esempi dell'integrazione di Gemini nel Workspace di Google > Tutto molto interessante, anche se le performance non sono ancora ottimali > (almeno per l'italiano). -------------------------------------------------------------------------------- LA SENSIBILITÀ DEI LLM NEI CONFRONTI DEI PROMPT I LLM più grandi sono meno sensibili alle variazioni dei prompt. Ne parla questo paper molto interessante. Ma basta fare dei test con o1 di OpenAI per rendersene conto. La sensibilità dei LLM nei confronti dei prompt Questo è ottimo perché il margine d'errore si riduce anche se le interazioni diventano più scarse, ma si riducono anche le potenzialità. Vai al paper -------------------------------------------------------------------------------- USARE GEMINI CON LA LIBRERIA PYTHON DI OPENAI Gemini può essere usato attraverso la libreria Python di OpenAI. Com'è possibile? Semplice: hanno sviluppato un proxy che traduce la sintassi delle chiamate API di OpenAI nel formato richiesto dalle API di Gemini. Usare Gemini con la libreria Python di OpenAI Mossa intelligente, perché gli sviluppatori possono switchare da un modello all'altro cambiando 2 parametri. Ma così il confronto diventa semplice. Vai alla documentazione > È la dimostrazione che il formato di OpenAI sta diventando uno standard. -------------------------------------------------------------------------------- - GRAZIE - Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre persone, condividilo 🙂 ISCRIVITI ALLA NEWSLETTER Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su tematiche relative all'intelligenza artificiale. Iscriviti alla Newsletter Email sent! Check your inbox to complete your signup. Gratuita. No Spam. Puoi disiscriverti quando vuoi.Consulta la privacy policy.

December 4, 2024 / Alessio Pomaro

Generative AI: novità e riflessioni - #10 / 2024

> Buon aggiornamento, e buone riflessioni.. -------------------------------------------------------------------------------- [CORSO] AI PER AGENZIE E TEAM DIGITAL Una giornata di formazione e un'opportunità unica per approfondire l'intersezione tra l'AI e il mondo del marketing, dal Prompt Engineering alle declinazioni dell'AI nella SEO, e i casi pratici nell'advertising e nel mondo copy. > Dalle basi alle applicazioni pratiche Scopri il programma completo e l’offerta sul biglietto. Vai al corso -------------------------------------------------------------------------------- [CORSO GRATUITO] GENERATIVE AI FOR BEGINNERS Microsoft rilascia la terza versione del corso "Generative AI for beginners". 21 lezioni gratuite dedicate allo sviluppo di applicazioni basate sui LLM. Le lezioni sono etichettate: "Learn" per i concetti, mentre "Build" per esempi di codice (Python e TypeScript). Generative AI for beginners Il corso fornisce istruzioni anche su come configurare un ambiente di sviluppo. > Un'ottima risorsa, fin dalla prima versione. Vai al corso -------------------------------------------------------------------------------- CANVAS DI OPENAI Ho provato il nuovissimo "Canvas" di OpenAI: un'interfaccia di ChatGPT che consente di lavorare su testi e codice con funzionalità di editing e "trasformazione". Nei testi, è possibile affinare il contenuto (grammatica, chiarezza, coerenza), cambiare il livello di lettura, aggiustare la lunghezza, ottenere suggerimenti di miglioramento e aggiungere emoji pertinenti. Test di Canvas di OpenAI Nel codice, possiamo revisionare, aggiungere i commenti, i log, fixare i bug, eseguire il porting ad un altro linguaggio. > In entrambe le modalità, possiamo selezionare un blocco e applicate un prompt > specifico alla selezione. NON UNA SEMPLICE INTERFACCIA.. MA UN EDITOR! > Non si tratta solo di un'interfaccia con nuove funzionalità, ma anche un > EDITOR a tutti gli effetti. Questo significa che è possibile lavorare sui contenuti direttamente dalla piattaforma, collaborando con un assistente. Canvas di OpenAI non è solo una nuova interfaccia Nel video, un piccolo esempio in cui genero una bozza, faccio modifiche insensate dall'editor, e infine applico la rifinitura. Come si vede il sistema corregge tutti i miei errori e i contenuti fuori contesto. > Uno strumento straordinario, per l'utilizzo di questi sistemi come "assistente > personale". -------------------------------------------------------------------------------- UN GPT CHE SI COMPORTA COME "O1" DI OPENAI, CON RISULTATI SIMILI Ho fatto eseguire diversi task della presentazione di o1 di OpenAI al mio GPT addestrato per comportarsi allo stesso modo (eseguendo catene di pensiero - CoT). I prompt sono identici, e i risultati sono ottimi. Nel video si vedono alcuni esempi che nella presentazione sono stati definiti "Reasoning", "Logic Puzzles", "HTML Snake", e "coding". Un GPT che si comporta come "o1" di OpenAI, con risultati simili Ho fatto questo test per dimostrare come questa modalità può essere utile per migliorare le performance anche di altri LLM, quando per le risposte servono passaggi logici. > Attenzione: "o1" non è solo questo. Ha un addestramento specifico per > sviluppare CoT, e quella che vediamo negli step di ragionamento, non è l'unica > CoT che genera (la documentazione lo spiega chiaramente). Ma è uno spunto > interessante per migliorare i prompt. -------------------------------------------------------------------------------- L'ANALISI DEI DATI CON O1 Anche se o1 di OpenAI non ha accesso a file esterni, possiamo usare un altro modello per analizzarli, per poi usare l'elaborazione di o1. Nell'esempio, uso GPT-4o per descrivere il dataset, fornendo anche suggerimenti per la pulizia dei dati. Questo diventa il contesto per il prompt su o1, attraverso il quale ho generato il codice Python per creare un piccolo modello predittivo sul dataset. Dopo alcune interazioni e revisioni, il sistema fa predizioni con un errore medio inferiore al 15%. Un test di analisi dei dati usano o1 si OpenAI > Il potenziale di o1 è davvero notevole. Durante tutte le interazioni, non ho > mai ottenuto un solo errore nella console Python. -------------------------------------------------------------------------------- [TEST] I BIAS DEI MODELLI DI LINGUAGGIO Ho fatto un piccolo test usando gli embeddings di OpenAI per verificare la presenza di bias evidenti. Ho usato text-embedding-3-large (la rappresentazione più ampia), termini in inglese, e similarità del coseno per il confronto. Un test sui bias dei LLM * C'è sbilanciamento di genere, ma moderato. Solo per il termine "nurse" è significativo. * C'è sbilanciamento quasi unidirezionale di razza, ma generalmente moderato. > È un test molto limitato, ma credo sia interessante esplorare questi aspetti > della rappresentazione dei modelli. Fa capire, inoltre, la meraviglia di > questi strumenti in grado di "comprendere" anche sfumature complesse del > linguaggio. -------------------------------------------------------------------------------- [TEST] IL "CODE INTERPRETER" DI ANTHROPIC Anche Anthropic introduce su Claude una sorta di code interpreter in grado di sviluppare ed ESEGUIRE codice JavaScript per dare risposte agli utenti. Può fare calcoli complessi e analizzare dati, e usa Artifacts per la visualizzazione. Nelle immagini si può vedere in un piccolo test che ho fatto. Il "code interpreter" di Anthropic > Chissà perché hanno scelto JavaScript come linguaggio.. forse perché è più > orientato a generare un'interfaccia interattiva, ma preferisco la scelta di > OpenAI di usare Python per l'analisi e lo sviluppo, per poi agganciare > l'interattività al front end. -------------------------------------------------------------------------------- FLUX 1.1 [PRO] "BLUEBERRY" Black Forest Labs a rilascia Flux 1.1 [pro] "blueberry", e la beta delle API. Una release che, secondo Black Forest Labs, segna in passo in avanti significativo nell'ambito della generazione delle immagini. L'ho provato, e la qualità è oggettivamente sempre migliore. Immagini generate con Flux 1.1 Pro > 6 volte più veloce, più aderente al prompt e con qualità di immagine > superiore. È già primo nell'Artificial Intelligence Image Arena. COME PROVARE FLUX 1.1 PRO PER LA GENERAZIONE DI IMMAGINI * Attraverso le API di Black Forest Labs: https://docs.bfl.ml/ * Su FAL: https://fal.ai/models/fal-ai/flux-pro/v1.1. * Su Replicate: https://replicate.com/black-forest-labs/flux-1.1-pro * Su Freepik: https://www.freepik.com/pikaso/ai-image-generator * Su Together: https://api.together.ai/playground/image/black-forest-labs/FLUX.1.1-pro COME ADDESTRARE FLUX CON IMMAGINI DI PRODOTTI E/O SOGGETTI * Su Flux Labs: https://www.fluxlabs.ai/ * Su Flux AI: https://www.useflux.ai/ * Su Replicate: https://replicate.com/lucataco/ai-toolkit/train > L'evoluzione di questi sistemi è davvero interessante, e merita una > sperimentazione. -------------------------------------------------------------------------------- [TEST] FLUX 1.1 PRO + HAILUO AI DI MINIMAX Ho fatto qualche test con Hailuo AI, un nuovo prodotto della startup cinese MiniMax. Ho generato i video partendo da immagini create con Flux 1.1 Pro, e aggiungendo prompt testuali per descrivere l'azione. HailuoAI + #Flux 1.1 Pro + prompt testuale per la generazione video > La qualità è notevole, ma lo è soprattutto l'aderenza dei video alla > descrizione testuale. Le azioni dei soggetti sono esattamente quelle che ho > descritto negli input. Vai al servizio -------------------------------------------------------------------------------- AI FESTIVAL - 26 E 27 FEBBRAIO 2025 > "Non esiste innovazione senza integrazione. Serve un lavoro sartoriale, di > integrazione nei processi. Ed è proprio chi è a conoscenza dei processi > aziendali, potenziato da questa tecnologie, che può cogliere i punti > strategici dove l'AI può fare la differenza". Il 26 e 27 febbraio vi aspetto a Milano per l'AI Festival, dove parleremo di questo, ed esploreremo insieme il futuro dell'intelligenza artificiale, scoprendo tutte le novità e tendenze più recenti. Scopri l'evento -------------------------------------------------------------------------------- ACT-ONE DI RUNWAY > La nuova funzionalità di Runway è impressionante. Si tratta di Act-One, e consente di creare video con personaggi espressivi attraverso Gen-3 Alpha utilizzando un singolo video come guida e un'immagine del personaggio. È possibile, ad esempio, creare una scena come questa senza attrezzature sofisticate (nella parte finale del video si può comprendere la tecnica). Act-One di Runway: un esempio di utilizzo > Le potenzialità sono elevate, come la necessità di gestire gli eventuali > "utilizzi negativi". -------------------------------------------------------------------------------- [TEST] L'EVOLUZIONE DI IMAGEN 3 DI GOOGLE Dopo qualche test su Imagen 3 su Gemini Advanced, devo dire che la qualità è cambiata di molto. Il livello medio dei modelli di generazione di immagini si sta alzando, ma soprattutto sta crescendo l'aderenza al prompt. L'evoluzione di Imagen 3 di Google > Le immagini sono state generate con istruzioni semplicissime e in italiano. > Non permette ancora output in cui sono presenti persone. -------------------------------------------------------------------------------- [TEST] IMAGEN 3 + HAILUO AI DI MINIMAX + ELEVENLABS SOUND EFFECTS Test di generazione immagini + video + audio. Ho generato le immagini attraverso Imagen 3 di Google (Text-To-Image), i video con MiniMax (Image-To-Video), l'audio con ElevenLabs Sound Effects (Text-To-Audio). Imagen 3 + Hailuo AI di MiniMax + ElevenLabs Sound Effects > Ancora una volta, non è tanto la qualità a stupirmi, ma l'aderenza degli > output ai prompt. Spesso la domanda è: quanto tempo serve per generare gli output? Pochi minuti. Ma la vera domanda è: come avrei potuto crearli senza questi mezzi!? -------------------------------------------------------------------------------- AI ASSISTANT SU CHROME DEVTOOLS AI Assistant è una nuova funzionalità sperimentale di Chrome DevTools davvero notevole. Permette di usare Gemini per applicare prompt alla pagina web o a elementi specifici, per spiegazioni o suggerimenti di implementazione, con la possibilità di applicarli direttamente. AI Assistant su Chrome DevTools Nelle immagini lo uso per fare alcune azioni che modificano la pagina, con generazione di JS e CSS. Creo il bottone per la "dark mode". Vai alla documentazione -------------------------------------------------------------------------------- ADVANCED VOICE MODE DI CHATGPT Prime impressioni sull'Advanced Voice Mode di ChatGPT.. * Anche se sono stati fatti grandi passi, in italiano, non siamo ancora a livelli di fluidità della versione USA. * Il comportamento dell'agente non è il massimo: per una "chiacchierata", un mio GPT addestrato per questo scopo, dà un'esperienza migliore. Infatti, quando questa modalità sarà attiva anche per GPT custom, tutto diventerà molto più interessante. Ricordate le applicazioni vocali di Alexa e Google Assistant? * Non accede al web per reperire informazioni. * L'interruzione del parlato dell'assistente, non funziona benissimo, ma credo sia una questione di hardware. Advanced Voice Mode di ChatGPT > Insieme a Gemini Live, siamo di fronte a un nuovo capitolo dell'interazione > vocale. Un salto importante rispetto al precedente, ma il percorso verso la > naturalezza non è concluso. -------------------------------------------------------------------------------- ATLAS DI BOSTON DYNAMICS Boston Dynamics ha pubblicato un video impressionante sull'evoluzione di Atlas, il suo robot umanoide. E specifica che le azioni NON sono pre-programmate o teleguidate: il robot esegue le azioni di spostamento dei componenti autonomamente, eseguendo un compito. L'evoluzione di Atlas Boston Dynamics Il tutto, due settimane dopo l'accordo epocale dell'azienda (di proprietà di Hyundai) con Toyota Research Institute. > Questa partnership è un esempio di due aziende con una solida base di ricerca > e sviluppo che si uniscono per lavorare su molte sfide complesse, e costruire > robot utili che risolvono problemi del mondo reale. -------------------------------------------------------------------------------- SPARK DI GITHUB COPILOT Non solo GitHub Copilot integrerà tutti i LLM più potenti, che gli sviluppatori potranno scegliere anche in base alle attività (Claude 3.5 Sonnet di Anthropic, Gemini 1.5 Pro di Google, GPT-4o e o1 di OpenAI), ma è stato presentato anche Spark: uno strumento per creare applicazioni interamente in linguaggio naturale. Spark di GitHub Copilot Gli "spark" sono micro app completamente funzionali che possono integrare funzionalità AI e fonti di dati esterne. Vai al post -------------------------------------------------------------------------------- SYNTHID-TEXT DI GOOGLE DEEPMIND SynthID-Text di Google DeepMind è un nuovo metodo per aggiungere una filigrana ai testi generati da LLM, senza degradare la qualità dell'output. Il sistema, che ha come obiettivo quello di riconoscere i testi generati, è stato reso open-source per proporre uno standard di integrazione. La filigrana, successivamente può essere rilevata da un algoritmo. Qual è il problema!? Una rielaborazione o una traduzione invalideranno la filigrana. > Il percorso per sistemi di questo tipo è necessario, ma rimane lungo e > difficile, con soluzioni ancora fragilissime. Vai al paper -------------------------------------------------------------------------------- MICROSOFT INTRODUCE GLI AGENTI AUTONOMI IN COPILOT STUDIO Grazie a questa funzionalità, i developer possono creare assistenti in grado di usare dati di diverse fonti (es. Microsoft 365 Graph, Dataverse e Fabric), e di automatizzare i processi aziendali. Gli agenti autonomi in Copilot Studio Gli agenti operano autonomamente su attività ripetitive o complesse, consentendo di ridurre i tempi di esecuzione e i costi, migliorando al contempo l'efficienza complessiva. Vai al post -------------------------------------------------------------------------------- COMPUTER USE DI ANTHROPIC Anthropic introduce la funzionalità "Computer Use" con i nuovi modelli 3.5. La nuova capability è sperimentale e consentirà a Claude di interagire con un dispositivo via API (muovere il cursore, cliccare, digitare, ecc.). Sarà disponibile nei prossimi mesi. Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku A refreshed, more powerful Claude 3.5 Sonnet, Claude 3.5 Haiku, and a new experimental AI capability: computer use. I nuovi modelli Sonnet e Haiku 3.5 hanno performance migliori, raggiungendo la versione Opus in alcune funzioni. > Sono molto curioso delle applicazioni che nasceranno dalla possibilità di > interfacciarsi con i device. -------------------------------------------------------------------------------- LE VERSIONI QUANTIZZATE PER LLAMA 3.2 Meta ha lanciato versioni quantizzate di Llama 3.2 1B e 2B, progettate per funzionare direttamente sui dispositivi mobile. Consentono l'implementazione diretta su smartphone e tablet con performance comparabili alle versioni più grandi. Alcuni dati di performance: velocità maggiore di 2-4 volte, riduzione delle dimensioni del 56%, riduzione del 51% dell'uso di memoria. Introducing quantized Llama models with increased speed and a reduced memory footprint As our first quantized models in this Llama category, these instruction-tuned models retain the quality and safety of the original 1B and 3B models, while achieving 2-4x speedup. > I modelli piccoli diventano sempre più interessanti per gli sviluppi in locale > sui device, con una competizione al pari dei modelli più grandi. -------------------------------------------------------------------------------- MULTIMODAL EMBED 3 DI COHERE Cohere lancia una novità davvero interessante: un nuovo modello di AI che crea uno spazio di incorporamento unificato per testo e immagini. Si chiama Multimodal Embed 3, e consente il confronto diretto tra testo e contenuto visivo senza pipeline di elaborazione separate. Immaginiamo, ad esempio, le potenzialità nella ricerca in ambito e-commerce combinando query visive e testuali, oppure nel recupero delle informazioni da una knowledge. Introducing Multimodal Embed 3: Powering AI Search Cohere releases a state-of-the-art multimodal AI search model unlocking real business value for image data. Cohere > Più si evolve questa capacità di rappresentazione attraverso gli embeddings, e > più la ritengo una piccola opera d'arte tecnologica. -------------------------------------------------------------------------------- FIREFLY VIDEO: L'INTEGRAZIONE SU PREMIERE PRO Adobe, durante la conferenza MAX ha presentato Firefly Video, e l'integrazione su Premiere Pro. La funzionalità "Generative Extend", infatti, permette di creare prolungamenti delle clip senza la necessità di di ulteriori riprese. Oltre a questo, hanno anche presentato l'interfaccia web per azioni di Text-To-Video e Image-To-Video. Firefly Video: l'integrazione su Premiere Pro > La qualità, ormai, non stupisce più.. ma l'integrazione nei software più usati > dai creator è una carta vincente. -------------------------------------------------------------------------------- L'AI GENERATIVA A SUPPORTO DELL'E-COMMERCE L'AI può essere uno strumento utile a mettere in atto strategie con un effort ridotto. In questo caso, ha permesso operazioni che sarebbero state insostenibili per il progetto. I diagrammi, infatti, mostrano i risultati di azioni di ottimizzazione su un e-commerce, basate sui dati, e messe in atto attraverso un LLM. > Un ingranaggio nei flussi operativi in grado di avvicinare la strategia agli > obiettivi. -------------------------------------------------------------------------------- LA TRAPPOLA DELLE ALLUCINAZIONI DEI LLM > In realtà, cadere nella trappola delle "allucinazioni" che i LLM possono > produrre è più facile di quanto si pensi. Un esempio di allucinazione prodotta da un LLM Nella prima parte del video, uso Llama 3.1 senza accesso al web. Quindi come genera l'output? Usa il contenuto che ha a disposizione per completare il task: il nome del prodotto, le parole che compongono lo slug dell'URL, e ciò che deriva dal training del modello. > È convincente? Insospettabile, direi.. ma fuori controllo! Si tratta di > un'allucinazione. Nella seconda parte, uso uno scraper che va ad estrarre il testo dall'URL, quindi l'output aderisce alle informazioni nella pagina. > Takeaway: i LLM producono "allucinazioni" quando non hanno contesto > sufficiente per poter completare il task. È necessario un "contesto > controllato". Serve questa consapevolezza per usarli con maggior sicurezza, e servono strumenti come Opik, o sistemi multi-agent, per effettuare test e controlli approfonditi degli output prima di andare in produzione. -------------------------------------------------------------------------------- LA SUPERVISIONE UMANA E IL PENSIERO CRITICO Un paper molto interessante di Harvard Business School che sottolinea l'importanza di sviluppare competenze di interazione dell'AI nei processi di valutazione creativi che combinano il giudizio umano con le intuizioni dell'Intelligenza Artificiale. Mentre l'AI può standardizzare il processo decisionale per criteri oggettivi, la supervisione umana e il PENSIERO CRITICO rimangono indispensabili nelle valutazioni soggettive, dove l'AI dovrebbe integrare, non sostituire, il giudizio umano. Vai al paper -------------------------------------------------------------------------------- MINISTRAL 3B E 8B > La competizione sui LLM "piccoli" inizia a diventare interessante quanto > quella sui modelli "grandi". Mistral rilascia due nuovi modelli destinati all'elaborazione on-device e a casi d'uso at-the-edge: Ministral 3B e 8B. Offrono prestazioni avanzate in ambiti come la comprensione del contesto, il "ragionamento" e l'efficienza, con contesti fino a 128k token. Sono pensati per applicazioni come traduzione on-device, assistenti intelligenti offline e robotica autonoma. Ministral 3B e 8B: performance Le performance sono migliori rispetto ai concorrenti, con un'attenzione particolare alla privacy e alla latenza ridotta. Vai al post -------------------------------------------------------------------------------- STATE OF AI 2024: UNA SINTESI Una sintesi dei punti chiave del report "State of AI" 2024. State of AI 2024: una sintesi * Convergenza delle prestazioni dei modelli. I modelli open-source, come Llama 3.1 405B, hanno ormai raggiunto le prestazioni dei modelli proprietari. Llama 3.2 espande le capacità in modalità multimodale, dimostrando la crescente competitività dei modelli open-source. * Avanzamenti dell'AI cinese. Nonostante le sanzioni statunitensi, i modelli AI cinesi continuano a scalare le classifiche, sfruttando hardware stoccato, accesso cloud e soluzioni alternative. Ciò evidenzia la resilienza del settore AI cinese. * Miglioramenti in efficienza. Tecniche di pruning e distillazione hanno migliorato significativamente l'efficienza dei modelli di testo e immagini, mostrando che alte prestazioni possono essere raggiunte con modelli più piccoli e meno dispendiosi. * Espansione delle applicazioni AI. I modelli di linguaggio (LLMs) stanno dimostrando capacità in campi scientifici come la progettazione di proteine e l'editing genetico, aprendo nuovi orizzonti per l'AI in biologia e genomica. * Sfide per hardware e infrastrutture. Nvidia continua a dominare l'hardware AI, ma l'incremento della domanda energetica per le infrastrutture AI sta creando pressioni sulle risorse e minacciando gli impegni di sostenibilità delle aziende tecnologiche. Vai al report -------------------------------------------------------------------------------- MOVIE GEN DI META Meta presenta Movie Gen, un nuovo modello per la generazione di video e audio di alta qualità da prompt multimodale. Le funzionalità principali: * generazione video da una descrizione testuale; * video personalizzati; * editing video; * generazione di audio (musica ed effetti sonori). Movie Gen di Meta È stato addestrato su dataset pubblici e con licenza, e punta a diventare un riferimento per registi e i content creator. Vai al post -------------------------------------------------------------------------------- I NUOVI TOOL DI HUGGINGCHAT HuggingChat, oltre alla possibilità di usare i migliori LLM open source, mette a disposizione una serie di tool molto interessanti (es. scraping, analisi dei file, generazione di immagini). Nell'esempio, uso il sistema con Llama 3.1, e aggiungo Flux Realism Lora per la generazione di immagini. I nuovi tool di HuggingChat > Il parco strumenti è molto ampio, e possono essere attivati più tool > contemporaneamente. Prova il servizio -------------------------------------------------------------------------------- LEO AI DI BRAVE Brave sta introducendo il suo assistente basato su AI generativa: Leo AI, che può interagire direttamente con le pagine web che si navigano dal browser. > Un aspetto interessante, è che il sistema può lavorare con un LLM locale, > sfruttando Ollama. Questo, ad esempio, consente di far elaborare anche dati personali al modello, senza che questi lascino il dispositivo. Leo AI di Brave Sfruttando un hardware Nvidia RTX è possibile ottenere altissime performance anche in locale. Con Llama 3 8B, ad esempio, si può ottenere la velocità di 149 token/secondo. > L'utilizzo dei LLM in locale è sempre più "possibile". Vai al post -------------------------------------------------------------------------------- LLAMA STACK DI META Meta rilascia un componente davvero interessante: Llama Stack. > Si tratta di un framework open source per semplificare e standardizzare lo > sviluppo e il rilascio di applicazioni basate sui LLM. Facilita l'integrazione di azioni come inferenza, gestione della memoria, moderazione / sicurezza. GitHub - meta-llama/llama-stack: Model components of the Llama Stack APIs Model components of the Llama Stack APIs. Contribute to meta-llama/llama-stack development by creating an account on GitHub. GitHubmeta-llama Ad esempio, usando le API di inferenza, memoria e sicurezza si possono creare assistenti che rispondono in modo contestuale e sicuro. > Standard e linee guida è quello che serve per facilitare l'integrazione di > questi sistemi in modo più sicuro ed efficiente. -------------------------------------------------------------------------------- SEMANTIC CACHE DI REDIS Semantic Cache di Redis è un esempio di componente che permette di ottimizzare le applicazioni RAG (Retrieval Augmented Generation). Semantic Cache di Redis È un sistema che salva, vettorializza e indicizza le richieste degli utenti e le risposte. In questo modo, se vengono poste domande simili dal punto di vista semantico, non ci sarà bisogno di usare nuovamente il LLM. > Risultato: abbattimento dei tempi di risposta e dei costi. Vai alla documentazione -------------------------------------------------------------------------------- SCIAGENTS: L'AI AL SERVIZIO DELLA SCOPERTA SCIENTIFICA SciAgents è un sistema di Intelligenza Artificiale che automatizza la scoperta scientifica combinando grafi ontologici della conoscenza, modelli di linguaggio (LLM) e sistemi multi-agent. Ogni agente ha un ruolo specifico, come creare ipotesi, espanderle o criticarle. Gli agenti lavorano insieme per esplorare dati scientifici, identificare nuove connessioni e generare proposte di ricerca innovative. Il sistema ha rivelato relazioni interdisciplinari nascoste e prodotto scoperte significative, superando i metodi di ricerca tradizionali per precisione e scala, accelerando così la scoperta scientifica. Vai al paper -------------------------------------------------------------------------------- DEVDAY DI OPENAI Cosa è stato condiviso durante il DevDay di OpenAI di San Francisco? Una sintesi del DevDay di OpenAI Vediamo una sintesi per punti. * Realtime API: consente esperienze di voice-to-voice a bassa latenza, simili a ChatGPT Advanced Voice, con 6 voci preimpostate. Beta disponibile per tutti gli sviluppatori. * Prompt Caching: disponibile per tutti, riduce i costi del 50% e la latenza riutilizzando i token di input recenti. * Model Distillation: nuovo workflow per addestrare modelli più piccoli ed efficienti basati su modelli più grandi. Include Stored Completions ed Evals (beta). * Vision Fine-Tuning: possibilità di fine-tuning di GPT-4o con testo e immagini, migliorando la ricerca visiva e l'analisi delle immagini. * Aggiornamento di GPT-4o: nuovo modello gpt-4o-2024-08-06 con costi di input ridotti del 50% e output ridotti del 33%. * Disponibilità OpenAI o1: accesso API esteso ai modelli di ragionamento o1-preview e o1-mini per gli utenti di livello 3. Limiti di velocità aumentati per livelli 4 e 5. * Generazione nel Playground: nuovo pulsante "Generate" per creare automaticamente prompt, definizioni di funzioni e schemi strutturati. Vai al post > Il toolkit per l'implementazione di applicazioni basate sui LLM di OpenAI si > amplia notevolmente! -------------------------------------------------------------------------------- ASSISTANT EDITOR DI LANGCHAIN LangChain ha annunciato "Assistant Editor", una nuova potente funzionalità di LangGraph Studio che rende più facile la configurare e la personalizzazione degli agenti basati su modelli di linguaggio. Assistant Editor di LangChain Questo strumento di editing visivo consente sia agli sviluppatori che agli utenti non tecnici di mettere a punto il comportamento degli agenti senza usare codice. Vai al post -------------------------------------------------------------------------------- PIKA 1.5 Pika presenta la versione 1.5, con clip più lunghe, nuovi effetti, riprese cinematografiche e movimenti più realistici. Il video è l'unione di clip di alcuni creator che stanno testando il nuovo modello. Pika 1.5 > La generazione di video fa costanti passi in avanti, e le clip diventano > sempre più usabili in ambito professionale. Vai al servizio -------------------------------------------------------------------------------- EDGE RUNNER DI NVIDIA EdgeRunner è una nuova tecnologia di Nvidia in grado di generare mesh 3D di alta qualità con fino a 4.000 facce e una risoluzione spaziale di 512, partendo da immagini e point-clouds. Utilizza un innovativo algoritmo di tokenizzazione per comprimere le mesh in sequenze di token 1D, migliorando l'efficienza e la qualità della generazione. Edge Runner di Nvidia Il sistema può creare varianti diverse da un singolo input, garantendo una grande varietà di risultati. > Immaginiamo questi sistemi al servizio di videogiochi e realtà virtuale (VR), > effetti speciali e animazione nella produzione cinematografica e televisiva, > architettura e design, additive manufacturing e stampa 3D, medicina e > biotecnologie. Vai al post -------------------------------------------------------------------------------- LIQUID FOUNDATION MODELS Liquid AI introduce una nuova architettura per LLM che "sfida" i Transformer, superando le performance di Llama 3.2 (a parità di dimensioni), con ingombro di memoria ridotto e maggior efficienza nell'inferenza. Ho provato la versione più grande (40.3B Mixture of Experts - MoE) sul mio benchmark di test. Un test del LLM di Liquid AI > Considerando le dimensioni, il sistema promette benissimo, e ha una velocità > degna di nota. Prova il modello -------------------------------------------------------------------------------- OPEN NOTEBOOKLM > Continuano a nascere progetti che trasformano documenti e pagine web in > podcast. Open NotebookLM è un sistema basato su modelli AI open source: Llama 3.1 405B, MeloTTS, e Bark. Dall'interfaccia di Hugging Face, è possibile caricare file e specificare URL per creare il contesto al modello. Un test di Open NotebookLM Il podcast viene generato dal LLM e ottiene la voce dal TTS. La qualità non è enorme, ma è un esempio di applicazione semplice per questo scopo. Prova il sistema -------------------------------------------------------------------------------- - GRAZIE - Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre persone, condividilo 🙂 ISCRIVITI ALLA NEWSLETTER Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su tematiche relative all'intelligenza artificiale. Iscriviti alla Newsletter Email sent! Check your inbox to complete your signup. Gratuita. No Spam. Puoi disiscriverti quando vuoi.Consulta la privacy policy.

November 6, 2024 / Alessio Pomaro

Generative AI: novità e riflessioni - #8 / 2024

> Buon aggiornamento, e buone riflessioni.. -------------------------------------------------------------------------------- [CORSO GRATUITO] GENERATIVE AI FOR BEGINNERS Microsoft ha pubblicato una nuova versione del suo corso "Generative AI For beginners" su YouTube (4 ore e 20 minuti di seminari). Dalle basi al prompt engineering. Dalle applicazioni chat, fino al fine-tuning, alla vettorializzazione (embeddings) e ai sistemi RAG (Retrieval Augmented Generation). Generative AI For beginners - Microsoft > Uno dei contributi più interessanti disponibili online gratuitamente. Vai al corso -------------------------------------------------------------------------------- [RISORSA GRATUITA] TRASCRIZIONE VIDEO MULTILINGUA Grazie a questo Colab è possibile usare Whisper per trascrivere qualunque video (presente su YouTube o caricato su Drive), in qualunque lingua. È semplicissimo da usare: non serve modificare il codice perché è tutto configurabile attraverso un'interfaccia su Colab. Nell'immagine si può vedere un esempio di trascrizione con il timestamp. Esempio di trascrizione di un video su Drive > Con sistemi come questo, creare delle automazioni diventa molto più semplice. Vai al Colab -------------------------------------------------------------------------------- UNO SPOT PUBBLICITARIO COMPLETAMENTE GENERATO CON MODELLI DI AI Un esperimento di generazione di uno spot pubblicitario usando Flux per la generazione delle immagini (segue un approfondimento), Runway Gen-3 per animarle, Udio per la componente sonora e ElevenLabs per la voce narrante. Uno spot pubblicitario generato con Flux + Runway + Udio + ElevenLabs L'editing video è stato eseguito con CapCut. Il tutto in 2 ore circa. Alcune delle immagini generate con Flux Il post dell'autore > È solo un esempio, ma abbastanza significativo. Se non per creare uno spot > completo, per capire le potenzialità di questi supporti in fase di produzione. > E miglioreranno. -------------------------------------------------------------------------------- FLUX: TEST E COME USARLO Alcuni test di Flux, una nuova famiglia di modelli Text-To-Image sviluppata dagli stessi creatori di Stable Diffusion. I modelli sembrano rappresentare un notevole passo in avanti nella generazione delle immagini, per qualità e aderenza al prompt. Sono state rilasciate 3 versioni: pro (alte performance), dev (modello open per applicazioni non commerciali) e schnell (il più veloce, pensato per applicazioni in locale). Test di Flux Le performance sono altissime, come si vede dalle immagini. Vai al post I modelli sono stati, inoltre, ottimizzati in alcune varianti, ad esempio Flux Realism LoRA. Le immagini che seguono rappresentano alcuni test: sono state generate attraverso un prompt testuale, e up-scalate con Magnific AI. Flux Realism LoRA + Magnific AI > Per quanto ormai sia dato per scontato, trovo sempre il processo tecnicamente > sorprendente! COME PROVARE FLUX 5 modi per provare Flux in modo semplice: su Replicate(via browser), su FAL(via browser), su Krea.ai(via browser), su Freepik(via browser), su Colab(duplicando il notebook e modificando il prompt). Su FAL, è possibile provare anche Flux Realism LoRA e addestrare il modello su specifiche immagini, in modo da ottenere risultati specifici (Train Flux LoRA). -------------------------------------------------------------------------------- MIDJOURNEY + RUNWAY GEN-3 Immagini generate attraverso Midjourney, animate attraverso Runway Gen-3, per una dimostrazione della cura dei dettagli del modello. Midjourney + Runway Gen-3 > Direi che il livello è sempre più alto, anche in modalità Image-To-Video. MIDJOURNEY 6.1 + NUOVO EDITOR Midjourney, nel frattempo ha rilasciato la versione 6.1 del suo modello generativo. * Migliora la qualità dell'immagine, la coerenza e il testo. * Include nuovi sistemi di upscaling e personalizzazione. * È più veloce del 25% nella generazione di immagini standard. Vai al post È stata rilasciata, inoltre, la nuova interfaccia web per la generazione e la modifica delle immagini, aperta a tutti gli utenti. La nuova interfaccia web di Midjourney > Ci avviciniamo a un'interazione semplice anche con il modello che > probabilmente è ancora il più potente. Quello che segue è un esempio di video generato che sfrutta la qualità delle immagini di Midjourney v. 6.1, che vengono animate da Runway Gen-3. La componente audio deriva da Udio v 1.5. Video generato usando Midjourney 6.1, Runway Gen-3 e Udio > Come sempre, si può discutere sui dettagli, ma credo che sia sempre più chiaro > il livello che si sta raggiungendo. Il post dell'autore -------------------------------------------------------------------------------- GLI AGENTI AUTONOMI DI MISTRAL Mistral rilascia la possibilità di creare agenti autonomi basati su LLM per interazioni e funzionalità complesse. È possibile creare gli agenti attraverso un'interfaccia web o via API. Gli agenti, successivamente, possono essere usati e possono interagire tra di loro attraverso la Chat di Mistral o via API. Gli agenti autonomi di Mistral > Possiamo dire che è un interessante mix tra GPTs e API Assistant di OpenAI. > Con un grande vantaggio: l'entità dell'agente rimane unica, e può essere usata > nella chat e via API. Vai alla documentazione -------------------------------------------------------------------------------- GEMINI LIVE: OTTIME INTENZIONI CON QUALCHE CONTRATTEMPO > Sulla scia della modalità conversazionale di OpenAI, anche Google rilascia > Gemini Live. Anche in questo caso, si tratterà di una conversazione senza turni prestabiliti: sarà possibile interrompere l'assistente in ogni momento, semplicemente.. parlando. Avrà 10 nuove voci, potrà interagire con la fotocamera dello smartphone e con le applicazioni Google. Per ora sarà solo in lingua inglese e su Android. Gemini makes your mobile device a powerful AI assistant At Made by Google, we shared how Gemini is evolving to provide AI-powered assistance that will be infinitely more helpful. GoogleSissie Hsiao > Sembra che gli assistenti che avremmo voluto ai tempi di Alexa e Google > Assistant stiano arrivando. La demo durante il Made by Google è stata d'effetto, anche se non è mancato il momento di imbarazzo con i tentativi falliti nell'interazione multimodale. Gemini Live nella presentazione del #MadeByGoogle.. con qualche momento di imbarazzo > Anche se c'è il vantaggio dell'integrazione con le applicazioni di Google, > siamo ancora indietro rispetto a ChatGPT. -------------------------------------------------------------------------------- LA CACHE PER I PROMPT DI CLAUDE Anthropic rilascia la cache per i prompt su Claude. * Permette di ridurre i costi del 90%, e la latenza dell'85%. * La scrittura di token nella cache è più costosa del 25% rispetto a un normale input. * L'uso di un input già in cache costa il 10% di un input di base. L'utilizzo, via API, avviene semplicemente aggiungendo un parametro alla chiamata e all'header. Prompt caching with Claude Prompt caching, which enables developers to cache frequently used context between API calls, is now available on the Anthropic API. With prompt caching, customers can provide Claude with more background knowledge and example outputs—all while reducing costs by up to 90% and latency by up to 85% for long prompts. > Queste funzionalità permettono di ottimizzare moltissimo le applicazioni. > Mentre la lotta dei prezzi continua. -------------------------------------------------------------------------------- LE PERFORMANCE DI GEMINI 1.5 PRO L'ultima release di Gemini 1.5 Pro è stata (per un breve periodo, fino al rilascio di agosto di OpenAI) in prima posizione nella Chatbot Arena Leaderboard. Ho fatto qualche test, perché fino a questo momento il modello di Google non mi aveva mai convinto. > Devo dire che i risultati mi hanno stupito: finalmente ho trovato la > precisione nel rispettare i prompt e nel generare output. Test su Gemini 1.5 Pro È stata aggiunta anche la possibilità di sviluppo ed esecuzione di codice per usare calcoli precisi nelle risposte (segue un esempio). -------------------------------------------------------------------------------- GEMINI 1.5 FLASH Google prova ad aggredire il mercato degli LLM, con prezzi bassi e funzionalità per Gemini 1.5 Flash. Gemini 1.5 Flash di Google In effetti i prezzi sono più bassi di GPT-4o mini. > Ma le performance? > Da ricordare, inoltre, che OpenAI ha la funzione "batch". -------------------------------------------------------------------------------- I RILASCI DI FINE AGOSTO DI GEMINI Ad integrazione dei punti precedenti, Google, a fine agosto, ha rilasciato 3 nuovi modelli sperimentali, tra i quali un nuovo upgrade di Gemini 1.5 Pro. I rilasci di fine agosto di Gemini I primi test sul mio benchmark di riferimento (anche usando la JSON mode e l'esecuzione del codice) hanno dato risultati ottimi. Prova gratuitamente i modelli di Google -------------------------------------------------------------------------------- L'ANALISI DEI DATI DI GEMINI Gemini (versione chatbot), con gli ultimi aggiornamenti, è migliorato notevolmente, introducendo, come visto in precedenza, qualcosa di molto simile a Code Interpreter di ChatGPT. I diagrammi che si vedono nell'esempio che segue, sono interattivi, modificabili e scaricabili. L'analisi dei dati di Gemini Siamo al livello dell'ambiente OpenAI? NO. Gemini è più molto più lento (nel video ci sono dei tagli sui loading) e non è sempre perfettamente aderente al prompt. > Quello che su ChatGPT è normale da mesi, sul chatbot di Google non dà ancora > fiducia. -------------------------------------------------------------------------------- RUNWAY GEN-3 "TURBO" > La generazione video migliora le performance, non solo per la qualità, ma > anche per il consumo di risorse. Runway ha addestrato una versione di Gen-3 "Turbo" che genera video 7 volte più velocemente mantenendo la qualità. Runway Gen-3 "Turbo" Il modello sarà disponibile per gli utenti a un prezzo più basso. > Vediamo dietro l'angolo la generazione in real-time? -------------------------------------------------------------------------------- GLI EFFETTI VIDEO DI RUNWAY Alcuni esempi di GVFX di Runway. La funzionalità permette di aggiungere effetti a qualunque video attraverso l'AI generativa. Gli effetti video di Runway > Queste funzionalità, nel prossimo futuro, verranno integrate in qualunque > editor video e permetteranno di testare modifiche a bassissimo effort. -------------------------------------------------------------------------------- FREEPIK INTEGRA FLUX Freepik integra i modelli Flux nella generazione delle immagini, compreso il modello dedicato alle immagini realistiche. > Ancora una volta vediamo il potere dell'integrazione in piattaforma. Generare immagini generiche di qualità dedicate alla grafica diventa semplicissimo. Freepik integra Flux > Se aggiungiamo l'animazione con Runway Gen-3 o simili passiamo dall'idea alla > scena in pochi minuti. -------------------------------------------------------------------------------- OUTPUT STRUTTURATI PER LE API DI OPENAI Molto spesso, vengono usati i prompt per ottenere JSON strutturati come output dai LLM. > Personalmente, con istruzioni ed esempi strutturati, ho sempre ottenuto output > precisi. OpenAI, però, ha introdotto nuovi parametri nelle chiamate API per rendere i modelli estremamente fedeli allo schema fornito. Output strutturati per le API di OpenAI Si usa "response_format", con type "json_schema" e "strict" impostato a true. In questo modo possiamo usare il LLM come un'API personalizzata e affidabile che restituisce dati pronti all'uso per qualsiasi utilizzo. Vai alla documentazione -------------------------------------------------------------------------------- AGENTINSTRUCT DI MICROSOFT > In questa fase dei LLM è più importante la quantità o la qualità dei dati di > training per progredire? AgentInstruct è un framework avanzato sviluppato da Microsoft per generare grandi quantità di dati sintetici di alta qualità e diversità, utili per l'addestramento di affinamento dei modelli. Questo approccio, chiamato "Generative Teaching", permette di "insegnare" nuove abilità ai LLM usando dati generati automaticamente da fonti grezze come documenti di testo e file di codice. Le performance di AgentInstruct di Microsoft I test hanno dimostrato che i modelli addestrati con AgentInstruct, come Orca-3, superano significativamente altri modelli come GPT-3.5-turbo e Llama-8B-instruct in diversi benchmark. Vai al progetto -------------------------------------------------------------------------------- NVIDIA E L'OTTIMIZZAZIONE DEI MODELLI Nvidia sta lavorando a processi per ridurre le dimensioni dei modelli, facendo test su Llama 3.1 8B. Quelle che seguono sono alcune delle dinamiche sulle quali sta lavorando. * Pruning: riduzione del modello rimuovendo strati e canali di attenzione. * Distillazione: trasferimento della conoscenza da un modello più grande a uno più piccolo per crearne uno più efficiente che mantiene gran parte della potenza predittiva. RISULTATI * Aumento del 16% dei punteggi MMLU rispetto al training da zero. * Costi di calcolo di 1,8 volte inferiori. > Da questo lavoro è nato Llama-3.1 Minitron 4B, che ottiene ottime performance > confrontato con modelli di pari dimensioni. Vai al post di Nvidia -------------------------------------------------------------------------------- NUOVA FUNZIONALITÀ PER PINECONE Pinecone introduce una nuova funzionalità definita "reranking", per migliorare i risultati delle query vettoriali. Può essere usata dopo il classico "retrieval", attraverso il quale vengono estratti i documenti di una knowledge più simili alla query. A questo punto, il modello di "reranking" attribuisce un punteggio di rilevanza ai documenti estratti. Si tratta di un'azione più sofisticata (e lenta) del recupero, e può considerare più fattori, come la comprensione del contesto e delle sfumature semantiche. The vector database to build knowledgeable AI | Pinecone Search through billions of items for similar matches to any object, in milliseconds. It’s the next generation of search, an API call away. Pinecone Docs > Grazie a sistemi come questo, migliorano le risposte che i sistemi > restituiscono all'utente. -------------------------------------------------------------------------------- L'AUTOMAZIONE DELLA RICERCA SCIENTIFICA Sakana AI, in collaborazione l'Università di Oxford e della British Columbia, ha sviluppato "The AI Scientist", un sistema rivoluzionario che automatizza l'intero processo di ricerca scientifica. > Dalla generazione di idee alla scrittura di articoli scientifici completi. Il sistema, che sfrutta LLM avanzati, è in grado di condurre esperimenti, analizzare risultati ed effettuare la revisione dei propri lavori, tutto in modo autonomo. The AI Scientist - Sakana AI Un cambiamento significativo nel modo in cui viene condotta la ricerca scientifica, sollevando questioni etiche e sfide per il bilanciamento dell'efficienza dell'AI con l'intuizione e il giudizio umano. Vai al progetto -------------------------------------------------------------------------------- DIAGNOSI MEDICA ATTRAVERSO I "SUONI" DEL CORPO Health Acoustic Representations (HeAR) è un modello di AI di Google in grado di rilevare malattie attraverso i suoni prodotti dal corpo umano, come la tosse. Health Acoustic Representations (HeAR) In India, ad esempio, questa tecnologia viene usata per diagnosticare la tubercolosi rendendo l'assistenza sanitaria più accessibile e conveniente. Vai al post di Google Tre anni fa, parlavo di questi sistemi con il professor Giovanni Saggio, con risultati già sbalorditivi. VoiceWise: la Voice Technology a servizio della salute Insieme a Giovanni Saggio scopriamo come la Voice Technology può essere messa al servizio della salute. Grazie all’analisi della voce, infatti, è possibile ottenere delle diagnosi precise e veloci. Alessio PomaroAlessio Pomaro -------------------------------------------------------------------------------- DEMIS HASSABIS SULL'AGI (ARTIFICIAL GENERAL INTELLIGENCE) Un'interessante intervista a Demis Hassabis, CEO di Google DeepMind. Ancora una volta emerge un futuro di enormi benefici portati dall'AGI. Ma un futuro che richiede una pianificazione meticolosa, una cooperazione globale e un'attenta gestione dei rischi, compresa una riflessione seria su come la tecnologia dovrebbe essere sviluppata e distribuita. Demis Hassabis sull'AGI (Artificial General Intelligence) > Troppo tecno-ottimismo sul raggiungimento di stadi avanzati di AGI? > Probabilmente sì, ma lo scopriremo a breve. > Necessità troppo evolute per essere gestire da questa società? Di certo sì. -------------------------------------------------------------------------------- AI E CAMBIAMENTO CLIMATICO Google e Nvidia hanno presentato due progetti estremamente interessanti ed evoluti per supportare la scienza nello studio del cambiamento climatico. NEURALGCM DI GOOGLE NeuralGCM è un nuovo modello di Google che combina simulazioni basate sulla fisica e AI per migliorare la precisione delle previsioni climatiche. A differenza dei modelli tradizionali, NeuralGCM è in grado di analizzare grandi quantità di dati e di correggere gli errori, permettendo simulazioni rapide e dettagliate anche su computer meno potenti. > Questo strumento OPEN SOURCE potrebbe essere cruciale per prevedere meglio i > cambiamenti climatici e sviluppare politiche di adattamento e mitigazione più > efficaci. STORMCAST DI NVIDIA Nvidia ha presentato StormCast, un nuovo modello di AI generativa, progettato per migliorare la previsione meteorologica. Collaborando con il Lawrence Berkeley National Laboratory e l'Università di Washington, questo modello è in grado di fornire previsioni più accurate e a risoluzione elevata, utilizzando una frazione dell'energia rispetto ai metodi tradizionali. AI Chases the Storm: New NVIDIA Research Boosts Weather Prediction, Climate Simulation Amid hurricane season, NVIDIA unveils breakthrough generative AI model for emulating high-fidelity atmospheric dynamics. NVIDIA BlogMike Pritchard StormCast è parte della piattaforma Earth2, che combina AI, simulazioni fisiche e grafica, per simulare il clima globale con una precisione senza precedenti. > Questa innovazione promette di rivoluzionare la ricerca climatica e migliorare > la sicurezza delle comunità esposte a eventi meteorologici estremi. -------------------------------------------------------------------------------- FIGURE 02 Figure 02 è uno dei robot umanoidi più evoluti esistenti, che conta già delle collaborazioni importanti per le applicazioni in azienda. Figure 02: il lancio del robot umanoide Il funzionamento è basato su un VLM di OpenAI che elabora richieste testuali (ottenute convertendo l'audio) e immagini per valutare le azioni da compiere. Questo permette al robot di rispondere e di generare movimenti. I dati e le correzioni si trasformano in nuovo training, e questo fa sì che le azioni migliorino costantemente. I principi sono gli stessi che abbiamo già visto recentemente nel robot (non umanoide) di Google DeepMind basato su Gemini. > Il miglioramento del LLM, e l'uso di sistemi neuro-simbolici renderà questi > robot sempre più performanti e affidabili, e chiaramente, ci saranno > importanti discussioni da affrontare. -------------------------------------------------------------------------------- COME FUNZIONANO I TRANSFORMER? Una bellissima interazione che spiega il funzionamento dei Transformer nel prevedere la parola successiva nel completamento. Come funzionano i Transformer? Scrivendo una frase nel campo e variando la "temperatura" è possibile capire ciò che il modello prevede. Provalo -------------------------------------------------------------------------------- LE POTENZIALITÀ DELL'AI > Nel 1882, l'elettricità era la nuova promessa tecnologica destinata a > rivoluzionare l'industria manifatturiera. > Tuttavia, il vero cambiamento arrivò solo quando le fabbriche furono ripensate > da zero, mettendo l'elettricità al centro. > Oggi, ci troviamo in una fase simile con l'intelligenza artificiale (AI), e > molti sviluppatori stanno semplicemente aggiungendo AI ai prodotti esistenti > senza sfruttarne appieno le potenzialità uniche. Questa è la premessa dell'intervento di Alex Albert di Anthropic all'AI Engineer World's Fair. Alex Albert di Anthropic all'AI Engineer World's Fair > È forse un parallelo esagerato (di certo scontato)? Forse sì, ma il concetto è > assolutamente interessante. -------------------------------------------------------------------------------- SAM (SEGMENT ANYTHING MODEL) 2 DI META Meta ha introdotto SAM (Segment Anything Model) 2: un modello in grado di segmentare in real-time qualunque oggetto presente su immagini e video. Si tratta di un sistema aperto, del quale verrà condiviso il codice, i pesi e un ampio dataset video. SAM (Segment Anything Model) 2 di Meta > Immaginiamoci sistemi come questo applicati alla generazione/editing video, > all'etichettatura dei video, alla visione artificiale e all'AR. Vai alla demo -------------------------------------------------------------------------------- MODEL PLAYGROUND DI GITHUB GitHub lancia un "model playground" per testare e sviluppare applicazioni basate su LLM. Introducing GitHub Models: A new generation of AI engineers building on GitHub We are enabling the rise of the AI engineer with GitHub Models – bringing the power of industry leading large and small language models to our more than 100 million users directly on GitHub. The GitHub BlogThomas Dohmke Il sistema permette agli utenti di: * testare tutti i modelli (Llama, GPT-4, GPT-4o, Phi, Mistral, ecc.) gratuitamente; * portare il codice direttamente sull'editor; * creare l'ambiente di produzione su Azure. -------------------------------------------------------------------------------- TORCHCHAT DI PYTORCH Torchchat è una libreria sviluppata da PyTorch che permette di eseguire in locale modelli di linguaggio di grandi dimensioni (LLM), come Llama 3 e 3.1, su diversi dispositivi, inclusi laptop, desktop e dispositivi mobili. Chiaramente sfrutta delle tecniche di ottimizzazione, come la quantizzazione, la compilazione avanzata e l'esecuzione Eager. Introducing torchchat: Accelerating Local LLM Inference on Laptop, Desktop and Mobile Today, we’re releasing torchchat, a library showcasing how to seamlessly and performantly run Llama 3, 3.1, and other large language models across laptop, desktop, and mobile. PyTorchTeam PyTorch LE PERFORMANCE * Su MacBook Pro M1 Max: oltre 17 T/s * Linux con GPU A100 (CUDA): oltre 135 T/s * Smartphone (quantizzazione a 4 bit): 8 T/s -------------------------------------------------------------------------------- LE NOVITÀ DA OPENAI > 3 novità di OpenAI, rilasciate abbastanza silenziosamente. * ChatGPT (GPT-40) ha ricevuto un recente upgrade di modello, con correzioni e ottimizzazioni. Se si nota, ad esempio, le risposte su task complessi tendono a sviluppare step di "pensiero" più interessanti. * Esiste una nuova versione sperimentale di GPT-4o con un output che può raggiungere i 64k token. Diciamo che stiamo parlando di output paragonabili a 300 pagine di un libro. * È stato annunciato il lancio del fine-tuning per GPT-4o. Ora è possibile personalizzare il modello GPT-4o per migliorare le prestazioni e l'accuratezza nelle applicazioni specifiche. Le novità di OpenAI -------------------------------------------------------------------------------- LA PARTNERSHIP TRA OPENAI E CONDÉ NAST > Il passo da "blocchiamo il crawler di OpenAI per evitare che ci rubi i > contenuti" a una gara per stringere accordi ed essere tra i risultati di > SearchGPT è brevissimo.. Anche Condé Nast firma una partnership, e metterà a disposizione contenuti di testate come Vogue, The New Yorker, Wired, GQ, e Vanity Fair. Vai al comunicato -------------------------------------------------------------------------------- SEARCHGPT E PERPLEXITY Esistono differenze tecniche sostanziali tra sistemi come Perplexity e ciò che sta costruendo OpenAI con SearchGPT. * I primi usano un motore di ricerca per estrarre i contenuti dai risultati derivanti dalle query che il sistema produce in base alla richiesta degli utenti (il ranking viene demandato al motore). Questi contenuti diventano il contesto per un LLM, che li trasforma in una risposta. * SearchGPT avrà un crawler, e il sistema gestirà direttamente i contenuti per stabilire le informazioni più aderenti alla richiesta. SearchGPT e Perplexity Molti affermano: "useranno la ricerca vettoriale su tutti i contenuti scansionati ed embeddati". Non è così semplice.. comunque servirà la capacità di attribuire una sorta di indice di affidabilità. E serviranno altri parametri di affinamento. Altro tema interessante.. > come verranno trattati gli editori che stanno stringendo accordi con OpenAI? -------------------------------------------------------------------------------- INTELLIGENZA ARTIFICIALE E PRODUTTIVITÀ Uno studio dell'Upwork Research Institute riporta.. > La metà (47%) dei dipendenti che utilizzano l'intelligenza artificiale afferma > di non avere idea di come ottenere gli incrementi di produttività che i propri > datori di lavoro si aspettano, e il 77% afferma che questi strumenti hanno in > realtà ridotto la loro produttività e aumentato il loro carico di lavoro. È un chiaro segnale del fatto che non possiamo pensare che sia tutto automatico: non basta dare ChatGPT alle persone, e pensare che il processo sia finito. Serve studio, sperimentazione e formazione, se si vogliono generare risultati. Vai allo studio -------------------------------------------------------------------------------- - GRAZIE - Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre persone, condividilo 🙂 ISCRIVITI ALLA NEWSLETTER Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su tematiche relative all'intelligenza artificiale. Iscriviti alla Newsletter Email sent! Check your inbox to complete your signup. Gratuita. No Spam. Puoi disiscriverti quando vuoi.Consulta la privacy policy.

September 3, 2024 / Alessio Pomaro

AI Overviews: meglio cercare su ChatGPT?

Dopo il rilascio negli Stati Uniti di AI Overviews, il nuovo sistema integrato alla ricerca di Google che compone le risposte attraverso l'AI generativa, ci sono stati diversi commenti in cui gli utenti hanno mostrato errori e informazioni non corrette. Il post della BBC che segue, racconta i casi più noti. Google AI search tells users to glue pizza and eat rocks Google has defended the answers given by AI Overview, describing them as “isolated examples”. BBC News Google, successivamente, ha pubblicato un articolo in cui spiega come funziona il sistema e i motivi per i quali può commettere imprecisioni. AI Overviews: About last week Here’s what happened with AI Overviews, the feedback we’ve received, and the steps we’ve taken. GoogleLiz Reid Il contenuto descrive concetti in modo chiaro e quasi scontato per chi conosce il mondo dei modelli di linguaggio. UNA BREVE SINTESI AI Overviews, di fatto, è simile a un sistema RAG (Retrieval Augmented Generation) che usa i risultati del motore di ricerca come contesto per l'elaborazione del modello di linguaggio, il quale compone la risposta. Secondo Google, quindi, parte del problema (risposte errate) deriva dal tipo di contenuti estratti dalla ricerca: se le pagine degli utenti contengono informazioni non corrette, anche la risposta del modello potrebbe non essere corretta. A questo aggiungiamo il fatto che il LLM spesso non è in grado di interpretare situazioni in cui gli esseri umani usano forme di ironia e sarcasmo. E questo porta a informazioni completamente fuori contesto. In uno degli esempi, infatti, la query che ha scatenato l'errore è stata: > "How many rocks should I eat?" AI Overviews ha risposto sostenendo che i geologi raccomandano agli esseri umani di mangiare una roccia al giorno. Questo deriva da una pagina in cui l'autore fa questa affermazione con ironia, per poi spiegare il concetto nell'articolo. Geologists Recommend Eating At Least One Small Rock Per Day - ResFrac Corporation Professor Zoback in The Onion ResFrac Corporation - Hydraulic Fracturing and Reservoir Simulation NON CI SIAMO! Tutto si gioca su ciò che viene proposto all'utente. Finché si propone una selezione di pagine coerenti alla query di ricerca (risultati di ricerca classici), il problema non si pone, perché sarà l'utente a fare le sue valutazioni consultando i risultati. Ma se la proposta mira a dare una risposta alla domanda dell'utente distillando i risultati del motore di ricerca, allora la risposta deve avere un senso. Sempre. E deve rispettare determinati canoni. Anche perché, ci sono sistemi che questo lo sanno fare meglio! FACCIAMO LA STESSA DOMANDA SU CHATGPT? Proviamo a fare la stessa richiesta su ChatGPT sfruttando la capacità di navigazione online. Un esempio di ricerca su ChatGPT ChatGPT, come si vede nell'immagine, effettua la ricerca online, e tra le fonti estrae anche lo stesso contenuto considerato da AI Overviews di Google. Vediamo, quindi che tipo di risposta compone il sistema di OpenAI. La risposta di ChatGPT alla stessa domanda posta su Google Come si vede, la risposta di ChatGPT è più sensata. Non solo. Rileva correttamente il senso dell'articolo che ha ingannato il modello di Google. Forse qualcuno può pensare che il motivo sia il fatto che la pagina di ResFrac è stata aggiornata recentemente riportando la vicenda. Allora ho fatto un ulteriore test, riportando manualmente solo il contesto della pagina in cui viene consigliato di mangiare una roccia la giorno. Risposta di ChatGPT con un contesto riportato da ResFrac Ancora una volta, ChatGPT risponde riconoscendo il tono con il quale è stato scritto il contenuto. COME SE LA CAVA CON LA PIZZA? Vediamo un ulteriore test con l'altra ricerca che ha scatenato le critiche. All'affermazione "cheese not sticking on pizza", AI Overviews ha consigliato di usare la colla. Vediamo ChatGPT. La risposta di ChatGPT alla richiesta sul formaggio sulla pizza Risposte sensate e bilanciate, usando contenuti disponibili online. L'EQUILIBRIO DELL'IBRIDO (MOTORE DI RICERCA + LLM) Google è senza dubbio il miglior motore di ricerca per la capacità di estrazione di contenuti coerenti alle query e di integrazione delle informazioni, ma questo non basta per generare risposte di valore (e non dannose) per gli utenti. > L'AI generativa di OpenAI è migliore? Si tratta di lacune della configurazione > del comportamento dell'agente che genera le risposte su AI Overviews? Nel post di Google questi esempi vengono descritti come casi isolati in cui la query non è mai stata eseguita nel motore di ricerca. Questo è assolutamente probabile, ma non può essere correlato al fatto di dare una risposta dannosa. Il problema è nel modello o nel suo utilizzo nel sistema. > Il titolo di questo post è una provocazione.. ma osservando gli output, quali > sono le migliori risposte? CONCLUSIONE La mia riflessione non è orientata a consigliare l'utilizzo di ChatGPT + web search come motore di ricerca. Anzi, metto in guardia le persone in tutti i corsi ai quali partecipo su questo tipo di azione. Ma se si vuole aggiungere una funzionalità in grado di dare risposte agli utenti basate su fonti online, il modello deve essere in grado di farlo in maniera corretta, con delle linee guida rigide e dei "guardrails" opportuni. Concludo con una nota di Giorgio Taverniti, emersa riflettendo su queste tematiche. > Il problema si trova alla base della progettazione dell'interfaccia: se > qualcosa è pensato per la massa, deve rispettare l'aspettativa del prodotto e > non ingannare l'utente. > > Inserire l'AI Generativa in una chat, è fuorviante, ma è anche il modo > migliore di farlo. Una piccola nota in grigio non risolverà il problema. > Le Big Tech dovranno trovare una soluzione. Questi sistemi, attualmente, non > contemplano la verifica dei fatti o, ancora più difficile, della "verità". > Quindi mi aspetto che si lavorerà anche in questa direzione, per quanto sia > davvero difficile. > > Sono contento che ChatGPT sia arrivato a questo livello. È davvero > incredibile. -------------------------------------------------------------------------------- - GRAZIE - Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre persone, condividilo 🙂 ISCRIVITI ALLA NEWSLETTER Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su tematiche relative all'intelligenza artificiale. Iscriviti alla Newsletter Email sent! Check your inbox to complete your signup. Gratuita. No Spam. Puoi disiscriverti quando vuoi.Consulta la privacy policy.

June 4, 2024 / Alessio Pomaro