Tag - GPT-4

GPT-5: riflessioni, riepilogo, test.. e AGI?
> GPT-5 is a significant step along the path to AGI… a model that is generally > intelligent. Così Sam Altman introduce la live di presentazione di GPT-5. Nel momento in cui ha finito la frase, ho avuto una forte tentazione di stoppare lo streaming.. ma mi sono sforzato di proseguire. A valle dell’evento, il mio bilancio è questo: > GPT-5 è un major update > solido ma non di rottura. La presentazione di GPT-5 di OpenAI È plausibile che abbiano migliorato praticamente tutto: comprensione, allucinazioni, strumenti, costi.. però non è il salto epocale che la retorica di apertura lasciava intendere. Anche il messaggio “verso l’AGI” suona come marketing ambizioso più che come evidenza scientifica: se migliori su molti benchmark ma resti nel solco della stessa famiglia di (queste) tecniche, è un progresso importante, non una rivoluzione. Questo non significa sminuire il lavoro tecnico: l’inferenza è più economica, il modello sceglie quando attivare componenti di "reasoning" e la lineup è più granulare (tipologie di modello diverse per casi d’uso diversi). Ma la live è stata anche penalizzata da visualizzazioni fuorvianti: alcuni grafici avevano barre che non corrispondevano ai valori e un diagramma sulla “deception” è stato poi corretto nella documentazione. La correzione del diagramma dalla presentazione alla documentazione Sul fronte posizionamento competitivo, la sensazione è di passo avanti, non balzo in avanti. Dopo l'evento, François Chollet (co-founder di ARC Prize) ha pubblicato un confronto in cui Grok 4 risulta avanti su ARC-AGI-2, mentre su ARC-AGI-1 il margine è più sottile; al netto di differenze di costo, il quadro è di una leadership contesa e per nulla schiacciata. > Grok 4 is still state-of-the-art on ARC-AGI-2 among frontier models. > > 15.9% for Grok 4 vs 9.9% for GPT-5. pic.twitter.com/wSezrsZsjw > > — François Chollet (@fchollet) August 7, 2025 Questi dati vanno interpretati con cautela (metodologie, settaggi, versioni cambiano), ma raffreddano l’idea di un distacco netto. Infine, qualche scelta narrativa non ha aiutato: tanto "vibe coding" e storytelling emotivo, meno metodo e ablation. Da utilizzatore, mi sarei aspettato più dimostrazioni di multimodalità end-to-end (input e output ricchi, integrazione sensori-attuatori) e un ponte più credibile verso il mondo fisico/robotico — area in cui altri player stanno spingendo (es. Google e Nvidia). > I miglioramenti ci sono e i prezzi non sono fuori mercato; semplicemente non > abbiamo visto > “il prossimo paradigma”. PARLIAMO DEL CONCETTO DI AGI? Perché la tentazione di chiudere lo streaming non appena Altman ha pronunciato “AGI”? Perché, probabilmente, i soli LLM non basteranno per raggiungere l'obiettivo. Continuare a scalare decoder autoregressivi riduce errori ma non risolve: causalità, generalizzazione out-of-distribution, composizionalità, pianificazione a lungo raggio, ragionamento simbolico. A questo proposito, ho più volte menzionato approcci come quello neuro-simbolico, ovvero l'integrazione di reti neurali e rappresentazioni/strumenti simbolici. Non è teoria astratta: modelli-strumento come o3, Grok 4, e lo stesso GPT-5, ovvero quelli con interpreti di codice e reasoners, mostrano che plug-in simbolici (solver, motori logici, CAS) alzano l’asticella su compiti logici e strutturati. Google DeepMind, su AlphaFold o AlphaGeometry non applica “solo” LLM: si tratta di architetture ibride disegnate sul problema, con motori di ricerca, vincoli e verifiche. La direzione non è “più grande è meglio”, ma “ben integrato è meglio”: neurale per percepire e proporre, simbolico per verificare, comporre e generalizzare. Gli avanzamenti recenti in matematica lo confermano. Seed-Geometry (ByteDance Seed AI4Math) ha superato AlphaGeometry 2 su 50 problemi IMO di geometria (43 vs 42) e sulle shortlist più dure (22/39 vs 19/39), grazie a un motore simbolico più veloce, una rappresentazione più compatta delle costruzioni e un ciclo neurale-simbolico più efficiente. Non è un trucco: è un cambio di passo su compiti dove la verifica formale conta quanto (o più) della generazione. Seed-Prover: Deep and Broad Reasoning for Automated Theorem Proving | alphaXiv View 1 comments: What is the difference between this work and the Gemini pro?2507.15855 arXiv Se vogliamo avvicinarci all’AGI, dobbiamo uscire dal monolito: agenti che usano strumenti e ambienti, memorie strutturate, moduli di pianificazione e prove/verifiche integrati by design, non come accessori opzionali. > Il LLM resta il substrato linguistico e percettivo, ma l’intelligenza emerge > dall’orchestrazione. LO STATO DEL PROGRESSO DELL’AI Al netto di GPT-5, stiamo vivendo un’accelerazione storica. Demis Hassabis (Google DeepMind) descrive un impatto “10 volte più grande, e forse 10 volte più veloce dell’Industrial Revolution”, con un orizzonte di 5–10 anni per sistemi con capacità simili all’umano in molti domini. È un’immagine potente, che richiede di ripensare istituzioni, lavoro, welfare, istruzione e governance. Non sono solo parole: AlphaFold ha già spostato gli equilibri nella scienza delle proteine, al punto da valere a Hassabis e Jumper il Nobel per la Chimica 2024 (insieme a David Baker). La portata non è solo tecnica: rendere praticabile e diffuso ciò che prima richiedeva anni di esperimenti è nuova capacità civile — scienza più rapida, più aperta, più traducibile in cure e materiali. Chemistry Nobel goes to developers of AlphaFold AI that predicts protein structures This year’s prize celebrates computational tools that have transformed biology and have the potential to revolutionize drug discovery. NatureEwen Callaway Questa accelerazione, però, non è lineare né omogenea. Vediamo frontier models migliorare, ma spesso in modo irregolare: grandi vittorie in domini strutturati (biologia, geometria formale), progressi più lenti nella robustezza generale (ragionamento di buon senso, affidabilità contestuale, autonomia). In parallelo, cresce l’impatto economico (produttività, automazione di parti di filiere cognitive) e si amplificano le questioni sociali: distribuzione dei benefici, sostenibilità energetica, rischi informativi. Il punto non è fermare, ma governare l’onda: standard aperti, benchmark onesti, evals riproducibili, trasparenza sui dati e sistemi di verifica incorporati. Se la traiettoria “10× più grande e più veloce” si confermerà, ci serviranno nuove idee sul senso del tempo e del valore umano. Non tutto è utilitaristico: arte, gioco, sport, meditazione potrebbero tornare al centro proprio perché liberati dal vincolo. Ma questo futuro richiede politiche intenzionali: redistribuzione, formazione continua, infrastrutture di ricerca e un mercato che premia la qualità, non solo la spettacolarità in keynote. Ne ho parlato nei recenti interventi che ho tenuto al TEDx di Bergamo e al WMF (We Make Future). Il mio intervento al TEDx di Bergamo CONCLUSIONI GPT-5 è un aggiornamento importante, ma “incrementale”. Ha spinto in avanti il perimetro di ciò che è pratico e abbordabile, senza cambiare le regole del gioco. Se prendiamo sul serio l’AGI, la strada passa per architetture ibride, tool use nativo, verifica simbolica e benchmark trasparenti. Nel frattempo, l’AI continua a permeare scienza, industria e cultura a velocità inaudita: la sfida non è solo tecnica, è civile. E, finché non vedremo quell’integrazione profonda che da tempo invoco, manterrò questa posizione: gli LLM sono necessari ma non sufficienti — e il prossimo salto non sarà solo più grande; sarà diverso. -------------------------------------------------------------------------------- UNA SINTESI DELLA PRESENTAZIONE Per chi non avesse visto tutta la presentazione, quello che segue è un riepilogo che cerca di sintetizzare al meglio le caratteristiche del nuovo sistema di OpenAI. Sam Altman durante la presentazione di GPT-5 PANORAMICA SUL MODELLO GPT-5 è il nuovo modello di punta di OpenAI: più intelligente, più rapido e soprattutto più utile nelle richieste reali (scrittura, coding, salute, multimodale). In ChatGPT diventerà il modello di default per tutti; gli utenti Pro avranno anche GPT-5 Pro (con reasoning più esteso). Il rollout inizia da subito per gli utenti Free, Plus, Pro, Team; per gli abbonamenti Enterprise ed Edu arriverà dopo una settimana dalla presentazione. Gli utenti Free, al raggiungimento delle quote limite, passano a GPT-5 mini. UN SISTEMA UNIFICATO: ROUTER + "THINKING" QUANDO SERVE Non bisogna più scegliere tra un modello “veloce” e uno “con reasoning”: GPT-5 integra un modello smart/efficiente, un modello di ragionamento profondo (“GPT-5 thinking”) e un router in tempo reale che decide quale usare in base a complessità, tipo di conversazione, strumenti necessari e segnali espliciti (es. “pensa a fondo”). Il router impara da segnali reali (switch tra modelli, preferenze, misure di correttezza). Al raggiungimento dei limiti subentra una versione mini. In futuro queste capacità verranno fuse in un unico modello. PRESTAZIONI E VALUTAZIONI (SOTA) * Matematica (AIME 2025, senza tool): 94,6% * Coding: 74,9% su SWE-bench Verified; 88% su Aider Polyglot * Multimodale: 84,2% su MMMU * Salute: 46,2% su HealthBench Hard Con GPT-5 Pro (ragionamento esteso) si ottiene lo stato dell’arte su GPQA (88,4%, senza tool). In più, rispetto a o3, GPT-5 “thinking” raggiunge risultati migliori usando il 50–80% di token di output in meno su varie capacità (ragionamento visivo, coding agentico, problemi scientifici avanzati). Prestazioni e valutazioni di GPT-5 AFFIDABILITÀ, ALLUCINAZIONI E "ONESTÀ" Con ricerca web attiva su prompt rappresentativi, le risposte di GPT-5 sono ~45% meno soggette a errori fattuali rispetto a GPT-4o; in modalità “thinking” sono ~80% meno soggette a errori rispetto a o3. Su benchmark di fattualità aperta (LongFact, FActScore) “GPT-5 thinking” riduce le allucinazioni di circa 6× rispetto a o3. È anche meno ingannevole: nelle conversazioni reali, le risposte “thinking” che mostrano comportamenti di “deception” scendono dal 4,8% (o3) al 2,1%. Lo stile mostra meno "eccesso di consenso", meno emoji inutili, più trasparenza sui limiti. SAFE COMPLETIONS Nuovo addestramento di sicurezza: invece di rifiutare o acconsentire “a blocchi”, GPT-5 massimizza l’aiuto entro confini di sicurezza. Quando serve, risponde solo ad alto livello; se deve rifiutare, spiega perché e propone alternative sicure. Risultato: migliore gestione delle richieste ambigue/dual-use e meno rifiuti inutili. BIO/CHIMICA: APPROCCIO PRUDENZIALE “GPT-5 thinking” è trattato come High capability in bio/chimica nel Preparedness Framework: 5.000 ore di red-teaming, classificatori always-on, reasoning monitors e difese multilivello, attive in via precauzionale. COSA MIGLIORA PER GLI UTENTI CHATGPT * Scrittura: testi più ricchi e risonanti, migliore gestione di strutture ambigue (es. verso libero, pentametro giambico senza rima), utile per email, report, memo. * Coding: eccelle nel front-end complesso e nel debug di repository grandi; spesso crea siti/app/giochi belli e responsivi con un solo prompt, con gusto per spaziatura, tipografia e white-space. * Salute: punteggi nettamente migliori su HealthBench; risposte più proattive (segnala rischi, pone domande), adattate a contesto/geografia/livello utente. Non sostituisce un medico, ma aiuta a capire referti, preparare domande, valutare opzioni. * Personalità preimpostate (anteprima di ricerca): Cynic, Robot, Listener, Nerd, per regolare tono e stile senza prompt artigianali; progettate anche per ridurre l'eccesso di consenso nei confronti dei messaggi degli utenti. NOVITÀ MOSTRATE NELLA LIVE * Voice più naturale, con video, traduzione continua e nuova Study & Learn mode (es. esercizi guidati, apprendimento delle lingue). * Memoria e personalizzazione: è stata presentata l'integrazione con Gmail e Google Calendar per la pianificazione quotidiana; colori personalizzati dell’interfaccia; anteprima di personalities anche in modalità Voice. PER SVILUPPATORI E AZIENDE (API) * Tre modelli: gpt-5, gpt-5-mini, gpt-5-nano. Prezzi indicativi: $1,25 / 1M token input e $10 / 1M output (GPT-5); $0,25 / $2 (mini); $0,05 / $0,40 (nano). Disponibile via Responses API, Chat Completions e Codex CLI. * Nuovi controlli: * reasoning_effort con valore minimal per risposte velocissime con poco ragionamento; * verbosity: low/medium/high per controllare la verbosità (quanto il modello risulta prolisso); * Custom tools in plain-text (anziché solo JSON) + vincoli con regex/CFG; tool-call preambles per far spiegare al modello il piano prima delle chiamate strumento. * Contesto lungo: fino a 400.000 token totali, con miglioramenti su compiti di lungo contesto (recupero e ragionamento su input molto estesi). * Agentic/tool use: grandi progressi su benchmark di tool-calling e instruction-following; migliore capacità di completare task multi-step, coordinare strumenti e adattarsi al contesto. * Variante chat non-reasoning disponibile come gpt-5-chat-latest (stessa tariffa), utile per latenza più bassa. IMPLICAZIONI PRATICHE * Utenti finali: qualità alta “di default”, meno allucinazioni, più "onestà" su impossibilità o limiti. * Team e imprese: un sistema di default affidabile per il lavoro quotidiano, e GPT-5 Pro per compiti critici. * Developer: meno “prompt gymnastics”. Controlli nativi su ragionamento/verbosità/formato, tool-calling più robusto, 400k di contesto per documenti enormi e pipeline complesse. -------------------------------------------------------------------------------- PRIMI TEST DEL MODELLO Ho fatto diversi test con il modello GPT-5 Thinking (su ChatGPT e via API) che riguardano, ad esempio, la generazione di testo, la creazione di dashboard che derivano dall'analisi di un dataset, output strutturati con contesti in input molto lunghi dove la precisione è fondamentale, ragionamento, matematica. Primi test con GPT-5 Ho effettuato anche delle sperimentazioni usando il modello su sistemi agentici, su infrastrutture già collaudate per altri modelli. Non avevo dubbi che il risultato sarebbe stato di qualità: l'aumento di performance è notevole rispetto alle versioni precedenti di OpenAI. Le performance su task di questo tipo non si discutono, e questo modello, visto anche il prezzo delle API praticamente identico, va a competere direttamente con Gemini 2.5 Pro su tutti i fronti. -------------------------------------------------------------------------------- APPROFONDIMENTI UNA GUIDA AL PROMPTING PER GPT-5 OpenAI ha pubblicato una guida ufficiale al prompting per GPT-5, pensata per aiutare sviluppatori e professionisti a ottenere il massimo dal nuovo modello. La guida approfondisce come costruire prompt efficaci, sottolineando l’elevata sensibilità di GPT-5 alle istruzioni: è in grado di seguire indicazioni con estrema precisione, ma proprio per questo diventa cruciale evitare ambiguità o contraddizioni. Vengono presentate strategie per bilanciare il grado di autonomia del modello, regolare il livello di ragionamento (reasoning_effort) e ottimizzare le risposte (verbosity). Una sezione specifica è dedicata allo sviluppo software, dove GPT-5 si distingue nella scrittura, refactor e generazione di codice, specialmente se guidato da prompt che ne specificano stile e contesto tecnico. La guida include esempi concreti, casi d’uso (come Cursor) e buone pratiche come l’uso di “tool preambles” o tecniche di metaprompting. Un riferimento prezioso per chi vuole costruire interazioni più robuste, controllabili ed efficienti con GPT-5. GPT-5 prompting guide | OpenAI Cookbook GPT-5, our newest flagship model, represents a substantial leap forward in agentic task performance, coding, raw intelligence, and steera… GPT-5 PER GLI SVILUPPATORI OpenAI presenta un contenuto dedicato agli sviluppatori che illustra GPT-5, il modello più avanzato per codifica e compiti agentici complessi. Con prestazioni ai vertici nei benchmark, gestione efficiente di processi multi-turno, recupero di informazioni da contesti lunghi e riduzione significativa degli errori, GPT-5 offre nuove funzioni API come reasoning_effort, verbosity e Freeform tools, ed è disponibile in tre varianti per adattarsi a esigenze diverse di prestazioni, costi e latenza. Vai al post -------------------------------------------------------------------------------- - GRAZIE - Se hai apprezzato il contenuto, puoi contribuire al progetto con una donazione 🙂 ISCRIVITI ALLA NEWSLETTER Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su tematiche relative all'intelligenza artificiale. Iscriviti alla Newsletter Email sent! Check your inbox to complete your signup. Gratuita. No Spam. Puoi disiscriverti quando vuoi. Consulta la privacy policy.
AI
GPT-4
Novità e Riflessioni
GPT-3
L'inizio di una trasformazione esponenziale
> Immagino che tutti abbiamo provato, almeno una volta nella vita, a preparare i > popcorn. Si mette il mais in una padella rovente e si aspetta; all’inizio non accade nulla, sembra un processo lento. Successivamente, qualche chicco inizia a scoppiare, e improvvisamente scoppiano insieme tutti gli altri. Io credo che, per quanto riguarda lo sviluppo e l’integrazione dell’intelligenza artificiale, oggi siamo proprio in quel momento: abbiamo il mais nella padella rovente e stiamo iniziando a sentire scoppiare i primi chicchi. L'inizio di una trasformazione esponenziale - WMF 2025 > Per dirlo senza metafore, credo che siamo all'inizio di una trasformazione > esponenziale.. non semplicemente veloce: esponenziale.  E iniziamo a percepire qualche segnale. Oggi, ad esempio, è possibile usare l’AI per comprendere i complessi paper alla base dell’AI stessa. Ilya Sutskever (co-founder di OpenAI) ha recentemente pubblicato una selezione dei migliori studi scientifici che riguardano l'Intelligenza Artificiale e il Machine Learning, e ho usato NotebookLM di Google per trasformarli in un corso organizzato in lezioni, che permette di apprendere tutto molto più velocemente. Vai al Notebook Gli strumenti migliorano, e accelerano la loro stessa evoluzione, aiutando le persone ad apprendere e creare nuove conoscenze sempre più rapidamente. ALPHAEVOLVE: L’AI CHE MIGLIORA L’AI Un altro segnale importante è rappresentato da AlphaEvolve di Google DeepMind: un progetto che usa un LLM (Gemini) per scrivere e migliorare codice autonomamente. AlphaEvolve: A Gemini-powered coding agent for designing advanced algorithms New AI agent evolves algorithms for math and practical applications in computing by combining the creativity of large language models with automated evaluators Google DeepMindAlphaEvolve team Nulla di nuovo, giusto? Ormai siamo saturi di modelli dedicati al coding. Ma andiamo a capire meglio cosa significa. * Ottimizzazione delle risorse. Ha permesso di recuperare in media lo 0,7% delle risorse computazionali nei data center Google grazie a nuove euristiche di scheduling. * Accelerazione del training dei modelli. L’ottimizzazione dei kernel ha portato fino al 23% di speedup e una riduzione dell'1% nei tempi di training dei modelli Gemini. * Scoperta di nuovi algoritmi. Ha migliorato algoritmi matematici come la moltiplicazione di matrici 4×4 con 48 moltiplicazioni (il primo miglioramento dopo 56 anni). * Ottimizzazione del codice. Ha ottenuto un 32% di speedup nei kernel FlashAttention e un 15% nei processi di pre/post-processing dei Transformer. * Ricerca scientifica autonoma. Ha superato lo stato dell’arte nel 20% dei problemi matematici affrontati, scoprendo nuove costruzioni ottimali * Semplificazione dell'hardware. Modifiche ai circuiti delle TPU hanno permesso una riduzione di area e consumi, con soluzioni validate dai progettisti hardware. > Chip migliori = modelli più potenti e veloci = chip ancora migliori = modelli > sempre più potenti = ... Un chiaro segnale dell’inizio di un momento esponenziale. -------------------------------------------------------------------------------- INTELLIGENZA E AZIONE Andiamo ad esplorare la trasformazione che stiamo vivendo attraverso due macro aree: intelligenza, e azione. INTELLIGENZA Oggi l’AI supera già le capacità umane in molti compiti specifici, come il gioco strategico, la ricerca scientifica, la diagnosi medica, le traduzioni.. e molto altro. QUALCHE ESEMPIO? 1) La nuova versione multimodale del sistema di AI diagnostica di Google (AMIE) ha superato i medici di base su 29 delle 32 caratteristiche cliniche valutate da specialisti e su 7 delle 9 scale dedicate alla gestione dei dati visivi (come foto della pelle, ECG e documenti clinici), dimostrando capacità superiori anche in empatia e accuratezza diagnostica secondo attori-pazienti e medici specialisti. AMIE gains vision: A research AI agent for multimodal diagnostic dialogue 2) Un sistema di AI sviluppato da MIT e Harvard ha scoperto una nuova classe di antibiotici attivi contro batteri resistenti e selettivi per le cellule umane, dimostrando efficacia in modelli animali e superando i metodi tradizionali grazie a spiegazioni chimiche interpretabili — una conferma che l’apprendimento profondo spiegabile può rivoluzionare la scoperta di farmaci, identificando una delle poche nuove classi di antibiotici emerse negli ultimi 60 anni. Discovery of a structural class of antibiotics with explainable deep learning - Nature An explainable deep learning model using a chemical substructure-based approach for the exploration of chemical compound libraries identified structural classes of compounds with antibiotic activity and low toxicity. NatureFelix Wong 3) Il sistema AlphaDev di DeepMind ha scoperto nuovi algoritmi di ordinamento che superano gli standard umani in efficienza, portando all’integrazione di queste soluzioni nella libreria C++ standard di LLVM per la prima volta in oltre un decennio. Faster sorting algorithms discovered using deep reinforcement learning - Nature  Artificial intelligence goes beyond the current state of the art by discovering unknown, faster sorting algorithms as a single-player game using a deep reinforcement learning agent. These algorithms are now used in the standard C++ sort library. NatureDaniel J. Mankowitz CONVERSAZIONE E RAGIONAMENTO La macchina oggi è già in grado di conversare in modo indistinguibile dagli esseri umani, e di produrre dei ragionamenti. Un recente paper mostra come GPT-4.5 di OpenAI ha superato il Test di Touring (per quanto possa essere ancora considerato interessante): chi ha fatto il test era più propenso a credere che il modello fosse umano, rispetto agli altri partecipanti umani. Large Language Models Pass the Turing Test We evaluated 4 systems (ELIZA, GPT-4o, LLaMa-3.1-405B, and GPT-4.5) in two randomised, controlled, and pre-registered Turing tests on independent populations. Participants had 5 minute conversations simultaneously with another human participant and one of these systems before judging which conversational partner they thought was human. When prompted to adopt a humanlike persona, GPT-4.5 was judged to be the human 73% of the time: significantly more often than interrogators selected the real human participant. LLaMa-3.1, with the same prompt, was judged to be the human 56% of the time -- not significantly more or less often than the humans they were being compared to -- while baseline models (ELIZA and GPT-4o) achieved win rates significantly below chance (23% and 21% respectively). The results constitute the first empirical evidence that any artificial system passes a standard three-party Turing test. The results have implications for debates about what kind of intelligence is exhibited by Large Language Models (LLMs), and the social and economic impacts these systems are likely to have. arXiv.orgCameron R. Jones -------------------------------------------------------------------------------- PAPPAGALLI STOCASTICI? Dal 2021, grazie a un noto paper dal titolo "On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?", continuiamo a ripeterci che i Large Language Model sono dei "semplici" pappagalli stocastici, che non comprendono né ragionano, ma semplicemente riaggregano sequenze statisticamente probabili di parole basate su dati di addestramento. Paper molto più recenti, però, dimostrano che non si limitano a "rigurgitare" informazioni apprese durante il training, ma possono formulare inferenze predittive originali. Large language models surpass human experts in predicting neuroscience results - Nature Human Behaviour Large language models (LLMs) can synthesize vast amounts of information. Luo et al. show that LLMs—especially BrainGPT, an LLM the authors tuned on the neuroscience literature—outperform experts in predicting neuroscience results and could assist scientists in making future discoveries. NatureXiaoliang Luo Per non parlare dei progressi ottenuti dalle moderne tecniche di "reasoning", che hanno portato a enormi progressi nei test psicometrici (che vengono usati per capire le capacità cognitive dei modelli), anche se rimangono aperte molte sfide. VERSO UN'INTELLIGENZA ARTIFICIALE GENERALE (AGI) Il lavoro che i leader tecnologici stanno facendo sui loro modelli, ad esempio Google DeepMind con Gemini, è orientato a fare passi in avanti verso la cosiddetta AGI (Artificial General Intelligence). Un’AI in grado di superare le capacità dell'essere umano non solo su compiti specifici, ma su diversi piani: su tutti i compiti che normalmente svolgiamo. Basteranno le tecnologie odierne per raggiungere questi obiettivi? Yann LeCun (Meta), ad esempio, pensa che serviranno ulteriori sviluppi e architetture.. e, a questo proposito, ha recentemente presentato V-JEPA 2: un modello che impara a comprendere e prevedere il mondo costruendo rappresentazioni astratte, invece di limitarsi a prevedere parole o pixel. Introducing V-JEPA 2 Video Joint Embedding Predictive Architecture 2 (V-JEPA 2) is the first world model trained on video that achieves state-of-the-art visual understanding and prediction, enabling zero-shot robot control in new environments. Ma anche Google DeepMind sta lavorando su questi concetti. Infatti, un recentissimo paper di Silver e Sutton si intitola proprio “Welcome to the Era of Experience”, che delinea il raggiungimento di AGI allo stesso modo: un’AI che apprenderà dall’esperienza diretta.. in uno stream continuo di dati reali o simulati, e non da episodi brevi e scollegati (token e pixel). Vai al paper -------------------------------------------------------------------------------- AZIONE Per “azione”, mi riferisco ai concetti di Agentic AI e Physical AI. Gli Agents sono infrastrutture che consentono alle applicazioni basate su modelli AI di interagire con sistemi esterni, attraverso API dedicate e nuovi protocolli come MCP (Model Context Protocol), e di compiere azioni. > E ormai, esistono server MCP per connettere agenti a qualunque applicazione > esterna. GitHub - modelcontextprotocol/servers: Model Context Protocol Servers Model Context Protocol Servers. Contribute to modelcontextprotocol/servers development by creating an account on GitHub. GitHubmodelcontextprotocol Visa sta addirittura sviluppando Intelligent Commerce, che permetterà agli agenti di acquistare direttamente per conto nostro. Visa - Intelligent Commerce > Nel prossimo futuro, l'AI diventerà sempre di più un mediatore non solo delle > nostre scelte,  ma anche delle nostre azioni. -------------------------------------------------------------------------------- PHYSICAL AI > E se i modelli di AI potessero produrre come output non solo testo o chiamate > API, ma anche azioni fisiche? Questi robot sono controllati da Gemini Robotics: una versione evoluta del modello Gemini, lo stesso che usiamo nella chat di Google. Ma invece di restituire solo risposte testuali, interpreta immagini e istruzioni e le trasforma direttamente in azioni nel mondo reale: afferrare oggetti, piegare carta, versare liquidi. Gemini Robotics: azioni robotiche guidate da istruzioni vocali > È questo che intendiamo per Physical AI: l’intelligenza artificiale che non > solo "pensa", ma agisce nel mondo fisico. Questo è un altro esempio, un robot umanoide di Boston Dynamics, che si muove nello spazio e svolge mansioni autonomamente. Un robot umanoide autonomo di Boston Dynamics Robot che possono essere addestrati direttamente mostrando loro le mansioni da svolgere. Questo è Gr00t N1 di Nvidia, un sistema che parte dalla dimostrazione di azioni svolte da un essere umano, usa un ambiente virtuale di simulazione per produrre enormi quantità di dati sintetici, con i quali viene addestrato il robot, che sarà poi in grado di agire autonomamente. Gr00t N1 di Nvidia -------------------------------------------------------------------------------- Due anni fa si diffuse online questa immagine.. Hey ChatGPT, finish this building... > Oggi, probabilmente, ci fa ancora sorridere, ma non sembra più uno scenario > così lontano e improbabile. -------------------------------------------------------------------------------- UN MOMENTO "POPCORN" Forse, dopo questo piccolo percorso, è un po' più chiaro perché dicevo che siamo in un “momento popcorn”.. ovvero in un inizio di trasformazione esponenziale. Il grande tema è che dobbiamo agire prima possibile per poterlo gestire al meglio. > Perché se non mettiamo il coperchio alla padella appena buttiamo il mais, > presto ci ritroveremo con la cucina che sarà un completo disastro. COME GESTIRE LA TRASFORMAZIONE Quali sono gli "ingredienti" della "ricetta" che ci permetterà di gestire la trasformazione che stiamo vivendo? Ho provato a sintetizzarli, suddividendoli per "attori coinvolti". 1) LE PERSONE: OGNUNO DI NOI * Dobbiamo diventare consapevoli prima possibile di questa trasformazione. Come? Usando la tecnologia (ormai abbiamo mille possibilità di farlo), per comprenderne il potenziale. * Dobbiamo alzare l’asticella della dinamicità in ambito lavorativo, perché quello che ci viene richiesto oggi è un continuo sviluppo di nuove competenze: legate all’AI, ma anche complementari. > Le soft skill diventano sempre più hard. 2) LE AZIENDE * Oggi sentiamo parlare dell'adozione di strategie “AI-first”.. con affermazioni forti da parte di importanti aziende tecnologiche. Che successivamente fanno marcia indietro, per poi provare ad accelerare nuovamente: è chiaro che siamo in un momento di transizione.. * ..e in un momento di transizione, diventano fondamentali percorsi di re-skilling e up-skilling strategici, per facilitare la dinamicità che viene richiesta alle persone, e una pianificazione accurata per evitare il rischio di effettuare scelte troppo brusche che possono diventare dannose nel lungo periodo. 3) LE ISTITUZIONI Dovranno mettere l’ingrediente della governance, attraverso: * politiche e strategie per preparare la società a un mondo che sarà diverso, e non solo in ambito lavorativo; * la gestione dello sviluppo tecnologico, per regolarne l’integrazione nella società in modo che sia sostenibile. 4) I LEADER TECNOLOGICI Dovranno lavorare sulla trasparenza e l’interpretabilità per i modelli che sviluppano, in modo da renderli usabili in ogni settore, eliminando o riducendo le "zone grigie" che caratterizzano queste tecnologie. Tutti i leader stanno lavorando a questo ingrediente, e Dario Amodei, CEO di Anthropic ne parla in un post molto interessante. Dario Amodei — The Urgency of Interpretability Inoltre, Anthropic ha anche condiviso recentemente uno strumento open source che traccia i circuiti interni dei LLM per individuare il processo che determina l’output. Open-sourcing circuit-tracing tools Anthropic is an AI safety and research company that’s working to build reliable, interpretable, and steerable AI systems. -------------------------------------------------------------------------------- > Questa è la ricetta.. e ci fa capire un concetto importante.. ovvero che il > cambiamento è, e rimarrà sempre, un’impresa comune. Come gestire la trasformazione: la ricetta -------------------------------------------------------------------------------- LA SCELTA È NOSTRA Il progresso tecnologico non si fermerà, e il nostro mais, nella padella rovente, scoppierà. > Sta a noi, collettivamente, attraverso delle scelte consapevoli, far sì che > possiamo gustarci i popcorn serenamente sul divano.. invece di dover passare > tutta la serata a ripulire la cucina. - GRAZIE - Se hai apprezzato il contenuto, puoi contribuire al progetto con una donazione 🙂 ISCRIVITI ALLA NEWSLETTER Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su tematiche relative all'intelligenza artificiale. Iscriviti alla Newsletter Email sent! Check your inbox to complete your signup. Gratuita. No Spam. Puoi disiscriverti quando vuoi. Consulta la privacy policy.
AI
GPT-4
Novità e Riflessioni
Gemini
Generative AI: novità e riflessioni - #4 / 2025
> Buon aggiornamento, e buone riflessioni.. -------------------------------------------------------------------------------- TEDX BERGAMO: POTERE Il 25 maggio avrò l'onore di essere sul palco di TEDx Bergamo 2025, e il tema centrale sarà "POTERE". > "POTERE" è la capacità di generare cambiamento. Attraverso l’AI, possiamo > affrontare sfide globali e aprire strade inedite. Ma c’è un potere ancora più > intimo e umano: quello di comprendere la trasformazione per decidere come > viverla e in quale direzione guidarla. > - Alessio Pomaro Vai ai Biglietti -------------------------------------------------------------------------------- WELCOME TO THE ERA OF EXPERIENCE Un paper (da leggere) in cui i ricercatori di Google DeepMind invitano a ripensare l'AI: > non come una copia dell’intelligenza umana, ma come un sistema autonomo che > impara, pianifica e agisce nel mondo reale. L'era dell'esperienza permetterà di superare i limiti dell’imitazione e raggiungere capacità realmente superumane? Secondo Silver e Sutton, la dipendenza dai dati umani (supervisionati o preferenziali) sta mostrando i suoi limiti. L’AI ha bisogno di nuovi stimoli, non più statici, ma dinamici, generati attraverso l’interazione continua con ambienti reali o simulati. Gli agenti del futuro non vivranno più in episodi brevi e scollegati, ma in "stream" di esperienza continua, adattandosi nel tempo e perseguendo obiettivi di lungo termine. Le ricompense non arriveranno da valutazioni umane, ma da segnali concreti e misurabili dell’ambiente: salute, apprendimento, scoperta scientifica. Non si tratta solo di efficienza, ma di visione. Uscire dal recinto del pensiero umano, imparare dal mondo, e scoprire strategie o conoscenze che ancora non esistono. Vai al paper > Un salto evolutivo, non solo tecnologico. -------------------------------------------------------------------------------- LA SPIEGABILITÀ DEI MODELLI DI AI Com'è noto, Anthropic sta facendo un grande lavoro sulla spiegabilità dei modelli di AI, condividendo paper e promuovendo delle riflessioni fondamentali. Il post pubblicato da Dario Amodei richiama con urgenza l'importanza di capire il funzionamento interno dei modelli prima che diventino troppo potenti. Un invito ad agire per chiunque lavori sull'AI o abbia a cuore il futuro della tecnologia, toccando anche argomenti delicati che riguardano la geopolitica ("I believe that democratic countries must remain ahead of autocracies in AI"). Anche se sembra una mossa ovvia da parte di chi possiede più esperienza di tutti in quest'ambito (e non possiede il modello più potente), ritengo sia un documento molto interessante per avere consapevolezza sull'argomento. Ho provato a sintetizzare i punti principali. * Amodei racconta come, in dieci anni di lavoro sull'AI, il settore sia passato da un ambito accademico a una delle questioni più decisive per il futuro dell'umanità. Anche se l’avanzamento è inarrestabile, possiamo influenzarne la direzione. Oggi, la vera sfida è l'interpretabilità: capire come funzionano internamente i sistemi prima che diventino troppo ampi per essere controllati. * L'AI generativa prende decisioni che non sappiamo spiegare: a differenza del software tradizionale, i suoi meccanismi interni emergono spontaneamente, rendendo difficile prevedere o correggere i comportamenti indesiderati. * Questa opacità alimenta rischi concreti, come comportamenti ingannevoli o usi pericolosi. Inoltre, senza spiegazioni comprensibili, l'AI non può essere applicata in settori critici come finanza o medicina. Se riuscissimo a "guardare dentro" ai modelli, potremmo prevenire errori e abusi. * Negli ultimi anni è nata l'interpretabilità meccanicistica, grazie a pionieri come Chris Olah. Dai primi studi sui modelli visivi si è passati a quelli linguistici, scoprendo milioni di concetti nascosti, anche se sovrapposti e complessi. Tecniche come gli autoencoder sparsi stanno aiutando a mappare e manipolare questi concetti, rendendo visibili anche i "ragionamenti" attraverso circuiti interni. * Nonostante i progressi, resta la sfida pratica: applicare l'interpretabilità per individuare e correggere "difetti" reali nei modelli. Esperimenti interni mostrano che è possibile. * Amodei conclude affermando che siamo in una corsa tra l'avanzamento dell'AI e la nostra capacità di interpretarla. Per vincere, serve: investire nella ricerca, promuovere la trasparenza, adottare misure geopolitiche. Vai al post > Capire i nostri modelli prima che trasformino il mondo è una responsabilità > che non possiamo rimandare. -------------------------------------------------------------------------------- AGENTIC AI: UN WEBINAR DI STANFORD Stanford ha pubblicato un'interessante lezione che riepiloga il funzionamento dei LLM e arriva fino agli AI Agent. Agentic AI: un webinar di Stanford I punti salienti.. * LLM Base: modelli che predicono i token successivi. Addestrati su enormi testi (pre-training), poi affinati (fine-tuning con SFT/RLHF) per seguire istruzioni e preferenze umane. * Limiti dei LLM: possono "allucinare" (dare informazioni errate), hanno conoscenza limitata nel tempo (knowledge cutoff), non citano fonti, non accedono a dati privati/real-time e hanno un contesto limitato. * RAG: fornisce contesto esterno rilevante (da documenti/DB) al LLM per risposte più accurate e aggiornate. * Tool Usage: permette ai LLM di usare API esterne o eseguire codice per accedere a dati real-time o fare calcoli. * Agentic AI: l'evoluzione dei LLM. Non solo testo, ma sistemi che: ragionano e pianificano (scompongono compiti), agiscono (usano RAG e Tools per interagire con l'ambiente), osservano (ricevono feedback dalle loro azioni) iterano (si adattano in un ciclo azione-osservazione-pianificazione). * Pattern Agentici, per costruire agenti efficaci: pianificazione, riflessione (auto-correzione), utilizzo di strumenti e collaborazione multi-agente (più agenti specializzati). > In breve, l'Agentic AI combina il ragionamento dei LLM con l'azione nel mondo > esterno, permettendo di affrontare compiti molto più complessi e interattivi. -------------------------------------------------------------------------------- "STOP & THINK" DI ANTHROPIC SU UN AGENT DI OPENAI CON O3 In questo esempio ho implementato la dinamica di "Stop & Think" definita da Anthropic su un Agent di OpenAI, basato su o3. In pratica, il sistema è configurato per eseguire un task estraendo i dati necessari attraverso "function calling". Una volta ottenuti i dati, prima di restituire l'output, usa una funzione di "reasoning", la quale sfrutta il modello per mettere in atto delle catene di pensiero che verificano i dati, creano il miglior piano d'azione per procedere, e controllano la conformità in base alle richieste. Se è tutto conforme, procede con l'output, altrimenti ripete le operazioni, finché il controllo sarà positivo (o fino al raggiungimento del numero massimo delle interazioni consentite). Una dinamica davvero interessante per migliorare la qualità dell'output. "Stop & Think" di Anthropic su un Agent di OpenAI con o3 > Il porting del codice di Anthropic per usare i modelli di OpenAI sul mio > esempio è stato generato interamente con Gemini 2.5 Pro. Il modello ha > prodotto tutto il codice partendo dall'esempio fornito da Anthropic + il > prompt che usavo in precedenza nel mio progetto, che eseguiva l'operazione in > un'unica azione. -------------------------------------------------------------------------------- OPENAI ACADEMY OpenAI ha lanciato ufficialmente l'AI Academy: una piattaforma formativa gratuita pensata per chi vuole portare l’AI dal laboratorio alla realtà operativa. OpenAI Academy I contenuti sono pensati per l’uso pratico: automazioni, agenti AI, pipeline con GraphRAG, Q&A su documenti, integrazioni reali con diversi modelli. Vai all'Academy TRA I PUNTI FORTI * Live coding sessions * Prompt engineering, fine-tuning, RAG, multimodalità * Esempi di codice commentato per API, automazioni e gestione dati * Percorsi ideali per chi è agli inizi o ha esperienza intermedia -------------------------------------------------------------------------------- LE NOVITÀ DI NOTEBOOKLM DI GOOGLE Google introduce due novità molto interessanti su NotebookLM. 1) RICERCA ONLINE Ora è possibile descrivere un argomento e ottenere una selezione di fonti rilevanti dal web, già riassunte dall'IA e integrabili con un clic al notebook. La ricerca online su NotebookLM di Google La nuova funzione "Carica Origini", alimentata da Gemini, permette di approfondire rapidamente qualsiasi tema e integrarlo con strumenti come briefing, FAQ e Audio Overviews. Ho provato lo strumento, e credo sia una funzionalità fantastica per esplorare gli argomenti. Ho inserito il topic, selezionato le fonti tra quelle suggerite, fatto richieste, generato note, creato un podcast interattivo. Vai al post > Ho detto spesso che l'integrazione dell'AI nel suo ecosistema è la vera forza > di Google. Verissimo, ma ora hanno anche il modello più performante. 2) AUDIO OVERVIEWS ANCHE IN ITALIANO Audio Overviews diventa disponibile in più di 50 lingue. L'italiano è tra queste, e l'ho provato su un notebook che ha come fonte l'ultimo post di Dario Amodei sull'importanza dell'interpretabilità dell'AI. Il prompt che ho usato è specifico, indicando l'ambito sul quale concentrarsi maggiormente. Audio Overviews in italiano: un test > Il risultato? Per me è incredibile. Una risorsa davvero interessante. > Immaginiamo solo la potenzialità per l'aggiornamento personale nelle > connessioni dei concetti su larga scala. -------------------------------------------------------------------------------- NON PUÒ ESISTERE LA FIGURA DEL PROMPT ENGINEER Il WSJ ha condiviso dei dati su un concetto che ho sempre sostenuto: non può esistere la figura del "prompt engineer". E non si tratta di obsolescenza di una professione, ma di consapevolezza di un miraggio. Il WSJ sulla figura del prompt engineer La motivazione che danno nell'articolo, però, è solo parzialmente centrata. Non è solo questione di avanzamento dei LLM nella comprensione delle richieste in linguaggio naturale. > Il fatto è che la capacità di ottenere l'output desiderato da un agente basato > sull'AI è una competenza trasversale che potenzia delle hard skill. Se non si > possiedono quelle hard skill, nessun "mago del prompt" potrà ottenere > risultati avanzati necessari in ambito professionale. Vai al post -------------------------------------------------------------------------------- PROMPT ENGINEERING: IL PAPER DI GOOGLE Google ha pubblicato un interessante documento sul "Prompt Engineering": una guida sulla creazione di prompt efficaci. Prompt Engineering: il paper di Google Non ci sono novità eclatanti, ma di certo un percorso chiaro e ordinato. Le parti più interessanti riguardano gli approcci Chain of Thought (CoT) e ReAct. * CoT è utile per migliorare l'accuratezza facendo sviluppare al LLM un "ragionamento" logico. * ReAct è utile per applicazioni che richiedono interazione con fonti esterne o task complessi. Vai al paper -------------------------------------------------------------------------------- OPENAI: 3 GUIDE PRATICHE DEDICATE ALL'AI 1- A PRACTICAL GUIDE TO BUILDING AGENTS È pensata per chi vuole costruire agenti AI in grado di svolgere task multi-step in autonomia. Descrive come scegliere i modelli, integrare strumenti e impostare istruzioni chiare. Spiega modelli di orchestrazione come il "manager agent" o sistemi decentralizzati, e introduce i "guardrail" per garantire sicurezza, privacy e intervento umano nei casi critici. Vai alla guida 2- IDENTIFYING AND SCALING AI USE CASES Offre un metodo per scoprire e scalare casi d’uso ad alto impatto. Si parte da sfide comuni come attività ripetitive, colli di bottiglia di competenze e ambiguità decisionali, e si esplorano sei "primitivi" come content creation, automazioni e analisi dati. Esempi come Promega, Tinder e BBVA mostrano come anche attività complesse possano essere trasformate in flussi AI scalabili. Vai alla guida 3- AI IN THE ENTERPRISE Raccoglie sette lezioni chiave per adottare l’AI su larga scala. Vengono presentati esempi concreti come Morgan Stanley, che ha migliorato l’efficienza dei suoi advisor grazie a valutazioni sistematiche (evals), e Indeed, che ha potenziato il job matching con GPT-4o mini. Klarna ha implementato un assistente AI per il customer service, riducendo i tempi di risposta da 11 a 2 minuti. La guida sottolinea l’importanza di investire presto, personalizzare i modelli, e mettere l’AI nelle mani degli esperti aziendali. Vai alla guida -------------------------------------------------------------------------------- I 30 PAPER DI ILYA SUTSKEVER > "If you really learn all of these, you’ll know 90% of what matters today". Con queste parole, Ilya Sutskever (co-founder di OpenAI) condivide quelli che ritiene i migliori 30 paper che riguardano l'AI. Vai ai paper Molti mi hanno chiesto suggerimenti per affrontare questi documenti, non semplici da consultare. Un buon aiuto per iniziare potrebbe essere l'utilizzo di NotebookLM di Google. Nelle immagini si può vedere il mio notebook. Una volta inseriti tutti i documenti e le pagine web, è possibile creare la mappa mentale interattiva: cliccando le voci il sistema usa Gemini per estrarre tutte le informazioni utili. Il mio notebook con i 30 paper di Ilya Sutskever Altra idea: attraverso un prompt, ho fatto sviluppare al LLM un corso con una serie di lezioni che esplorano tutti i concetti in modo sequenziale e connesso (con riferimenti alle fonti). > Mi piacerebbe condividerlo, ma NotebookLM non permette di farlo attraverso un > link, e ha politiche molto restrittive per gli utenti. Tuttavia è realizzabile > in modo semplice. -------------------------------------------------------------------------------- SHOPPING SU CHATGPT? OpenAI migliora l'esperienza di shopping su ChatGPT, con risultati migliorati, dettagli dei prodotti, prezzi e recensioni, con i link diretti per l'acquisto. La funzionalità è in fase di rilascio. 0:00 /0:25 1× Shopping su ChatGPT Un upgrade interessante, anche se l'esperienza di Google Shopping (soprattutto negli USA) è difficilmente eguagliabile. Tenendo conto anche del fatto che questi dati non sono interfacciati con i feed degli e-commerce. Nella documentazione parlano di "structured metadata from third-party providers", ma non è ben chiaro il processo: di certo non potrà essere strutturato come quello di Google. -------------------------------------------------------------------------------- NUOVI MODELLI PER OPENAI GPT-4.1 Il nuovo modello (senza "reasoning") più potente, veloce ed economico, ideale per coding, gestione dei contesti lunghi (1M di token) e per l'aderenza a precise istruzioni. E, come previsto, GPT-4.5 verrà dismesso a luglio. L'ho provato su diversi task (le immagini riportano qualche esempio): logica, matematica, coding, elaborazione di file lunghi, generazione di dati strutturati da contenuti non strutturati, analisi del testo, generazione di testo con precise istruzioni. GPT-4.1 di OpenAI: test Le impressioni sono ottime. Due note. 1. Con un singolo prompt (senza interazioni successive) ho realizzato un piccolo software con interfaccia grafica che raccoglie una serie di utility per i PDF (estrazione di pagine, compressione, conversione in immagini, rotazione, unione). 2. Da diversi test svolti nei mesi scorsi, su prompt con tantissime istruzioni, avevo sempre trovato GPT-4 migliore rispetto alla versione "o". Finalmente il 4.1 supera quel limite. Qualche dettaglio sul modello.. La nuova famiglia GPT-4.1 include tre versioni: Standard, Mini e Nano. Il modello non solo supera GPT-4o nei benchmark più rilevanti, ma in molti casi va oltre anche GPT-4.5, motivo per cui quest’ultimo verrà ritirato. È più preciso nei compiti multi-turno, più affidabile nei formati richiesti, e significativamente più performante nello sviluppo software (con +21% su SWE-bench). È pensato esclusivamente per l’uso via API: in ChatGPT, molte delle sue migliorie sono già confluite in GPT-4o e continueranno a essere integrate. Grazie a ottimizzazioni nel sistema di inferenza, GPT-4.1 è anche più economico del 26% rispetto a GPT-4o, mentre Nano è il modello più economico e rapido mai rilasciato. Vai al post > Anche OpenAI, come Google, dimostra l'avanzamento in termini di efficienza, > dopo il passo falso della versione 4.5. O3 E O4-MINI + CODEX CLI OpenAI ha presentato i nuovi modelli o3 e o4-mini (con avanzamenti della fase di reasoning), e ha lanciato Codex CLI (un AI Agent open-source). Ho provato o3 in diversi task: coding, generazione di testo, analisi dei dati, ricerca online, logica, matematica, istruzioni complesse, analisi delle immagini, e in un sistema multi-agent via API. o3 e o4-mini + Codex CLI: test * Sul coding, è molto performante: ho realizzato un'applicazione locale (Python) con interfaccia grafica che converte un gruppo di immagini in tutti i formati, con resize e gestione della qualità, funzionante alla prima esecuzione. * Fantastici la ricerca online e code interpreter in fase di reasoning, perché sono dinamici in base al flusso di ragionamento. * Ho provato anche Codex CLI, un agente AI per il terminale che consente di scrivere codice, navigare file, interpretare immagini e interagire con il computer in modo multimodale e controllato. Nel test, entro in una directory e faccio sintetizzare al modello un PDF locale. Una funzionalità davvero interessante. o3 è il modello più potente, dedicato a compiti complessi come coding, matematica, e ragionamento visivo. o4-mini, invece, offre prestazioni sorprendentemente elevate in rapporto a dimensioni e costi, risultando ideale per usi ad alto volume di richieste. Entrambi possono usare l’intera suite di strumenti di ChatGPT: ricerca web, code interpreter, generazione e modifica immagini, function calling e tool personalizzati. Per la prima volta, ragionano anche sulle immagini: le usano come parte integrante della catena di pensiero, sbloccando nuove modalità di problem solving. Le performance: o4-mini raggiunge il 93,4% di accuratezza su AIME 2024 e 2719 ELO su Codeforces. o3 ottiene 83,3% su GPQA (domande da PhD), 86,8% su MathVista, 78,6% su CharXiv, e domina nei task di software engineering, superando ampiamente i predecessori. La sicurezza è stata potenziata con nuovi sistemi di rifiuto delle richieste, rilevamento di prompt rischiosi e test rigorosi: entrambi i modelli restano sotto le soglie critiche su tutti i fronti (biochimica, cybersecurity, auto-miglioramento AI). Vai al post -------------------------------------------------------------------------------- UN TEST DI CODEX CLI > Codex CLI di OpenAI: l'ho provato con o3, ed è una bomba! Il dettaglio dei test che si vedono nel video.. 1. Entro nella directory di un'applicazione, avvio Codex e mi faccio spiegare la codebase. Successivamente, chiedo all'agente di modificare l'app e inserire il bottone per la "dark mode". Il sistema edita direttamente i file, ed esegue tutto perfettamente (nel video si vede anche l'app modificata). Può gestire anche l'interazione con GitHub autonomamente. 2. Entro in una directory dov'è presente un dataset in CSV. Attraverso un prompt dettagliato, chiedo all'agente di analizzare i dati, pulirli, e produrre una pagina web con un report. Non solo lo crea, ma fornisce anche il Python per aggiornare il report nel caso il dataset cambi. Un test di Codex CLI di OpenAI Cos'è Codex CLI? Si tratta di un AI Agent open source che funziona in locale, sfruttando qualunque modello di OpenAI. Consente di scrivere codice, navigare file, interpretare immagini e interagire con il computer in modo multimodale e controllato. -------------------------------------------------------------------------------- DISPONIBILITÀ GENERALE PER VEO 2 DI GOOGLE È già usabile via API, e chiaramente su AI Studio. Veo 2: un test su AI Studio Nel video si vedono due esempi di "image to video" e uno di "text to video". Nei due esempi di "image to video", le immagini sono state generate con il modello di OpenAI, in modo da essere coerenti. Usando Veo per animarle, si possono creare due clip da montare per un unico video. Vai al post -------------------------------------------------------------------------------- TEST: UN'APPLICAZIONE CON GEMINI 2.5 PRO Un esempio di generazione di un'applicazione da prompt testuale con Gemini 2.5 Pro: semplice, ma funzionante alla prima esecuzione! Ho chiesto al modello di creare un'applicazione che permette di caricare un file audio o video, e che produce la trascrizione con separazione degli speaker usando le API di Gemini (con download del TXT completo alla fine del processo). Il sistema ha prodotto un'applicazione basata su Flask, con la struttura delle directory, HTML, Python, requirements e il file "env" per le API key. Dopo aver avviato il server Flask, l'applicazione funziona via browser. Test: un'applicazione con Gemini 2.5 Pro > È semplice, ma ho impiegato più tempo a produrre il video rispetto a un > sistema utile e funzionante, senza errori da gestire. -------------------------------------------------------------------------------- LE NOVITÀ NEL WORKSPACE DI GOOGLE Con uno dei migliori modelli di AI a disposizione, e un ecosistema che fa già parte della quotidianità di un'enorme insieme di utenti, Google rilascia le nuove funzionalità per Workspace. La nuova ondata di strumenti basati su Gemini mira a migliorare concretamente l’efficienza aziendale: automazioni avanzate con Workspace Flows, assistenti intelligenti nei documenti, analisi dei dati semplificata e la possibilità di generare contenuti audio e video direttamente dalle app Workspace. * Workspace Flows usa agenti AI personalizzati (Gems) per gestire processi multi-step con logica e contesto, senza bisogno di codice. In pratica, si potranno creare flussi e automazioni che coinvolgono azioni di ogni software di Workspace. Google Workspace Flows * Docs introduce la lettura audio dei testi e la funzione "Help me refine" per migliorare la scrittura in modo evoluto. Il Canvas di ChatGPT direttamente su Google Docs. * Sheets include "Help me analyze", un analista AI sempre disponibile per scoprire insight nascosti nei dati. I più attenti avranno notato che è già disponibile su Colab. * Google Vids si potenzia con Veo2, generando video realistici direttamente dall'app. * Google Meet e Chat diventano ancora più smart con riepiloghi, note automatiche e suggerimenti in tempo reale. Vai al post > L'integrazione e l'accelerazione di Google.. si prepara a diventare > irraggiungibile? -------------------------------------------------------------------------------- UN AGENT BUILDER PER POSTMAN Postman ha presentato il suo AI Agent builder. Un sistema che permette di creare agenti basati su LLM, che possono usare una rete di oltre 100k API pubbliche. Il tutto attraverso un'interfaccia drag & drop. 0:00 /0:13 1× Un Agent Builder per Postman Vai al progetto > La prototipazione di applicazioni diventa sempre più agile. -------------------------------------------------------------------------------- GROK STUDIO xAI ha rilasciato Grok Studio, con la possibilità di eseguire il codice generato e il supporto a Google Drive. Grok Studio: un test È molto simile a Canvas su ChatGPT, ma la funzionalità di generazione report da un foglio dati è fantastica. La connessione a Google Drive è comoda, e permette di creare dei Workspace importando direttamente i file. > L'editor di ChatGPT è migliore, ma la generazione dei report è vincente. -------------------------------------------------------------------------------- LE API DI GROK 3 La "guerra dei prezzi" delle API dei LLM continua: xAI rilascia le API di Grok3 mini. In base ai dati diffusi, sembra che il modello superi diversi modelli di reasoning in diversi benchmark, con un prezzo di 5 volte inferiore. Le API di Grok 3 ALCUNI DETTAGLI * Grok 3 Mini guida le classifiche su test STEM avanzati, matematica e coding, superando modelli flagship 20 volte più costosi. * È 5 volte più economico di qualsiasi altro modello di reasoning sul mercato. * Ogni risposta API include l’intero "reasoning trace", grezzo e non filtrato. Vai alla documentazione -------------------------------------------------------------------------------- AI INDEX REPORT 2025 Stanford ha pubblicato l'AI Index Report 2025. AI Index Report 2025 > L’intelligenza artificiale evolve rapidamente, trasformando società ed > economia, tra progressi straordinari, investimenti globali e sfide ancora > aperte. UNA SINTESI DEI TAKE AWAY DEL REPORT 1. Le prestazioni dell’AI migliorano rapidamente nei benchmark avanzati. I modelli AI hanno fatto grandi progressi su nuovi benchmark complessi come MMMU, GPQA e SWE-bench, superando anche le performance umane in alcuni compiti di programmazione. 2. L’AI è sempre più presente nella vita quotidiana. L’intelligenza artificiale è ormai diffusa in settori come la sanità e i trasporti, con dispositivi medici approvati e robotaxi operativi su larga scala. 3. Le aziende puntano tutto sull’AI, trainando investimenti record. Gli investimenti privati negli Stati Uniti hanno raggiunto 109 miliardi di dollari nel 2024, con una crescita d’uso nelle aziende e prove sempre più solide del suo impatto positivo sulla produttività. 4. Gli Stati Uniti guidano, ma la Cina riduce il divario qualitativo. Gli USA producono più modelli AI di punta, ma la Cina li sta rapidamente raggiungendo in termini di qualità, mantenendo il primato per pubblicazioni e brevetti. 5. L’ecosistema dell’AI responsabile si evolve, ma in modo disomogeneo. Aumentano gli incidenti legati all’AI, mentre le valutazioni standardizzate sono ancora rare. I governi mostrano maggiore impegno con nuove linee guida sulla trasparenza e sicurezza. 6. L’ottimismo globale verso l’AI cresce, ma con forti differenze regionali. Paesi asiatici mostrano un forte ottimismo verso l’AI, mentre Stati Uniti, Canada ed Europa restano più scettici, sebbene con segnali di miglioramento. 7. L’AI diventa più efficiente, economica e accessibile. I costi per far girare modelli potenti sono crollati, mentre l’efficienza energetica è aumentata. I modelli open-source stanno colmando rapidamente il divario con quelli chiusi. 8. I governi aumentano regolamentazione e investimenti sull’AI. Nel 2024 le normative sull’AI sono raddoppiate negli USA e cresciute a livello globale, accompagnate da investimenti miliardari in vari paesi per sostenere l’innovazione. 9. L’educazione all’AI cresce, ma persistono disuguaglianze. Sempre più paesi offrono educazione informatica K-12, ma permangono barriere infrastrutturali, soprattutto in Africa, e molti insegnanti non si sentono pronti a insegnare l’AI. 10. L’industria domina lo sviluppo AI, ma la competizione si intensifica. La quasi totalità dei modelli più avanzati proviene dall’industria. Tuttavia, la differenza di prestazioni tra i migliori modelli si sta riducendo, segno di una frontiera sempre più affollata. 11. L’AI riceve riconoscimenti scientifici di massimo livello. Nel 2024 l’AI è stata protagonista di premi Nobel e del Turing Award, evidenziando il suo impatto decisivo nella scienza, dalla fisica al ripiegamento proteico. 12. Il ragionamento complesso resta una sfida. Nonostante i successi in compiti avanzati, i modelli AI faticano ancora con il ragionamento logico e la risoluzione di problemi complessi in contesti critici. Vai al report -------------------------------------------------------------------------------- WORK TREND INDEX 2025 DI MICROSOFT L'AI sta ridefinendo il lavoro nelle aziende, e Microsoft ne traccia i contorni nel suo Work Trend Index 2025. Il rapporto evidenzia come le organizzazioni che adottano l’AI in modo strutturale — definite "Frontier Firms" — registrano benefici tangibili: il 71% dei dipendenti afferma che la propria azienda sta prosperando, e l’83% dei leader riconosce che l’AI contribuisce a una maggiore adozione di compiti strategici. In parallelo, Microsoft ha presentato importanti evoluzioni per Copilot, puntando su un’integrazione sempre più pervasiva dell’AI nei flussi operativi. Copilot Studio è una nuova piattaforma low-code che consente alle imprese di costruire agenti intelligenti personalizzati, con memoria, capacità di pianificazione e integrazione via OpenAPI. Questi agenti possono operare all’interno delle app Microsoft 365 e connettersi a sistemi esterni come Jira, Miro o Monday. Sono stati inoltre lanciati due nuovi agenti nativi — Copilot Researcher e Copilot Analyst — pensati per attività di ricerca e analisi su larga scala, capaci di interagire con Word, Excel, Outlook e Teams grazie ai dati real-time di Microsoft Graph. Il tutto è orchestrato con modelli GPT-4-turbo, in grado di mantenere il contesto e generare output coerenti e document-aware. Vai al report -------------------------------------------------------------------------------- OPEN MANUS: UN TEST Ho provato Open Manus, il progetto open source che mira a replicare le capacità dell'Agente Manus AI. Nel video si vedono diversi task che l'agent (nel mio caso basato su GPT-4o) svolge in modo autonomo, sfruttando l'automazione del browser, e anche del computer locale. Open Manus: un test Le mie considerazioni: questo tipo di agenti sono davvero molto interessanti, ma acerbi per essere "liberati" a compiere operazioni autonome online senza riferimenti specifici. Vai al progetto > Ma di certo miglioreranno, e saranno direttamente nel browser, e > successivamente nei sistemi operativi. -------------------------------------------------------------------------------- FIREBASE STUDIO DI GOOGLE: UN TEST Google lancia Firebase Studio, un nuovo IDE open source basato sull’AI che unisce Project IDX, Genkit e i modelli Gemini in un’unica piattaforma per creare app full-stack. L'ho provato: con un prompt testuale ho creato un'applicazione che trasforma un contenuto in una mappa mentale modificabile. Con altri prompt successivi l'ho rifinita per ottenere il risultato che avevo in mente. Firebase Studio di Google: un test Il cuore del progetto è l’agente di prototipazione, capace di generare app Next.js complete in pochi secondi non solo da prompt testuali, ma anche da immagini, annotazioni visuali e schemi. L’ambiente crea UI, backend e integrazione AI in automatico, con anteprima nel browser, test mobile via QR code e codice pronto da modificare. L’IDE web-based, costruito su CodeOSS, offre funzionalità avanzate come modifica e debug nel browser, terminale integrato, suggerimenti di codice con Gemini e documentazione automatica. Il tutto gira su una VM configurabile con Nix, con supporto a oltre 60 modelli ufficiali e l’importazione da GitHub, GitLab e Bitbucket. Vai al post -------------------------------------------------------------------------------- TEST SU AI OVERVIEWS DI GOOGLE In questo test, in una SERP di Google in cui compare AI Overviews, ho considerato i contenuti nelle prime 12 posizioni e ho creato un piccolo RAG usando LangChain, Chroma DB e GPT-4o. > Inviandolo la query al RAG, ottengo una risposta simile a quella proposta da > AI Overviews. Test su AI Overviews di Google: RAG Chiaramente Google usa anche query correlate ("fan-out") e il Knowledge Graph per espandere i risultati. Quindi, il funzionamento l'abbiamo intuito, e possiamo anche pensare di usare dei modelli per misurare la pertinenza dei contenuti alle query per ragionare sul "posizionamento" su AI Overviews. > Chiaramente, il primo step rimane l'essere tra i risultati rilevanti, che > rappresentano la knowledge a disposizione del "RAG". COME ESSERE PRESENTI SU AI OVERVIEWS Per essere presenti nelle fonti delle risposte di AI Overviews (ma in generale nei sistemi ibridi come ChatGPT, Perplexity, ecc.), vanno considerati due aspetti. 1. Essere tra i risultati che il sistema prende in considerazione per la query principale (quella che scriviamo nel campo): tendenzialmente le prime due pagine dei risultati, compresi PAA e SERP snippet. 2. Intercettare risposte pertinenti (semanticamente vicine) alla query principale o a quelle secondarie che il motore genera per quel contesto ("fan-out"). > È come ragionare su un sistema RAG, in cui ogni documento è di un'azienda > diversa. Test su AI Overviews di Google: query Per la query "cos'è il CSSOM", ad esempio, il mio contenuto è in seconda pagina della SERP (è tra i risultati presi in considerazione), e intercetta la risposta ad una query secondaria ("come si applicano gli stili agli elementi HTML"). Ma se si cerca direttamente la query secondaria, il mio contenuto non è tra le fonti di AI Overviews, perché il contesto cambia, ed esistono molte fonti più rilevanti per questa query. Per la query "cosa sono i priority hints", il mio risultato è primo su Google, ma non compare tra le fonti di AI Overviews. Misurando la pertinenza semantica del mio contenuto con un algoritmo, infatti, risulta inferiore a quella dei risultati che invece compaiono. > Si tratta di un sottile equilibrio, non semplice da gestire e da controllare. -------------------------------------------------------------------------------- AGENT2AGENT (A2A) E AGENT DEVELOPMENT KIT (ADK) DI GOOGLE Google presenta Agent2Agent (A2A), un protocollo aperto per l'interoperabilità tra agenti AI, sviluppato in collaborazione con oltre 50 aziende (es. Atlassian, MongoDB, PayPal, Salesforce, SAP, Langchain). A2A consente agli agenti AI, anche se costruiti con tecnologie o da fornitori diversi, di comunicare, coordinarsi e scambiarsi informazioni in modo sicuro. È pensato per scenari enterprise complessi: dalla gestione della supply chain alla selezione del personale, fino all'automazione dei flussi di lavoro interni. 0:00 /1:22 1× Un esempio concreto: la ricerca dei candidati Basato su standard diffusi (HTTP, JSON-RPC, SSE), A2A supporta task rapidi o di lunga durata, anche multimodali (testo, audio, video). Ogni agente può esporre le proprie capacità tramite una “Agent Card” e collaborare con altri per completare compiti condivisi, producendo artefatti come risultati finali. Complementare al Model Context Protocol (MCP) di Anthropic, A2A punta a rendere gli agenti realmente interoperabili, scalabili e integrabili in ambienti già esistenti. Vai al post > Un passo chiave per costruire un ecosistema in cui gli agenti AI non siano > strumenti isolati, ma veri colleghi digitali capaci di collaborare in tempo > reale. A supporto dello sviluppo di AI agent interoperabili, Google ha rilasciato anche l’Agent Development Kit (ADK), un toolkit open-source in Python per costruire, testare e distribuire agenti complessi, modulari e orchestrabili. Con ADK, gli sviluppatori possono definire logiche, strumenti e workflow direttamente da codice, integrandoli con Google Cloud, Vertex AI o ambienti locali. Vai al progetto -------------------------------------------------------------------------------- PYSPUR: AI AGENT WORKFLOW PySpur è una nuova libreria open source che consente di creare workflow di AI Agent attraverso un'interfaccia drag & drop. 0:00 /0:22 1× PySpur: AI Agent Workflow Semplifica la creazione, il test e il deploy di agenti, riducendo i tempi di sviluppo. Si installa in pochi secondi con pip, permette l’aggiunta di tool personalizzati e l’esportazione degli agenti in JSON. Vai alla documentazione -------------------------------------------------------------------------------- GOOGLE IRONWOOD Google ha presentato Ironwood, la sua settima generazione di TPU (Tensor Processing Unit), progettata specificamente per l’inferenza nell’era dell’AI generativa. Ironwood è pensata per gestire modelli di "reasoning", come i LLM e le Mixture of Experts (MoE), offrendo prestazioni senza precedenti. TRA LE CARATTERISTICHE PRINCIPALI.. * Fino a 9.216 chip per pod, raggiungendo 42,5 Exaflops, più di 24 volte la potenza del supercomputer El Capitan. * Miglioramenti significativi in memoria (192 GB HBM per chip) e velocità di interconnessione tra chip (1,2 Tbps). * 2x più efficiente dal punto di vista energetico rispetto alla generazione precedente (Trillium). * Supporta carichi di lavoro AI intensivi con alta efficienza e scalabilità. * Utilizza la piattaforma software Pathways per facilitare l’elaborazione distribuita su larga scala. 0:00 /0:30 1× Google Ironwood Ironwood si inserisce nell’architettura AI Hypercomputer di Google Cloud, diventando la base per nuovi progressi nel campo dell’AI, tra cui modelli come Gemini 2.5 e AlphaFold. Vai al post > L'infrastruttura hardware sarà il fattore differenziante nel prossimo futuro? -------------------------------------------------------------------------------- OPENAI PRESENTA LE "EVALS" API Permettono di definire dei test, e di valutare rapidamente i prompt automatizzando le esecuzioni. OpenAI presenta le "Evals" API: un test Nell'esempio ho caricato nel Playground un CSV contenente stringhe e label. Successivamente ho configurato il test, creando un prompt dinamico che si valorizza attraverso i dati del CSV. L'ultimo ingrediente è un "grader" per valutare le risposte del modello in base a un criterio che possiamo definire. Il sistema esegue automaticamente tutti i prompt e possiamo valutare il risultato del test. Vai alla documentazione > Il tutto, completamente realizzabile via API: questo permette di creare > procedure di test per diverse versioni di prompt. -------------------------------------------------------------------------------- COPILOT SEARCH Bing lancia la risposta a AI Mode di Google: Copilot Search. Il funzionamento è molto simile: l'utente può porre una domanda, il sistema usa il reasoning per espandere la ricerca, estrae le fonti, e compone una risposta usando un LLM. Copilot Search di Bing È possibile visualizzare il "ragionamento" e le query correlate. Tutte le fonti sono consultabili. Successivamente permette delle ricerche di follow-up. Vai alla ricerca -------------------------------------------------------------------------------- MCP (MODEL CONTEXT PROTOCOL): UN TEST Un test in cui un Agente basato su o3 di OpenAI accede a file in locale attraverso il protocollo MCP (Model Context Protocol). MCP (Model Context Protocol): un test Come funziona? Ho implementato un server MCP che può effettuare diverse operazioni sul filesystem locale del mio laptop, e l'agente è connesso a quel server. Quando faccio richieste all'agente (che usa o3-mini via API), il sistema accede ai file in locale e cerca le informazioni necessarie per rispondere. Infine restituisce la risposta. Nell'area di tracciamento del Playground di OpenAI è possibile monitorare tutte le operazioni compiute dall'agente. > MCP permette di creare applicazioni basate sui LLM che accedono a dati, > software esterni e potenzialmente qualunque sistema. Questo apre la strada ad > automazioni davvero interessanti. -------------------------------------------------------------------------------- GEMINI LIVE: CONDIVISIONE SCHERMO E VIDEOCAMERA Su Gemini Live è disponibile anche in Italia la funzionalità di condivisione in real time dello schermo e della videocamera. Nel video, condivido lo schermo del mio dispositivo con l'assistente e interagisco attraverso la voce chiedendo informazioni su ciò che sto vedendo. Gemini Live: condivisione schermo > Queste funzionalità fanno comprendere il grande potenziale di interazione di > questi sistemi con il mondo reale. -------------------------------------------------------------------------------- CLAUDE FOR EDUCATION Claude for Education è il nuovo progetto di Anthropic pensato per rivoluzionare il mondo universitario con l’AI. Grazie alla modalità Learning Mode, Claude stimola il pensiero critico degli studenti invece di fornire risposte pronte, utilizzando domande socratiche e strumenti strutturati per lo studio. Partnership con università come Northeastern, LSE e Champlain College portano l'intelligenza artificiale in aula e negli uffici amministrativi, aiutando studenti, docenti e staff a lavorare in modo più efficace e intelligente. Vai al post > Con programmi dedicati agli studenti, API gratuite per progetti innovativi e > integrazione nei principali sistemi educativi come Canvas LMS, Claude si > afferma come un alleato concreto per un'educazione del futuro, costruita su > responsabilità, accessibilità e innovazione. -------------------------------------------------------------------------------- RUNWAY GEN-4 Runway ha presentato Gen-4, il nuovo modello dedicato ai contenuti visivi. Consente la generazione di immagini e video mantenendo coerenza tra personaggi, oggetti e ambientazioni anche in scenari complessi. Utilizza riferimenti visivi e istruzioni testuali per produrre contenuti uniformi in termini di stile, composizione e prospettiva, senza necessità di ulteriori addestramenti. Runway Gen-4: presentazione Tutti i brand che sviluppano modelli stanno creando piattaforme in grado di generare sia immagini che video, in modo da dare un'unica soluzione agli utenti. Vai al post > Nella presentazione parlano anche di "simulazione fisica".. su questo non sono > molto convinto, ma di certo i miglioramenti sono incredibili. -------------------------------------------------------------------------------- FLORA: DIVERSI MODELLI IN UN UNICO AMBIENTE Flora è un esempio di strumento che riunisce diversi modelli visuali in un unico ambiente consentendo sperimentazione e prototipazione rapida. Un esempio di utilizzo di Flora Nell'esempio si vede un progetto che parte da un'immagine generata da prompt testuale usando Flux Pro. Vengono create diverse inquadrature con prompt multimodale con Gemini 2.0 Flash. Infine le clip video usando Ray2 di Luma: da prompt + immagine, ma anche con prompt + due frame. Tra i vari modelli sono a disposizione anche Flux Dev, Ideogram, Stable Diffusion, Photon di Luma, Kling e Runway. Vai al progetto > Un tool davvero interessante, e la coerenza delle immagini è notevole. -------------------------------------------------------------------------------- SEAWEED: UN MODELLO DA 7B DI PARAMETRI CHE COMPETE CON I GIGANTI Seaweed 7B è un nuovo modello da 7 miliardi di parametri capace di competere con giganti del settore, ma con una frazione delle risorse. Seaweed: un nuovo modello di generazione video Addestrato con "sole" 665.000 ore di GPU H100, raggiunge livelli di qualità visiva, fedeltà al prompt e coerenza narrativa che lo pongono tra i migliori sistemi di generazione video. Con il supporto a testo, immagini e audio, Seaweed-7B genera video realistici, coerenti e controllabili fino a 720p in tempo reale. Il suo design include un VAE 3D causale e un Diffusion Transformer ottimizzato per performance e scalabilità, riducendo drasticamente i costi computazionali. Vai al progetto > Come abbiamo detto più volte, la scala non può essere l'unica leva per > migliorare le performance dei modelli. Ora serve evoluzione architetturale, e > questo è un esempio. -------------------------------------------------------------------------------- UI-TARS-1.5 DI BYTEDANCE ByteDance ha rilasciato UI-TARS-1.5, un agente multimodale basato su Qwen2.5-VL-7B che unisce visione e linguaggio con "reasoning". UI-TARS - Next-generation native GUI agent model UI-TARS:Next-generation native GUI agent model designed to interact seamlessly with GUIs using human-like perception UI-TARS Team Il modello valuta prima di agire, migliorando l’esecuzione dei task in ambienti complessi. Brilla nei benchmark GUI, superando modelli come Claude 3.7 e OpenAI CUA in compiti su desktop e browser. Ottimi risultati anche in giochi web, grazie a una forte capacità di pianificazione a lungo termine. Si distingue nella navigazione web con performance superiori in SimpleQA e BrowseComp, gestendo con precisione interazioni real-time su interfacce grafiche. In ambienti 3D come Minecraft, batte agenti top usando input visivi e controlli nativi, migliorando le decisioni grazie al suo modulo di “pensiero prima dell’azione”. -------------------------------------------------------------------------------- MIDJOURNEY V7 Midjourney mancava da tempo in ambito di rilasci, ma ora annuncia la versione V7 del suo modello, attualmente in fase Alpha. Più intelligente nell’interpretazione dei prompt testuali, offre una qualità visiva superiore e migliora drasticamente la coerenza nei dettagli di corpi, mani e oggetti. Vai al post V7 introduce per la prima volta la personalizzazione del modello attiva di default, che si sblocca in circa 5 minuti. Questa funzione mira a interpretare meglio ciò che l’utente desidera e trova visivamente affascinante. Grande novità è anche il Draft Mode, che consente rendering 10 volte più veloci al 50% del costo. È pensato per esplorare idee in modo rapido: le immagini sono a qualità ridotta, ma esteticamente coerenti. È disponibile anche una modalità vocale per iterare i prompt in modo conversazionale. -------------------------------------------------------------------------------- - GRAZIE - Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre persone, condividilo 🙂 ISCRIVITI ALLA NEWSLETTER Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su tematiche relative all'intelligenza artificiale. Iscriviti alla Newsletter Email sent! Check your inbox to complete your signup. Gratuita. No Spam. Puoi disiscriverti quando vuoi. Consulta la privacy policy.
AI
GPT-4
Novità e Riflessioni
Gemini
SEO
Agents e Reasoners: dalla scala all'ottimizzazione.. fino all'integrazione
> La recente storia dell'AI potrebbe essere sintetizzata in una sola parola: > “SCALA”. Così Noam Brown (Research Scientist di OpenAI) inizia il suo TED AI di San Francisco. Quindi, performance = modelli sempre più grandi, addestrati da sempre più dati e con una potenza di calcolo necessaria sempre maggiore. Agents e Reasoners - L'intervento integrale dall'AI Festival 2025 Le statistiche dimostrano questo aspetto: il diagramma che segue, infatti, mostra la crescita della potenza di calcolo necessaria per addestrare i modelli che utilizziamo abitualmente, con un incremento consistente in quella che viene definita "Deep Learning Era". Crescita della potenza di calcolo necessaria per addestrare i modelli Ultimamente, però, sembra che la crescita di performance derivante direttamente dalla scala si stia attenuando. L’anno scorso, sul palco dell'AI Festival, dissi che il riferimento era ancora la serie di modelli GPT-4.. Oggi, un anno dopo, la situazione non è cambiata significativamente, ma i competitor, con modelli open source e non, hanno ridotto il gap. Anche esperti influenti come Ilya Sutskever, hanno sottolineato questa attenuazione. La stessa OpenAI ha nominato il nuovo modello GPT-4.5 e non GPT-5.. probabilmente perché non ha rappresentato un salto qualitativo degno di quel nome. Anche Dario Amodei, CEO di Anthropic, in una recente intervista, ha affermato che Claude 3.7 è stato uno step evolutivo, ma non abbastanza da giustificare la versione "4".  -------------------------------------------------------------------------------- LE LEGGI DI SCALA E LA SOSTENIBILITÀ Si pone quindi una domanda cruciale: conviene ancora investire sulla scala? Per rispondere alla domanda ci sono due considerazioni da fare. * Non è mai stato garantito che le leggi di scala sarebbero state valide per sempre: si tratta di osservazioni empiriche, regole statistiche e sperimentali. * L'aumento della scala di altri ordini di grandezza comporterebbe costi e consumi di risorse enormi. Questo avviene oggi, naturalmente. Sul futuro torneremo tra poco. FINE DELLA CRESCITA O NUOVA FASE? Dunque, la crescita dell’AI è finita?   > No, anzi, mi sento ancora di dire che siamo solo all’inizio. Di certo si attenuerà l’investimento "cieco" sulla scala, a vantaggio di un maggiore interesse per l'efficienza, le architetture innovative e, soprattutto, l'integrazione. EFFICIENZA: IL NUOVO PARADIGMA L'efficienza sta diventando una delle chiavi dello sviluppo futuro. Un ottimo esempio di questo è il paper di DeepSeek R1, che non introduce elementi rivoluzionari dal punto di vista architetturale (è un modello basato su transformer e reinforcement learning in fase successiva), concentrandosi però sull’efficientamento, cioè sulla capacità di ottenere performance elevate con meno risorse durante la fase di training. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning We introduce our first-generation reasoning models, DeepSeek-R1-Zero and DeepSeek-R1. DeepSeek-R1-Zero, a model trained via large-scale reinforcement learning (RL) without supervised fine-tuning (SFT) as a preliminary step, demonstrates remarkable reasoning capabilities. Through RL, DeepSeek-R1-Zero naturally emerges with numerous powerful and intriguing reasoning behaviors. However, it encounters challenges such as poor readability, and language mixing. To address these issues and further enhance reasoning performance, we introduce DeepSeek-R1, which incorporates multi-stage training and cold-start data before RL. DeepSeek-R1 achieves performance comparable to OpenAI-o1-1217 on reasoning tasks. To support the research community, we open-source DeepSeek-R1-Zero, DeepSeek-R1, and six dense models (1.5B, 7B, 8B, 14B, 32B, 70B) distilled from DeepSeek-R1 based on Qwen and Llama. arXiv.orgDeepSeek-AI LA CRESCITA DELL'OPEN SOURCE In generale, i miglioramenti che stiamo osservando nei modelli open-source, ad esempio DeepSeek R1, QwQ-32B di Qwen (Alibaba), Ernie 4.5 e X1 (Baidu), permettono di ragionare su tecniche come la quantizzazione e la distillazione, che riducono significativamente le dimensioni dei modelli mantenendo elevate performance. Questo permette anche di far funzionare i modelli in dispositivi con hardware limitati. Nel video seguente, ad esempio, è possibile vedere DeepSeek R1 funzionare sul mio laptop. Si tratta della versione 8B, basata su architettura Llama, con quantizzazione a 4 bit (Q4_K_M). DeepSeek R1 in locale: un test sul mio laptop E stanno nascendo nuove tecniche come MatQuant di Google DeepMind, che mette in azione una quantizzazione multi-scala che sfrutta la struttura nidificata degli interi per ottimizzare modelli a diverse precisioni (int8 → int4 → int2) mantenendo un’accuratezza elevata. Matryoshka Quantization Quantizing model weights is critical for reducing the communication and inference costs of large models. However, quantizing models -- especially to low precisions like int4 or int2 -- requires a trade-off in model quality; int2, in particular, is known to severely degrade model quality. Consequently, practitioners are often forced to maintain multiple models with different quantization levels or serve a single model that best satisfies the quality-latency trade-off. On the other hand, integer data types, such as int8, inherently possess a nested (Matryoshka) structure where smaller bit-width integers, like int4 or int2, are nested within the most significant bits. This paper proposes Matryoshka Quantization (MatQuant), a novel multi-scale quantization technique that addresses the challenge of needing multiple quantized models. It allows training and maintaining just one model, which can then be served at different precision levels. Furthermore, due to the co-training and co-distillation regularization provided by MatQuant, the int2 precision models extracted by MatQuant can be up to $10\%$ more accurate than standard int2 quantization (using techniques like QAT or OmniQuant). This represents significant progress in model quantization, demonstrated by the fact that, with the same recipe, an int2 FFN-quantized Gemma-2 9B model is more accurate than an int8 FFN-quantized Gemma-2 2B model. arXiv.orgPranav Nair -------------------------------------------------------------------------------- ARCHITETTURA: "REASONING" E AI AGENTS Noam Brown, che in OpenAI si occupa proprio di multi-step reasoning e multi-agent AI, durante il talk citato in precedenza ha raccontato un'esperienza del suo dottorato di ricerca, dicendo che permettere a un modello di "pensare" per 20 secondi (dove per pensare intende un’esecuzione lenta, step by step) ha generato un miglioramento delle prestazioni equivalente a un aumento della scala di ben 100.000 volte. Ecco perché oggi stiamo assistendo a un rilascio costante di modelli basati sulla dinamica di “reasoning” o “thinking”. Alcuni esempi: la serie o1 e o3 di OpenAI, Gemini, DeepSeek, Claude, QwQ di Qwen, e Grok. E anche GPT-5 sarà basato su questo concetto. Come funziona il "reasoning"? Il modello, prima di produrre l’output produce dei token dedicati a sviluppare catene di pensiero (o di ragionamento), con lo scopo di migliorare la qualità dell’inferenza. Quello che segue è un esempio in cui possiamo vedere la fase di reasoning di QwQ-32B nella chat di Qwen. Un test di QwQ-32B nella chat di Qwen E questo concetto di miglioramento della qualità dell’inferenza, non vale solo per i Large Language Model. "Inference-Time Scaling for Diffusion Models beyond Scaling Denoising Steps", ad esempio, è un paper di Google DeepMind che dimostra come, lavorando sull’ottimizzazione della del processo di diffusione, sia possibile migliorare la qualità della generazione delle immagini senza agire sulla scala. Inference-Time Scaling for Diffusion Models beyond Scaling Denoising Steps Generative models have made significant impacts across various domains, largely due to their ability to scale during training by increasing data, computational resources, and model size, a phenomenon characterized by the scaling laws. Recent research has begun to explore inference-time scaling behavior in Large Language Models (LLMs), revealing how performance can further improve with additional computation during inference. Unlike LLMs, diffusion models inherently possess the flexibility to adjust inference-time computation via the number of denoising steps, although the performance gains typically flatten after a few dozen. In this work, we explore the inference-time scaling behavior of diffusion models beyond increasing denoising steps and investigate how the generation performance can further improve with increased computation. Specifically, we consider a search problem aimed at identifying better noises for the diffusion sampling process. We structure the design space along two axes: the verifiers used to provide feedback, and the algorithms used to find better noise candidates. Through extensive experiments on class-conditioned and text-conditioned image generation benchmarks, our findings reveal that increasing inference-time compute leads to substantial improvements in the quality of samples generated by diffusion models, and with the complicated nature of images, combinations of the components in the framework can be specifically chosen to conform with different application scenario. arXiv.orgNanye Ma LATENT REASONING Esistono già idee di sviluppo ulteriori in ambito di "reasoning". Il paper dal titolo "Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach", ad esempio, descrive un approccio per il quale il processo di "ragionamento" non avviene attraverso la generazione di token di reasoning (quindi catene di pensiero esplicite), ma all’interno dello spazio latente del modello.. ovvero prima dell’inferenza, attraverso calcoli vettoriali. Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach We study a novel language model architecture that is capable of scaling test-time computation by implicitly reasoning in latent space. Our model works by iterating a recurrent block, thereby unrolling to arbitrary depth at test-time. This stands in contrast to mainstream reasoning models that scale up compute by producing more tokens. Unlike approaches based on chain-of-thought, our approach does not require any specialized training data, can work with small context windows, and can capture types of reasoning that are not easily represented in words. We scale a proof-of-concept model to 3.5 billion parameters and 800 billion tokens. We show that the resulting model can improve its performance on reasoning benchmarks, sometimes dramatically, up to a computation load equivalent to 50 billion parameters. arXiv.orgJonas Geiping -------------------------------------------------------------------------------- IL RUOLO CRESCENTE DEGLI AI AGENTS Un ulteriore ambito di grande sviluppo, sempre in ambito dell'evoluzione dell'architettura, riguarda gli AI Agents. Ma arriviamoci partendo da due considerazioni sullo scenario che stiamo vivendo.. 1. In questo momento abbiamo una grande ricchezza di modelli performanti, sia open source, sia "chiusi": possiamo dire, con una dose di semplificazione, che le prestazioni stanno convergendo, e i modelli andranno ad equipararsi. 2. I prezzi per token, nel tempo, stanno scendendo in modo importante. E credo che nei prossimi anni si arriverà a zero. A questo proposito, ad esempio, Baidu ha recentemente rilasciato la versione 4.5 di Ernie, che costa la metà di DeepSeek e un infinitesimo di GPT-4.5. Le performance dei modelli stanno convergendo, e il prezzo per token sta scendendo Questa situazione, in cui i LLM si equiparano e il prezzo per token diventa trascurabile, fa sì che l'attenzione si sposti dai modelli a quello che possiamo definire "layer applicativo" (applicazioni basate sui modelli).. e gli AI Agents sono proprio quel layer applicativo. > I LLM, in un certo senso, diventeranno parte dell’infrastruttura, una sorta di > commodity che permette di dare vita alle applicazioni del futuro. STRUTTURA E VANTAGGI DEGLI AI AGENTS Un AI Agent presenta una struttura composta principalmente da un modello, un sistema di orchestrazione (che ne determina il comportamento, la metodologia nella pianificazione delle operazioni, e può essere dotato di memoria per migliorare e personalizzare le performance nel tempo), e l'interfacciamento con tool esterni per eseguire azioni specifiche. Lo schema che segue, che deriva dal paper di Google dal titolo "Agents", sintetizza in modo esaustivo l'architettura. La struttura di un AI Agent Mella prenotazione di un volo, ad esempio, un utente può interagire con un agent specializzato che processa la richiesta, orchestra i processi, interroga i servizi esterni, e restituisce una risposta completa e contestualizzata. Un esempio dell'utilizzo di un AI Agent Rispetto a un'interazione diretta con un LLM una struttura di questo tipo ha diversi vantaggi, ad esempio: * accesso a dati in tempo reale; * memoria e personalizzazione; * ragionamento avanzato; * maggiore affidabilità; * scalabilità e automazione. FRAMEWORK E WORKFLOW AGENTICI Nel prossimo futuro, potremo creare sempre più facilmente AI Agents sfruttando dei framework. Parallelamente, le piattaforme metteranno a disposizione agenti per ogni funzionalità. Google, ad esempio, sta lanciando l’Agent Space e Microsoft il Copilot Studio. E abbiamo già iniziato a usare sistemi basati su agenti, ad esempio Operator di OpenAI, Deep Research, e OmniParser di Microsoft. Framework come Autogen, Crew AI e Lang Graph, invece, permettono di creare agenti e workflow agentici per creare sistemi di automazione. OpenAI, a questo proposito, ha appena rilasciato nuovi strumenti dedicati allo sviluppo di AI Agents personalizzati e sistemi multi agente. Nello specifico: * Responses API – L’API per la costruzione di agenti, che combina la semplicità della Chat Completions API con le capacità di utilizzo degli strumenti dell’Assistants API. Con una singola chiamata, gli sviluppatori possono orchestrare più strumenti e modelli, rendendo gli agenti più intelligenti e operativi. * Agents SDK – Un framework open-source per orchestrare gli agenti e gestire flussi di lavoro complessi. Grazie a questo strumento, gli sviluppatori possono creare agenti che collaborano tra loro con handoff intelligenti, tracciamento avanzato e guardrail di sicurezza integrati. Per approfondire Andrew NG, riferendosi agli AI Agent, afferma addirittura che i workfow basati su AI Agent guideranno il prossimo sviluppo dell’AI più della prossima generazione di foundation models. Online troviamo diversi schemi di workflow agentici, più o meno teorici. Con il mio team, stiamo realizzando una sperimentazione con Alpinestars in cui usiamo un workflow multi-agent per ottenere traduzioni di alcuni contenuti dell’e-commerce in 9 lingue. Il seguente video mostra un'esempio di interazione. Un sistema multi agent per generare traduzioni di qualità COME FUNZIONA? * I dati da tradurre vengono estratti dal database e consegnati da un agente proxy al team di lavoro. * Nel "team virtuale" sono presenti diversi agenti traduttori esperti del dominio, ma con verticalità diverse, i quali si confrontano ottimizzando la traduzione ad ogni interazione, migliorando i termini utilizzati, la forma, ecc.. * Il lavoro passa a un agente SEO Specialist, che, accedendo anche a dei tool di analisi delle ricerche degli utenti, suggerisce al team l’utilizzo di determinati termini. * Un agente specializzato nell'inserimento di link nei contenuti, sfruttando la conoscenza dell’e-commerce, inserisce nel testo tradotto dei link strategici verso le categorie più interessanti. * Un agente editor manager produce la revisione finale ottimizzando l'output (ad esempio, togliendo eventuali ripetizioni e migliorando le forme di espressione nella lingua di destinazione). * Infine, l'agente team leader consegna l’output che viene salvato nel database. Il sistema è stato realizzato usando Autogen come framework, mentre gli agenti sono basati su modelli di OpenAI. Alcuni sfruttano anche il reasoning di o3-mini. QUALI SONO I VANTAGGI DI UN SISTEMA COME QUESTO? * Specializzazione e collaborazione: ogni agente è verticale in un'attività e collabora con gli altri per migliorare l’output. * Scalabilità e flessibilità: per aggiungere ulteriori funzionalità al sistema, è sufficiente aggiungere uno o più agenti con specifiche capability. * Robustezza e affidabilità: nel workflow possiamo avere agenti dedicati al controllo dei flussi e dell'output. Nell'esempio, l'agente "editor manager" e "team leader" hanno proprio questa funzione. -------------------------------------------------------------------------------- I sistemi agentici si stanno evolvendo rapidamente, e iniziamo a vedere applicazioni interessanti. Un esempio è AI co-scientist di Google: un sistema multi agent basato su Gemini 2.0 che genera ipotesi, pianifica esperimenti e migliora in modo iterativo i risultati, fungendo da collaboratore virtuale per i ricercatori. Stanno nascendo, inoltre progetti come Manus. Si tratta di un nuovo AI agent "generale" in grado di eseguire compiti attraverso la pianificazione e azioni autonome, il tutto attraverso l'interazione multimodale di un LLM con un computer.  La presentazione di Manus Nel seguente esempio, invece, un agent (Operator di OpenAI) gestisce un altro agente su Replit per sviluppare un’applicazione in modo autonomo. In questo caso, non abbiamo un framework che gestisce gli agenti, ma si tratta di un'interazione multimodale via browser.. esattamente come farebbe un essere umano. Operator di OpenAI che controlla l'agente di Replit Quando ho visto questa interazione, ho pensato a un talk interessante che ho visto recentemente: quello del CEO di Nvidia al CES di Las Vegas. Nell'intervento, viene mostrata una traiettoria che unisce l'AI Generativa all'AI Agentica, fino ad arrivare all’AI Fisica: un’AI che interagisce direttamente con il mondo reale, trovando applicazioni, ad esempio, in ambito della robotica. Questo passaggio fa capire molto bene un aspetto del quale si parla troppo poco.. o forse non se ne parla affatto: > La differenza tra un workflow multi-agent in grado di produrre una traduzione > di qualità (AI Agentica), e un workflow multi-agent in grado di controllare > dei robot che gestiscono un magazzino (AI Fisica) non è poi così marcata: > cambiano gli input, cambiano le istruzioni di orchestrazione, cambiano i tool > a disposizione, che da digitali diventano fisici.. ma l'architettura del > sistema è praticamente la stessa. Per sottolineare ulteriormente questo concetto, Google DeepMind ha recentemente rilasciato Gemini Robotics: un modello basato su Gemini 2.0 (lo stesso che usiamo nella chat!) con l'aggiunta di "azioni fisiche" come tipologia di output allo scopo di controllare direttamente i robot. Gemini Robotics: un esempio di applicazione Il robot nel video, è controllato dallo stesso modello che usiamo nella chat di Gemini. > Credo che il passaggio all'AI fisica renderà molto più tangibile per tutti il > progresso di questi sistemi, perché traccerà lo switch di pensiero da > considerarli "giochini che scrivono testo in una chat" a "robot che ci > affiancheranno in qualunque mansione". Per approfondire Chi si ricorda il meme "Hey ChatGPT, finish this building.."? Hey ChatGPT, finish this building -------------------------------------------------------------------------------- GLI SVILUPPI FUTURI: MODELLI E HARDWARE Abbiamo visto il passaggio dalla "scala" all'efficienza e al miglioramento architetturale.. Ma tutto questo significa che l’evoluzione dei modelli si fermerà? Assolutamente no: stanno emergendo già nuovi approcci e tecnologie avanzate da questo punto di vista. Allo stesso modo, anche l’hardware continuerà a evolversi rapidamente, come dimostrato da Nvidia al CES 2025: > ormai possiamo avere un supercomputer delle dimensioni di un laptop.  Forse, un giorno, potremo avere la potenza di calcolo, i dati sintetici e l’efficienza necessari per tornare a ragionare sulla scala.. e magari ci accorgeremo che le leggi di scala sono sempre state valide. Non possiamo sapere come andrà, ma la direzione sembra chiara, e la scopriremo insieme.. Ma sempre più attenti, sempre più critici, sempre più consapevoli.. Ma dovremo lavorare con impegno per acquisire queste qualità, attraverso studio, ricerca, sperimentazione, e un approccio flessibile. > Buon percorso. -------------------------------------------------------------------------------- - GRAZIE - Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre persone, condividilo 🙂 ISCRIVITI ALLA NEWSLETTER Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su tematiche relative all'intelligenza artificiale. Iscriviti alla Newsletter Email sent! Check your inbox to complete your signup. Gratuita. No Spam. Puoi disiscriverti quando vuoi. Consulta la privacy policy.
AI
GPT-4
Novità e Riflessioni
Gemini
Generative AI: novità e riflessioni - #2 / 2025
> Buon aggiornamento, e buone riflessioni.. -------------------------------------------------------------------------------- UN CORSO GRATUITO SUGLI AI AGENTS Microsoft ha rilasciato un corso gratuito dedicato agli AI Agents. Un percorso in 10 lezioni che parte dalla comprensione del concetto di agente fino allo sviluppo e alla produzione. Un corso gratuito sugli AI Agents Include anche esempi di implementazione di workflow multi-agent usando Autogen. È un contributo davvero interessante. Insieme al corso "Generative AI for beginners" lo terrei tra le risorse da consultare di casa Microsoft. Vai al corso -------------------------------------------------------------------------------- GROK 3 DI XAI Il team di xAI ha presentato Grok 3, e ha annunciato che renderà open source Grok 2 una volta che il 3 sarà "maturo". Il modello è in due varianti (standard e mini) per bilanciare velocità e accuratezza, e ha la componente di "reasoning", simile a quella di o3, di Gemini e DeepSeek. La modalità "Big Brain", invece, è una versione ancora più potente, che usa più potenza di calcolo per task complessi. Non potevano mancare gli Agenti, con l'integrazione dell'ormai immancabile "Deep Search", che recupera informazioni su X e online per creare report dettagliati. Secondo il team, i modelli superano quelli di OpenAI su diversi benchmark. Grok 3 di xAI > Ormai il livello generale delle performance dei LLM è elevato, mentre il > riferimento continua a rimanere GPT-4x (una costante da oltre un anno). I > modelli stanno diventando sempre di più una commodity per creare applicazioni > ibride (agenti) verticali. UN TEST DEL MODELLO Ho fatto alcuni test usandolo anche in configurazione di "reasoning", Deep Search e generazione di immagini. Un test di Grok 3 Il modello è senza dubbio performante, ma ho l'impressione che o3 abbia una marcia in più nel reasoning. La Deep Search è più veloce di quella di Gemini, ma anche meno approfondita: probabilmente è una scelta. Quella di OpenAI rimane la più dettagliata. Interessante la suddivisione tra risposta diretta e note dettagliate. Attualmente il modello è primo nella LLM Chatbot Arena Leaderboard. LLM Chatbot Arena Leaderboard -------------------------------------------------------------------------------- LE NOVITÀ DI OPENAI OpenAI ha fatto diversi rilasci nell'ultimo mese. Vediamo i più importanti. IL LANCIO DI GPT-4.5 OpenAI annuncia GPT-4.5, ma non ha convinto. Altman non ha partecipato alla presentazione, e ha lasciato un post su X abbastanza "sulla difensiva". Il modello è ampio, e necessita di molta potenza di calcolo. Per questo, ha API costosissime: x30 (input) e x15 (output) rispetto a GPT-4o, e x3 rispetto a o1.. > Mi chiedo in quale caso potrebbe aver senso usarle, considerando che non > sembra che ci sia stato un forte balzo evolutivo. Anche perché, altrimenti, > l'avrebbero definito GPT-5. Scrivono, addirittura: "we’re evaluating to continue serving it in the API long-term as we balance supporting current capabilities with building future models". Sembra quasi un rilascio di risposta ai competitor, utile a riprendere la leadership, in attesa degli sviluppi successivi. Infatti il modello ha raggiunto Grok-3 nella LLM Chatbot Arena Leaderboard. Il lancio di GPT-4.5 Caratteristiche GPT-4.5 viene descritto come il modello più potente di casa OpenAI. Sarà disponibile per ChatGPT Pro e via API (per gli utenti Plus arriverà in seconda battuta). Grazie a un apprendimento non supervisionato avanzato, offre migliore comprensione, minori allucinazioni e interazioni più naturali. * Maggiore accuratezza e affidabilità nelle risposte. * Interazioni più fluide, empatiche e contestualizzate. * Eccellenza in scrittura, programmazione e risoluzione di problemi complessi. * Riduzione significativa degli errori e delle informazioni inesatte. > Il fatto che la "scala" OGGI non sia più una leva di crescita delle > performance è sempre più evidente. Questo sembra davvero un rilascio > dimostrativo solo per "guardare" (su ChatGPT) ma "non toccare" (via API). DEEP RESEARCH DISPONIBILE ANCHE PER GLI UTENTI PRO L'agent di Deep Research è stato rilasciato anche per gli utenti Plus. L'ho provato. Il sistema, inizialmente, fa domande di follow-up se la richiesta è troppo generica, e successivamente fa partire il lavoro di "scoperta". * Inizia con una ricerca, e man mano che analizza risultati, espande l'approfondimento degli argomenti. * Mostra sia il flusso di ragionamento, sia la lista delle fonti. * Lavora in maniera leggermente diversa dall'agent di Google: mentre Gemini crea un piano d'azione sugli argomenti e chiede conferma prima di iniziare, l'agent di OpenAI costruisce il piano in base all'esplorazione. * Il risultato di OpenAI sembra più curato ed esteso, infatti è anche più lento: la stessa ricerca ha impegnato qualche minuto Gemini e quasi 17 minuti ChatGPT. Un test di Deep Research su ChatGPT > È affascinante vedere questi sistemi in esecuzione, e permettono di creare dei > report finali che fanno risparmiare grandi quantità di lavoro in fase di > analisi. O1 E O3 ORA SUPPORTANO IL CARICAMENTO DI FILE E IMMAGINI Un passo in avanti è stato fatto, ora manca Code Interpreter per l'analisi dei dataset. Nell'esempio, carico un documento tecnico e fornisco istruzioni a ChatGPT per estrarre tutti i dati in modo strutturato. o3-mini: l'elaborazione di documenti > Con o3, ultimamente, sono riuscito a eseguire operazioni che mi hanno davvero > fatto risparmiare molto tempo. L'INTERAZIONE CON CHATGPT VIA WHATSAPP Si evolve l'interazione di ChatGPT via WhatsApp, con la possibilità di caricare immagini e interagire attraverso messaggi vocali. L'interazione con ChatGPT via Whatsapp > Sembra un aggiornamento banale, ma intercetta esattamente le dinamiche delle > interazioni tra le persone, rendendo il sistema usabile da chiunque. -------------------------------------------------------------------------------- CLAUDE 3.7 SONNET DI ANTHROPIC Anthropic lancia Claude 3.7 Sonnet, con la funzionalità di "reasoning" (nella versione estesa solo per utenti Pro). Nel post di presentazione viene descritto come un approccio diverso dai competitor: un unico modello che può essere sfruttato con o senza ragionamento avanzato. > Sinceramente, credo che la base sia la stessa anche per i competitor. Grok, ad > esempio, funziona allo stesso modo, e anche GPT-5 uniformerà completamente i > modelli di OpenAI. L'ho provato, e chiaramente è molto performante, e, come sempre, lato coding è tra i migliori. Un test di Claude 3.7 Sonnet > Ormai siamo a un punto di convergenza nelle performance: ogni nuovo modello > supera leggermente i competitor, fino a un nuovo rilascio di questi ultimi. Vai al post -------------------------------------------------------------------------------- IL MODELLO DI "REASONING" DI GEMINI Anche in casa Google è arrivato il modello di "reasoning" nella chat di Gemini. In due versioni: "2.0 Flash Thinking" e "2.0 Flash Thinking with apps". La differenza è che il secondo può accedere anche alla Search, a YouTube e a Maps. Gemini 2.0 Flash Thinking > Nel video si vedono alcuni test dei due sistemi. È davvero molto interessante > l'unione tra la ricerca online e il reasoning. Tra i nuovi modelli, è a disposizione anche Gemini 2.0 Pro (Experimental). Tutti questi modelli sono già nelle prime posizioni nella Chatbot Arena LLM Leaderboard. Ora manca un'integrazione solida in Workspace e il cerchio sarà chiuso. -------------------------------------------------------------------------------- GEMINI CODE ASSIST Google ha annunciato il rilascio gratuito di Gemini Code Assist, un potente assistente AI per la programmazione basato su Gemini 2.0. Ora disponibile per tutti gli sviluppatori, supporta tutti i linguaggi di programmazione pubblici e offre suggerimenti avanzati per la scrittura e revisione del codice. 0:00 /0:07 1× Gemini Code Assist Rispetto ad altri strumenti gratuiti, offre fino a 180k completamenti di codice al mese. Integrazione diretta con GitHub per revisioni AI-powered: rileva errori, migliora la qualità del codice e si adatta a linee guida personalizzate. Compatibile con Visual Studio Code, JetBrains IDEs, Firebase e Android Studio, permette agli sviluppatori di lavorare in modo più efficiente con AI direttamente nei loro ambienti di sviluppo. Vai al post -------------------------------------------------------------------------------- LA DEEP RESEARCH DI PERPLEXITY Perplexity introduce diversi sistemi a supporto della ricerca, tra cui "Deep Research". La Deep Research di Perplexity Il funzionamento è in linea con gli omonimi agenti di Google, OpenAI e con i numerosi progetti open source simili: viene delineato un piano d'azione, avviate le ricerche, e viene restituito un report dettagliato (anche ascoltabile). Le fonti e il materiale multimediale (immagini e video) sono consultabili. > Agenti di questo tipo diventano sempre più integrabili e personalizzabili > facilmente. -------------------------------------------------------------------------------- QUANTIZZAZIONE DINAMICA DI DEEPSEEK La quantizzazione, cioè la tecnica usata per ridurre le dimensioni e il consumo di memoria di un LLM senza perdere troppa precisione, non è un processo standard. Il team di Unsloth, ad esempio, ha ridotto le dimensioni di DeepSeek R1 dell'80% mantenendo buone performance ed efficienza. Quantizzazione dinamica di DeepSeek Hanno usato una quantizzazione dinamica mantenendo alcune parti più precise (ad esempio, i primi tre strati densi e alcune proiezioni MoE a 4 o 6 bit), mentre altre vengono ridotte fino a 1.58-bit. Vai al progetto -------------------------------------------------------------------------------- MATQUANT DI GOOGLE DEEPMIND Google DeepMind presenta MatQuant: una nuova tecnica di quantizzazione multi-scala che sfrutta la struttura nidificata degli interi (Matryoshka structure) per ottimizzare modelli a diverse precisioni (int8 → int4 → int2) senza sacrificare l'accuratezza. ALCUNI RISULTATI * Gemma-2 9B (int2) con MatQuant è +8% più accurato rispetto alla quantizzazione tradizionale. * Mistral 7B (int2) migliora di +6,3%, riducendo la perdita di qualità nei modelli ultra-compressi. * Performance di int4 e int8 comparabili ai baseline, con maggiore efficienza. * Interpolazione tra bit-widths (int6, int3) senza ulteriore addestramento. * Mix'n'Match per combinare diverse precisioni nei layer, ottimizzando costi e latenza. MatQuant di Google DeepMind Un passo avanti per l’efficienza dell’AI, con modelli flessibili e adatti a diverse configurazioni hardware. Vai al paper -------------------------------------------------------------------------------- NSA (NATIVELY TRAINABLE SPARSE ATTENTION) DeepSeek pubblica un nuovo paper dedicato all'efficientamento dei LLM. NSA (Natively trainable Sparse Attention) è un nuovo meccanismo che introduce un'architettura di attenzione sparsa che: * riduce il numero di operazioni di attenzione senza sacrificare la qualità delle predizioni; * è ottimizzata per l'hardware moderno, migliorando l'efficienza; * può essere allenata end-to-end, evitando il pre-training su "full attention". Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention Long-context modeling is crucial for next-generation language models, yet the high computational cost of standard attention mechanisms poses significant computational challenges. Sparse attention offers a promising direction for improving efficiency while maintaining model capabilities. We present NSA, a Natively trainable Sparse Attention mechanism that integrates algorithmic innovations with hardware-aligned optimizations to achieve efficient long-context modeling. NSA employs a dynamic hierarchical sparse strategy, combining coarse-grained token compression with fine-grained token selection to preserve both global context awareness and local precision. Our approach advances sparse attention design with two key innovations: (1) We achieve substantial speedups through arithmetic intensity-balanced algorithm design, with implementation optimizations for modern hardware. (2) We enable end-to-end training, reducing pretraining computation without sacrificing model performance. As shown in Figure 1, experiments show the model pretrained with NSA maintains or exceeds Full Attention models across general benchmarks, long-context tasks, and instruction-based reasoning. Meanwhile, NSA achieves substantial speedups over Full Attention on 64k-length sequences across decoding, forward propagation, and backward propagation, validating its efficiency throughout the model lifecycle. arXiv.orgJingyang Yuan Il sistema è più veloce di 9-11x su sequenze di 64k token, e ottiene performance uguali o superiori su diversi benchmark. -------------------------------------------------------------------------------- L'EVOLUZIONE DEI MODELLI DI REASONING Un paper molto interessante che esplora l'evoluzione dei modelli di reasoning attraverso il concetto di recurrent depth. Recurrent depth: l'evoluzione dei sistemi di reasoning Come funziona? Invece di generare lunghe Chain-of-Thought esplicite, il modello ripete i calcoli internamente, ottimizzando il ragionamento in uno spazio latente. Questo gli permette di adattare il numero di iterazioni a test-time in base alla complessità del problema, senza bisogno di addestramento su dati specializzati. * Migliore efficienza computazionale * Migliori capacità di ragionamento senza contesti lunghi * Test-time scaling: più iterazioni = migliori risposte Vai al paper > Un nuovo approccio per rendere l’AI più efficiente senza aumentarne le > dimensioni. -------------------------------------------------------------------------------- UN'INTERAZIONE MULTIMODALE TRA AI AGENT Un esempio in cui Operator di OpenAI usa l'agent di Replit per creare un'applicazione in modo autonomo. Gli agenti possono interagire in diversi modi, ad esempio orchestrati in un framework connesso a diversi tool. In questo caso vediamo un'interazione in cui un agente sfrutta il browser e la multimodalità per usarne un altro, agendo come farebbe un essere umano. > this is wild 🤯🤯🤯 > > just paired openai operator with replit agent to build an app > > watch as two ai agents team up, exchange credentials, and start testing > > ai agent 🤝 ai agent > > the future is here and it’s insane! pic.twitter.com/jIZnqW4fJD > > — Lamar (@LamarDealMaker) February 15, 2025 > Per il flusso sono stati usati 5 prompt. -------------------------------------------------------------------------------- AI CO-SCIENTIST DI GOOGLE Google ha sviluppato AI co-scientist, un sistema avanzato basato su Gemini 2.0 che funge da collaboratore virtuale per i ricercatori. Utilizzando un approccio multi-agente, il sistema genera ipotesi originali, pianifica esperimenti e migliora iterativamente i propri risultati, aiutando gli scienziati a navigare tra enormi quantità di dati e a identificare nuove direzioni di ricerca. 0:00 /0:13 1× AI co-scientist di Google Applicato in ambito biomedico, AI co-scientist ha già dimostrato il suo potenziale proponendo nuovi bersagli terapeutici per la fibrosi epatica, identificando farmaci riproposti per il trattamento della leucemia mieloide acuta e formulando ipotesi innovative sui meccanismi della resistenza antimicrobica. Vai al post > Questo significa accelerazione nel processo di scoperta e ricerca. Ma, essendo > un sistema completamente "neurale" rimane fondamentale una validazione umana > altamente qualificata, in veste della componente "simbolica". -------------------------------------------------------------------------------- IL PIANO DELL'EUROPA DEDICATO ALL'INTELLIGENZA ARTIFICIALE L'Europa presenta un piano per mobilitare circa 200 miliardi in investimenti per l’AI. Il proposito è interessante, con l'idea di creare una sorta di "CERN dedicato all'intelligenza artificiale". Criticità: il piano c'è, ed è in linea con l'obiettivo, ma non si parla di tempi. Inoltre, in Europa, sono presenti centri di ricerca e università d'eccellenza, ma mancano aziende che si occupano di intelligenza artificiale a livello delle Big Tech. Vai al post EU AI Champions Initiative Unlock Europe’s Full Potential in AI EU AI Champions Initiative -------------------------------------------------------------------------------- THREE OBSERVATIONS Sam Altman, in un nuovo post, afferma che l'AI cresce in modo logaritmico rispetto alle risorse investite. Concetto che richiama un comportamento previsto dalle leggi di scala. Afferma, inoltre, che il costo dell'AI diminuisce drasticamente (di 10x ogni 12 mesi). Three Observations Our mission is to ensure that AGI (Artificial General Intelligence) benefits all of humanity. Systems that start to point to AGI* are coming into view, and so we think it’s important to… Sam Altman Il fatto è che si basa su trend attuali, ma non è garantito che la crescita dell’IA seguirà le stesse leggi di scala per sempre. Se il costo del computing continua a scendere, potremmo assistere a un’accelerazione senza precedenti, oppure a un cambio di paradigma che renderà le attuali previsioni obsolete. Il vero test sarà capire se la qualità e la capacità dell’IA continueranno a migliorare al ritmo previsto una volta che il costo computazionale diventerà quasi trascurabile (i dati di qualità, la scarsità di chip avanzati, il costo energetico saranno trascurabili?). > Attualmente credo che architetture basate su agenti ibridi specializzati (es. > sistemi neuro-simbolici) siano più interessanti e "immediate" della rincorsa > verso la chimera dell'AGI basata su LLM. -------------------------------------------------------------------------------- MAJORANA 1 DI MICROSOFT Microsoft ha presentato Majorana 1, il primo chip quantistico basato sull’innovativa architettura Topological Core. Questo nuovo approccio sfrutta materiali chiamati topoconduttori per rendere i qubit più stabili e scalabili, aprendo la strada a computer quantistici con un milione di qubit. Questa tecnologia potrebbe trasformare settori chiave come la chimica, la scienza dei materiali e l'AI, risolvendo problemi impossibili per i computer tradizionali. Un passo avanti decisivo verso il futuro del quantum computing. Majorana 1 di Microsoft > Oggi ci stiamo accorgendo che ragionare solo sulla scala non ha più molto > senso per l'evoluzione dell'AI. Ma "domani" nuove tecnologie potrebbero > azzerare i limiti hardware e permettere di ottenere dati sintetici di qualità. > Dovremo arrenderci all'amara lezione (rif. "The Bitter Lesson", Rich Sutton)? > Lo scopriremo insieme. Vai al post -------------------------------------------------------------------------------- OMNIPARSER V2 DI MICROSOFT Microsoft ha rilasciato OmniParser V2: un sistema open source in grado di compiere azioni nell'interfaccia utente. Non solo sul browser, ma si tratta di un sistema che usa un LLM in un Computer Use Agent. OmniParser V2 di Microsoft > Il panorama di questa tipologia di agenti si sta arricchendo di giorno in > giorno. E probabilmente saranno sempre più efficaci. Vai al progetto UN TEST DI OMNIPARSER V2 > Come fanno questi sistemi a eseguire azioni sui browser e su qualunque > interfaccia grafica? Questo è un esempio di utilizzo di OmniParser V2 in esecuzione in locale. Il sistema elabora ciò che "vede" nello schermo, e lo converte in dati strutturati che mappano e classificano ogni elemento. Un test di OmniParser V2 I dati diventano contesto per un LLM, che può eseguire operazioni sugli elementi. -------------------------------------------------------------------------------- ANIMATE ANYONE 2 Il Tongyi Lab di Alibaba Group ha presentato Animate Anyone 2: un modello avanzato in grado di animare immagini di personaggi. Rispetto ai metodi precedenti, introduce un'importante innovazione: l'integrazione dell'ambiente circostante nella generazione dell'animazione. Animate Anyone 2 Non si limita a estrarre segnali di movimento da un video sorgente, ma analizza anche il contesto ambientale (le aree senza personaggi) per creare animazioni più coerenti. Vai al progetto -------------------------------------------------------------------------------- OPENDEEPRESEARCHER Vedremo nascere diversi sistemi open source come "Deep Research" di OpenAI e Google. OpenDeepResearcher è un esempio. Riceve in input un topic, effettua ricerche online, approfondisce l'argomento sviluppando e usando nuove query di ricercae; infine fornisce un report dettagliato. GitHub - mshumer/OpenDeepResearcher Contribute to mshumer/OpenDeepResearcher development by creating an account on GitHub. GitHubmshumer -------------------------------------------------------------------------------- VIDEOLLAMA3 DI ALIBABA Alibaba introduce VideoLLaMA 3, un modello vision-centric, costruito per migliorare la comprensione visiva attraverso immagini di alta qualità invece di enormi dataset video-text meno precisi. LE PRINCIPALI INNOVAZIONI * Any-Resolution Vision Tokenization (AVT): elabora immagini e video a risoluzioni variabili senza perdita di dettagli. * Differential Frame Pruner (DiffFP): riduce i frame ridondanti nei video, migliorando efficienza e precisione. * Vision-Language Alignment: allena il modello con descrizioni dettagliate per una comprensione più profonda. * Dataset VL3-Syn7M: immagini accuratamente selezionate per garantire qualità nei dati di addestramento. VideoLLaMA 3 di Alibaba PERFORMANCE VideoLLaMA 3 supera i modelli precedenti in: * OCR e documenti (InfoVQA, DocVQA) * Ragionamento matematico visuale (MathVista) * Comprensione multi-immagine (MMMU) * Analisi avanzata dei video (VideoMME, MLVU) > Grazie alla sua architettura ottimizzata e alla gestione più intelligente dei > video, VideoLLaMA 3 rappresenta un nuovo punto di riferimento > nell’intelligenza artificiale multimodale. -------------------------------------------------------------------------------- WORKFLOW MULTI-AGENT: LA GESTIONE DEI FLUSSI Nella costruzione di workflow multi-agent, i framework come Autogen permettono di creare delle regole di intervento per gli agenti. In questo modo, possiamo gestire in quali momenti serve iterazione, e in quali momenti sequenzialità nelle azioni. Un esempio di funzione per gestire i flussi degli agenti su Autogen La funzione dell'esempio determina logiche di intervento degli agenti (StateFlow pattern), e viene usata dall'orchestratore per concedere i turni durante le interazioni. -------------------------------------------------------------------------------- ALPHAGEOMETRY 2: LE PERFORMANCE AlphaGeometry 2 di Google DeepMind ha superato i risultati di una medaglia d'oro medio nelle Olimpiadi Internazionali di Matematica (IMO), raggiungendo un tasso di soluzione dell'84% sui problemi di geometria (contro il 54% della prima versione). > Per quanto si ragioni su "chatbot" generici in grado di affrontare qualunque > problema, gli agenti specializzati, secondo me, sono quelli che oggi possono > raggiungere performance e affidabilità per affiancarci nella crescita in > diversi ambiti. AlphaGeometry, infatti, è un sistema neuro-simbolico, e funziona in questo modo: * un LLM (Gemini) traduce il problema in un linguaggio più adeguato al sistema; * il motore simbolico analizza i dati iniziali e mette a disposizione tutti i teoremi applicabili; * se la soluzione non è immediata (in un problema delle IMO di certo non lo è), usa una combinazione di reti neurali (Gemini) e ricerca simbolica avanzata per individuare costruzioni ausiliarie (deduzione); * il motore simbolico verifica la correttezza, e se la soluzione non è dimostrabile si torna a fare nuove deduzioni; * il sistema restituisce la dimostrazione con i diagrammi necessari. Le performance di AlphaGeometry 2 di Google DeepMind > In pratica unisce il ragionamento simbolico (rigore e affidabilità) alla > velocità e flessibilità delle reti neurali (intuizioni). Vai al paper Di certo si tratta di sistemi che non scalano velocemente e che sono più difficili da costruire, ma l'affidabilità, in certi contesti, vince. -------------------------------------------------------------------------------- AI MODE DI GOOGLE Secondo 9to5Google, Google starebbe lavorando all'AI Mode: una nuova esperienza che unisce la ricerca a un'interfaccia generata da Gemini 2.0. Sundar Pichai aveva annunciato che il 2025 sarebbe stato un anno importante per l'innovazione in Search.. sarà questo l'inizio? E sarà un inizio deciso o un "vorrei, ma non posso"? Di certo, per vincere la concorrenza con gli ibridi di questo tipo dovranno puntare su quello che sanno fare meglio: la ricerca potenziata dai dati strutturati che hanno a disposizione. AI mode di Google COS'È AI MODE? Progettata per rispondere a domande più aperte, esplorative o molto specifiche (es. i confronti), offrirà risposte più strutturate, con collegamenti per approfondire sulle pagine web. Un'interfaccia in stile chatbot permetterà di interagire in modo più dinamico, con possibilità di follow-up e input vocale nell’app di Google. Attualmente sarebbe in test per i dipendenti negli USA. -------------------------------------------------------------------------------- MUSE DI MICROSOFT RESEARCH Microsoft Research ha presentato Muse, un avanzato modello di AI generativa progettato per supportare la creazione di gameplay. È basato sul World and Human Action Model (WHAM), ed è in grado di generare ambienti di gioco e azioni dei controller, simulando sequenze di gameplay realistiche. Muse di Microsoft Research È stato addestrato con dati raccolti dal gioco Bleeding Edge, e ha analizzato oltre un miliardo di immagini e azioni di giocatori (più di sette anni di gameplay). Il modello offre agli sviluppatori uno strumento potente per esplorare nuove idee, migliorando la creatività e l’iterazione nei processi di sviluppo. Vai al paper > Microsoft ha reso il modello open-source, insieme ai pesi, ai dati di esempio > e a WHAM Demonstrator, un’interfaccia che consente di sperimentare > direttamente le sue capacità. -------------------------------------------------------------------------------- L'EVOLUZIONE DELLA CHAT DI MISTRAL Mistral evolve la sua chat con diverse novità. * Velocità: può rispondere fino a 1k parole/s con la funzione Flash Answer. * Ricerca online: combina fonti di qualità, tra cui pagine web, editoriali, social media. * Multimodale: elaborazione di immagini, documenti e fogli di calcolo. * Generazione di immagini: usa Flux Ultra, per ottenere output di qualità. * Code interpreter: può sviluppare codice Python ed eseguirlo a supporto delle risposte all'utente. * Mobile: disponibile per iOS e Android via app. The all new le Chat: Your AI assistant for life and work | Mistral AI Brand new features, iOS and Android apps, Pro, Team, and Enterprise tiers. Mistral AI > L'ho provato. Quello che posso dire è che attualmente siamo lontani dalle > performance dei competitor. -------------------------------------------------------------------------------- OMNIHUMAN-1 DI BYTEDANCE Bytedance, l'azienda cinese che possiede TikTok, ha presentato OmniHuman-1, un framework avanzato per la generazione di video umani basato su un'unica immagine e segnali di movimento come audio e video. OmniHuman-1 di Bytedance Grazie a una tecnica di addestramento multimodale, il modello supera i limiti delle precedenti tecniche end-to-end, migliorando la qualità e il realismo dei video generati. Vai al progetto > Le anteprime sono tecnicamente sbalorditive, ma aprono inevitabilmente diversi > ambiti di riflessione. -------------------------------------------------------------------------------- VIDEOJAM DI META Meta introduce VideoJAM: un framework progettato per migliorare la generazione di movimento nei modelli video. VideoJAM di Meta Il sistema mira a risolvere un limite dei modelli di generazione video: la rappresentazione di movimenti realistici. Vai al progetto > L'aspetto più interessante? Il framework può essere applicato a qualsiasi > modello di generazione video con minime modifiche, senza richiedere nuovi dati > di addestramento o maggiori risorse computazionali. -------------------------------------------------------------------------------- QWEN-2.5 MAX: GENERAZIONE VIDEO Attraverso la chat di Qwen è ora possibile generare video. Un esempio di generazione video con la chat di Qwen Vai alla Chat > La qualità generale di questo modelli è sempre più elevata. -------------------------------------------------------------------------------- - GRAZIE - Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre persone, condividilo 🙂 ISCRIVITI ALLA NEWSLETTER Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su tematiche relative all'intelligenza artificiale. Iscriviti alla Newsletter Email sent! Check your inbox to complete your signup. Gratuita. No Spam. Puoi disiscriverti quando vuoi. Consulta la privacy policy.
AI
GPT-4
Novità e Riflessioni
Gemini
Generative AI: novità e riflessioni - #1 / 2025
> Buon aggiornamento, e buone riflessioni.. -------------------------------------------------------------------------------- I MIEI INTERVENTI AL SEARCH MARKETING CONNECT In chiusura del 2024 ho tenuto due interventi durante il Search Marketing Connect a Bologna. I seguenti video riportano i contenuti integrali. L'EVOLUZIONE DELLA RICERCA ONLINE POTENZIATA DALL'AI: COME CAMBIANO LE ESPERIENZE ONLINE? I modelli di linguaggio (LLM) stanno cambiando la ricerca online, unendo le caratteristiche dei motori di ricerca a processi basati sull'intelligenza artificiale. Come funzionanoquesti sistemi? Come si stanno evolvendo? Verso quale direzione ci stanno conducendo? Un viaggio per capire i cambiamenti in atto e per prepararsi a essere protagonisti delle nuove esperienze di ricerca che stanno trasformando l'accesso alle informazioni. Search Marketing Connect 2024 - Alessio Pomaro > I sistemi ibridi, che uniscono i LLM ai motori di ricerca, miglioreranno. > Crescerà l'accuratezza nel determinare i contenuti rilevanti, grazie a sistemi > come il "reranking". Aumenterà la qualità dell'inferenza, grazie al > "reasoning" e a implementazioni multi-agent. I modelli, in generale, si > evolveranno. CAPITOLO 2: “REASONING” E SISTEMI MULTI-AGENTE L'AI generativa si è evoluta grazie all'aumento delle dimensioni dei modelli, ma oggi i maggiori progressi si stanno ottenendo grazie all'aumento della qualità dell'inferenza. Due esempi: i sistemi di "reasoning" (es. i modelli "o" di OpenAI) e i sistemi multi-agente. Facciamo chiarezza su questo cambiamento, con esempi pratici di applicazioni. Search Marketing Connect 2024 - Alessio Pomaro > I workflow basati sugli AI Agent rappresenteranno un enorme progresso per le > applicazioni basate sull'AI. Forse più della prossima generazione di modelli. -------------------------------------------------------------------------------- O3-MINI DI OPENAI o3-mini è stato rilasciato, e disponibile su ChatGPT e via API. Prezzo? 4,40$/1M token (o1 costa 60$/1M token, DeepSeek costa 2,19$/1M token). * Più veloce e preciso, con efficienza paragonabile a o1. * Reasoning effort regolabile. * Supporta function calling e output strutturati. * Disponibile anche per gli utenti "free", usando l'opzione "Reason" (effetto DeepSeek R1?). * Supera o1-mini in matematica e coding, con miglioramenti significativi in diversi benchmark. * Più veloce del 24% rispetto a o1-mini. L'ho provato su diversi task, su logica e coding. Un test di o3 di OpenAI > È chiaramente una soluzione molto interessante. Vai al post -------------------------------------------------------------------------------- GLI AGENTI DI OPENAI OpenAI, sta arricchendo ChatGPT con una serie di agenti che estendono le potenzialità del sistema. Gli agenti rappresentano lo sviluppo del layer di integrazione: strumenti basati su LLM che eseguono autonomamente operazioni specifiche. > Lo step successivo sarà la possibilità di creare dei workflow multi agente? Un > framework più avanzato per sviluppare agenti personalizzati? OPERATOR OpenAI ha presentato il progetto Operator, un AI Agent in grado di utilizzare un browser web autonomamente per svolgere compiti complessi. Sfruttando il modello Computer-Using Agent (CUA), basato su GPT-4o, Operator rappresenta una delle prime implementazioni di agenti AI capaci di interagire con interfacce grafiche proprio come farebbe un essere umano. Un esempio di interazione con Operator Operator è progettato per eseguire attività quotidiane in modo indipendente, offrendo un’esperienza intuitiva e versatile. Ad esempio, può prenotare ristoranti in piattaforme come OpenTable, fare la spesa online su siti come Instacart, anche interpretando liste scritte a mano, prenotare biglietti per eventi, ecc.. Garantisce il pieno controllo agli utenti con conferme esplicite, modalità takeover per interventi su dati sensibili (es. login o pagamenti), protezioni avanzate contro siti malevoli e comportamenti sospetti. Raggiunge risultati promettenti in benchmark come WebArena e OSWorld, ma è in continuo miglioramento per gestire flussi di lavoro più complessi e situazioni impreviste. Per ora, è disponibile solo negli USA e con account Pro. Vai al progetto > Questo progetto rappresenta un passo verso agenti autonomi sempre più > avanzati, che semplificheranno processi quotidiani e trasformeranno il nostro > rapporto con la tecnologia. DEEP RESEARCH Dopo Operator, viene introdotto Deep Research: un nuovo agente che unisce il "reasoning" alla ricerca. Un sistema in grado di effettuare ricerche online approfondite e multi step sintetizzando i contenuti e ragionando autonomamente su di essi. Crea un piano d'azione, l'utente può confermarlo o modificarlo, e procede estraendo le fonti ed elaborandole. Non ha limiti di latenza, quindi può impiegare anche 30 minuti per fornire risposte di qualità superiore. Deep Research di OpenAI In pratica, funziona come l'omonimo agente in casa Google (Gemini 1.5 Pro with Deep Research): secondo me, quello più utile e interessante. Vai al progetto > Inizialmente sarà solo per utenti Pro. -------------------------------------------------------------------------------- LA NATURA E LA DIREZIONE DEL CONCETTO DI AI AGENT Il keynote di Jensen Huang al CES, scremato dai vari "effetti wow", traccia una traiettoria che permette di capire meglio la natura e la direzione del concetto di AI Agent. > Un concetto di cui si parla ovunque, ma che non credo sia compreso > completamente. Credo che il passaggio che descrive il CEO di Nvidia, tra AI Agentica e AI Fisica sia utile a comprendere meglio il potenziale in gioco. Sì, perché fa capire che.. > la differenza tra l'interazione di più agenti per scrivere l'articolo di un > blog o un blocco di codice, e l'interazione tra robot per gestire un magazzino > è solo negli obiettivi, nelle istruzioni e negli attuatori (o tool, o skill) a > disposizione dagli agenti stessi. Forse, con questi esempi, diventano anche più chiari i timori di cui ha parlato spesso Geoffrey Hinton dicendo: una volta che verrà dato un obiettivo a un sistema autonomo, quanto saranno controllabili le azioni intermedie che compirà per raggiungerlo? Il keynote di Jensen Huang al CES Torniamo sempre allo stesso concetto: più aumenta il potenziale di una tecnologia, più gli attuatori che colleghiamo ad essa diventano potenti, e più diventa urgente un controllo, una regolamentazione e un lavoro cooperativo a livello globale per gestirne l'utilizzo e l'impatto. -------------------------------------------------------------------------------- GEMINI 2.0 FLASH THINKING Alcuni esempi del modello di "reasoning" di Google: Gemini 2.0 Flash Thinking. Sono rimasto colpito dal potenziale.. e non a caso, nel momento in cui sto scrivendo questo contenuto è al primo posto della Chatbot Arena LLM Leaderboard. Un test di Google Gemini 2.0 Flash Thinking L'ho provato su un task di coding e uno multimodale, in cui il sistema elabora un file MP3 di un dialogo, trascrivendolo con la suddivisione degli speaker. -------------------------------------------------------------------------------- DEEPSEEK R1: NAVIGAZIONE WEB + REASONING DeepSeek R1 permette un'azione che mi ha davvero stupito, non realizzabile con o1 di OpenAI: unisce la ricerca online al "reasoning". Nel prompt dell'esempio, chiedo al modello di cercare online la documentazione di Magentic-One (un AI agent per l'automazione del browser), e di implementare un sistema che cerca su Amazon un prodotto e genera un report, mostrandomi anche gli screenshot di navigazione. > DeepSeek diventa un modello di "reasoning" evoluto, in grado di "documentarsi" > online per sviluppare. Nelle immagini si vede anche l'esecuzione del codice su Colab, con il risultato e gli screenshot. DeepSeek R1: navigazione web + reasoning > Le fasi di prototipazione e di ottimizzazione possono avere degli interessati > benefici. -------------------------------------------------------------------------------- DEEPSEEK R1 IN LOCALE, SUL MIO LAPTOP Ho provato DeepSeek R1 in locale, sul mio laptop. La versione è la 8B, basata su architettura LLaMA, con quantizzazione a 4 bit (Q4_K_M). I task di test sono semplici (classificazione e sintesi), ma, pur essendo quantizzato a 4 bit la qualità è sorprendente. La velocità non è grandiosa, ma con l'hardware che ho usato è tutto come da aspettative. Però è chiaro che, con l'aumento della qualità dei modelli open source, con un discreto supporto di GPU (che consente di usare LLM più grandi e quantizzazioni meno severe), e magari con architetture basate su sistemi multi-agente, ormai si possono ottenere ottimi risultati in locale. DeepSeek R1 in locale, sul mio laptop > Questo tipo di sperimentazione, inoltre, fa ragionare meglio sulla potenza dei > modelli che usiamo in base ai task da compiere. Queste ottimizzazioni, in > ottica di applicazioni multi agente, possono migliorare le infrastruttura e > ridurre i costi. -------------------------------------------------------------------------------- QWEN 2.5 MAX > Siamo in un momento in cui i modelli della stessa classe hanno prestazioni > sempre più simili. Anche il prezzo per token generale, secondo me, tenderà a > ridursi drasticamente (a zero). Il tutto renderà i LLM delle vere e proprie > commodity, e ciò che farà davvero la differenza sarà l'integrazione e > l'architettura che li saprà sfruttare meglio. Durante il "frastuono" DeepSeek, infatti, Alibaba ha rilasciato diversi modelli, tra cui Qwen 2.5 Max. È basato su Mixture-of-Experts (MoE), addestrato su oltre 20 trilioni di token e perfezionato con tecniche avanzate come Supervised Fine-Tuning (SFT) e Reinforcement Learning from Human Feedback (RLHF). L'ho provato in diversi task, ed è indubbiamente evoluto. Dai dati, batte diversi modelli in diversi benchmark, tra cui DeepSeek V3. Alcuni test di Qwen 2.5 Max > L'integrazione? Ormai le chiamate API sono intercambiabili: basta cambiare un > parametro per provare qualunque modello. Vai al post -------------------------------------------------------------------------------- IL PROGETTO MARINER DI GOOGLE Il progetto Mariner di Google è un esempio di unione tra i concetti di AI Agent, multimodalità, e reasoning. Si tratta di un sistema agentico basato su Gemini 2.0 in grado di automatizzare processi nel browser interagendo con l'utente. Il progetto Mariner di Google Per ogni task crea un piano attraverso catene di ragionamento, descrive le operazioni e le esegue. Nella demo viene specificato che non lavora in background, per sottolineare il concetto di "human in the loop" e di "co-working". Vai al progetto > Tuttavia, è possibile realizzare sistemi simili completamente autonomi e > automatizzati, con framework come Autogen e tool che eseguono la navigazione > attraverso il browser. -------------------------------------------------------------------------------- AGENTS: UN PAPER DI GOOGLE DEDICATO AI SISTEMI AGENTICI Google ha pubblicato un paper sullo sviluppo di sistemi basati su AI Agent. Gli agenti rappresentano un passo avanti per l'intelligenza artificiale generativa, permettendo ai LLM di andare oltre la semplice elaborazione del linguaggio. Grazie a strumenti come API Extensions, Data Stores e framework di ragionamento avanzati (es. ReAct, Chain-of-Thought), gli AI Agent possono interagire con il mondo reale, prendere decisioni autonome e completare task complessi. Agents: un paper di Google dedicato ai sistemi agentici PUNTI CHIAVE * Autonomia. Gli agenti combinano ragionamento, logica e accesso a dati esterni per eseguire azioni in modo indipendente. * Strumenti avanzati. L'uso di Extensions e Data Stores li rende capaci di accedere a informazioni in tempo reale e integrarsi in sistemi esistenti. * Applicazioni. Dallo sviluppo di tool con LangChain alla gestione end-to-end tramite Vertex AI, le opportunità sono immense. Vai al paper > Il futuro? L’adozione di architetture collaborative, come il “mixture of agent > experts”, promette di affrontare con successo problemi complessi, offrendo > soluzioni sempre più scalabili e innovative. -------------------------------------------------------------------------------- LA NUOVA VERSIONE DI AUTOGEN DI MICROSOFT Microsoft rilascia la versione 0.4 "stable" di Autogen (il noto framework per applicazioni multi-agent), e il nuovo Autogen Studio. L'aggiornamento migliora scalabilità, robustezza e flessibilità, affrontando le limitazioni delle versioni precedenti grazie a un'architettura asincrona e basata su eventi. LE NOVITÀ 1️. Scambi asincroni. Supporta interazioni dinamiche e scalabili tra AI Agent. 2️. Modularità. Gli utenti possono personalizzare agenti, strumenti, memoria e modelli, rendendo il sistema adattabile. 3️. Osservabilità e debugging. Metriche integrate, tracciabilità e supporto OpenTelemetry per monitorare e controllare i flussi di lavoro. 4️. Supporto multi linguaggio. Interoperabilità tra agenti scritti in Python, .NET (e presto altri). 5️. Strumenti migliorati. AutoGen Bench per il benchmarking delle performance degli agenti, e AutoGen Studio, un'interfaccia low-code per prototipare agenti AI, con funzioni come controllo in tempo reale e visualizzazione dei messaggi. Nelle immagini, si può vedere proprio un sistema che ho realizzato con questo sistema. Esempi di utilizzo di Autogen Studio e Magentic-One Tra le applicazioni, è disponibile Magentic-One, che permette dei flussi multi-agent già impostati per coding, ricerca web e ricerca tra i file. Nelle immagini è possibile vederne un'esecuzione dalla console Python: il sistema fa una ricerca online per eseguire il mio task. Vai al post > Lo sviluppo di architetture multi-agent migliora, e migliorano le potenzialità > e le performance delle applicazioni. Autogen Studio lo trovo ancora troppo > acerbo, ma l'inizio è notevole. UN TEST DI MAGENTIC-ONE In questo test basato su Magentic-One, ho usato il componente MultimodalWebSurfer. Un test di Magentic-One Naviga online per eseguire una richiesta, mostrando anche gli screenshot delle pagine che processa. Infine completa il task rispondendo alla mia domanda. Vai a un altro test -------------------------------------------------------------------------------- TITANS: UN'EVOLUZIONE DEI TRANSFORMER Google Research ha presentato Titans, una nuova architettura che introduce un modulo di memoria neurale a lungo termine. Non si tratta di uno stravolgimento dei Transformers, ma di una variante che ne estende le capacità, affrontandone i limiti principali. Titans di Google COME FUNZIONA? Titans aggiunge una memoria a lungo termine che lavora insieme al noto meccanismo dell'attenzione, ottimizzando il recupero delle informazioni dal passato senza limitarsi alla finestra di contesto immediata. Questo permette di: * ricordare informazioni lontane nel tempo; * gestire sequenze molto estese (oltre 2 milioni di token); * mantenere efficienza con un'inferenza veloce e scalabile. UN CONTRIBUTO DISTINTIVO Una delle innovazioni più interessanti di Titans è la capacità di imparare a memorizzare durante il test. Questo è reso possibile grazie a un meccanismo di apprendimento basato sulla "sorpresa": il gradiente della rete rispetto al suo input viene usato come misura della sorpresa. I dati più inaspettati o sorprendenti vengono prioritizzati per la memorizzazione, imitando il modo in cui gli esseri umani trattengono più facilmente le informazioni nuove. Questo processo è potenziato da un meccanismo di "decadimento" che evita il sovraccarico delle risorse di memoria. PERCHÉ È RILEVANTE? I Transformers sono eccellenti per contesti brevi, ma diventano meno efficaci con sequenze più lunghe. Titans combina tre tipi di memoria (breve termine, lungo termine, persistente) per migliorare compiti complessi come modellazione linguistica, ragionamento, genomica (analisi di dati genetici) e analisi di serie temporali. NON UNO STRAVOLGIMENTO, MA UN'EVOLUZIONE Titans arricchisce i Transformers con nuove funzionalità senza riscrivere l'architettura da zero. È un passo importante verso modelli che possono gestire contesti enormi in modo più naturale ed efficiente. Vai al paper > Una nuova era per l'AI? Titans potrebbe segnare l'inizio di un nuovo capitolo > nei modelli di linguaggio, promettendo di sbloccare scenari inediti per > applicazioni complesse e agenti più intelligenti. -------------------------------------------------------------------------------- GENERAZIONE DI IMMAGINI: UN PAPER DI GOOGLE > Il lavoro sull'aumento della qualità dell'inferenza, invece di concentrarsi > "solo" sulla scala dei modelli, è un trend che coinvolge non solo i LLM, ma > anche i modelli di diffusione (generazione di immagini). Il paper di Google DeepMind studia un modo per migliorare i modelli di diffusione, non solo durante il training ma anche quando vengono usati per generare immagini (inferenza). Normalmente, questi modelli migliorano aumentando il numero di "step di pulizia" (denoising), ma oltre un certo punto i miglioramenti diminuiscono drasticamente. Si propone un nuovo approccio: invece di fare solo più step di denoising, si cerca di trovare i migliori "punti di partenza" (rumori iniziali) per il processo di generazione. Questo avviene attraverso un sistema che combina strumenti per valutare la qualità delle immagini e algoritmi per esplorare nuove opzioni. Generazione di immagini: un paper di Google Con questa strategia, si riescono a creare immagini più realistiche e migliori, adattando il metodo alle esigenze di ogni situazione, come immagini condizionate da un testo o classi specifiche. > In parole semplici, il paper mostra che usando meglio le risorse > computazionali durante l'inferenza, si possono ottenere risultati molto > migliori dai modelli senza agire sulla scala. Vai al paper -------------------------------------------------------------------------------- BROWSER USE Stanno nascendo diversi AI Agent che lavorano come Operator di OpenAI. I più interessanti che ho visto sono Magentic-One (visto in precedenza) e Browser Use. Entrambi sono progetti open source usabili con poche righe di Python, e Browser Use ha anche la versione Cloud, con una comoda interfaccia web (costo: 30$/mese). Anche con proxy, autenticazione persistente, cronologia dei messaggi e "intervento umano" nelle azioni di automazione. Browser Use - Make websites accessible to AI agents Make websites accessible for AI agents. Extract interactive elements and automate browser interactions. Enable AI to control your browser Browser Use supera Operator nel benchmark definito "WebVoyager". * Browser Use: https://browser-use.com/ * Versione in Cloud: https://cloud.browser-use.com/ -------------------------------------------------------------------------------- CHAIN-OF-AGENTS (COA) Google Research propone un nuovo approccio per la gestione di contesti lunghi: Chain-of-Agents (CoA). Gli input vengono suddivisi in segmenti, ognuno dei quali viene elaborato da un AI Agent. Gli agenti del team comunicano le informazioni all'agente manager, il quale crea un output per l'utente. Nel paper vengono testati diversi LLM, tra cui Gemini e Claude, con risultati che superano l'approccio RAG e l'uso di modelli con contesti estesi. Chain of Agents: Large language models collaborating on long-context tasks > Su input che superano i 400k token le performance migliorano anche del 100%. -------------------------------------------------------------------------------- GLI AMBIENT AGENTS DI LANGCHAIN LangChain introduce il concetto di "ambient agents", ovvero AI Agent che non agiscono in base a interazioni con gli utenti (es. una richiesta in chat), ma in base al verificarsi di eventi. Introducing ambient agents Most AI apps today follow a familiar chat pattern (“chat” UX). Though easy to implement, they create unnecessary interaction overhead, limit the ability of us humans to scale ourselves, and fail to use the full potential of LLMs. Over the past six months, we’ve been exploring a different approach at LangChain BlogHarrison Chase Gli agenti monitorano dei flussi di eventi, e agiscono autonomamente, in base al loro addestramento e ai tools che hanno a disposizione. Coinvolgono l'utente solo quando è necessario attraverso notifiche, per approvazioni o richieste di informazioni aggiuntive. > Ad esempio, potrebbero monitorare le mail in ingresso, e agire su alcune di > esse per automatizzare processi. -------------------------------------------------------------------------------- TUTTO VIENE DEFINITO "AI AGENT" Oggi tutto viene definito AI Agent: è il termine del momento. Ma non si tratta di una novità (marketing a parte).. ChatGPT stesso si potrebbe definire un agente, infatti si basa su un LLM che può usare autonomamente degli strumenti (coding, web navigation, vision, image generation) per completare task forniti in input. Così come i GPTs, che possono interagire con API esterne come tool. Gli aspetti interessanti dell'attuale sviluppo in ambito di AI, invece, riguardano i workflow multi-agent, e il concetto di "ambient agents". Ovvero sistemi che mettono in gioco più agenti specializzati, ognuno con i propri tool, che lavorano in team autonomi per completare task. Attivati non solo da input diretti da parte degli esseri umani, ma da eventi, coinvolgendo gli utenti solo quando è necessario. > Questi meccanismi guideranno le prossime evoluzioni in ambito di AI, più delle > nuove generazioni di modelli. Perché i modelli più performanti comunque > lavoreranno in questi workflow potenziandoli ulteriormente. Andrew Ng sul tema degli AI Agent > E tutto questo non riguarderà solo il mondo digital, ma anche quello fisico, > "semplicemente" con attuatori diversi (Physical AI). -------------------------------------------------------------------------------- GOOSE > L'open-source sta vivendo un momento straordinario nello sviluppo di soluzioni > basate sull'AI. DeepSeek ha lanciato V3 e R1, Alibaba ha presentato Qwen 2.5-1M, Microsoft con la nuova versione di Autogen. E Jack Dorsey ha presentato Goose, un framework open-source che semplifica la creazione di AI Agent. Il sistema permette di scegliere i LLM alla base degli agenti, e mette a disposizione un'interfaccia desktop, una CLI (riga di comando) e integrazioni con strumenti e applicazioni attraverso Model Context Protocol (MCP). codename goose | codename goose Your open source AI agent, automating engineering tasks seamlessly. Block Logo > È molto interessante vedere come l'attenzione si sta collocando non solo sui > modelli (che ormai vengono dati per scontati e iniziano a equivalersi), ma > anche sul layer di integrazione nelle applicazioni. -------------------------------------------------------------------------------- IL PROGETTO COSMOS DI NVIDIA Nvidia, dopo averlo raccontato al CES, inizia a mettere a disposizione strumenti dedicati all'accelerazione dello sviluppo dell'AI "fisica" (Physical AI). Cosmos è una piattaforma dedicata proprio a questo, attraverso World Foundation Model (WFM), ovvero modelli costruiti per robotica, e veicoli autonomi. Il progetto Cosmos di Nvidia Include strumenti per elaborare dati visivi e video, creando modelli AI che comprendono dinamiche fisiche e generano video di alta qualità basati su input multimodali (immagini, testo, video). Vai al progetto > Nell'esempio, il modello riconosce gli elementi in una scena (che cambia), e > li modifico attraverso prompt testuali. -------------------------------------------------------------------------------- L'INTEGRAZIONE DI GEMINI SU CHROME La forza dell'integrazione nell'ecosistema: Chrome > YouTube > Gemini. Nel video, uso lo shortcode @Gemini, e scrivo un prompt direttamente nella barra degli indirizzi di Chrome, includendo l'URL di un'intervista su YouTube. L'elaborazione di un video di YouTube attraverso Gemini Quello che ottengo, è l'elaborazione del contenuto del video su Gemini Advanced, il quale si connette a YouTube per estrarre le informazioni necessarie. > L'intervista dura quasi 3 ore, ma in qualche secondo ottengo le informazioni > che cercavo. -------------------------------------------------------------------------------- STORM: L'UNIONE DI UN LLM ALLA RICERCA ONLINE Stanford lancia STORM, un sistema open source molto simile alla Deep Research di Gemini (Google) e di OpenAI. Utilizza modelli di linguaggio di grandi dimensioni (LLM) per generare articoli in stile Wikipedia, basandosi su ricerche approfondite sul web, e fornendo le citazioni. STORM: l'unione di un LLM alla ricerca Per provarlo Co-STORM, una funzionalità ulteriore, estende STORM per supportare la collaborazione tra esseri umani e modelli di AI. Include strumenti come mappe concettuali dinamiche per semplificare il lavoro su argomenti complessi e incoraggia il coinvolgimento umano per orientare le discussioni. Vai alla libreria Python -------------------------------------------------------------------------------- I TASK DI CHATGPT ChatGPT, aggiungendo le "attività", prova ad accelerare il processo per diventare un assistente personale per gli utenti. La nuova funzionalità (beta), infatti permette di salvare delle attività ricorrenti attraverso il linguaggio naturale, con la possibilità di gestirle e modificarle successivamente. Nell'esempio ho chiesto un report di notizie sull'AI ogni giorno alle 7:30. Task di ChatGPT: un esempio > L'unione del LLM con questo tipo di task è davvero interessante. Il top, > sarebbe la possibilità di usare un prompt con dei GPT custom schedulati. -------------------------------------------------------------------------------- LA CAPACITÀ DI RAGIONAMENTO DEI LLM: UN NUOVO BENCHMARK > Entusiasmo sì, ma spirito critico sempre attivo. Questo paper illustra un nuovo benchmark, chiamato Putnam-AXIOM, per valutare la capacità di ragionamento matematico di modelli di linguaggio avanzati (LLM). Come funziona? Viene usata una serie di problemi, sui quali vengono apportate delle variazioni per capire se i modelli sono in grado di generalizzare o lavorano per memorizzazione di soluzioni "già viste" in fase di addestramento. Risultato: il modello più accurato che è stato testato (o1-preview) ha raggiunto solo il 41.95% di accuratezza sul set originale, subendo un calo del 30% sui problemi variati. Putnam-AXIOM: un nuovo benchmark per i LLM Questo dimostra che i modelli tendono a basarsi su memorizzazione piuttosto che su un vero ragionamento. Vai al paper > Esistono già modelli più evoluti, ma il concetto cambierà? Lo scopriremo. -------------------------------------------------------------------------------- AGENTIC RAG: UN NUOVO PARADIGMA Avevo già fatto delle sperimentazioni unendo il concetto di RAG a un sistema multi-agent, e questo paper ne definisce proprio il paradigma, con il termine "Agentic RAG". "Agentic Rag": un nuovo paradigma Di fatto, i sistemi basati su workflow di AI Agent sono approcci per migliorare la qualità dell'inferenza, e per rendere il sistema più affidabile. Agentic RAG integra agenti autonomi nel flusso RAG per: * gestire dinamicamente le strategie di recupero; * rifinire iterativamente la comprensione del contesto; * adattare i flussi di lavoro a compiti complessi, migliorando flessibilità, scalabilità e consapevolezza contestuale. Vai al paper -------------------------------------------------------------------------------- AGENTS ARE NOT ENOUGH: AGENTS, SIMS, ASSISTANTS In un interessante paper dal titolo "Agents Are Not Enough", si torna a parlare di ibridi composti da reti neurali e AI simbolica. Viene descritta una nuova architettura per superare le limitazioni degli AI Agent, composta da: 1. Agenti Specializzati: moduli autonomi ottimizzati per compiti specifici, capaci di collaborare tra loro per risolvere task complessi. 2. Sims: rappresentazioni virtuali degli utenti che combinano preferenze, comportamenti e contesto. I Sims agiscono come avatar digitali per interagire con gli agenti in modo personalizzato e sicuro. 3. Assistenti: interfacce intelligenti che orchestrano le interazioni tra Sims e Agenti, garantendo che i compiti vengano eseguiti in maniera efficiente e conforme alle esigenze dell’utente. Agents Are Not Enough: Agents, Sims, Assistants L’innovazione chiave è nell’integrazione tra reti neurali (adattabilità e apprendimento) e AI simbolica (spiegabilità e trasparenza), creando un ecosistema scalabile e affidabile, attento alla privacy. Vai al paper > Un passo avanti verso un'intelligenza artificiale più utile e sicura. -------------------------------------------------------------------------------- I MODELLI TRANSFORMER NEL PLANNING STRATEGICO Questo paper di Google DeepMind esplora l'idea di usare i modelli transformer per affrontare il problema del planning strategico nel gioco degli scacchi. Lo scopo principale è verificare se i transformer possono imparare a giocare a scacchi e prendere decisioni strategiche senza fare una ricerca esplicita, come fanno i motori tradizionali tipo Stockfish o AlphaZero. > Il modello più grande (270M) è stato in grado di giocare a livello gran > maestro con un Elo blitz di 2895 contro umani su Lichess. I modelli transformer nel planning strategico > I transformer riescono a generalizzare su nuove posizioni mai viste durante > l’addestramento, dimostrando una capacità di ragionamento strategico. Vai al paper -------------------------------------------------------------------------------- SORA DI OPENAI: UN ESEMPIO DI SPOT PUBBLICITARIO Come sarebbe lo spot per una campagna di un noto brand realizzato al 100% con Sora di OpenAI (Text-To -Video)? È un esperimento dimostrativo di Dave Clark, un creative director professionista. Ci tengo a specificarlo per mettere in evidenza un concetto importante: l'AI non genera skill, ma potenzia competenze già consolidate. Un esempio di spot pubblicitario generato con Sora Ci sarà chi critica a prescindere questi sistemi, chi dirà "è freddo e senz'anima" (solo perché sa che è stato generato da un algoritmo), o chi andrà a scomporre tutti i fotogrammi per trovare un'incoerenza.. > Probabilmente sì, è "freddo e senz'anima", ma questo non fermerà il progresso. E le imprecisioni ci sono. Ma, secondo me, non si dovrebbe pensare a cosa sono questi modelli oggi. Ma si dovrebbe ricordare cos'erano due anni fa, e cos'erano un anno fa, per poi provare a immaginare quanto saranno di supporto alla creazione tra un anno. -------------------------------------------------------------------------------- VEO 2 DI GOOGLE: UN CORTOMETRAGGIO Un cortometraggio dal titolo "Fade Out", realizzato da Jason Zada (regista professionista) con Veo 2 di Google. Il tentativo è stato quello di generare dettagli simili a quelli dei film (es. movimenti della camera, illuminazione, texture, emozioni) "per creare una storia, non un montaggio". "Fade Out": un cortometraggio realizzato con Veo 2 di Google > L'AI non genera skill, ma potenzia > le competenze già consolidate. -------------------------------------------------------------------------------- RAY2 DI LUMA LABS Luma Labs ha rilasciato Ray2, un nuovo modello dedicato ai video. Inutile dire che la qualità è impressionante. * Realismo senza precedenti. Movimenti naturali e dettagli ultra-realistici. * Versatilità creativa. Generazione Text-To-Video, Image-To-Video, editing avanzato. * Potenza amplificata. Architettura multimodale e potenza computazionale 10 volte superiore rispetto al modello precedente. Video realizzati con Ray2 di Luma Labs > Una nuova frontiera per l'immaginazione visiva? -------------------------------------------------------------------------------- S2V-01 DI HAILUO: LA PERSONALIZZAZIONE DEL VIDEO Hailuo presenta S2V-01, un nuovo modello di generazione video che si concentra su una delle sfide più grandi del settore: mantenere i tratti del viso coerenti e realistici, indipendentemente dalle inquadrature. Genera video con personaggi da una sola immagine di riferimento, e ogni fotogramma rimane fedele con accuratezza. Un test di S2V-01 di Hailuo Nel video un mio test: ho usato la mia immagine di profilo e dei prompt testuali in cui descrivo le scene. > I modelli di generazione video continuano a migliorare e ad evolversi. -------------------------------------------------------------------------------- FLUX 1.1 PRO ULTRA Ho fatto alcuni test con Flux 1.1 Pro Ultra. La qualità delle immagini non stupisce più (ormai ci siamo abituati), ma generare immagini di queste dimensioni in qualche secondo è impressionante. Il modello, infatti, arriva fino a 4MP, con elevata aderenza al prompt in meno di 10 secondi. -------------------------------------------------------------------------------- FRAMES DI RUNWAY Runway rilascia Frames, e il panorama della generazione di immagini cambia nuovamente, con un altro player di peso. Immagini generate attraverso Frames di Runway Nella presentazione si parla di "controllo stilistico e fedeltà visiva senza precedenti".. beh, lo vedremo, ma le anteprime non scherzano. Vai al post > Runway diventa una piattaforma per la content creation sempre più completa. -------------------------------------------------------------------------------- INTELLIGENZA ARTIFICIALE E ISTRUZIONE: UNO STUDIO Studio: in cinque moduli di un corso di laurea in psicologia, sono state inviate alcune risposte create al 100% dall'AI, come se fossero scritte da studenti. I professori che correggevano non lo sapevano. Il 94% delle risposte generate non è stato rilevato come sospetto. L'algoritmo ha ottenuto, in media, voti più alti rispetto agli studenti reali. In alcuni casi, l'AI ha superato l'80% degli studenti. Intelligenza Artificiale e Istruzione: uno studio > L'esperimento ha dimostrato che l'AI può facilmente passare inosservata negli > esami e che bisogna ripensare ai metodi di valutazione per affrontare questa > nuova realtà. Vai al paper -------------------------------------------------------------------------------- - GRAZIE - Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre persone, condividilo 🙂 ISCRIVITI ALLA NEWSLETTER Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su tematiche relative all'intelligenza artificiale. Iscriviti alla Newsletter Email sent! Check your inbox to complete your signup. Gratuita. No Spam. Puoi disiscriverti quando vuoi. Consulta la privacy policy.
AI
GPT-4
Novità e Riflessioni
Gemini
12 spunti per il 2025 sull'evoluzione dell'AI
Si sono recentemente conclusi i "12 Days" di OpenAI: dodici giorni di live streaming in cui il brand ha presentato le innovazioni e le nuove features sviluppate nell'ultimo periodo. In questo contenuto li ripercorreremo insieme, ma con l'aggiunta di riflessioni e spunti che riguardano lo sviluppo dell'Intelligenza Artificiale nel prossimo futuro. -------------------------------------------------------------------------------- 1) DALL'AUMENTO DELLA SCALA AL MIGLIORAMENTO DELLA QUALITÀ DELL'INFERENZA Con il "Day 1", e il rilascio di o1 "full" e "Pro", OpenAI continua il percorso del miglioramento delle performance dei modelli guidato dall'aumento della qualità dell'inferenza. o1 è migliore, più veloce, multimodale, adattivo, e non solo dedicato a task di calcolo. Day 1 di OpenAI: o1 e oi Pro La recente storia dell’AI può essere riassunta in una parola: scala. Ovvero performance = modelli sempre più grandi e che necessitano di potenza di calcolo sempre maggiore. Sistemi come 01 dimostrano che non si tratta più dell'unico percorso di crescita. Come funzionano questi sistemi? Quando il modello riceve il prompt in input, prima di dare la risposta, produce una serie di token di reasoning. In pratica, è addestrato per sviluppare catene di pensiero, in cui analizza il problema passo dopo passo, fa diverse ipotesi e le confronta; infine, dopo questi step, genera l'output con una qualità superiore. Un esempio di funzionamento di o1 di OpenAI Anche Google sta evolvendo i suoi modelli in questa direzione. Recentemente, infatti, ha rilasciato Gemini 2.0 Flash Thinking su AI Studio, che funziona anche su task con input multimodale. Un esempio di Gemini 2.0 Flash Thinking Il potenziale di questi sistemi, unito ad architetture multi-agente in cui i "reasoner" guidano le azioni dei singoli agenti, porterà ad applicazioni davvero interessanti. Qualche giorno fa, ho realizzato un software di questo tipo usando Autogen di Microsoft come framework, in cui diversi AI agent collaborano per fare una predizione su un dataset. Gli agenti sono basati su GPT-4o e o1. Creano un piano d'azione autonomamente, sviluppano il codice necessario installando le librerie che mancano, lo eseguono correggendo eventuali errori fino ad arrivare all'output. Il sistema valuta anche le performance e modifica la rete neurale che si occupa della predizione in modo da ottimizzarla. Sistema multi-agent che genera una prediction su un dataset > Mi aspetto un framework multi-agent da OpenAI, che vada oltre al progetto > Swarm. -------------------------------------------------------------------------------- 2) MIGLIORA LA CAPACITÀ DI GENERALIZZAZIONE DEI MODELLI DI LINGUAGGIO Il "Day 2" di OpenAI è il giorno del Reinforcement Fine-Tuning (RFT), applicato ai modelli o1. Day 2 di OpenAI: Reinforcement Fine-Tuning (RFT) Mentre il fine-tuning si limita a fornire dati al modello, addestrandolo a imitarli (miglioramento di tono, stile, formato), il Reinforcement Fine-Tuning punta ad aumentare la capacità di generalizzazione: il modello riceve un dataset di training, e successivamente prova a risolvere un problema ricevendo un punteggio (dal grader) per la qualità della risposta. Se la risposta è corretta, viene premiato, altrimenti viene "scoraggiato" a perseguire quella linea di ragionamento. Questa nuova funzionalità mira a migliorare la capacità dei modelli di affrontare compiti complessi e specifici. > Nuove architetture che aumentano la precisione e la qualità dell'inferenza, > addestrando i modelli a compiere un "ragionamento" in modo migliore. -------------------------------------------------------------------------------- 3) LA QUALITÀ DEGLI OUTPUT MULTIMEDIALI AUMENTA, CREANDO STRUMENTI POTENTI PER I CONTENT CREATOR Il "Day 3" di OpenAI è il giorno di Sora, il tanto atteso modello per la generazione di video. Si tratta di una nuova piattaforma disponibile su sora.com, in grado di creare video (da 5 a 20 s, e da 480p a 1080p) attraverso prompt testuali e immagini statiche, di editare e mixare video con stili diversi e di estenderli in entrambe le direzioni. Day 3 di OpenAI: Sora La funzionalità "storyboard" è quello che mancava per questi sistemi: permette di dirigere video complessi con una sequenza di azioni sulla timeline, e con transizioni fluide. Lo Storyboard di Sora Il video che segue, mostra un esempio di video che ho generato attraverso lo storyboard che si vede nell'immagine precedente, e successivamente modificato con la funzione "Remix", che permette di modificare degli elementi in un video attraverso prompt testuali. Un esempio della funzionalità "Remix" di Sora Sora è già usabile negli USA e in altri paesi non specificati nella presentazione, ma è stato sottolineato che per Europa e UK ci vorrà del tempo. Il modello viene distribuito in versione limitata (video, qualità, durata, filigrana) per gli abbonati ChatGPT, con funzionalità complete per gli abbonati Pro. Sicurezza: i video vengono contrassegnati da una filigrana e da metadati C2PA. In fase di caricamento delle immagini che fanno da driver per i video, inoltre, l'utente deve dichiarare che si tratta di materiale che non riguarda minorenni, contenuti espliciti o violenti, e materiale protetto da copyright. Dopo il lancio di Sora, Google ha annunciato Veo 2, che dimostra una qualità impressionante, con la capacità di generare video in 4k. Esempi di video generati attraverso Veo 2 di Google Anche Pika ha lanciato la versione 2.0 del suo modello, introducendo (in risposta allo Storyboard di Sora) uno strumento per una generazione di video più controllata, chiamato "Scene Ingredients". Scene Ingredients di Pika 2.0 E non poteva mancare la risposta di Runway, che introduce i fotogrammi chiave intermedi per Gen-3. Si tratta di un sistema per passare facilmente da una scena all'altra avendo maggior controllo della creazione, che ormai è l'obiettivo principale di questi strumenti. Video generato attraverso Runway Gen-3 e i fotogrammi chiave intermedi > La qualità di questi modelli non stupisce più. Quello che stupisce è come > stanno diventando (con una forza sempre maggiore) degli strumenti chiave per i > content creator. -------------------------------------------------------------------------------- 4) L'EVOLUZIONE DEGLI EDITOR CON LLM PER UNA CO-CREAZIONE SEMPRE MIGLIORE Il "Day 4" è il giorno dell'evoluzione di Canvas. Day 3 di OpenAI: Canvs Vediamo le tre innovazione più interessanti. 1. La possibilità di portare qualunque testo su Canvas, anche semplicemente copiandolo e incollandolo da un file (prima era necessario eseguire un prompt per aprire l'interfaccia). 2. L'esecuzione del codice. È possibile lavorare sul codice ed eseguirlo direttamente su Canvas. Il sistema può mostrare la console degli errori (con la possibilità di fixare), e l'output (testo e diagrammi). Questa funzionalità è carina, ma, dopo alcuni test, ho delle perplessità. Che tipo di codice può essere eseguito in un ambiente come questo? Senza la possibilità di avere un dataset a disposizione, né accesso esterno.. Certo, poche righe di Python con dati simulati, ma non qualcosa di più strutturato. 3. Le nuove features che permettono ai GPTs custom di lavorare direttamente su Canvas, sia con il testo, sia con lo sviluppo di codice. > Gli editor dotati di assistenti basati > sui LLM sono una realtà consolidata. Anche Anthropic ne ha una versione nel suo Artifacts, e abbiamo Gemini integrato su Colab. Tra le innovazioni più interessanti troviamo Spark di GitHub (oltre a Copilot), che permette di creare micro-applicazioni web utilizzando il linguaggio naturale, rendendo lo sviluppo accessibile anche a chi ha competenze di programmazione meno avanzate. Parallelamente, Replit ha sviluppato AI Agent, una piattaforma che guida l'utente nella generazione e distribuzione di applicazioni complete, riducendo significativamente i tempi di sviluppo e abbassando la barriera d'ingresso per la creazione di software. -------------------------------------------------------------------------------- 5) L'INTEGRAZIONE NEGLI ECOSISTEMI Il "Day 5" è il giorno dell'integrazione con Apple Intelligence. ChatGPT è ora integrato in iOS, iPadOS e macOS. Siri, ad esempio, può passare le richieste a ChatGPT quando servono risposte più complesse. Può contribuire alla scrittura e all'analisi di documenti, e si integra con la fotocamera per analizzare elementi visivi. Day 5 di OpenAI: Apple Intelligence > Una dimostrazione di agenti collaborativi integrati negli ecosistemi. Cosa che > sta dimostrando anche Google con Gemini 2.0. -------------------------------------------------------------------------------- 6) LA MULTIMODALITÀ E L'INTERAZIONE UOMO-MACCHINA Il "Day 6" è il giorno del potenziamento dell'Advanced Voice Mode. La funzionalità permette di conversare con ChatGPT usando video dal vivo e condivisione dello schermo: un'interazione con l'assistente in tempo reale per ricevere aiuti pratici. Day 6 di OpenAI: Advanced Voice Mode Quelli che seguono sono alcuni miei test della modalità, che purtroppo non è ancora disponibile in Italia (ho usato una VPN). Advanced Voice Mode di ChatGPT con video in real-time Nel frattempo anche Microsoft ha rilasciato Copilot Vision, che permette un'esperienza di navigazione collaborativa, con l'assistente che può "vedere" lo schermo in tempo reale dando suggerimenti e interagendo con l'utente attraverso la voce. Copilot Vision now in preview – a new way to browse | Microsoft Copilot Blog Since we first announced the new consumer Copilot in October, we have loved seeing the ways people have made Copilot their own. It has helped people think through their ideas and get a fresh perspective, has made it less overwhelming to find the right information, and has even helped people feel supported when navigating difficult Microsoft Copilot BlogThe Copilot Team Google, procedendo nella stessa direzione, ha reso disponibile l'interazione multimodale con Gemini 2.0, con la possibilità di dialogare con l'assistente attraverso la voce, condividendo anche la camera del dispositivo e lo schermo. Nel video che segue, una mia demo, in cui lavoro a schermo condiviso e uso la voce per comunicare con il modello (il sistema è usabile su Google AI Studio). Gemini 2.0: un esempio di utilizzo con schermo condiviso e voce Problemi con la lingua a parte, si tratta di un'esperienza davvero interessante, e fa capire il potenziale di questa tecnologia. > L'interazione multimodale è ormai a un livello di qualità importante, e > migliorerà. Se due anni fa eravamo in preda alla delusione per Alexa e Google > Assistant, oggi iniziamo a intravedere una nuova possibilità. -------------------------------------------------------------------------------- 7) MIGLIORA L'ORGANIZZAZIONE DEI PROGETTI ALL'INTERNO DELLE PIATTAFORME Il "Day 7" è il giorno dei progetti (Projects) su ChatGPT. Si tratta di un sistema di organizzazione delle chat, che permette di raggrupparle e di centralizzare system prompt e l'utilizzo di file. Day 7 di OpenAI: Projects su ChatGPT Tutte le chat del progetto, in pratica, hanno nel contesto le istruzioni e i file di riferimento. > Le piattaforme non sono più solo interfacce in cui è possibile usare un LLM > "one-shot", ma strumenti di organizzazione del lavoro. -------------------------------------------------------------------------------- 8) L'ASCESA DEI SISTEMI IBRIDI CHE INTEGRANO UN MODELLO DI LINGUAGGIO AL MOTORE DI RICERCA Il "Day 8" è il giorno dell'ottimizzazione della Search di ChatGPT. Più veloce, migliorata da mobile e integrata con mappe interattive. Day 8 di OpenAI: Search di ChatGPT Anche l'Advanced Voice Mode è stata dotata della ricerca, eliminando il gap con Gemini Live su questo aspetto. Perplexity, nel frattempo, fa notevoli passi in avanti, introducendo lo Shopping e il Merchant Program, attraverso il quale i brand possono mettere a disposizione il feed dei loro prodotti, per generare esperienze utente come quelle che si possono vedere nel seguente video. L'esperienza di shopping con Perplexity Anche Google introduce diverse novità in questo ambito, portando AI Overviews su Google Shopping (negli USA), e la Search su Gemini Advanced. Nel video che segue, si può vedere un esempio della SERP di Google Shopping statunitense con AI Overviews. AI Overviews su Google Shopping (SERP USA) Quello che segue, invece, è un mio test della Search su Gemini Advanced, testabile selezionando "1.5 Pro with Deep Search" come modello. Un esempio della Search di Google integrata su Gemini Ho posto una query di confronto tra due modelli di smartphone. Il sistema crea un piano di ricerca e lo esegue estraendo le fonti, e genera un output completo del confronto. L'output è visualizzabile di Google Docs e le tabelle su Spreadsheet. L'esperienza non è veloce, ma il risultato è molto interessante. Un aspetto degno di nota: questa modalità è a disposizione anche via API attraverso la funzionalità definita "grounding con la Ricerca Google", per rendere le risposte di Gemini più affidabili. > I sistemi ibridi composti da un motore di ricerca e un LLM si stanno > candidando a diventare una nuova modalità di consultazione delle informazioni > disponibili online. E saranno completi quando avranno a disposizione i dati > strutturati messi a disposizione dai brand (es. il feed dei prodotti degli > e-commerce). -------------------------------------------------------------------------------- 9) LE API DIVENTANO PIÙ PERFORMANTI E L'INTEGRAZIONE SI SEMPLIFICA Il "Day 9" è il giorno dedicato agli sviluppatori. Le novità: o1 disponibile via API con function calling, output JSON e con un consumo di token di reasoning inferiore del 60% rispetto al modello in preview.  Sono stati introdotti anche i "Developer Messages" (consentono di guidare meglio l'output senza interferire con le istruzioni degli utenti) e il "Reasoning Effort", per gestire il tempo di reasoning. È stato migliorato il supporto WebRTC, per conversazioni vocali a bassa latenza con integrazione semplificata anche su device fisici.  Day 9 di OpenAI: novità per i developers È stato introdotto un nuovo metodo di fine-tuning: il Direct Preference Optimization (DPO). Invece di fornire al modello una singola risposta ideale, si forniscono coppie di risposte in cui una è preferita rispetto all’altra. L’addestramento si basa sull’apprendimento delle differenze tra risposte preferite e non preferite. > Queste tecnologie sono sempre più "controllabili" attraverso nuovi metodi di > fine-tuning, e sempre più integrabili in modo semplice su applicazioni e > dispositivi di qualunque genere. -------------------------------------------------------------------------------- 10) RAGGIUNGERE L'UTENTE, INDIPENDENTEMENTE DALLA TECNOLOGIA Il "Day 10" è dedicato alle chiamate vocali e WhatsApp. Negli USA è attivo un numero telefonico al quale risponde la Voice Advanced Mode di ChatGPT, con la quale è possibile interagire. Day 10 di OpenAI: telefono e WhatsApp In tutto il mondo, è possibile "chattare" con ChatGPT via WhatsApp. > Il tentativo? > Raggiungere qualunque utente, indipendentemente dalla tecnologia a > disposizione. -------------------------------------------------------------------------------- 11) L'INTERAZIONE CON LE APPLICAZIONI OpenAI si muove verso la creazione di un assistente che interagisce con le applicazioni e "compie azioni per conto dell'utente".  Il "Day 11" è il giorno del potenziamento dell'app desktop per MacOS (e a breve per Windows). Day 11 di OpenAI: work with apps Le azioni vanno dall'automazione delle attività sul desktop all'interazione con il terminale e IDE, e dall'assistenza alla scrittura alla generazione di diagrammi. Il tutto con il supporto della ricerca, accesso rapido e contestuale, e la possibilità di interazione vocale. Anche Anthropic ha presentato un progetto di interazione con il computer per automatizzare le operazioni. E probabilmente anche Google sta introducendo un concetto simile con un progetto denominato Jarvis. Google is reportedly developing a ‘computer-using agent’ AI system It will reportedly only work in a web browser, at first. The Verge > Si preannuncia uno scenario in cui gli utenti potranno interagire con diversi > AI Agent attraverso il linguaggio naturale, i quali gestiranno processi e > applicazioni su diversi dispositivi per raggiungere gli obiettivi. -------------------------------------------------------------------------------- 12) LE NUOVE ARCHITETTURE ALLA BASE DELLA CRESCITA DELLE PERFORMANCE DEI LARGE LANGUAGE MODEL o3, presentato durante il "Day 12" è la dimostrazione (ancora una volta) del fatto che non basta aumentare la scala dei modelli precedenti per incrementare le performance: servono nuove idee e nuove architetture. Day 12 di OpenAI: o3 L'aspetto più interessante è la capacità di adattamento che sembra avere il modello su compiti inediti, ottenendo risultati mai visti prima, riuscendo a sintetizzare nuove soluzioni.  Ho la sensazione che questi modelli usino una struttura multi-agent, con agenti che valutano la richiesta (sicurezza), interagiscono autonomamente creando catene di ragionamento (reasoning), per valutarle e per validarle. Le performance dei modelli della serie "o" di OpenAI sul benchmark ARC-AGI > Sulla carta, stiamo parlando di un passo in avanti sbalorditivo.. oltre ogni > aspettativa. Nel 2025 potremo analizzarlo più a fondo. I benchmark, attualmente, sono tutti in ambito coding e su task matematici, e non è ancora ben chiaro come sia stato addestrato il modello, e come siano stati condotti i test. > Dall’AI nel 2025 mi aspetto ottimizzazione, miglioramento delle performance, > ma soprattutto INTEGRAZIONE. > Perché non esiste innovazione senza integrazione. -------------------------------------------------------------------------------- - GRAZIE - Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre persone, condividilo 🙂 ISCRIVITI ALLA NEWSLETTER Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su tematiche relative all'intelligenza artificiale. Iscriviti alla Newsletter Email sent! Check your inbox to complete your signup. Gratuita. No Spam. Puoi disiscriverti quando vuoi.Consulta la privacy policy.
AI
GPT-4
Novità e Riflessioni
Generative AI: novità e riflessioni - #11 / 2024
> Buon aggiornamento, e buone riflessioni.. -------------------------------------------------------------------------------- CI VEDIAMO AL SEARCH MARKETING CONNECT Nei giorni 11 e 12 dicembre, a Bologna, ci sarà la diciottesima edizione del Search Marketing Connect, che sarà orientata all'impatto dell'Intelligenza Artificiale su SEO, Analytics, ADV, Digital Strategy e Content. Terrò due interventi: * il primo sulla ricerca online potenziata dall'AI; * il secondo sulle nuove architetture volte ad aumentare la qualità dell'inferenza nei modelli di linguaggio (sistemi di "reasoning" e multi-agent). In entrambi, porterò concetti, sperimentazione e riflessioni. Vai al programma completo -------------------------------------------------------------------------------- COSA SONO GLI AI AGENTS? Tutti parlano gli AI Agents e sistemi multi-agente. Ma di cosa si tratta? Spiegazione semplice: un agente è un sistema che usa un LLM come motore di "ragionamento", ed è in grado di eseguire operazioni autonomamente per raggiungere l'obiettivo richiesto. Cosa sono gli AI Agents? > Un GPT connesso a diverse API esterne è un semplice esempio di agente: è il > LLM, in base alla richiesta e ai servizi ai quali può accedere, che decide le > azioni da compiere. Qui è possibile consultare un esempio di implementazione di un semplice agente usando LangChain. Build an Agent | 🦜️🔗 LangChain By themselves, language models can’t take actions - they just output text. 🦜️🔗 LangChain UN ESEMPIO DI APPLICAZIONE MULTI-AGENTE Nel video, è possibile vedere un esempio di applicazione multi-agent su AutoGen Studio, per pianificare il miglior periodo per una vacanza con determinate caratteristiche. Un'applicazione multi-agent su AutoGen Studio Gli agenti coinvolti sono: un proxy che riceve la richiesta, il team leader, l'esperto di meteorologia, l'esperto della Grecia e l'esperto di surf. Ogni agente è basato su GPT-4o, e ha accesso a una knowledge specifica, o a tool che estraggono dati via API in base alle interazioni. > I vantaggi di sistemi di questo tipo: specializzazione, scomposizione di > problemi complessi, scalabilità, flessibilità. -------------------------------------------------------------------------------- MODEL CONTEXT PROTOCOL (MCP) Anthropic introduce Model Context Protocol (MCP), uno standard che semplifica la connessione degli agenti AI a fonti di dati locali e remote. Grazie a sistemi di questo tipo, l'LLM può collegarsi alla knowledge senza bisogno di connettori specifici, ma con "semplici" architetture client-server. Introducing the Model Context Protocol The Model Context Protocol (MCP) is an open standard for connecting AI assistants to the systems where data lives, including content repositories, business tools, and development environments. Its aim is to help frontier models produce better, more relevant responses. > Questo permette di aumentare la precisione e di creare ecosistemi più > scalabili e sostenibili, accelerando la transizione verso sistemi di AI più > "agentici" e collaborativi. -------------------------------------------------------------------------------- LA RICERCA SU CHATGPT OpenAI porta su ChatGPT l'esperienza (e i feedback) di SearchGPT e le partnership editoriali nate nell'ultimo periodo. Si basa su GPT-4o ottimizzato con nuove tecniche di generazione di dati sintetici e di distillazione che sfrutta o1. > L'ho provato. È senza dubbio migliorabile, ma mi sembra un ottimo inizio di > una nuova esperienza di ricerca. La ricerca su ChatGPT Mancano le integrazioni che siamo abituati a trovare nelle SERP di Google, ad esempio.. ma le potenzialità sono enormi. Esempi di ricerca su ChatGPT La capacità di distillare una grande quantità di fonti in pochissimo tempo è stupefacente. La sintesi delle competizioni sportive è un esempio lampante. > E vogliamo parlare dell'estensione per Chrome che permette di rendere la > ricerca di ChatGPT quella di default del browser!? COME FUNZIONA LA RICERCA SU CHATGPT? Il dettaglio del video fa intuire la natura del funzionamento della ricerca di ChatGPT. Search su ChatGPT: come funziona? È una sorta di RAG (Retrieval-Augmented Generation): la SERP di Bing è la lista dei "documenti" che compongono la knowledge. Le informazioni vengono trasformate in embeddings, e con una query vettoriale il LLM costruisce la risposta. Nell'area "citazioni" sono presenti i documenti della knowledge con le parti più vicine semanticamente alla query, e che, come nel RAG vengono indicate tra le fonti della risposta. > Questo cambia il paradigma di ricerca delle informazioni: la prima estrazione > può essere anche poco precisa (rimanendo importante), mentre il lavoro > semantico raffinato avviene in seconda battuta. LA RICERCA SU CHATGPT NON È SEARCHGPT! Ho letto diversi post in cui si afferma di aver scoperto che i risultati della ricerca di ChatGPT derivano da Bing: È COSÌ, e la documentazione lo riporta in modo chiaro (..ma bisogna leggerla!). La ricerca su ChatGPT non è SearchGPT È stata migliorata la distillazione dei risultati, vengono sfruttare le partnership editoriali, ed è stata sfruttata L'ESPERIENZA di SearchGPT (i feedback del prototipo) per migliorare le risposte della ricerca. > Ergo: non leggiamo solo i titoli degli articoli che troviamo online. I > concetti vanno approfonditi. -------------------------------------------------------------------------------- AI OVERVIEWS SU GOOGLE SHOPPING NEGLI USA L'esperienza di AI Overviews all'interno di Google Shopping nelle SERP USA è davvero interessante. AI Overviews su Google Shopping in USA Google sta "spingendo" questa tecnologia dove (attualmente) non ha rivali, ovvero nelle piattaforme in cui i risultati sono guidati dai dati strutturati. > Anche se la recente integrazione dello "shopping" su Perplexity fa riflettere. GOOGLE AI SALES ASSISTANT Sembra che Google, inoltre, stia testando AI Sales Assistant in SERP, raggiungibile attraverso una CTA "Shop" dopo i sitelink dei brand. La chat permette di fare domande e affinare la ricerca dei prodotti. Google AI Sales Assistant > I dati ben strutturati, diventano sempre di più il motore che alimenta touch > point digitali. E il sito web è solo uno di questi. SEO è anche comprendere questo aspetto, e curare feed e dati strutturati. -------------------------------------------------------------------------------- LO SHOPPING DI PERPLEXITY Perplexity introduce "shopping", che permette di fare una ricerca con intento d'acquisto, ottenere un listing di prodotti distillato dai risultati con informazioni dettagliate, e acquistare direttamente dalla SERP. La ricerca può essere anche visuale.. anzi, multimodale (immagine + query testuale). Per approfondire > I sistemi basati sull'AI diventano sempre di più un intermediario tra l'utente > e l'acquisto di prodotti e servizi. -------------------------------------------------------------------------------- BRAVE SEARCH INTRODUCE "ANSWER WITH AI" Una nuova funzionalità che distilla risposte in base ai risultati di ricerca, e permette una conversazione con domande di follow-up. Il sistema si basa sui dati dell'indice di Brave e su LLM open-source e proprietari per la generazione di risposte. Answer with AI di Brave Search Lo stile è quello di AI Overviews di Google, con la risposta in alto e i risultati tradizionali a seguire. > Il panorama si amplia, e gli ibridi tra motore di ricerca e LLM diventano > sempre di più parte dell'esperienza utente. -------------------------------------------------------------------------------- LA VERSIONE DESKTOP DI CHATGPT OpenAI ha rilasciato l'applicazione desktop per Windows e MacOS. L'ho provata, e si capisce subito come la facilità di utilizzo aumenta. La versione desktop di ChatGP Alt + Spazio, e l'interazione è subito pronta per ricerche, azioni sui documenti, "vision" sullo schermo, e voce. -------------------------------------------------------------------------------- GOOGLE SEARCH PER I MODELLI GEMINI Dopo la ricerca su ChatGPT arriva Google Search per i modelli Gemini. L'ho provato. La funzionalità si chiama "Grounding with Google Search" ed è molto simile a quella di ChatGPT. Grounding with Google Search Permette, però, anche si gestire il "dynamic retrieval": un parametro per impostare l'influenza del recupero dai risultati di ricerca nella risposta del modello. Interessante anche vedere come il sistema scompone la richiesta in diverse query. > L'aspetto interessante è che sarà usabile via API, consentendo agli > sviluppatori di creare applicazioni più accurate. -------------------------------------------------------------------------------- SISTEMI DI "REASONING": LA QUALITÀ DELL'INFERENZA Durante il TED AI di San Francisco, Noam Brown (OpenAI), ha affermato: > Si è scoperto che far riflettere un bot per soli 20 secondi durante una mano > di poker ha ottenuto lo stesso miglioramento delle prestazioni che si > otterrebbe aumentando le dimensioni del modello di 100.000 volte e > addestrandolo per 100.000 volte più a lungo. Si stava riferendo alla tecnica usata su sistemi come "o1", che probabilmente tutti i modelli (anche di altri player) adotteranno prossimamente. Sul palco dell'AI Festival, ho condiviso la riflessione: > La potenza di calcolo e l'accesso a grandi set di dati saranno ancora > sufficienti per progredire? O forse siamo arrivati in un momento in cui la > scala potrebbe non bastare più, rendendo necessarie intuizioni innovative ed > evoluzioni algoritmiche? Alessio Pomaro: AI Festival 2024 Sembra, infatti, che il focus si stia spostando sulla qualità dell'inferenza e su nuove architetture, e meno sulla scala del training (visto anche che i progressi di Orion sembrano essere al di sotto delle aspettative). > Successivamente, si dovrà cercare l'accuratezza e la "comprensione" coerente. -------------------------------------------------------------------------------- COSA SONO GLI EMBEDDINGS? Sentiamo sempre più spesso parlare di embeddings: di cosa si tratta, come si generano, e come possono essere utili nei flussi operativi? Una spiegazione semplice, con alcuni esempi di utilizzo: Cosa sono gli embeddings? Esempi di utilizzo Cosa sono e come funzionano gli embeddings (o incorporamenti): una spiegazione semplice con alcuni esempi di utilizzo in ambito SEO, e riflessioni sull’importanza della consapevolezza di questi sistemi. Alessio PomaroAlessio Pomaro In ambito SEO, ad esempio, possono essere utilizzati per creare delle redirection automatizzate per le migrazioni degli e-commerce, per gestire i 404 e per rafforzare la rete di link interni. > Facciamo anche alcune importanti riflessioni sull'importanza della > consapevolezza di questi sistemi per ottenere performance. Per approfondire -------------------------------------------------------------------------------- KLING CUSTOM MODEL E SUNO V4 Con questo video vediamo due novità incredibili: Kling Custom Models e Suno v4. Kling Custom Model e Suno V4 Kling ora permette un training per la coerenza dei personaggi attraverso dei video di esempio. Il video è stato creato da Alex Patrascu, addestrando Kling a riprodurre sé stesso. L'audio del video è stato realizzato con l'ultima versione di Suno, la 4. Anche le tracce audio iniziano ad avere una qualità importante. > Il risultato è.. una parte del futuro della content creation. -------------------------------------------------------------------------------- RUNWAY: FRAMES + EXPAND VIDEO Runway ha presentato due nuove funzionalità molto interessanti (una dedicata alle generazione delle immagini). FRAMES Frames è un nuovo modello di generazione di immagini di Runway. Le chiavi di sviluppo sembrano essere la coerenza stilistica e la fedeltà visiva. Il tutto per essere il primo step per la generazione di video sempre migliori. Esempi di immagini generate con Frames di Runway Le anteprime sono notevoli. Per approfondire EXPAND VIDEO Expand Video è una nuova funzionalità per modificare le proporzioni dei video estendendo il frame originale e mantenendo la coerenza visiva. A questo è possibile abbinare i movimenti della telecamera ed effetti. Expand Video di Runway > Questo permette di creare diversi formati di video senza dover fare riprese > aggiuntive. Per approfondire -------------------------------------------------------------------------------- FUGATTO DI NVIDIA Fugatto è un nuovo modello di Nvidia dedicato al mondo audio. > È in grado di generare e modificare qualunque tipo di mix di musica, voci e > suoni utilizzando prompt basati su testo e file audio. Esempi di funzionalità: creazione di nuovi suoni, cambiamento di emozioni o accenti in una voce, manipolazione di strumenti musicali in un brano esistente, voice-over personalizzati. Fugatto di Nvidia > La qualità e la precisione di questi strumenti li renderà indispensabili nei > flussi di lavoro. Per approfondire -------------------------------------------------------------------------------- STILI PERSONALIZZATI SU CLAUDE Anthropic ha introdotto una funzionalità che permette di scegliere lo stile di scrittura su Claude. Gli stili personalizzati su Claude Ma soprattutto, consente di creare stili personalizzati attraverso un addestramento: caricando esempi o usando prompt descrittivi. -------------------------------------------------------------------------------- AISUITE DI ANDREW NG Andrew Ng ha rilasciato Aisuite nella sua repository di GitHub: un framework open che permette di usare qualunque LLM con poche righe di Python. GitHub - andrewyng/aisuite: Simple, unified interface to multiple Generative AI providers Simple, unified interface to multiple Generative AI providers - GitHub - andrewyng/aisuite: Simple, unified interface to multiple Generative AI providers GitHubandrewyng > In pratica incapsula le chiamate API dei più noti modelli, facilitando test e > prototipazione. -------------------------------------------------------------------------------- IGNITE 2024: LE NOVITÀ DI MICROSOFT * Sicurezza e Data Governance. Nuove funzionalità in Microsoft Purview per proteggere i dati e prevenire rischi legati all'AI. * Evoluzione di Co-Pilot. Co-Pilot diventa centrale per produttività e creatività con azioni automatizzate e agenti personalizzabili. * Nuovi Agenti AI. Agenti specifici per moderare riunioni, gestire progetti e fornire accesso alle informazioni in tempo reale. Un esempio è "Interpreter": un agente AI connesso a Teams in grado di tradurre in tempo reale la conversazione in qualunque lingua riproducendo la voce delle persone. > Fino a qualche anno fa lo immaginavamo.. adesso è realtà * Co-Pilot Analytics. Strumenti per misurare l’impatto aziendale dell’uso di Co-Pilot. * Windows 365. Nuove soluzioni per il lavoro sicuro nel cloud e aggiornamenti senza interruzioni. * Innovazioni Hardware. Lancio di chip e DPUs per migliorare sicurezza, prestazioni e sostenibilità. * Microsoft Fabric. Unificazione di analisi e gestione operativa con database SQL Server su Fabric. * Azure AI Foundry. Piattaforma centralizzata per sviluppatori con modelli AI e strumenti avanzati. * Computing Quantistico. Progresso con 24 qubit logici entangled per affrontare sfide scientifiche complesse. Ignite 2024: le novità di Microsoft -------------------------------------------------------------------------------- I NUOVI STRUMENTI DI MISTRAL Mistral ha rilasciato una nuova versione della sua Chat, introducendo nuovi strumenti: le ricerca online, Canvas, Advanced OCR (vision) e Image Generator. L'ho provato! * La ricerca online non è perfezionata: è lenta e ho ottenuto informazioni sbagliate. Non è specificato il motore, ma spesso i risultati derivano da una SERP in inglese. Anche se si forza la Search, non sempre esegue la ricerca. * La generazione delle immagini è basata su Flux Pro, e questa è un'ottima notizia. Tuttavia, ci sono problemi di incapsulamento dei prompt con la lingua: meglio usare l'inglese. * Canvas è interessante, ma ha problemi nel prompt multimodale: in un prompt ho istruito il modello per generare un post a partire da un PDF, ma ha dato errore. Al netto di questo, siamo lontani dalle funzionalità di Canvas su ChatGPT. > L'ottimo inizio di un nuovo sviluppo. -------------------------------------------------------------------------------- OPERATOR DI OPENAI OpenAI, secondo Bloomberg, starebbe lavorando sul progetto "Operator", un agente autonomo in grado di controllare anche i dispositivi svolgendo compiti in modo indipendente. Questo segue un trend già avviato da Anthropic e da Google, ma ancor prima da progetti open source come Open Interpreter. > Gli agenti autonomi sono probabilmente il prossimo passo evolutivo per l'AI, > che si avvia a diventare uno strato non solo tra gli utenti e le piattaforme > digitali, ma anche nei confronti dell'hardware. -------------------------------------------------------------------------------- USARE I MODELLI DI LINGUAGGIO SU SCREAMING FROG Screaming Frog introduce le API per l'interfacciamento con i modelli di OpenAI, Google e con Ollama. Lavora sull'HTML salvato in fase di scansione, mentre nella versione precedente si usavano snippet JavaScript personalizzati eseguiti durante il rendering delle pagine. È possibile generare embeddings e contenuti con prompt personalizzati su contesti selezionabili (attraverso estrattori predefiniti e custom). L'integrazione dei LLM su Screaming Frog COSA MANCA? La possibilità di comporre il contesto che mettiamo a disposizione del modello in base all'utilizzo di più elementi delle pagine estraibili con XPath. Questo è realizzabile con la versione JS! > Ho scritto al team di Screaming Frog, e hanno già messo la funzionalità nella > roadmap di sviluppo. Ottimo! -------------------------------------------------------------------------------- GEMINI NEL WORKSPACE DI GOOGLE Google inizia ad integrare Gemini nei software del Workspace. Negli esempi si vedono alcune interazioni su Gmail e su Drive. Esempi dell'integrazione di Gemini nel Workspace di Google > Tutto molto interessante, anche se le performance non sono ancora ottimali > (almeno per l'italiano). -------------------------------------------------------------------------------- LA SENSIBILITÀ DEI LLM NEI CONFRONTI DEI PROMPT I LLM più grandi sono meno sensibili alle variazioni dei prompt. Ne parla questo paper molto interessante. Ma basta fare dei test con o1 di OpenAI per rendersene conto. La sensibilità dei LLM nei confronti dei prompt Questo è ottimo perché il margine d'errore si riduce anche se le interazioni diventano più scarse, ma si riducono anche le potenzialità. Vai al paper -------------------------------------------------------------------------------- USARE GEMINI CON LA LIBRERIA PYTHON DI OPENAI Gemini può essere usato attraverso la libreria Python di OpenAI. Com'è possibile? Semplice: hanno sviluppato un proxy che traduce la sintassi delle chiamate API di OpenAI nel formato richiesto dalle API di Gemini. Usare Gemini con la libreria Python di OpenAI Mossa intelligente, perché gli sviluppatori possono switchare da un modello all'altro cambiando 2 parametri. Ma così il confronto diventa semplice. Vai alla documentazione > È la dimostrazione che il formato di OpenAI sta diventando uno standard. -------------------------------------------------------------------------------- - GRAZIE - Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre persone, condividilo 🙂 ISCRIVITI ALLA NEWSLETTER Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su tematiche relative all'intelligenza artificiale. Iscriviti alla Newsletter Email sent! Check your inbox to complete your signup. Gratuita. No Spam. Puoi disiscriverti quando vuoi.Consulta la privacy policy.
AI
GPT-4
Novità e Riflessioni
Gemini
SEO
Cosa sono gli embeddings? Esempi di utilizzo
PUNTI SALIENTI * Definizione di embeddings Gli embeddings rappresentano parole e frasi come vettori numerici in uno spazio multidimensionale, rendendo possibile una rappresentazione semantica del linguaggio. * Formazione degli embeddings Durante il training, il modello perfeziona i vettori numerici per avvicinare quelli con significati simili, facilitando la comprensione delle relazioni semantiche tra le parole. * Tokenizzazione e embeddings contestualizzati I modelli suddividono il testo in token, generano embeddings per ogni token e li combinano per rappresentare il significato dell’intero testo. * Utilità degli embeddings nella SEO L’uso degli embeddings supporta il miglioramento della SEO con applicazioni come redirection automatizzata, gestione dei 404 e rafforzamento della rete di link interni. * Calcolo della similarità La similarità tra embeddings si può misurare con vari metodi, con la similarità del coseno spesso preferita, anche se il prodotto scalare e altre tecniche possono offrire risultati comparabili. * Integrazione nei tool SEO Strumenti come Screaming Frog permettono di generare embeddings durante la scansione dei siti web, integrando le API di modelli di AI (es. OpenAI, Google, Ollama). * Consapevolezza nell'uso degli embeddings Per massimizzare i benefici degli embeddings, è cruciale comprendere la loro natura e i metodi di calcolo utilizzati, evidenziando l’importanza di un approccio consapevole e ben studiato. Immaginiamo che lo spazio 3D che segue rappresenti uno spazio semantico del linguaggio. 0:00 /0:28 1× In questo scenario, ogni puntino viola rappresenta l'embedding di una parola, ossia la sua rappresentazione numerica in uno spazio tridimensionale (la sequenza numerica dell'embedding corrisponde alle coordinate nello spazio multidimensionale del puntino). > Gli embeddings sono rappresentazioni numeriche che trasformano parole o frasi > in vettori di numeri reali. In questo esempio, li vediamo rappresentati in 3 dimensioni, ma nella realtà questi vettori esistono in spazi con molte più dimensioni. Gli embeddings di OpenAI, ad esempio, arrivano a oltre 3000 dimensioni: uno spazio che non possiamo visualizzare facilmente. La potenza degli embeddings risiede nel fatto che i vettori "catturano" le caratteristiche semantiche e sintattiche del linguaggio, permettendo ai modelli di linguaggio di "comprendere" e manipolare il testo in modo matematico. In che modo riescono a rappresentare queste caratteristiche? Le coordinate dei vettori nello spazio multidimensionale fanno sì che parole con significati simili siano vicine tra loro. Ad esempio, parole come "gatto" e "felino" si troveranno vicine nello spazio degli embeddings, mentre parole come "gatto" e "automobile" saranno molto lontane. Un esempio semplificato del concetto di embeddings Possiamo intuire con semplicità, quindi, che più aumentano le dimensioni dello spazio, e più aumenta la precisione della rappresentazione. COME VENGONO DEFINITI GLI EMBEDDINGS? Nella fase iniziale del training di un LLM, i vettori numerici che rappresentano le parole sono casuali o derivano da una pre-inizializzazione. Il modello, durante l'addestramento, analizza ampie collezioni di testo, che includono dati provenienti da libri, articoli e contenuti web, osservando l’uso delle parole in vari contesti. Attraverso questo processo di ottimizzazione, il modello raffina progressivamente i valori numerici dei vettori, in modo da avvicinare tra loro quelli che rappresentano parole con significati simili, rendendo così esplicite le relazioni semantiche tra le parole. Ad esempio, parole che appaiono frequentemente in contesti simili avranno rappresentazioni vettoriali simili. Una volta concluso il training, i vettori diventano altamente raffinati e riescono a cogliere molte delle sottigliezze del linguaggio umano, come sinonimi e analogie. > Ecco perché i modelli di linguaggio sono così abili nell’interpretare e > generare testo. Come vengono definiti gli embeddings: training del modello Successivamente, quando usiamo un modello per generare gli embeddings, forniamo una parola in input, e il modello recupera l'embedding corrispondente dalla matrice di embeddings ottimizzata durante la fase di training. Il vettore restituito rappresenta le caratteristiche semantiche della parola, basate sulla conoscenza acquisita dal modello. Come vengono generati gli embeddings da un modello Se, ad esempio, diamo in input al modello "text-embedding-3-large" di OpenAI la parola "marketing", otteniamo il vettore numerico che segue. I valori che si percepiscono dall'immagine sono le 3.072 dimensioni con le quali il modello rappresenta la parola. > "marketing" = [-0.0021438375115394592, -0.00014348721015267074, > -0.0066122193820774555, 0.001951836864463985, ..., -0.004653195384889841, > 0.018990622833371162, 0.008846410550177097, -0.0012166894739493728, > 0.015064360573887825, -0.0035094046033918858, -0.0026982782874256372] PAROLE O TOKEN? Fino a questo punto, abbiamo ragionato in termini di "parole." Ma i LLM non si basano direttamente sulle parole come unità di base, bensì sui token. > Un token è una sequenza di caratteri, e può rappresentare una parola, una > parte di parola o persino un singolo carattere, a seconda del contesto e della > lingua. È l’unità fondamentale che i modelli di linguaggio utilizzano per > processare il testo. RICOSTRUIAMO IL FLUSSO DELLE OPERAZIONI Con questa precisazione, rivediamo il flusso con il quale il modello genera gli embeddings di un testo. * Forniamo al modello un testo (che può essere una parola, una frase o un paragrafo, o un documento), * il modello lo divide in token (un processo chiamato tokenizzazione), * recupera gli embeddings contestualizzati per ogni token, ovvero rappresentazioni numeriche che catturano il significato di ogni token nel suo contesto, * infine, attraverso tecniche come l’attenzione e la media pesata, combina gli embeddings dei singoli token per ottenere un embedding complessivo, che rappresenta il significato dell’intero testo. Il processo di generazione degli embeddings Naturalmente, anche la fase di training, e quindi di ottimizzazione dei vettori, deve essere rivista in ottica di utilizzo di token A COSA SERVONO GLI EMBEDDINGS? Ora che abbiamo compreso la natura di questi sistemi, che sono alla base del funzionamento dei modelli di linguaggio (LLM) possiamo chiederci: a cosa può servire la vettorializzazione dei testi nei flussi operativi? La trasformazione di contenuti in sequenze numeriche che ne rappresentano il significato permette di determinare la similarità dei testi attraverso semplici calcoli matematici. E questo può trasformarsi, ad esempio, in sistemi di recommendation (di prodotti, di articoli, o di contenuti multimediali in base alle preferenze degli utenti), ricerche evolute su richieste in linguaggio naturale (i moderni sistemi RAG - Retrieval Augmented Generation - si basano esattamente su questi concetti), automazioni di processi su larga scala. NOTA: il calcolo della similarità non è l'unica operazione attuabile sugli embeddings, ma è probabilmente quella più usata. -------------------------------------------------------------------------------- ESEMPI DI UTILIZZO NELLA SEO In ambito SEO, possiamo usare gli embeddings in diversi contesti, ad esempio la redirection in fase di migrazione, la gestione dei 404 post migrazione e il rafforzamento della rete di link interni. Per la trasformazione di contenuti testuali in embeddings possiamo usare uno script in Python (o in altri linguaggi di programmazione) che implementa le API del modello di linguaggio che scegliamo. Ecco un esempio di codice Python che sfrutta le API di OpenAI per ottenere l'embedding di un testo. from openai import OpenAI client = OpenAI() response = client.embeddings.create( input="Your text string goes here", model="text-embedding-3-small" ) print(response.data[0].embedding) Oppure possiamo usare Screaming Frog SEO Spider, che ha introdotto la generazione degli embeddings (compatibile con i modelli di OpenAI, Gemini di Google e Ollama) direttamente in fase di scansione dei siti web. Questo significa che, mentre il sistema effettua il crawling, può considerare dei contenuti presenti nelle pagine come testi da trasformare in embeddings. E siamo noi a poter configurare il sistema in modo da scegliere i testi di interesse. La configurazione può avvenire in due modalità: * usando uno snippet nella sezione JavaScript personalizzato (documentazione); * usando una connessione diretta alle API dei modelli (dalla versione 21.0). La configurazione delle API di OpenAI su Screaming Frog > Chiaramente lo strumento può fare anche altre operazioni usando gli LLM, ma > rimaniamo sul tema degli embeddings. REDIRECTION IN FASE DI MIGRAZIONE In questo caso, possiamo scansionare il vecchio sito web e il nuovo sito web (quello che lo sostituirà), ottenendo gli embeddings dei contenuti delle diverse pagine. Con uno script Python, quindi, possiamo misurare la similarità tra le pagine, e, in base a questa, determinare delle associazioni tra gli URL delle vecchie risorse e gli URL delle nuove risorse. Un esempio dell'uso degli embeddings per la redirection automatizzata Infine, sempre attraverso semplici istruzioni in Python, possiamo ottenere automaticamente le regole di rewrite per la redirection. GESTIONE DEI 404 POST MIGRAZIONE In questo caso, abbiamo a disposizione la lista delle pagine che restituiscono uno status code 404 in Search Console. Come possiamo gestirle in modo automatizzato? O comunque, come possiamo avere un'automazione che ci fornisce un aiuto per gestirle? Possiamo, ad esempio, trasformare in embeddings gli URL (la stringa dell'URL), oppure gli slug degli URL. Allo stesso modo, dalla scansione del sito web online, possiamo ottenere gli embeddings delle stringhe dei nuovi URL. Un esempio dell'uso degli embeddings per la gestione dei 404 Attraverso un calcolo della similarità, quindi, possiamo, ancora una volta, ottenere un'associazione tra vecchi URL e nuovi URL, producendo una redirection automatizzata. > Con questa tecnica, in alcuni progetti, abbiamo ottenuto un matching corretto > quasi al 100%. Chiaramente, una condizione determinante per il funzionamento è > che gli URL siano "parlanti". RAFFORZAMENTO DEI LINK INTERNI Usando Screaming Frog, possiamo scansionare, ad esempio, le categorie di un e-commerce ottenendo gli embeddings dei contenuti al loro interno. Usando uno script per determinare la similarità, possiamo ottenere una lista di link tra le categorie più simili che possono diventare link in pagina verso categorie semanticamente affini e "related link" nei dati strutturati. Un esempio dell'uso degli embeddings per il potenziamento dei link interni NOTE SULL'USO DI SCREAMING FROG In questi esempi ho usato la modalità basata sugli snippet JavaScript per creare gli embeddings, perché permettono una configurazione come quella che segue. In pratica, non sto usando lo snippet di default dedicato agli embeddings (il quale vettorializza tutto il testo presente nel body), ma una variante in cui vado a creare una precisa stringa da vettorializzare, composta dal nome della categoria e dal testo della categoria. Configurazione di Screaming Frog per l'uso di OpenAI per generare gli embeddings Grazie a questo accorgimento, possiamo ottenere degli embeddings che rappresentano dei testi molto precisi, e soprattutto confrontabili. Considerare tutto il testo presente nel body sarebbe troppo dispersivo e poco preciso per dei confronti sulla semantica. > Dobbiamo usare dati puliti e confrontabili, se vogliamo ottenere il massimo da > questi sistemi! -------------------------------------------------------------------------------- COME CALCOLIAMO LA SIMILARITÀ TRA GLI EMBEDDINGS? Come calcoliamo la similarità? Questo è un tema importantissimo, perché fa parte del processo necessario all'ottenimento di un output usabile a partire dagli embeddings. Il metodo più usato è la similarità del coseno, che si basa sull’angolo tra due vettori (angolo piccolo = vettori simili; angolo grande = similarità scarsa). MA È SEMPRE LA SCELTA GIUSTA? Secondo uno studio di Netflix, la risposta è NO. Piccola parentesi: perché Netflix fa uno studio sulla similarità tra embeddings? Perché anche queste piattaforme usano tecnologie di questo tipo per l'analisi dei contenuti che propone agli utenti. Può non essere sempre la scelta giusta perché la similarità del coseno, come visto in precedenza, considera l’angolo, ma non della lunghezza dei vettori (la cosiddetta magnitude). E se usiamo embeddings in cui la magnitude è un elemento utile alla rappresentazione del testo, non stiamo effettuando un confronto corretto. Is Cosine-Similarity of Embeddings Really About Similarity? Cosine-similarity is the cosine of the angle between two vectors, or equivalently the dot product between their normalizations. A popular application is to quantify semantic similarity between high-dimensional objects by applying cosine-similarity to a learned low-dimensional feature embedding. This can work better but sometimes also worse than the unnormalized dot-product between embedded vectors in practice. To gain insight into this empirical observation, we study embeddings derived from regularized linear models, where closed-form solutions facilitate analytical insights. We derive analytically how cosine-similarity can yield arbitrary and therefore meaningless `similarities.′ For some linear models the similarities are not even unique, while for others they are implicitly controlled by the regularization. We discuss implications beyond linear models: a combination of different regularizations are employed when learning deep models; these have implicit and unintended effects when taking cosine-similarities of the resulting embeddings, rendering results opaque and possibly arbitrary. Based on these insights, we caution against blindly using cosine-similarity and outline alternatives. arXiv.orgHarald Steck FACCIAMO UN TEST Proviamo a usare gli embeddings di uno degli esempi precedenti per confrontare il calcolo della similarità effettuato con diversi metodi: similarità del coseno, prodotto scalare, similarità di Jaccard, distanza euclidea, distanza di Manhattan. Un esempio di calcolo di similarità con diversi metodi In base ai risultati del test, usando gli embeddings generati con i modelli di OpenAI, la similarità del coseno è effettivamente il metodo migliore. Ma il test mette in evidenza un aspetto interessante: come si vede, infatti, gli indici di similarità del coseno e del prodotto scalare sono identici. Eppure sono determinati da calcoli diversi: il prodotto scalare tiene conto anche della lunghezza dei vettori, mentre, come visto in precedenza, la similarità del coseno no. Calcoli di similarità tra embeddings con metodi diversi Quindi perché otteniamo risultati identici? Non è magia, e la spiegazione la troviamo nella documentazione degli embeddings di OpenAI. Molto semplicemente, gli embeddings di OpenAI sono normalizzati alla lunghezza "1". Questo fa sì che usando la similarità del coseno, il prodotto scalare, o anche la distanza euclidea, otterremo sempre lo stesso ranking di similarità. Tutto questo per arrivare a una conclusione che mi sta particolarmente a cuore. > Se vogliamo ottenere performance da questi sistemi, dobbiamo essere > consapevoli della natura degli strumenti che stiamo utilizzando.. e per farlo > ci sono 3 consigli: studiare, studiare, studiare. -------------------------------------------------------------------------------- ADVANCED SEO TOOL Il 30 ottobre ho raccontato questi concetti all'Advanced SEO Tool a Milano. Quello che segue è il video completo dell'intervento. Embeddings e SEO.. è QUASI magia - Advanced SEO Tool 2024 -------------------------------------------------------------------------------- - GRAZIE - Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre persone, condividilo 🙂 ISCRIVITI ALLA NEWSLETTER Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su tematiche relative all'intelligenza artificiale. Iscriviti alla Newsletter Email sent! Check your inbox to complete your signup. Gratuita. No Spam. Puoi disiscriverti quando vuoi.Consulta la privacy policy.
AI
GPT-4
Novità e Riflessioni
SEO
Generative AI: novità e riflessioni - #10 / 2024
> Buon aggiornamento, e buone riflessioni.. -------------------------------------------------------------------------------- [CORSO] AI PER AGENZIE E TEAM DIGITAL Una giornata di formazione e un'opportunità unica per approfondire l'intersezione tra l'AI e il mondo del marketing, dal Prompt Engineering alle declinazioni dell'AI nella SEO, e i casi pratici nell'advertising e nel mondo copy. > Dalle basi alle applicazioni pratiche Scopri il programma completo e l’offerta sul biglietto. Vai al corso -------------------------------------------------------------------------------- [CORSO GRATUITO] GENERATIVE AI FOR BEGINNERS Microsoft rilascia la terza versione del corso "Generative AI for beginners". 21 lezioni gratuite dedicate allo sviluppo di applicazioni basate sui LLM. Le lezioni sono etichettate: "Learn" per i concetti, mentre "Build" per esempi di codice (Python e TypeScript). Generative AI for beginners Il corso fornisce istruzioni anche su come configurare un ambiente di sviluppo. > Un'ottima risorsa, fin dalla prima versione. Vai al corso -------------------------------------------------------------------------------- CANVAS DI OPENAI Ho provato il nuovissimo "Canvas" di OpenAI: un'interfaccia di ChatGPT che consente di lavorare su testi e codice con funzionalità di editing e "trasformazione". Nei testi, è possibile affinare il contenuto (grammatica, chiarezza, coerenza), cambiare il livello di lettura, aggiustare la lunghezza, ottenere suggerimenti di miglioramento e aggiungere emoji pertinenti. Test di Canvas di OpenAI Nel codice, possiamo revisionare, aggiungere i commenti, i log, fixare i bug, eseguire il porting ad un altro linguaggio. > In entrambe le modalità, possiamo selezionare un blocco e applicate un prompt > specifico alla selezione. NON UNA SEMPLICE INTERFACCIA.. MA UN EDITOR! > Non si tratta solo di un'interfaccia con nuove funzionalità, ma anche un > EDITOR a tutti gli effetti.  Questo significa che è possibile lavorare sui contenuti direttamente dalla piattaforma, collaborando con un assistente. Canvas di OpenAI non è solo una nuova interfaccia Nel video, un piccolo esempio in cui genero una bozza, faccio modifiche insensate dall'editor, e infine applico la rifinitura.  Come si vede il sistema corregge tutti i miei errori e i contenuti fuori contesto. > Uno strumento straordinario, per l'utilizzo di questi sistemi come "assistente > personale". -------------------------------------------------------------------------------- UN GPT CHE SI COMPORTA COME "O1" DI OPENAI, CON RISULTATI SIMILI Ho fatto eseguire diversi task della presentazione di o1 di OpenAI al mio GPT addestrato per comportarsi allo stesso modo (eseguendo catene di pensiero - CoT). I prompt sono identici, e i risultati sono ottimi. Nel video si vedono alcuni esempi che nella presentazione sono stati definiti "Reasoning", "Logic Puzzles", "HTML Snake", e "coding". Un GPT che si comporta come "o1" di OpenAI, con risultati simili Ho fatto questo test per dimostrare come questa modalità può essere utile per migliorare le performance anche di altri LLM, quando per le risposte servono passaggi logici. > Attenzione: "o1" non è solo questo. Ha un addestramento specifico per > sviluppare CoT, e quella che vediamo negli step di ragionamento, non è l'unica > CoT che genera (la documentazione lo spiega chiaramente). Ma è uno spunto > interessante per migliorare i prompt. -------------------------------------------------------------------------------- L'ANALISI DEI DATI CON O1 Anche se o1 di OpenAI non ha accesso a file esterni, possiamo usare un altro modello per analizzarli, per poi usare l'elaborazione di o1. Nell'esempio, uso GPT-4o per descrivere il dataset, fornendo anche suggerimenti per la pulizia dei dati. Questo diventa il contesto per il prompt su o1, attraverso il quale ho generato il codice Python per creare un piccolo modello predittivo sul dataset. Dopo alcune interazioni e revisioni, il sistema fa predizioni con un errore medio inferiore al 15%. Un test di analisi dei dati usano o1 si OpenAI > Il potenziale di o1 è davvero notevole. Durante tutte le interazioni, non ho > mai ottenuto un solo errore nella console Python. -------------------------------------------------------------------------------- [TEST] I BIAS DEI MODELLI DI LINGUAGGIO Ho fatto un piccolo test usando gli embeddings di OpenAI per verificare la presenza di bias evidenti. Ho usato text-embedding-3-large (la rappresentazione più ampia), termini in inglese, e similarità del coseno per il confronto. Un test sui bias dei LLM * C'è sbilanciamento di genere, ma moderato. Solo per il termine "nurse" è significativo. * C'è sbilanciamento quasi unidirezionale di razza, ma generalmente moderato. > È un test molto limitato, ma credo sia interessante esplorare questi aspetti > della rappresentazione dei modelli. Fa capire, inoltre, la meraviglia di > questi strumenti in grado di "comprendere" anche sfumature complesse del > linguaggio. -------------------------------------------------------------------------------- [TEST] IL "CODE INTERPRETER" DI ANTHROPIC Anche Anthropic introduce su Claude una sorta di code interpreter in grado di sviluppare ed ESEGUIRE codice JavaScript per dare risposte agli utenti. Può fare calcoli complessi e analizzare dati, e usa Artifacts per la visualizzazione. Nelle immagini si può vedere in un piccolo test che ho fatto. Il "code interpreter" di Anthropic > Chissà perché hanno scelto JavaScript come linguaggio.. forse perché è più > orientato a generare un'interfaccia interattiva, ma preferisco la scelta di > OpenAI di usare Python per l'analisi e lo sviluppo, per poi agganciare > l'interattività al front end. -------------------------------------------------------------------------------- FLUX 1.1 [PRO] "BLUEBERRY" Black Forest Labs a rilascia Flux 1.1 [pro] "blueberry", e la beta delle API. Una release che, secondo Black Forest Labs, segna in passo in avanti significativo nell'ambito della generazione delle immagini. L'ho provato, e la qualità è oggettivamente sempre migliore. Immagini generate con Flux 1.1 Pro > 6 volte più veloce, più aderente al prompt e con qualità di immagine > superiore. È già primo nell'Artificial Intelligence Image Arena. COME PROVARE FLUX 1.1 PRO PER LA GENERAZIONE DI IMMAGINI * Attraverso le API di Black Forest Labs: https://docs.bfl.ml/ * Su FAL: https://fal.ai/models/fal-ai/flux-pro/v1.1. * Su Replicate: https://replicate.com/black-forest-labs/flux-1.1-pro * Su Freepik: https://www.freepik.com/pikaso/ai-image-generator * Su Together: https://api.together.ai/playground/image/black-forest-labs/FLUX.1.1-pro COME ADDESTRARE FLUX CON IMMAGINI DI PRODOTTI E/O SOGGETTI * Su Flux Labs: https://www.fluxlabs.ai/ * Su Flux AI: https://www.useflux.ai/ * Su Replicate: https://replicate.com/lucataco/ai-toolkit/train > L'evoluzione di questi sistemi è davvero interessante, e merita una > sperimentazione. -------------------------------------------------------------------------------- [TEST] FLUX 1.1 PRO + HAILUO AI DI MINIMAX Ho fatto qualche test con Hailuo AI, un nuovo prodotto della startup cinese MiniMax. Ho generato i video partendo da immagini create con Flux 1.1 Pro, e aggiungendo prompt testuali per descrivere l'azione. HailuoAI + #Flux 1.1 Pro + prompt testuale per la generazione video > La qualità è notevole, ma lo è soprattutto l'aderenza dei video alla > descrizione testuale. Le azioni dei soggetti sono esattamente quelle che ho > descritto negli input. Vai al servizio -------------------------------------------------------------------------------- AI FESTIVAL - 26 E 27 FEBBRAIO 2025 > "Non esiste innovazione senza integrazione. Serve un lavoro sartoriale, di > integrazione nei processi. Ed è proprio chi è a conoscenza dei processi > aziendali, potenziato da questa tecnologie, che può cogliere i punti > strategici dove l'AI può fare la differenza". Il 26 e 27 febbraio vi aspetto a Milano per l'AI Festival, dove parleremo di questo, ed esploreremo insieme il futuro dell'intelligenza artificiale, scoprendo tutte le novità e tendenze più recenti. Scopri l'evento -------------------------------------------------------------------------------- ACT-ONE DI RUNWAY > La nuova funzionalità di Runway è impressionante. Si tratta di Act-One, e consente di creare video con personaggi espressivi attraverso Gen-3 Alpha utilizzando un singolo video come guida e un'immagine del personaggio. È possibile, ad esempio, creare una scena come questa senza attrezzature sofisticate (nella parte finale del video si può comprendere la tecnica). Act-One di Runway: un esempio di utilizzo > Le potenzialità sono elevate, come la necessità di gestire gli eventuali > "utilizzi negativi". -------------------------------------------------------------------------------- [TEST] L'EVOLUZIONE DI IMAGEN 3 DI GOOGLE Dopo qualche test su Imagen 3 su Gemini Advanced, devo dire che la qualità è cambiata di molto. Il livello medio dei modelli di generazione di immagini si sta alzando, ma soprattutto sta crescendo l'aderenza al prompt. L'evoluzione di Imagen 3 di Google > Le immagini sono state generate con istruzioni semplicissime e in italiano. > Non permette ancora output in cui sono presenti persone. -------------------------------------------------------------------------------- [TEST] IMAGEN 3 + HAILUO AI DI MINIMAX + ELEVENLABS SOUND EFFECTS Test di generazione immagini + video + audio. Ho generato le immagini attraverso Imagen 3 di Google (Text-To-Image), i video con MiniMax (Image-To-Video), l'audio con ElevenLabs Sound Effects (Text-To-Audio). Imagen 3 + Hailuo AI di MiniMax + ElevenLabs Sound Effects > Ancora una volta, non è tanto la qualità a stupirmi, ma l'aderenza degli > output ai prompt. Spesso la domanda è: quanto tempo serve per generare gli output? Pochi minuti. Ma la vera domanda è: come avrei potuto crearli senza questi mezzi!? -------------------------------------------------------------------------------- AI ASSISTANT SU CHROME DEVTOOLS AI Assistant è una nuova funzionalità sperimentale di Chrome DevTools davvero notevole. Permette di usare Gemini per applicare prompt alla pagina web o a elementi specifici, per spiegazioni o suggerimenti di implementazione, con la possibilità di applicarli direttamente. AI Assistant su Chrome DevTools Nelle immagini lo uso per fare alcune azioni che modificano la pagina, con generazione di JS e CSS. Creo il bottone per la "dark mode". Vai alla documentazione -------------------------------------------------------------------------------- ADVANCED VOICE MODE DI CHATGPT Prime impressioni sull'Advanced Voice Mode di ChatGPT.. * Anche se sono stati fatti grandi passi, in italiano, non siamo ancora a livelli di fluidità della versione USA. * Il comportamento dell'agente non è il massimo: per una "chiacchierata", un mio GPT addestrato per questo scopo, dà un'esperienza migliore. Infatti, quando questa modalità sarà attiva anche per GPT custom, tutto diventerà molto più interessante. Ricordate le applicazioni vocali di Alexa e Google Assistant? * Non accede al web per reperire informazioni. * L'interruzione del parlato dell'assistente, non funziona benissimo, ma credo sia una questione di hardware. Advanced Voice Mode di ChatGPT > Insieme a Gemini Live, siamo di fronte a un nuovo capitolo dell'interazione > vocale. Un salto importante rispetto al precedente, ma il percorso verso la > naturalezza non è concluso. -------------------------------------------------------------------------------- ATLAS DI BOSTON DYNAMICS Boston Dynamics ha pubblicato un video impressionante sull'evoluzione di Atlas, il suo robot umanoide. E specifica che le azioni NON sono pre-programmate o teleguidate: il robot esegue le azioni di spostamento dei componenti autonomamente, eseguendo un compito. L'evoluzione di Atlas Boston Dynamics Il tutto, due settimane dopo l'accordo epocale dell'azienda (di proprietà di Hyundai) con Toyota Research Institute. > Questa partnership è un esempio di due aziende con una solida base di ricerca > e sviluppo che si uniscono per lavorare su molte sfide complesse, e costruire > robot utili che risolvono problemi del mondo reale. -------------------------------------------------------------------------------- SPARK DI GITHUB COPILOT Non solo GitHub Copilot integrerà tutti i LLM più potenti, che gli sviluppatori potranno scegliere anche in base alle attività (Claude 3.5 Sonnet di Anthropic, Gemini 1.5 Pro di Google, GPT-4o e o1 di OpenAI), ma è stato presentato anche Spark: uno strumento per creare applicazioni interamente in linguaggio naturale. Spark di GitHub Copilot Gli "spark" sono micro app completamente funzionali che possono integrare funzionalità AI e fonti di dati esterne. Vai al post -------------------------------------------------------------------------------- SYNTHID-TEXT DI GOOGLE DEEPMIND SynthID-Text di Google DeepMind è un nuovo metodo per aggiungere una filigrana ai testi generati da LLM, senza degradare la qualità dell'output. Il sistema, che ha come obiettivo quello di riconoscere i testi generati, è stato reso open-source per proporre uno standard di integrazione. La filigrana, successivamente può essere rilevata da un algoritmo. Qual è il problema!? Una rielaborazione o una traduzione invalideranno la filigrana. > Il percorso per sistemi di questo tipo è necessario, ma rimane lungo e > difficile, con soluzioni ancora fragilissime. Vai al paper -------------------------------------------------------------------------------- MICROSOFT INTRODUCE GLI AGENTI AUTONOMI IN COPILOT STUDIO Grazie a questa funzionalità, i developer possono creare assistenti in grado di usare dati di diverse fonti (es. Microsoft 365 Graph, Dataverse e Fabric), e di automatizzare i processi aziendali. Gli agenti autonomi in Copilot Studio Gli agenti operano autonomamente su attività ripetitive o complesse, consentendo di ridurre i tempi di esecuzione e i costi, migliorando al contempo l'efficienza complessiva. Vai al post -------------------------------------------------------------------------------- COMPUTER USE DI ANTHROPIC Anthropic introduce la funzionalità "Computer Use" con i nuovi modelli 3.5. La nuova capability è sperimentale e consentirà a Claude di interagire con un dispositivo via API (muovere il cursore, cliccare, digitare, ecc.). Sarà disponibile nei prossimi mesi. Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku A refreshed, more powerful Claude 3.5 Sonnet, Claude 3.5 Haiku, and a new experimental AI capability: computer use. I nuovi modelli Sonnet e Haiku 3.5 hanno performance migliori, raggiungendo la versione Opus in alcune funzioni. > Sono molto curioso delle applicazioni che nasceranno dalla possibilità di > interfacciarsi con i device. -------------------------------------------------------------------------------- LE VERSIONI QUANTIZZATE PER LLAMA 3.2 Meta ha lanciato versioni quantizzate di Llama 3.2 1B e 2B, progettate per funzionare direttamente sui dispositivi mobile. Consentono l'implementazione diretta su smartphone e tablet con performance comparabili alle versioni più grandi. Alcuni dati di performance: velocità maggiore di 2-4 volte, riduzione delle dimensioni del 56%, riduzione del 51% dell'uso di memoria. Introducing quantized Llama models with increased speed and a reduced memory footprint As our first quantized models in this Llama category, these instruction-tuned models retain the quality and safety of the original 1B and 3B models, while achieving 2-4x speedup. > I modelli piccoli diventano sempre più interessanti per gli sviluppi in locale > sui device, con una competizione al pari dei modelli più grandi. -------------------------------------------------------------------------------- MULTIMODAL EMBED 3 DI COHERE Cohere lancia una novità davvero interessante: un nuovo modello di AI che crea uno spazio di incorporamento unificato per testo e immagini. Si chiama Multimodal Embed 3, e consente il confronto diretto tra testo e contenuto visivo senza pipeline di elaborazione separate. Immaginiamo, ad esempio, le potenzialità nella ricerca in ambito e-commerce combinando query visive e testuali, oppure nel recupero delle informazioni da una knowledge. Introducing Multimodal Embed 3: Powering AI Search Cohere releases a state-of-the-art multimodal AI search model unlocking real business value for image data. Cohere > Più si evolve questa capacità di rappresentazione attraverso gli embeddings, e > più la ritengo una piccola opera d'arte tecnologica. -------------------------------------------------------------------------------- FIREFLY VIDEO: L'INTEGRAZIONE SU PREMIERE PRO Adobe, durante la conferenza MAX ha presentato Firefly Video, e l'integrazione su Premiere Pro. La funzionalità "Generative Extend", infatti, permette di creare prolungamenti delle clip senza la necessità di di ulteriori riprese. Oltre a questo, hanno anche presentato l'interfaccia web per azioni di Text-To-Video e Image-To-Video. Firefly Video: l'integrazione su Premiere Pro > La qualità, ormai, non stupisce più.. ma l'integrazione nei software più usati > dai creator è una carta vincente. -------------------------------------------------------------------------------- L'AI GENERATIVA A SUPPORTO DELL'E-COMMERCE L'AI può essere uno strumento utile a mettere in atto strategie con un effort ridotto. In questo caso, ha permesso operazioni che sarebbero state insostenibili per il progetto. I diagrammi, infatti, mostrano i risultati di azioni di ottimizzazione su un e-commerce, basate sui dati, e messe in atto attraverso un LLM. > Un ingranaggio nei flussi operativi in grado di avvicinare la strategia agli > obiettivi. -------------------------------------------------------------------------------- LA TRAPPOLA DELLE ALLUCINAZIONI DEI LLM > In realtà, cadere nella trappola delle "allucinazioni" che i LLM possono > produrre è più facile di quanto si pensi. Un esempio di allucinazione prodotta da un LLM Nella prima parte del video, uso Llama 3.1 senza accesso al web. Quindi come genera l'output? Usa il contenuto che ha a disposizione per completare il task: il nome del prodotto, le parole che compongono lo slug dell'URL, e ciò che deriva dal training del modello. > È convincente? Insospettabile, direi.. ma fuori controllo! Si tratta di > un'allucinazione. Nella seconda parte, uso uno scraper che va ad estrarre il testo dall'URL, quindi l'output aderisce alle informazioni nella pagina. > Takeaway: i LLM producono "allucinazioni" quando non hanno contesto > sufficiente per poter completare il task. È necessario un "contesto > controllato". Serve questa consapevolezza per usarli con maggior sicurezza, e servono strumenti come Opik, o sistemi multi-agent, per effettuare test e controlli approfonditi degli output prima di andare in produzione. -------------------------------------------------------------------------------- LA SUPERVISIONE UMANA E IL PENSIERO CRITICO Un paper molto interessante di Harvard Business School che sottolinea l'importanza di sviluppare competenze di interazione dell'AI nei processi di valutazione creativi che combinano il giudizio umano con le intuizioni dell'Intelligenza Artificiale. Mentre l'AI può standardizzare il processo decisionale per criteri oggettivi, la supervisione umana e il PENSIERO CRITICO rimangono indispensabili nelle valutazioni soggettive, dove l'AI dovrebbe integrare, non sostituire, il giudizio umano. Vai al paper -------------------------------------------------------------------------------- MINISTRAL 3B E 8B > La competizione sui LLM "piccoli" inizia a diventare interessante quanto > quella sui modelli "grandi". Mistral rilascia due nuovi modelli destinati all'elaborazione on-device e a casi d'uso at-the-edge: Ministral 3B e 8B. Offrono prestazioni avanzate in ambiti come la comprensione del contesto, il "ragionamento" e l'efficienza, con contesti fino a 128k token. Sono pensati per applicazioni come traduzione on-device, assistenti intelligenti offline e robotica autonoma. Ministral 3B e 8B: performance Le performance sono migliori rispetto ai concorrenti, con un'attenzione particolare alla privacy e alla latenza ridotta. Vai al post -------------------------------------------------------------------------------- STATE OF AI 2024: UNA SINTESI Una sintesi dei punti chiave del report "State of AI" 2024. State of AI 2024: una sintesi * Convergenza delle prestazioni dei modelli. I modelli open-source, come Llama 3.1 405B, hanno ormai raggiunto le prestazioni dei modelli proprietari. Llama 3.2 espande le capacità in modalità multimodale, dimostrando la crescente competitività dei modelli open-source. * Avanzamenti dell'AI cinese. Nonostante le sanzioni statunitensi, i modelli AI cinesi continuano a scalare le classifiche, sfruttando hardware stoccato, accesso cloud e soluzioni alternative. Ciò evidenzia la resilienza del settore AI cinese. * Miglioramenti in efficienza. Tecniche di pruning e distillazione hanno migliorato significativamente l'efficienza dei modelli di testo e immagini, mostrando che alte prestazioni possono essere raggiunte con modelli più piccoli e meno dispendiosi. * Espansione delle applicazioni AI. I modelli di linguaggio (LLMs) stanno dimostrando capacità in campi scientifici come la progettazione di proteine e l'editing genetico, aprendo nuovi orizzonti per l'AI in biologia e genomica. * Sfide per hardware e infrastrutture. Nvidia continua a dominare l'hardware AI, ma l'incremento della domanda energetica per le infrastrutture AI sta creando pressioni sulle risorse e minacciando gli impegni di sostenibilità delle aziende tecnologiche. Vai al report -------------------------------------------------------------------------------- MOVIE GEN DI META Meta presenta Movie Gen, un nuovo modello per la generazione di video e audio di alta qualità da prompt multimodale. Le funzionalità principali: * generazione video da una descrizione testuale; * video personalizzati; * editing video; * generazione di audio (musica ed effetti sonori). Movie Gen di Meta È stato addestrato su dataset pubblici e con licenza, e punta a diventare un riferimento per registi e i content creator. Vai al post -------------------------------------------------------------------------------- I NUOVI TOOL DI HUGGINGCHAT HuggingChat, oltre alla possibilità di usare i migliori LLM open source, mette a disposizione una serie di tool molto interessanti (es. scraping, analisi dei file, generazione di immagini). Nell'esempio, uso il sistema con Llama 3.1, e aggiungo Flux Realism Lora per la generazione di immagini. I nuovi tool di HuggingChat > Il parco strumenti è molto ampio, e possono essere attivati più tool > contemporaneamente. Prova il servizio -------------------------------------------------------------------------------- LEO AI DI BRAVE Brave sta introducendo il suo assistente basato su AI generativa: Leo AI, che può interagire direttamente con le pagine web che si navigano dal browser. > Un aspetto interessante, è che il sistema può lavorare con un LLM locale, > sfruttando Ollama. Questo, ad esempio, consente di far elaborare anche dati personali al modello, senza che questi lascino il dispositivo. Leo AI di Brave Sfruttando un hardware Nvidia RTX è possibile ottenere altissime performance anche in locale. Con Llama 3 8B, ad esempio, si può ottenere la velocità di 149 token/secondo. > L'utilizzo dei LLM in locale è sempre più "possibile". Vai al post -------------------------------------------------------------------------------- LLAMA STACK DI META Meta rilascia un componente davvero interessante: Llama Stack. > Si tratta di un framework open source per semplificare e standardizzare lo > sviluppo e il rilascio di applicazioni basate sui LLM. Facilita l'integrazione di azioni come inferenza, gestione della memoria, moderazione / sicurezza. GitHub - meta-llama/llama-stack: Model components of the Llama Stack APIs Model components of the Llama Stack APIs. Contribute to meta-llama/llama-stack development by creating an account on GitHub. GitHubmeta-llama Ad esempio, usando le API di inferenza, memoria e sicurezza si possono creare assistenti che rispondono in modo contestuale e sicuro. > Standard e linee guida è quello che serve per facilitare l'integrazione di > questi sistemi in modo più sicuro ed efficiente. -------------------------------------------------------------------------------- SEMANTIC CACHE DI REDIS Semantic Cache di Redis è un esempio di componente che permette di ottimizzare le applicazioni RAG (Retrieval Augmented Generation). Semantic Cache di Redis È un sistema che salva, vettorializza e indicizza le richieste degli utenti e le risposte. In questo modo, se vengono poste domande simili dal punto di vista semantico, non ci sarà bisogno di usare nuovamente il LLM. > Risultato: abbattimento dei tempi di risposta e dei costi. Vai alla documentazione -------------------------------------------------------------------------------- SCIAGENTS: L'AI AL SERVIZIO DELLA SCOPERTA SCIENTIFICA SciAgents è un sistema di Intelligenza Artificiale che automatizza la scoperta scientifica combinando grafi ontologici della conoscenza, modelli di linguaggio (LLM) e sistemi multi-agent. Ogni agente ha un ruolo specifico, come creare ipotesi, espanderle o criticarle. Gli agenti lavorano insieme per esplorare dati scientifici, identificare nuove connessioni e generare proposte di ricerca innovative. Il sistema ha rivelato relazioni interdisciplinari nascoste e prodotto scoperte significative, superando i metodi di ricerca tradizionali per precisione e scala, accelerando così la scoperta scientifica. Vai al paper -------------------------------------------------------------------------------- DEVDAY DI OPENAI Cosa è stato condiviso durante il DevDay di OpenAI di San Francisco? Una sintesi del DevDay di OpenAI Vediamo una sintesi per punti. * Realtime API: consente esperienze di voice-to-voice a bassa latenza, simili a ChatGPT Advanced Voice, con 6 voci preimpostate. Beta disponibile per tutti gli sviluppatori. * Prompt Caching: disponibile per tutti, riduce i costi del 50% e la latenza riutilizzando i token di input recenti. * Model Distillation: nuovo workflow per addestrare modelli più piccoli ed efficienti basati su modelli più grandi. Include Stored Completions ed Evals (beta). * Vision Fine-Tuning: possibilità di fine-tuning di GPT-4o con testo e immagini, migliorando la ricerca visiva e l'analisi delle immagini. * Aggiornamento di GPT-4o: nuovo modello gpt-4o-2024-08-06 con costi di input ridotti del 50% e output ridotti del 33%. * Disponibilità OpenAI o1: accesso API esteso ai modelli di ragionamento o1-preview e o1-mini per gli utenti di livello 3. Limiti di velocità aumentati per livelli 4 e 5. * Generazione nel Playground: nuovo pulsante "Generate" per creare automaticamente prompt, definizioni di funzioni e schemi strutturati. Vai al post > Il toolkit per l'implementazione di applicazioni basate sui LLM di OpenAI si > amplia notevolmente! -------------------------------------------------------------------------------- ASSISTANT EDITOR DI LANGCHAIN LangChain ha annunciato "Assistant Editor", una nuova potente funzionalità di LangGraph Studio che rende più facile la configurare e la personalizzazione degli agenti basati su modelli di linguaggio. Assistant Editor di LangChain Questo strumento di editing visivo consente sia agli sviluppatori che agli utenti non tecnici di mettere a punto il comportamento degli agenti senza usare codice. Vai al post -------------------------------------------------------------------------------- PIKA 1.5 Pika presenta la versione 1.5, con clip più lunghe, nuovi effetti, riprese cinematografiche e movimenti più realistici. Il video è l'unione di clip di alcuni creator che stanno testando il nuovo modello. Pika 1.5 > La generazione di video fa costanti passi in avanti, e le clip diventano > sempre più usabili in ambito professionale. Vai al servizio -------------------------------------------------------------------------------- EDGE RUNNER DI NVIDIA EdgeRunner è una nuova tecnologia di Nvidia in grado di generare mesh 3D di alta qualità con fino a 4.000 facce e una risoluzione spaziale di 512, partendo da immagini e point-clouds. Utilizza un innovativo algoritmo di tokenizzazione per comprimere le mesh in sequenze di token 1D, migliorando l'efficienza e la qualità della generazione. Edge Runner di Nvidia Il sistema può creare varianti diverse da un singolo input, garantendo una grande varietà di risultati. > Immaginiamo questi sistemi al servizio di videogiochi e realtà virtuale (VR), > effetti speciali e animazione nella produzione cinematografica e televisiva, > architettura e design, additive manufacturing e stampa 3D, medicina e > biotecnologie. Vai al post -------------------------------------------------------------------------------- LIQUID FOUNDATION MODELS Liquid AI introduce una nuova architettura per LLM che "sfida" i Transformer, superando le performance di Llama 3.2 (a parità di dimensioni), con ingombro di memoria ridotto e maggior efficienza nell'inferenza. Ho provato la versione più grande (40.3B Mixture of Experts - MoE) sul mio benchmark di test. Un test del LLM di Liquid AI > Considerando le dimensioni, il sistema promette benissimo, e ha una velocità > degna di nota. Prova il modello -------------------------------------------------------------------------------- OPEN NOTEBOOKLM > Continuano a nascere progetti che trasformano documenti e pagine web in > podcast. Open NotebookLM è un sistema basato su modelli AI open source: Llama 3.1 405B, MeloTTS, e Bark. Dall'interfaccia di Hugging Face, è possibile caricare file e specificare URL per creare il contesto al modello. Un test di Open NotebookLM Il podcast viene generato dal LLM e ottiene la voce dal TTS. La qualità non è enorme, ma è un esempio di applicazione semplice per questo scopo. Prova il sistema -------------------------------------------------------------------------------- - GRAZIE - Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre persone, condividilo 🙂 ISCRIVITI ALLA NEWSLETTER Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su tematiche relative all'intelligenza artificiale. Iscriviti alla Newsletter Email sent! Check your inbox to complete your signup. Gratuita. No Spam. Puoi disiscriverti quando vuoi.Consulta la privacy policy.
AI
GPT-4
Novità e Riflessioni
Gemini