Blob di C.I.R.C.E.

GPT-5: riflessioni, riepilogo, test.. e AGI?

> GPT-5 is a significant step along the path to AGI… a model that is generally > intelligent. Così Sam Altman introduce la live di presentazione di GPT-5. Nel momento in cui ha finito la frase, ho avuto una forte tentazione di stoppare lo streaming.. ma mi sono sforzato di proseguire. A valle dell’evento, il mio bilancio è questo: > GPT-5 è un major update > solido ma non di rottura. La presentazione di GPT-5 di OpenAI È plausibile che abbiano migliorato praticamente tutto: comprensione, allucinazioni, strumenti, costi.. però non è il salto epocale che la retorica di apertura lasciava intendere. Anche il messaggio “verso l’AGI” suona come marketing ambizioso più che come evidenza scientifica: se migliori su molti benchmark ma resti nel solco della stessa famiglia di (queste) tecniche, è un progresso importante, non una rivoluzione. Questo non significa sminuire il lavoro tecnico: l’inferenza è più economica, il modello sceglie quando attivare componenti di "reasoning" e la lineup è più granulare (tipologie di modello diverse per casi d’uso diversi). Ma la live è stata anche penalizzata da visualizzazioni fuorvianti: alcuni grafici avevano barre che non corrispondevano ai valori e un diagramma sulla “deception” è stato poi corretto nella documentazione. La correzione del diagramma dalla presentazione alla documentazione Sul fronte posizionamento competitivo, la sensazione è di passo avanti, non balzo in avanti. Dopo l'evento, François Chollet (co-founder di ARC Prize) ha pubblicato un confronto in cui Grok 4 risulta avanti su ARC-AGI-2, mentre su ARC-AGI-1 il margine è più sottile; al netto di differenze di costo, il quadro è di una leadership contesa e per nulla schiacciata. > Grok 4 is still state-of-the-art on ARC-AGI-2 among frontier models. > > 15.9% for Grok 4 vs 9.9% for GPT-5. pic.twitter.com/wSezrsZsjw > > — François Chollet (@fchollet) August 7, 2025 Questi dati vanno interpretati con cautela (metodologie, settaggi, versioni cambiano), ma raffreddano l’idea di un distacco netto. Infine, qualche scelta narrativa non ha aiutato: tanto "vibe coding" e storytelling emotivo, meno metodo e ablation. Da utilizzatore, mi sarei aspettato più dimostrazioni di multimodalità end-to-end (input e output ricchi, integrazione sensori-attuatori) e un ponte più credibile verso il mondo fisico/robotico — area in cui altri player stanno spingendo (es. Google e Nvidia). > I miglioramenti ci sono e i prezzi non sono fuori mercato; semplicemente non > abbiamo visto > “il prossimo paradigma”. PARLIAMO DEL CONCETTO DI AGI? Perché la tentazione di chiudere lo streaming non appena Altman ha pronunciato “AGI”? Perché, probabilmente, i soli LLM non basteranno per raggiungere l'obiettivo. Continuare a scalare decoder autoregressivi riduce errori ma non risolve: causalità, generalizzazione out-of-distribution, composizionalità, pianificazione a lungo raggio, ragionamento simbolico. A questo proposito, ho più volte menzionato approcci come quello neuro-simbolico, ovvero l'integrazione di reti neurali e rappresentazioni/strumenti simbolici. Non è teoria astratta: modelli-strumento come o3, Grok 4, e lo stesso GPT-5, ovvero quelli con interpreti di codice e reasoners, mostrano che plug-in simbolici (solver, motori logici, CAS) alzano l’asticella su compiti logici e strutturati. Google DeepMind, su AlphaFold o AlphaGeometry non applica “solo” LLM: si tratta di architetture ibride disegnate sul problema, con motori di ricerca, vincoli e verifiche. La direzione non è “più grande è meglio”, ma “ben integrato è meglio”: neurale per percepire e proporre, simbolico per verificare, comporre e generalizzare. Gli avanzamenti recenti in matematica lo confermano. Seed-Geometry (ByteDance Seed AI4Math) ha superato AlphaGeometry 2 su 50 problemi IMO di geometria (43 vs 42) e sulle shortlist più dure (22/39 vs 19/39), grazie a un motore simbolico più veloce, una rappresentazione più compatta delle costruzioni e un ciclo neurale-simbolico più efficiente. Non è un trucco: è un cambio di passo su compiti dove la verifica formale conta quanto (o più) della generazione. Seed-Prover: Deep and Broad Reasoning for Automated Theorem Proving | alphaXiv View 1 comments: What is the difference between this work and the Gemini pro?2507.15855 arXiv Se vogliamo avvicinarci all’AGI, dobbiamo uscire dal monolito: agenti che usano strumenti e ambienti, memorie strutturate, moduli di pianificazione e prove/verifiche integrati by design, non come accessori opzionali. > Il LLM resta il substrato linguistico e percettivo, ma l’intelligenza emerge > dall’orchestrazione. LO STATO DEL PROGRESSO DELL’AI Al netto di GPT-5, stiamo vivendo un’accelerazione storica. Demis Hassabis (Google DeepMind) descrive un impatto “10 volte più grande, e forse 10 volte più veloce dell’Industrial Revolution”, con un orizzonte di 5–10 anni per sistemi con capacità simili all’umano in molti domini. È un’immagine potente, che richiede di ripensare istituzioni, lavoro, welfare, istruzione e governance. Non sono solo parole: AlphaFold ha già spostato gli equilibri nella scienza delle proteine, al punto da valere a Hassabis e Jumper il Nobel per la Chimica 2024 (insieme a David Baker). La portata non è solo tecnica: rendere praticabile e diffuso ciò che prima richiedeva anni di esperimenti è nuova capacità civile — scienza più rapida, più aperta, più traducibile in cure e materiali. Chemistry Nobel goes to developers of AlphaFold AI that predicts protein structures This year’s prize celebrates computational tools that have transformed biology and have the potential to revolutionize drug discovery. NatureEwen Callaway Questa accelerazione, però, non è lineare né omogenea. Vediamo frontier models migliorare, ma spesso in modo irregolare: grandi vittorie in domini strutturati (biologia, geometria formale), progressi più lenti nella robustezza generale (ragionamento di buon senso, affidabilità contestuale, autonomia). In parallelo, cresce l’impatto economico (produttività, automazione di parti di filiere cognitive) e si amplificano le questioni sociali: distribuzione dei benefici, sostenibilità energetica, rischi informativi. Il punto non è fermare, ma governare l’onda: standard aperti, benchmark onesti, evals riproducibili, trasparenza sui dati e sistemi di verifica incorporati. Se la traiettoria “10× più grande e più veloce” si confermerà, ci serviranno nuove idee sul senso del tempo e del valore umano. Non tutto è utilitaristico: arte, gioco, sport, meditazione potrebbero tornare al centro proprio perché liberati dal vincolo. Ma questo futuro richiede politiche intenzionali: redistribuzione, formazione continua, infrastrutture di ricerca e un mercato che premia la qualità, non solo la spettacolarità in keynote. Ne ho parlato nei recenti interventi che ho tenuto al TEDx di Bergamo e al WMF (We Make Future). Il mio intervento al TEDx di Bergamo CONCLUSIONI GPT-5 è un aggiornamento importante, ma “incrementale”. Ha spinto in avanti il perimetro di ciò che è pratico e abbordabile, senza cambiare le regole del gioco. Se prendiamo sul serio l’AGI, la strada passa per architetture ibride, tool use nativo, verifica simbolica e benchmark trasparenti. Nel frattempo, l’AI continua a permeare scienza, industria e cultura a velocità inaudita: la sfida non è solo tecnica, è civile. E, finché non vedremo quell’integrazione profonda che da tempo invoco, manterrò questa posizione: gli LLM sono necessari ma non sufficienti — e il prossimo salto non sarà solo più grande; sarà diverso. -------------------------------------------------------------------------------- UNA SINTESI DELLA PRESENTAZIONE Per chi non avesse visto tutta la presentazione, quello che segue è un riepilogo che cerca di sintetizzare al meglio le caratteristiche del nuovo sistema di OpenAI. Sam Altman durante la presentazione di GPT-5 PANORAMICA SUL MODELLO GPT-5 è il nuovo modello di punta di OpenAI: più intelligente, più rapido e soprattutto più utile nelle richieste reali (scrittura, coding, salute, multimodale). In ChatGPT diventerà il modello di default per tutti; gli utenti Pro avranno anche GPT-5 Pro (con reasoning più esteso). Il rollout inizia da subito per gli utenti Free, Plus, Pro, Team; per gli abbonamenti Enterprise ed Edu arriverà dopo una settimana dalla presentazione. Gli utenti Free, al raggiungimento delle quote limite, passano a GPT-5 mini. UN SISTEMA UNIFICATO: ROUTER + "THINKING" QUANDO SERVE Non bisogna più scegliere tra un modello “veloce” e uno “con reasoning”: GPT-5 integra un modello smart/efficiente, un modello di ragionamento profondo (“GPT-5 thinking”) e un router in tempo reale che decide quale usare in base a complessità, tipo di conversazione, strumenti necessari e segnali espliciti (es. “pensa a fondo”). Il router impara da segnali reali (switch tra modelli, preferenze, misure di correttezza). Al raggiungimento dei limiti subentra una versione mini. In futuro queste capacità verranno fuse in un unico modello. PRESTAZIONI E VALUTAZIONI (SOTA) * Matematica (AIME 2025, senza tool): 94,6% * Coding: 74,9% su SWE-bench Verified; 88% su Aider Polyglot * Multimodale: 84,2% su MMMU * Salute: 46,2% su HealthBench Hard Con GPT-5 Pro (ragionamento esteso) si ottiene lo stato dell’arte su GPQA (88,4%, senza tool). In più, rispetto a o3, GPT-5 “thinking” raggiunge risultati migliori usando il 50–80% di token di output in meno su varie capacità (ragionamento visivo, coding agentico, problemi scientifici avanzati). Prestazioni e valutazioni di GPT-5 AFFIDABILITÀ, ALLUCINAZIONI E "ONESTÀ" Con ricerca web attiva su prompt rappresentativi, le risposte di GPT-5 sono ~45% meno soggette a errori fattuali rispetto a GPT-4o; in modalità “thinking” sono ~80% meno soggette a errori rispetto a o3. Su benchmark di fattualità aperta (LongFact, FActScore) “GPT-5 thinking” riduce le allucinazioni di circa 6× rispetto a o3. È anche meno ingannevole: nelle conversazioni reali, le risposte “thinking” che mostrano comportamenti di “deception” scendono dal 4,8% (o3) al 2,1%. Lo stile mostra meno "eccesso di consenso", meno emoji inutili, più trasparenza sui limiti. SAFE COMPLETIONS Nuovo addestramento di sicurezza: invece di rifiutare o acconsentire “a blocchi”, GPT-5 massimizza l’aiuto entro confini di sicurezza. Quando serve, risponde solo ad alto livello; se deve rifiutare, spiega perché e propone alternative sicure. Risultato: migliore gestione delle richieste ambigue/dual-use e meno rifiuti inutili. BIO/CHIMICA: APPROCCIO PRUDENZIALE “GPT-5 thinking” è trattato come High capability in bio/chimica nel Preparedness Framework: 5.000 ore di red-teaming, classificatori always-on, reasoning monitors e difese multilivello, attive in via precauzionale. COSA MIGLIORA PER GLI UTENTI CHATGPT * Scrittura: testi più ricchi e risonanti, migliore gestione di strutture ambigue (es. verso libero, pentametro giambico senza rima), utile per email, report, memo. * Coding: eccelle nel front-end complesso e nel debug di repository grandi; spesso crea siti/app/giochi belli e responsivi con un solo prompt, con gusto per spaziatura, tipografia e white-space. * Salute: punteggi nettamente migliori su HealthBench; risposte più proattive (segnala rischi, pone domande), adattate a contesto/geografia/livello utente. Non sostituisce un medico, ma aiuta a capire referti, preparare domande, valutare opzioni. * Personalità preimpostate (anteprima di ricerca): Cynic, Robot, Listener, Nerd, per regolare tono e stile senza prompt artigianali; progettate anche per ridurre l'eccesso di consenso nei confronti dei messaggi degli utenti. NOVITÀ MOSTRATE NELLA LIVE * Voice più naturale, con video, traduzione continua e nuova Study & Learn mode (es. esercizi guidati, apprendimento delle lingue). * Memoria e personalizzazione: è stata presentata l'integrazione con Gmail e Google Calendar per la pianificazione quotidiana; colori personalizzati dell’interfaccia; anteprima di personalities anche in modalità Voice. PER SVILUPPATORI E AZIENDE (API) * Tre modelli: gpt-5, gpt-5-mini, gpt-5-nano. Prezzi indicativi: $1,25 / 1M token input e $10 / 1M output (GPT-5); $0,25 / $2 (mini); $0,05 / $0,40 (nano). Disponibile via Responses API, Chat Completions e Codex CLI. * Nuovi controlli: * reasoning_effort con valore minimal per risposte velocissime con poco ragionamento; * verbosity: low/medium/high per controllare la verbosità (quanto il modello risulta prolisso); * Custom tools in plain-text (anziché solo JSON) + vincoli con regex/CFG; tool-call preambles per far spiegare al modello il piano prima delle chiamate strumento. * Contesto lungo: fino a 400.000 token totali, con miglioramenti su compiti di lungo contesto (recupero e ragionamento su input molto estesi). * Agentic/tool use: grandi progressi su benchmark di tool-calling e instruction-following; migliore capacità di completare task multi-step, coordinare strumenti e adattarsi al contesto. * Variante chat non-reasoning disponibile come gpt-5-chat-latest (stessa tariffa), utile per latenza più bassa. IMPLICAZIONI PRATICHE * Utenti finali: qualità alta “di default”, meno allucinazioni, più "onestà" su impossibilità o limiti. * Team e imprese: un sistema di default affidabile per il lavoro quotidiano, e GPT-5 Pro per compiti critici. * Developer: meno “prompt gymnastics”. Controlli nativi su ragionamento/verbosità/formato, tool-calling più robusto, 400k di contesto per documenti enormi e pipeline complesse. -------------------------------------------------------------------------------- PRIMI TEST DEL MODELLO Ho fatto diversi test con il modello GPT-5 Thinking (su ChatGPT e via API) che riguardano, ad esempio, la generazione di testo, la creazione di dashboard che derivano dall'analisi di un dataset, output strutturati con contesti in input molto lunghi dove la precisione è fondamentale, ragionamento, matematica. Primi test con GPT-5 Ho effettuato anche delle sperimentazioni usando il modello su sistemi agentici, su infrastrutture già collaudate per altri modelli. Non avevo dubbi che il risultato sarebbe stato di qualità: l'aumento di performance è notevole rispetto alle versioni precedenti di OpenAI. Le performance su task di questo tipo non si discutono, e questo modello, visto anche il prezzo delle API praticamente identico, va a competere direttamente con Gemini 2.5 Pro su tutti i fronti. -------------------------------------------------------------------------------- APPROFONDIMENTI UNA GUIDA AL PROMPTING PER GPT-5 OpenAI ha pubblicato una guida ufficiale al prompting per GPT-5, pensata per aiutare sviluppatori e professionisti a ottenere il massimo dal nuovo modello. La guida approfondisce come costruire prompt efficaci, sottolineando l’elevata sensibilità di GPT-5 alle istruzioni: è in grado di seguire indicazioni con estrema precisione, ma proprio per questo diventa cruciale evitare ambiguità o contraddizioni. Vengono presentate strategie per bilanciare il grado di autonomia del modello, regolare il livello di ragionamento (reasoning_effort) e ottimizzare le risposte (verbosity). Una sezione specifica è dedicata allo sviluppo software, dove GPT-5 si distingue nella scrittura, refactor e generazione di codice, specialmente se guidato da prompt che ne specificano stile e contesto tecnico. La guida include esempi concreti, casi d’uso (come Cursor) e buone pratiche come l’uso di “tool preambles” o tecniche di metaprompting. Un riferimento prezioso per chi vuole costruire interazioni più robuste, controllabili ed efficienti con GPT-5. GPT-5 prompting guide | OpenAI Cookbook GPT-5, our newest flagship model, represents a substantial leap forward in agentic task performance, coding, raw intelligence, and steera… GPT-5 PER GLI SVILUPPATORI OpenAI presenta un contenuto dedicato agli sviluppatori che illustra GPT-5, il modello più avanzato per codifica e compiti agentici complessi. Con prestazioni ai vertici nei benchmark, gestione efficiente di processi multi-turno, recupero di informazioni da contesti lunghi e riduzione significativa degli errori, GPT-5 offre nuove funzioni API come reasoning_effort, verbosity e Freeform tools, ed è disponibile in tre varianti per adattarsi a esigenze diverse di prestazioni, costi e latenza. Vai al post -------------------------------------------------------------------------------- - GRAZIE - Se hai apprezzato il contenuto, puoi contribuire al progetto con una donazione 🙂 ISCRIVITI ALLA NEWSLETTER Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su tematiche relative all'intelligenza artificiale. Iscriviti alla Newsletter Email sent! Check your inbox to complete your signup. Gratuita. No Spam. Puoi disiscriverti quando vuoi. Consulta la privacy policy.

August 8, 2025 / Alessio Pomaro

AI

GPT-4

Novità e Riflessioni

GPT-3

Generative AI: novità e riflessioni - #3 / 2024

Una rubrica che racconta le novità più rilevanti che riguardano l'Intelligenza Artificiale, con qualche riflessione. > Buon aggiornamento, > e buone riflessioni.. -------------------------------------------------------------------------------- FIGURE 01 IN AZIONE CON UN MODELLO DI OPENAI A BORDO I video di Figure 01 hanno fatto il giro del mondo, con grande stupore. Ma se ci pensiamo, la multimodalità dei moderni modelli che usiamo ormai regolarmente è a livelli degni di nota. Non solo GPT-4 con Vision, ma anche Claude 3, e soprattutto Gemini 1.5 Pro, in grado di processare anche audio e video senza trascrizioni, con finestre di contesto enormi e grande precisione. Figure 01: un modello di linguaggio unito alla robotica Per provare l'esperienza basta caricare delle immagini su ChatGPT e provare a fare delle domande simili a quelle che vengono poste al robot. In questa simulazione, ne vediamo un esempio. Una simulazione usando GPT-4 Vision Già RT-2 di Google univa un VLM (Vision Language Model) a dati robotici di qualità con risultati straordinari. I modelli generativi danno ai robot la "comprensione del mondo", grazie alle relazioni semantiche derivanti dal training. È così che il robot associa la mela quando gli viene chiesto "qualcosa mangiare". La componente robotica aggiunge i movimenti. > L'altro aspetto innovativo riguarda la quantità di analisi dell'ambiente > circostante che producono i robot: questo garantisce la reattività alla > variazione dello scenario. -------------------------------------------------------------------------------- GEMINI 1.5 PRO: PRIMO TEST Ho provato Gemini 1.5 Pro, il nuovo modello di Google su AI Studio, processando: * il video del mio intervento all'AI Festival (20 minuti, in italiano); * il video della presentazione di Ernie 4 (3 minuti, in cinese). L'interazione avviene in italiano. Test di Gemini 1.5 Pro Come si vede dalle immagini, oltre alle sintesi, pongo domande specifiche, anche su ciò che compare a video (non solo sul parlato). Il modello offre risposte abbastanza precise. I tempi di risposta non sono rapidissimi, ma si tratta dei primi passi verso una multimodalità così evoluta. > Il concetto di LLM che elabora le trascrizioni dei file multimediali > scomparirà molto presto. E immaginiamo quando tutto questo avverrà in > real-time a bordo di un robot. -------------------------------------------------------------------------------- L'EVOLUZIONE DI OPEN INTERPRETER: LIGHT 01 L'evoluzione di Open Interpreter continua, e presenta 01 Light: un'interfaccia vocale portatile che può controllare qualunque operazione di un computer remoto. L'evoluzione di Open Interpreter: Light 01 Può "vedere" lo schermo, utilizzare le applicazioni e apprendere nuove competenze. Ma l'aspetto più interessante è che si tratta di un sistema completamente open source, che può diventare la base di sviluppo di dispositivi e applicazioni custom. Nel video si vedono esempi di interazioni (anche strutturate) con il dispositivo, e il sistema esegue i comandi perfettamente. È possibile acquistare il dispositivo completo. Per i developers, viene fornito il progetto completo: software, file CAD, schemi di cablaggio. > Abbiamo imparato a conoscere sistemi di questo tipo dopo il CES con Rabbit, ma > in questo caso si apre una parentesi che mette a disposizione un sistema > pronto allo sviluppo per chiunque. -------------------------------------------------------------------------------- AI GENERATIVA E CREATIVITÀ > "Ora abbiamo la possibilità di approfondire storie che prima ritenevamo > impossibili" È proprio questo uno degli aspetti interessanti dell'AI generativa applicata alla creatività. La possibilità di sperimentare, ottenendo buoni output a costi estremamente contenuti. "Air Head", un cortometraggio realizzato usando Sora di OpenAI Il video mostra un esempio di un cortometraggio realizzato da Shy Kids usando Sora, dal tiolo "Air Head". > "As great as Sora is at generating things that appear real - what excites us > is its ability to make things that are totally surreal" -------------------------------------------------------------------------------- VOICE ENGINE DI OPENAI OpenAI presenta un'anteprima di "Voice Engine", il suo modello vocale, che permette la creazione di voci sintetiche personalizzate. Ricevendo in input un breve testo e un campione vocale di 15 secondi, riesce a generare un parlato dal suono naturale, che riproduce la voce. Navigating the Challenges and Opportunities of Synthetic Voices We’re sharing lessons from a small scale preview of Voice Engine, a model for creating custom voices. In realtà il modello esiste da tempo, e il risultato è quello che possiamo sentire nell'app mobile di ChatGPT. Ma OpenAI va cauta, per gestire al meglio queste funzionalità in termini di sicurezza. > I rischi esistono, ma esistono anche applicazioni che possono migliorare la > qualità delle esperienze. Trovare il giusto equilibrio sarà determinante. -------------------------------------------------------------------------------- MIDJOURNEY CONSISTENT CHARACTER Negli esempi vediamo come si possano mantenere le caratteristiche di un prodotto nella generazione di immagini attraverso Midjourney. La funzionalità è "Consistent Character", e si utilizza attraverso il parametro "cref". Esempi di applicazioni di Midjourney "Consistent Character" Nel seguente post, è possibile analizzare un esempio di prompt in cui viene usata la funzionalità (del creator che ha generato queste immagini). > Prompt: > > A closeup of delicate soap bubbles floating in the air, with a soft pastel > background that adds to their ethereal beauty. The focus is on capturing the > intricate details and reflections within each bubble, creating an enchanting > atmosphere in the style of the artist. A… > > — Salma (@Salmaaboukarr) March 27, 2024 > Forse non si ha ancora margine di manovra al 100%, ma i progressi sono > evidenti. -------------------------------------------------------------------------------- L'ACCORDO TRA ACCENTURE, AWS E ANTHROPIC Claude 3 ha superato GPT-4.. ma c'è un aspetto ancora più interessante e strategico, ovvero l'alleanza tra Anthtopic, AWS e Accenture. Che mette insieme la generative AI + un sistema cloud che permette qualunque implementazione immaginabile + un'ampia organizzazione per la system integration. Accenture, AWS, Anthropic Collaboration Anthropic, AWS, and Accenture Team Up to Build Trusted Solutions for Enterprises Un accordo che va a rispondere al vero problema attuale: > c’è più richiesta di implementazione che disponibilità di risorse qualificate > per adattare le soluzioni di intelligenza artificiale generativa alla > produzione. -------------------------------------------------------------------------------- A CHE PUNTO SIAMO CON LA QUALITÀ DEL DEEPFAKE? Dal punto di vista tecnologico il livello è tale da rendere quasi impossibile il riconoscimento rispetto a un video reale. Un esempio della qualità dei deepfake realizzabili con l'attuale tecnologia La necessità di contromisure efficaci rimane altissima.. quanto il bisogno di alzare il livello di cultura su sistemi che miglioreranno sempre di più. -------------------------------------------------------------------------------- DBRX DI DATABRICKS Databricks ha presentato DBRX: un nuovo LLM open dalle performance superiori a Grok, Mixtral 8x7b e Llama 2 70b, e di poco inferiori a Claude 3 Haiku. Introducing DBRX: A New State-of-the-Art Open LLM | Databricks DatabricksThe Mosaic Research Team Ha un'architettura MoE (Mixture of experts), con circa il 40% delle dimensioni di Grok (132B di parametri), ed è 2 volte più veloce (in inferenza) di Llama 2. Uno dei segreti delle performance è la configurazione di MoE: rispetto a Mixtral e Grok, DBRX usa più "esperti" più piccoli. È stato addestrato su 12T di token e fornisce una finestra di contesto di 32k token. DBRX di Databrick: performance e test Su task RAG supera GPT-3.5 Turbo. > La tecnologia migliora, e ormai abbiamo modelli aperti dalle performance > elevatissime. -------------------------------------------------------------------------------- UN SEMPLICE FRAMEWORK PER CREARE UN SISTEMA MULTI-AGENTE "Maestro" è un piccolo framework in cui il prompt viene suddiviso in micro attività da un agente "manager", e ogni attività viene eseguita da agenti distinti. Infine il manager revisiona il lavoro svolto dagli agenti per generare l'output. Il manager viene gestito da Opus, mentre gli agenti da Haiku. GitHub - Doriandarko/maestro: A framework for Claude Opus to intelligently orchestrate subagents. A framework for Claude Opus to intelligently orchestrate subagents. - Doriandarko/maestro GitHubDoriandarko Se si osserva il codice, è davvero molto semplice (poco più di 150 righe di Python) e può essere un'ottima base per automazioni interessanti. > La stessa logica può essere riprodotta con qualunque LLM, usando anche modelli > più piccoli e open source per i micro task. -------------------------------------------------------------------------------- CLAUDE 3 OPUS SUPERA GPT-4 NELLA CHATBOT ARENA LEADERBOARD Credo sia la prima volta che un modello supera il top di OpenAI. LMSys Chatbot Arena Leaderboard - a Hugging Face Space by lmsys Discover amazing ML apps made by the community a Hugging Face Space by lmsys > La notizia ormai sta spopolando. Ma ci tengo sempre a ricordare che ci stiamo > riferendo a una tecnologia del 2022. Chatbot Arena Leaderboard La vera notizia sono le performance della versione Haiku, disponibile anche su Perplexity Labs. -------------------------------------------------------------------------------- COME FUNZIONA LA RICERCA VETTORIALE? UNA SPIEGAZIONE SEMPLICE. Oggi si parla sempre di più dei sistemi RAG (Retrieval Augmented Generation), che si basano sull'unione tra LLM e la ricerca vettoriale (embeddings). Come funziona la ricerca vettoriale? Spiegazione semplice: estrae le informazioni più simili alla query di ricerca da un database che rappresenta l'archivio di documenti. Tali informazioni, diventano il contesto per un LLM che genera la risposta alla query. L'estrazione delle informazioni avviene, ad esempio, attraverso la "similarità del coseno", ovvero misurando il coseno dell'angolo tra il vettore che rappresenta la query e quelli contenuti nel database vettoriale. Il tutto dopo aver ridotto le dimensioni delle rappresentazioni vettoriali. È sempre affidabile? Non sempre.. Is Cosine-Similarity of Embeddings Really About Similarity? Cosine-similarity is the cosine of the angle between two vectors, or equivalently the dot product between their normalizations. A popular application is to quantify semantic similarity between high-dimensional objects by applying cosine-similarity to a learned low-dimensional feature embedding. This can work better but sometimes also worse than the unnormalized dot-product between embedded vectors in practice. To gain insight into this empirical observation, we study embeddings derived from regularized linear models, where closed-form solutions facilitate analytical insights. We derive analytically how cosine-similarity can yield arbitrary and therefore meaningless `similarities.′ For some linear models the similarities are not even unique, while for others they are implicitly controlled by the regularization. We discuss implications beyond linear models: a combination of different regularizations are employed when learning deep models; these have implicit and unintended effects when taking cosine-similarities of the resulting embeddings, rendering results opaque and possibly arbitrary. Based on these insights, we caution against blindly using cosine-similarity and outline alternatives. arXiv.orgHarald Steck Ecco perché l'unione di questa tecnica ai grafi di conoscenza (knowledge graph) sembra essere una via molto interessante per aumentare l'affidabilità. Attraverso i grafi possiamo relazionare i vettori delle parti dei documenti (chunk). In questo modo possiamo considerare i documenti nel loro insieme, non solo come una raccolta sparsa si embeddings. E possiamo relazionare i documenti ad altre informazioni strutturate. > Sistemi ibridi di questo tipo consentono maggior precisione nella > determinazione delle relazioni tra le entità comprese le connessioni > strutturali e temporali. Knowledge Graphs for RAG Learn the skills to start or advance your AI career | World-class education | Hands-on training | Collaborative community of peers and mentors Knowledge graphs are used in development to structure complex data relationships, drive intelligent search functionality, and build powerful AI applications that can reason over different data types. Knowledge graphs can connect data from both structured and unstructured sources (databases, documents, etc.), providing an intuitive and flexible way to model complex, real-world scenarios. Unlike tables or simple lists, knowledge graphs can capture the meaning and context behind the data, allowing you to uncover insights and connections that would be difficult to find with conventional databases. This rich, structured context is ideal for improving the output of large language models (LLMs), because you can build more relevant context for the model than with semantic search alone. This course will teach you how to leverage knowledge graphs within retrieval augmented generation (RAG) applications. You’ll learn to: Understand the basics of how knowledge graphs store data by using nodes to represent entities and edges to represent relationships between nodes. Use Neo4j’s query language, Cypher, to retrieve information from a fun graph of movie and actor data. Add a vector index to a knowledge graph to represent unstructured text data and find relevant texts using vector similarity search. Build a knowledge graph of text documents from scratch, using publicly available financial and investment documents as the demo use case Explore advanced techniques for connecting multiple knowledge graphs and using complex queries for comprehensive data retrieval. Write advanced Cypher queries to retrieve relevant information from the graph and format it for inclusion in your prompt to an LLM. After course completion, you’ll be well-equipped to use knowledge graphs to uncover deeper insights in your data, and enhance the performance of LLMs with structured, relevant context. -------------------------------------------------------------------------------- LINEE GUIDA PER UN UTILIZZO RESPONSABILE DELL'AI GENERATIVA L'Unione Europea, insieme ai paesi dell'European Research Area, ha presentato delle linee guida per supportare la comunità di ricerca europea nell'utilizzo responsabile dell'AI generativa. > Si tratta di un importante riferimento, perché questi sistemi stanno > rapidamente trovando applicazione in tutti i settori, inclusa la scienza. Le linee guida enfatizzano la necessità di trasparenza e responsabilità nell'uso dell'AI, promuovendo l'integrità scientifica e preservando la fiducia pubblica nella scienza. Le organizzazioni di ricerca e i finanziatori vengono incoraggiati a facilitare l'uso responsabile dell'AI generativa e a monitorare attentamente lo sviluppo e l'applicazione di questi strumenti. Guidelines on the responsible use of generative AI in research developed by the European Research Area Forum Research and innovation news alert: The Commission, together with the European Research Area countries and stakeholders, has put forward a set of guidelines to support the European research community in their responsible use of generative artificial intelligence (AI). Research and innovation -------------------------------------------------------------------------------- RAG + MODELLO A 7B: TEST Come se la caverebbe un LLM "piccolo" per generare la risposta finale di un sistema RAG? Il test si basa su un recupero da database vettoriale con embeddings generati attraverso i modelli di OpenAI. Una volta estratti i chunk dal db con una query vettoriale, la risposta viene generata attraverso Mistral 7b. RAG + modello a 7b: test Come si vede, funziona abbastanza bene. Sistemi con questa configurazione potrebbero agire direttamente in locale, anche su uno smartphone, senza scambiare dati con un modello in cloud. Tutto bellissimo? Non tutto. Vediamo alcune note. * Il cuore del sistema si basa sulla qualità della vettorializzazione dei dati. Più il modello è performante, e più sarà in grado di rappresentare la semantica dei contenuti. * Se le risposte necessitano di elaborazione, un modello piccolo non sarà sempre sufficiente. -------------------------------------------------------------------------------- COME FUNZIONA L'ARCHITETTURA "DIFFUSION TRANSFORMER" ALLA BASE DI MODELLI COME SORA E STABLE DIFFUSION 3? Vediamo una spiegazione semplice. * L'architettura rappresenta una tecnica innovativa nel campo della generazione di immagini con l'AI. Immagina che la tecnologia di trasformazione (transformer) sia come un artista che dipinge un quadro, e i modelli di diffusione siano come la tecnica che usa per creare l'opera. * Inizialmente, i modelli di diffusione lavoravano come se l'artista iniziasse con una tela piena di macchie casuali (rumore) e, passo dopo passo, rimuovesse queste macchie per rivelare l'immagine finale. La tecnologia transformer, che prima era usata principalmente per elaborare il testo, ora è come se desse all'artista un metodo più sofisticato per decidere quali macchie rimuovere e in quale ordine, migliorando la qualità e l'efficienza del quadro finale. * Con "Diffusion Transformer", invece di lavorare direttamente sull'immagine intera (che richiederebbe molta potenza computazionale), l'artista lavora su una versione compressa dell'immagine, chiamata spazio latente. È come se riducesse l'immagine a un insieme più piccolo di elementi essenziali, rendendo il processo più gestibile. * Durante il processo di "pittura" (generazione dell'immagine), il transformer analizza e manipola questi elementi essenziali per rimuovere le macchie (rumore) e, passo dopo passo, svela l'immagine desiderata. Questo metodo non solo migliora la qualità delle immagini generate ma lo rende anche più efficiente, permettendo di creare immagini complesse senza richiedere una potenza di calcolo eccessiva. Come funziona Sora? > In breve, "Diffusion Transformer" è come un artista avanzato che utilizza una > tecnica raffinata per creare capolavori, rendendo il processo più veloce, > efficiente e capace di produrre risultati di alta qualità. -------------------------------------------------------------------------------- SICUREZZA DEI LARGE LANGUAGE MODEL Un paper davvero interessante! Gli autori hanno rilasciato un metodo per estrarre informazioni precise dai modelli di linguaggio. L'attacco estrae la matrice di proiezione dei modelli Ada e Babbage di OpenAI sfruttando chiamate API (con meno di 20$). > Stimano che con circa 2k $ si riuscirebbe ad estrarre l'intera matrice di > proiezione di GPT-3.5 Turbo. Stealing Part of a Production Language Model We introduce the first model-stealing attack that extracts precise, nontrivial information from black-box production language models like OpenAI’s ChatGPT or Google’s PaLM-2. Specifically, our attack recovers the embedding projection layer (up to symmetries) of a transformer model, given typical API access. For under \$20 USD, our attack extracts the entire projection matrix of OpenAI’s Ada and Babbage language models. We thereby confirm, for the first time, that these black-box models have a hidden dimension of 1024 and 2048, respectively. We also recover the exact hidden dimension size of the gpt-3.5-turbo model, and estimate it would cost under \$2,000 in queries to recover the entire projection matrix. We conclude with potential defenses and mitigations, and discuss the implications of possible future work that could extend our attack. arXiv.orgNicholas Carlini Lo studio dimostra come sia possibile ottenere informazioni significative su LLM complessi senza averne un accesso diretto, sollevando questioni sulla sicurezza. -------------------------------------------------------------------------------- PROMPT ENGINEERING: NOTE INTERESSANTI Sono davvero contento di leggere questo post di Andrew Ng. Robots Talk Back, AI Security Risks, Political Deepfakes, and more I think AI agent workflows will drive massive AI progress this year — perhaps even more than the next generation of foundation models. This is an important… Robots Talk Back, AI Security Risks, Political Deepfakes, and more Parla di tecniche multi agente per usare i LLM per generare contenuti seguendo un flusso di.. 1. generazione di una bozza, 2. valutazione della bozza per mettere in evidenza gli aspetti da migliorare, 3. creazione di una nuova bozza migliorata in base alle valutazioni, 4. fino ad ottenere un risultato soddisfacente. Prompt Engineering: note interessanti > Sono contento perché usiamo questa tecnica da molto tempo per contenuti, > traduzioni e altre elaborazioni, condividendola anche nei nostri seminari. -------------------------------------------------------------------------------- MM1 E L'AI GENERATIVA DI APPLE Apple avanza nello sviluppo di sistemi basati sull'AI generativa, e pubblica un documento di ricerca su MM1. Si tratta di una famiglia di modelli multimodali addestrati su dati testuali e visuali. > Saranno i primi test per la nuova generazione di Siri? MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training In this work, we discuss building performant Multimodal Large Language Models (MLLMs). In particular, we study the importance of various architecture components and data choices. Through careful and comprehensive ablations of the image encoder, the vision language connector, and various pre-training data choices, we identified several crucial design lessons. For example, we demonstrate that for large-scale multimodal pre-training using a careful mix of image-caption, interleaved image-text, and text-only data is crucial for achieving state-of-the-art (SOTA) few-shot results across multiple benchmarks, compared to other published pre-training results. Further, we show that the image encoder together with image resolution and the image token count has substantial impact, while the vision-language connector design is of comparatively negligible importance. By scaling up the presented recipe, we build MM1, a family of multimodal models up to 30B parameters, including both dense models and mixture-of-experts (MoE) variants, that are SOTA in pre-training metrics and achieve competitive performance after supervised fine-tuning on a range of established multimodal benchmarks. Thanks to large-scale pre-training, MM1 enjoys appealing properties such as enhanced in-context learning, and multi-image reasoning, enabling few-shot chain-of-thought prompting. arXiv.orgBrandon McKinzie -------------------------------------------------------------------------------- CODE INTERPRETER: NON SOLO ESECUZIONE DI SCRIPT In questo esperimento si vede come sia possibile usare Code Interpreter di ChatGPT come ambiente, e non solo per l'esecuzione di uno script. Ho caricato su ChatGPT un JSON contenente tutti i contenuti del mio blog e ho dato indicazioni per salvare tutti i post in un PDF (uno file ogni post). Il sistema ha eseguito l'operazione inserendo i file PDF in una directory. Successivamente, in un altro scambio, ho dato istruzioni per zippare la directory in modo da scaricare l'archivio. Code Interpreter: test di esecuzione come ambiente > Quindi il sistema ha creato la directory e i file in uno spazio temporaneo, > che diventa parte del contesto per il modello. Successivamente, crea > l'archivio e permette di scaricarlo. -------------------------------------------------------------------------------- STABLE VIDEO 3D Stability AI, con la presentazione di Stable Video 3D dimostra l'avanzamento dei modelli non solo nella generazione video, ma anche degli oggetti 3D. Introducing Stable Video 3D: Quality Novel View Synthesis and 3D Generation from Single Images — Stability AI When we released Stable Video Diffusion, we highlighted the versatility of our video model across various applications. Building upon this foundation, we are excited to release Stable Video 3D. This new model advances the field of 3D technology, delivering greatly improved quality and multi-view whe Stability AIAnel Islamovic L'input è l'immagine di un oggetto. Il sistema genera visualizzazioni multiple di quell'oggetto per produrre un mesh 3D. -------------------------------------------------------------------------------- SIMA DI GOOGLE DEEPMIND Google DeepMind ha presentato SIMA (Scalable Instructable Multiworld Agent), un sistema che permette a un agente AI generale di comprendere molti "mondi di gioco" e di seguire istruzioni in linguaggio naturale per eseguire azioni al loro interno. SIMA (Scalable Instructable Multiworld Agent) di Google DeepMind Il sistema è stato istruito attraverso coppie di giocatori, in cui uno dà le istruzioni e l'altro le esegue nel gioco. Gli unici input di SIMA sono le immagini dello schermo e le istruzioni per le azioni da compiere, e usa le uscite di mouse e tastiera per "giocare".. come farebbe un essere umano. Tutto questo apre nuovi scenari verso agenti generalisti che si muovono nello spazio cogliendo istruzioni in linguaggio naturale. A generalist AI agent for 3D virtual environments Introducing SIMA, a Scalable Instructable Multiworld Agent Google DeepMindthe SIMA Team > Pensiamo ad applicazioni come la robotica, magari in scenari di assistenza per > persone con disabilità motoria. -------------------------------------------------------------------------------- GROK VIENE RILASCIATO COME PROGETTO OPEN SOURCE Forse il rilascio di Grok come modello open source è passato leggermente in sordina. Ma si tratta del più grande e performante LLM aperto esistente. > 314 miliardi di parametri, e grazie all'architettura MoE, tiene 86 miliardi di > parametri sempre attivi. Supera LlaMa 2 70B e Mixtral 8x7B nel benchmark MMLU. GitHub - xai-org/grok-1: Grok open release Grok open release. Contribute to xai-org/grok-1 development by creating an account on GitHub. GitHubxai-org -------------------------------------------------------------------------------- L'EVOLUZIONE DELLE INFRASTRUTTURE HARDWARE DEDICATE ALL'AI GENERATIVA Meta, a gennaio, aveva parlato dell'infrastruttura da 600k H100 Nvidia.. ecco il progetto completo, ed è impressionante. Building Meta’s GenAI Infrastructure Marking a major investment in Meta’s AI future, we are announcing two 24k GPU clusters. We are sharing details on the hardware, network, storage, design, performance, and software that help us extr… Engineering at MetaKevin Lee Da qui nasceranno i futuri modelli, come Llama 3 e i futuri servizi basati sull'AI, verso un ideale concetto di AGI. Nel frattempo Nvidia annuncia Blackwell, una nuova architettura che rende le GPU molto (MOLTO) più veloci, con un consumo molto (MOLTO) inferiore. Nvidia reveals Blackwell B200 GPU, the “world’s most powerful chip” for AI Twenty petaflops of AI performance, says Nvidia. The Verge > La potenza di calcolo non sarà più un limite. Le performance aumenteranno. Ma > potrà ancora essere la leva primaria della crescita? Lo scopriremo presto. -------------------------------------------------------------------------------- VLOGGER DI GOOGLE Dopo EMO di Alibaba, ecco Vlogger, un modello in grado di generare video di persone che si esprimono partendo da un'immagine, testo e audio. Il modello non lavora su un ritaglio del volto, ma genera l'immagine completa, rendendo l'output più realistico. Esempi di applicazione di Vlogger > Non solo generazione, ma anche editing e traduzione. I video di esempio della pagina di GitHub sono impressionanti. -------------------------------------------------------------------------------- RAG MULTILINGUA: UN TEST INTERESSANTE Tutti i contenuti del mio sito web (lingua italiana) sono stati suddivisi in parti (chunk), trasformati in embeddings e salvati in un database vettoriale (Pinecone). Le domande che faccio all'agente, vengono trasformate in embeddings, e con una query vettoriale nel db vengono estratti i chunk più simili. Queste parti, grazie alla natura degli embeddings, sono le più "vicine" dal punto di vista semantico alla query. Le componenti testuali dei chunk diventano il contesto per il modello di linguaggio (GPT-4), che, grazie a un system prompt ben strutturato, genera la risposta. Esempi di interazione con un sistema RAG in lingue diverse rispetto ai contenuti della knowledge Come si vede, però, le domande e le risposte del modello sono in inglese e in tedesco. Mentre i contenuti della knowledge sono in italiano. > Si tratta di una dimostrazione del potenziale della ricerca semantica. Ed ecco > perché spesso dico che, per questi sistemi, la lingua passa in secondo piano. Pensiamo, ad esempio, a come può potenziarsi il customer service, la consultazione della manualistica, e la ricerca. -------------------------------------------------------------------------------- I MODELLI DI LINGUAGGIO A 1 BIT Cosa sono i LLM a 1 bit e perché sono interessanti per il futuro? Ad esempio BitNet di Microsoft. Solitamente i parametri di un modello vengono salvati a 16 o 32 bit. Per questo non possiamo fare funzionare (ad esempio) GPT-4 in locale: tanti parametri + dimensioni enormi. Facendo un rapido calcolo, un modello con 7 miliardi di parametri (7b) ha bisogno di circa 27GB di memoria. Nei sistemi a 1 bit, viene usato solo 1 bit (zero o uno) per memorizzare i parametri. Lo stesso modello dell'esempio precedente, necessità quindi di circa 0,8 GB di memoria. Modelli di linguaggio a 1 bit Ecco perché sono sistemi interessanti: possono far funzionare modelli su dispositivi con poche risorse hw (uno smartphone, ad esempio). > Quindi equivale alla quantizzazione? NO. La quantizzazione riduce la > precisione dei parametri, mentre questi modelli rappresentano i parametri in > un altro modo. -------------------------------------------------------------------------------- RUNWAY: VOCE, LIP SYNC ED EFFETTI SONORI NEI VIDEO GENERATI Non poteva mancare Runway in questo trend, con voce e lip sync + effetti sonori nei video generati. > Ci siamo: sulle principali piattaforme, ormai possiamo produrre video > completi. Runway con voce e lip sync + effetti sonori nei video generati -------------------------------------------------------------------------------- CONTENUTI "SPAZZATURA" NELLE RICERCHE SCIENTIFICHE Durante una recente lezione, uno studente mi ha chiesto: "l'utilizzo di questi sistemi (LLM) potrà determinare l'aumento incontrollato di contenuti spazzatura online"? In realtà, se non si accelererà con l'ideazione di nuove modalità di governance, i rischi possono essere anche maggiori. La "spazzatura" sta entrando nelle ricerche scientifiche, e ne parla Gary Marcus in questo post che va assolutamente letto. The exponential enshittification of science “Certainly, here is a list of” scientific garbage that may have been partially written by a factually-challenged bot Marcus on AIGary Marcus > Che senso ha produrre una ricerca di scarsa qualità? È una questione di alzare > le statistiche sulle pubblicazioni? NOTA IMPORTANTE: spesso si tende ad associare i contenuti di scarsa qualità direttamente ai LLM, anche in altri ambiti come la SEO.. ma ricordiamoci che i modelli non pubblicano i contenuti in autonomia. Dobbiamo agire in fretta. -------------------------------------------------------------------------------- UN ESEMPIO DI RAPPRESENTAZIONE DEGLI EMBEDDINGS Una rappresentazione degli embeddings di una selezione di post di The Verge. I vettori sono relazionati agli URL e a una serie di parole chiave (il tutto ricavato dalla sitemap del sito web). Quando faccio le ricerche (nel video), è affascinante vedere come gli URL di contenuti simili vengono rappresentati vicini nello spazio (3D e 2D). La riduzione dimensionale avviene attraverso T-SNE, usando diverse interazioni (si vedono nel video). > Di fatto è un rudimentale sistema di recommendation che raggruppa i post dello > stesso argomento. -------------------------------------------------------------------------------- IL PARLAMENTO EUROPEO APPROVA L'AI ACT Il Parlamento Europeo ha approvato l'AI Act, e credo sia un grande primo passo di un percorso di consapevolezza (almeno dei rischi). Ora è necessario mettere subito in azione i passi successivi, e serve avere già in mente l'aggiornamento di questo primo passo, perché quando entrerà effettivamente in vigore lo scenario tecnologico sarà cambiato. Per i passi successivi, torno sui due concetti che ho condiviso all'AI Festival. * Governance non è soltanto sinonimo di regolamentazione. Significa anche creare politiche per lo sviluppo della tecnologia, e strategie per la talent retention. L'Europa forma più ricercatori ed esperti di Stati Uniti e Cina, ma gli investimenti di venture capital verso l'Europa sono nettamente inferiori: abbiamo il talento, ma non può svilupparsi. * L'Europa riuscirà ad esportare delle regole senza dare il buon esempio? Alcune slide sull'AI Act dal mio intervento all'AI Festival > Per dare il buon esempio è necessario giocare la partita, non solo in veste di > arbitro, ma di player attivo di valore. -------------------------------------------------------------------------------- CLAUDE 3 SU PERPLEXITY LABS Nel playground di Perplexity Labs arriva Claude 3 Haiku. Claude 3 Haiku su Perplexity Labs Insieme a Mixtral 8x7b e a Mistral Medium formano un parco modelli valido a disposizione gratuitamente. -------------------------------------------------------------------------------- OPENAI E LA PARTNERSHIP CON LE MONDE E PRISA MEDIA > Esserci o non esserci (su ChatGPT)? Nuova partnership per OpenAI con Le Monde e Prisa Media, che porterà i contenuti delle testate su ChatGPT, con i riferimenti per accedere direttamente alle pagine e suggerimenti a post correlati. Global news partnerships: Le Monde and Prisa Media We have partnered with international news organizations Le Monde and Prisa Media to bring French and Spanish news content to ChatGPT. Ma soprattutto, i contenuti alimenteranno il training dei modelli di OpenAI. Un indotto costante di dati per algoritmi sempre più ampi e "affamati", e un altro passo che avvicina ChatGPT ad essere considerato un riferimento per gli utenti, anche per le notizie fresche. > Quali testate vorranno mancare in una "nuova piattaforma" di informazione? -------------------------------------------------------------------------------- "CHARACTER REFERENCE" DI MIDJOURNEY Quanto è efficace "Character Reference" di Midjourney? Diciamo che è impressionante, ma non del tutto affidabile. Un esempio di "Character Reference" di Midjourney I passi da gigante si stanno avviando e si arriverà a risultati migliori, ma senza un controllo "chirurgico" sul condizionamento della diffusione, le applicazioni professionali rimangono difficili. La nuova funzionalità permette di generare immagini mantenendo la fedeltà nei tratti del soggetto principale dell'immagine. Per usarla: > -cref <URL dell'immagine del soggetto di riferimento> -cw <intensità della > fedeltà al personaggio da 0 a 100> -------------------------------------------------------------------------------- EMBEDDINGS: UN ESEMPIO DI VISUALIZZAZIONE Un esempio di visualizzazione della rappresentazione vettoriale (embeddings) di un vocabolario di 10k parole. Embeddings: un esempio di visualizzazione Come si vede, il sistema riesce a rappresentare la relazione tra le diverse parole, indicandone la "distanza". Il modello che viene usato è Word2Vec, un sistema molto noto. Per avere un riferimento, Word2Vec utilizza 300 dimensioni per rappresentare i concetti, mentre modelli più evoluti come text-embeddings-3-large di OpenAI usa 3.072 dimensioni. Questo significa che la capacità di rappresentazione e di correlazione semantica è estremamente maggiore. > È grazie a questi sistemi che i moderni LLM riescono ad acquisire una > conoscenza sorprendente della struttura del linguaggio. -------------------------------------------------------------------------------- SOUND EFFECTS DI ELEVENLABS Come funziona Sound Effects di ElevenLabs? Ho avuto un accesso anticipato alla piattaforma, ed ecco una piccola dimostrazione. Un esempio di Sound Effects di ElevenLabs Basta un prompt testuale, e in qualche secondo si possono ottenere diversi audio con gli effetti sonori corrispondenti. > Le implicazioni sono molteplici, ad esempio l'integrazione con la generazione > di video ed effetti per i podcast. -------------------------------------------------------------------------------- LA PROMPT LIBRARY DI ANTHROPIC Nella documentazione di Anthropic si nasconde una risorsa interessante: una libreria di prompt da usare e studiare. La prompt library di Anthropic Analizzandola, ho scoperto che suggeriscono alcune tecniche che uso anch'io. Vediamo 2 esempi. * Usano dei tag per separare i componenti del prompt, rendendolo più chiaro. Esempio: <examples>...</examples> * Prima della generazione della risposta, fanno produrre al modello una lista di informazioni rilevanti. Nota interessante: usano il System Prompt anche per la descrizione del task, tenendo la prima interazione di "user" molto scarica. -------------------------------------------------------------------------------- WONDER DYNAMICS: LA SOSTITUZIONE DEI SOGGETTI NEI VIDEO Il video dell'alieno è stato generato attraverso Sora di OpenAI attraverso un prompt testuale. Il video del robot è stato generato sostituendo il soggetto usando Wonder Dynamics. Wonder Dynamics: la sostituzione dei soggetti nei video > Le possibilità e la precisione della generazione e dell'editing video > aumentano in modo importante. Le opzioni di editing comprendono l'aggiustamento delle luci, delle proporzioni, una dinamica precisa dei movimenti delle mani e del corpo, e molto altro. -------------------------------------------------------------------------------- LA LOTTA PER IL "MODELLO MIGLIORE" È curioso che si stia lottando sul mezzo punto di benchmark per stabilire il modello migliore, magari mostrando i dati utili per una buona campagna di marketing. Sembra, infatti, che GPT-4 Turbo sia più performante di Claude3 Opus. Quando Meta rilascerà Llama 3 e OpenAI "scoprirà le carte", avremo un importante riscontro per capire se stiamo osservando un plateau, e per capire il margine di miglioramento dei LLM. > Ma ricordiamoci che, per quanto miglioreranno, la natura di questi sistemi > rimarrà la stessa. -------------------------------------------------------------------------------- EFFETTI SONORI SUI VIDEO DI PIKA Pika segue a ruota il trend dei sistemi di generazione video, e lancia la possibilità di aggiungere gli effetti sonori ai video generati. > Il tutto attraverso un prompt testuale oppure direttamente in base al > contenuto del video. Esempi di effetti sonori su video generati attraverso Pika -------------------------------------------------------------------------------- COME FUNZIONA UN SISTEMA RAG (RETRIEVAL AUGMENTED GENERATION)? Cosa accade quando si effettua una domanda a un sistema RAG (Retrieval Augmented Generation)? * La domanda viene trasformata in vettore (embeddings) e una query nel database vettoriale estrae i vettori più simili. * La corrispondenza testuale di quei vettori diventa il contesto per un LLM, che lo rende una risposta testuale. Nel video è possibile visualizzare graficamente la selezione dei vettori più simili alla domanda (punti rossi) nel database vettoriale per la domanda "Who build the Nuerburgring". Un esempio di ricerca in un database vettoriale Chiaramente, per ottenere una rappresentazione di questo tipo, si è fatta una riduzione dimensionale in modo da mantenere le caratteristiche (almeno di confronto) dei vettori. > E questa è anche la straordinaria dinamica alla base della "comprensione" del > linguaggio da parte di un LLM. -------------------------------------------------------------------------------- IL GARANTE DELLA PRIVACY AVVIA UN'ISTRUTTORIA SU SORA DI OPENAI Non ho alcun interesse verso OpenAI, ma vorrei capire un aspetto.. Esistono servizi disponibili da tempo per la generazione video da prompt multimodali evoluti almeno quanto Sora, ad esempio Runway e Pika. OpenAI presenta Sora (non l'hanno ancora reso disponibile) e viene avviata un'istruttoria. Intelligenza artificiale, il Garante privacy avvia istruttoria su “Sora” di OpenAI. Chieste alla società informazioni su algoritmo che crea brevi video da poche righe di testo Garante Privacy La domanda che mi faccio è.. > stiamo mettendo energie verso una regolamentazione e una governance condivisa? > E su questo sono il primo a dire (e lo faccio dal momento zero dall'AI > generativa) che si tratta di un'azione fondamentale. > Oppure mettiamo "OpenAI" nei titoli perché è notiziabile? -------------------------------------------------------------------------------- NOVITÀ SU CHATGPT Due "novità" rilevanti su ChatGPT. * Dal 19 marzo non sono più disponibili i plugin, a favore dei GPTs. I plugin di ChatGPT non sono più disponibili a favore dei GPTs * I messaggi di risposta ora possono essere letti dall'assistente, con la possibilità di impostare la voce. I messaggi di risposta di ChatGPT possono essere letti da una voce sintetica -------------------------------------------------------------------------------- RAG + FINE TUNING: TEST Ultimamente ho testato questa combinazione, per ottenere una perfetta formattazione dell'output. Il fine-tuning di GPT-3.5 Turbo per elaborare l'estrazione dal database vettoriale permette precisione: l'output è sempre formattato perfettamente. Ma quanto conviene rispetto a un buon few-shot learning, magari su un modello più potente? Per questo tipo di attività, dai test sul recupero, ho avuto risultati migliori usando GPT-4 con prompt accurati. Test di fine-tuning e RAG (Retrieval Augmented Generation) > L'uso del FT ha senso SOLO per attività estremamente specializzate. -------------------------------------------------------------------------------- AGI (ARTIFICIAL GENERAL INTELLIGENCE) È UN CONCETTO BEN DEFINITO? > Perché ogni volta che viene rilasciato un nuovo modello, sento parlare di > AGI!? AGI è un concetto teorico che non specifica una soglia.. non specifica cosa significa "general". E trovo difficilissimo che un LLM possa definirsi AGI. Può essere talmente performante da darci la sensazione di "comprensione" e ragionamento (e su questo ci siamo quasi), ma non ha basi logiche solide e affidabili. Questo è un problema? No, se ne abbiamo la consapevolezza. Un piccolo esempio: questi modelli ottengono punteggi impressionanti su tutti i benchmark noti, e potrei postare dei flussi logici degni di nota (anche i prompt che ho usato per ottenerli lo sono, però). Ma commettono errori su una domanda banale come quella delle immagini che seguono. Se avessero una componente simbolica, questo non accadrebbe. Per questo nomino spesso i sistemi neuro-simbolici (che comunque non sono una novità) come visione "futuristica" dell'AI. Semplice test di logica usando diversi LLM NOTA SULLE IMMAGINI * NO, non è una questione di lingua: ho usato lo stesso prompt anche in inglese e la risposta non cambia di molto. * Mi ero promesso di non postare più questi esempi "idioti".. ma possono aiutare a comprendere meglio questi sistemi. -------------------------------------------------------------------------------- GARANTIRE UN'AI CHE SERVA IL BENE COMUNE Mentre l'AI continua a evolversi e a influenzare diversi aspetti della nostra vita, è cruciale rimanere informati e impegnati nel suo sviluppo. Solo così possiamo garantire che l'AI serva il bene comune, potenziando la nostra creatività e produttività, piuttosto che diventare un ostacolo o una minaccia. Un TEDx interessante per riflettere su queste tematiche. Artificial intelligence becomes natural - Noémi Éltető - TEDxTârguMureș -------------------------------------------------------------------------------- TEST DI GEMINI 1.0 PRO VISION La multimodalità è ormai una costante nelle nuove generazioni di modelli. L'API di Gemini risponde bene, in linea con la "visione" dei modelli della stessa classe (es. GPT-4 e Claude 3). Nel test si vede un esempio dell'utilizzo delle API dal pannello di Vertex AI, in cui carico l'immagine di un tavolo, che viene unita al contesto di un prompt strutturato per generare i dati di ottimizzazione, ovvero gli attributi "alt" e "title", e la didascalia. Esempio di utilizzo delle API di Gemini 1.0 Pro con un'immagine nel prompt I controlli di sicurezza sono un po' troppo invasivi, a volte si attivano anche laddove non c'è violazione (probabilmente dipende anche dalla lingua), ma sono regolabili. Vorrei solo capire perché nella versione chatbot il comportamento (a parità di prompt) è diverso. O meglio, lo comprendo: l'intenzione è quella di rendere l'assistente più semplice e "verboso" per l'utente. Però questo è un limite per gli utenti più evoluti. -------------------------------------------------------------------------------- ARRIVARE ALL'AGI.. Per chi ha seguito il mio recente intervento all'AI Festival.. Il CEO di Google DeepMind sembra essere molto d'accordo con i concetti che ho cercato di condividere. E, come dicevo, presto scorgeremo quel limite. > La mia convinzione è che per arrivare all’AGI probabilmente ci sarà bisogno di > molte altre innovazioni oltre alla massimizzazione della scala […]. Penso che > sia necessario spingere sulle tecniche esistenti per vedere fino a che punto > arrivano, ma non si otterranno nuove capacità [dell'AI] semplicemente > scalandole. Non succederà come per magia. > - Demis Hassabis, in un'intervista a Wired USA * L'intervista: https://bit.ly/intervista-wired * Il mio intervento: https://bit.ly/alessio-pomaro-ai-festival Demis Hassabis - CEO di Google DeepMind Solo una nota: ho usato il termine AGI perché fa parte della citazione, ma spesso evito di parlarne. Il motivo? Probabilmente, in questo secolo, dovremo rivederne il significato diverse volte.. perché i limiti continueranno a spostarsi: il termine "generale", potenzialmente non ha confini. -------------------------------------------------------------------------------- TEST DI CLAUDE 3 Anthropic ha rilasciato la nuova famiglia di modelli con il cappello Claude 3: Opus, Sonnet, e Haiku. Teoricamente batte GPT-4 su tutti i benchmark, più veloce, con meno errori, più preciso (99% nel test NIAH), e ovviamente è stata introdotta la multimodalità. 200k token di contesto, con una capacità che può estendersi fino a 1M. Ho provato Sonnet, ovvero la versione che bilancia velocità e performance. Com'è andata? Le risposte sono velocissime. Ho testato diversi prompt di analisi e generazione di testo, e anche su molte e intricate istruzioni se la cava bene e rispetta le direttive. La componente di visione è abbastanza sensibile, e il dettaglio del contesto è ampio. L'ho testato non solo nella descrizione di un'immagine, ma anche nella generazione di output mixando istruzioni testuali. Test di Claude 3 (Sonnet) Ottimo lavoro Anthropic! > Ricordo sempre, però, che stiamo confrontando le performance di un modello > rilasciato da pochissimo con una tecnologia del 2022 (GPT-4). Sono molto curioso di vedere quanto i prossimi modelli di OpenAI miglioreranno in questi benchmark. Credo che questo ci farà capire molti aspetti sul futuro dell'AI. Introducing the next generation of Claude Today, we’re announcing the Claude 3 model family, which sets new industry benchmarks across a wide range of cognitive tasks. The family includes three state-of-the-art models in ascending order of capability: Claude 3 Haiku, Claude 3 Sonnet, and Claude 3 Opus. -------------------------------------------------------------------------------- GOOGLE PORTERÀ LA KNOWLEDGE BASE DI STACK OVERFLOW SU GEMINI La quantità di dati e di potenza di calcolo che le Big Tech hanno (o avranno a breve) a disposizione ci farà capire molto presto i limiti e il futuro dell'AI generativa. Comunque, bel colpo da parte di Google, anche se Microsoft ha tutti gli sviluppatori nel suo editor. Google brings Stack Overflow’s knowledge base to Gemini for Google Cloud | TechCrunch Developer Q&A site Stack Overflow is launching a new program today that will give AI companies access to its knowledge base through a new API, aptly TechCrunchFrederic Lardinois Queste mosse non riguardano sono Stack Overflow, ma anche Reddit, Automattic (WordPress), e ne seguiranno altri. > Della serie.. se non puoi "combatterla", almeno puoi guadagnare "qualcosa". -------------------------------------------------------------------------------- LA GENERAZIONE VIDEO DI SORA Prompt per Sora: "fly through tour of a museum with many paintings and sculptures and beautiful works of art in all styles". Un esempio di generazione video con SORA Il video è stato pubblicato da Tim Brooks di OpenAI. È spettacolare (molto!), ma si possono notare diverse incoerenze spaziali e fisiche. Questo ci riporta sempre alla natura di questi sistemi: producono output senza possedere una sorta di "buon senso" o contatto con delle regole solide e condivise. Ecco perché spesso parlo di sistemi neuro-simbolici, come proiezione verso il futuro dell'AI. -------------------------------------------------------------------------------- GENERAZIONE DI IMMAGINI REAL-TIME In ambito di evoluzione dell'AI generativa, spesso parlo di "real-time". > Utopia fino a qualche mese fa, ma quasi realtà oggi. Questa è l'interfaccia di Freepik: viene digitato il prompt e la generazione avviene con lo scroll della pagina. Sembra un sistema di "lazy loading", ma in realtà le immagini sono generate in (quasi) real-time. L'interfaccia di generazione immagini di Freepik Potenzialmente, potremo arrivare a generare gli elementi di una pagina web nel tempo di caricamento della pagina stessa, con una capacità di personalizzazione incredibile. -------------------------------------------------------------------------------- CORSO: PROMPT ENGINEERING PER LLAMA 2 Ho fatto il corso dedicato al Prompt Engineering per Llama 2 di DeepLearning.ai (la piattaforma di Andrew Ng). È una risorsa interessante per chi vuole approfondire il modello e per chi è "a secco" di concetti come Zero-Shot prompting, In-Context (o Few-Shot) prompting e Chain-of-Thought prompting. Che sono concetti utili per tutti i modelli di linguaggio! IL CORSO SU LLAMA 2 DLAI - Prompt Engineering with Llama 2 Introduction · Overview of Llama Models · Getting Started with Llama 2 · Multi-turn Conversations · Prompt Engineering Techniques · Comparing Different Llama 2 models · Code Llama · Llama Guard · Walkthrough of Llama Helper Function (Optional) · Conclusion DLAI - Learning Platform Due aspetti mi hanno reso felice. * Il modulo sul prompt engineering del nostro corso dell'Accademia è estremamente più approfondito, con esempi molto più concreti ed evoluti. AI per Agenzie e Team Digital | III edizione: Seminario a cura di Alessio Pomaro Un Seminario verticale sull’AI per Agenzie e Team Digital condotto da Alessio Pomaro. L’Accademia di Search On presenta la formazione professionale per i Senior del Futuro Accademia * Nel corso viene espresso un concetto che anch'io curo nel programma, ovvero l'importanza di considerare il prompt engineering un ciclo di test, valutazione e ottimizzazione, che permette di rendere il modello e il prompt un asset per l'automazione dei flussi aziendali. -------------------------------------------------------------------------------- TEST DI STABLE DIFFUSION 3 Come se la cava Stable Diffusion 3 nei confronti dei più noti Midjourney V6 e DALL-E 3? Egregiamente, direi.. e forse con una capacità maggiore di rispettare i dettagli espressi nel prompt. Esempi di immagini generate usando Stable Diffusion 3 Nel post che segue, è possibile consultare il test completo, basato su diversi prompt. Did Stable Diffusion 3 Just Beat Midjourney V6 and Dall-E3? I compared the image results of Stable Diffusion 3, Midjourney V6, and Dall-E 3 using similar prompts. Which image generator stands out? Generative AIJim Clyde Monge -------------------------------------------------------------------------------- SPOT TV GIAPPONESE REALIZZATO CON L'AI GENERATIVA Sapevamo che sarebbe accaduto. Questo spot trasmesso dalla TV giapponese è generato da un modello di AI. > Provando a ricreare la stessa situazione usando Runway, ad esempio, diciamo > che si può ottenere una base di partenza da editare in qualche minuto. Spot della TV giapponese realizzato attraverso l'AI generativa Per quanto possa piacere o meno, questi sistemi miglioreranno enormemente nei prossimi mesi, e si arriverà a ottenere questo risultato direttamente dalla diffusione. Ovvero, arriveremo ad ottenere dai modelli dei video contenenti prodotti specifici, con maggior controllo sul processo generativo. -------------------------------------------------------------------------------- L'EVOLUZIONE DELL'ELABORAZIONE AUDIO-VIDEO Il sistema voce + lip sync di Pika e EMO (Emote Portrait Alive) di Alibaba sono due dimostrazioni efficaci di quanto stia crescendo l'elaborazione video ad opera dell'AI generativa. È solo il primo sprint, ma nei prossimi mesi prepariamoci a funzionalità e qualità importanti. * Pika permette di generare video da prompt multimodale con voce e labbra sincronizzate dei soggetti. * EMO, trasforma un'immagine in un video con il soggetto che può parlare.. addirittura cantare una canzone. Esempi di applicazione di EMO (Emote Portrait Alive) di Alibaba > I risultati non sono ancora perfetti, ma le potenzialità sono chiarissime > (come i rischi). -------------------------------------------------------------------------------- L'INNOVAZIONE SPESSO INIZIA DEL GIOCO! Come già visto in passato per l'AI, l'innovazione spesso inizia del gioco. Google DeepMind presenta Genie, un modello che riesce a creare dei "mondi giocabili" da immagini sintetiche, fotografie o "schizzi". Genie: Generative Interactive Environments We introduce Genie, the first generative interactive environment trained in an unsupervised manner from unlabelled Internet videos. The model can be prompted to generate an endless variety of action-controllable virtual worlds described through text, synthetic images, photographs, and even sketches. At 11B parameters, Genie can be considered a foundation world model. It is comprised of a spatiotemporal video tokenizer, an autoregressive dynamics model, and a simple and scalable latent action model. Genie enables users to act in the generated environments on a frame-by-frame basis despite training without any ground-truth action labels or other domain-specific requirements typically found in the world model literature. Further the resulting learned latent action space facilitates training agents to imitate behaviors from unseen videos, opening the path for training generalist agents of the future. arXiv.orgJake Bruce > Sembra inutile.. ma in realtà è una base per l'addestramento di modelli > generalisti, andando a simulare uno spazio d'azione coerente. Esempi di realizzazioni di Genie di Google DeepMind -------------------------------------------------------------------------------- - GRAZIE - Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre persone, condividilo 🙂 ISCRIVITI ALLA NEWSLETTER Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su tematiche relative all'intelligenza artificiale. Iscriviti alla Newsletter Email sent! Check your inbox to complete your signup. Gratuita. No Spam. Puoi disiscriverti quando vuoi.Consulta la privacy policy.

April 3, 2024 / Alessio Pomaro

Generative AI: novità e riflessioni - #2 / 2024

Una rubrica che racconta le novità più rilevanti che riguardano l'Intelligenza Artificiale, con qualche riflessione. > Buon aggiornamento, > e buone riflessioni.. -------------------------------------------------------------------------------- AI GENERATIVA, TRA PASSI DA GIGANTE E PASSI "FALSI" Il mio intervento all'AI Festival 2024. > Le nostre vite sono sempre più basate sul digitale e su algoritmi di > intelligenza artificiale.. ed è fondamentale conoscere i pilastri che ci > sosterranno. > Dobbiamo essere ottimisti verso il futuro con l'AI a bordo, perché non capita > spesso di avere l’opportunità di trasformare la realtà intorno a noi in > maniera così radicale. In questa prima edizione di AI Festival (14 e 15 febbraio) abbiamo esplorato insieme i trend presenti e futuri dell’Intelligenza Artificiale, le sue applicazioni nel mondo dell’imprenditorialità innovativa, il suo contributo concreto alla sostenibilità e all’inclusione, coinvolgendo professionisti, istituzioni, cittadini, aziende e startup. Oltre 6.000 presenze hanno condiviso due giorni di formazione, business meeting e scoperta, grazie alla convergenza di realtà e competenze differenti, riunite con un obiettivo comune: costruire un Futuro migliore. -------------------------------------------------------------------------------- TRASCRIVERE E TRADURRE PODCAST E FILE AUDIO CON WHISPER DI OPENAI Possiamo farlo con poche righe di codice (anche senza essere esperti di programmazione). [RISORSA GRATUITA] Facendo una copia di questo Colab, basterà caricare un file audio ed eseguire i comandi. Google Colaboratory > Gli strumenti open source a disposizione diventano sempre più semplici da > usare e da integrare. -------------------------------------------------------------------------------- OPENAI PRESENTA SORA In arrivo Sora, un modello dedicato ai video targato OpenAI. Si tratta di un modello di diffusione, e può generare video dalla durata massima di 1 minuto, in cui viene mantenuta la coerenza. Sora: Creating video from text Non solo Text-To-Video, ma anche Image-To-Video, con un'attenzione alla simulazione del mondo reale in termini di "dinamica". La qualità dei primi video condivisi è degna di nota, anche se sono quelli di presentazione. Dovremo testarlo, ma sembra un ottimo inizio. > I modelli generativi migliorano di giorno > in giorno, diventando risorse sempre più vicine all'utilizzo professionale. Esempi di generazione video attraverso SORA di OpenAI -------------------------------------------------------------------------------- TEST DI MISTRAL LARGE Ho provato il nuovo modello (nella versione Large), e.. mi ha colpito molto. Nel tempo ho messo a punto un mio personale benchmark, orientato ad attività di automazione, e task per i quali uso regolarmente i modelli generativi (soprattutto via API). Si tratta di prompt anche molto articolati, dove la qualità e il formato dell'output (precisione) sono determinati. Test di Mistral Large Mistral Large è davvero impressionante. Laddove Gemini Ultra 1.0 ha fallito in modo evidente, questo nuovo modello ha creato output paragonabili a GPT-4. Nessun altro LLM, fino a questo momento, era riuscito a "comprendere" determinate istruzioni in modo corretto, ad eccezione di GPT-4 e Claude 2. > Attualmente, potrei sostituire l'API di GPT-4 con quella di Mistral senza > particolari accorgimenti, e con costi inferiori a quelli della versione Turbo > di OpenAI. Al contrario dei precedenti modelli di Mistral, i nuovi non sono open source! Sono utilizzabili via API dagli endpoint di Mistral e Azure di Microsoft (con una partnership pluriennale - non esclusiva - annunciata). Mossa stellare di Microsoft, verso la diversificazione dei modelli nel suo cloud e la porta spalancata in Europa. Anche se, secondo me, il modello comparirà velocemente su AWS e anche su Google Cloud. Au Large Mistral Large is our flagship model, with top-tier reasoning capacities. It is also available on Azure. Frontier AI in your handsMistral AI -------------------------------------------------------------------------------- L'EVOLUZIONE DI GEMINI DI GOOGLE: QUALCHE RIFLESSIONE Un piccolo viaggio e qualche riflessione per fare chiarezza nel grande caos che sta generando Google nella sua (rin)corsa per la leadership dell'AI Generativa. > Da Bard a Gemini.. test e confronti con il mondo OpenAI, fino alla domanda: > "quanti utenti manterranno Gemini Advanced dopo i due mesi di prova?". L’evoluzione di Gemini di Google: qualche riflessione Un piccolo viaggio e qualche riflessione per fare chiarezza nel grande caos che sta generando Google nella sua (rin)corsa per la leadership dell’AI Generativa. Alessio PomaroAlessio Pomaro -------------------------------------------------------------------------------- VOCE E LIP SYNC NEI VIDEO GENERATI DALL'AI CON PIKA Pika introduce voce e Lip Sync per i video generati. Non sono perfetti, ma è l'inizio di una nuova possibilità abilitata dall'AI. La voce viene generata attraverso un modello di ElevenLabs. Voce e Lip Sync nei video generati con Pika -------------------------------------------------------------------------------- COME FUNZIONA UN SISTEMA RAG? Proviamo a capirlo in modo semplice. * Ho caricato in un database vettoriale (Pinecone) una base di conoscenza (file PDF). * I contenuti vengono divisi in parti (chunk), e vengono vettorializzati usando un modello di embeddings di OpenAI. * I vettori sono sequenze numeriche che rappresentano un testo, e vengono generati dal LLM. * L'aspetto interessante dei vettori è che le sequenze numeriche conservano il significato semantico del testo. * Quindi, come avviene la ricerca di risposte nella base di conoscenza? * La domanda che l'utente pone al sistema viene vettorializzata, e il vettore viene confrontato con quelli nel database vettoriale (una query nel DB). * Il risultato della query è una lista di chunk. Il testo in quei chunk diventa il contesto per il LLM. * Il LLM, elaborando quel contesto, riesce a dare una risposta in linguaggio naturale all'utente. Il tutto in qualche secondo. > Tutto questo è estremamente affascinante e pur conoscendo le dinamiche, rimane > sempre incredibile. Uno schema per comprendere meglio la natura di un sistema RAG -------------------------------------------------------------------------------- LARGE WORLD MODEL (LWM) Dal mondo open source arriva una nuova "bomba", dal laboratorio di ricerca sull'AI di Berkeley: Large World Model (LWM), una famiglia di modelli multimodali che lavorano in un ampio contesto. Possono generare testo, immagini e video, con un contesto fino a 1M di token. Il cuore del sistema è definito "RingAttention", un processo che ottimizza il meccanismo di "attenzione" per sequenze lunghe. LWM batte Gemini Pro nel recupero di informazioni (test dell'ago nel pagliaio) e si allinea a GPT-4. > Contesti enormi e precisione elevata sono obiettivi ormai raggiunti, con > tecniche evolute e affascinanti. Ma l'effort di inferenza si alzano? Da > capire. -------------------------------------------------------------------------------- GEMINI SOSTITUIRÀ GOOGLE ASSISTANT? Con "Hey Google" oggi ci si rivolge a Gemini. E diventa sempre più chiara la vera forza di Google in ambito di AI Generativa: l'integrazione nel suo vasto ecosistema. Ho installato l'app mobile di Gemini e va direttamente a sostituire Assistant, con relativi comandi vocali. Una potente funzionalità riguarda l'interazione con i contenuti dello schermo, che diventano un contesto per il modello di linguaggio. Nell'esempio si vede come l'assistente sintetizzi una pagina web, ma può rispondere a domande, generare altri contenuti, ecc.. Mi aspettavo l'integrazione diretta con Lens, ma arriverà. Durante il Search Marketing Connect 2022 parlai di multimodalità e immaginai la ricerca del futuro.. è esattamente quella che ho fatto realmente oggi con Gemini: "dove posso acquistarla?". Esempi di interazione con Gemini > Sembra che Google, finalmente, stia convogliando i suoi frammenti basati > sull'AI in un riferimento unico per gli utenti. -------------------------------------------------------------------------------- È FINALMENTE ONLINE IL SITO WEB DI STABLE VIDEO! Con una semplice interfaccia è possibile generare video partendo da un prompt testuale e un'immagine, gestendo anche i movimenti della camera. Nel video ho inserito alcune mie creazioni Text-To-Video e altre presentate da Stability AI. Stable Video | Generate Videos with AI Create videos with text or image, turning your concepts into captivating cinematics. Stable Video Dire che la qualità aumenta, ormai credo sia superfluo. Esempi di generazione video di Stable Video -------------------------------------------------------------------------------- LA CRESCITA DI NVIDIA E DEL CONSUMO DI GPU PER INFERENZA Il vero gigante dell'AI? Nvidia, che non scorge ancora competitor concreti all'orizzonte. > Il 40% dei carichi di lavoro dei data center che utilizzano GPU Nvidia sono > stati consumati per inferenza. > - Colette Kress, executive VP Nvidia. Si tratta di un cambiamento drammatico rispetto all’inizio del 2023, quando la maggior parte della capacità della GPU era dedicata al training dei modelli. Questo significa che le applicazioni utente presto consumeranno la maggior parte del carico. La crescita di Nvidia -------------------------------------------------------------------------------- AI ASSISTANT DI ADOBE Come dicevamo.. ogni software, ogni piattaforma, ogni CMS integrerà funzionalità basate sull'AI Generativa. Adobe lancia AI Assistant per interagire con i documenti che vengono aperti su Reader e Acrobat. Riassunti, risposte a domande sui contenuti, citazioni, navigazione semplificata, ecc.. > Se creiamo servizi senza un valore aggiunto strategico, le piattaforme li > spazzeranno via con uno schiocco di dita. Adobe AI Assistant -------------------------------------------------------------------------------- LA MULTIMODALITÀ DI GEMINI 1.5 PRO Il lavoro sulla multimodalità di Google su Gemini 1.5 Pro è impressionante. Nel test, gestisce il recupero di un'informazione in 22 ore di audio (senza trascrizione) con una precisione del 100%. Sul confronto della stessa attività sull'audio trascritto di GPT-4 Turbo ho dei dubbi. Il confronto è con una tecnologia che ormai ha 2 anni (lo rifaremo su GPT-5?). E non mi è chiara la modalità di recupero, visto che il contesto di GPT-4 Turbo è inferiore. Anche i test sui video lasciano sbalorditi. La multimodalità di Gemini Pro 1.5 -------------------------------------------------------------------------------- STABLE DIFFUSION 3 Stability AI annuncia Stable Diffusion 3, con performance migliorate nei prompt multi soggetto, nella qualità e nella capacità di generare testo nelle immagini. Il sistema combina un'architettura Diffusion Transformer e Flow Matching. Nelle immagini è possibile vedere un confronto di due immagini che ho generato con Dall-e 3 con lo stesso prompt. Confronto tra Stable Diffusion 3 e Dall-e 3 -------------------------------------------------------------------------------- GEMMA: IL NUOVO MODELLO OPEN SOURCE DI GOOGLE Qualche test di classificazione con Gemma, il nuovo LLM open source di Google che usa la stessa architettura di Gemini. Gemma: una nuova famiglia di modelli aperti Noi di Google crediamo nel rendere l\u0026#x27\u003Bintelligenza artificiale utile per tutti. Abbiamo una lunga storia di contributi innovativi alla comunità aperta, come con Tran… GoogleTris Warkentin Si tratta della versione più piccola, la 2b, ma è disponibile anche la versione 7b. I modelli di piccole dimensioni possono essere soluzioni interessanti. Per classificazione, labeling, fine tuning, in combinazione a modelli più grandi per l'elaborazione di un contesto, per applicazioni su dispositivi a performance ridotte. Test di Gemma 2b di Google -------------------------------------------------------------------------------- COS'È GROQ? Groq è una nuova interfaccia che permette di usare un modello open source (Mixtral 8x7B o Llama 2 70B) a una velocità notevole (500 token/secondo). La velocità è possibile grazie a una tecnologia personalizzata definita Tensor Streaming Processor (TSP), che utilizza un'architettura LPU (Linear Processor Unit). > Nuova concorrenza per le GPU Nvidia? Un test di Mixtral 8x7B su Groq -------------------------------------------------------------------------------- EFFETTI AUDIO PER I VIDEO GENERATI [sound ON] ElevenLabs annuncia AI Sound Effect, un sistema in grado di applicare i suoni a un video in base a un prompt testuale. L'hanno testato sui video generati da Sora, e questo è il risultato. Gli effetti audio di ElevenLabs generati automaticamente da un algoritmo Dal punto di vista sperimentale è qualcosa di straordinario. Se questo è l'output diretto del modello già in questa fase, si aprono davvero nuovi scenari. -------------------------------------------------------------------------------- PERCHÉ LA GENERAZIONE DI IMMAGINI E VIDEO ATTRAVERSO L'AI GENERATIVA HA ANCORA POCHI UTILIZZI INTERESSANTI PER LE AZIENDE? ..se non per blog, post social, elementi creativi. Il motivo? I modelli sono straordinari e generano output di una qualità impressionante, ma non sono in grado di rappresentare prodotti o elementi specifici del brand. Per ottenere questo tipo di lavorazione, serve andare in profondità e usare i modelli in flussi che permettono di gestire con un dettaglio elevato il condizionamento della diffusione. Nelle immagini si vedono alcuni esempi di generazione Text-To-Image, Image-To-Image e inpainting attraverso Stable Diffusion, e gestiti in flussi di ComfyUI. Esempi di flussi di lavoro di ComfyUI Agendo su questi flussi, aggiungendo e modificando i nodi (es. usando LoRA, ControlNet, gligen, ecc.), è possibile gestire e personalizzare la diffusione in modo da ottenere un output preciso e customizzato. > Forse è più chiaro il motivo per cui non basta un prompt testuale per > lavorare, ad esempio, sui prodotti di un e-commerce. -------------------------------------------------------------------------------- COMFYUI: ANIMATEDIFF + CONTROLNET Un esempio di generazione video ottenuta con un flusso ComfyUI usando AnimateDiff e ControlNet, partendo da un video in input. È perfetto? No. Ma le implicazioni di questi sistemi dal punto di vista della personalizzazione della comunicazione saranno impressionanti. -------------------------------------------------------------------------------- COME FUNZIONA SORA DI OPENAI? Una spiegazione semplice del paper. * Il sistema lavora sui dati visivi trasformandoli in dati più semplici (spazio latente). * I dati dello spazio latente vengono suddivisi in piccole parti (patch), come fossero i pezzi di un puzzle. * Durante il training, il modello impara a riconoscere il contenuto delle patch, e a prevedere come dovrebbero essere le patch "pulite" partendo da patch "rumorose" (diffusione). * Quando riceve un prompt testuale o un'immagine in input, Sora mette insieme i pezzetti del puzzle per rappresentare la richiesta partendo da una combinazione casuale. * Infine, le patch generate vengono combinate e trasformate in un video visibile. È davvero straordinario pensare a cosa accade "dietro le quinte" quando siamo difronte all'output. Video generation models as world simulators We explore large-scale training of generative models on video data. Specifically, we train text-conditional diffusion models jointly on videos and images of variable durations, resolutions and aspect ratios. We leverage a transformer architecture that operates on spacetime patches of video and image latent codes. Our largest model, Sora, is capable of generating a minute of high fidelity video. Our results suggest that scaling video generation models is a promising path towards building general purpose simulators of the physical world. -------------------------------------------------------------------------------- IL PRESENTE E IL FUTURO DELL'INTELLIGENZA ARTIFICIALE Nell'ultimo numero di PROMPT Magazine, è presente un bellissimo articolo su AI Festival. Sono onorato di far parte di quei "visionaries behind the event", insieme a tutto il team di Search On Media Group. Nell'articolo c'è anche una lunga intervista che ho avuto il piacere di fare, insieme a Cosmano Lombardo, Giorgio Taverniti e Marco Quadrella. L'intervista su PROMPT Magazine L'articolo completo: https://promptmagazine.it/ai-festival-2024 -------------------------------------------------------------------------------- META PRESENTA V-JEPA Tra tutte le novità degli ultimi giorni in ambito video, Meta presenta V-JEPA. Come funziona? Spiegazione semplificata. * In fase di addestramento, vengono sottoposti al sistema dei video senza etichette (nessuno descrive cosa contengono). * Durante questo processo, vengono nascoste delle parti dei video, e il modello deve cercare di completare quelle parti. * Questo processo permette a V-JEPA di "comprendere" meglio i video, imparando, ad esempio, come si muovono gli oggetti e come interagiscono. * Il sistema non lavora su tutti i pixel, ma riesce a mettere "attenzione" nelle parti più importanti delle informazioni visive. Questo lo rende più efficiente, perché ignora le parti irrilevanti. * Una volta addestrato, diventa abile nel riconoscere elementi specifici nei video. Ad esempio se una persona sta correndo (senza che nessuno glie l'abbia insegnato). > È come un bambino che impara osservando il mondo. Immaginiamo le implicazioni di queste evoluzioni nella visione artificiale. V-JEPA: The next step toward advanced machine intelligence We’re releasing the Video Joint Embedding Predictive Architecture (V-JEPA) model, a crucial step in advancing machine intelligence with a more grounded understanding of the world. -------------------------------------------------------------------------------- NON SONO CHIARE LE "REGOLE DEL GIOCO": QUESTO È UN PROBLEMA Il giudice, in questo caso, si basa sull'output del modello. Ma per i LLM, la vedo abbastanza dura. Nella causa del New York Times hanno lavorato non poco per far generare a GPT-4 del testo uguale a un articolo da presentare come prova. E l'articolo era datato. Quindi i dati possono essere usati per il training a patto che non producano output identici? Ma ci rendiamo conto di quanto sia improbabile? Oppure viene punito chi rende pubblico quel contenuto (questo vale anche senza ChatGPT o simili). > Ci rendiamo conto che servono nuove riflessioni dedicate a questa nuova era > tecnologica!? Perché dobbiamo aspettare delle sentenze per avere delle linee > guida!? Reuters: OpenAI gets partial win in authors' US copyright lawsuit -------------------------------------------------------------------------------- GRAPHRAG DI MICROSOFT Era abbastanza chiaro, ma ora sta diventando concreto: i Knowledge Graph possono migliorare le performance dei sistemi RAG (Retrieval-Augmented Generation). Microsoft lancia GraphRAG, un sistema che genera il Knowledge Graph dal set di dati, e lo sfrutta per migliorare i risultati del modello di linguaggio. La risposta non deriva dalla similarità vettoriale, ma da entità e relazioni. GraphRAG: A new approach for discovery using complex information Microsoft is transforming retrieval-augmented generation with GraphRAG, using LLM-generated knowledge graphs to significantly improve Q&A when analyzing complex information and consistently outperforming baseline RAG. Get the details. Microsoft ResearchBrenda Potts -------------------------------------------------------------------------------- CHAT WITH RTX DI NVIDIA Nvidia ha lanciato "Chat with RTX", un sistema in grado di implementare un sistema RAG (Retrieval-Augmented Generation) su una knowledge custom e un LLM open source (es. Llama, Mixtral). Funziona in locale, su Windows, con una GPU RTX 30/40, e grazie a TensorRT-LLM accelera notevolmente l'inferenza del LLM. > Un'anticipazione di una funzionalità dei PC del futuro? Chat with RTX di Nvidia -------------------------------------------------------------------------------- UNA MEMORIA PER CHATGPT OpenAI lancia la memoria per ChatGPT: un sistema che memorizza informazioni dalle chat per ottenere benefici nelle conversazioni successive. È una funzionalità interessante: in pratica, funziona come un prompt di sistema in continua evoluzione. Ma per che tipo di utilizzo? Per un utilizzo professionale io preferisco avere il controllo completo delle istruzioni e del contesto per pilotare esattamente il comportamento. Sarà comunque gestibile ed escludibile. Memory and new controls for ChatGPT We’re testing the ability for ChatGPT to remember things you discuss to make future chats more helpful. You’re in control of ChatGPT’s memory. -------------------------------------------------------------------------------- UN CONFRONTO TRA UN ASSISTANT DI OPENAI E UN SISTEMA RAG BASATO SU LANGCHAIN Un confronto tra un agente realizzato con un "Assistant" di OpenAI con retrieval, e uno basato su LangChain + GPT4 Turbo + text-embeddings-3 + Chroma. La knowledge è identica, il system prompt è molto simile.. e le risposte sono ottime in entrambi i sistemi. > Se OpenAI renderà più flessibile e configurabile questa modalità di sviluppo, > credo che diventerà una delle soluzioni di riferimento per il concetto di RAG > (Retrieval-Augmented Generation). Un confronto tra un Assistant di OpenAI e un sistema RAG basato su LangChain -------------------------------------------------------------------------------- LE "RUN INSTRUCTIONS" DI OPENAI Un esempio di personalizzazione della risposta dell'Assistant di OpenAI in base al tipo di utente. Grazie alle "run instructions" possiamo fornire istruzioni di contesto per ottenere un'esperienza personalizzata in base ai dati dell'utente. La knowledge per il "retrieval" rimane fissa, ma via API possiamo variare il comportamento dell'assistente anche per ogni interazione.. ad esempio anche in base al sentiment della risposta. Le "run instructions" di OpenAI -------------------------------------------------------------------------------- L'EVOLUZIONE DELL'AI (PODCAST) > La tecnologia che conosciamo oggi, nonostante l'aumento dell'efficienza alla > quale stiamo assistendo, sarà sufficiente per progredire verso uno step > successivo di sviluppo dell'AI? Oppure avremo bisogno di nuove intuizioni? E > quali altri ingredienti dovremo mettere in campo? Ascolta l'episodio di "Revel-AI: Sveliamo i segreti dell'Intelligenza Artificiale". -------------------------------------------------------------------------------- UN TEST USANDO LANGCHAIN, GPT-4 TURBO E CHROMA LangChain con GPT4 Turbo, i nuovi modelli di embeddings (text-embedding-3-large) di OpenAI, e Chroma come db vettoriale. Un test su una directory di documenti sul mondo del running, in modalità "retrieval" + LLM. Come funzionano questi sistemi? * I documenti vengono suddivisi in blocchi. * I blocchi vengono vettorializzati (embeddings) e indicizzati nel db vettoriale. * Le query degli utenti vengono vettorializzate e diventano la base per una ricerca semantica nel db. * I blocchi risultanti dalla ricerca vengono elaborati dal LLM (nel mio caso anche con prompt custom) e diventano una risposta per l'utente. I risultati a volte sono sbalorditivi, ma credo che ci siano margini di miglioramento enormi dal punto di vista tecnologico, e sistemi come "Activation Beacon" lo dimostrano. Un test usando LangChain, GPT-4 Turbo e Chroma -------------------------------------------------------------------------------- LA RIVOLUZIONE DI YOUTUBE CON L'AI GENERATIVA Come YouTube sta rivoluzionando il lavoro dei creator sfruttando l'AI generativa? 1. YouTube Create. Permetterà di manipolare facilmente le clip, migliorare la qualità audio, abbinare le clip ai ritmi dell'audio. 2. Dream Screen. Genererà sfondi animati attraverso prompt testuali. 3. Strumento di ispirazione. In arrivo in YouTube Studio: analizza i dati del canale e suggerisce argomenti e strutture video. 4. Strumento di doppiaggio (Aloud). Permetterà di doppiare i video in altre lingue in pochi clic. 5. Creator Music. Un aggiornamento del tool aggiungerà la ricerca del sound in linguaggio naturale. > In pratica si va verso un assistente alla > creazione sempre a disposizione Made On YouTube: Empowering anyone to Create on YouTube Learn about YouTube’s latest AI-powered tools designed to push the boundaries of creativity, from generative AI backgrounds to insights to spark your next video ideas. YouTube Official BlogToni Reid -------------------------------------------------------------------------------- MITIGAZIONE DEI BIAS STEREOTIPATI NEI MODELLI GENERATIVI DEDICATI ALLE IMMAGINI Runway pubblica uno studio davvero interessante. Il concetto è semplice: hanno bilanciato il dataset di training attraverso dati artificiali in un'operazione definita Diversity Fine Tuning. Come risultato, la metrica di equità relativa al colore della pelle percepito è migliorata del 150%. Quella relativa al genere percepito è migliorata del 97.7%. > Ottimi risultati, ma serve qualcosa di più sistematico di un fine tuning. I > sistemi neuro-simbolici potrebbero essere interessati come proiezione verso il > futuro. Mitigating stereotypical biases in text to image generative systems | Runway Research Reimagining creativity with artificial intelligence. Runway Research -------------------------------------------------------------------------------- L'INTELLIGENZA ARTIFICIALE NON È LA SOLUZIONE A TUTTI I PROBLEMI > Impugnando un martello (AI generativa), > tutto inizia a sembrare un chiodo. Invece di chiederti come usare l'intelligenza artificiale generativa in azienda, chiediti cosa devi realizzare. L'AI può aiutare a esplorare, prevedere, ottimizzare e consigliare.. ma non è la soluzione per tutti i problemi. Find the AI Approach That Fits the Problem You’re Trying to Solve AI moves quickly, but organizations change much more slowly. What works in a lab may be wrong for your company right now. If you know the right questions to ask, you can make better decisions, regardless of how fast technology changes. You can work with your technical experts to use the right tool for the right job. Then each solution today becomes a foundation to build further innovations tomorrow. But without the right questions, you’ll be starting your journey in the wrong place. Harvard Business ReviewGeorge Westerman, -------------------------------------------------------------------------------- UN CONFRONTO TRA MODELLI Un confronto tra output di diversi LLM: GPT4, GPT-3.5, Gemini Plus, Claude 2, Llama2 70b, Mixtral 8x7b (input identico). Il task è molto semplice: l'analisi di una recensione. Le risposte sono molto simili: le sfumature nell'estrazione dei topic derivano da diverse letture del contesto, ma hanno tutti senso. > Per operazioni semplici e ricorrenti, i modelli open source eseguiti > localmente o su istanze private possono essere una risposta di valore. Un confronto tra diversi modelli di linguaggio -------------------------------------------------------------------------------- EAGLE 7B: UN NUOVO MODELLO OPEN SOURCE Eagle 7B è un nuovo attore nel mondo degli LLM open source, che presenta un'architettura innovativa. Si discosta dalle tradizionali strutture dei Transformer, optando per un design basato su RNN. Risultato: riduce significativamente i costi di inferenza di un fattore 10 - 100. Il modello eccelle nei benchmark multilingua, surclassando tutti i modelli della stessa categoria, e avvicinandosi all'abilità di Falcon, Llama 2 e Mistral. > L'evoluzione dei modelli è anche "efficienza". 🦅 Eagle 7B : Soaring past Transformers with 1 Trillion Tokens Across 100+ Languages (RWKV-v5) A brand new era for the RWKV-v5 architecture and linear transformer’s has arrived - with the strongest multi-lingual model in open source today RWKV Open Source Development BlogEugene Cheah -------------------------------------------------------------------------------- OPENAI USERÀ I METADATI C2PA PER LE IMMAGINI GENERATE OpenAI ha annunciato di aver integrato i metadati C2PA nelle immagini generate con DALL-E 3. Infatti è già attivo (un esempio nelle immagini che seguono). Tuttavia mi chiedo a cosa serva.. di certo sono passi in avanti, e lo standard si sta diffondendo, ma facciamo sicurezza con scudi di carta!? Ok, ok.. c'è aria di campagna elettorale e serve per dire: "stiamo combattendo la disinformazione". Ma è chiaro che serve ben altro. Serve un'azione condivisa a livello globale, e ricerca tecnologica per soluzioni più evolute. > Inoltre ora DALL-E 3 genera immagini WebP.. perché!? Chiaramente basta convertire l'immagine in qualunque altro formato, o editarla nel modo più semplice che si conosca.. e i metadati li salutiamo. Metadati C2PA nelle immagini generate da DALL-E 3 -------------------------------------------------------------------------------- STYLE REFERENCES DI MIDJOURNEY Midjourney può replicare lo stile di un'immagine? Sì, con diversi metodi e comportamenti. I metodi sono: l'utilizzo del parametro con "Style References" o il prompt multimodale. > Uso di Style References: /imagine prompt: your prompt --sref --v 6 Midjourney: Getting Started with Style References Style References (V6 & Niji 6) vs. Image Prompting. Its effects on aspect ratio, medium, stylization, and text generation. BootcampGeeky Animals -------------------------------------------------------------------------------- UNA RIFLESSIONE SULL'AI ACT L'AI ACT è un ottimo inizio di un processo di consapevolezza. La strada è giusta, ma non basterà. Serviranno politiche a supporto dello sviluppo delle tecnologie e dell'attrazione dei talenti. Non basterà trattare la compliance delle PMI. L'Europa forma più ricercatori ed esperti di USA e Cina, ma gli investimenti di venture capital hanno la direzione contraria. > Abbiamo il talento, ma non può svilupparsi. Inoltre, l'Europa riuscirà ad esportare le sue "regole" senza dare il buon esempio? Governance, non significa solo regolamentazione. Forse (e me lo auguro) servirà anche giocare la partita, non solo regolarla. -------------------------------------------------------------------------------- OPEN LANGUAGE MODEL (OLMO) Open Language Model (OLMo) è un modello open source aperto in ogni elemento: dati di training, codice e pesi del modello. Questi sono passi avanti per quanto riguarda la ricerca che in ambito dell'AI. Ma è chiaro che il rafforzamento della governance è sempre più necessario. OLMo - Open Language Model by AI2 OLMo is a series of Open Language Models designed to enable the science of language models. The OLMo models are trained on the Dolma dataset. Open Language Model by AI2 -------------------------------------------------------------------------------- HUGGING FACE ASSISTANTS: UN'ALTERNATIVA AI GPTS Un'alternativa open source a ChatGPT e ai suoi GPTs? Ci pensa Hugging Face. Attraverso Hugging Chat è possibile interagire con un'interfaccia molto simile a ChatGPT scegliendo anche il LLM da usare (es. Llama 2 e Mixtral). HuggingChat Making the community’s best AI chat models available to everyone. Nella sezione Assistants si può trovare lo "store" e creare un Assistant personalizzato (come un GPT). HuggingChat - Assistants Browse HuggingChat assistants made by the community. Assistants Quali sono i deficit? 1. I modelli sono meno potenti di GPT-4: non aspettiamoci la stessa risposta ai system prompt che usiamo per i GPTs, soprattutto se progettiamo l'interattività tra utente e assistente. 2. Non ha "Vision". 3. Non ha un generatore di immagini. 4. Non ha un "code interpreter". 5. Non è possibile caricare una knowledge. Per le elaborazioni di testo è un'ottima alternativa. Hugging Face Assistants: un'alternativa ai GPTs -------------------------------------------------------------------------------- IMMAGINI LIFESTYLE USANDO STABLE DIFFUSION XL Un esempio di personalizzazione delle immagini attuabile in un e-commerce usando l'AI Generativa. Ho generato le immagini "lifestyle" dei prodotti via API sfruttando Stable Diffusion XL. Con un prompt testuale viene generato il background, e il prodotto viene inserito all'interno. Questo può essere interessante per personalizzazioni che seguono la stagionalità e le ricorrenze, ma anche per rendere più efficaci alcune campagne (advertising). Stable Diffusion XL: immagini "lifestyle" -------------------------------------------------------------------------------- L'AI GENERATIVA SU GOOGLE MAPS Google integra l'AI Generativa su Maps, per rispondere a richieste evolute che vanno anche oltre a indirizzi e luoghi. Il concetto è semplice: i risultati di una ricerca semantica producono un contesto, il quale viene gestito da un LLM per dare risposte. I modelli generativi sono sempre più parte della ricerca online. A new way to discover places with generative AI in Maps We’re incorporating generative AI in Maps, to help you discover things to do. Select U.S. Local Guides begin testing the feature this week. GoogleMiriam Daniel -------------------------------------------------------------------------------- RUFUS: IL NUOVO ASSISTENTE VIRTUALE DI AMAZON Amazon lancia Rufus, un assistente virtuale basato sull'AI generativa per guidare i clienti nella scelta dei migliori prodotti. È addestrato su tutta la conoscenza della piattaforma (su prodotti, clienti e community) e presente nel web. Probabilmente siamo di fronte a una nuova era nello sviluppo degli assistenti conversazionali. Amazon announces Rufus, a new generative AI-powered conversational shopping experience With Rufus, customers are now able to shop alongside a generative AI-powered expert that knows Amazon’s selection inside and out, and can bring it all together with information from across the web to help them make more informed purchase decisions. US About AmazonRajiv Mehta, Vice President, Search and Conversational Shopping, Amazon > "Crediamo che l’intelligenza artificiale generativa cambierà praticamente > tutte le esperienze dei clienti che conosciamo" Rufus, l'assistente di Amazon -------------------------------------------------------------------------------- MOONDREAM 1: UN IMPRESSIONANTE VISIONE LANGUAGE MODEL DI PICCOLE DIMENSIONI Un test di Moondream 1, un Vision Language Model di piccole dimensioni (1.6B) costruito utilizzando SigLIP, Phi-1.5 e il set di dati di training di LLaVA. Nel test uso la camera dello smartphone, e il modello descrive in dettaglio la scena. GitHub - vikhyat/moondream: tiny vision language model tiny vision language model. Contribute to vikhyat/moondream development by creating an account on GitHub. GitHubvikhyat Il processo di miglioramento dell'efficienza dei modelli generativi apre scenari davvero interessanti. Un test di Moondream 1 -------------------------------------------------------------------------------- IMAGEN 2 DI GOOGLE SU IMAGEFX Qualche test di Imagen 2 di Google attraverso ImageFX. In prima battuta, il sistema inizia la fase di ottimizzazione del prompt, in cui va anche a riconoscere le entità descritte. Successivamente genera un set di immagini. Ormai la qualità è sottintesa. Imagen 2 è disponibile anche direttamente su Bard (che nel frattempo è diventato Gemini), e include il watermarking di SynthID. Esistono già test che mostrano come prompt generici producono output che potrebbero essere violazioni di copyright.. la questione rimane aperta, ma non c'erano dubbi su questo. Test di Imagen 2 di Google su ImageFX -------------------------------------------------------------------------------- MIDJOURNEY NIJI V6 Midjourney ha rilasciato Niji V6, una versione specifica dedicata agli anime. Niji V6 Starting today we’re testing the Niji V6 model (it’s a version of the model specifically tuned for Eastern / anime aesthetics) Midjourney v6admin Il video mostra un'immagine generata con il modello e animata attraverso Runway Gen 2 da Christopher Fryant. 0:00 /0:03 1× -------------------------------------------------------------------------------- ACTIVATION BEACON: UN SISTEMA PER AUMENTARE IL CONTESTO DEI LLM Activation Beacon è un sistema che permette di estendere (di molto) la finestra di contesto dei LLM. Nei test è stato usato su Llama 2 estendendo la finestra di token di 100 volte (400k token), ottenendo risultati migliori nella generazione e nella "comprensione". In pratica usa una sorta di "riassunto intelligente" in cui condensa le informazioni per "ricordarle" in tutto il contesto esteso. > È come se leggessimo un grosso libro, e per ricordare ogni capitolo durante la > lettura dei successivi usassimo delle sintesi di qualità. Soaring from 4K to 400K: Extending LLM’s Context with Activation Beacon The utilization of long contexts poses a big challenge for large language models due to their limited context window length. Although the context window can be extended through fine-tuning, it will result in a considerable cost at both training and inference time, and exert an unfavorable impact to the LLM’s original capabilities. In this work, we propose Activation Beacon, which condenses LLM’s raw activations into more compact forms such that it can perceive a much longer context with a limited context window. Activation Beacon is introduced as a plug-and-play module for the LLM. It fully preserves the LLM’s original capability on short contexts while extending the new capability on processing longer contexts. Besides, it works with short sliding windows to process the long context, which achieves a competitive memory and time efficiency in both training and inference. Activation Beacon is learned by the auto-regression task conditioned on a mixture of beacons with diversified condensing ratios. Thanks to such a treatment, it can be efficiently trained purely with short-sequence data in just 10K steps, which consumes less than 9 hours on a single 8xA800 GPU machine. The experimental studies show that Activation Beacon is able to extend Llama-2-7B’s context length by $\times100$ times (from 4K to 400K), meanwhile achieving a superior result on both long-context generation and understanding tasks. Our model and code will be available at the BGE repository. arXiv.orgPeitian Zhang -------------------------------------------------------------------------------- - GRAZIE - Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre persone, condividilo 🙂 ISCRIVITI ALLA NEWSLETTER Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su tematiche relative all'intelligenza artificiale. Iscriviti alla Newsletter Email sent! Check your inbox to complete your signup. Gratuita. No Spam. Puoi disiscriverti quando vuoi.Consulta la privacy policy.

February 29, 2024 / Alessio Pomaro

Tag - GPT-3