Blob di C.I.R.C.E.

Tag - Voice Technology

Google I/O in 10 punti chiave e qualche considerazione

Ieri sera abbiamo seguito il tanto atteso Google I/O, e come annunciato, sono state presentate tutte le novità che ruotano attorno all'intelligenza artificiale, in quella che Sundar Pichai ha definito "The Gemini Era".. un'era sempre più multimodale, e sempre più "long context", che mantiene Gemini 1.5 Pro come flagship model. L'evento è stato una lunga carrellata (quasi stordente) di applicazioni rivoluzionarie in cui emerge, ancora una volta, la vera forza di Google: l'integrazione dell'AI generativa in ogni elemento del suo vasto ecosistema. Google I/O 2024: la live completa -------------------------------------------------------------------------------- I 10 ESEMPI CHIAVE Quella che segue è la mia selezione dei 10 esempi più significativi presentati durante l'evento. 1) VEO, IL MODELLO DEDICATO ALLA GENERAZIONE VIDEO Un potente modello text-to-video che, nella visione di Google, consentirà ai registi di creare riprese cinematografiche attraverso prompt testuali. Può generare video di alta qualità con risoluzione 1080p che possono superare il minuto di durata, con un'ampia gamma di stili cinematografici e visivi. Esempi di video generati con Veo - Google DeepMind Il modello sarà disponibile su VideoFX e la proiezione futura lo vede integrato anche su YouTube per la creazione di shorts. La pagina che segue è l'approfondimento nel sito web di Google DeepMind. Veo Veo is our most capable video generation model to date. It generates high-quality, 1080p resolution videos that can go beyond a minute, in a wide range of cinematic and visual styles. Google DeepMind -------------------------------------------------------------------------------- 2) L'INTEGRAZIONE NATIVA DELL'AI NELLA RICERCA Google sta trasformando radicalmente l'esperienza di ricerca, integrando tecnologie avanzate di AI per semplificare e arricchire l'interazione degli utenti con il web, rendendo la ricerca più intuitiva e adattata alle esigenze personali. L'evoluzione della ricerca online Le nuove funzionalità consentiranno di formulare domande complesse in una sola ricerca, integrando capacità di ragionamento a più step e pianificazione. Sarà possibile personalizzare l'esperienza per semplificare il linguaggio o dettagliarlo maggiormente. Utile per chi si avvicina a nuovi argomenti o per spiegazioni a un pubblico giovane. Attraverso le nuove capacità di pianificazione direttamente nella ricerca, Google mira ad aiutare gli utenti a creare programmi (es. per dieta e vacanze), con possibilità di customizzazione. Verrà introdotto un nuovo formato di pagina dei risultati organizzata dall'AI, con l'obiettivo di facilitare l'esplorazione di idee con titoli e box generati che categorizzano i contenuti in modo innovativo. Sarà possibile effettuare ricerche basate su video, ampliando ulteriormente le capacità di search visuale. L'approfondimento nel blog di Google. Generative AI in Search: Let Google do the searching for you We’re bringing AI Overviews to everyone in the U.S. and adding new gen AI experiences to take more of the legwork out of searching. GoogleLiz Reid -------------------------------------------------------------------------------- 3) PROJECT ASTRA: IL FUTURO DEGLI AI ASSISTANT Un progetto dedicato alla creazione di agenti AI universali che possono interagire in modo naturale e immediato, comprendendo e rispondendo al contesto dinamico del mondo reale. Project Astra - Google DeepMind Non permette soltanto l'interazione con l'acquisizione della fotocamera in real-time, ma addirittura di interagire con il video nello schermo, ad esempio indicando gli elementi di interesse. > Davvero emozionante l'utilizzo del sistema > attraverso gli smart glasses e la voce. Gli aggiornamenti recenti alla famiglia di modelli Gemini da parte di Google indicano passi significativi verso sistemi più veloci, efficienti e capaci di interazioni multimodali avanzate, spianando la strada per assistenti AI futuristici e onnipresenti. L'approfondimento nel blog di Google. Gemini breaks new ground with a faster model, longer context, AI agents and more We’re sharing updates across our Gemini family of models and a glimpse of Project Astra, our vision for the future of AI assistants. GoogleDemis Hassabis -------------------------------------------------------------------------------- 4) IMAGEN 3: IL NUOVO MODELLO TEXT-TO-IMAGE Imagen 3 rappresenta un significativo avanzamento nella tecnologia di generazione di immagini da input testuale, con migliorie sostanziali nella qualità visiva, nella comprensione dei prompt e in termini di sicurezza, promettendo una più ampia applicabilità e integrazione nei prodotti e servizi di Google. Imagen 3: il nuovo modello text-to-image Il sistema si basa sulle ultime innovazioni di Google DeepMind per la sicurezza e la responsabilità, includendo watermarking digitale, impercettibile all'occhio umano ma rilevabile per l'identificazione. Watermarking AI-generated text and video with SynthID Announcing our novel watermarking method for AI-generated text and video, and how we’re bringing SynthID to key Google products Google DeepMind Imagen 3 avrà presto le funzionalità della versione precedente, come inpainting e outpainting, e verrà integrato nei prodotti Google come Gemini, Workspace e Ads. L'approfondimento dal sito web di Google DeepMind. Imagen 3 Imagen 3 is our highest quality text-to-image model, capable of generating images with even better detail, richer lighting and fewer distracting artifacts than our previous models. Google DeepMind -------------------------------------------------------------------------------- 5) GEMINI 1.5 PRO È ORA DISPONIBILE PER TUTTI Disponibile per tutti e con un'espansione della finestra di contesto a 2 milioni di token. Gemini 1.5 Pro è ora disponibile per tutti L'approfondimento nel blog di Google. Get more done with Gemini: Try 1.5 Pro and more intelligent features Gemini Advanced subscribers will get access to Gemini 1.5 Pro, a 1 million token context window and more personalized features. GoogleSissie Hsiao -------------------------------------------------------------------------------- 6) TRILLIUM: UNA NUOVA ARCHITETTURA DI TPU EFFICIENTE E PERFORMANTE Il lancio delle TPU Trillium di sesta generazione segna un significativo avanzamento nella tecnologia delle unità di elaborazione di Google, promettendo notevoli miglioramenti nella velocità di training e nell'efficienza energetica, essenziali per il futuro dello sviluppo di modelli di intelligenza artificiale su larga scala. Trillium: una nuova architettura di TPU efficiente e performante Questa generazione di TPU raggiunge un impressionante aumento di 4,7 volte rispetto alle prestazioni di calcolo di picco per chip della versione precedente. L'approfondimento nel blog di Google Cloud. Introducing Trillium, sixth-generation TPUs | Google Cloud Blog The new sixth-generation Trillium Tensor Processing Unit (TPU) makes it possible to train and serve the next generation of AI foundation models. Google Cloud -------------------------------------------------------------------------------- 7) GEMINI 1.5 FLASH Un modello più leggero, ottimizzato per attività in cui diventano fondamentali la bassa latenza e i costi. Gemini 1.5 Flash Gli sviluppatori possono utilizzarlo con una finestra di contesto di 1 milione di token su Google AI Studio e Vertex AI. Gemini Flash Our lightweight model, optimized for when speed and efficiency matter most, with a context window of up to one million tokens. Google DeepMind -------------------------------------------------------------------------------- 8) GENERATIVE MUSIC CON MUSICFX MusicFX consentirà di liberare il DJ nascosto in ognuno di noi, per creare nuovi ritmi e composizioni. Generative Music con MusicFX Il sistema aiuta a mixare i ritmi combinando generi, strumenti e altro, per dare vita a storie musicali. È un playground per ispirare la generazione di nuova musica. Un approfondimento nel blog di Google. Introducing VideoFX, plus new features for ImageFX and MusicFX Today we’re introducing VideoFX, plus new features for ImageFX and MusicFX that are now available in 110 countries. GoogleThomas Iljic -------------------------------------------------------------------------------- 9) GEMINI INTEGRATO SU GOOGLE SHEETS Grazie a questa integrazione sarà possibile interagire con Gemini direttamente all'interno di Google Sheets, per analizzare i dati nei fogli attraverso il linguaggio naturale. Gemini integrato su Google Sheets La possibilità di organizzare gli allegati di Drive, generare un foglio e analizzare i dati verrà implementata su Labs entro la fine dell'anno. Collaborate with Gemini in Google Sheets (Workspace Labs) - Google Docs Editors Help With Gemini in Google Sheets, you can: Create tables. Create formulas. Summarize your files from Drive and emails from Gmail. Feature availability Th Google Docs Editors Help -------------------------------------------------------------------------------- 10) L'INTEGRAZIONE DI GEMINI ANCHE SU GMAIL, DOCS, CALENDAR Gemini sarà inserito su Gmail, Docs e Calendar. Gli strumenti funzionano già bene insieme, ma l'integrazione renderà ancora più semplici le operazioni tra le applicazioni. Ad esempio sarà possibile riconoscere determinate mail, organizzandole su Drive e Sheets. L'integrazione di Gemini anche con Gmail, Docs, Calendar -------------------------------------------------------------------------------- CONSIDERAZIONI FINALI Le applicazioni presentate sono assolutamente straordinarie, e vanno oltre ai 10 punti condivisi. Si è parlato, infatti, anche di: * LearnLM, una famiglia di modelli ottimizzati per l'apprendimento; * Intelligenza Artificiale responsabile; * Ask Photos, un nuovo modo per cercare le tue foto con Gemini; * Android, con un'integrazione di Gemini Nano sui device; * Vertex AI, con i nuovi modelli integrati e disponibili; * Gemma, con i nuovi modelli PaliGemma (un VLM) e Gemma 2. I/O 2024 Here’s a look at everything we announced at Google I/O 2024. blog.googleThomas Iljic Tuttavia ho trovato qualche sintomo di frammentazione nell'azione di Google, con una miriade di progetti basati sull'AI senza dare un riferimento chiaro all'utente. Chi ha seguito le due ore di diretta, di certo è rimasto disorientato.. o almeno per me la sensazione è stata questa. > Useremo Astra, Assistant, SGE o Gemini per una ricerca multimodale? Continuo a > ripetere che manca davvero un unico assistente centrale per tutto > l'ecosistema. Infine, dopo aver visto la naturalezza dell'interazione messa in atto da OpenAI durante lo Spring Update, per quanto innovativo sia il progetto Astra, rimane difficile affrontare un altro assistente. GPT-4o: il più performante, multimodale, e.. gratuito!? 3 riflessioni sulle novità presentate da OpenAI durante lo Spring Update Alessio PomaroAlessio Pomaro -------------------------------------------------------------------------------- - GRAZIE - Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre persone, condividilo 🙂 ISCRIVITI ALLA NEWSLETTER Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su tematiche relative all'intelligenza artificiale. Iscriviti alla Newsletter Email sent! Check your inbox to complete your signup. Gratuita. No Spam. Puoi disiscriverti quando vuoi.Consulta la privacy policy.

May 15, 2024 / Alessio Pomaro

GPT-4o: il più performante, multimodale, e.. gratuito!?

Probabilmente siamo già saturi delle novità esposte da OpenAI durante lo Spring Update: ne ha già parlato ogni canale presente online. Le sintetizzo brevemente nella seconda parte.. prima vorrei condividere 3 riflessioni. 1) IL MIGLIOR MODELLO ESISTENTE GRATUITO Il cambiamento radicale presentato da OpenAI riguarda l'accesso gratuito al miglior LLM esistente (GPT-4o) attraverso ChatGPT. > Da questo momento, chi pagherà un abbonamento per un modello inferiore della > concorrenza? Chiaramente, gli utenti ChatGPT Plus continueranno ad avere vantaggi (esempi: rate limit, priorità, voice), ma sarà sufficiente per evitare che molti di essi valutino di non mantenere la versione a pagamento? Probabilmente è una scelta strategica più orientata ai clienti business (API), mantenendo l'accesso gratuito alla versione Chat, anche se la prospettiva potrebbe cambiare rapidamente in vista del prossimo modello di nuova generazione (GPT-5 o quello che sarà). Se questo modello di business funzionerà per OpenAI, di certo si tratta di una grande mossa per abbattere i competitor e le motivazioni verso sviluppi di soluzioni con tecnologia open source (al netto di esigenze specifiche). 2) LA NATURALEZZA DELL'INTERAZIONE GPT-4o è un modello end-to-end nativamente multimodale. Questo significa che è in grado di elaborare testo, audio, voce, video e immagini contemporaneamente, in modo continuo. Questa evoluzione era abbastanza prevedibile: di fatto, le interazioni tra esseri umani sono di questo tipo. Gemini Pro di Google, inoltre, ci ha già dato un assaggio di sistemi di questo tipo (un esempio). Ma le interazioni vocali (e multimodali) viste durante la presentazione, mostrano una naturalezza alla quale non siamo abituati, soprattutto se abbiamo scagliato dalla finestra qualche dispositivo Google Home e/o Alexa. Possiamo dire addio ai "turni della conversazione" scanditi da segnali acustici e il dover attendere che l'assistente termini la risposta: > quello che abbiamo visto è una "vera" conversazione, con la possibilità di > intervenire mentre l'agente si esprime, ad un ritmo assolutamente paragonabile > alla comunicazione tra esseri umani. L'assistente è in grado di interagire con quello che "vede" in real-time attraverso la camera del dispositivo, e nella versione desktop con i contenuti presenti nello schermo. Infine, un aspetto sbalorditivo riguarda il riconoscimento delle emozioni dell'interlocutore. > Tutto questo è sufficiente per un utilizzo naturale in ogni ambito? > Probabilmente non ancora. Ma l'avvicinamento all'obiettivo e il distanziamento > con ciò che conoscevamo in precedenza è davvero impressionante. 3) LA NATURA DI QUESTI MODELLI.. REMINDER Come ha detto Sundar Pichai in una recente intervista.. > Sarei sorpreso se i LLM fossero l'unica cosa di cui abbiamo bisogno per fare > progressi. Un modello di linguaggio può essere talmente performante da darci perfettamente la sensazione di “comprensione” e “ragionamento” (e su questo ci siamo quasi), ma non ha basi logiche solide e affidabili. Questo dobbiamo tenerlo sempre presente. Nell'esempio che segue, vediamo due risposte di GPT-4o alla domanda "devo parlare con l'unico fratello di mio fratello. Come posso fare?". La prima è completamente fuori luogo, mentre la seconda rappresenta una buona interazione. Un test di GPT-4o Questi modelli ottengono punteggi impressionanti su molti benchmark, superano esami in modo più brillante della media delle persone, ma “cadono” su domande che richiedono ragionamenti che a chiunque sembrerebbero banali. Questo rappresenta un problema? No, se ne abbiamo la consapevolezza e li usiamo laddove possono darci dei reali vantaggi. Questi sistemi, in un certo senso, si comportano in modo intelligente pur non essendo intelligenti. -------------------------------------------------------------------------------- UNA SINTESI DELLE NOVITÀ PRESENTATE DA OPENAI Durante la tanto attesa live di OpenAI, programmata esattamente 24 ore prima dell'I/O 2024 di Google, Mira Murati (Chief Technology Officer di OpenAI) ha presentato diverse novità interessanti. OpenAI Spring Update Le vediamo in una rapida sintesi. * GPT-4o ("o" = "omni") è il nuovo flagship model di OpenAI, che sarà disponibile via ChatGPT (anche nella versione gratuita) e via API. Chiaramente è anche il modello più performante esistente. Performance di GPT-4o su diversi benchmark > it is a very good model (we had a little fun with the name while testing) > pic.twitter.com/xKIwhKyRGt > > — Sam Altman (@sama) May 13, 2024 * 2 volte più veloce, con un costo inferiore del 50%, e con un rate limit di 5 volte superiore rispetto a GPT-4 Turbo. * Un modello nativamente multimodale, che fonde testo, audio, voice e vision. * Durante la live, sono state fatte diverse interazioni con l'assistente vocale di ChatGPT, dimostrando una naturalezza impressionante, eliminando il concetto dei "turni della conversazione", riconoscendo le emozioni dell'utente e modificando il tono del dialogo su richiesta. * È stata presentata una versione desktop di ChatGPT, che può rimanere aperta in background, dialogare con l'utente, e interagire con gli elementi dello schermo. -------------------------------------------------------------------------------- > Se OpenAI chiudesse davvero l'accordo con Apple e riuscisse a implementare un > GPT-4o distillato sul dispositivo per sostituire Siri.. > beh, ne vedremo delle belle 🙂 -------------------------------------------------------------------------------- - GRAZIE - Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre persone, condividilo 🙂 ISCRIVITI ALLA NEWSLETTER Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su tematiche relative all'intelligenza artificiale. Iscriviti alla Newsletter Email sent! Check your inbox to complete your signup. Gratuita. No Spam. Puoi disiscriverti quando vuoi.Consulta la privacy policy.

May 14, 2024 / Alessio Pomaro

GPT-4

Novità e Riflessioni

Voice Technology

Generative AI: novità e riflessioni - #4 / 2024

Una rubrica che racconta le novità più rilevanti che riguardano l'Intelligenza Artificiale, con qualche riflessione. > Buon aggiornamento, > e buone riflessioni.. -------------------------------------------------------------------------------- CODEX, RAI 3: ASSISTENTI VIRTUALI EMPATICI > L'innovazione tecnologica porta con sé > nuove esperienze, ma anche nuove "insidie". Nella puntata di Codex andata in onda il 9 aprile su Rai 3 si è parlato di assistenti virtuali evoluti che possono diventare protagonisti nella vita privata e intima delle persone. Mi è stato chiesto come funzionano, e nel servizio lo racconto, in modo semplice, e con alcuni esempi pratici. Il mio intervento durante Codex, Rai 3, con Barbara Carfagna e Massimo Cerofolini Sono tre gli ingredienti fondamentali che devono accompagnare l'accelerazione tecnologica che stiamo vivendo: 1. le contromisure tecniche, 2. nuovi sistemi di governance, 3. la cultura su questi sistemi.. o, come viene definita nel servizio, "educazione digitale". La puntata completa si può vedere su Rai Play, con Barbara Carfagna e Massimo Cerofolini. -------------------------------------------------------------------------------- TEDX PADOVA SALON: BRAINS > L'AI non genera skill, ma estende e > potenzia delle competenze già consolidate. Un TEDx Padova Salon ricco di spunti, idee, innovazione, in una location d'eccezione (Le Village by CA Triveneto), con dei compagni di viaggio straordinari: Eleonora Chioda, Margherita Cera, Fabrizio Dughiero, Pietro Orciuolo. TEDx Padova Salon - BrAIns Il mio messaggio di chiusura.. > Portiamo questi concetti [sull'AI generativa] in azienda, e iniziamo a far > girare il volano. Perché non c'è miglior prompt engineer di chi conosce i > processi interni, potenziato da questa tecnologia. -------------------------------------------------------------------------------- META HA RILASCIATO LLAMA 3 Ho iniziato a provare il modello con alcuni prompt del mio benchmark, che producono output "semplici", ma con istruzioni precise e dettagliate. Ho testato la generazione di codice, analisi di recensioni, clustering, sentiment analysis, generazione di title, description e micro copy in ambito SEO, analisi di video, topic modeling. Risultato: mentre Llama 2 e anche modelli più evoluti hanno dimostrato diversi problemi nel rispettare le indicazioni, Llama 3 risponde molto bene su quasi tutti i test. I miei test su Llama 3 di Meta Meta ha rilasciato il modello open source in due dimensioni (8B e 70B di parametri), con una finestra di contesto di 128k token, e con particolare attenzione alla sicurezza. > Sembra che arriverà anche una versione più evoluta da 400B di parametri. L'utilizzo è possibile anche per uso commerciale, ma con delle restrizioni. I risultati nei benchmark più comuni sono degni di nota! E sarà presto a disposizione su tutte le piattaforme e servizi cloud. Introducing Meta Llama 3: The most capable openly available LLM to date Today, we’re introducing Meta Llama 3, the next generation of our state-of-the-art open source large language model. In the coming months, we expect to share new capabilities, additional model sizes, and more. > Il modello open più evoluto è arrivato, > con performance vicine ad alcuni > modelli proprietari molto noti. Llama 3 di Meta: performance -------------------------------------------------------------------------------- L'INTEGRAZIONE DI GEMINI PRO SU BIGQUERY > Inizia ad emergere la carta vincente > di Google in ambito di AI generativa: > l'integrazione nell'ecosistema. Su BigQuery è possibile creare un modello basato su Gemini Pro, per poi usarlo sui dati salvati nella piattaforma con semplici query SQL. Usando le Object Tables, inoltre, si possono anche gestire contenuti multimediali nei prompt. > Questo è uno step potente per quanto riguarda l'automazione dei processi, > aprendo la via all'uso di LLM senza API e programmazione. E soprattutto, su BigQuery possiamo avere qualunque tipo di dato, incrociando fonti e creando contesti perfetti per il modello generativo. L'integrazione di Gemini Pro su BigQuery I test che ho fatto hanno dato risultati molto interessanti. L'integrazione di Gemini Pro su BigQuery: la presentazione di Google -------------------------------------------------------------------------------- OPENAI INTRODUCE API BATCH > Un sistema per eseguire operazioni non urgenti > in modo asincrono con un costo inferiore del 50%. OpenAI introduce API Batch Le chiamate API vengono effettuate in blocco, con risultati in 24 ore. Questo è davvero molto interessante per elaborazioni come la generazione di contenuti, la classificazione e tutto ciò che non necessita di output in real-time. Vai alla documentazione Con queste formule e le performance (e i prezzi) di GPT-4 Turbo, la competitività anche rispetto a modelli open source (che comunque consumano risorse) diventa altissima. -------------------------------------------------------------------------------- VASA-1 DI MICROSOFT Microsoft ha presentato Vasa-1, un modello in grado di trasformare una singola immagine statica di un volto e una clip audio in un video realistico con parlato e lip-sync. Si tratta di un sistema che, come Vlogger di Google, non lavora su "ritagli" del volto, ma sulla diffusione del volto completa, considerando dinamiche facciali e movimenti della testa. Esempi di Vasa-1 di Microsoft Permette anche di controllare lo sguardo, la distanza della camera, le emozioni del soggetto del video. > L'evoluzione tecnologica è impressionante, come lo saranno i rischi e la > responsabilità necessaria per gestirli. Paper ed esempi -------------------------------------------------------------------------------- INTEGRAZIONI DI MODELLI GENERATIVI SU ADOBE PREMIERE PRO? Adobe, in un comunicato, mostra delle esplorazioni di integrazione dell'AI generativa per l'editing dei video su Premiere Pro. Non solo usando Firefly, ma anche Runway, Pika e Sora di OpenAI per l'estensione delle riprese. Integrazioni di modelli generativi su Adobe Premiere Pro Di certo, le questioni da risolvere per integrazioni di questo tipo non saranno banali. Adobe, infatti, non condivide proiezioni di implementazione. > Ma è innegabile che stiamo "annusando" delle modalità di lavoro che, in un > modo o nell'altro, vedremo in azione nel prossimo futuro. Adobe previews breakthrough AI innovations to advance professional video workflows within Adobe Premiere Pro Adobe Previews Breakthrough AI Innovations to Advance Professional Video Workflows Within Adobe Premiere Pro -------------------------------------------------------------------------------- OPENAI RILASCIA LA VERSIONE 2 DELLE API ASSISTANTS OpenAI potenzia le API Assistants rilasciando la versione 2, diventando un framework RAG (Retrieval-Augmented Generation) in piena regola. UNA SINTESI DELLE NOVITÀ * Fino a 10k file per la knowledge e il retrieval. * Nuovo archivio vettoriale, con chunking, ed embeddings automatizzati. * Gestione dei token per ogni "run" con lo status (se la generazione risulta incompleta è possibile continuarla). * Per ogni "run" è possibile scegliere lo strumento che deve usare l'assistente (es. File Search, Code Interpreter o funzioni custom). * Parametri configurabili, come "temperature" e "top_p". * Possibilità di usare la modalità JSON, per ottenere risposte in formato json valido. * Creazione di thread di conversazioni personalizzate, comprendenti anche la gestione di file. Un test su Playground delle nuove API Assistants V2 > Era quello che ci si aspettava e che mancava: maggior flessibilità. E con GPT4 > Turbo a disposizione in produzione, il potenziale è davvero interessante. Cosa manca ancora ancora? La gestione dei task in modalità multi-agente. Approfondimento -------------------------------------------------------------------------------- RAGFLOW, UN FRAMEWORK RAG OPEN SOURCE Ho provato RAGFlow, un framework RAG (Retrieval-Augmented Generation) open source dotato di un'interfaccia web based che permette di configurare completamente il sistema. * Permette di gestire le knowledge base, configurando la vettorializzazione (modelli e parametri) e la suddivisione dei dati in "chunk". * È possibile creare diversi assistenti che usano una o più basi di conoscenza, gestendo messaggi, system prompt, caratteristiche, soglia di similarità tra le query e i chunk della knowledge, parametri generici, LLM che gestisce la conversazione e i risultati della query vettoriale. Test di RAGFlow, un framework RAG open source Pur usando un modello di embeddings e un LLM non estremamente evoluti, i risultati sono già molto interessanti. Il progetto è su GitHub, e può essere installato ovunque. GitHub - infiniflow/ragflow: RAGFlow is an open-source RAG (Retrieval-Augmented Generation) engine based on deep document understanding. RAGFlow is an open-source RAG (Retrieval-Augmented Generation) engine based on deep document understanding. - infiniflow/ragflow GitHubinfiniflow -------------------------------------------------------------------------------- PERFORMANCE DI LLAMA 3 SU GROQ Con Llama 3 70B abbiamo un modello open source che.. * può generare 250-300 token al secondo su Groq; * è già in posizione alta nella Chatbot Arena Leaderboard, a contatto con i modelli più performanti. L'evoluzione di queste tecnologie è veloce e impressionante. Performance di Llama 3 70 B Assolutamente da provare su Groq. -------------------------------------------------------------------------------- VIDU SARÀ LA RISPOSTA CINESE A SORA? Si tratta di un modello Text-To-Video in grado di creare video di 16 secondi a 1080p. Vidu sarà la risposta cinese a Sora? > Il sistema è stato sviluppato da Shengshu Technology e dalla Tsinghua > University. La qualità non sembra ancora paragonabile agli output di Sora, ma come primo passo è sorprendente. -------------------------------------------------------------------------------- APPLE RILASCIA OPENELM Una famiglia di modelli su misura per elaborazioni sui dispositivi. Viene usata una nuova architettura definita "layer-wise scaling", che consente di assegnare meno parametri agli strati iniziali del transformer vicino all'input, e di aumentarli verso gli strati di uscita. OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework The reproducibility and transparency of large language models are crucial for advancing open research, ensuring the trustworthiness of… Apple Machine Learning Research > Questo permette di ottimizzare le risorse in base alla complessità delle > informazioni ad ogni livello. -------------------------------------------------------------------------------- I RISCHI DERIVANTI DAL DEEPFAKE Il The Washington Post parla di deepfake e di rischio per le elezioni globali. Rischio assolutamente concreto. Credo che questo debba essere uno stimolo per accelerare nuovi sistemi di governance e la diffusione della cultura su questi sistemi. Il The Washington Post parla di deepfake e di rischio per le elezioni globali. Vai al post Devono migliorare le contromisure tecnologiche e normative da un lato, e il PENSIERO CRITICO delle persone dall'altro. > Perché, diciamocelo.. considerando quanto approfondiamo le informazioni, oggi > bastano titoli ambigui per fare disinformazione e scatenare discussioni sui > social a non finire. Immaginiamoci cosa potrebbero scatenare output evoluti > prodotti attraverso l'AI generativa! -------------------------------------------------------------------------------- OPENVOICE V2 DI MYSHELL: LA CLONAZIONE ISTANTANEA DI UNA VOCE UMANA MyShell rilascia la versione 2 di OpenVoice, con un aumento della qualità e il supporto multilingua nativo. Il sistema consente la clonazione istantanea di una voce umana, con una qualità notevole. OpenVoice V2 di MyShell: la clonazione istantanea di una voce umana La V1 e la V2 sono sistemi open source (MIT license), anche per uso commerciale. GitHub - myshell-ai/OpenVoice: Instant voice cloning by MyShell. Instant voice cloning by MyShell. Contribute to myshell-ai/OpenVoice development by creating an account on GitHub. GitHubmyshell-ai -------------------------------------------------------------------------------- MICROSOFT RILASCIA PHI-3 Continua la proliferazione di modelli open e di piccole dimensioni: Microsoft rilascia Phi-3. In tre formati di parametri: 3.8B, 7B e 14B. Questi modelli possono funzionare in locale nei dispositivi. Il più piccolo, quantizzato, anche su uno smartphone. Prova il modello > Con training dedicati possono dare ottimi risultati su domini specifici. Introducing Phi-3: Redefining what’s possible with SLMs | Microsoft Azure Blog We are excited to introduce Phi-3, a family of small open models offering groundbreaking performance, developed by Microsoft. Learn more. Microsoft Azure BlogMisha Bilenko -------------------------------------------------------------------------------- GEMINI 1.5 PRO CON PROMPT MULTIMODALE (VIDEO) La multimodalità è un elemento che ormai è parte integrante dell'ultima generazione di modelli generativi. In questo esempio uso Gemini 1.5 Pro su Google AI Studio, con un video come elemento di input. Gemini 1.5 Pro con prompt multimodale (video) Il modello risponde a domande generali e specifiche, non solo riguardanti il parlato, ma anche su elementi visivi che compaiono nel video. È possibile specificare un system prompt ed elaborare anche immagini, audio e file. -------------------------------------------------------------------------------- UN SISTEMA RAG (RETRIEVAL-AUGMENTED GENERATION) BASATO SU LANGGRAPH E LLAMA 3 8B > Effetto Llama3: ora si può ragionare in modo concreto su applicazioni locali > ad alte prestazioni. LangChain presenta un sistema RAG basato su LangGraph e Llama 3 8B (Ollama), con Nomic AI per gli embeddings, Chroma come DB vettoriale e Tavily AI per la ricerca web. langgraph/examples/rag/langgraph_rag_agent_llama3_local.ipynb at main · langchain-ai/langgraph Contribute to langchain-ai/langgraph development by creating an account on GitHub. GitHublangchain-ai Il tutto eseguibile in locale. > Un LLM open source con performance > elevate, cambia le regole del gioco. -------------------------------------------------------------------------------- FINE-TUNING DI GEMINI 1.0 PRO Google AI Studio permette di fare fine-tuning di Gemini 1.0 Pro. È possibile usare un CSV di esempi, oppure usare l'interfaccia web (scomoda per gestire molti dati). Possono essere impostati alcuni parametri avanzati, ad esempio epochs, learning rate multiplier e batch size. Fine-tuning di Gemini 1.0 Pro Il moltiplicatore del tasso di apprendimento permette di attribuire un peso diverso ai dati di training, rispetto al training generale del modello di base. > Interessante per progetti molto specifici. -------------------------------------------------------------------------------- LA MODALITÀ "MULTI-AGENTE" > Sviluppare sistemi con LLM in modalità "multi-agente" può migliorarne le > performance. Cosa significa? Il task, in pratica, viene eseguito da diversi agenti autonomi basati su LLM che collaborano tra loro scambiandosi gli output. Ognuno con un ruolo preciso, con un system prompt specifico, con parametri personalizzati. Nell'esempio uso AutoGen di Microsoft. Il task viene eseguito da un team di 4 agenti basati su GPT-4 Turbo. Un esempio dell'utilizzo di AutoGen di Microsoft > Si potrebbe ottenere lo stesso flusso con diversi GPTs? Sì, però usando un > sistema come questo, tutto può essere automatizzato, e possono avvenire vere > interazioni autonome fino a raggiungere l'obiettivo. -------------------------------------------------------------------------------- COPYRIGHT E AI: CONSISTENT DIFFUSION MEETS TWEEDIE Un nuovo progetto mostra come sia possibile addestrare modelli di diffusione (es. Stable Diffusion) attraverso dati "rumorosi" ottenendo comunque performance elevate. Questo riduce di molto il problema della memorizzazione di precisi elementi dei dati di training (es. volti, oggetti, scene), e della conseguente riproducibilità. Copyright e AI: Consistent Diffusion Meets Tweedie > In pratica, il sistema riesce a generare immagini di alta qualità senza avere > mai "visto" un'immagine pulita, aprendo scenari interessanti. GitHub - giannisdaras/ambient-tweedie: Official implementation for the paper: “Consistent Diffusion Meets Tweedie” Official implementation for the paper: “Consistent Diffusion Meets Tweedie” - giannisdaras/ambient-tweedie GitHubgiannisdaras -------------------------------------------------------------------------------- COME SARÀ TED TRA 40 ANNI? TED, collaborando con l'artista Paul Trillo e OpenAI, lo racconta con questo video realizzato con Sora. > What will TED look like in 40 years? For #TED2024, we worked with artist > @PaulTrillo and @OpenAI to create this exclusive video using Sora, their > unreleased text-to-video model. Stay tuned for more groundbreaking AI — coming > soon to https://t.co/YLcO5Ju923! pic.twitter.com/lTHhcUm4Fi > > — TED Talks (@TEDTalks) April 19, 2024 Ad eccezione del logo TED, il video è completamente realizzato dal modello. > Chiaramente si tratta di una sperimentazione, che mette insieme nuove > tecnologie e creatività a scopo dimostrativo, per scorgerne le potenzialità. -------------------------------------------------------------------------------- I COMPUTER DIVENTERANNO PIÙ INTELLIGENTI DI NOI? I "computer", di certo, diventeranno sempre più abili ad accelerare processi. Ma quando parliamo di "intelligenza" siamo su piani diversi. Il termine "intelligenza artificiale" non aiuta nella comprensione di questi aspetti. Un modello di linguaggio, ad esempio, può essere talmente performante da darci perfettamente la sensazione di "comprensione" e "ragionamento" (e su questo ci siamo quasi), ma non ha basi logiche solide e affidabili. Recentemente ho pubblicato un piccolo esperimento. Ho chiesto a diversi modelli: "devo mettermi in contatto con l’unico fratello di mio fratello… come posso fare?". Nessuno mi ha dato una risposta adeguata alla prima interazione. Questi modelli ottengono punteggi impressionanti su molti benchmark, superano esami in modo più brillante della media delle persone, ma "cadono" su domande che richiedono ragionamenti che a chiunque sembrerebbero banali. Questo è un problema? No, se ne abbiamo la consapevolezza e li usiamo laddove possono darci dei reali vantaggi. > Questo fa capire che questi sistemi, in un certo senso, si comportano in modo > intelligente pur non essendo intelligenti. Gli algoritmi, se gestiti in modo > adeguato, agiscono con successo, ma non hanno la capacità di agire con > intelligenza per arrivare al risultato (come farebbe una persona). In futuro, come dicevo, i modelli diventeranno sempre migliori, le tecnologie miglioreranno per renderli più affidabili ed efficienti, ma rimarranno strumenti (sempre più potenti) in grado di accelerare processi. L'intervista completa su About Bologna: L’IA può ridefinire la cultura? - *About Bologna «L’intelligenza artificiale può portare grandi benefici, ma può anche segnare la fine dell’umanità», ha detto lo scienziato Steven Hawkings. Verità o catastrofismo? Dal 2014 quando pronunciò questa frase, sono passati 10 anni. La comunità tecnologica… *About BolognaLaura Bessega -------------------------------------------------------------------------------- L'OTTIMIZZAZIONE DELLE PERFORMANCE DEL LLM In una ricerca di Meta, Cisco e MIT, emerge come, eliminando fino al 40-50% degli strati di un LLM l'impatto sull'accuratezza è risultato inferiore alle aspettative. Il processo di riduzione degli strati va a selezionare quelli meno importanti e ridondanti, per procedere progressivamente con quelli che influiscono minimamente nell'output. Dopo la "potatura", i modelli sono stati affinati per recuperare performance, mostrando che è possibile ridurre i requisiti di memoria e calcolo mantenendo un'alta accuratezza, il che indica che potremmo non aver bisogno di modelli così grandi e complessi come pensavamo. L'ottimizzazione dei LLM - La ricerca di ricerca di Meta, Cisco e MIT > In sostanza, questo studio suggerisce che i modelli di AI potrebbero essere > resi più efficienti e meno costosi, aprendo la strada a un'intelligenza > artificiale più veloce e accessibile. Il paper per approfondire -------------------------------------------------------------------------------- AI INDEX REPORT 2024 Stanford University ha pubblicato il consueto AI Index Report per il 2024. I TAKE AWAY 1. L'AI batte gli umani in alcuni compiti come la classificazione delle immagini e il ragionamento visivo, ma resta indietro su compiti più complessi. 2. L'industria continua a dominare la ricerca sull'AI, con 51 modelli rilevanti rilasciati, contro i 15 del mondo accademico (nel 2023). 3. I modelli diventano molto più costosi. Secondo il report, l'addestramento di GPT-4 è costato 78M di dollari, mentre Gemini Ultra 191M di dollari. 4. Gli USA sono in testa nello sviluppo di modelli di AI, rispetto a Cina, Europa e UK. 5. Mancano sistemi di valutazione e standardizzazione per lo sviluppo responsabile dell'AI. 6. Gli investimenti in AI Generativa salgono alle stelle, ottuplicando nel 2023 quelli del 2022. 7. L'AI rende i lavoratori più produttivi e migliora la qualità dei risultati, andando anche a colmare il gap di competenze. Ma senza un'adeguata supervisione può avere un effetto contrario. 8. Il progresso scientifico accelera ulteriormente grazie agli algoritmi. 9. Il numero di normative sull'AI è in forte aumento negli USA. 10. Le persone sono più consapevoli dell'impatto dell'AI, e questo crea nervosismo in un gruppo significativo. AI Index Report per il 2024 - Take away -------------------------------------------------------------------------------- [RISORSA] RICERCA DI VIDEO SU YOUTUBE E PRODUZIONE CONTENUTI CON GEMINI 1.5 PRO Il seguente Colab implementa un agente AI che permette di specificare un argomento ed esegue le seguenti operazioni: 1️. seleziona i migliori video di YouTube; 2️. estrae l'audio; 3️. genera una sintesi di ogni contenuto; 4️. crea un report complessivo. Utilizza SerpAPI e Gemini 1.5 Pro, e i prompt per il modello possono essere personalizzati. Vai al Colab IL PROGETTO GitHub - mshumer/ai-researcher Contribute to mshumer/ai-researcher development by creating an account on GitHub. GitHubmshumer -------------------------------------------------------------------------------- [RISORSA] GUIDE ED ESEMPI DI PROMPT PER GEMINI Una raccolta di guide ed esempi per iniziare a lavorare con le API di Gemini. > Dalla repository si possono usare direttamente i Colab per ogni tipo di > utilizzo, con la possibilità di personalizzare i prompt. Elaborazione audio, tokenizer, embeddings, gestione file, function calling, tuning, gestione video, e molto altro. GitHub - google-gemini/cookbook: A collection of guides and examples for the Gemini API. A collection of guides and examples for the Gemini API. - google-gemini/cookbook GitHubgoogle-gemini -------------------------------------------------------------------------------- GEMINI CODE ASSIST Con Gemini Code Assist Google prova a contrastare Microsoft e GitHub Copilot. > Anche se si integra su Visual Studio, la vedo durissima, visto che l'editor è > di Microsoft. Probabilmente l'unico vantaggio attuale è la finestra di contesto più ampia.. ma quanto durerà? Gemini Code Assist (in precedenza Duet AI per gli sviluppatori) Assistente con AI generativa per aiutare gli sviluppatori a creare applicazioni in modo più rapido, efficace e sicuro. Google Cloud E non poteva mancare la consueta confusione sul nome delle soluzioni da parte di Google.. Gemini Code Assist, Duet AI for developers.. vi prego, fate pace con il naming! Gemini Code Assist - Google -------------------------------------------------------------------------------- VERTEXAI AGENT BUILDER Lo sviluppo di applicazioni basato sul concetto di interazione tra "agenti" sembra essere la direzione nello sviluppo di sistemi strutturati. La soluzione di Google Cloud prende il nome di VertexAI Agent Builder. Build generative AI experiences with Vertex AI Agent Builder | Google Cloud Blog Announcing Vertex AI Agent Builder: Helping developers easily build and deploy generative AI experiences. Google Cloud Come funziona? Diciamo che si tratta della risposta a GPTs e API Assistants di OpenAI. Le funzionalità sono praticamente le stesse: RAG (Retrieval-Augmented Generation), esecuzione di codice, ricerca online, interazione con servizi esterni. > Google conferma il perenne stato di "rincorsa" che lascia sempre una > sensazione di frammentarietà rispetto alle integrazioni dei competitor (di > Microsoft, ad esempio). -------------------------------------------------------------------------------- GROK 1.5 V X.ai ha rilasciato Grok 1.5 V, un nuovo modello multimodale in grado di gestire un contesto composto da testo e immagini. Nei principali benchmark sembra molto vicino a modelli come GPT-4 e Claude 3 Opus. Grok 1.5 V > Sarà interessante capire se Grok verrà proposto in modalità open source! -------------------------------------------------------------------------------- UN APPROCCIO EQUILIBRATO NELL'USO DEI DATI SINTETICI NELLA RICERCA SCIENTIFICA > Un articolo di Nature assolutamente da leggere. Mette in guardia sulla tendenza di considerare i modelli di AI come soluzioni omnicomprensive, sottolineando l'importanza di un approccio equilibrato che integri dati sintetici e reali, mantenendo la ricerca scientifica radicata nel "mondo reale" e nell'indagine empirica. > I dati sintetici possono essere una risorsa preziosa, in contesti in cui i > dati reali sono incompleti o costosi da raccogliere. Nature - The perpetual motion machine of AI-generated data and the distraction of ChatGPT as a ‘scientist’ Ma l'interpretazione va fatta con equilibrio. Il rischio di alimentare i modelli con dati generati è di spingersi verso un ciclo di conferma invece di avere una vera innovazione. The perpetual motion machine of AI-generated data and the distraction of ChatGPT as a ‘scientist’ - Nature Biotechnology Nature Biotechnology - The perpetual motion machine of AI-generated data and the distraction of ChatGPT as a ‘scientist’ NatureJennifer Listgarten -------------------------------------------------------------------------------- ESTRAZIONE DI DATI DA FILE AUDIO E VIDEO Estrazione di dati da file audio e video usando Gemini 1.5 Pro attraverso LangChain? Estrazione di dati da file audio e video LA DOCUMENTAZIONE Audio/Video Structured Extraction | 🦜️🔗 Langchain Google’s Gemini API offers support for audio and video input, along with function calling. 🦜️🔗 Langchain -------------------------------------------------------------------------------- ADOBE AVREBBE ADDESTRATO FIREFLY CON IMMAGINI GENERATE ATTRAVERSO ALTRI MODELLI > Il tema dei dati di training dei modelli generativi diventa sempre più > intricato e fuori controllo. Bloomberg ha pubblicato un post che denuncia il fatto che Adobe avrebbe addestrato Firefly con immagini generate attraverso altri modelli, come Midjourney. L'azienda ha sempre promosso il suo progetto come "commercialmente sicuro" facendo leva su un addestramento derivante dalle immagini di Adobe Stock. Adobe’s ‘Ethical’ Firefly AI Was Trained on Midjourney Images Company promotes its tool as safe from content scraped from the internet. BloombergRachel Metz > Ma gli utenti possono caricare immagini generate dall'AI su Adobe Stock.. > quindi.. È sempre più chiaro (oppure no!?) che è davvero necessario accelerare questa discussione a livello globale? -------------------------------------------------------------------------------- TRASFORMAZIONE DEI SEGNALI NEURALI IN PARLATO (ECOG-TO-SPEECH) Un nuovo paper pubblicato su Nature presenta un sistema che trasforma i segnali neurali in parlato (ECoG-to-speech). Viene usata una rappresentazione intermedia a bassa dimensione guidata da un pre-addestramento basato sul solo segnale vocale. Nel video si sente il confronto tra il parlato originale e quello generato dal modello che codifica i segnali neurali. Trasformazione dei segnali neurali in parlato (ECoG-to-speech) Immaginiamo le applicazioni di queste tecnologie in ambito di deficit neurologici. A neural speech decoding framework leveraging deep learning and speech synthesis - Nature Machine Intelligence Recent research has focused on restoring speech in populations with neurological deficits. Chen, Wang et al. develop a framework for decoding speech from neural signals, which could lead to innovative speech prostheses. NatureXupeng Chen Nel testo è disponibile anche una pipeline di decodifica neurale aperta, su GitHub. -------------------------------------------------------------------------------- GPT-4 TURBO ESCE DALLA PREVIEW GPT-4 Turbo esce dalla preview e diventa disponibile (anche con Vision) in versione stabile via API. Questa è una buona notizia per chi ha automazioni in produzione, perché i costi possono scendere in modo importante. GPT-4 Turbo esce dalla preview > Ma attenzione: consiglio di verificare gli output prima di switchare, perché > dai miei test il comportamento è leggermente diverso. -------------------------------------------------------------------------------- COME FUNZIONA CHATGPT? UNA SPIEGAZIONE DETTAGLIATA Per chi vuole approfondire in dettaglio il funzionamento di ChatGPT, spiegato in modo semplice e passo dopo passo, consiglio questo post. > Le dinamiche possono essere estese a qualunque LLM. È un post lungo, ma affascinante.. che permette di acquisire una consapevolezza maggiore di questi sistemi. What Is ChatGPT Doing … and Why Does It Work? Stephen Wolfram explores the broader picture of what’s going on inside ChatGPT and why it produces meaningful text. Discusses models, training neural nets, embeddings, tokens, transformers, language syntax. Stephen WolframNicos Kekchidis -------------------------------------------------------------------------------- GENERALIZZAZIONE DEI CONCETTI DEI LLM: UNO STUDIO I modelli generativi sono abili a generalizzare i concetti al di fuori della dimensione di addestramento? In realtà NO.. è "solo" questione di quantità di dati di training. Lo studio presenta diversi test che mostrano come le performance "zero-shot" dei modelli aumentano linearmente con un aumento esponenziale dei dati. E chiaramente la capacità dei modelli migliora grazie anche alla presenza di dati simili ai test nei dataset di addestramento. Torniamo su un concetto che ho raccontato all'AI Festival: > Prima o poi, la sete di dati di questi sistemi supererà ciò che è disponibile. > Se vogliamo spingerci verso qualcosa che si avvicina maggiormente al concetto > di AGI (Artificial General Intelligence), probabilmente servono approcci > algoritmici alternativi. No “Zero-Shot” Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance Web-crawled pretraining datasets underlie the impressive “zero-shot” evaluation performance of multimodal models, such as CLIP for classification/retrieval and Stable-Diffusion for image generation. However, it is unclear how meaningful the notion of “zero-shot” generalization is for such multimodal models, as it is not known to what extent their pretraining datasets encompass the downstream concepts targeted for during “zero-shot” evaluation. In this work, we ask: How is the performance of multimodal models on downstream concepts influenced by the frequency of these concepts in their pretraining datasets? We comprehensively investigate this question across 34 models and five standard pretraining datasets (CC-3M, CC-12M, YFCC-15M, LAION-400M, LAION-Aesthetics), generating over 300GB of data artifacts. We consistently find that, far from exhibiting “zero-shot” generalization, multimodal models require exponentially more data to achieve linear improvements in downstream “zero-shot” performance, following a sample inefficient log-linear scaling trend. This trend persists even when controlling for sample-level similarity between pretraining and downstream datasets, and testing on purely synthetic data distributions. Furthermore, upon benchmarking models on long-tailed data sampled based on our analysis, we demonstrate that multimodal models across the board perform poorly. We contribute this long-tail test set as the “Let it Wag!” benchmark to further research in this direction. Taken together, our study reveals an exponential need for training data which implies that the key to “zero-shot” generalization capabilities under large-scale training paradigms remains to be found. arXiv.orgVishaal Udandarao > Non basterà aumentare le dimensioni dei > modelli e aumentare la potenza di calcolo. -------------------------------------------------------------------------------- UNIVERSAL-1: IL MODELLO DI SPEECH RECOGNITION PIÙ PERFORMANTE Sembra che Universal-1 di Assembly AI sia il modello di speech recognition più performante esistente. Addestrato su 12,5 milioni di ore di audio multilingua, è più accurato del 14% rispetto a Whisper e del 22% rispetto alle API di Azure, AWS e Google. Universal-1 di Assembly AI: error rate > Può trascrivere un audio di 1 ora in 38 secondi! AssemblyAI Research | Building the world’s leading Speech AI models Explore AssemblyAI’s current research, news, and updates on Speech AI technology. AssemblyAI -------------------------------------------------------------------------------- PERPLEXITY-INSPIRED LLM ANSWER ENGINE Perplexity, di fatto, è un motore conversazionale: un ibrido che unisce un motore di ricerca e un LLM. Il concetto è semplice. Questo progetto permette di creare un sistema molto simile, attraverso Groq, Mistral, LangChain, Brave, Serper API e OpenAI. Il sistema restituisce fonti, risposte, immagini, video e domande di follow-up basate sulle query degli utenti. GitHub - developersdigest/llm-answer-engine: Build a Perplexity-Inspired Answer Engine Using Next.js, Groq, Mixtral, Langchain, OpenAI, Brave & Serper Build a Perplexity-Inspired Answer Engine Using Next.js, Groq, Mixtral, Langchain, OpenAI, Brave & Serper - developersdigest/llm-answer-engine GitHubdevelopersdigest > Un ottimo punto di partenza per chi vuole avere una base di sviluppo evoluta > di un motore conversazionale. -------------------------------------------------------------------------------- L'INVESTIMENTO NEI CHIP NVIDIA PER IL TRAINING DEI MODELLI GENERATIVI In una recente presentazione, la società di venture capital Sequoia ha stimato che l’industria dell'AI ha speso 50 miliardi di dollari sui chip Nvidia utilizzati per addestrare modelli di intelligenza artificiale avanzati lo scorso anno, ma ha generato entrate solo per 3 miliardi di dollari. Investimenti "normali" per costruire la base per competere.. ma quanto durano le GPU per mantenere la competitività? Inoltre manca il consumo energetico nell'equazione. Inoltre.. > l'uso del calcolo per l'inferenza aumenterà vertiginosamente rispetto al > training. L'investimento nei chip Nvidia per il training dei modelli generativi Di certo, la sfida è interessante. E l'ottimizzazione degli algoritmi sarà una leva fondamentale. Approfondimento -------------------------------------------------------------------------------- VOICECRAFT: EDITING E SINTESI VOCALE VoiceCraft è un nuovo modello con due funzionalità: editing vocale per modificare l'audio, e sintesi vocale zero-shot per generare parlato dalle trascrizioni usando solo pochi secondi di audio di riferimento. VoiceCraft: editing e sintesi vocale Gli esempi nel paper rendono molto bene l'idea del livello di che oggi si raggiunge quasi con semplicità. VoiceCraft VoiceCraft: Zero-Shot Speech Editing and Text-to-Speech in the Wild Puyuan Peng > Mi sembra ieri quando usavo "Festival" come TTS per il progetto della tesi.. > sono passati diversi anni, oggi sembra tutto banale, ma per me è sempre > strabiliante. -------------------------------------------------------------------------------- META ETICHETTERÀ I VIDEO GENERATI ATTRAVERSO L'AI > "Additional transparency is > better than censoring content" Meta, come YouTube, etichetterà i video generati ed editati attraverso l'AI con la label "Made with AI". Verranno rilevati automaticamente meta dati, e le persone avranno l'opzione per specificarlo in fase di caricamento. L'approccio mi trova d'accordo: la label è molto più "formativa" della censura. Questo può contribuire ad alzare il livello di cultura generale sull'AI generativa. Our Approach to Labeling AI-Generated Content and Manipulated Media | Meta We will begin labeling a wider range of video, audio and image content as “Made with AI” when we detect industry standard AI image indicators or when people disclose that they’re uploading AI-generated content. MetaMonika Bickert, Vice President of Content Policy Inizialmente le piattaforme non riusciranno a etichettare tutto precisamente, ma nel tempo impareranno a farlo. E questa può essere una chiave vincente contro l'uso malevolo di questi sistemi. -------------------------------------------------------------------------------- STABLE AUDIO 2.0: GENERAZIONE DI AUDIO DI QUALITÀ Stability AI ha rilasciato Stable Audio 2.0: un modello in grado di generare tracce musicali di alta qualità. Fino a 3 minuti di audio a 44,1KHz. È stata aggiunta la possibilità di usare prompt multimodali che comprendono un audio in input per integrare il contesto. Il modello è stato addestrato su un dataset concesso in licenza da AudioSparx, e incorpora un sistema di riconoscimento per evitare eventuali violazioni di copyright. Stable Audio 2.0 di Stability AI > Un altro grande passo in avanti per la generazione dell'audio. -------------------------------------------------------------------------------- GPT-3.5 TURBO DIVENTA UTILIZZABILE PER IL FINE-TUNING OpenAI estende le funzionalità di fine-tuning con GPT-3.5 Turbo per dare la possibilità ai brand di creare modelli più aderenti a specifici domini. Tra le novità troviamo la creazione di checkpoint per ogni epoch, un playground comparativo per valutare le performance dei modelli, integrazioni con piattaforme di terze parti, metriche di valutazione sull'intero dataset di training, configurazione degli iperparametri. Introducing improvements to the fine-tuning API and expanding our custom models program We’re adding new features to help developers have more control over fine-tuning and announcing new ways to build custom models with OpenAI. Hanno annunciato anche un nuovo programma di fine-tuning assistito, con supporto di un team di esperti. -------------------------------------------------------------------------------- [RISORSA] UN COLAB PER GENERARE PROMPT EVOLUTI Anthropic, nella documentazione, fornisce un Colab Notebook per la generazione di prompt evoluti. Si tratta di un sistema efficace, ma anche molto semplice. Più utile ad acquisire nozioni in ambito di prompt engineering, rispetto all'utilizzo diretto. Vai al Colab Una volta compresa la tecnica, si possono creare prompt molto migliori di quelli che genera il tool. Ma rimane un'ottima base di partenza. Un Colab per generare prompt evoluti Il metodo è perfettamente estendibile a qualunque modello di linguaggio. -------------------------------------------------------------------------------- CHATGPT E LA NUOVA INDICAZIONE DELLE FONTI ChatGPT migliora l'indicazione delle fonti dalle quali estrae le risposte attraverso la navigazione. Lo annuncia OpenAI con un post su X, ed ecco alcuni esempi. La nuova indicazione delle fonti di ChatGPT -------------------------------------------------------------------------------- [RISORSA] UN CENSIMENTO IN CONTINUO AGGIORNAMENTO DI TUTTI I MODELLI GENERATIVI Ecosystem Graphs di Stanford è una raccolta in continuo aggiornamento che tiene traccia di tutti i modelli generativi con i riferimenti e le caratteristiche. Ecosystem Graphs di Stanford > La versione tabellare è comoda per la consultazione, mentre il grafo mette in > evidenza le relazioni tra modelli, dataset, applicazioni. -------------------------------------------------------------------------------- LLM E SICUREZZA: MANY-SHOT JAILBREAKING Anthropic ha pubblicato una ricerca dal titolo "Many-shot jailbreaking" che mette in evidenza una tecnica che sfrutta le ampie finestre di contesto dei modelli per eludere le misure di sicurezza. LLM e sicurezza: many-shot jailbreaking (Anthropic) > Il principio è semplicissimo: più esempi (shot) vengono forniti al modello nel > prompt, e più è possibile influenzarne il comportamento.. ecco perché > aumentando la finestra di contesto, possono aumentare anche i rischi. La tecnica è efficace sui modelli di Anthropic e di altre aziende, e implica l'uso di grandi quantità di testo in configurazioni specifiche per indurre i modelli a generare risposte potenzialmente dannose, nonostante siano addestrati per evitarlo. La ricerca evidenzia la necessità di sviluppare strategie di mitigazione per affrontare questa vulnerabilità, sottolineando come anche miglioramenti apparentemente positivi nei modelli di AI possono avere conseguenze impreviste. Many-shot jailbreaking Anthropic is an AI safety and research company that’s working to build reliable, interpretable, and steerable AI systems. -------------------------------------------------------------------------------- MODIFICA DELLE IMMAGINI GENERATE SU CHATGPT Nell'interfaccia di ChatGPT è stata integrata la nuova funzionalità di inpainting per le immagini generate. Aprendo l'immagine generata, è possibile selezionare un'area e modificarla attraverso un prompt testuale. Un esempio di modifica dell'immagine generata su ChatGPT La modifica interesserà solo la selezione. -------------------------------------------------------------------------------- CLAUDE 3 OPUS: TEST NELLO SVILUPPO SOFTWARE È stato selezionato uno dei test del benchmark "SWE-Bench", che contiene un'estrazione di problemi reali presenti su GitHub. In 4 minuti, con 37,5k token in input e 2,8k token in output, il modello ha condotto alla risoluzione del problema. La stima di risoluzione per uno sviluppatore è di 2-8 ore. > Cosa fa capire tutto questo? Che questi sistemi, integrati negli editor, > possono aiutare a migliorare le performance in modo importante. > I tested Claude 3 Opus on one of the problems on the hardest software > engineering benchmark for AI — real Github issues. > > It took ~4mins with 37.5k input tokens and 2.8k output tokens to *mostly* > solve it, with only minor hiccups.. > > This changes software development. > > 1/7 pic.twitter.com/YBeNxT9BWu > > — Deedy (@deedydas) March 31, 2024 Test di Claude 3 Opus in ambito dello sviluppo software > Ma NON SOLO.. Possono stimolare la creatività nelle persone, e portare a nuove > soluzioni che non si sarebbero mai implementate. -------------------------------------------------------------------------------- - GRAZIE - Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre persone, condividilo 🙂 ISCRIVITI ALLA NEWSLETTER Un appuntamento periodico dedicato all'aggiornamento e alla riflessione su tematiche relative all'intelligenza artificiale. Iscriviti alla Newsletter Email sent! Check your inbox to complete your signup. Gratuita. No Spam. Puoi disiscriverti quando vuoi.Consulta la privacy policy.

May 2, 2024 / Alessio Pomaro