Trasformatore generativo pre-addestrato

Cosa è un generative pre-trained transformer (GPT)

I trasformatori generativi pre-addestrati (GPT) sono dei modelli di linguaggio (o modelli linguistici) di grandi dimensioni (Large Language Model o LLM) e costituiscono un framework molto promettente per l’intelligenza artificiale generativa. Il primo GPT è stato introdotto nel 2018 da OpenAI. I modelli GPT sono reti neurali artificiali basate sull’architettura transformer, pre-addestrate su grandi insiemi di dati di testo non etichettato e in grado di generare contenuti inediti simili a quelli umani. A partire dal 2023, la maggior parte degli LLM ha queste caratteristiche e a volte sono indicati in senso lato come GPT.

La serie GPT-n

OpenAI ha rilasciato modelli GPT molto influenti che sono stati numerati in modo sequenziale, per comporre la serie “GPT-n”. Ognuno di questi modelli era significativamente più capace del precedente, grazie all’aumento delle dimensioni (numero di parametri addestrabili) e dell’addestramento. Il più recente, GPT-4, è stato rilasciato nel marzo 2023. Questi modelli sono stati la base per i loro sistemi GPT più specifici, compresi i modelli perfezionati per seguire le istruzioni, che a loro volta alimentano il servizio chatbot ChatGPT. Abbiamo visto come funziona chatGPT in un precedente articolo, in cui sono approfondite alcune delle caratteristiche base del funzionamento di questo chatbot e quindi dei trasformatori generativi pre-addestrati.