Donne e Regine – Uomini e Re: maschi e femmine.

dimensione set di dati

fig.1

Qual è il ragionamento attuato dall’algoritmo in atto nella tecnologia Transformer? tentiamo una risposta attraverso la narrazione di come nasce. Nel 2013 Google libera una rete neurale artificiale su un corpus di tre milioni di parole tratte dai testi di Google News. L’obiettivo della rete neurale era cercare schemi regolari nel modo in cui le parole appaiono una accanto all’altra. Dal lavorio della rete nello spazio vettoriale è emerso che si potevano rappresentare questi modelli utilizzando la loro rappresentazione digitale in vettori.
Con circa 300 dimensioni/parametri fu trovato un modello predittivo delle relazioni tra le parole che Google Traslate poteva catturare e utilizzare nello svolgere il lavoro di traduzione e in questo modo ottenere sostanziali miglioramenti nei traduttori automatici.
Dal numero di parametri e dai token presi in considerazione (nell’analisi lessicale, un token è la scomposizione di un’espressione linguistica, in questo caso in parole o sillabe) sembra dipendere l’efficacia del modello predittivo.
La tecnologia si è talmente evoluta che i vettori arrivano a ricomprendere fino 340 milioni di parametri con BERT, nel 2018 l’attuale modello linguistico di Google, il primo ad utilizzare una architettura chiamata Transformer e arriva a trattare 2048 token.

Dall’ingegneria delle caratteristiche (qui si può trovare chi ne ha stabilito il fondamento scientifico) e dalla disponibilità di enormi depositi di dati nasce Transformer, un modello di deep learning che è composto principalmente da un encoder, che prende in input una sequenza di parole trasformandole in una rappresentazione ad alta dimensionalità di un insieme di dati composti da tutte le parole inserite nel prompt, e da un decoder, che assume in input la rappresentazione prodotta dall’encoder e la traduce in una sequenza di parole per l’output. L’immagine di apertura del presente articolo mostra l’infografica del suo funzionamento.

Nel 2022 GPT-3, il modello linguistico utilizzato da chatGPT, si basa su una rete di Transformer modificati e, tramite un processo di pre-allenamento generativo su masse di testo diversificato e non etichettato (con successiva discriminazione di ogni specifico task), prevede di volta in volta il prossimo token dimostrandosi molto rapido ed efficiente nel lavoro su file testuali. Proprio questo pre-allenamento generativo, operato su 175 billions (due milioni di milioni di parametri (che necessitano 800 GB di memoria per l’esecuzione), ha permesso a GPT-3 di migliorare significativamente le prestazioni nella comprensione e nell’elaborazione del linguaggio naturale rispetto alle precedenti generazioni.

Linguistica computazionale

TAB. 1 – fonte: https://www.immoderati.it/chatgpt-il-linguaggio-e-statistica-parte-1/

Queste tecniche elaborano i testi, ma anche immagini e audio, tenendo conto della struttura semantica “latente” del vocabolario usato nel corpus. Come?
Utilizzando l’ipotesi distributiva della linguistica computazionale: le parole che ricorrono in contesti simili tendono ad avere significati simili.
La macchina attraverso la rete neurale artificiale impara a incorporare un certo termine usando le parole vicine nel testo di input (prompt), nel caso visto in precedenza gli articoli di Google news e nel caso di chatGPT è pre-addestrato su oltre 45 TB di dati e centinaia di miliardi di parole, e il database di riferimento è gigantesco: nel training set di GPT-3 sono inclusi la Wikipedia inglese, Google Books e altri dataset molto corposi (TAB. 1).
Se il testo presenta “Parigi”, “Francia” e “Tokyo” sicuramente la parola che l’AI prevede possa seguire queste è “Giappone”. Emergono anche altri tipi di relazioni ad esempio l’uomo sta al re come la donna sta alla regina e altre relazioni come “sorella: donna :: fratello: uomo” e così via. Queste relazioni sono note come incorporamenti di parole. In base a questa semplice regola vengono etichettati i vettori di parole che saranno utili nel momento della generazione di nuovo testo. Secondo Tolga Bolukbasi della Boston University la modellizzazione di set di dati in questo modo è estremamente potente, ma può diventare palesemente sessista. Il genere ha origine da un simbolico che marca la differenza sminuendola. La figura 2 è utilizzata in moltissimi esempi pratici per descrivere il funzionamento delle reti neurali artificiali in corrispondenza della capacità di un algoritmo di distinguere semanticamente le parole e viene descritta Tolga Bolukbasi in questo modo:

La figura mostra come l’addestramento di questo tipo di rete rileverà alcune features semantiche. Per esempio, in questo caso puoi vedere che esiste un vettore che collega l’uomo alla donna e un altro tra re e regina, il che significa che la donna meno l’uomo sarà uguale alla regina meno il re. Si ottiene la stessa distanza in questo embedding [parola incorporata in un vettore] applicato a casi come “maschio-femmina”.

Per differenza la parola “femmina” viene definita come “non-maschio” e per l’ipotesi distributiva della linguistica computazionale, vista in precedenza, si può utilizzare per algoritmi predittivi del tipo: la relazione fra la parola maschio con femmina è uguale alla relazione della parola governatore con la parola governante (domestica), in questo modo l’algoritmo assegna il genere femminile alla professione della domestica.

linguistica computazionale

fig.2

Dallo spazio vettoriale l’AI scopre una relazione  fra parole che è del tipo:  re = uomo ne consegue che regina = donna. Alla stessa maniera se chiediamo all’AI di ricavare la x dalla relazione “padre sta a dottore come madre sta a ?” quindi padre =  dottore  madre =  infermiera. E la query “uomo: programmatore di computer :: donna: x” restituisce x = casalinga.

In altre parole, la parola incorporata [word embedded] può essere indubbiamente sessista. Ciò accade perché qualsiasi bias negli articoli che compongono il corpus del set di dati viene inevitabilmente catturato nella geometria dello spazio vettoriale. Nel caso di Google News, e aggiungo di Wikipedia inglese, Bolukbasi e il suo gruppo dicono  Si sarebbe potuto sperare che l’incorporamento di Google News mostrasse pochi pregiudizi di genere perché molti dei suoi autori sono giornalisti professionisti ma l’algoritmo rende visibile l’invisibilità del pregiudizio amplificandolo.
Qualsiasi pregiudizio contenuto nei set di dati viene automaticamente trasmesso a qualsiasi applicazione che lo sfrutti. Un esempio è il lavoro che utilizza gli incorporamenti per migliorare i risultati della ricerca sul Web. Se la frase “programmatore di computer” è più strettamente associata agli uomini che alle donne, la ricerca del termine nei “CV dei programmatori di computer” potrebbero classificare gli uomini nei primi posti della SERP penalizzando i CV delle donne.

I vettori pensiero.

Le nostre argomentazioni potrebbero essere riviste con la diffusione dei modelli linguistici di grandi dimensioni (MLL) per raffinare la tecnica delle parole incorporate attraverso i vettori pensiero, rappresentati in 3D. BERT e ChatGPT dovrebbero essere in grado di allenare l’AI a capire meglio il contesto della frase, che è  un modo per disambiguarne il significato. La Rete neurale artificiale legge contemporaneamente la sequenza di parole inserite apportando continui aggiustamenti per prove ed errori, in avanti e indietro e man mano che i propri nodi riconoscono la correttezza di una frase. Un modello linguistico addestrato in questo modo può avere un senso più profondo del contesto e del flusso linguistico rispetto ai precedenti modelli linguistici. In questo modo BERT e ChatGPT sembrano essere in grado di comprendere il contesto ed il senso delle parole e delle frasi che l’utente voleva dare in quel determinato contesto.

Il comportamento sia del search engine sia delle traduzioni di Google è cambiato notevolmente ed ora anche con chatGPT, AI generativa o conversazionale, possiamo apprezzare un raffinato modo di giocare al completamento delle frasi. Tuttavia per ChatGPT è necessario scrivere molto bene le frasi perchè per il modello il suggerimento è fondamentale. Aiuta l’IA a comprendere l’argomento o il contesto del testo da generare, a volte migliorando la capacità predittiva, altre volte peggiorandola e solo nel tempo potremo capirne fino in fondo la fenomenologia di questo straordinario sistema.

Per ora anche con l’approccio dei modelli linguistici di grandi dimensioni il bias algoritmico è ancora all’opera. Nonostante l’architettura, la potenza elaborativa e la finezza della Neural Machine Traslator, lo schema interpretativo all’origine del bias di genere non viene superato perché l’impianto semantico alla base del modello algoritmico definisce la posizione per differenza della donna e delle altre differenze nella lingua parlata e scritta.

Per tornare all’esempio mostrato qui, la sfortunata traslazione del pronome personale dall’inglese nella lingua italiana diventa sempre  maschile ed ha origine nell’impianto semantico dell’immaginario dei set di dati – tutti in lingua inglese e poi tradotti automaticamente – e del livello metaforico che si traduce in bias algoritmico perché l’allenamento dell’IA è sicuramente viziato all’origine nel set di dati. Comunque possiamo ben sperare perché il problema potrebbe essere risolto con altri set di dati e con l’utilizzo di una metodologia gender oriented che superi la retorica antropocentrica dei BIG DATA e contrasti il potere estrattivo delle piattaforme del software finalizzato alla pubblicità personalizzata e, con il fenomeno di chatGPT, a renderci tutti dei Beta Tester. Nonostante gli alti costi realizzativi  chatGPT è gratuito, proprio per promuovere un vasto coinvolgimento di noi umani che testiamo così le sue funzionalità in condizioni reali; quale miglior modo per scoprire i suoi possibili impieghi! Ma questa è un’altra storia ancora.