CosineSimilarity

Restituisce la similarità tra due vettori di embedding come numero compreso tra -1 (opposto) e 1 (simile).

Formato 

CosineSimilarity ( v1 ; v2 )

Parametri 

v1 e v2 - qualsiasi espressione di testo, campo di testo o campo Contenitore contenente vettori di embedding. In generale, i due vettori di embedding dovrebbero essere prodotti dallo stesso modello in modo che questa funzione restituisca un valore significativo.

Tipo di dati riportato 

Numero

Creata nella versione 

21.0

Descrizione 

Questa funzione restituisce una misura della similarità tra due vettori di embedding utilizzando il metodo del coseno. Per i vettori di embedding, la similarità del coseno fornisce una misura utile delle probabilità che due valori di testo siano simili. I risultati vanno da -1 a 1 (incluso): i valori più vicini a 1 indicano una maggiore similarità semantica, 0 indica l'assenza di similarità e -1 indica una differenza.

Se v1 e v2 sono testo, devono essere sotto forma di array JSON. I vettori devono anche avere le stesse dimensioni (il numero di elementi negli array deve essere lo stesso). In genere, tuttavia, l'uso di vettori di embedding come dati contenitore binari migliora le prestazioni.

Esempio 1 

CosineSimilarity ( "[0.2198736, -0.4397852, ... ]" ; "[0.2198736, -0.4397852, ... ]" ) restituisce .24175542211599998499 per un particolare modello.

Esempio 2 

CosineSimilarity ( v1 ; v2 ) restituisce .54682693950088512302 per un particolare modello quando i campi v1 e v2 contengono rispettivamente vettori di embedding per il testo "Claris" e "Claire".