CosineSimilarity

Restituisce la similarità tra due vettori di embedding come numero compreso tra -1 (opposto) e 1 (simile).

Formato

CosineSimilarity ( v1 ; v2 )

Parametri

v1 e v2 - qualsiasi espressione di testo, campo di testo o campo Contenitore contenente vettori di embedding.

Tipo di dati riportato

Numero

Creata nella versione

21.0

Descrizione

Questa funzione restituisce una misura della similarità tra due vettori di embedding utilizzando il metodo del coseno. Per i vettori di embedding, la similarità del coseno fornisce una misura utile delle probabilità che due valori di testo siano simili. I risultati vanno da -1 a 1 (incluso): i valori più vicini a 1 indicano una maggiore similarità semantica, 0 indica l'assenza di similarità e -1 indica una differenza.

Se v1 e v2 sono testo, devono essere sotto forma di array JSON. I vettori devono anche avere le stesse dimensioni (il numero di elementi negli array deve essere lo stesso). In genere, tuttavia, l'uso di vettori di embedding come dati contenitore binari migliora le prestazioni.

Note

Sono necessari vettori di embedding normalizzati. Per garantire compatibilità e performance, tutti i vettori di embedding devono essere generati dallo stesso modello; la combinazione di vettori di embedding generati da modelli diversi non è supportata.

Esempio 1

CosineSimilarity ( "[-0.043686170000000003333, 0.042094484000000001456, ... ]" ; "[-0.049242082999999998993, 0.040926795000000001923, ... ]" ) restituisce .90848158767415143622 per un particolare modello.

Esempio 2

CosineSimilarity ( v1 ; v2 ) restituisce .54682693950088512302 per un particolare modello quando i campi v1 e v2 contengono rispettivamente vettori di embedding per il testo "Claris" e "Claire".