CosineSimilarity

Devuelve la similitud entre dos vectores de incrustación como un número entre -1 (opuesto) y 1 (similar).

Formato

CosineSimilarity ( v1 ; v2 )

Parámetros

v1 y v2: cualquier expresión de texto, campo de texto o campo contenedor que contenga vectores de incrustación.

Tipo de datos devuelto

número

Se origina en

21.0

Descripción

Esta función devuelve una medida de la similitud entre dos vectores de incrustación mediante el método del coseno. En el caso de los vectores de incrustación, la similitud del coseno ofrece una medida útil de la probabilidad de que dos valores de texto sean similares. Los resultados oscilan entre -1 y 1 (incluidos). Los valores más próximos a 1 indican una mayor similitud semántica, 0 indica que no hay similitud y -1 que hay disparidad.

Si v1 y v2 son texto, deben presentar el formato de matrices de JSON. Los vectores también deben tener las mismas dimensiones (el número de elementos de las matrices debe ser el mismo). Sin embargo, por lo general, el uso de vectores de incrustación como datos contenedores binarios mejora el rendimiento.

Notas

Se requieren vectores de incrustación normalizados. Todos los vectores de incrustación deben generarse a partir del mismo modelo para garantizar la compatibilidad y el rendimiento; no se admite la combinación de vectores de incrustación de diferentes modelos.

Ejemplo 1

CosineSimilarity ( "[-0.043686170000000003333, 0.042094484000000001456, ... ]" ; "[-0.049242082999999998993, 0.040926795000000001923, ... ]" ) devuelve .90848158767415143622 para un modelo específico.

Ejemplo 2

CosineSimilarity ( v1 ; v2 ) devuelve .54682693950088512302 para un modelo específico cuando los campos v1 y v2 contienen vectores de incrustación para el texto "Claris" y "Claire", respectivamente.