CosineSimilarity

(Cosinus-Ähnlichkeit): Gibt die Ähnlichkeit zwischen zwei Einbettungsvektoren als Zahl zwischen -1 (entgegengesetzt) und 1 (ähnlich) zurück.

Format 

CosineSimilarity ( v1 ; v2 )

Parameter 

v1 and v2 – jeder Textausdruck, jedes Textfeld oder Containerfeld, das Einbettungsvektoren enthält. Im Allgemeinen sollten die beiden Einbettungsvektoren von demselben Modell erzeugt werden, damit diese Funktion einen sinnvollen Wert zurückgibt.

Zurückgegebener Datentyp 

Zahl

Ursprung in Version 

21.0

Beschreibung 

Diese Funktion gibt ein Maß für die Ähnlichkeit zwischen zwei Einbettungsvektoren unter Verwendung der Cosinus-Methode zurück. Bei der Einbettung von Vektoren ist die Cosinus-Ähnlichkeit ein nützliches Maß dafür, wie ähnlich zwei Textwerte wahrscheinlich sind. Die Ergebnisse reichen von -1 bis 1 (einschließlich), wobei Werte näher an 1 eine höhere semantische Ähnlichkeit, 0 keine Ähnlichkeit und -1 Unähnlichkeit anzeigen.

Wenn v1 und v2 Text sind, müssen sie in Form von JSON-Arrays vorliegen. Die Vektoren müssen auch die gleichen Abmessungen haben (die Anzahl der Elemente in den Arrays muss gleich sein). Normalerweise verbessert die Verwendung von Einbettungsvektoren als binäre Containerdaten jedoch die Leistung.

Beispiel 1 

CosineSimilarity ( "[0.2198736, -0.4397852, ... ]" ; "[0.2198736, -0.4397852, ... ]" ) gibt .24175542211599998499 für ein bestimmtes Modell zurück.

Beispiel 2 

CosineSimilarity ( v1 ; v2 ) gibt .54682693950088512302 für ein bestimmtes Modell zurück, wenn die Felder v1 und v2 Einbettungsvektoren für den Text „Claris“ bzw. „Claire“ enthalten.