CosineSimilarity
将两个嵌入向量之间的相似性返回为 -1(相反)与 1(相似)之间的数字。
格式
CosineSimilarity ( v1 ; v2 )
参数
v1
和 v2
- 任何包含嵌入向量的文本表达式、文本字段或容器字段。
返回的数据类型
数字
原始版本
21.0
说明
该函数使用余弦方法返回两个嵌入向量之间相似性的度量。对于嵌入向量,余弦相似性为两个文本值的相似程度提供了有用的衡量标准。结果从 -1 到 1(含)不等,值接近 1 表示更高的语义相似性,0 表示没有相似性,-1 表示相反。
如果 v1 和 v2 是文本,则必须为 JSON 数组的形式。向量也必须具有相同的维度(数组中的元素数量必须相同)。不过,通常使用嵌入向量作为二进制容器数据可以提高性能。
注释
-
需要规范化的嵌入向量。所有嵌入向量必须从同一模型生成,以确保兼容性和性能;不支持混合来自不同模型的嵌入向量。
示例 1
CosineSimilarity ( "[-0.043686170000000003333, 0.042094484000000001456, ... ]" ; "[-0.049242082999999998993, 0.040926795000000001923, ... ]" )
对特定模型返回 .90848158767415143622。
示例 2
当 v1 和 v2 字段分别包含文本“Claris”和“Claire”的嵌入向量时,CosineSimilarity ( v1 ; v2 )
对特定模型返回 .54682693950088512302。