CosineSimilarity

将两个嵌入向量之间的相似性返回为 -1(相反)与 1(相似)之间的数字。

格式 

CosineSimilarity ( v1 ; v2 )

参数 

v1v2 - 任何包含嵌入向量的文本表达式、文本字段或容器字段。

返回的数据类型 

数字

原始版本 

21.0

说明 

该函数使用余弦方法返回两个嵌入向量之间相似性的度量。对于嵌入向量,余弦相似性为两个文本值的相似程度提供了有用的衡量标准。结果从 -1 到 1(含)不等,值接近 1 表示更高的语义相似性,0 表示没有相似性,-1 表示相反。

如果 v1 和 v2 是文本,则必须为 JSON 数组的形式。向量也必须具有相同的维度(数组中的元素数量必须相同)。不过,通常使用嵌入向量作为二进制容器数据可以提高性能。

注释 

  • 需要规范化的嵌入向量。所有嵌入向量必须从同一模型生成,以确保兼容性和性能;不支持混合来自不同模型的嵌入向量。

示例 1 

CosineSimilarity ( "[-0.043686170000000003333, 0.042094484000000001456, ... ]" ; "[-0.049242082999999998993, 0.040926795000000001923, ... ]" ) 对特定模型返回 .90848158767415143622

示例 2 

当 v1 和 v2 字段分别包含文本“Claris”和“Claire”的嵌入向量时,CosineSimilarity ( v1 ; v2 ) 对特定模型返回 .54682693950088512302