CosineSimilarity

将两个嵌入向量之间的相似性返回为 -1(相反)与 1(相似)之间的数字。

格式 

CosineSimilarity ( v1 ; v2 )

参数 

v1v2 - 任何包含嵌入向量的文本表达式、文本字段或容器字段。一般来说,两个嵌入向量应该由相同的模型生成,以便该函数返回一个有意义的值。

返回的数据类型 

数字

原始版本 

21.0

说明 

该函数使用余弦方法返回两个嵌入向量之间相似性的度量。对于嵌入向量,余弦相似性为两个文本值的相似程度提供了有用的衡量标准。结果从 -1 到 1(含)不等,值接近 1 表示更高的语义相似性,0 表示没有相似性,-1 表示相反。

如果 v1 和 v2 是文本,则必须为 JSON 数组的形式。向量也必须具有相同的维度(数组中的元素数量必须相同)。不过,通常使用嵌入向量作为二进制容器数据可以提高性能。

示例 1 

CosineSimilarity ( "[0.2198736, -0.4397852, ... ]" ; "[0.2198736, -0.4397852, ... ]" ) 对特定模型返回 .24175542211599998499

示例 2 

当 v1 和 v2 字段分别包含文本“Claris”和“Claire”的嵌入向量时,CosineSimilarity ( v1 ; v2 ) 对特定模型返回 .54682693950088512302