9个数据科学中常见距离度量总结以及优缺点概述
许多算法,无论是监督或非监督,都使用距离度量。这些度量,如欧几里得距离或余弦相似度,经常可以在k-NN、UMAP、HDBSCAN等算法中找到。理解距离测量域比你可能意识到的更重要。以k-NN为例,这是一种经常用于监督学习的技术。作为默认值,它通常使用欧几里得距离。它本身就是一个很大的距离。但是,如果您的数据是高维的呢?那么欧几里得距离还有效吗?或者,如果您的数据包含地理空间信息呢?也许haversine 距离是更好的选择!知道何时使用哪种距离量度可以帮助您从分类不正确的模型转变为准确的模型。在本