度量距离时对数据做不做比例归一化(scale)

当我们处理数据时时常会遇到是否要对数据进行比例调整(scale)的问题，那么究竟应不应该做比例调整要取决于数据的实际含义。

前一段时间为了弄明白Gower Distance在网上查找了一个slides¹，里面介绍了很多常用距离，并且简单解释了数据比例尺度调整的问题。

画图可以看到A、B比较近，C、D比较近。

有些地区喜欢用feet来作为身高的度量单位，如果换成feet，数据会变成

画图的话可以看到此时A、C比较近，B、D比较近。

那么究竟哪两个人的数据比较接近呢？

我们来做一下scale,

结果发现这四个人距离差不多，分不出子类。

有四个观测，分别知道它们的变量x1和变量x2数值，在R中scale(dat) 会发现四个观测分散很远，如果直接画图，就发现其实A、B距离近，C、D距离远。

如果x1和x2分别代表经度和纬度，那么这个数据就不应该标准化，A、B两个地点本来就是距离近，标准化后它本身的特点就不存在了。

到底用不用归一化呢？

1.做不做归一化，要知道

\[d(i,j)=\sqrt{w_{1}(x_{i1}-x_{j1})^2+w_{2}(x_{i2}-x_{j2})^2+...+w_{n}(x_{in}-x_{jn})^n}\]

2.这些情况下必须归一化

3.这些情况下不要归一化

4.一般情况下

Reference

On Your Mark