거리-재기
데이터 유사도

 

데이터 유사도(Similiaryity)는 이해하기도 쉽고, 계산하기 편리하여 굉장히 유용하다고 생각합니다. 데이터 유사도 중에는 거리를 기반으로 하는 '유클리디안 유사도'가 가장 쉽고 잘 알려져 있지만, 이 기회에 어떤 유사도들이 있는지 정리해 보았습니다.

 

 

 

1. 수치형 변수 기준

1) 거리 기반 유사도

   가. 유클리디안 거리

      - 벡터 사이의 거리를 측정하는 방법으로, 수학 시간에 한 번씩은 들어본 수식입니다. 값의 범위가 다를 경우, 범위가 큰 변수의 영향을 많이 받기 때문에 변수변환이 필요합니다.

 

   나. 맨하탄 거리

      - 사각형 격자로 이뤄진 지도에서 출발점-도착점까지를 가로지르지 않고 갈 수 있는 최단거리를 말합니다. 개체의 차원이 큰 경우 유클리디안 거리보다 좋은 것으로 알려져 있습니다.

 

   다. 민코스키 거리

      - '가'와 '나'를 일반화한 것으로, 각각의 거리 차에서 가장 큰 것만을 가지고 거리를 게산합니다. p가 1이면, 맨해튼 거리, p가 2이면 유크리드 거리와 동일합니다.

 

 

 

2) 각도 기반 유사도 

   가. 코사인 유사도 (cosine simiarity)

      - 두 벡터가 이루는 각도를 통한 유사도 측정 방식, 벡터 크기에 영향 받지 않고 벡터의 방향에만 초점을 둡니다. 값의 범위가 -1과 1사이인데 1에 가까울수록 유사도가 높습니다. 유사도가 높다는 애기는 각도가 작다는 애기와 동일합니다.

 

3) 공분산, 상관관계 기반 유사도

   가. Mahalanobis distance

      변수들 간의 공분산을 고려하여 거리를 측정하는 방법입니다. 값이 0가까울수록 유사합니다. 예를 들어 두 변수간에 상관관계가 있는 경우, 상관관계 상에 있는 데이터는 값이 멀더라도 더 가깝게 보고 상관관계에서 벗어난 데이터는 값이 가까갑더라도 더 멀게 봅니다.

 

   나. 피어슨 상관계수

      상관계수는 두 변수의 선형관계를 나타내는 지표입니다. 이를 이용해서 상관계수가 큰 경우 거리가 짧다고 보는 것입니다. 두 변수가 정규분포를 따를 때 최적이고, 이상치에 많이 민감합니다.

 

 

2. 빈도기반 유사도

   가. 자카드 유사도

     두 변수간의 교집하과 합집의 비율로 유사도를 측정하는 방법입니다. 0과 1사이의 값을 가지며 1에 가까울수록 유사합니다.

 

   나. 단순 매칭 계수

     두 변수가 이진 속성만들 가질 경우 측정하는 유사도 기준입니다. 전체 속성 중에 동일한 속성값을 가지는 비율입니다. 0과 1이 모두 유효해야 좋습니다. 1의 속성만 유효하다면, 값이 잘못 나올 수 있습니다. 0의 속성이 같은지도 비교하기 때문입니다.

  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기