티스토리 뷰

728x90
반응형

1. 코사인 유사도의 정의

코사인 유사도는 두 벡터 간의 각도를 기반으로 유사성을 측정합니다. 두 벡터 AABB에 대해 코사인 유사도는 다음과 같이 정의됩니다:

 

 

  • 분자: 두 벡터의 내적 (A⋅B).
  • 분모: 두 벡터의 크기(노름)의 곱 (∣∣A∣∣⋅∣∣B∣∣).

코사인 유사도의 결과는 다음과 같이 코사인 함!수에 의해 결정됩니다:

  • θ(theta: 두 벡터 사이의 각도.

2. 코사인 함수의 특성

코사인 함수는 각도 θ(theta의 값에 따라 −1-1에서 11 사이의 값을 가집니다:

 

 

두 벡터 간 각도와 코사인 값의 관계:


3. 코사인 유사도가 −1-1에서 11 사이인 이유

  1. 벡터 내적과 각도:
    • 벡터 내적은 각도 θ(theta와 벡터 크기에 따라 다음과 같이 표현됩니다: 
    • 따라서 코사인 유사도는 다음과 같이 계산됩니다: 


  2. 정규화:
    • 분모 ∣∣A∣∣⋅∣∣B∣∣ 는 벡터의 크기(노름)의 곱으로, 항상 양수입니다.
    • 결과적으로 코사인 유사도는 cos⁡(θ) 값과 동일하며, −1≤ cos⁡(θ) ≤1 범위를 갖습니다.

 

 


4. 코사인 유사도의 값 해석

  • 1:
    • 두 벡터가 완전히 동일한 방향.
    • 예: [1, 2, 3]와 [2, 4, 6] (스칼라 배).
  • 0:
    • 두 벡터가 직교(서로 독립적)하여 관계가 없음.
    • 예: [1, 0]와 [0, 1].
  • −1:
    • 두 벡터가 반대 방향.
    • 예: [1, 0]와 [-1, 0].

5. 코사인 유사도의 특징

  • 크기와 상관없이 방향성만 평가:
    • 두 벡터의 크기가 다르더라도, 방향이 같으면 높은 유사도로 평가.
    • 예: [1, 2, 3]와 [10, 20, 30]은 코사인 유사도가 1.
  • 값이 −1 에서 1 사이에 제한:
    • 이 범위는 코사인 함수의 정의에 의해 결정.
    • 결과를 직관적으로 해석하기 쉬움.

6. 코사인 유사도와 다른 유사도 지표 비교

특징코사인 유사도유클리드 거리

초점 방향성(각도) 두 점 간의 절대 거리
데이터 크기 민감도 크기 무시 크기 차이에 민감
희소 데이터 적합성 적합 적합하지 않음
값의 범위 −1-1에서 11 00에서 ∞\infty

결론

코사인 유사도가 −1에서 1 사이 값을 가지는 이유는 코사인 함수 자체가 두 벡터 간의 각도에 따라 −1≤cos⁡(θ)≤1범위를 가지기 때문입니다. 이는 벡터 간 방향성을 측정하는 데 유용하며, 크기를 무시하고 유사도를 평가할 수 있는 효율적인 방법입니다.

728x90
반응형