카테고리 없음

벡터의 내적과 길이

4OurFuture 2024. 12. 15. 21:16
728x90
반응형

https://ko.khanacademy.org/math/linear-algebra/vectors-and-spaces/dot-cross-products/v/vector-dot-product-and-vector-length

 

Khan Academy

 

ko.khanacademy.org

벡터의 내적과 길이: 빅데이터 분석을 위한 기하학적 도구

빅데이터 분석에서는 데이터 포인트를 수치화하고, 이를 벡터로 표현하는 경우가 많습니다. 이런 벡터를 다룰 때 중요한 두 가지 개념이 있습니다: **벡터의 길이(Vector Magnitude)**와 **벡터의 내적(Dot Product)**입니다. 이 두 개념을 잘 이해하면 데이터 간의 관계와 유사성을 더 효과적으로 분석할 수 있습니다.

이 글에서는 벡터의 길이와 내적이 무엇인지 살펴보고, 이들이 어떻게 빅데이터 분석에서 활용되는지 알아보겠습니다.


벡터의 길이란?

벡터의 길이(크기, 또는 노름)는 벡터가 얼마나 "긴지"를 나타냅니다. 기하학적으로 벡터의 길이는 벡터의 원점에서 해당 벡터가 가리키는 지점까지의 거리입니다.

수식으로 나타내는 벡터의 길이

-차원 벡터 a=[a1,a2,…,an]의 길이 는 다음과 같이 계산합니다:

 

예를 들어, 2차원 벡터 a=[3,4]의 길이는:

벡터의 길이와 데이터의 크기

벡터의 길이는 데이터 포인트가 원점에서 얼마나 떨어져 있는지를 나타냅니다. 특히, 각 데이터 포인트의 특성값들이 클수록 벡터의 길이도 커집니다.


벡터의 내적과 길이의 관계

벡터 내적은 두 벡터 간의 유사성과 방향을 파악하는 데 사용되며, 벡터의 길이와 밀접한 관계가 있습니다.

 

벡터의 내적과 길이의 강의

두 벡터의 내적 공식

벡터 b의 내적은 다음과 같이 계산됩니다:

기하학적으로는 벡터의 길이와 두 벡터 사이의 각도 θ를 이용해 표현할 수 있습니다:

a⋅b=∣a∣∣b∣cos⁡(θ)

 

여기서:

  • ∣a∣는 벡터 a의 길이
  • ∣b∣는 벡터 b의 길이
  • θ는 두 벡터 사이의 각도

이 공식은 벡터의 내적이 단순히 값의 곱이 아니라, 두 벡터의 크기와 방향을 모두 고려한 연산임을 보여줍니다.

벡터 길이를 활용한 정규화

벡터를 정규화(Normalization)하면 벡터의 길이가 1이 됩니다. 즉, 방향은 그대로 유지하면서 크기만 1로 조정합니다. 정규화된 벡터 a는 다음과 같이 표현됩니다:

 

정규화된 벡터를 사용하면 내적이 순수한 유사도를 나타내게 됩니다.


빅데이터 분석에서 벡터 길이와 내적의 활용

1. 텍스트 유사도 분석

텍스트 데이터를 벡터로 변환한 후, 두 벡터 간의 내적을 계산하면 텍스트 유사도를 측정할 수 있습니다. 벡터 길이를 이용해 정규화하면 문서의 길이 차이를 보정하고 더 정확한 유사도를 계산할 수 있습니다.

  • 예시: TF-IDF 벡터를 정규화한 후 내적을 계산하여 두 문서가 얼마나 비슷한지 측정합니다.

2. 추천 시스템

사용자와 아이템의 특성을 벡터로 표현하고, 이 벡터 간의 내적을 통해 선호도를 예측합니다. 정규화된 벡터를 사용하면 사용자와 아이템 간의 관계를 더 공정하게 비교할 수 있습니다.

  • 예시: 넷플릭스가 사용자 취향과 영화의 특성을 내적을 통해 비교하여 영화를 추천합니다.

3. 이미지 분석

이미지를 픽셀 값으로 표현한 벡터의 길이를 이용해 이미지의 밝기나 특징의 강도를 측정할 수 있습니다. 내적을 통해 두 이미지 간의 유사성을 평가합니다.

  • 예시: 얼굴 인식 시스템에서 입력된 얼굴 이미지와 데이터베이스에 저장된 얼굴 벡터의 유사도를 비교합니다.

4. 차원 축소 (PCA)

주성분 분석(PCA)에서는 고차원 데이터를 저차원으로 축소하기 위해 벡터를 주성분에 투영합니다. 이때 내적과 벡터 길이를 이용합니다.

  • 예시: 고차원 금융 데이터를 2차원으로 축소해 시각화합니다.

결론: 빅데이터 분석에서 필수적인 벡터 기하학

벡터의 길이와 내적은 데이터 간의 관계를 이해하는 핵심 도구입니다. 텍스트 분석, 추천 시스템, 이미지 분석 등 다양한 빅데이터 분야에서 이 개념들은 실질적인 문제 해결에 활용됩니다. 벡터의 길이를 정규화하고 내적을 계산함으로써 데이터 간의 유사성을 더 정확하게 평가할 수 있습니다.

기하학적 시각을 빅데이터에 적용하면 데이터에서 숨겨진 인사이트를 발견하는 데 큰 도움이 됩니다.


참고: Khan Academy - 벡터 내적과 벡터 길이

728x90
반응형