R 머신러닝 데이터 분석4

데이터 표준화(Standardization)

정의

데이터 정규화

표준화와 정규화 관련함수

set.seed(seed=1234)
heights <- rnorm(n=1000,mean=172.4,sd=5.7)
# 가상의 키 데이터를 표준화한다
scaled1 <- scale(x=heights) # center 인자에는 평균, scale 인자에는 표준편차가 기본값으로 할당된다
summary(object = scaled1) # scaled1의 평균이 0이다
sd(x=scaled1) # scaled1의 표준편차는 1이다
scaled2<- scale(x=heights,
               center = min(heights), #center 인자에 최솟값을 할당한다
               scale = max(heights) - min(heights)) # scale 인자에 최대값가 최솟값의 차이를
                                                    # 할당한다
summary(object=scaled2) #scale2의 평균은 0은 아니지만 최솟값이0, 최댓값이 1이다
sd(x= scaled2)

다양한 거리 계산법

비유사성의 척도

거리의 개념

거리의 특징

거리의 종류

대표적인 거리 종류 몇 개만 알아보자

거리의 종류1: 맨하탄 거리
거리의 종류2: 유클리드 거리
거리의 종류3: 민코스프키 거리