R 머신러닝 데이터 분석1
최근에 바쁘다는 핑계로 블로그에 신경을 못 썻습니다.
오늘부터 조금씩 러닝스푼즈에서 배웠던 나성호 강사님의 R 머신러닝 강의를 복습하도록 하겠습니다.
머신러닝이란?
정의
- 머신러닝은 인공지능의 한 분야로 컴퓨터가 데이터를 학습할 때 사용되는 다양한 알고리즘을 포괄하는 기법을 의미한다
- 인공지능이 더 포과절인 개념이며 머신러닝은 인공지능의 부분집합 이라고 할 수 있다.
- 딥러닝은 머신러닝 알고리즘의 한 종류인 인공신경망(Artificial Neural Network)에서 진화된 형태이다.
- 목표변수의 유무에 따라 지도학습, 비지도학습으로 구분한다.
- 목표변수가 있는 지도학습은 목표변수가 명목형이면 분류, 연속형이면 회귀 알고리즘으로 나눈다.
- 목표변수가 없는 비지도학습은 차원축소, 군집화 및 추천 알고리즘 등을 포함한다.
인공지능 vs 머신러닝 vs 딥러닝
- 인공지능: 인간이 학습하는 과정을 컴퓨터로 구현하여 적용한 광범위한 개념
- 머신러닝: 컴퓨터가 데이터에 내재되어 있는 패턴을 학습하는 인공지능의 일부
- 딥러닝: 인가의 뇌가 학습하는 방법을 모사한 인공신경망 기법이 발전된 형태
머신러닝 알고리즘의 종류
- 머신러닝은 목표번수의 유무에 따라 지도학습과 비지도학습으로 구분할 수 있다.
- 지도학습은 목표변수의 형태에 따라 분류와 회귀로 구분할 수 있으며, 비지도학습은 차원축소, 군지화, 연관성 규칙 등으로 나눌 수 있다.
지도학습
- 분석하려는 데이터셋에 목표변수가 있는 경우, 지도학습을 실행한다.
- 목표변수가 범주형인 경우, 분류(Classification) 모형을 적합한다.
- 목표변수가 이진 분류 및 레벨이 여러 개인 다항(multi-class) 분류가 있습니다.
- 목표변수가 연속형인 경우, 회귀(Regression) 모형을 적합한다.
- 목표변수를 여러 범주로 구분하여, 예를 들어 몸무게를 기준으로 라이트급, 헤비급 등의 범주형 데이터로 변환하는 경우 분류 모형에 사용할 수 있다.
척도의 종류
- 명목척도(nominal scale)
- 이름을 나타내는 척도
- 숫자가 아니므로 빈도수 측정
- 국가명, 학교명, 혈액형 등
- 서열척도 (ordinal scale)
- 순서를 나타내는 척도
- 간격이 달라 사칙연산 불가
- 성적, 등급, 학령 등
- 등간척도 (interval scale)
- 절대 영점 없음 (ex. 0’c) -> 연속적인 스펙트럼 중 하나
- 가감연산 및 평균 계산 가능
- 온도, 리커트 5점 척도 등
- 비율척도
- 절대 영점 있음 (ex. 0km)
- 사칙연산 가능
- 거리, 무게, 시간 등
비지도학습
- 비지도학습은 목표변수가 없다는 특징이 있다.
- 차원축소는 p개의 입력변수를 p보다 작은 m개로 줄여서 다른 알고리즘에 적용할때 사용
- 군집화는 전체 데이터를 몇 개의 세부 근접으로 나눌 때 사용한다. 군집화는 행(row)을 줄인다는 점에서 차원축소와 다르다.
- 연관성 규칙은 조건부 확률을 이용하여 서로 연관성이 높은 규칙을 발견하고자 할때 사용한다.