포디 Podi
또렷한 기억보다 글이 낫다
포디 Podi
  • 분류 전체보기 (83)
    • 책 (14)
      • 기록 (14)
      • 한줄 (0)
    • IT (62)
      • 기록 (61)
    • 일상 (5)
      • 음식 (0)
      • 기록 (5)
    • 게임 (0)
      • 몬스터헌터 (0)

블로그 메뉴

  • 홈으로
  • 방명록
  • 태그들
  • 깃허브
  • 유튜브
  • 인스타

공지사항

인기 글

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
포디 Podi

또렷한 기억보다 글이 낫다

머신러닝 02.
IT/기록

머신러닝 02.

2020. 9. 15. 18:39
728x90

지난 화 핵심

컴퓨터는 글자를 이해 못하니 수치화하고 범위를 데이터 스케일링(조절)해야 한다.

컴퓨터가 이해할 수 있는 데이터를 모델에 넣어서 데이터 예측 결괏값이 나온다. 

 

 


머신러닝에서 조심해야 할 부분 중 하나!

모델을 만들어서 데이터를 만들 때 예측하는 것이지,

너무 오버하면 일반화시키지 못한다.

즉, 너무 훈련 데이터에만 하면 안 된다는 의미!

 

underfitting(언더피팅)

트레이닝이 제대로 안돼서 성능이 안 나올 때

 

overfitting(오버피팅)

너무 샘플데이터로만 맞추려고 할 때

 

머신러닝 기법 (알고리즘)

1. KNN (최근접 이웃)

K는 이웃의 숫자를 의미한다.

새로운 데이터가 들어왔을 때 주변 이웃으로 판단하는 것.

(출처 : https://www.datacamp.com/community/tutorials/k-nearest-neighbor-classification-scikit-learn)

 

KNN에서는 데이터와 데이터 사이의 거리를 구해야 하는데,

이때 거리를 구하는 방식은 두 가지가 있다.

 

1. 유클리드 거리 (Euclidean Distance)

일반적으로 점과 점 사이의 거리를 구하는 것

 

2. 맨해튼 거리 (Manhattan Distance)

x축과 y축을 따라간 거리

'맨해튼 시내에는 빌딩이 많아 A->B로 이동할 때 격자 모양의 길을 따라가야 한다.' 라고 해서 생겨남

 

 

2. Decision tree (결정트리)

 

의사 결정 트리로, 의사 결정 분석에서 목표에 가장 가까운 결과를 낼 수 있는 전략을 찾기 위해 주로 사용되는 기법

(출처 https://medium.com/@chiragsehra42/decision-trees-explained-easily-28f23241248)

 

3. Ramdom Forest (랜덤 포레스트)

랜덤 포레스트는 앙상블 기법 중 하나로, 

학습된 데이터의 decision tree를 모두 돌려서, 그 결과를 확인하는 것이다.

(출처 https://medium.com/@williamkoehrsen/random-forest-simple-explanation-377895a60d2d)

 

앙상블 기법

통계학과 기계학습에서 앙상블 학습법은 학습 알고리즘(arning algorithm)들을 따로 쓰는 경우에 비해 더 좋은 예측 성능을 얻기 위해 다수의 학습 알고리즘을 사용하는 방법으로, 여러 개의 모델을 학습시켜 예측 결과를 이용해서 하나의 모델보다 더 나은 예측 성능을 얻기 위해 사용하는 방법이다.

 

4. SVM (support vector machine, 서포트 벡터 머신)

 

가운데 선을 결정선 바운더리라고 하는데, 두 가지 특징 중 가장 가까운 두 개가 있다면 선택하고 걔 중 먼 곳에 선을 긋는다.

패턴 인식, 자료 분석을 위한 지도 학습 모델이며, 주로 분류와 회귀 분석을 위해 사용한다.

(출처 https://ko.wikipedia.org/wiki/%EC%84%9C%ED%8F%AC%ED%8A%B8_%EB%B2%A1%ED%84%B0_%EB%A8%B8%EC%8B%A0)

 


 

XGboost (XG부스트)

XGBoost는 Gradient Boosting 알고리즘을 분산 환경에서도 실행할 수 있도록 구현해놓은 라이브러리이다. 

(출처: https://bcho.tistory.com/1354)

 

 


끄적

모델은 일반화가 중요하다 

cross_val_score

 

Testing

elf = SVC()

# clf.fit 를 이용하면 끝..

clf.fit(train_date, target)

 

test_data = test.drpo(“Passengerld”, axis=1).copy()

prediction = clf.predict(test_data)

 

clf.predict ( 예측 ) 

 

 

 

'IT > 기록' 카테고리의 다른 글

NodeJS에서 엑셀 파일 읽고 쓰기! #1  (0) 2021.06.01
React Native에서 사용자 로그인 상태 유지는 어떻게?  (0) 2021.05.28
머신러닝. 01  (0) 2020.09.15
고객 세분화  (0) 2020.09.15
웹 크롤링 기록  (0) 2020.09.15
    'IT/기록' 카테고리의 다른 글
    • NodeJS에서 엑셀 파일 읽고 쓰기! #1
    • React Native에서 사용자 로그인 상태 유지는 어떻게?
    • 머신러닝. 01
    • 고객 세분화
    포디 Podi
    포디 Podi
    기록은 복리다

    티스토리툴바