전체 글(65)
-
방문자 편의사항
보호되어 있는 글입니다.
2022.03.06 -
앙상블(Ensemble) 및 랜덤 포레스트(Random Forest) 실습 - MNIST 손글씨 분류
이 포스트는 허민석님의 유튜브 머신러닝 내용을 정리한 글입니다. 실습 코드는 도서 나의 첫 머신러닝/딥러닝에서 발췌해왔습니다. 실습 코드와 자료는 링크의 Github에서 볼 수 있습니다 이번 포스트에서는 MNIST 손글씨 데이터셋을 랜덤 포레스트 모델로 학습해보고, 동시에 의사결정 트리 모델을 학습하여 두 모델의 성능 차이를 시각화하여 비교해 보겠습니다. 추가로 이때까지 배운 kNN, SVM, Decision Tree 모델들을 앙상블 하여 보팅 하는 어그리게이팅 과정을 거쳐 더 좋은 예측 모델을 생성해보는 실습까지 진행해보겠습니다. 먼저 이전 포스트에서 살펴봤으나 다시 한번 랜덤 포레스트 모델에 대해 한 줄로 요약하자면 앙상블 기법을 사용하여 여러 의사결정 트리를 배깅하여 예측하는 모델입니다. 하나의 의..
2022.02.18 -
앙상블(Ensemble)과 랜덤 포레스트(Random Forest)
이 포스트는 허민석님의 유튜브 머신러닝 내용을 정리한 글입니다. 실습 코드는 도서 나의 첫 머신러닝/딥러닝에서 발췌해왔습니다. 실습 코드와 자료는 링크의 Github에서 볼 수 있습니다 이번 포스트에서는 앙상블 기법과 대표적인 앙상블 알고리즘인 랜덤 포레스트(Random Forest) 모델에 대해 알아보겠습니다. "백지장도 맞들면 낫다" 백지장도 맞들면 낫다, 작은 힘이라도 모이면 큰 힘이 될 수 있다는 의미입니다. 이는 앙상블 기법을 그대로 표현해주는 속담으로, 앙상블 기법은 여러 분류 모델을 조합하여 더 좋은 성능을 내는 기법입니다. 조금 더 자세히 보자면 앙상블 기법은 여러 학습 알고리즘을 사용하여 구성 학습 알고리즘만으로 얻을 수 있는 것보다 더 나은 예측 성능을 얻을 수 있는 기법이지만 단일 모..
2022.02.11 -
나이브 베이즈(Naive Bayes) 실습(3) - EDA, 영화 리뷰 긍정/부정 분류
이 포스트는 허민석님의 유튜브 머신러닝 내용을 정리한 글입니다. 실습 코드는 도서 나의 첫 머신러닝/딥러닝에서 발췌해왔습니다. 실습 코드와 자료는 링크의 Github에서 볼 수 있습니다 나이브 베이즈 마지막 실습 포스트입니다. 이번에는 영화 리뷰의 긍정과 부정을 분류해볼 것이며, 분류기로는 나이브 베이즈의 다항분포 나이브 베이즈 모델(Multinomial Naive Bayes)을 사용하겠습니다. 영화 리뷰 긍정/부정 분석 실습은 실제 네이버 영화, 카카오맵 리뷰와 관련된 것으로, 데이터 시각화 과정 및 데이터 전처리 과정에 중점을 두고 보는 것이 좋습니다. 이번 실습에서도 10개의 리뷰에 대해서만 학습할 것이므로 실제 네이버 영화 리뷰 데이터 EDA와 kaggle, bag of words meets ba..
2022.02.01 -
나이브 베이즈(Naive Bayes) 실습(2) - 스팸 메일 분류
이 포스트는 허민석님의 유튜브 머신러닝 내용을 정리한 글입니다. 실습 코드는 도서 나의 첫 머신러닝/딥러닝에서 발췌해왔습니다. 실습 코드와 자료는 링크의 Github에서 볼 수 있습니다 이전 포스트에서는 나이브 베이즈 분류기 중 하나인 가우시안 나이브 베이즈 모델을 사용해 꽃받침과 꽃잎 특징에 따른 붓꽃 종류를 분류해봤습니다. 이번 포스트에서는 다른 분류기인 베르누이 나이브 모델을 사용해, 수신된 이메일 중 스팸 메일을 분류해보겠습니다. 실제로 나이브 베이즈 모델은 스팸 메일 분류 등의 문서 분류에 적극 활용되고 있으며 높은 정확도를 보입니다. 이번에는 간단한 스팸 메일 분류를 위해, 학습과 테스트에 사용할 데이터들을 이메일 제목과 스팸 메일인지를 담은 레이블을 리스트로 직접 작성하여 사용하겠습니다. 먼..
2022.01.30 -
나이브 베이즈(Naive Bayes) 실습(1) - 붓꽃 분류
이 포스트는 허민석님의 유튜브 머신러닝 내용을 정리한 글입니다. 실습 코드는 도서 나의 첫 머신러닝/딥러닝에서 발췌해왔습니다. 실습 코드와 자료는 링크의 Github에서 볼 수 있습니다. 이번 포스트에서는 붓꽃(iris)의 꽃받침 특징을 데이터로 활용하여 붓꽃의 종류를 분류해보겠습니다. 학습 모델은 이전 포스트에서 알아본 나이브 베이즈 알고리즘 중 하나인 가우시안 나이브 베이즈 모델(Gaussian Naive Bayes)을 사용하겠습니다. 가우시안 나이브 베이즈 모델을 사용하는 이유는 붓꽃 데이터 특징들이 이산적이지 않은 연속적인 성질을 가지고 있기 때문이며, 자세한 내용은 이전 포스트를 참고해주시길 바랍니다. 붓꽃 분류는 연속적인 특징을 갖는 데이터 분류의 대표적인 예시로, 이미 사이킷런 내에 데이터가..
2022.01.29