본문 바로가기

Coding

Time Series Classification - CNN을 비롯한 Deep Learning으로 *편의를 위해 코드 부분은 캡쳐로 대체* 회사 내 교육으로 CNN 등 Deep Learning에 대해서 배웠다. 마지막에 Time Series Classification을 CNN 등으로 분류하는 프로젝트를 진행했다. 사실, 그 전에 다른 문제들도 직접 풀어보긴 했지만.... Time Series 문제들에 대해서 많은 시간을 할애했기에 해당 문제들에 관해서만 정리를 해본다. 실습이 colab+구글 드라이브로 진행됐기에 필요한 구글 드라이브 마운트 과정. 먼저, 해당 데이터의 label을 확인해본다. 0은 y축으로 좀 고르게 분포되어 있고 1은 y축으로 고르지 못하고 들쑥 날쑥하다. (Min-Max를 주목해보자_) 그리고 X.shape를 통해 차원을 확인해줬는데, 차원을 미리 파악하는 것은 꽤 중요하다. (.. 더보기
house price - 3 - 모델 나는 토끼가 좋은 사람 2편에 이어서.. 사실 전처리 과정이 다 끝난 건 아닌데, 새로 특성도 추가했으므로 Skew된 정도를 파악하고 Boxcox 변환으로 표준화 해주는 과정을 거친다. 1. Skew? => '비스듬한' 이런 뜻인데, 비대칭적인 데이터일수록 Skewness가 높다. 이를 펴줘야 더 좋은 모델을 만들 수 있다. https://dining-developer.tistory.com/18 비대칭(skewed) 데이터를 처리하는 3가지 방법 / Skewed Data 실세계의 데이터는 복잡하다. 완벽하지도 않다. 그렇기 때문에 일부 학습 데이터셋은 모델링에 사용되기 전에 전처리가 필요하다. Linear regression 모델을 예로 들어 보자. Linearity : 선형성. 예측 dining-dev.. 더보기
house price - 2 - 전처리 house price 첫번째 시간은 데이터들을 파악하는 데에 집중했다. 그러다가 문득, 이런 전처리 없이 학습하면 어떻게 될 지 궁금해졌다. 나는 토끼가 좋다 corr_house = train.corr() top_corr_features = corr_house.index[abs(corr_house["SalePrice"])>=0.5] top_corr_features subset=train[['OverallQual', 'YearBuilt', 'YearRemodAdd', 'TotalBsmtSF', '1stFlrSF', 'GrLivArea', 'FullBath', 'TotRmsAbvGrd', 'GarageCars', 'GarageArea', 'SalePrice']] y = subset['SalePrice'] X.. 더보기
house price - 1 - 파악 3년 전에 Kaggle의 House Price Prediction 프로젝트를 진행했었다. 지금도 마찬가지지만, 그때도 높은 레벨의 스킬을 가지고 있지 않아서 이런저런 것들을 참고하면서 어떻게든 해보려고 발버둥쳤었던 기억이 있다. 공부 하는 김에 과거에 대한 기록을 다시 보는 것도 좋은 시간이 될 것 같아, 정리해본다. 가장 먼저, Feature들을 확인해줬다. # train과 test 데이터 세트 불러오기. train = pd.read_csv('./train.csv') test = pd.read_csv('./test.csv') train.info() 엄청 많은데... 이때 당시에 사전 같은 걸 만들어서 해당 Feature들이 어떤 것을 의미하는 지에 대해서도 분석하려 했었다. 의미가 없는 행위는 아니고 .. 더보기
과거 정리 - Untitled4.ipynb(타이타닉, 결정나무, pd.cut(), 결측치 처리 등) 최근에 ML/AI 쪽에 관심이 생기면서 책을 사서 공부까지 해보고 있는데, 옛날에는 import 해서 다른 학습 모델들을 가져다 썻었던 것에 비해서 책의 내용은 직접 구현하고 있으니 괴리감이 있었다. 기억이 희석되고 대체되기 보다는 기존의 내가 알던 것과 새로운 것을 비교해가면서 공부하려고 한다. Untitled3 이 없는 이유는... wine 관련 데이터에 대한 분석인데, 내용은 이전과 대부분 같기 때문이다. --------------------------------------------------------------------------------------------------------------------------------------------------------- import panda.. 더보기
과거 정리 - Untitled2.ipynb(Boston, .corr(), rmse, scatter, .drop) 최근에 ML/AI 쪽에 관심이 생기면서 책을 사서 공부까지 해보고 있는데, 옛날에는 import 해서 다른 학습 모델들을 가져다 썻었던 것에 비해서 책의 내용은 직접 구현하고 있으니 괴리감이 있었다. 기억이 희석되고 대체되기 보다는 기존의 내가 알던 것과 새로운 것을 비교해가면서 공부하려고 한다. --------------------------------------------------------------------------------------------------------------------------------------------------------- 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 from sklearn.d.. 더보기
과거 정리 - Untitled1.ipynb (Iris, Decision Tree) 최근에 ML/AI 쪽에 관심이 생기면서 책을 사서 공부까지 해보고 있는데, 옛날에는 import 해서 다른 학습 모델들을 가져다 썻었던 것에 비해서 책의 내용은 직접 구현하고 있으니 괴리감이 있었다. 기억이 희석되고 대체되기 보다는 기존의 내가 알던 것과 새로운 것을 비교해가면서 공부하려고 한다. --------------------------------------------------------------------------------------------------------------------------------------------------------- 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 from sklearn.data.. 더보기
과거 정리 - Untitled0.ipynb (import, plt 등) 최근에 ML/AI 쪽에 관심이 생기면서 책을 사서 공부까지 해보고 있는데, 옛날에는 import 해서 다른 학습 모델들을 가져다 썻었던 것에 비해서 책의 내용은 직접 구현하고 있으니 괴리감이 있었다. 기억이 희석되고 대체되기 보다는 기존의 내가 알던 것과 새로운 것을 비교해가면서 공부하려 한다. ------------------------------------------------------------------------------------------------------------------------------------------------------ 실습 첫번째였던 걸로 기억한다. import 기능에 대해 배웠다. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 impor.. 더보기