__Data Analysis
-
[DL] CNN | 실습2 : Flower_Recognition__Data Analysis/__Machine Learning 2021. 5. 13. 01:59
GitHUB : https://github.com/H-Kyul/03.DeepLearning 하단 파일info 참고 - - 파일 MD1 : MODEL1 파일 MD2 : MODEL2 - 수정1 : image size, BATCH_SIZE, EPOCHS - 수정2 : LABEL_NAME : Dandelion 과 ROSE 순서가 변경되어 있어 잘못 학습되었던 것 같음. 변경 후, Dandelion 예측 확률이 높아짐. - 수정3 : Dense(128)를 늘리고, Dropout(0.5)을 낮춤. -> Dense(512), Dropout(0.3) (기존 모델이 학습이 덜 된다고 생각해서) [ 학습 결과 ] 파일 MD2 : SCORE Epoch13에서 Accuracy : 0.8172 까지 올랐으나 loss와 vali..
-
[DL] 딥러닝 기초__Data Analysis/__Machine Learning 2021. 5. 6. 22:52
TIL - 회귀 가설함수 > Wx+b - 회귀 비용함수 > 경사하강: 그라디언트~ - 분류 가설함수 > 1/ 1-e^(-wx+b) -> 0~1 사이의 값으로 바꿈 -시그모이드: 바이너리 - 분류 비용함수-> -소프트맥스: 다중분류 - proba -크로스엔트로피: CE - onehot encoding, proba에서 가장 확률 높은 것만 최고(1) 나머지 0 -소프트맥스 안에 시그모이드 포함 - 분류/회귀 딥러닝 - 라이브러리 호출 import pandas as pd import numpy as np from keras.models import Sequential from keras.layers import Dense from sklearn.preprocessing import LabelEncoder, O..
-
[공모전] DACON : 신용카드 사용자 연체 예측 AI 경진대회__Data Analysis 2021. 4. 27. 23:15
참가 단위 : 팀 일정 : 0426 ~ 주제 : 신용카드 사용자 연체 예측 분류(V) / 회귀( ) URL : www.dacon.io/competitions/official/235713/overview/description/ 심사 기준: Logloss GitHub : https://github.com/H-Kyul/sub.teamproj.DACON.credit 0426. - 참가신청 - 팀 결성하려면 각자 1회 제출 필요 -> 각자 데이터 받기/ EDA 시작 0427. - 각자 EDA/전처리. - 팀 github에 upload해서 공유중. - object 피쳐 겟더미 사용 후 컬럼 재설정했더니 credit 피쳐에서 2가 사라지는 현상 생김. -> 컬럼 재설정은 메모리 관리에도 불필요한 작업이라 삭제하는게 ..
-
[ML] [Kaggle] House Prices - Advanced Regression Techniques__Data Analysis/__Kaggle 2021. 4. 21. 00:40
수업 중 개별 프로젝트(과제) url : www.kaggle.com/c/house-prices-advanced-regression-techniques/data?select=data_description.txt 제공 데이터 : - data_description.txt - sample_submission.csv - test.csv - train.csv 요약 : - 데이터 : 1460 row X 81 columns - Goal : predict the sales price for each house.(the value of the SalePrice variable.) - Metric : Submissions are evaluated on Root-Mean-Squared-Error (RMSE) between t..
-
[ML] sklearn / iris dataset__Data Analysis/__Machine Learning 2021. 4. 14. 00:19
-결측치가 없다. -데이터가 깔끔하다. -별다른 전처리를 하지 않고, 점수를 내봄. 1. 모듈 불러오기 import numpy as np import pandas as pd from sklearn.datasets import load_iris # 데이터셋 호출 from sklearn.tree import DecisionTreeClassifier from sklearn.ensemble import RandomForestClassifier from sklearn.linear_model import LogisticRegression from sklearn.neighbors import KNeighborsClassifier from sklearn.model_selection import train_test_sp..
-
[ML] confusion matrix__Data Analysis/__Machine Learning 2021. 4. 13. 10:20
정확도 accuracy : 전체 데이터 중 암이 아닌걸 아니라, 암을 암이라고 맞춘 정도 정밀도 precision : 암이라고 예상한 것 중 실제 암일 확률 (예측 암 -> 실제 암) 재현율 recall : 실제 암인 사람 중 예측도 암일 확률 (실제암 -> 예측 암) F1 : 정밀도와 재현율의 조화 - 정밀도에서 FP 가 높으면 : 정상을 암으로 예측. 즉 암이라고 진단했지만, 실제 정상인 경우 -> 재검 등 진행 가능성 단, 스팸에서는 큰 문제. 긴급하고 중요한 메일이 스팸메일함에 들어가 있다면? - 재현율에서 FN 이 높으면 문제 : 실제 암을 정상으로 잘못 예측, 실제 사기를 정상 거래로 예측하면 문제 - 정밀도와 재현율은 한쪽이 낮아지면 한쪽이 높아진다. - 둘의 점수 차이가 크면 F1 스코어도..
-