__Data Analysis/__Machine Learning
-
[Scikit-learn] 사이킷런 | 머신러닝 라이브러리__Data Analysis/__Machine Learning 2021. 6. 17. 13:23
사이킷런 : 대표적인 파이썬 머신러닝 라이브러리 사이킷런 라이브러리 설치 pip install scikit-learn 사이킷런 주요 모듈 분류 모듈명 설명 참고 예제 데이터셋 sklearn.datasets 사이킷런에 내장된 예제 데이터셋 피쳐 처리 sklearn.preprocessing 데이터 전처리 가공에 필요한 기능 제공 (인코딩, 정규화, 스케일링 등) sklearn.feature_selection 영향력이 큰 피쳐를 우선순위대로 피쳐 선택하거나 차원 축소하는 기능 제공 sklearn.feature_extraction 텍스트 또는 이미지 데이터에서 피쳐 추출 sklearn.decomposition 차원 축소 기능 제공(PCA 등) 성능 평가 sklearn.metrics 분류, 회귀, 클러스터링 등에..
-
[DL] CNN | 실습2 : Flower_Recognition__Data Analysis/__Machine Learning 2021. 5. 13. 01:59
GitHUB : https://github.com/H-Kyul/03.DeepLearning 하단 파일info 참고 - - 파일 MD1 : MODEL1 파일 MD2 : MODEL2 - 수정1 : image size, BATCH_SIZE, EPOCHS - 수정2 : LABEL_NAME : Dandelion 과 ROSE 순서가 변경되어 있어 잘못 학습되었던 것 같음. 변경 후, Dandelion 예측 확률이 높아짐. - 수정3 : Dense(128)를 늘리고, Dropout(0.5)을 낮춤. -> Dense(512), Dropout(0.3) (기존 모델이 학습이 덜 된다고 생각해서) [ 학습 결과 ] 파일 MD2 : SCORE Epoch13에서 Accuracy : 0.8172 까지 올랐으나 loss와 vali..
-
[DL] 딥러닝 기초__Data Analysis/__Machine Learning 2021. 5. 6. 22:52
TIL - 회귀 가설함수 > Wx+b - 회귀 비용함수 > 경사하강: 그라디언트~ - 분류 가설함수 > 1/ 1-e^(-wx+b) -> 0~1 사이의 값으로 바꿈 -시그모이드: 바이너리 - 분류 비용함수-> -소프트맥스: 다중분류 - proba -크로스엔트로피: CE - onehot encoding, proba에서 가장 확률 높은 것만 최고(1) 나머지 0 -소프트맥스 안에 시그모이드 포함 - 분류/회귀 딥러닝 - 라이브러리 호출 import pandas as pd import numpy as np from keras.models import Sequential from keras.layers import Dense from sklearn.preprocessing import LabelEncoder, O..
-
[ML] sklearn / iris dataset__Data Analysis/__Machine Learning 2021. 4. 14. 00:19
-결측치가 없다. -데이터가 깔끔하다. -별다른 전처리를 하지 않고, 점수를 내봄. 1. 모듈 불러오기 import numpy as np import pandas as pd from sklearn.datasets import load_iris # 데이터셋 호출 from sklearn.tree import DecisionTreeClassifier from sklearn.ensemble import RandomForestClassifier from sklearn.linear_model import LogisticRegression from sklearn.neighbors import KNeighborsClassifier from sklearn.model_selection import train_test_sp..
-
[ML] confusion matrix__Data Analysis/__Machine Learning 2021. 4. 13. 10:20
정확도 accuracy : 전체 데이터 중 암이 아닌걸 아니라, 암을 암이라고 맞춘 정도 정밀도 precision : 암이라고 예상한 것 중 실제 암일 확률 (예측 암 -> 실제 암) 재현율 recall : 실제 암인 사람 중 예측도 암일 확률 (실제암 -> 예측 암) F1 : 정밀도와 재현율의 조화 - 정밀도에서 FP 가 높으면 : 정상을 암으로 예측. 즉 암이라고 진단했지만, 실제 정상인 경우 -> 재검 등 진행 가능성 단, 스팸에서는 큰 문제. 긴급하고 중요한 메일이 스팸메일함에 들어가 있다면? - 재현율에서 FN 이 높으면 문제 : 실제 암을 정상으로 잘못 예측, 실제 사기를 정상 거래로 예측하면 문제 - 정밀도와 재현율은 한쪽이 낮아지면 한쪽이 높아진다. - 둘의 점수 차이가 크면 F1 스코어도..
-