'__Data Analysis' 카테고리의 글 목록 (2 Page)

[DL] CNN | 실습2 : Flower_Recognition

__Data Analysis/__Machine Learning 2021. 5. 13. 01:59

GitHUB : https://github.com/H-Kyul/03.DeepLearning 하단 파일info 참고 - - 파일 MD1 : MODEL1 파일 MD2 : MODEL2 - 수정1 : image size, BATCH_SIZE, EPOCHS - 수정2 : LABEL_NAME : Dandelion 과 ROSE 순서가 변경되어 있어 잘못 학습되었던 것 같음. 변경 후, Dandelion 예측 확률이 높아짐. - 수정3 : Dense(128)를 늘리고, Dropout(0.5)을 낮춤. -> Dense(512), Dropout(0.3) (기존 모델이 학습이 덜 된다고 생각해서) [ 학습 결과 ] 파일 MD2 : SCORE Epoch13에서 Accuracy : 0.8172 까지 올랐으나 loss와 vali..

[DL] 딥러닝 기초

__Data Analysis/__Machine Learning 2021. 5. 6. 22:52

TIL - 회귀 가설함수 > Wx+b - 회귀 비용함수 > 경사하강: 그라디언트~ - 분류 가설함수 > 1/ 1-e^(-wx+b) -> 0~1 사이의 값으로 바꿈 -시그모이드: 바이너리 - 분류 비용함수-> -소프트맥스: 다중분류 - proba -크로스엔트로피: CE - onehot encoding, proba에서 가장 확률 높은 것만 최고(1) 나머지 0 -소프트맥스 안에 시그모이드 포함 - 분류/회귀 딥러닝 - 라이브러리 호출 import pandas as pd import numpy as np from keras.models import Sequential from keras.layers import Dense from sklearn.preprocessing import LabelEncoder, O..

[공모전] DACON : 신용카드 사용자 연체 예측 AI 경진대회

__Data Analysis 2021. 4. 27. 23:15

참가 단위 : 팀 일정 : 0426 ~ 주제 : 신용카드 사용자 연체 예측 분류(V) / 회귀( ) URL : www.dacon.io/competitions/official/235713/overview/description/ 심사 기준: Logloss GitHub : https://github.com/H-Kyul/sub.teamproj.DACON.credit 0426. - 참가신청 - 팀 결성하려면 각자 1회 제출 필요 -> 각자 데이터 받기/ EDA 시작 0427. - 각자 EDA/전처리. - 팀 github에 upload해서 공유중. - object 피쳐 겟더미 사용 후 컬럼 재설정했더니 credit 피쳐에서 2가 사라지는 현상 생김. -> 컬럼 재설정은 메모리 관리에도 불필요한 작업이라 삭제하는게 ..

[ML] [Kaggle] House Prices - Advanced Regression Techniques

__Data Analysis/__Kaggle 2021. 4. 21. 00:40

수업 중 개별 프로젝트(과제) url : www.kaggle.com/c/house-prices-advanced-regression-techniques/data?select=data_description.txt 제공 데이터 : - data_description.txt - sample_submission.csv - test.csv - train.csv 요약 : - 데이터 : 1460 row X 81 columns - Goal : predict the sales price for each house.(the value of the SalePrice variable.) - Metric : Submissions are evaluated on Root-Mean-Squared-Error (RMSE) between t..

[ML] sklearn / iris dataset

__Data Analysis/__Machine Learning 2021. 4. 14. 00:19

-결측치가 없다. -데이터가 깔끔하다. -별다른 전처리를 하지 않고, 점수를 내봄. 1. 모듈 불러오기 import numpy as np import pandas as pd from sklearn.datasets import load_iris # 데이터셋 호출 from sklearn.tree import DecisionTreeClassifier from sklearn.ensemble import RandomForestClassifier from sklearn.linear_model import LogisticRegression from sklearn.neighbors import KNeighborsClassifier from sklearn.model_selection import train_test_sp..

[ML] confusion matrix

__Data Analysis/__Machine Learning 2021. 4. 13. 10:20

정확도 accuracy : 전체 데이터 중 암이 아닌걸 아니라, 암을 암이라고 맞춘 정도 정밀도 precision : 암이라고 예상한 것 중 실제 암일 확률 (예측 암 -> 실제 암) 재현율 recall : 실제 암인 사람 중 예측도 암일 확률 (실제암 -> 예측 암) F1 : 정밀도와 재현율의 조화 - 정밀도에서 FP 가 높으면 : 정상을 암으로 예측. 즉 암이라고 진단했지만, 실제 정상인 경우 -> 재검 등 진행 가능성 단, 스팸에서는 큰 문제. 긴급하고 중요한 메일이 스팸메일함에 들어가 있다면? - 재현율에서 FN 이 높으면 문제 : 실제 암을 정상으로 잘못 예측, 실제 사기를 정상 거래로 예측하면 문제 - 정밀도와 재현율은 한쪽이 낮아지면 한쪽이 높아진다. - 둘의 점수 차이가 크면 F1 스코어도..

[ML] 분류

__Data Analysis/__Machine Learning 2021. 4. 13. 10:02

분류 (Classification)

PROJ.

__Data Analysis 2021. 3. 29. 23:14

# 20210326~ 1. 주제 선정 : 무엇을 보여주고 싶은지 2. 데이터 수집 : api, csv, 웹크롤링 등 모든 데이터 가능 3. bootstrap pamplates 정하기 : 어떤 모양으로 보여줄건지 4. 데이터 전처리: SQL, 파이썬//데이터 시각화: 파이썬-플라스크

ABOUT ME

KL's notebook KL's notebook

티스토리툴바