728x90

Data Science/Machine Running 4

[ML] Cross Entropy

회귀 문제에서는 MAE, MSE, RMSE등의 지표를 사용하고 분류 문제에서는 Cross Entropy라는 비용함수를 사용한다. "Cross-Entropy Loss", "Binary Cross-Entropy Loss", "Log Loss"는 모두 동일한 손실 함수를 가리키는 용어이다. 이들 용어는 주로 분류 문제에서 사용되며, 특히 이진 분류(binary classification)에서 빈번하게 등장합니다. - Cross-Entropy Loss (크로스 엔트로피 손실): 이 용어는 다중 클래스 분류(multi-class classification)에서 사용될 때 주로 쓰입니다. 클래스가 여러 개인 경우 각 클래스에 대한 확률 분포를 측정하고자 할 때 사용됩니다. - Binary Cross-Entropy ..

[ML] Model evaluation metrics

Accuracy(정확도) - 예측을 정확하게 한 정도 Error Rate(오류도) - 예측을 실패한 정도 Sensitivity (민감도)(Recall for negative class) == Recall(재현율) - 실제 P중에 예측으로 맞춘 정도 Specificity (특이도)(Recall for positive class) - 실제 N중에 예측으로 맞춘 정도 pecision(정밀도) - P로 예측한것 중에 맞준정도 fall-out(위양성율) - P로 예측한것 중에 틀린정도 F1 score - 보통 불균형한 데이터 분포에서의 분류문제에 평가척도로 사용. -F1은 정밀도와 재현도를 이용해 조화평균을 구하여 평가 척도를 구성했기 때문에, 불균형 데이터일지라도 값의 크기 차이가 어느정도 상쇄되므로 데이터 분..

[ML] A comparison between Scalers

Standard Scaler 정규 분포 형태를 따른다. 각 열의 feature 값의 평균을 0으로 잡고, 표준 편차를 1로 간주하여정규화 하는 방법 각 데이터가 평균에서 얼마간의 표준편차 만큼 떨어져 있는지를 기준으로 삼는다. 데이터의 최대치와 최고치를 모를때 사용되며 이상치에 영향을 받는다. 데이터 특징을 모르는 경우 선택 할 수 있는 가장 무난한 종류의 정규화중 하나이다. Normalizer 각 변 수의 값이 원점으로부터 1만큼 떨어진 범위로 변환한다. (=벡터의 유클리드 길이가 1이 되도록 조정한다) 빠르게 학습할 수 있고 과대적합 확률을 낮출 수 있다. 벨터의 길이가 아니라 데이터의 방향이 중요한 경우 자주 사용한다. MinMax Scaler 각 feature의 최소값과 최대값을 기준으로 0 ~ ..

[ML] OrdinalEncoder, LabelEncoder,OneHotEncoder의 차이

ㅇ OrdinalEncoder와 labelEncoder의 해당 colums의 값을 sklearn에서 계산 가능한 숫자로 치환 ㅇ OneHotEncoder의 경우 새로운 column의 경우 해당 column의 값이 A, B, C로 구성되어 있을 경우 3개의 column을 새로 만들어 해당 값에 bool값을 배당. 아래 성별의 column이 2번~3번째 열로 구성되어 추가된다.(기존열을 drop 해줄 필요가 있다.) 성별 성별_남 성별_여 남 1 0 여 0 1 여 0 1 o OrdinalEncoder와 labelEncoder는 별 차이 없어 보이지만 크게 2가지 특징을 가지고 있다. - OrdinalEncoder - 2D 배열 형태의 범주형 변수를 인코딩.(특정 순수가 있으면 순서대로) - labelEnco..

728x90
반응형