정형 데이터와 비정형 데이터 정형데이터 : 수치(연속형, 이산형), 짧은 텍스트, 날짜, 시간비정형 데이터 : 음성, 이미지, 비디오, 텍스트 문서 등정형 데이터항상 사전에 정의된 데이터모델, 스키마라는 엄격한 형식을 준수,데이터 프레임으로 정리가능하고 구성, 정리, 분석이 쉽다.비정형 데이터는스키마에 맞지 않다. 용량이 크며 데이터분석이 어려울수 있다.때문에 분석이나 학습데이터로 확용하고자 할경우 전형데이터 또는 반정형 데이터를 추출하기위한 전처리가 필요하다. Data Science/Data Science 2024.04.30
[회귀분석] 1강 Simple Linear Regression 1. Introdution2. Best Fitting Line3. Simple Linear Regression1. Introdution1. Simple Linear Regression■ 두 개의 연속적인(정량적인) 변수 간의 관계를 요약하고 연구할 수 있는 통계적 방법입니다. - X로 표시되는 변수를 독립 변수로 이야기 하고 영어로는 predictor, explanatory variable, or independent variable 라고 불리며 - 다른 변수인 Y는 종속 변수로 response outcome or dependent variable라고 불립니다(변수가 여러개일경우 -> 다중 선형 회귀분석(Multiple Linear Regression),이상적인 변수일경우 -> Generalized .. Data Science/[강의정리] 회귀분석(R) 2024.04.29
[시각화] 4강 ggplot2 ?lims :앞에 물음표를 붙여서, 해당 함수의 메뉴얼을 볼 수 있다.getwd() : 현재 디렉토리 확인. (리눅스에 pwd)setwd() : 작업 디렉토리 설정가능. \\ 또는 /를 사용.setwd('c:\\Users\\R_study')setwd('c:/Users/R_study')-> Work Directory는 Rstudio를 종료하면 헤제된다.install.packages('ggplots') : package install. 노란색 부분 원하는 패키지 입력.Rstudio의 4사분면 방향에 보이는 Tools>Install Packages 메뉴에서도 가능head(sah) : 5개열tail(sah) : 아래서 5개열colnames(sah) : 컬럼명 ggplots의 기본 구조ggplot.. Data Science/[강의정리] 시각화 (R) 2024.04.24
[시각화] 2강 시각화의 방법2 1. 원형과 채널2. 그래프 종류별 원형과 채널: 산점도, 막대그래프, 누적 막대 그래프1. 원형과 채널 ■ 원형 : 점, 선, 면 같은 기본형태 ■ 채널 : 원형의 외양을 조정하는 여러가지 방법 - 크기채널(magnityde channel) : 양적인 정보전달 예) 위치, 크기(길이, 면적, 부피), 명도, 채도, 각도, 깊이, 곡률 - 아이덴티티 채널(identity channel) : 범주형 정보 전달 예) 색상, 모양, 위치등 ■ 양적인 특성 - 크기채널 범주형 특성 - 아이덴티티 채널 ■ 채널의 효과 - 가장중요한 특성은 가장 효과적인 채널로 표현한다. - 크기채널 위치 > 길이 > .. Data Science/[강의정리] 시각화 (R) 2024.04.21
[AI와 빅데이터 경영입문] 1강 AI와 빅데이터를 활용한 기업경영 1. 디지털 비즈니스2. AI를 활용한 비즈니스3. 빅데이터 기반의 비즈니스4. 주요 분석기법 1) 통계적 분석 - 상관분석 : 변수 사이의 연관성 파악 밑 다중공선성 제거 - 회귀분석 : 독립변수와 종속 변수 사이의 수학적 관계 추정 - 분산분석 : 두 가지 이상의 집단의 평균 분석 - 주성분 분석 : 수학적 이론을 활용한 변수의 차원 감소 2) 분류분석 - K-NN : 가장 가까운 k개의 '이웃'을 차악한 후 클래스 분류 - 트리분석 : 분류 의사결정 절차를 '트리' 형태로 구조화 - 연관분석 : 함께 자주 구입되는 제품의 조합을 확보 - 군집화 : 위계적/ 비위계쩍 방법으로 자료를 군집화 (클러스터링) .. Data Science/[강의정리] AI와 빅데이터 경영입문 (Python) 2024.04.21
[ML] Cross Entropy 회귀 문제에서는 MAE, MSE, RMSE등의 지표를 사용하고 분류 문제에서는 Cross Entropy라는 비용함수를 사용한다. "Cross-Entropy Loss", "Binary Cross-Entropy Loss", "Log Loss"는 모두 동일한 손실 함수를 가리키는 용어이다. 이들 용어는 주로 분류 문제에서 사용되며, 특히 이진 분류(binary classification)에서 빈번하게 등장합니다. - Cross-Entropy Loss (크로스 엔트로피 손실): 이 용어는 다중 클래스 분류(multi-class classification)에서 사용될 때 주로 쓰입니다. 클래스가 여러 개인 경우 각 클래스에 대한 확률 분포를 측정하고자 할 때 사용됩니다. - Binary Cross-Entropy .. Data Science/Machine Running 2023.12.18
[DS] Data-centric AI Andrew Ng이 제안한 AI에 대한 새로운 방향성으로 기존에 코드, 즉 모델 자체에 포커싱을 맞췄다면 그 시각은 데이터로 옮겨서 데이터의 질 향상, 노이즈 제거를 통해서 양질의 데이터를 만든다면 적은 데이터로도 성능을 향상 시킬 수 있다는 이야기다. 위 처럼 데이터 질이 향상된다면 보다 적은 양으로도 충분한 결과를 도출해낼 수 있다. Accuracy가 0.6을 살펴보면 noisy data는 clean data에 비해서 더 많은 데이터량을 필요로 한다. 뿐만 아니라 데이터 레이블의 일관적으로 유지 시켜야 한다. Andrew Ng은 이에 MLOps를 적극적으로 활용해야 한다고 제안하였다. Data Science/Data Science 2023.08.01
[ML] Model evaluation metrics Accuracy(정확도) - 예측을 정확하게 한 정도 Error Rate(오류도) - 예측을 실패한 정도 Sensitivity (민감도)(Recall for negative class) == Recall(재현율) - 실제 P중에 예측으로 맞춘 정도 Specificity (특이도)(Recall for positive class) - 실제 N중에 예측으로 맞춘 정도 pecision(정밀도) - P로 예측한것 중에 맞준정도 fall-out(위양성율) - P로 예측한것 중에 틀린정도 F1 score - 보통 불균형한 데이터 분포에서의 분류문제에 평가척도로 사용. -F1은 정밀도와 재현도를 이용해 조화평균을 구하여 평가 척도를 구성했기 때문에, 불균형 데이터일지라도 값의 크기 차이가 어느정도 상쇄되므로 데이터 분.. Data Science/Machine Running 2023.07.19
[ML] A comparison between Scalers Standard Scaler 정규 분포 형태를 따른다. 각 열의 feature 값의 평균을 0으로 잡고, 표준 편차를 1로 간주하여정규화 하는 방법 각 데이터가 평균에서 얼마간의 표준편차 만큼 떨어져 있는지를 기준으로 삼는다. 데이터의 최대치와 최고치를 모를때 사용되며 이상치에 영향을 받는다. 데이터 특징을 모르는 경우 선택 할 수 있는 가장 무난한 종류의 정규화중 하나이다. Normalizer 각 변 수의 값이 원점으로부터 1만큼 떨어진 범위로 변환한다. (=벡터의 유클리드 길이가 1이 되도록 조정한다) 빠르게 학습할 수 있고 과대적합 확률을 낮출 수 있다. 벨터의 길이가 아니라 데이터의 방향이 중요한 경우 자주 사용한다. MinMax Scaler 각 feature의 최소값과 최대값을 기준으로 0 ~ .. Data Science/Machine Running 2023.07.12
[ML] OrdinalEncoder, LabelEncoder,OneHotEncoder의 차이 ㅇ OrdinalEncoder와 labelEncoder의 해당 colums의 값을 sklearn에서 계산 가능한 숫자로 치환 ㅇ OneHotEncoder의 경우 새로운 column의 경우 해당 column의 값이 A, B, C로 구성되어 있을 경우 3개의 column을 새로 만들어 해당 값에 bool값을 배당. 아래 성별의 column이 2번~3번째 열로 구성되어 추가된다.(기존열을 drop 해줄 필요가 있다.) 성별 성별_남 성별_여 남 1 0 여 0 1 여 0 1 o OrdinalEncoder와 labelEncoder는 별 차이 없어 보이지만 크게 2가지 특징을 가지고 있다. - OrdinalEncoder - 2D 배열 형태의 범주형 변수를 인코딩.(특정 순수가 있으면 순서대로) - labelEnco.. Data Science/Machine Running 2023.06.24