본문 바로가기

자격증/빅분기4

[빅분기] 3유형 정리stats정규성검정(kstest: 데이터 많을 때  , shapiro : 데이터 50개 미만)등분산성 검정(levene)평균 검정(ttest_1samp : 한 집단 평균, ttest_ind : 두 집단 평균 , ttest_rel : 집단 전,후 비교)카이제곱 검정(chisquare : 적합성, chi2_contingency : 독립성)일원분산분석(f_oneway)분포(poisson:포아송분포, bnom:이항분포)신뢰구간( t.interval )1.정규성 검정from scipy import stats# 데이터가 많을때stats.kstest(df)# 데이터 50개 미만stats.shipiro(df)# p-value >= 0.05 : 귀무가설 채택 - 정규분포와 동일# p-value = 0.05 : 귀무가.. 2024. 6. 21.
[빅분기] 2유형 1) 분류 : 랜덤포레스트 + 평가(교차검증) :f1_macro#1. 라이브러리 불러오기 import pandas as pd #2. 데이터 불러오기 train = pd.read_csv("../input/big-data-analytics-certification-kr-2022/train.csv")test = pd.read_csv("../input/big-data-analytics-certification-kr-2022/test.csv")#3. EDAtrain.head()train.info()train.describe(include ="O")#4.전처리#1) 범주형 : 원핫 인코딩 -> pd.get_dummiestrain= pd.get_dummies(train)test = pd.get_dummies(test.. 2024. 6. 20.
[빅분기]유형1 기출 Big Data Certification KR (kaggle.com)  1) 데이터에서 IQR을 활용해 Fare컬럼의 이상치를 찾고, 이상치 데이터의 여성 수를 구하시오[py] T1-1. 이상치를 찾아라(IQR활용) Expected Questions | Kaggle# 라이브러리 및 데이터 불러오기import pandas as pddf = pd.read_csv('../input/titanic/train.csv')# IQR 구하기Q1 = df['Fare'].quantile(0.25)Q3 = df['Fare'].quantile(0.75)IQR = Q3-Q1# 이상치 데이터 구하기# 이상치 = Q1-IQR*1.5# 이상치 = Q3+IQR*1.5out1 = df[df['Fare'] Q3+IQR*1.5]# 이상.. 2024. 6. 19.
[빅분기] 판다스 전처리 100제 출처 https://www.datamanim.com/dataset/99_pandas/pandasMain.html# 판다스 연습 튜토리얼 — DataManimQuestion 43 df의 데이터 중 new_price값이 lst에 해당하는 경우의 데이터 프레임을 구하고 그 갯수를 출력하라 lst =[1.69, 2.39, 3.39, 4.45, 9.25, 10.98, 11.75, 16.98]www.datamanim.com 1.데이터를 로드하라. 데이터는 \t을 기준으로 구분되어있다. df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/pandas/main/lol.csv',sep='\t') 데이터 컬럼 구분 sep = '' 컬럼구분이 별로로 되어있을 경우 .. 2024. 6. 18.