본문 바로가기

분류 전체보기206

[ADSP] 오답노트: 3-4.통계분석 기초통계 추론통계 기술통계 상관분석 회귀분석 시계열분석 다차원척도법 주성분분석 기초통계 - 자료의 측정수준 자료는 부분자료와 수량자료로 나눌 수 있다 측정 = 실험을 하는 과정에서 추출된 원소나 관측자료를 얻는 것, 측정 수준에 따라 통계에 이용해야 하는 통계량과 검정량이 다르다 명목척도 = 단순한 번호, 순서에 의미가 없다 순서척도 = 순서가 의미 구간척도 = 등간척도, 측정대상이 갖고 있는 속성의 양을 측정하는것으로 구간 사이의 간격이 의미가 있다(순서 X) -> 온도 비율척도 = 순서와 간격에 의미가 있으며 0이 절대적인 의미 -> 무게, 나이, 시간, 거리 - 자료 종류에 대한 설명 측정 =표본조사나 실험을 실시하는 과정에서 추출된 원소들이나 실험단위로부터 주어진 목적에 적합하도록 관측해 자료를 .. 2024. 2. 19.
[문제풀이] DATETIME에서 DATE로 형 변환 출처 문제 ANIMAL_INS 테이블에 등록된 모든 레코드에 대해, 각 동물의 아이디와 이름, 들어온 날짜1를 조회하는 SQL문을 작성해주세요. 이때 결과는 아이디 순으로 조회해야 합니다. 풀이(ORACLE) SELECT animal_id, name, TO_CHAR(datetime,'yyyy-mm-dd') from animal_ins order by animal_id 기존 형태 바뀐 형태 배운점 datetime의 데이터 포멧변경하기 My SQL Oracle date_format(datetime,'%Y-%m-%d') date_format(날짜데이터, '원하는 형태') TO_CHAR(datetime,'yyyy-mm-dd') 숫자나 날짜를 특정 포맷의 문자로 변환하는 함수 첫 번째 매개변수로 숫자/날짜를, 두.. 2024. 2. 1.
[문제풀이] NULL 처리하기/경기도에 위치한 식품창고 목록 출력하기 출처 문제 입양 게시판에 동물 정보를 게시하려 합니다. 동물의 생물 종, 이름, 성별 및 중성화 여부를 아이디 순으로 조회하는 SQL문을 작성해주세요. 이때 프로그래밍을 모르는 사람들은 NULL이라는 기호를 모르기 때문에, 이름이 없는 동물의 이름은 "No name"으로 표시해 주세요. 풀이(ORACLE) SELECT animal_type, NVL(name,'No name'),sex_upon_intake #name이 null값이면 no name으로 대체 from animal_ins ORDER BY ANIMAL_ID ; 출처 문제 입양 게시판에 동물 정보를 게시하려 합니다. 동물의 생물 종, 이름, 성별 및 중성화 여부를 아이디 순으로 조회하는 SQL문을 작성해주세요. 이때 프로그래밍을 모르는 사람들은 N.. 2024. 2. 1.
[강의노트] Python - 머신러닝 - 예측모델링 프로세스 (1) 스파르타코딩클럽의 강의를 참고하여 정리하였습니다 예측모델링 프로세스 데이터 전처리 1. 이상치(outlier) 이상치: 보통 관측된 데이터 범위에서 많이 벗어난 아주 작은/큰 값 1-1. 이상치 발견 방법 1) ESD(extreme studentized deviation)을 이용한 이상치 발견 데이터가 정규분포를 따른다고 가정할 때, 평균에서 표준편차의 3배 이상 떨어진 값 모든 데이터가 정규분포를 따르지 않음(데이터 크기가 비대칭일때->log변환, 샘플 크기가 작을 때) import numpy as np mean = np.mean(data) std = np.std(data) upper_limit = mean + 3*std lower_limit = mean - 3*std 2) IQR(inter quant.. 2024. 1. 31.
[강의노트] Python - 머신러닝 - 로지스틱 회귀 - 실습(1) 사용데이터: Kaggle의 titanic train 데이터셋 목표 1. 탑승한 승객의 정보를 바탕으로 생존 유무를 예측하는 분류 문제 가설 1. 성별과 생존의 관계, 여성일 수록 생존확률이 높을 것이다 -> 여성은 모두 생존했고 남성은 모두 사망했다가설 2. 요금과 생존의 관계, 요금이 높은 고객일 수록 생존했을 것이다 -> 높은 요금운 모두 생존했고, 낮은 요금은 모두 사망했다가설 3. 요금/성별/좌석등급과 생존의 관계, 어릴수록 생존했을 것이다 방법: 로지스틱회귀 Y(종속변수): 사망(0), 생존(1) X(독립변수): 티켓등급, 성별, 요금 등 💡순서 라이브러리 &데이터불러오기 > 데이터 살펴보기(산점도 그려보기, 기초통계량 보기,엔코딩하기) > 선형회귀 훈련하기(가중치/편향 계산) > 평가하기(정확.. 2024. 1. 31.
[강의노트] Python - 머신러닝 - 로지스틱 회귀 스파르타코딩클럽의 강의를 참고하여 정리하였습니다 로지스틱회귀(logistic regression) 확률모델의 하나로 독립변수의 선형 결합을 이용하여 사건의 발생 가능성을 예측하는 통계 기법 선형회귀와의 공통점 회귀분석의 목표와 동일하게 종속변수와 독립변수간의 관계를 구체적인 함수로 나타내어 예측모델에 사용 독립변수의 선형결합으로 종속변수를 설명함 선형회귀와의 차이점 로지스틱회귀는 종속변수(Y)가 범주형 데이터를 대상으로하여 입력데이터가 주어졌을 때 해당 데이터의 결과가 특정분류로 나누어져 분류기법으로 적용됨(classification) 이항형인 데이터에 적용하였을 때 종속변수 y의 결과가 범위[0,1]로 제한됨 종속변수가 이진적이기 때문에 조건부활률의 분포가 정규분포가 아닌 이항분포를 따름 특징 이항형 .. 2024. 1. 31.