본문 바로가기

분류 전체보기206

[오답노트] 1. 데이터 모델링의 이해 제 1장 데이터 모델링의 이해 🎈데이터 모델링이란 1. 정보시스템을 구축하기 위한 데이터 관점의 업무분석 방법 2. 현실게계의 데이터(what)를 약속된 표기법으로 표현하는 과정 3. 데이터베이스를 구축하기 위한 분석 및 설계의 과정 🎈데이터 모델링의 목적 1. 업무정보를 구성하는 기초 정보들을 일정한 표기법으로 표현하여 정보시스템 구축의 대상이 되는 업무 내용을 정확하게 분석하는 것 2. 분석된 모델로 실제 데이터베이스를 생성하여 개발 및 데이터관리에 사용하기 위한 것 -> 단지 데이터베이스만을 구축하기 위한 것이 아니라 데이터모델링 자체로도 업무를 설명하고 분석하는 부분에서 중요한 의미 🎈데이터 모델링의 유의사항 ; 중복/ 비유연성/ 비일관성 1. 중복: duplication 데이터 모델은 같은 데이.. 2024. 3. 2.
[주식 프로젝트1] 야후 파이낸스 살펴보기 1. 야후 파이낸스 모듈 사용하기증권 데이터 수집 라이브러리pip install yfinanceimport yfinance as yfpip install pandas-datareaderfrom pandas_datareader import data as p pip install yfinanceimport yfinance as yf-> yahoo Finance에서 가격데이터, 금융지표, 주식최고/저 기록등 다양한 정보를 볼 수 있는 라이브러리pip install pandas-datareaderfrom pandas_datareader import data as p-> Yahoo Finance, Google Finance, Quandl 등의 데이터 소스로부터 주식 가격 데이터를 가져올 수 있다 yf.pdf_ov.. 2024. 2. 29.
[분석프로젝트] 웹 페이지 개선을 통한 A/B테스트: t-test, 시각화 스파르타 코딩클럽 과제 목적 A/B테스트를 통해 웹사이트의 랜딩 페이지 UI 실험에 따른 효과를 비교한다 실험 진행 기간: 약 1달간(2017/1/2 - 1/24) 실험 대상: 총 약 29만명 랜딩 페이지 유입 유저 → 실험군(약 14만명), 대조군(약 14만명) 실험 목표: 유저의 랜딩 페이지 전환율 상승  성공 지표(실험이 성공했다고 판단할 수 있는 지표): conversion rate(%) 실험 검증 방법: t-test 사용데이터 https://www.kaggle.com/datasets/zhangluyuan/ab-testing t-test 방법1. 가설설정귀무가설(H0): 두 집단의 전환율 평균에 차이가 없을 것이다대립가설(H1): 두 집단의 전환율 평균에 차이가 있을 것이다2. 유의수준 설정 : .. 2024. 2. 28.
[분석프로젝트] 히트맵, 이동평균을 통해 날씨 분석하기 스파르타 코딩클럽 기초학습  목적 날짜별 기언데이터를 통해 (1)기온변화의 추세, (2)계절적 패턴, (3)이상치를 탐색하여 행후 기온을 예측한다 방법데이터 정제 및 조작 : 결측치 처리, 날짜데이터 변환 등의 전처리 수행기초통계분석 : 연도별, 월별 기온의 평균과 분포분석이동평균 분석 : 장기적인 기온 추세를 파악하기 위해 이동평균 계산상자그림 및 산점도 분석 : 계절적 패턴과 이상치 식별 사용데이터"Daily Minimum Temperatures in Melbourne" https://raw.githubusercontent.com/jbrownlee/Datasets/master/daily-min-temperatures.csv1단계: 데이터로드 및 전처리-> 데이터를 불러오고 결측치를 제거한다# 필요한 .. 2024. 2. 28.
[태블로] 시각화 기본 실습 스파르타코딩클럽의 강의를 참고하여 정리하였습니다 1. line plot 사용예시 유료 구독자 변화 추이 2022년 대비 2023년 상품 주문 판매량의 증가 추이 매일 얼마나 많은 유저들이 우리 서비스를 이용할까 실습 에어비앤비 호스트 수 추이 연도별(2008-2016년) 에어비앤비 호스트 수 증가 추이 -> X : 연도(Host Since) -> Y : 호스트 수(Host Id) 📍 요구 사항 ✅ 열: Host Since(년) ✅ 행: 카운트(고유)(Host Id) ✅ 마크 레이블: 표시 ✅ 색상: 그래프의 색상을 자유롭게 변경해주세요. ✅ 경로: 라인 패턴 유형을 2번째 선(--)으로 변경해주세요실습 해석 2008년부터 지속적으로 증가하다가 2015년이후 하락함 2. bar plot 사용예시 이번달 가.. 2024. 2. 26.
[ADSP] 오답노트: 3-4.통계분석 1. 모분산 추론 이표본에 의한 분산비 검정은 두 표본의 분산이 동일한지를 비교하는 검정으로 검정통계량은 F분포를 따른다 모분산이 추론의 대상이 되는 경우는 모집단의 변동성 또는 퍼짐의 정도에 관심이 있을 때 사용 모집단이 정규분포를 따르지 않더라도 중심극한정리를 통해 정규 모집단으로부터의 모분산에 대한 검정을 유사하게 시행할 수 있다 평균 모집단에서 n개의 단순임의 추출한 표본의 분산은 자유도가 n-1인 카이제곱분포를 따른다 2. 다중회귀분석의 변수선택방법(3가지) 전진선택법 = 상수항만 포함된 모형에서 출발하여 설명력이 좋은 변수를 하나씩 추가하는 방법 단계적 방법 = 설명력이 나쁜 변수를 제거하거나 모형에서 제외된 변수 중 모형의 설명력을 가장 잘 개선하는 변수를 추가하는 방법 후진제거법 = 모든 .. 2024. 2. 22.