본문 바로가기

분류 전체보기

(56)
[TIL] 머신러닝 심화 1주차 타이타닉 데이터 전체 프로세스   1. 타이타닉 데이터 로드 및 데이터 확인- 타이타닉 데이터가 train 과 test 데이터로 이미 나눠져 있기 때문에 각각을 로드해오기- 데이터의 전체적인 정보 확인 2. EDA (분포확인 및 이상치와 결측치 확인)- 각 컬럼의 분포는 다양한 차트를 확인하여 확인 (내용생략)- 각 컬럼의 이상치와 결측치 확인 => 어떤 변수를 처리해줘야 할지 생각하기 3. 데이터 전처리 (결측치,이상치, 컬럼 생성)  1) 컬럼 생성 : 'SibSp' 과 'Parch' 변수를 합하여 'Family'라는 변수 생성 2) 이상치 확인  - 숫자형 변수들의 이상치 확인 (age, fare, family)    3) 결측치 처리 age : 평균으로 대체fare : 평균으로 대체embarked..
A/B 테스트 제대로 이해하기 : (3) A/B 테스트 계산기의 세팅과 해석 https://yozm.wishket.com/magazine/detail/1656/ A/B 테스트 제대로 이해하기: ③ A/B 테스트 계산기의 세팅과 해석 | 요즘IT앞선 두 편의 글에서, ‘실제 A/B 테스트를 설계할 때 우리가 진짜 궁금한 질문’과 ‘A/B 테스트 실험 결과의 유의미한 방안’, 그리고 ‘이를 바탕으로 A/B 테스트의 설계 및 해석에 필요한 기초yozm.wishket.com 요약 : '비즈니스' 의 실험이라는 가설 아래 A/B 테스트의 설계, 수행, 해석에 관한 참고사항  1. 계산은 어디서 어떻게 하는지만약 A/B 테스트를 위한 솔루션을 사용하지 않거나, 이 솔루션으로 응용할 수 없는 실험을 설계했다면>>> 코드 짜는거 NO, 이미 간단한 숫자입력과 세팅으로 A/B 테스트 계산을 제공..
[아티클] A/B 테스트 제대로 이해하기 : (2) 기초통계 이해하기 https://yozm.wishket.com/magazine/detail/1644/ A/B 테스트 제대로 이해하기: ②A/B 테스트를 위한 기초 통계 이해하기 | 요즘IT앞선 글에서 A/B 테스트를 설계하거나 수행할 때 ‘목표를 달성하기 위한 방안으로 A와 B 중 어느 게 더 나은가?’ 뒤에 숨은 진짜 질문에 관해 살펴보았다. 이번 글에서는 이러한 우리의 진짜 질yozm.wishket.com 요약 : 진짜 질문에 대한 답을 얻기 위한 A/B 테스트 설계와 결과 해석하는 방법 (기초 통계)  1. 모집단과 표본우리는 결코 '전체'(모집단) 를 알 순 없으며, 실험의 대상은 어디까지나 '일부'(표본)이다  2. '일부'를 통해서 '전체'에 대해 추론할 수 있다우리의 실험 대상인 '일부'를 통해 전체에 대해 ..
[TIL] 머신러닝 기초 (2) - 분류분석 (범주) -  1. 로지스틱 회귀X가 연속형이고 Y가 특정 값이 될 확률이라고 설정한다면 선형으로 설명하기는 쉽지 않음확률은 0~1 사이의 값인데 예측값이 확률 범위를 넘어설 수 있기 때문이다  ● 로짓의 개념 등장오즈비 : 실패확률 대비 성공확률- P는 확률값으로 0~1 사이의 값인데 P가 증가할수록 오즈비가 급격하게 증가하여 바로 쓸 수 없다- 그래서 로그를 씌운 값인 "로짓" 이 나옴  로짓 - 오즈비의 발산하는 값에 루트를 씌워 바로 사용할 수 있게 함- 로짓의 그래프가 더 선형적인 그림을 나타내어 선형회귀의 기본식을 활용할 수 있게됨  로지스틱 함수- 로짓의 장점은 어떤 값을 가져오더라도 반드시 특정사건이 일어날 확률(Y값이 특정 값일 확률)이  0과 1안으로 들어오게 하는 특징을 ..
[WIL] 7주차 얼마 남지않은 SQLD 자격증 공부과 머신러닝 공부로 휘몰아친 주차 같다!머신러닝은 헷갈리는 개념들이 많지만, 알수록 신기해서 꽤나 재미있게 들을 수 있었다SQLD 자격증 공부는 문제 풀이 위주로 하며, 모르는 개념들은 강의로 보충을 해 나가고 있다. 근데 생각보다 양도 많고 문제도 어려워서 시간이 많이 투자되는 것 같다..ㅜ오늘은 몸도 안좋아서 목표했던 바를 많이 못 이뤘지만 주말에 보충해서 채워나가야겠당 !~!벌써 90일 중에 3분의 1의 시간이 지나간걸 보니 시간이 참 빠르다는 걸 느꼈다이 시간동안 내 실력이 향상되었는지는 모르겠지만, 배워간다는게 좋은 것 같다다음주도 화이팅이당 ~ ~
[TIL] 머신러닝 기초 (1) 1. 머신러닝AI : 인간의 지능을 요구하는 업무를 수행하기 위한 시스템머신러닝 : 관측된 패턴을 기반으로 의사결정을 지원하는 시스템딥러닝 : 인공신경망을 이용한 머신러닝 2. 머신러닝의 종류지도학습 : 문제와 답을 모두 알려주고 학습시키는 방법 - 예측, 분류비지도학습 : 답을 가르쳐주지 않고 학습시키는 방법 - 군집, 연관규칙강화학습 :  보상을 통해 상은 최대화, 벌은 최소화하는 방향으로 행위를 강화하는 학습 - 보상- 숫자를 맞추는 방법 => 회귀 분석 원리- 범주를 맞추는 방법 => 분류 분석 원리  3. 선형회귀(실제 데이터 - 예측 데이터) 로 정의 : "오차"를 구하는데, 부호가 달라서 더하게 되면 상쇄되는 현상이 발생에러를 제곱하여 모두 양수로 만들고 다 합치기 : 따라서 오차를 제곱하여..
[아티클] A/B 테스트 제대로 이해하기: 1) 테스트를 설계할 때 우리의 진짜 질문은? https://yozm.wishket.com/magazine/detail/1633/ A/B 테스트 제대로 이해하기: ①테스트를 설계할 때 우리의 진짜 질문은? | 요즘IT서비스 기획, PM, 그리고 그로스 해킹과 관련한 부트캠프나 신입 교육 과정을 살펴보면, A/B 테스트에 관한 이야기가 많다. 아마도 서비스를 개선하는 실험 방안 중 하나로 A/B 테스트가 가장 유명(yozm.wishket.com  AB 테스트 :  두 가지 이상의 버전(A/B)을 비교해 실험하는 그로스 해킹 방법론으로, 두 가지 이상의 버전을 비교하여 더 나은 결과를 선택한다는 점에서 분할 테스트나 버킷 테스트라고 칭하기도 한다A/B 테스트를 통해 알고싶은 표면상의 질문 : 목표를 달성하기 위한 방안으로 A안과 B안 중 어느 게 더 효..
[TIL] SQL 코드카타 71번) 오프라인/온라인 판매 데이터 통합하기  JOIN을 사용해서 두 테이블을 합치려고 했는데, 이 문제는 UNION을 사용하는 것오프라인 데이터에 USER_ID가 없으니, 이 값은 NULL로 처리해야 할 것SELECT DATE_FORMAT(SALES_DATE,'%Y-%m-%d') as SALES_DATE, PRODUCT_ID, USER_ID, SALES_AMOUNTFROM ONLINE_SALE WHERE MONTH(SALES_DATE) = 3UNIONSELECT DATE_FORMAT(SALES_DATE,'%Y-%m-%d') as SALES_DATE, PRODUCT_ID, NULL AS USER_ID, SALES_AMOUNTFROM OFF..