| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 | 31 |
- dense_rank
- regexp
- 서브쿼리
- leetcode
- 프로그래머스
- Datarian
- Retention
- 독서
- MYSQL
- rank
- pandas
- 윈도우함수
- 윈도우 함수
- 취준
- SQL
- 순위함수
- funnel
- 리텐션
- advent of sql
- 신입 데이터분석가
- 누적합
- 린분석
- python
- 데이터리안
- 데이터분석
- 그로스해킹
- row_number
- SolveSQL
- LEFTJOIN
- 퍼널분석
- Today
- Total
목록전체 글 (109)
데이터 분석
핵심 내용 1) 소비자의 마음은 매출 데이터가 알려준다데이터의 목적을 생각해 보자 데이터의 목적은 돈을 버는 것이다. 어떻게든 매출과 데이터 분석 간의 연결고리를 찾는 것이 중요하다. 소비자는 언제 돈을 쓰는가? 소비자는 제품을 알고, 제품이 좋아지면 구매한다. 이러한 기본적인 단계에 역행하는 현상, 즉 일단 사고 나서 제품을 이해하는 '충동구매'도 있기는 하다. 순서가 어떻든 간에 소비자가 기업과 제품에 대해 어떻게 인지하고 있는지, 좋아하는지 싫어하는지 파악하고 있다면, 통제할 수 있는 상황과 아닌 상황을 정리할 수 있다. 결국 매출과 연결되어 있는 '사람'의 구매행동을 분석하는 데 가능한 한 많은 데이터를 가지고 있는 것이 중요하다. 액티브 데이터가 만든 빅데이터 재료들 액티브 데이터란 사람이 ..
주소 데이터 다루기 ✅ 주소 정보가 들어가 있는 address 컬럼을 정제하여 시, 도 정보를 담고 있는 'sido' 컬럼과 시, 군, 구 정보를 담고 있는 'sigungu' 컬럼을 생성하자. 그다음 각 행정구역별 카페 개수를 집계해 보자.import pandas as pddf = pd.read_csv('/content/drive/MyDrive/cafes.csv')df.head() 💡주소 데이터 분리를 하기 위해 str Accessor 활용df['sido'] = df['address'].str.split().str[0]df['sigungu'] = df['address'].str.split().str[1]df.head() ✔️각 행정구역별 카페 개수를 집계하고, 카페 개수가 많은 순으로 정렬ta..
1) 지표 설계 시 고민해야 할 것어떤 비즈니스 모델을 가진 서비스인가?서비스 라이프 사이클을 고려할 때 우리는 어떤 단계에 속하는가?현재 가장 신경 쓰이는 단 하나의 문제는 무엇인가?우리가 원하는 행동을 하는 사용자와 그렇지 않은 사용자 간의 차이는 무엇인가?e.g. 서비스 라이프 사이클에 따른 지표 설정- 서비스가 초기 사용자를 모으고 서비스의 주요 기능 경험을 유도해야 한다면 -> 결제율- 비즈니스 모델이 검증됐고 명확한 타깃 사용자로부터 매출 증대를 바란다면 -> ARPPU 2) 좋은 지표를 정의하는 방식✅허무지표가 아닐 것단순히 시간이 흐르면서 자연스럽게 높아지는 지표, 실제로 중요한 수치와는 크게 상관이 없는 지표, 단순히 많은 일을 했다는 것을 드러내기 위한 지표는 지양해야 한다. 대표적으로..
-- 주별 요약SELECT order_week , AVG(num_orders_daily) AS orders_weekly_v1 -- 평균을 계산할 때 분모는 집계에 해당하는 데이터의 수 , SUM(num_orders_daily) / 7 AS orders_weekly_v2 -- 평균을 계산할 때 분모를 7로 고정FROM ( -- 일별 요약 SELECT order_date , DAYNAME(order_date) AS order_dayofweek , WEEK(order_date) AS order_week , COUNT(DISTINCT order_id) AS num_orders_daily FROM orders WHERE order_date BETWEEN '20..
1) 데이터 다루기 데이터 추출을 위해 SQL 학습, 추출된 데이터를 가공하기 위해 파이썬 학습 추천하는 공부법 : 엑셀로 하던 작업을 그대로 파이썬이나 R로 해보기 2) 다양한 서비스와 툴 사용법https://support.google.com/analytics/answer/15068052#zippy=,get-started-using-google-analytics-introduction,go-further-with-advanced-features-in-google-analytics-advanced,answer-business-questions-with-google-analytics-intermediate,use-google-analytics-for-your-business-beginner [GA4] S..
핵심 내용 1) 그로스 조직 만들기'그로스 해킹'은 다양한 직군의 사람들이 각자의 전문성을 발휘하면서 협업하는 업무에 가깝다. 데이터를 분석할 수 있는 환경을 만들고, 주요 지표를 정의하고, 지표 개선을 위한 실험을 진행하고, 실험 결과를 바탕으로 새로운 배움을 얻는 이 과정은 뛰어난 한두 명이서 모두 해낼 수 있는 일이 아니기 때문이다.그로스 팀은 다음 두 가지 목표를 갖는다.핵심 지표를 개선하기우선 무엇이 핵심 지표인지를 정의하고 측정할 수 있어야 한다. 이후에 가설-실행-검증으로 이어지는 일련의 과정을 반복하면서 핵심 지표를 가시적으로 개선해야 한다. 물론 핵심 지표의 개선은 서비스 전체적인 측면에서 전역 최적화에 기여하는 방향으로 이뤄져야 한다.회사에 성장 DNA를 전파하는 조직이 되기현재 가장 ..
핵심 내용 1) 그로스 해킹 시작하기 그로스 해킹의 꽃은 성장 실험이다. 핵심 지표를 정의하고, 가설을 세워서 실험을 진행하고, 데이터를 분석하는 과정을 반복하면서 조직은 배움을 축적하고 서비스는 성장할 수 있다. 이처럼 성장 실험을 하기 위해서는 데이터 기반의 업무를 할 수 있는 기본적인 환경을 만들고 그 안에서 구성원 개개인이 데이터를 활용할 수 있는 역량과 문화를 갖추는 것이 선행되어야 한다. 데이터를 활용할 수 있는 업무 환경 만들기- 클라우드 분석 환경 : 아마존의 EMR(Elastic Mapreduce), 구글의 GCP(Google Cloud Platform), 마이크로소프트의 Azure 등의 대표적인 클라우드 플랫폼을 잘 이용하면 데이터 수집과 저장, 전처리에 이르는 많은 프로세스를 쉽게 구..
1) 등분산성 검정scipy의 stats에서 이를 위한 bartlett-killen, levene, fligner 등이 있음둘 이상의 정규성을 만족하는 데이터 집합에 대해 모분산이 같은 지 확인하기 위한 검정에는 bartlett 사용정규성을 만족하지 않는 경우 levene, fligner를 사용 2) 등분산성 검정의 가설H0(귀무가설) : 등분산성을 만족한다H1(대립가설) : 등분산성을 만족하지 못한다'p-value > 유의수준', '검정통계량 3) 등분산성 검정의 종류bartlett test : 정규성을 충족하며, 데이터셋의 크기가 서로 다른 2개 이상의 집단 간에도 사용 가능- 카이제곱 검정을 사용하여 그룹 간 분산 차이를 비교- 단, 정규성이 만족되지 않으면 검정 결과를 신뢰할 수 없음leven..
핵심 내용 1) 지표 속성 이해하기결국 그로스 해킹이란 목표 지표를 선정하고 그 지표를 개선하기 위해 진행하는 일련의 활동을 의미한다. 지표를 속성에 따라 분류하면 스톡 형태의 지표와 플로 형태의 지표로 구분할 수 있다. 스톡(=저량) 지표- 특정 시점의 스냅숏에 해당하는 지표- 시작과 끝이라는 개념이 없고 특정한 찰나에 관찰할 수 있는 누적된 값- 일반적으로 누적 가입자 수, 누적 거래액 등과 같은 지표가 스톡 지표에 해당- 단순 누적량을 보여준다는 측면에서 스톡에 해당하는 많은 지표들이 허무 지표(Vanity metric)에 가깝지만, 모두 쓸모없는 지표라고 볼 수는 없음플로(=유량) 지표- 시작과 끝에 대한 시간 범위가 존재하며, 일정 시간 동안의 변화량을 나타내는 지표- 2월 5일의 가입자 수, ..
핵심 내용어떻게 하면 더 효율적으로 지표 관리를 할 수 있을까? 회사 조직도에 따라 지표를 나눠서 제각각 관리하지 말고 사용자의 서비스 이용 흐름에 따라 단계별 주요 지표를 전체 서비스 관점에서 정의해야 한다. 이렇게 정의한 지표를 원하는 방향으로 움직이게 하기 위해 어떤 과업을 수행해야 할지 거꾸로 고민해야 한다. [지표 정의] ➡️ [과업 선정] 📌그래서 AARRR이 뭐지?AARRR이란 사용자의 서비스 이용 흐름을 기반으로 고객 유치, 활성화, 리텐션, 수익화, 추천이라는 5가지 카테고리를 정의하고, 각 카테고리에서 핵심이 되는 지표를 발굴하고 이를 측정/개선하는 지표 관리 방법론을 의미한다. ✅ 위 방법론을 활용하는 방법각 단계별로 풀어야 하는 문제를 확인각 단계의 핵심이 되는 주요 지표를 선정하..