Notice
Recent Posts
Recent Comments
Link
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 | 31 |
Tags
- funnel
- rank
- 취준
- 서브쿼리
- leetcode
- python
- 윈도우함수
- advent of sql
- MYSQL
- 데이터리안
- 신입 데이터분석가
- regexp
- 린분석
- 독서
- 데이터분석
- 리텐션
- Retention
- 프로그래머스
- dense_rank
- SolveSQL
- 누적합
- row_number
- 퍼널분석
- 순위함수
- LEFTJOIN
- 윈도우 함수
- 그로스해킹
- SQL
- Datarian
- pandas
Archives
- Today
- Total
데이터 분석
[Pandas] 주소 데이터 정제하기 | str.split() 본문
주소 데이터 다루기
✅ 주소 정보가 들어가 있는 address 컬럼을 정제하여 시, 도 정보를 담고 있는 'sido' 컬럼과 시, 군, 구 정보를 담고 있는 'sigungu' 컬럼을 생성하자. 그다음 각 행정구역별 카페 개수를 집계해 보자.
import pandas as pd
df = pd.read_csv('/content/drive/MyDrive/cafes.csv')
df.head()

💡주소 데이터 분리를 하기 위해 str Accessor 활용
df['sido'] = df['address'].str.split().str[0]
df['sigungu'] = df['address'].str.split().str[1]
df.head()

✔️각 행정구역별 카페 개수를 집계하고, 카페 개수가 많은 순으로 정렬
target = df.groupby(['sido', 'sigungu']).size().reset_index(name='cnt')
target.sort_values('cnt', ascending=False, ignore_index=True)

'Python > Pandas' 카테고리의 다른 글
| [Pandas] DataFrame.pivot() / pivot_table() (1) | 2024.12.19 |
|---|---|
| [Pandas] 날짜 데이터 다루기 | 서울시 미세먼지 데이터 (2) | 2024.12.18 |
| [Pandas] 날짜 데이터 다루기 (2) | 2024.12.17 |
| [Pandas] datetime 컬럼 가공 | 잘못된 연도 값 조정하기 (2) | 2024.12.14 |
| [Pandas] Series.map() & DataFrame.apply() 활용 (0) | 2024.12.13 |