Prev Contents/Wrangling

[파이썬 라이브러리를 활용한 데이터 분석] 23일차 (529~585p)

Convergence Medicine 2022. 7. 3. 23:08

14. 데이터 분석 예제

23일차 (2020-07-03)도 이 책으로 시작:

http://www.kyobobook.co.kr/product/detailViewKor.laf?ejkGb=KOR&mallGb=KOR&barcode=9791162241905&orderClick=LEa&Kc=

 

파이썬 라이브러리를 활용한 데이터 분석 - 교보문고

영화 평점, 이름통계, 선거 데이터 등 실사례 사용 | ★ 『파이썬 라이브러리를 활용한 데이터 분석』 드디어 개정!이 책의 초판이 출간된 2012년은 pandas 개발 초기로, 파이썬용 오픈소스 데이터

www.kyobobook.co.kr

아래의 요약은 책을 충실히 요약한 것이 아닌 오늘 공부한 것의 정리일 뿐입니다.
저자의 코드 예제 github repository: http://github.com/wesm/pydata-book
자세한 내용 책을 사서 보시거나 영문판의 경우 저자의 홈페이지에 3판의 open edition이 있습니다 (https://wesmckinney.com/book/).

 

GitHub - wesm/pydata-book: Materials and IPython notebooks for "Python for Data Analysis" by Wes McKinney, published by O'Reilly

Materials and IPython notebooks for "Python for Data Analysis" by Wes McKinney, published by O'Reilly Media - GitHub - wesm/pydata-book: Materials and IPython notebooks for "Pyth...

github.com

 

Python for Data Analysis, 3E

About the Open Edition The upcoming 3rd edition of Python for Data Analysis is available as an “Open Access” HTML version on this site https://wesmckinney.com/book in addition to the usual print and e-book formats. This is currently an Early Release ve

wesmckinney.com

독자에게 전하는 조언:

1) 데이터 분석을 생산적으로 하기 위해 파이썬으로 훌륭한 소프트웨어를 개발할 수 있을 정도로 파이썬 고수가 되어야 할 필요는 없다고 생각한다.
2) Numpy의 깊은 이해가 필수 사항은 아니며, 배열 위주의 프로그래밍과 생각하는 방법에 능숙해지는 것이 과학 계산의 고수가 되는 지름길이다.

들어가며

http://github.com/wesm/pydata-book

14.1 Bit.ly의 1.USA.gov 데이터

json 모듈의 loads() 함수를 이용해서 내려받은 샘플 파일을 한 줄씩 읽는다.
파이썬 사전의 리스트를 반환 받는다.

14.1.1 순수 파이썬으로 표준시간대 세어 보기

collections 모듈의 defaultdict 클래스로 빈 사전 생성
collections 모듈의 Counter 클래스로 상위 10개 시간대를 쉽게 알아낼 수 있다.

14.2 MovieLens의 영화 평점 데이터

6천여 명의 사용자 (나이, 우편번호, 성별, 직업) +
4천여 편의 영화 (장르, 개봉 년도) +
백만여 개의 영화 평점을 가지고 있다.

세 종류의 테이블에 걸쳐 있어서 모든 데이터를 하나의 테이블로 병합하여 계산하는 것이 더 좋다.

14.2.1 평점 차이 구하기

호불호는 펑점의 분산이나 표준편차로 측정할 수 있다.

14.3 신생아 이름

pd.read_csv()로 파일을 읽어 오고,
pd.concat()로 데이터를 아래로 붙여 간다.

14.3.1 이름 유행 분석

다양한 이름을 사용하는 경향 측정하기

pivot_table() 함수 사용하기
plot() 내장 함수 사용하기

'마지막 글자'의 변화

이름의 마지막 글자 비율로 성별과 출생 연도에 대한 막대그래프 그리기

남자 이름과 여자 이름이 바뀐 경우

14.4 미국농무부 영양소 정보

14.5 2012년 연방선거관리위원회 데이터베이스

14.5.1 직업 및 고용주에 따른 기부 통계

14.5.2 기부 금액

14.5.3 주별 기부 통계

14.6 마치며

오늘의 흔적: