본문 바로가기

Prev Contents/Wrangling

[파이썬 데이터 분석 입문] 응용 작업 14~16일차 (243~278p)

Chapter 5. 응용 작업

14일에서 16일차 (2020-07-19에서 07-21)도 이 책으로

http://www.kyobobook.co.kr/product/detailViewKor.laf?ejkGb=KOR&mallGb=KOR&barcode=9791162240144&orderClick=LAG&Kc=

 

파이썬 데이터 분석 입문 - 교보문고

엑셀 및 CSV 파일 처리부터 데이터베이스, 시각화, 통계분석, 자동화까지 | 프로그래밍 경험이 없는 입문자를 위한 파이썬 데이터 분석 A to Z 데이터 분석가가 프로그래밍을 배우면 수작업이 불가

www.kyobobook.co.kr

아래의 요약은 책을 충실히 요약한 것이 아닌 오늘 공부한 것의 정리일 뿐입니다.
코드 예제 github repository: http://github.com/cbrownley/foundations-for-analytics-with-python

 

GitHub - cbrownley/foundations-for-analytics-with-python

Contribute to cbrownley/foundations-for-analytics-with-python development by creating an account on GitHub.

github.com

5.1 대량의 파일에서 원하는 집합 찾기

파이썬 스크립트 내에 리스트로 검색할 품목을 하드 코딩하기 보다,
입력 데이터를 CSV로 만들어 스크립트로 전달하는 방식으로 하는 것이 나중을 위해 더 좋은 방법이다.

xlrd 모듈이 xlsx 확장자를 지원하지 않는다는 것을 다시 기억해 내자...
여태까지 해왔던 CSV에서 파일 읽기, 엑셀 스프레드시트에서 파일 읽기,
원하는 행을 찾기
CSV에 찾은 행을 쓰기를 종합한 코드이다.

5.2 CSV 파일에서 카테고리별 통계치 계산하기

시간의 흐름에 따라 제품별 고객 선호도의 변화를 알고 싶다.
판매자는 고객이 각 패키지를 얼마나 오래 유지했는지 알고 싶다.

5.3 텍스트 파일에서 카테고리별 통계치 계산하기

가령 활동 로그, 에러 로그, 트랜젝션 레코드 등을 일반 텍스트 파일로 많이 저장하게 된다.
이 중 MySQL 데이터베이스 시스템이 있다.
로그 파일의 분석을 통해 특정 에러가 다른 에러보다 빈번하게 발생했는지?
특정 에러의 발생 빈도가 시간에 따라 변화했는지?
등의 통찰을 얻을 수 있다.

Refer: python on walk

1) os module
2) blog

 

os — Miscellaneous operating system interfaces — Python 3.10.5 documentation

os — Miscellaneous operating system interfaces Source code: Lib/os.py This module provides a portable way of using operating system dependent functionality. If you just want to read or write a file see open(), if you want to manipulate paths, see the os.

docs.python.org

 

How to Traverse a Directory Tree in Python - Guide to os.walk | Python Central

A look at Python's os.walk built-in method, used for traversing directory trees.

www.pythoncentral.io

오늘의 흔적