2장. 파이썬 기초
7월 24일 오늘부터 시작할 책은 파이썬을 활용한 데이터 길들이기입니다.
파이썬을 활용한 데이터 길들이기 - 교보문고
데이터 전처리 효율화 전략 | 미가공된 데이터를 수집하고, 복사하고, 스프레드시트에 붙여 넣어 쓸모 있는 형태로 정리하는 일은 데이터 분석 과정에서 꼭 필요하지만 가장 지루한 일이다. 매
www.kyobobook.co.kr
2017년에 출간되어 조금 시간이 지나기도 했고, 파이썬 버전은 2.7을 기반으로 했지만,
지난 번 파이썬 라이브러리를 활용한 데이터 분석, 파이썬 데이터 분석 입문에 이어 데이터 전처리와 분석을 위한 공부를 계속하기 위해 읽기 시작했습니다.
저자의 github repostory 링크
GitHub - jackiekazil/data-wrangling: Code repository for Data Wrangling with Python (O'Reilly)
Code repository for Data Wrangling with Python (O'Reilly) - GitHub - jackiekazil/data-wrangling: Code repository for Data Wrangling with Python (O'Reilly)
github.com
기본적인 데이터 유형
문자열
정수와 실수
정수
숫자를 정수의 형태로 저장하기도 하지만, 있는 그대로 문자열로 저장되어 있는 경우도 있다.
실수, 소수 및 비정수 유형
부동 소수점 유형으로 실수를 저장하게 되는데 이는 일정 수준의 정밀도만을 반영하는 근사치를 저장하게 된다는 의미이다.
이로인해 실수를 사용하면 빠른 처리가 가능하지만 정확성이 떨어지기도 한다.
그 해결책으로 decimal
모듈을 사용하여 고정 소수점, 부동 소수점 연산의 설정을 바꿔서 연산하기 링크
Refer: 그 외 수학 라이브러리
1) math
2) numpy
3) sympy - 기호 수학에 사용되는 파이썬 라이브러리
4) mpmath - 실수와 복소수, 부동 소수점의 임의 정밀도 연산을 위한 파이썬 라이브러리
데이터 컨테이너
변수
변수를 호출 (call)한다는 것은 파이썬에게 그 변수에 할당된 값이 무엇인지 물어보는 것과 같다.
리스트
리스트는 어떠한 파이썬 데이터 유형으로도 만들어질 수 있으며,
여러 가지 데이터 유형들의 조합으로도 만들어질 수 있다.
즉, 리스트의 원소로 변수를 집어 넣을 수 있고, 리스트를 넣을 수도 있다.
딕셔너리
리스트를 딕셔너리와 함께 사용할 수 있다.
한 번에 딕셔너리 내에 값을 리스트로 설정하거나, (수정 불가)
리스트를 먼저 작성하고, 그 리스트를 딕셔너리 내의 값으로 받을 수 있는 변수로 입력하거나 (리스트를 수정 가능)
Refer 부록 E
각 데이터 유형으로 무엇을 할 수 있나?
대부분의 경우 데이터 유형이 할 수 있는 일들을 메서드 (methods)라고 부르고,
특정 데이터 유형의 메서드에 접근하거나 데이터 유형이 특정 작업을 수행하게 하려면 점 표기법을 이용하면 된다.
문자열 메서드: 문자열이 할 수 있는 것들
불필요한 공백을 없애거나 (strip()
메서드), 대문자로 변경 (upper()
메서드)할 때, 변수에 할당하지 않으면 저장되지 않는다.
그러므로,
filename = 'budget.csv'
filename = filename.upper()
# OR
filename = 'budget.csv'.upper()
위의 두 방법은 선호도에 따라 선택하면 되겠다.
수치형 메서드: 숫자가 할 수 있는 것들
리스트 메서드: 리스트가 할 수 있는 것들
append()
- 리스트에 항목을 추가remove()
- 리스트에서 항목을 삭제
이 둘이 가장 빈번하게 쓰인다.
딕셔너리 메서드: 딕셔너리가 할 수 있는 것들
딕셔너리는 순서를 저장하지 않으므로 출력값이 조금씩 다른 수 있다. 하지만 키-값 쌍이 달라지지는 않는다.key()
메서드 - 딕셔너리에 포함된 모든 키를 알아 보기
유용한 도구: type, dir 그리고 help
type
각 객체의 데이터 유형을 파악
dir
특정 데이터 유형과 관련된 모든 내장 메서드와 속성을 확인
앞에는 내부 혹은 프라이빗 메서드가 나오고 그 이후에 반환된 출력 값을 잘 보자.
help
help(animals.split)
위와 같이 입력해야 한다. 즉, 메서드 뒤의 괄호는 제거하고 입력하라.
모두 종합하기
그러므로,
1) 문자열, 리스트, 딕셔너리를 생성
2) dir()
메서드를 이용해 각 데이터 유형에 사용할 수 있는 메서드가 무엇인지 검색
3) 오류가 발생할 때까지 검색된 내장 메서드를 몇 가지 적용해 보기
4) help()
함수를 이용하여 메서드 도움말을 검색
다 외워서 하는 것이 아니라 이렇게 접근해 가는 것이다.
이 모든 것이 무엇을 의미하는가?
앞서 파이썬 실행을 시험해 보는 코드를 이용하여 "모두 종합하기"의 내용을 복습해보자.
help(pprint.pprint)
type(sys.path)
요약
type()
, dir()
, help()
사용법을 잊지 말라.
오늘의 흔적
'Prev Contents > Wrangling' 카테고리의 다른 글
[파이썬을 활용한 데이터 길들이기] 7장. 데이터 클리닝하기: 조사, 매칭 그리고 서식화 (165~207p) (0) | 2022.07.31 |
---|---|
[파이썬을 활용한 데이터 길들이기] 여러 데이터 다루기 (CSV, JSON, XML / xls /PDF) (3~5장, 47~136p) (0) | 2022.07.29 |
[파이썬을 활용한 데이터 길들이기] 파이썬 소개 1일차 (1~18p) (0) | 2022.07.24 |
[파이썬 데이터 분석 입문] 더 공부할 것들 18~19일차 (341~364p) (0) | 2022.07.24 |
[파이썬 데이터 분석 입문]스크립트 자동 실행 예약하기 18일차(327~340p) (0) | 2022.07.23 |