본문 바로가기

Prev Contents/Wrangling

[파이썬을 활용한 데이터 길들이기] 파이썬 기초 1일차 (19~46p)

2장. 파이썬 기초

7월 24일 오늘부터 시작할 책은 파이썬을 활용한 데이터 길들이기입니다.

 

파이썬을 활용한 데이터 길들이기 - 교보문고

데이터 전처리 효율화 전략 | 미가공된 데이터를 수집하고, 복사하고, 스프레드시트에 붙여 넣어 쓸모 있는 형태로 정리하는 일은 데이터 분석 과정에서 꼭 필요하지만 가장 지루한 일이다. 매

www.kyobobook.co.kr

2017년에 출간되어 조금 시간이 지나기도 했고, 파이썬 버전은 2.7을 기반으로 했지만,

지난 번 파이썬 라이브러리를 활용한 데이터 분석, 파이썬 데이터 분석 입문에 이어 데이터 전처리와 분석을 위한 공부를 계속하기 위해 읽기 시작했습니다.

저자의 github repostory 링크

 

GitHub - jackiekazil/data-wrangling: Code repository for Data Wrangling with Python (O'Reilly)

Code repository for Data Wrangling with Python (O'Reilly) - GitHub - jackiekazil/data-wrangling: Code repository for Data Wrangling with Python (O'Reilly)

github.com

기본적인 데이터 유형

문자열

정수와 실수

정수

숫자를 정수의 형태로 저장하기도 하지만, 있는 그대로 문자열로 저장되어 있는 경우도 있다.

실수, 소수 및 비정수 유형

부동 소수점 유형으로 실수를 저장하게 되는데 이는 일정 수준의 정밀도만을 반영하는 근사치를 저장하게 된다는 의미이다.
이로인해 실수를 사용하면 빠른 처리가 가능하지만 정확성이 떨어지기도 한다.

그 해결책으로 decimal 모듈을 사용하여 고정 소수점, 부동 소수점 연산의 설정을 바꿔서 연산하기 링크

Refer: 그 외 수학 라이브러리

1) math
2) numpy
3) sympy - 기호 수학에 사용되는 파이썬 라이브러리
4) mpmath - 실수와 복소수, 부동 소수점의 임의 정밀도 연산을 위한 파이썬 라이브러리

데이터 컨테이너

변수

변수를 호출 (call)한다는 것은 파이썬에게 그 변수에 할당된 값이 무엇인지 물어보는 것과 같다.

리스트

리스트는 어떠한 파이썬 데이터 유형으로도 만들어질 수 있으며,
여러 가지 데이터 유형들의 조합으로도 만들어질 수 있다.

즉, 리스트의 원소로 변수를 집어 넣을 수 있고, 리스트를 넣을 수도 있다.

딕셔너리

리스트를 딕셔너리와 함께 사용할 수 있다.
한 번에 딕셔너리 내에 값을 리스트로 설정하거나, (수정 불가)
리스트를 먼저 작성하고, 그 리스트를 딕셔너리 내의 값으로 받을 수 있는 변수로 입력하거나 (리스트를 수정 가능)

Refer 부록 E

각 데이터 유형으로 무엇을 할 수 있나?

대부분의 경우 데이터 유형이 할 수 있는 일들을 메서드 (methods)라고 부르고,
특정 데이터 유형의 메서드에 접근하거나 데이터 유형이 특정 작업을 수행하게 하려면 점 표기법을 이용하면 된다.

문자열 메서드: 문자열이 할 수 있는 것들

불필요한 공백을 없애거나 (strip() 메서드), 대문자로 변경 (upper() 메서드)할 때, 변수에 할당하지 않으면 저장되지 않는다.
그러므로,

filename = 'budget.csv'
filename = filename.upper()

# OR

filename = 'budget.csv'.upper()

위의 두 방법은 선호도에 따라 선택하면 되겠다.

수치형 메서드: 숫자가 할 수 있는 것들

리스트 메서드: 리스트가 할 수 있는 것들

append() - 리스트에 항목을 추가
remove() - 리스트에서 항목을 삭제
이 둘이 가장 빈번하게 쓰인다.

딕셔너리 메서드: 딕셔너리가 할 수 있는 것들

딕셔너리는 순서를 저장하지 않으므로 출력값이 조금씩 다른 수 있다. 하지만 키-값 쌍이 달라지지는 않는다.
key() 메서드 - 딕셔너리에 포함된 모든 키를 알아 보기

유용한 도구: type, dir 그리고 help

type

각 객체의 데이터 유형을 파악

dir

특정 데이터 유형과 관련된 모든 내장 메서드와 속성을 확인
앞에는 내부 혹은 프라이빗 메서드가 나오고 그 이후에 반환된 출력 값을 잘 보자.

help

help(animals.split)

위와 같이 입력해야 한다. 즉, 메서드 뒤의 괄호는 제거하고 입력하라.

모두 종합하기

그러므로,

1) 문자열, 리스트, 딕셔너리를 생성
2) dir() 메서드를 이용해 각 데이터 유형에 사용할 수 있는 메서드가 무엇인지 검색
3) 오류가 발생할 때까지 검색된 내장 메서드를 몇 가지 적용해 보기
4) help() 함수를 이용하여 메서드 도움말을 검색

다 외워서 하는 것이 아니라 이렇게 접근해 가는 것이다.

이 모든 것이 무엇을 의미하는가?

앞서 파이썬 실행을 시험해 보는 코드를 이용하여 "모두 종합하기"의 내용을 복습해보자.

help(pprint.pprint)

type(sys.path)

요약

type(), dir(), help() 사용법을 잊지 말라.

오늘의 흔적