본문 바로가기

Prev Contents/Deep learning

[그림으로 배우는 딥러닝] 7장. 분류 (233~265p)

그림으로 배우는 딥러닝 (http://www.kyobobook.co.kr/product/detailViewKor.laf?ejkGb=KOR&mallGb=KOR&barcode=9791161756448&orderClick=LAG&Kc=)

 

그림으로 배우는 딥러닝 - 교보문고

◈ 이 책에서 다루는 내용 ◈ ◆ 텍스트 생성기로 이야기와 기사를 만드는 방법 ◆ 인간 게임에서 딥러닝 시스템이 승리하도록 학습하는 방법 ◆ 이미지 분류 시스템으로 사진 속 사물이나 사람

www.kyobobook.co.kr

7장. 분류

GOTO 특정 분류 알고리즘에 대해서 11장에서 다룬다.

이진 분류

2D 이진 분류 시스템 - 피처가 두개 예측하고자 하는 클래스 두개
클래스를 잘 나눌 수 있을 때 영역을 결정 영역 (decision region) 또는 영역 (domain)이라 한다.
이들 사이의 선이나 곡선은 결정 경계 (decision boundaries)라고 한다.

절대적인 단일 클래스를 예측하기보다 각 가능한 클래스에 고유한 확률을 할당해보자.

여기서 절대적인 값은 없다. 정확도, 정밀도, 재현율을 고려해 결국 사람이 관여해야 한다.

2D 다중 클래스 분류

분류하고자 하는 클래스를 여러 개 추가할 수 있다.
물론 특성도 추가할 수 있지만, 그림으로 그리기는 쉽지 않다.
차원 수가 증가하면 연산 시간과 소요되는 메모리도 커진다.

다중 클래스 분류

하나 대 나머지

OvR - One-versus-Rest와 같은 이름인데 여러 버전이 있다.
다중 클래스의 분류에서 특정 타겟과 나머지 타겟의 결정 경계를 학습하고, 그 다음 타겟과 나머지 타겟이 결정 경계를 학습하는 반복으로 각 클래스 마다의 결정 경계를 학습할 수 있다.
이렇게 되면 클래스 마다의 결정 경계가 생긴다.

새 분류하고자 하는 점이 입력으로 들어 오면 각 클래스 마다의 결정 영역에 속할 확률을 계산하여 가장 가능성이 높은 클래스로 분류를 해 줄 수 있다.

문제는 클래스가 많을 수록 샘플을 분류하는데 시간이 추가될 수 있다.

하나 대 하나

각 다중 클래스의 짝을 지어 이 두 클래스 간의 결정 경계를 그린다.
새 샘플이 입력으로 들어오면 모든 분류 결과 중 가장 많은 표를 받은 클래스에 할당한다.
샘플이 어떻게 평가되었는지 더 명확하게 이해할 수 있다. 즉, 인간이 최종 결과를 이해하기 더 쉽다.
하지만, 클래스가 늘어나면 훈련해야 할 분류기의 개수가 빠르게 늘어난다.

어느 시점부터 하나의 복잡한 다중 클래스 분류기를 사용하는 것이 더 효율적이 될 수 있다.

클러스터링

단점은 몇 개의 클러스터가 데이터를 가장 잘 설명하는지 모를 수 있다.
하이퍼파라미터 튜닝: 이 때 보편적인 선택지는 k에 매번 다른 값을 적용해 클러스터링 모델을 여러 번 훈련시키는 것이다.
물론, 연산자원과 시간이 걸린다.

차원의 저주

차원과 밀도

적절한 밀도를 유지하고자 필요한 샘플수가 폭발적으로 증가한다.
이와 반대로 불균일의 축복 또는 구조의 축복으로 실제로 매우 고차원 공간에서조차 일반적으로 측정하는 피처가 샘플 공간에서 균일하게 퍼지지 않는 경향이 있을 수 있다.

고차원의 기이함

2차원과 3차원의 경험을 통해 알고 있는 것으로부터 함부로 일반화하면 안된다.

7장의 요약