LG Aimers(AI 전문가 과정)/Module 3. 비지도학습

Part 1. 전통기계학습과 딥러닝에서의 비지도학습

전주혁 2022. 7. 25. 03:21

Module 3. 비지도학습은 서울대학교 이원종 교수님이 강의를 하셨고 Module 3에 관한 모든 내용은 LG Aimers 및 서울대학교 이원종 교수님으로부터 나왔다.

 

 

 

 

 

 

전통적 기계학습에서의 비지도학습

1. K-means Clustering

 - 가장 널리 사용되는 군집 방법 중 하나

 - 특정한 중심값으로 요약되는 K개의 클러스터를 찾음

 - 알고리즘의 수렴이 보장되어 있음

 - 지역 최적해로 수렴(초기 중심값에 따라 결과가 달라질 수 있음)

 - K값을 미리 결정해주어야 함(K-means Clustering의 최대 약점)

 

 

K-Means 알고리즘 순서

 1. 각 특성 변수의 자료 타입에 따라 자료를 변환한 후 특성 변수를 표준화

 2. 학습 데이터에서의 임의의 K개 표본을 뽑아 K개 군집의 중심값으로 놓음

 3. 각 관측치를 제곱 유클리디안거리 기준으로 가장 가까운 군집에 편입

 4. 각 군집의 평균을 새로 구해 이를 새로운 중심값으로 놓고 3번 다시 실행

 5. 각 군집의 member가 변하지 않을 때까지(or 미리 정해진 최대 반복횟수에 도달할 때 까지 4번 반복)

 

 

 

K-Means Clustering의 목표 : 군집의 결과로 얻어지는 손실 함수를 최소화하는 K값을 찾는 것

 

문제점

 -> K가 계속 커지면 손실 함수의 값은 계속 작아지게 된다

     --> 하지만 overfitting이 발생

 

 

대안 : 손실함수의 감소 속도가 확연히 줄어드는 K를 찾는 것

 

ex)

세종대학교 이현석 교수님 기계학습 자료 중 발췌

 

 

 

 

 

비지도학습의 다른 방법

 - Hirarchical Clustering

 - Density estimation

 - PCA : dimension을 줄이기 위한 기법으로 Eigenvalue Decomposition과 동일한 방식

 

 

 

전통적인 머신러닝 기법 : 클러스터링을 한 후 클러스터링 된 결과가 말이 되는지 validation을 꼭 해줘야 함

 - Internal Cluster Validation : 스스로 클러스터링 된 데이터를 기반으로 클러스터링의 결과를 평가

 - External Cluster Validation : 외부평가에서 클러스터링 결과들은 외부 데이터에 기반해 평가

 - Relative Cluster Validation

Validation 기법들

 

 

 

 

 

 

 

 

 

 

딥러닝에서의 비지도학습

input은 Raw 데이터(오리지널 input 데이터)로 들어가서

hand-coded weight or programs를 통해 Raw 데이터를 정리해서 이용한다.

 

 

 

Feature Engineering VS Representation Learning

 

 

Feature engineering : 전통적 기계학습에서 중요, 딥러닝 목표는 이 부분을 하지 않는 것

 - By human(인간이 해야 함)

 - Domain knowledge & creativity

 - Brainstorming

 

 

Representation leaning : 딥러닝에서의 approach

 - By machine(기계 즉, 알고리즘이 해야 함)

 - Deep learning knowledge & coding skill (정보에 대한 고민을 하지 않고 딥러닝 모델에 대한 고민을 해야 함)

 - Trial and error

 

 

 

 

Representation

 - 알고리즘 입장에서 상당히 중요

 - 성능이 잘 나오는데 큰 영향

 - 정보를 어떤 식으로 정리/표현할 것인가?

 - 어떤 x라는 개념이 있을 때, 수학적인 기호로 표현하는 Rule