Orange 3 통계 - Logistic Regression, Tree 모델
강사: 이숙번님
1. Logistic Regression(로지스틱 회귀)
: 머신러닝에 분류 문제를 해결하기 위한 알고리즘이다.
- 데이터가 두 가지 범주 중 하나로 나뉘는 이진 분류(Binary Classification) 문제에 주로 사용됨
1.1. sigmoid 함수 이용
: 선형 회귀의 결과를 시그모이드 함수에 통과시켜 0과 1 사이의 값으로 변환함.
시그모이드 함수는 입력 값이 커질수록 출력이 1에 가까워지고, 작아질수록 0에 가까워지는 S자 형태의 곡선임.
- 기준 값은 일반적으로 0.5 임.
- cut-off value 를 0.8로 하면 0.8 밑으로는 0으로, 0.8 이상은 1로 변경됨.
시그모이드 함수 비유를 밸런스 스위치라고 생각한다면,
- 큰 숫자는 "스위치를 켠 상태(1)"로 바꾸고,
- 작은 숫자는 "스위치를 끈 상태(0)"로 바꿉니다.
- 중간 숫자는 "스위치를 반쯤 켠 상태(0.5)"로 유지합니다.
- 위의 그래프에서 0.538이 cut-off value 임.
- AUC = ROC Curve의 면적, 면적이 넓을수록 좋은 모델임.
- AUC 값으로 좀 더 좋은 모델인지 알 수 있음.(높을수록 좋은 모델)
- 최적의 cut-off value를 찾기 위한 도구 ROC Curve
1.2. Confusion Matrix(혼동 행렬)
: 분류 모델의 성능을 평가하기 위해 사용되는 표 형태의 도구
- TPR: Y축, FPR: X축
2. Tree Model
: 데이터를 부분집합으로 데이터가 균일해지도록 분할
- 분류
: 비슷한 범주를 지닌 관측치끼리 모음
- 예측
: 비슷한 수치를 지닌 관측치끼리 모음
- 장점
- 주요변수 선정 용이
- 해석의 용이성
- 비모수적 모형
- 단점
- 비연속성
- 주효과의 결여
- 경계 근방에서 예측 오류 가능성
2.1. 의사결정 나무 - 회귀모델
2.2. 의사결정 나무 - 분류모델
2.3. Information Gain(IG, 정보이득)
: 특정변수를 사용했을 때의 Entropy 감소량
- tree model - Entropy(높으면, 어질러져 있는 상태, 낮으면 정리정돈이 잘되어 있는 상태)
- Entropy가 가장 낮을 걸 찾으면 최적의 모델임.
※ Entropy
: 불확실성이나 예측 불가능성을 측정하는 수학적 개념으로 특히, 의사결정 트리(Decision Tree) 알고리즘에서 데이터의 혼잡도를 나타내는 지표로 자주 사용됨.
- 엔트로피는 의사결정 트리에서 특성을 선택할 때 사용됨.
- 목적: 엔트로피를 최소화하는 방향으로 데이터를 분리해, 정보 이득(Information Gain)을 최대화함.
-> 엔트로피는 데이터의 혼잡도 또는 불확실성을 측정하는 지표
3. Ensemble(앙상블 모델)
- 모델계의 민주주의
3.1. Random Forest
- 여러 개의 Train set을 생성하여 각 데이터마다 개별 Decision Tree 생성
- Decision Tree 생성 시, 변수 무작위 선택
3.2. Bagging
3.3. Bootstraping
: 여러 종류의 데이터 셋을 구성하여 각 데이터셋마다 모델을 생성
- 각 모델은 서로 다른 학습 데이터셋 이용
- 복원 추출
- 원래 데이터셋과 같은 크기로 샘플링
- 개별 데이터 셋을 bootstrap set 이라고 함.
3.4. Aggregation
- 값에 따라 가중치(중요한 변수인지)가 달라짐.
3.5. Boosting
- 오답에 대해 높은 가중치를 부여 - 오답에 더욱 집중
- 정확도가 높게 나타남
- Outlier에 취약(Over fiting?)
- 주요 Bootsting 알고리즘
: XGBoost, LightGBM, catboost
- Boosting은 기본적으로 오류를 줄이는 방향으로 모델을 반복적으로 학습시키며, 각각의 학습자가 잘못 예측한 데이터를 다음 학습자가 더 잘 처리하도록 초점을 맞춤.
출처: AI Hub 교육과정 - WEB+AI (위 내용이 문제가 된다면 댓글에 남겨주세요. 바로 삭제조치하도록 하겠습니다.)
'Programming 개발은 구글로 > 기타 정보' 카테고리의 다른 글
[WEB+AI] 27일차 딥러닝 1/2 (0) | 2024.11.19 |
---|---|
[WEB+AI] 26일차 Orange 3 복습 (0) | 2024.11.18 |
[WEB+AI] 24일차 오렌지 3 통계 3/3 (1) | 2024.11.15 |
[WEB+AI] 23일차 오렌지 3 통계 2/3 (1) | 2024.11.15 |
[WEB+AI] 22일차 오렌지 3 통계 1/3 (1) | 2024.11.12 |
댓글