bigdata/04_01_로지스틱_회귀.ipynb at main · hscrown/bigdata · GitHub
지수법칙(네이버 수학사전)
<https://terms.naver.com/entry.naver?docId=3338304&cid=47324&categoryId=47324>
로지스틱 회귀로 확률 예측
- 로지스틱 회귀는 회귀모델 이 아닌 분류모델
- 선형회귀처럼 선형방정식 을 활용함
- 로지스틱회귀는 계산한 값을 0~1 사이로 압축 → 확률이 됨!
- 이진분류 : 시그모이드 함수에 통과시켜 양성클래스의 확률(0~1)을 구함
- 다중분류: 소프트맥스 함수에 통과시켜 전체클래스에 대한 합이 1이 되도록 만듬
사이킥런 LogisticRegression 클래스 중
predict_proba(X)
와 decision_function(X)
1. predict_proba(X)
- 설명:
predict_proba(X)
는 모델이 예측한 각 샘플에 대해 각 클래스에 속할 확률을 반환하는 메소드이다.
- 출력: 각 샘플에 대해 모델이 예측한 클래스의 확률을 포함하는 배열을 반환한다. 이진 분류에서는 2개의 클래스에 대한 확률이 출력되며, 다중 클래스 분류에서는 각 클래스에 대해 확률을 출력한다.
- 용도: 확률 값은 특정 샘플이 각 클래스에 속할 가능성을 나타낸다. 예를 들어, 확률이 0.75이면 해당 샘플이 두 번째 클래스에 속할 가능성이 75%임을 의미한다. 이 함수는 모델의 불확실성을 평가하거나, 다양한 임계값을 사용하여 다른 결정을 내릴 수 있는 경우 유용하다.
2. decision_function(X)
- 설명:
decision_function(X)
는 각 샘플에 대해 결정 함수 값을 반환한다. 이 값은 각 샘플이 각 클래스에 얼마나 가까운지, 즉 분류 결정의 '신뢰도'를 나타낸다. 이진 분류에서는 주로 클래스에 대한 거리 또는 점수를 반환하며, 다중 클래스 분류에서는 각 클래스에 대한 결정 함수 값을 반환한다.
- 출력: 각 샘플에 대해 결정 함수 값을 반환한다. 이 값은 확률과 다르게, 모델이 해당 샘플을 각 클래스에 대해 어느 정도 "확신"하고 있는지를 나타낸다. 이 값이 클수록 해당 샘플이 그 클래스에 속할 가능성이 높다는 의미이다.