토게틱의 데이터공부
[논문스터디]기업부도 예측을 위한 머신러닝 벤치마킹 본문
Benchmarking Machine Learning Models to Predict Corporate Bankruptcy
이 논문은 다양한 머신 러닝 모델을 사용하여 미국 상장 기업의 파산 예측 성능을 비교하고 분석한 연구입니다. 연구는 1990년부터 2019년까지의 데이터를 사용하여 여러 머신 러닝 알고리즘의 예측 성능을 평가했습니다.
데이터 및 예측 변수
- 샘플 크기: 1969년부터 2019년까지 총 2,585건의 파산 데이터를 포함한 131,261개의 기업-년 관측치.
- 데이터 출처: Compustat 데이터베이스(재무 정보), CRSP(주식 시장 정보), FRED 데이터베이스(거시 경제 정보).
- 예측 변수: 재무 비율, 주식 시장 변수, 산업 및 거시 경제 변수.
사용된 머신 러닝 모델
- 페널라이즈드 회귀 모델: LASSO, Ridge
- 랜덤 포레스트: Random Forest, Survival Random Forest
- 그라디언트 부스팅 트리: XGBoost, LightGBM
- 신경망: 얕은 신경망(NN3), 깊은 신경망(NN5)
주요 결과
예측 성능
- XGBoost와 LightGBM: AUC 0.92로 가장 높은 성능을 기록했습니다.
- 중요 변수: 주식 시장 변수(초과 주식 수익률, 특이적 위험, 상대적 크기)가 예측 성능에 중요한 역할을 했습니다.
위기 기간 성능
- 닷컴 버블(1999-2001)과 글로벌 금융 위기(2007-2009) 동안 모델 성능은 크게 감소하지 않았으며, 특히 부채 관련 회계 비율이 중요한 예측 변수로 작용했습니다.
Survival Random Forest 모델의 사용
Survival Random Forest(SRF) 모델은 기업 파산 예측에 사용되었습니다. 이 모델은 일반적인 랜덤 포레스트를 확장하여, 우측 검열된(right-censored) 데이터를 다룰 수 있도록 설계되었습니다. 이는 Breiman(2001)의 방법을 기반으로 Ishwaran et al.(2008)이 확장한 방법입니다.
데이터 수집 및 처리
- 재무 데이터: Compustat 데이터베이스에서 기업의 재무 정보를 수집.
- 주식 시장 정보: CRSP 데이터베이스에서 주식 시장 관련 정보를 수집.
- 거시 경제 정보: FRED 데이터베이스에서 거시 경제 정보를 수집.
- 텍스트 기반 변수: SEC-EDGAR 데이터베이스에서 기업의 연례 보고서(10-K)에서 텍스트 데이터를 추출하여 감정 분석 수행.
주요 재무 비율
- 자산 대비 순이익 (Net Income/Assets)
- 자산 대비 부채 (Liabilities/Assets)
- 자산 대비 순운전자본 (Net Working Capital/Assets)
- 자산 대비 유보이익 (Retained Earnings/Assets)
- 자산 대비 세전이익 (EBIT/Assets)
- 부채 대비 시장가치 (Market Value of Equity/Total Liabilities)
- 자산 대비 매출 (Sales/Assets)
가장 중요한 예측 변수
- 초과 주식 수익률 (Annual Excess Return)
- 특이적 위험 (Idiosyncratic Risk, Sigma)
- 상대적 크기 (Relative Size)
이 논문은 머신 러닝 모델이 기업의 파산 예측에 유용하다는 것을 입증하며, 특히 그라디언트 부스팅 트리 모델이 높은 예측 성능을 보임을 강조합니다. 추가적으로, 파산 예측에서 텍스트 기반 변수의 한계를 지적하고, 재무 및 주식 시장 변수의 중요성을 확인합니다.
원문보기:
https://arxiv.org/abs/2212.12051
'논문스터디' 카테고리의 다른 글
[논문스터디]금융 부문 BERT를 활용한 기업부도 예측 분석 (0) | 2024.07.30 |
---|---|
[논문스터디]머신러닝과 SHAP를 이용한 기업 부도 예측 (0) | 2024.07.30 |