Notice
Recent Posts
Recent Comments
Link
«   2024/10   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31
Archives
Today
Total
관리 메뉴

토게틱의 데이터공부

[논문스터디]기업부도 예측을 위한 머신러닝 벤치마킹 본문

논문스터디

[논문스터디]기업부도 예측을 위한 머신러닝 벤치마킹

토게틱 2024. 8. 1. 15:42

Benchmarking Machine Learning Models to Predict Corporate Bankruptcy

이 논문은 다양한 머신 러닝 모델을 사용하여 미국 상장 기업의 파산 예측 성능을 비교하고 분석한 연구입니다. 연구는 1990년부터 2019년까지의 데이터를 사용하여 여러 머신 러닝 알고리즘의 예측 성능을 평가했습니다.

데이터 및 예측 변수

  • 샘플 크기: 1969년부터 2019년까지 총 2,585건의 파산 데이터를 포함한 131,261개의 기업-년 관측치.
  • 데이터 출처: Compustat 데이터베이스(재무 정보), CRSP(주식 시장 정보), FRED 데이터베이스(거시 경제 정보).
  • 예측 변수: 재무 비율, 주식 시장 변수, 산업 및 거시 경제 변수.

사용된 머신 러닝 모델

  1. 페널라이즈드 회귀 모델: LASSO, Ridge
  2. 랜덤 포레스트: Random Forest, Survival Random Forest
  3. 그라디언트 부스팅 트리: XGBoost, LightGBM
  4. 신경망: 얕은 신경망(NN3), 깊은 신경망(NN5)

주요 결과

예측 성능

  • XGBoost와 LightGBM: AUC 0.92로 가장 높은 성능을 기록했습니다.
  • 중요 변수: 주식 시장 변수(초과 주식 수익률, 특이적 위험, 상대적 크기)가 예측 성능에 중요한 역할을 했습니다.

위기 기간 성능

  • 닷컴 버블(1999-2001)과 글로벌 금융 위기(2007-2009) 동안 모델 성능은 크게 감소하지 않았으며, 특히 부채 관련 회계 비율이 중요한 예측 변수로 작용했습니다.

Survival Random Forest 모델의 사용

Survival Random Forest(SRF) 모델은 기업 파산 예측에 사용되었습니다. 이 모델은 일반적인 랜덤 포레스트를 확장하여, 우측 검열된(right-censored) 데이터를 다룰 수 있도록 설계되었습니다. 이는 Breiman(2001)의 방법을 기반으로 Ishwaran et al.(2008)이 확장한 방법입니다.

데이터 수집 및 처리

  • 재무 데이터: Compustat 데이터베이스에서 기업의 재무 정보를 수집.
  • 주식 시장 정보: CRSP 데이터베이스에서 주식 시장 관련 정보를 수집.
  • 거시 경제 정보: FRED 데이터베이스에서 거시 경제 정보를 수집.
  • 텍스트 기반 변수: SEC-EDGAR 데이터베이스에서 기업의 연례 보고서(10-K)에서 텍스트 데이터를 추출하여 감정 분석 수행.

주요 재무 비율

  1. 자산 대비 순이익 (Net Income/Assets)
  2. 자산 대비 부채 (Liabilities/Assets)
  3. 자산 대비 순운전자본 (Net Working Capital/Assets)
  4. 자산 대비 유보이익 (Retained Earnings/Assets)
  5. 자산 대비 세전이익 (EBIT/Assets)
  6. 부채 대비 시장가치 (Market Value of Equity/Total Liabilities)
  7. 자산 대비 매출 (Sales/Assets)

가장 중요한 예측 변수

  • 초과 주식 수익률 (Annual Excess Return)
  • 특이적 위험 (Idiosyncratic Risk, Sigma)
  • 상대적 크기 (Relative Size)

이 논문은 머신 러닝 모델이 기업의 파산 예측에 유용하다는 것을 입증하며, 특히 그라디언트 부스팅 트리 모델이 높은 예측 성능을 보임을 강조합니다. 추가적으로, 파산 예측에서 텍스트 기반 변수의 한계를 지적하고, 재무 및 주식 시장 변수의 중요성을 확인합니다​.

 

 

원문보기: 

https://arxiv.org/abs/2212.12051

 

Benchmarking Machine Learning Models to Predict Corporate Bankruptcy

Using a comprehensive sample of 2,585 bankruptcies from 1990 to 2019, we benchmark the performance of various machine learning models in predicting financial distress of publicly traded U.S. firms. We find that gradient boosted trees outperform other model

arxiv.org