퀀트 투자의 허와 실 1부(by 월가아재)

 안녕하세요, 게으른 퀀트입니다. 오늘은 퀀트 투자를 하고 계신 분들이 꼭 한 번 생각봐야 하는 내용으로 찾아왔습니다. 최근 '월가아재의 행복한 투자(이하 월가아재)'라는 유튜브 채널에서 '퀀트 투자의 허와 실'이라는 영상을 올렸습니다. 평소 구독하면서 많은 내용을 배우던 분이었는데, 퀀트 투자자들이 간과하는 내용에 대한 주의 영상을 올리셔서 꼼꼼히 시청했습니다. 많은 분들이 퀀트 투자에 대한 신뢰를 잃어버리실지도 모르는(?) 내용이지만, 모른척 넘어가기 보다는 배울 점은 배우고 가는 것이 좋다고 생각해서 공유드립니다. 원 영상도 포스팅 하단에 공유드릴테니 시청하시기를 추천드립니다!


 퀀트 투자의 원칙

1.투자 아이디어/가설

2.백테스팅

3.실전 매매

4.리스크 관리

 

 여기서 백테스팅은 '과거의 패턴이 미래에도 반복될 것'이라는 보장되지 않은 가정 하에, 과거에 수익성 좋았던 패턴을 찾는 것입니다. 과거에 수익성이 좋았던 패턴의 개수는 무궁무진하게 많을 수 있습니다. 그러나 이 중 실제 미래에도 수익성을 내는 패턴을 찾아내는 것은 매우 어렵습니다.

 

 많은 분들이 알고 있는 퀀트 전략 중 하나인 '마법 공식'도 마찬가지입니다. 조엘 그린블란트의 마법 공식은 간단한 팩터 몇 가지를 사용해 좋은 수익률을 낼 수 있는 것으로 알려졌지만, 공식이 알려진 후 시장 지수를 이기지 못했습니다. 

 

 제 블로그의 백테스트 결과들도 쉽게 초과 수익을 내는 것 같지만, 그 또한 과거의 수익일 뿐입니다. 저도 그런 전략들이 실제로 유효한지를 검증하는 과정을 거치고 있는 것이죠. 월가아재님은 이처럼 퀀트 투자라고 하더라도 초과 수익률을 내기가 쉽지 않다는 사실을 강조했습니다.

 

 그럼에도 퀀트 투자를 자신의 투자 방식으로 선정하였다면, 아래 10가지를 반드시 기억하고 주의해야합니다. 이는 특정 플랫폼, 특정 방식의 퀀트 전략을 이용하는 사람들뿐만 아니라 데이터를 기반으로 투자 의사결정을 하는 사람 모두에게 해당되는 내용이니 꼼꼼히 읽어보시고 자신의 투자 방식을 점검해보시길 바랍니다😎

 

1.데이터를 의심하라

 데이터를 기반으로 의사결정 하는 사람들은 반드시 다음과 같은 질문을 해봐야 합니다. 과연 그 데이터는 정확한가? 데이터 자체가 맞지 않다면, 데이터를 바탕으로 의사 결정에 하는 행위 자체가 무의미해집니다. 그렇기 때문에 막연하게 '당연히 맞겠지'하고 넘어가서는 안 됩니다. 저희의 소중한 자산이 달려있으니까요😭

 

 구글이나 야후 등의 큰 기업에서 제공하는 데이터에도 오류가 무척 많습니다. 저 또한 직접 야후 파이낸스의 데이터를 수집해보아서 더 공감할 수 있었죠. stockrow.com이나 investing.com 등의 다른 사이트의 데이터와 크로스 체크해보면 상이한 부분이 많습니다. 그 중 어떤 데이터가 맞는지를 찾기 위해서는 결국 기업이 발표한 원천 재무제표 데이터를 찾아야합니다. 수천 개에 달하는 기업이 발표한 수많은 재무제표를 완벽하게 검증하기는 사실상 불가능합니다(적어도 개인은).

 

 또한 생존자 편향의 문제가 있습니다. 생존자 편향은 흔히 진행하는 백테스팅의 대표적 오류이기도 한합니다. 현재 살아남아있는 기업의 데이터만을 사용해 백테스트를 한다면 수익률이 많이 뻥튀기되는 부작용이 있습니다. 퀀트킹의 데이터에도 상장폐지된 기업의 정보는 빠져있고, 이로 인해 정확한 백테스트가 불가능하기도 합니다. 물론 좋은 상장폐지가 있고, 안 좋은 상장폐지도 있어서 무조건적으로 수익률이 뻥튀기는 되는 것은 아니지만, 백테스트의 정확도가 떨어진다는 것은 분명한 사실입니다.

생존자 편향

 

 

 

2.미래를 먼저 바라보지 마라

 Look-ahead bias(예견 편향, 미래 선지 편향)은 매매 시점에서는 아직 확보할 수 없는 정보로 의사결정하는 편향을 말합니다. 예를 들어, 2021년 9월 기준 코스피 시가총액 상위 100개 기업 중에서, PER이 15미만인 주식만 사는 전략으로 2011년부터 2021년까지 백테스트했더니 수익률이 매우 좋았다고 합시다. 그런데 2021년에 시가총액 상위 100개의 기업이라는 것은 현 시점에서 알 수 있는 성공한 기업들입니다. 그런데 그 기업들을 2011년부터 매수했다면 당연히 수익률이 높아지겠죠? 매매 시점에서는 알 수 없는 정보로 매매한 상황입니다.

 

 그 외에 기업의 펀더멘털 실적 데이터로 백테스트를 진행한다면, 기업이 실제로 실적을 발표한 날짜 이후에 해당 기업을 매매한 것으로 계산되었는지 확인하여야 합니다. 그러나 많은 툴과 플랫폼에서 실적 발표일까지는 잘 표기하지 않기 때문에 일반 사용자들은 알기가 어려운게 현실입니다😭

 

3.과최적화를 피하라

 과최적화(overfitting)이란 전략을 주어진 샘플 데이터에만 지나치게 성능이 좋도록 만드는 것을 말합니다. 전략은 적당히 최적화하는 것이 중요한데, 높은 수익률만을 목표로 전략을 만들다보면 과최적화된 전략을 만들기 십상입니다. 예를 들어 2015년~2021년에 PER이 13.75이상 17.23이하이고, 시가총액이 515억 이상 623억 이하이면서, PBR은 1.172이하인 주식을 사면 연 수익률이 70%였다라고 하는 것은 과최적화일 확률이 매우 높습니다.

 

 그렇다면 어떻게 과최적화 문제를 완화할 수 있을까요? 모든 백테스팅은 어느 정도 과최적화 문제를 가지고 있고, 완전히 제거는 불가능합니다. 지난 5년치 데이터에만 백테스팅한 전략의 수익률이 향후 3년간 유효할지 어떻게 알 수 있을까요? 유일한 방법은 실제 3년간 매매해보는 것입니다. 그러나 전략이 유효하지 않다면 3년 간의 시간도 잃고 자산도 잃는게 되겠죠😥

 

 그나마 가능한 대안은 샘플 외 데이터(Out of Sample)를 이용하는 것입니다.

2015년 9월~2021년 9월 데이터에서 수익률이 좋은 전략을 찾아 2021년 10월부터 매매 (X)

2014년 9월~2020년 9월 데이터에서 수익률이 좋은 전략을 찾아 2020년 10월~2021년 9월에 백테스팅해보고, 그 결과가 좋으면 2021년 10월부터 실전매매 (O)

 

 

 

4.검증 기회는 단 한번 뿐이다

 규칙이나 모델을 복잡하게 하면 할수록 학습 데이터 상의 성능은 좋아지지만(백테스트 수익률은 높아지지만), 검증 데이터 상의 성능은 나빠집니다(실전 수익률은 낮아집니다). 엄밀히 말하면 성능이 나빠지는 것과 수익률이 낮아지는 것은 다른 의미이긴 합니다. 그보다는 백테스팅 결과와 실전의 격차가 크다는 것을 의미합니다. 실전의 수익률이 더 높을수도 있겠지만, 백테스트와 실전의 괴리가 커지는 것 자체가 안 좋은 현상이겠죠.

 

 그렇다면 어떻게 데이터를 나누어서 학습한 전략이 잘 먹히는지 검증할 수 있을까요? 몇 가지 방법을 소개해드립니다.

(1) 2011년~2020년 데이터로 학습 후, 2021년 데이터로 검증하고, 2022년부터 적용

(2) Walk-forward Testing

 

(3) K-Fold Cross Validation

(4) 짝수 해로 학습, 홀수 해로 검증 : 시장의 성질이 바뀌는 Market regime을 피할 수 있는 방법이지만, Look-ahead bias를 주의해야합니다.

 

 검증 데이터를 두 번 보면 오염됩니다. 실전에서도 전략을 적용하여 손익을 볼 기회도 단 한 번뿐이기 때문에, 학습 데이터로 충분히 최적의 전략을 짜고, 만반의 준비를 갖추고 검증 데이터로 돌려봤는데 수익률이 나쁘면 전략을 버려야합니다.

 

5.시대는 변한다.

 20년치 데이터로 백테스팅 vs 3년치 데이터로 백테스팅, 어느 것이 더 유의미 할까요? 데이터의 개수는 많으면 많을수록 좋습니다. 그러나 그 데이터가 같은 분포에서 비롯되는 데이터여야 합니다. 그런데 시장의 성질은 변화합니다(Market Regime Change). 그렇기 때문에 20년치의 데이터를 사용하더라도 도중에 시장의 성질이 변화되었다면, 백테스트 결과가 유의미하지 않을 수 있습니다. 

 

ex1) 금리가 시기 별로 다른데, 채권 투자의 전체 기간으로 검증하면 현실과 다를 수 있다.

ex2) 시장 플레이어들의 변화(코로나 이후 개미들의 유입, gamestop 사태 하의 공매도 전략)

ex3) 제도 및 규제 변화(금융위기 이후 투자은행의 프랍 매매 금지 및 파생 상품 시장 변화)

ex4) 외생적인 이벤트(오일쇼크)

ex5) 거시 경제적 변화(부채비율 상승, 고금리 → 저금리 시대)

ex6) 신기술의 등장 및 산업 구조 변화(전기차, ESG)

 

 이처럼 시장은 계속해서 변화하기 때문에 퀀트, 계량적 기법을 장기투자에 적용하기는 쉽지가 않습니다. 많은 데이터 개수를 확보하면서, 시장 성질의 변화를 피하기 어렵기 때문이죠.

 

 지금까지 월가아재님이 올려주신 영상을 바탕으로, 퀀트 투자자들이 주의해야할 점 다섯가지를 알아보았습니다. 조만간 2부가 올라오면 또 정리해서 포스팅하도록 하겠습니다. 간략히 정리하기는 하였지만, 아래 링크된 영상을 통해 더 자세한 내용과 설명을 들으시기를 추천합니다!

 

 

 

 

퀀트 투자의 허와 실 2부(by 월가아재)

 안녕하세요, 게으른 퀀트입니다. 지난 포스팅에 이어서 월가아재님의 영상 '퀀트 투자의 허와 실 2부'에 대해서 정리해보도록 하겠습니다. 아직 1부 영상을 시청하지 못하신 분들은 아래 포스

lazyquant.tistory.com

 

 


공감댓글, 공유는 큰 힘이 됩니다!

도움이 되셨다면 널리널리 알려주세요😉

 

 

댓글()