[개데이터] 우리팀의 성적은 운일까? 실력일까? (1)

by 잠잘까 posted Sep 18, 2014
?

단축키

Prev이전 문서

Next다음 문서

ESC닫기

크게 작게 위로 아래로 댓글로 가기 인쇄


예전에 말한대로 오늘도 재미난 데이터 하나 투척. 귀차니즘 때문에 음슴체로 쓰겠음. 근데 쓰고나니까 길어졌음. 사실 이게 메인이 아닌데 메인을 위해서는 무조건 설명해야하는거라 참 난감함. 내가봐도 너무 길어서 안읽을 것 같음.


그래서 좀 심심한 횽들만 읽으셈 ㅋㅋㅋ




-----------------------------



PDO라는 꽤 재미난 공식이 있음.


유래는 아이스하키. 공식은 1000*(Sh%+Sv%)


여기서 Sh는 득점 지표인 유효슈팅(혹은 슈팅)당 득점, Sv는 흔히 아는 선방률(1-피유효슈팅(피슈팅) 당 실점)

간단히 말해 내가 공을 차서 들어가면 Sh는 늘어나고, 내가 못넣으면 상대팀 Sv가 늘어남.

수치는 최대 2000에서 최소 0. 그리고 평균은 1000.



간단히 득점력 지표와 실점력 지표의 합에 1000을 곱해서 나타낸 거라보면 댐. 왜 1000을 곱하냐?라는 이유는 딱히 찾지 못했지만 그냥 보기 편하게(?) 라는 이유가 아닐까 생각하고 있음. 실제로 학부수업때 그 짓 많이 하니까;; 


그리고 왜 PDO냐? 라는 물음에도 답하기 어렵지만 전에 찾아본 바로는 이걸 발견한 사람의 이름에서 유래 되었다고... 했는데 솔직히 근거가 없어서 모르겠음.





이건 크게 2가지 특징이 있음.





1. 1000점 회귀


내가 찬 공은 2가지 중에 하나임. 


넣거나 못넣거나. 



넣게되면 우리팀의 Sh(유효슈팅당 득점)가 늘어나고, 못넣으면 상대편의 Sv(피유효슈팅당 실점)가 늘어남.

이 말을 달리 말하면 모든 팀은 1000점으로 회귀할 가능성이 높음. 이게 뭔뜻이냐?



전북이 10 유효 슈팅에서 5득점을 했음. 그럼 0.5의 Sh를 가짐.(5 나누기 10) 그리고 그 경기에서 10피유효슈팅에 1실점을 했음. 그럼 0.9(1-(1/10))의 Sv를 가짐. 이 둘의 합계가 1.4니까 1000을 곱하면 1400이란 수치가 댐. 상대편을 보자. 전북과 맞대결을 벌인 팀은 10피유효에 5실점을 해서 (1-(5/10))=0.5의 Sv를 가짐, 반대로 10유효슈팅에 1득점을 기록했으니 Sh는 0.1. 이 두개를 더해서 1000을 곱하면 600의 PDO가 기록댐. 전북은 1400, 상대편은 600. 


두 팀의 PDO 합의 평균은 1000. 당연히 모든 슈팅은 막거나 혹은 넣은 거니까. 그래서 잘하는 팀은 초반에 높은 PDO가, 못하는 팀은 낮은 PDO가 기록되는 건 누구나가 다 알 수 있음. 모든 팀은 0에서 시작해 1000의 평균을 가지는데 잘하는 팀은 못하는 팀의 PDO를 빼앗아 온다. 라고 생각하면 좀 편함.




하지만 영원하지 않음. 야구의 4할 타자와 3할타자의 차이점은 10번 중에 4번 칠 수 있느냐, 3번 칠수 있느냐 란 아주 사소한 문제인데, 4할은 3할과 다르게 정말 어려운 기록 중에 하나임. 그 이유는 바로 경기수. 이종범이 과거 8월까지 4할을 기록하다가 떨어졌고, 그 외 수많은 선수들이 여름까지는 4할을 기록하다가 떨어졌음. 즉, 모든 선수(팀)은 항상 좋은 쪽으로 할 수 없고, 본연의 실력으로 회귀하는 경향이 있음. PDO는 그 회귀하는 경향이 1000으로 맞춰져 있고, 그래서 1시즌을 놓고 볼 때 1000점 이상, 이하인 팀들을 대상으로 분석에 들어감.


그럼 여기서 의문이 생김.


1. 이 팀의 본래 실력보다 더 높은 PDO를 가지면 떨어질테고,

2. 이 팀의 본래 실력보다 더 낮은 PDO를 가지면 올라갈테고.


가 기본 공식이지만, 시즌이 끝난 후에도1000을 벗어나는 팀이 존재함.


여기서 탄생하는게 럭키. 운의 요소임.





2. 운


이 데이터는 과거 소개한 피타고리안 처럼 '운'을 다루고 있음.


간단히 말해 1000점 이상의 스코어를 지닌 팀은 필연적으로 해당 경기에 운이 작용한다고 보면 댐. 간단하게 얼마전 벌어진 포항과 성남의 경기가 이 케이스에 맞음.



난 이 경기를 전반전에 보지 못하고, 후반전만 봐서 딱히 경기내용을 이야기하긴 어려움. 다만 포항빠들이 져도 할말없다는 경기였다라는 걸 얼핏 본적이 있음. 


포항 1 VS 0 성남

슈팅 2 VS 10

유효 1 VS 2




데이터가 적지만, 어쨌거나 이 경기에서 이겨야할 팀은 당연히 성남임. 왜? 상대팀보다 많은 슈팅으로 공격지배권을 가져갔고 적은 슈팅을 내줌으로써 수비도 안정적으로 했으니까. 하지만 결과는 포항 승. 보통 이럴때 '운'이 개입해서 포항이 승리를 했다라고 여기고 있음. 


아. 혹시나 '이 팀은 운이 좋아서 이긴다' 이런 뜻이 절대 아님. 이건 승부의 기본적인 흐름인 '많이 쏘고, 적게 내줘서 이긴다' 라는 공식을 역행하는 걸 '운'이라고 표현하는 거임. 포항은 이러한 데이터를 역행하는 팀으로 유명함. 그리고 당연한 소리겠지만, 잘하는 팀이 운이 좋은 건 당연함.(췟...) 뭐 이건 아래에서 따로 설명하겠음.



그럼 또 이런 고민이 생김.


포항은 원래 이런 성향의 공격(수비)를 하는 팀이라면? PDO는 2가지를 통해 점수를 끌어모을 수 있음.


1) 상대편의 점수를 얻어오거나

2) 우리팀의 본래실력만큼 회귀(상승)하거나


그래서 고정치가 필요함. 본래 포항의 PDO가 1000 이상의 수준이라면 앞선 내용은 '운'이 아닌 '재능'이 돼버림.







3. 고정치


시즌이 끝나면 대부분의 팀들이 1000점을 기록할 거임. 그걸 벗어나는 A팀은 약 1050, B팀은 980, 나머지는 이 안에서 왔다갔다~한다고 보자. A팀은 운이 작용했다고 봐야지만, 여기서 고려해야 할게 리그 수준과 해당 팀이 가진 본연의 실력임.


만약 상위권 팀들이 꾸준히 1050을 기록한다면 이건 A팀의 성적에 운이 작용한게 아니라 애초에 리그 수준 내에서 상위권 팀들은 이 정도의 퍼포먼스를 보여줘야 한다는 뜻임.


PDO.png

네덜란드 리그의 PDO임. 보통 1시즌을 평가하는데 그치지 않고 2년반 정도의 데이터를 취합한 자료임. 아래 경기수를 보면 알겠지만 약 90여경기가 되는 걸 볼 수 있음. 가장 윗줄의 Q1은 상위 25%, 가장 아래에 있는 Q4는 하위 25% 팀임. 


여기서 우리가 볼 수 있는 건 4개 그룹이 1000점 대 근처에서 놀고 있다는 사실과 그리고 모든 팀이 1000점을 기록하지 않는다는 사실임. 1000점이 아닌 1020~980 사이에 위치해 있는 걸 볼 수 있음.


그리고 40R를 기점으로 그래프 변화가 거의 없다는 걸 볼 수 있음. 이는 1년 단위로 몇몇 팀에 대해 평가를 할 수 있다는 이야기가 댐. 가령 PDO가 낮아야 하는 팀이 1300점을 기록하고 있다고 할때. 우린 이 팀이 100% 떨어질거라 확신하는데 Q1으로 갈지, Q2로 갈지 Q3로 갈지 Q4로 갈지 예상할 수 있음.


더 세부적으로 본다면? PDO를 이루는 SH와 SV를 보면서 공격과 수비 영역대를 설명할 수 있음.








shooting.png

saves.png


PDO는 앞서 말했듯이 Sh와 Sv로 이뤄짐. 어렵다고 생각되면, 득점전환률(유효슈팅당 득점이니까), 선방율(골키퍼 뿐 아니라 수비진이 막아내는 피유효슈팅)로 생각하면 편함.


이건 앞서 이야기한 2시즌 반 동안 취합해서 만든 네덜란드 자료임. 완벽하게 특정지울 수 없지만 대략 0.87~0.89 정도의 Sv가 기록되었고, Sh는 0.1~0.14 정도가 기록되었음. 에레디비지의 리그 내 기록이 이 정도니까 만약 시즌을 치루다가 이 수치를 벗어나는 에레디비지 팀이 있다면 우린 손쉽게 이 팀이 언젠가는 떨어질 혹은 상승할 수 있다고 생각할 수 있음. 그리고 이 수치는 공격력과 수비력을 나타내니까 이걸 통해 A라는 팀이 언젠가는 득점에 고전하고 실점을 막아내고.... 뭐 이런 예측이 약간이나마 가능함.



자. 뭔가 감이 오지. PDO는 장기간 데이터 속에서 유별나게 벗어난, 혹은 그 데이터 영역 내에서 어울리지 않는 팀이나 성적(이를 통틀어 부르는게 운)을 선별해서 바라보는 유용한 도구야. 물론, 정확하다고 볼 순 없음. ㅎㅎ





뭐 이런 식으로  나름 PDO를 통한 팀의 미래를 예측해 볼 수 있음. 하지만 개리그는 안댐. 왜냐면 귀차니즘으로 내가 도저히 과거 기록을 수집 못하겠음. ㅋㅋㅋㅋㅋ 


넘 길어서 다음 글에서 마저 설명하겠음.