Analisando quatro anos de palpites de um bolão da NBA (parte 1)

Felipe Gollnick
5 min readApr 7, 2022
Photo by Ryan on Unsplash

1. APRESENTAÇÃO

Olá! Meu nome é Felipe e, há pouco mais de um mês, comecei a dar meus primeiríssimos passos nos estudos de análise de dados e programação (comecei com algumas aulas de Python básico no YouTube do Guanabara e agora estou cursando o DataCamp).

Pretendo utilizar este Medium como uma mistura de portfólio e blog onde vou mostrando o que estou aprendendo e estudando. Ressalte-se que estou começando do zero e de forma muito autodidata, que ainda tenho poucas noções de estatística, e que eu me considerava uma pessoa “completamente de humanas” até poucos anos atrás. Notar também que criei este Medium inspirado nos posts de análises estatísticas de NBA que o Heitor Facini de vez em quando publica também aqui no Medium.

Ao fazer as aulas de Introdução ao Python do DataCamp (que já te direciona para o aprendizado de programação com foco em análise de dados), fiquei com vontade de tentar analisar algo para botar em prática o que aprendi no curso — e aí me lembrei da minha própria criação, o FABULOSO BOLÃO GOLLNICK DOS PLAYOFFS DA NBA.

2. O BOLÃO GOLLNICK

Sempre gostei muito de basquete e, desde 2018, com a desculpa de me aproximar mais dos meus amigos ao mesmo tempo em que me envolvo com o assunto que gosto, organizo anualmente um bolão em que os participantes dão seus palpites sobre o que vai acontecer no mata-mata da maior liga de basquete do mundo. O Bolão é essencialmente gratuito, com a exceção da última rodada em 2021, onde abri para quem quisesse entrar com 15 reais (mas quem não quisesse não precisava botar dinheiro).

Como funciona a NBA? 30 times divididos em duas conferências jogam todos contra todos, várias vezes, ao longo de uma temporada que dura vários meses. Ao final da temporada, os melhores colocados passam aos playoffs (mata-mata), onde os confrontos são decididos com dois times se enfrentando em uma série de melhor de sete jogos. Quem vencer quatro partidas primeiro, elimina o oponente avança para a próxima rodada, onde enfrentará outro time que venceu outra série. E assim sucessivamente, até que sobre um campeão.

Como funciona o Bolão Gollnick? A quantidade de participantes costuma ficar entre 12 e 15 pessoas por ano. Elas participam em duas etapas:

1ª) Na 1ª rodada e nas semi-finais de conferência, participantes palpitam apenas no placar geral da série. Exemplo: Time A 4x1 Time B, onde, no confronto de melhor-de-sete, o Time A venceu 4 jogos e o Time venceu apenas 1.
Participantes que acertam apenas o time que venceu a série, somam 1 ponto por acerto; quem acerta o placar da série (ex: 4x1) soma 3 pontos, no que apelidei de CHINELINHO. Em caps mesmo.

2ª) Nas finais de conferência e na grande final, participantes palpitam também no placar de cada jogo da série (ex: 103x99). Quem acerta o vencedor do jogo, soma 1 ponto; quem acerta a quantidade de pontos que um dos times fez no jogo, soma 3 pontos no Bolão e protagoniza a CHINELADA; quem acerta a pontuação exata dos dois times faz a CHINELADÉRRIMA — um evento mitológico que aconteceu apenas uma vez em quatro anos de Bolão.

Os participantes também palpitam no Play In desde que a NBA passou a utilizar esse recurso. É uma pré-etapa do Bolão. Porém ela não será levado em conta nessa análise.

Na verdade, neste primeiro momento, a única coisa que eu vou levar em consideração nas minhas análises são os palpites que os participantes fizeram em relação ao placar geral de cada série — ou seja, qual time venceu qual série, e por quanto (4x0, 4x1, etc).

Photo by TJ Dragotta on Unsplash

3. HIPÓTESES

Ao acumular quatro anos de Bolão, pude observar alguns comportamentos nos palpites dos participantes que me pareciam razoavelmente lógicos. Ao começar esse estudo, resolvi formular algumas hipóteses para ver se os números realmente apontavam para as suposições que eu estava assumindo. São elas:

H1: Nas primeiras rodadas, os participantes tendem a fazer palpites mais conservadores, confiando de forma bastante predominante no time que fez a melhor campanha na temporada. Já na grande final, haveria equilíbrio, sem uma grande predominância nos palpites para o time de melhor campanha.

H2: Palpites conservadores tendem a dar certo. Apostar que o time de melhor campanha vai vencer uma série contra outro de pior campanha costuma dar resultado. Parece óbvio. Mas será que é isso mesmo?

H3: Nas primeiras rodadas, os palpites tendem a ser mais elásticos a favor do time de melhor campanha (4x0 ou 4x1). Depois, na final, quando sobram apenas os melhores times, os palpites seriam placares apertados (4x3 ou 3x4).

4. MONTANDO A BASE DE DADOS

Bom, obviamente, para que eu conseguisse analisar os dados, eu precisava que eles estivessem compilados em uma base. O problema é que, em quatro anos de Bolão, eu jamais imaginei que faria uma análise como essa. Então todos os palpites estavam descentralizados em planilhas com pouco ou nenhum padrão de organização.

Então fiz um trabalho braçal de copiar e colar todos os palpites de todos os participantes em todas as rodadas de todos os anos — incluindo informações como nome do participante, time, rodada, conferência e ano. Foi um trabalho de mais de cinco horas seguidas que resultou em uma planilha final com 766 linhas, ou seja, 766 palpites.

E, aqui, já tive o primeiro aprendizado: se os dados forem inicialmente coletados de forma organizada e sistemática, vai facilitar e muito a vida de quem for fazer a análise.

5. ANSIEDADE

Ao começar esse estudo, o objetivo era dar meus primeiros passos na utilização do Python. Mas, como meu conhecimento das funções e pacotes ainda é pouco e eu já estava ficando ansioso para analisar logo, resolvi utilizar as fórmulas do Excel, mesmo. Na verdade, foi nas planilhas do Google.

Acredito que foi possível realizar os cálculos desejados, mas ficou nítida a impressão de que, sabendo usar a função correta do Python, seria muito mais fácil elaborar, reproduzir e até automatizar essas contas. Então, para os próximos dias, meu objetivo é realizar as mesmas análises que estou apresentando aqui, mas no Python, até pra ver se os resultados batem.

Os estudos das hipóteses 1 e 2 estão no próximo post! Clique aqui para ler.

--

--

Felipe Gollnick

SQL | BI | Data | Power BI & Qlik | Passionate about sea trade logistics, music and Bahia