CHANCE DE GOL

	CHANCE DE GOL
	BOLA+NÚMEROS - desde 1999	Voltar para o Início

AGUARDE

ESTATÍSTICAS E MEDIDAS: QUÃO "BOM" OU "RUIM" É O CHANCE DE GOL

Artigo anterior: Por que as probabilidades mudam ao longo do tempo?

Nos artigos anteriores, eu muitas vezes chamei a atenção para a questão de que não se deve confundir a atribuição de probabilidades altas com afirmações de que um evento "VAI acontecer" e, por conseguinte, não se deve tomar a ocorrência ou não de tal evento como "acerto" ou "erro" de previsão. Apesar desses constantes alertas, é mais do que natural que alguém pergunte sobre a qualidade das previsões estatísticas do Chance de Gol, até para que possa se estabelecer termo de comparação com outros sites do gênero ou com "valores-padrão de referência".

Antes de entrar nessas medidas, porém, julgo importante mostrar uma estatística ligada ao erro freqüentemente cometido por não-estatísticos e alvo dos constantes alertas citados no primeiro parágrafo deste artigo. Rotulando os três resultados possíveis de cada jogo (vitória, empate e derrota) como "favorito" (o resultado com maior probabilidade de ocorrência), "médio" (o segundo resultado com mais chances de acontecer) e "zebra" (o menos provável dos três resultados), a história do Chance de Gol registra, até o presente momento:

51.4% de jogos em que o resultado "favorito" aconteceu;
26.5% de jogos em que o resultado "médio" aconteceu;
22.1% de jogos em que a "zebra" aconteceu.

Considerando-se que a grande maioria dos jogos contabilizados são confrontos minimamente equilibrados, pode-se considerar esse escore de 51.5% de "favoritos" como uma boa medida de "acerto". Porém, a ocorrência de um resultado "zebra" para o que se previa uma probabilidade de 1% estava contemplada e medida (exatamente em 1%) de modo que, reitero mais uma vez, é enganoso e incorreto tomar as ocorrências ou não de "favoritos" como "acertos" e "erros". O exemplo a seguir, espero, exibirá inquestionavelmente as deficiências desse pensamento e, espero, sepultará definitivamente essa forma de "avaliação" de qualidade. Imagine que dois estatísticos façam as seguintes previsões para os jogos Time A x Time B e Time C x Time D:

Estatístico X:			Estatístico Y:

Time A 90% empate 5% Time B 5% Time C 34% empate 33% Time D 33%			Time A 30% empate 30% Time B 40% Time C 25% empate 30% Time D 45%

Imagine agora que os Times B e C venceram esses jogos. Pela contagem de "favoritos", os dois modelos seriam iguais entre si, empatados com 1 “acerto” e 1 “erro” cada. Analisando atentamente, porém, não é difícil ver que o “erro” do Estatístico X no jogo Time A x Time B é muito mais “grave” que o erro do Estatístico Y no jogo Time C x Time D! Logo, a simples contabilização de “resultados mais prováveis efetivamente ocorridos” negligencia aspectos muito importantes da qualidade de um modelo de previsão estatística.

As medidas que serão apresentadas a seguir, por outro lado, possuem amplo embasamento matemático e levam em consideração aspectos como essa “gravidade” supracitada. Vamos a elas, então:

1 - Medida de Confiabilidade

Eventos que tenham, digamos, 30% de probabilidades de acontecer, espera-se que aconteçam 30% das vezes, certo? É esse o raciocínio básico por trás dessa medida. Se estivéssemos analisando uma moeda, diríamos que ela é "confiável" (daí o nome dessa medida) se a freqüência observada de caras e coroas no longo prazo for condizente com as probabilidades atribuídas à ocorrência de cada face. Para o futebol, onde cada jogo é uma "moeda" diferente e onde todas as "moedas" têm três "faces" (vitória, empate e derrota), a matemática fica mais complicada, mas a essência do raciocínio é a mesma e pode ser sintetizada na tabela abaixo:

De todos os resultados cuja probabilidade estava	efetivamente aconteceram
entre 0% e 10%	11.8
entre 10% e 20%	18.7
entre 20% e 30%	26.0
entre 30% e 40%	32.9
entre 40% e 50%	43.2
entre 50% e 60%	53.3
entre 60% e 70%	60.4
entre 70% e 80%	68.3
entre 80% e 90%	77.1
entre 90% e 100%	87.8

Então, uma medida de confiabilidade pode ser calculada a partir das distâncias entre os valores da segunda coluna e os pontos médios dos intervalos da segunda coluna:

Intervalo	Ponto médio	Freqüência observada	Distância
0% e 10%	5%	11.8	(0.05 - 0.118)² = 0.004570
10% e 20%	15%	18.7	(0.15 - 0.187)² = 0.001378
entre 20% e 30%	25%	26.0	(0.25 - 0.260)² = 0.000109
entre 30% e 40%	35%	32.9	(0.35 - 0.329)² = 0.000422
entre 40% e 50%	45%	43.2	(0.45 - 0.432)² = 0.000309
entre 50% e 60%	55%	53.3	(0.55 - 0.533)² = 0.000286
entre 60% e 70%	65%	60.4	(0.65 - 0.604)² = 0.002113
entre 70% e 80%	75%	68.3	(0.75 - 0.683)² = 0.004426
entre 80% e 90%	85%	77.1	(0.85 - 0.771)² = 0.006248
entre 90% e 100%	95%	87.8	(0.95 - 0.878)² = 0.005190

Assim, a Medida de Confiabilidade do Chance de Gol é igual à soma dos valores da coluna "Distância" (a quarta coluna desta tabela): MC = 0.025051. Evidentemente, quanto menor for o valor dessa medida, melhor será o modelo de previsão. Isso fica visível se calcularmos essas medidas para os estatísticos X e Y do exemplo mostrado mais acima. O estatístico X (que "errou feio" no primeiro jogo) tem MC = 0.925278, enquanto o estatístico Y (que "errou menos" no segundo jogo) tem MC = 0.625. Além disso, em comparação com as medidas dos estatísticos X e Y, a medida do Chance de Gol (MC = 0.025051) é muitíssimo menor e, conseqüentemente, podemos afirmar que, sob esse quesito, o desempenho do Chance de Gol é muito bom!

2 - Distância ao Resultado

Essa medida, também conhecida como Distância de DeFinetti (nome do estatístico que a desenvolveu), se baseia no raciocínio intuitivo de que, quanto mais alta é a probabilidade de um evento acontecer, "mais correta" terá sido a previsão se ele de fato acontecer e "mais errada" terá sido a previsão se esse evento não vier a acontecer.

Matematicamente falando, trata-se de observar as probabilidades sempre como um terno, isto é, um conjunto formado por três números. Antes de o jogo começar, o terno é formado pelos números (prob. de vtória, prob. de empate e prob. de derrota). Depois que o jogo terminou, por outro lado, o resultado já é conhecido e consumado e portanto o terno passa a ser (100%, 0, 0) se o time tiver vencido, (0, 100%, 0) se tiver empatado ou (0, 0, 100%) se tiver perdido o jogo. A Distância ao Resultado é, portanto, simplesmente a medida da distância entre o terno correspondente às probabilidades calculadas antes do jogo e o terno correspondente ao resultado efetivamente conhecido ao final do jogo.

Tomemos como exemplo, as previsões efetuadas pelo estatístico X para o primeiro jogo do exemplo apresentado no início deste artigo. O terno correspondente às probabilidades previamente calculadas é (90%, 5%, 5%). Conseqüentemente as possíveis Distâncias ao Resultado desse jogo seriam:

(0.90 - 1)² + (0.05 - 0)² + (0.05 - 0)² = 0.015 se o Time A tivesse vencido o jogo;
(0.90 - 0)² + (0.05 - 1)² + (0.05 - 0)² = 1.715 se o Time A tivesse empatado o jogo;
(0.90 - 0)² + (0.05 - 0)² + (0.05 - 1)² = 1.715 se o Time A tivesse perdido o jogo.

Calculadas essas distâncias individualmente para todos os jogos analisados desde 1998 e posteriormente tomando a sua média aritmética, obtemos o valor de DR = 0.6009 para o Chance de Gol. Assim como a Medida de Confiabilidade, a Distância ao Resultado tem como característica evidente o fato de que, quanto menor o valor da medida, melhor será o modelo de previsão. Assim, calculando as medidas para os estatísticos X e Y do exemplo inicial, nós podemos perceber que o estatístico X (que "errou feio") tem DR = 1.1842, medida pior que a do estatístico Y (que "errou menos"), que tem DR = 0.6975. E podemos novamente observar que, em comparação com as medidas dos estatísticos X e Y, a medida DR = 0.6009 do Chance de Gol é muitíssimo menor e, portanto, que sob esse quesito o desempenho do Chance de Gol também é muito bom!

Há ainda um outro valor de referência útil para o balizamento da Distância ao Resultado: trata-se de considerar o escore que seria obtido pelo "preguiçoso" que, sem efetuar análise ou cálculo algum, preguiçosamente atribui probabilidades iguais a (1/3, 1/3, 1/3) para todo e qualquer jogo que venha a ser realizado.

A Distância ao Resultado do "preguiçoso" será sempre igual a (1/3 - 1)² + (1/3 - 0)² + (1/3 - 0)² = 0.6667. Isso significa dizer que o mínimo que se espera de um bom modelo estatístico é que sua Distância ao Resultado seja melhor (i.e. menor) que 0.6667. Afinal de contas, se o modelo do estatístico X é pior que o do "preguiçoso", então mais eficiente (e presumivelmente mais barato) do que insistir nesse modelo, será fechar os olhos e atribuir probabilidades (1/3, 1/3, 1/3) para todos os jogos do planeta! Também nesse aspecto, o Chance de Gol com sua medida 0.6009, também é aprovado com louvor!

Essa medida, embora solidamente balizada na teoria estatística, tem um pequeno porém em se tratando de futebol: os possíveis resultados de um jogo são ordinais. Explico: imaginemos uma urna com bolas azuis, vermelhas e amarelas e duas pessoas atribuindo probabilidades. Fulano atribuiu P(azul) = 50%, P(vermelho) = 30% e P(amarelo) = 20% enquanto Sicrano annunciou P(azul) = 30%, P(vermelho) = 50% e P(amarelo) = 20%. Imaginemos agora que foi sorteada uma bola amarela. A Distância ao Resultado dos dois previsores foi (0.30 - 0)² + (0.50 - 0)² + (0.20 - 1)² = 0.98 e de fato podemos enxergar que nessa situação os dois "erraram igual".

Transportemos agora esse exemplo para o futebol. Fulano anunciou P(vitória) = 50%, P(empate) = 30% e P(derrota) = 20%, Sicrano atribuiu P(vitória) = 30%, P(empate) = 50% e P(derrota) = 20% e o time perdeu (o resultado foi derrota). Novamente, as duas Distâncias ao Resultado seriam iguais a 0.98 mas aqui entra uma diferença tão sutil quanto importante. No caso das bolas coloridas não existe ordem, não podemos falar, por exemplo, que o azul está mais perto do vermelho do que do amarelo. Mas no futebol a vitória está mais perto do empate do que da derrota e portanto podemos falar que Sicrano, que colocou maior probabilidade no empate, "errou menos" ou "chegou mais perto do resultado real" do que Fulano, que colocou maior probabilidade na vitória. Ou seja, há uma ordem (ainda que não expressa em números) entre vitória, empate e derrota.

Essa característica ordinal dos resultados de futebol sugere a necessidade de ajustes na fórmula da Distância ao Resultado. Nos últimos anos venho desenvolvendo uma versão ajustada dessa Distância, segundo a qual a performance do Chance de Gol também é muito boa. Essa versão ajustada ainda está em fase de "sintonia fina" e espero poder publicá-la aqui quando a tiver concluído.

3 - Medida de Consistência

Além das medidas (MC e DE) anteriormente citadas, é importante citar que os bancos de dados do Chance de Gol possuem limitações diretamente decorrentes da estrutura das competições consideradas. Por exemplo, competições disputadas em fases de grupos seguidas de etapas de mata-mata, tendem a contribuir com sensivelmente menos informações (resultados) sobre as equipes participantes do que campeonatos em que todos os participantes se enfrentem pelo menos uma vez. Além disso, em competições disputadas em formatos eliminatórios, as comparações entre times que integraram grupos diferentes e não chegaram a efetivamente se enfrentar são apenas "abstratas", o que torna a mensuração das qualidades técnicas de cada time menos consistente do que num cenário em que todas as equipes efetivamente se confrontaram ao menos uma vez.

Nesse sentido, algumas medidas podem ser propostas para a aferição de quanto um banco de dados contém de informação e de quão "concreta" (ou "abstrata") essa informação é para efeito de cálculo de probabilidades de jogos e/ou campeonatos futuros. A primeira dessas medidas é a Média de jogos por time, valor autoexplicativo, que visa apurar quanto, em média, o banco de dados possui de informação sobre cada uma das equipes consideradas. Essa medida está diretamente relacionada à "consistência" (ou à "densidade") do banco de dados e por isso pode ser chamada de Medida de Consistência.

4 - Medida de Coesão

A segunda medida é obtida a partir da noção de "distância" entre os times. Aqui, entende-se por "distância" entre duas equipes o menor número de passos (confrontos) intermediários para que se possa estabelecer uma comparação entre essas equipes, num conceito similar à conhecida teoria dos "seis graus de separação". Tomemos como exemplo, para ilustração e melhor entendimento desse conceito, o banco de dados de 31/07/2012 a 30/07/2013 (época em que este texto foi escrito) de Clubes Brasileiros, que incluía jogos do Campeonato Brasileiro Séries A, B, C e D, da Copa do Brasil, da Copa do Nordeste e dos principais campeonatos estaduais). Nesse banco de dados:

- estão a uma distância 1 da Ponte Preta, todos os clubes contra os contra os quais o clube campineiro jogou (por exemplo, o Goiás está a uma distância 1 da Ponte Preta, pois ambos se enfrentaram pelo Brasileiro 2013).
- estão a uma distância 2 da Ponte Preta, todos os clubes que não enfrentaram a Macaca mas jogaram contra adversários que a enfrentaram (por exemplo, o América-RN está a uma distância 2 da Ponte Preta, pois ambos não se enfrentaram mas o América enfrentou o São Caetano pela Série B 2012 e o São Caetano enfrentou a Ponte Preta pelo Paulista 2013).
- estão a uma distância 3 da Ponte Preta, todos os clubes que não a enfrentaram nem jogaram contra adversários que a enfrentaram, mas que jogaram contra adversários que se enfrentaram (por exemplo, a Tuna Luso está a uma distância 3 da Ponte Preta, pois ambos não se enfrentaram nem enfrentaram adversários em comum, mas a Tuna Luso enfrentou o Paragominas pelo Paraense 2013, o Paragominas enfrentou o Nacional-AM pela Série D 2013 e o Nacional enfrentou a Ponte Preta pela Copa do Brasil 2013.
- e assim sucessivamente, definem-se as distâncias 4, 5, 6 etc.

Em linguagem matemática, trata-se de considerar o banco de dados como um grafo, onde cada time é um nó e cada jogo é uma aresta, e a medida de distância entre dois times é o comprimento do caminho mais curto entre os respectivos nós. Essa é uma medida relacionada à "coesão" dos dados, uma vez que quanto mais "disperso" for o banco de dados (i.e. quanto maiores forem as distâncias entre os seus times) mais "abstrata" tenderá a ser a comparação entre as equipes que o integram. Assim, podemos definir uma Medida de Coesão como a distância média entre todos os pares possíveis de times constantes do banco de dados.

No presente momento (26/01/2026), então, são essas as medidas de consistência e coesão dos principais bancos de dados do Chance de Gol:

Banco de Dados	Seleções	Clubes (Brasil)	Clubes (mundo)
Número de Jogos	3716	3374	2700
Número de Times	218	317	545
CONSISTÊNCIA (Média de jogos por time)	34.1	21.3	9.9
COESÃO (Distância média entre times)	2.52	3.19	4.97

Espero, sinceramente, que com essas explicações os equivocados conceitos de "erro" e "acerto" sejam definitivamente esquecidos e se consiga compreender o porquê de ocasionalmente serem veiculadas previsões probabilísticas tão "bizarras" e contrárias à intuição do "torcedor comum". Por mais acurado que o modelo probabilístico possa ser, por melhores que as medidas de qualidade possam ser, os cálculos apontam somente aquilo que os dados considerados lhes permitem apontar.