PREVISÃO DE RESULTADOS EM PARTIDAS DE FUTEBOL Universidade ...

[Pages:22]PREVIS?O DE RESULTADOS EM PARTIDAS DE FUTEBOL

Universidade Federal do Rio Grande do Norte - Semana de Estat?stica 2013

Marcelo Leme de Arruda

Introdu??o

A previs?o (probabil?stica) de resultados de partidas de futebol n?o ? mais do que um caso particular do problema fundamental enfrentado por qualquer estat?stico: a infer?ncia sobre grandezas desconhecidas a partir de valores conhecidos e observados.

Modelos de previs?es de resultados de futebol, assim como de previs?es de indicadores financeiros, de taxas biol?gicas ou de qualquer outra grandeza que se queira estudar, se baseiam essencialmente em dois ingredientes: uma representa??o param?trica dessa grandeza e um m?todo para obten??o/estima??o desses par?metros. As duas primeiras e principais etapas deste minicurso ser?o voltadas ? an?lise desses dois ingredientes.

? pertinente esclarecer que diversas fontes utilizam a palavra "modelo" para designar a representa??o param?trica da grandeza em estudo ("Modelo de Poisson", por exemplo). Neste minicurso, por?m, para se prevenir ambig?idades, o termo "modelo" ser? utilizada para designar somente o processo como um todo (a representa??o param?trica mais o m?todo de estima??o/obten??o dos par?metros)

Existe, ainda, um terceiro ingrediente, igualmente importante, mas nem sempre levado em considera??o com a aten??o que mereceria: a an?lise da qualidade do modelo. Essa an?lise pode ser baseada em (pelo menos) duas abordagens poss?veis, as quais, acompanhadas de coment?rios sobre os modelos apresentados, ser?o objeto da terceira se??o.

A quarta se??o apresentar?, como estudo de caso, um exemplo de aplica??o concreta de um modelo existente e utilizado por um site de previs?es estat?sticas de resultados de futebol. Por fim, ser?o tecidas, na ?ltima se??o, algumas considera??es sobre temas atualmente em aberto na ?rea da estat?stica aplicada a partidas de futebol.

1. Representa??o param?trica

A representa??o param?trica ? a descri??o matem?tica da grandeza que se quer estudar. No caso particular das partidas de futebol e de competi??es esportivas pareadas (i.e. em que os participantes se enfrentam dois a dois) em geral, h? duas poss?veis grandezas de interesse, cada qual relacionada a uma das duas representa??es param?trica mais usualmente empregadas:

1.1. Representa??o para o resultado do jogo

Existem an?lises que utilizam como grandeza de interesse somente o resultado do jogo, i.e., a informa??o acerca de quem venceu ou se o jogo terminou empatado. Essas

an?lises essencialmente se baseiam na representa??o de Bradley-Terry (1952), cuja formula??o simples facilitou sua populariza??o entre os estudiosos do assunto.

Considerando um conjunto de N competidores e 1, 2 ,K, N ( i > 0,i = 1, 2,K, N ) par?metros associados ? for?a (habilidade, n?vel t?cnico, etc.). de cada competidor, ent?o, de acordo com a representa??o de Bradley-Terry, a probabilidade de o competidor i derrotar o competidor j num confronto direto entre ambos ? dada por:

pi, j

= i i +

j

Al?m de ser naturalmente intuitiva e de f?cil compreens?o, essa representa??o tem respaldo te?rico, podendo ser derivada a partir da Distribui??o de Gumbel (1961, tamb?m conhecida como Distribui??o de Valores Extremos). Uma vari?vel aleat?ria cont?nua X tem Distribui??o de Gumbel, com par?metros ? (de localiza??o) e (de escala), se sua fun??o densidade de probabilidade ? dada por

f

( x)

=

1

exp -

x

-

?

-

e

-

x

-?

.

Por conseguinte, sua fun??o distribui??o acumulada ? dada por:

-(x-?)

F (x) = e-e .

Suponha-se, ent?o, que cada um dos times em quest?o tenha associado a si um escore latente aleat?rio (e independente de quem seja o advers?rio) S com distribui??o de Gumbel com par?metros = 1 e ? = ln i .

Ent?o, o escore Si do i-?simo time tem distribui??o acumulada. F (si ) = e-e-(si -lni ) .

Definindo ij = Si - S j como o "resultado" do jogo (a "margem de vit?ria" a favor do time i), pode-se mostrar que sua distribui??o acumulada ?

F (ij )

=

P(ij

)

=

1

+

e(ln

1

i-

ln

j

)

-

.

Logo, a probabilidade de o time i derrotar o time j ? dada por

P(i

vencer

j)

=

P(ij

> 0)

= 1 - P(ij

0)

=

1

+

e-

1

(ln

i

-

ln

j

)

=

i i +

j

.

Em sua formula??o padr?o, a representa??o de Bradley-Terry se aplica somente a esportes em que n?o existem empates. Um dos exemplos mais difundidos da aplica??o dessa representa??o ? o xadrez, cujas principais entidades internacionais (incluindo a FIDE ? F?d?ration Internationale des ?checs [1]) utilizam como ferramenta oficial de classifica??o o Ranking Elo (1978). Esse ranking equivale a representar a performance de cada enxadrista por uma Distribui??o de Gumbel cujos par?metros s?o definidos de uma forma espec?fica e atualizados, ap?s cada jogo ou s?rie de jogos, por uma regra igualmente espec?fica.

Existem, por outro lado, adapta??es e/ou expans?es da representa??o de BradleyTerry, as quais contemplam, em sua formula??o, fatores como:

- a possibilidade de um confronto terminar empatado; - o efeito "vantagem do primeiro jogador" (equivalente, no futebol, ao "fator mando de campo" ou, no xadrez, ? "vantagem de jogar com as brancas"); - a margem de vit?ria, discernindo entre placares distintos (1x0, 2x0, 2x1 etc.) ou entre "vit?rias folgadas" e "vit?rias apertadas"; - etc.

1.2. Representa??o para o placar do jogo

An?lises mais abrangentes utilizam como grandeza de interesse o placar do jogo (i.e. os escores efetivamente obtidos por cada time) e n?o somente o resultado (a identifica??o do vencedor). Usualmente, nessas an?lises o n?mero de gols marcados por um time ? representado por uma Distribui??o de Poisson, segundo a qual a probabilidade de o time i marcar x gols num determinado jogo ? dada por:

P( X = x) = e-i ix , x!

onde i = E[ X i ] ? o n?mero esperado de gols marcados por esse time i no jogo em quest?o.

? plaus?vel considerar, contudo, que o n?mero esperado de gols marcados por um time dependa da for?a do time advers?rio. ? perfeitamente presum?vel, por exemplo, que contra advers?rios mais fracos, um time tenda a marcar mais gols do que contra advers?rios mais fortes. Por essa raz?o, uma representa??o mais adequada pode ser a Distribui??o de Holgate (1964), uma classe de distribui??es bivariadas de Poisson, cuja fun??o de probabilidade conjunta ? dada por:

min( x, y )

P( X = x,Y = y) = e-(1+2+12)

1x-i2y-i1i 2

.

i=0 (x - i)!( y - i)!i!

Essa distribui??o pode ser caracterizada da seguinte forma: sejam P1, P2 e P12 tr?s vari?veis aleat?rias independentes com distribui??o de Poisson com m?dias respectivamente iguais a 1, 2 e 12. Ent?o, o vetor ( X ,Y ) = (P1 + P12 , P2 + P12 ) segue uma Distribui??o de

Holgate, com fun??o de probabilidade igual ? acima formulada.

A presen?a de P12 em ambas as somas ? respons?vel pela exist?ncia de uma depend?ncia entre as vari?veis X e Y. Essa depend?ncia, por sua vez, pode proporcionar uma representa??o mais real?stica das quantidades de gols marcados por um time X quando jogando especificamente contra o time Y.

Evidentemente, outras representa??es para o placar podem ser formuladas (usando, por exemplo, uma distribui??o Binomial Negativa ou uma distribui??o Gama discretizada), assim como podem ser desenvolvidas representa??es para o resultado diferentes da de Bradley-Terry. Por?m, por serem mais freq?entemente utilizadas, a pr?xima se??o se dedicar? predominantemente ?s representa??es de Bradley-Terry e de Poisson.

2. Estima??o/obten??o dos par?metros

2.1. Estima??o por m?xima verossimilhan?a

A estima??o por m?xima verossimilhan?a ?, talvez, o mais intuitivo modo de se obter os par?metros necess?rios para o c?lculo das probabilidades. Trata-se, numa explica??o resumida, de procurar, dentre todos os valores poss?veis que os par?metros podem assumir, aqueles que maximizam a probabilidade de ocorr?ncia dos resultados previamente observados.

Para a representa??o de Bradley-Terry, lembrando que a probabilidade de o competidor i derrotar o competidor j num confronto direto entre ambos ? dada por:

pi, j

=

i i +

j

,

tem-se que, para uma cole??o de resultados de jogos entre diversos times, a verossimilhan?a conjunta ? dada por:

L

=

N i=1

N

j=1 ji

(

i

ni i

+ j )nij

,

onde N ? a quantidade total de times em estudo;

nij ? o total de vit?rias do time i em jogos contra o time j

e

N

ni = nij

? o total de vit?rias do time i em jogos contra todos os demais times.

j=1

ji

Os valores dos par?metros 1, 2 ,K, N dos competidores podem, ent?o, ser estimados por meio da maximiza??o da verossimilhan?a L.

N?o h?, como regra geral, uma forma anal?tica fechada para os estimadores de m?xima verossimilhan?a de Bradley-Terry. Por?m, existem diversos m?todos num?ricos facilmente program?veis que permitem obter esses valores.

Uma observa??o importante que cabe ser tecida acerca desses estimadores ? o fato de n?o serem ?nicos! Com efeito, se os valores 1, 2 ,K, N forem todos multiplicados por uma mesma constante k, os valores resultantes k1, k 2 ,K, k N tamb?m servir?o como par?metros de Bradley-Terry, pois, chamando-se de pi, j a probabilidade de vit?ria do time i

sobre o time j calculada a partir dos novos par?metros, ? f?cil perceber que:

pi, j

=

k i k i + k j

= i i + j

=

pi, j

Esse fen?meno ? uma conseq??ncia direta da natureza multiplicativa da

representa??o de Bradley-Terry (pois as probabilidades de vit?ria s?o diretamente proporcionais aos par?metros ) e, para evitar ambig?idades, costuma-se usar a restri??o adicional 1 + 2 + K + N = 1.

Para a representa??o de Poisson (Holgate), por outro lado, a estima??o por m?xima verossimilhan?a n?o ? vi?vel, uma vez que a fun??o de verossimilhan?a envolve produtos de somat?rias que, por sua vez, envolvem produtos de fatoriais. Escrever essa fun??o por si s? j? ? complicado e procurar valores de par?metros que a maximizem seria uma tarefa ainda mais complexa.

2.2. Modelos lineares (m?nimos quadrados)

Outra forma poss?vel para obten??o de par?metros ? a estima??o por m?nimos quadrados. Aqui, diferentemente da abordagem por m?xima verossimilhan?a, os par?metros s?o considerados como vari?veis dependentes de informa??es observadas (vari?veis explicativas) e essa depend?ncia ? explicitada sob a forma de modelos lineares. Genericamente, pode se representar essa rela??o de depend?ncia como:

i = 1x1i + 2 x2i + L + k xki + i ,

onde i ? um par?metro (para o i-?simo jogo) que se quer estimar x1i , x2i ,K, xki s?o vari?veis explicativas de cujos valores depende o par?metro ; 1,2 ,K,k s?o (hiper)par?metros cujos valores se deseja estimar

e i ? um componente de erro (dist?ncia entre valores observados e previstos).

Aqui, i pode ser um i de Bradley-Terry, um i da Distribui??o de Holgate, um par?metro de outra representa??o ou mesmo uma fun??o de par?metro(s), como ser? exemplificado mais ? frente.

O tratamento padr?o para essa abordagem ? buscar os valores de 1,2 ,Kk que minimizam o erro quadr?tico total, ou seja, que tornam m?nima a soma

2 i

=

[i - (1x1i + 2 x2i + L + k xki )]2 .

Uma caracter?stica ?til dessa abordagem ? o fato de elementos como a identifica??o do time advers?rio, o fator "jogar em casa" e quaisquer outras vari?veis eventualmente pertinentes poderem ser inseridas como vari?veis explicativas nesse modelo linear. Essa inser??o dispensa a representa??o param?trica de estruturas que explicitem a depend?ncia desses fatores, permitindo que tal representa??o possa ser mais leve e manipul?vel.

Al?m disso, ? importante mencionar que a estima??o dos valores de 1, 2 ,K k pode ser realizada por M?nimos Quadrados Ordin?rios (MQO) ou por M?nimos Quadrados Ponderados (MQP). A ado??o dos MQP em lugar dos MQO permite conferir pesos diferenciados a cada jogo e, com isso, discernir entre amistosos e jogos de competi??o, acentuar a informa??o proporcionada por jogos mais recentes em compara??o com jogos mais antigos ou estabelecer qualquer ?nfase que se deseje a algum fator de interesse.

Por fim, embora a formula??o supra exposta se baseie em modelos b?sicos de Regress?o Linear M?ltipla, existem modelos que se fundamentam em formula??es mais sofisticadas, como Modelo Linear Geral (GLM) (McCullagh e Nelder, 1989), Regress?o Log?stica (Draper e Smith, 1998) etc. O modelo de Lee (1997), baseado em GLM de Poisson, ? um exemplo real da aplica??o e implementa??o de tais formula??es avan?adas. Embora esses modelos se embasem em teorias mais avan?adas que a regress?o linear "b?sica", a minimiza??o dos erros ? perfeitamente fact?vel e os principais softwares estat?sticos possuem esses modelos em suas programa??es.

2.3 Estima??o bayesiana e m?todos iterativos

Uma outra abordagem para a obten??o de par?metros ? a atualiza??o iterativa de valores. Isso significa que, ap?s um determinado time disputar um jogo ou seq??ncia de jogos, o novo valor do par?metro desse time ser? obtido diretamente a partir do "antigo" valor e do resultado desse(s) jogos disputado(s). Analiticamente, esse processo pode ser genericamente representado como

i' = f (i , R) ,

onde i' ? o valor atualizado do par?metro de interesse para o i-?simo time; i ? o valor anterior desse par?metro;

e R ? o resultado do(s) jogo(s) disputado(s) por esse time.

Aqui, novamente pode ser um i de Bradley-Terry, um i da Distribui??o de Holgate, um par?metro de outra representa??o etc.

Como um exemplo simples de tais m?todos iterativos, pode-se citar o Ranking Elo (n?o-oficial) de sele??es nacionais de futebol [2]. Ap?s um jogo contra a sele??o j, esse sistema atualiza o par?metro da sele??o i de acordo com a f?rmula

i' = i + K (So - Se) ,

onde K ? um peso que depende da competi??o por que o jogo ? v?lido e da diferen?a de gols

a favor do mandante;

So ? o resultado obtido no jogo em quest?o pela sele??o i (1 ponto por vit?ria, 0,5 por

empate e 0 por derrota)

e

Se

= 1

P(vit?ria)

+

0

P(derrota)

=

i

i +

j

? o resultado esperado para esse jogo.

Por fim, os par?metros dessa representa??o de Bradley-Terry s?o definidos como:

i = 1100(ii/+410000) / 400

se a sele??o i jogar em casa caso contr?rio

e, analogamente:

j

=

1100(j

j +100) / 400

/

400

se a sele??o j jogar em casa caso contr?rio

.

Existem diversas outras formas de atualiza??o iterativa de par?metros, muitas delas formuladas arbitrariamente, sem maior embasamento te?rico. Existe tamb?m uma classe, mais importante e abrangente, composta pelos m?todos de Estima??o Bayesiana (O'Hagan, 1994).

Resumidamente, a estima??o bayesiana consiste na atribui??o de uma distribui??o de probabilidades para o(s) par?metro(s) da representa??o e na atualiza??o dos hiperpar?metros dessa distribui??o ap?s cada jogo ou conjunto de jogos. As nota??es usuais para essas distribui??es s?o:

( ) - distribui??o a priori do par?metro (escalar ou vetorial) ; f (x | ) - distribui??o (verossimilhan?a) de x condicional ao valor de , ( | x) - distribui??o a posteriori de , condicional ao valor observado de x.

Dadas uma distribui??o a priori e a verossimilhan?a f gerada pelos dados observados x, a distribui??o a posteriori ? definida como:

(

|

x)

=

( ) f (x | )

( ) f (x | )d

( ) f

(x |)

.

Em outras palavras, a distribui??o a posteriori ? obtida a partir do produto da priori

pela verossimilhan?a, sendo o denominador ( ) f (x | )d somente uma constante de

normaliza??o.

Num exemplo simplificado para facilidade de ilustra??o, considere-se que os gols de um time sejam representados por uma distribui??o de Poisson com m?dia . Ent?o a verossimilhan?a gerada por um jogo em que esse time marcou xo gols seria:

f

( xo

|

)

=

P( X

=

xo

| )

=

e- xo xo!

Supondo que a distribui??o a priori para seja uma Gama com par?metros e :

()

=

(

)

-1e-

,

ent?o a distribui??o a posteriori para dado o valor observado xo ? igual a

-1e- e- xo

f ( | xo ) =

( )

xo!

-1e- e- xo

d

.

0 ( )

xo!

Essa opera??o freq?entemente envolve integrais complicadas no denominador, o que inviabiliza a obten??o direta da posteriori. Contudo, para uma grande classe de distribui??es (notadamente as pertencentes ? Fam?lia Exponencial), esse trabalho ? facilitado pela exist?ncia das classes de prioris conjugadas (Fink, 1997). Isso significa dizer que, para determinadas verossimilhan?as, existem distribui??es a priori que conduzem a posterioris da mesma fam?lia, tendo apenas os valores dos hiperpar?metros atualizados.

No exemplo acima, como a priori Gama ? conjugada para verossimilhan?as Poisson, a distribui??o a posteriori tamb?m ser? uma Gama, com par?metros = + xo e = +1, de onde:

(

|

xo )

=

+ xo ( + xo )

+ xo

-1e - (

+1)

.

De posse da distribui??o a posteriori, h? algumas maneiras usuais para se representar a distribui??o futura da vari?vel de interesse x:

a) como uma distribui??o f (x) com par?metro = E[ | xo ] (a esperan?a a posteriori de | xo );

b) como uma distribui??o f (x) com par?metro = max[ | xo ] (a moda a posteriori de | xo );

c) por meio da Distribui??o Preditiva DP(x) = ( | xo )P(x | )d .

0

................
................

In order to avoid copyright disputes, this page is only a partial summary.

Google Online Preview   Download