TÉCNICA PARA PREDIÇÃO DE PARTIDAS DE FUTEBOL

MS777 - PROJETO SUPERVISIONADO

T?CNICA PARA PREDI??O DE PARTIDAS DE FUTEBOL

Aluno: Carlos Danilo Tom? - RA 145640 Orientador: Prof. Dr. La?rcio Luis Vendite Universidade Estadual de Campinas - UNICAMP

2? semestre de 2018

1 Introdu??o

A origem de esportes similares ao futebol ? desconhecida, mas se pode citar relatos sobre a pr?tica esportiva que consistia em usar os p?s no controle da bola com o objetivo de acertar uma baliza em diversas culturas e regi?es pelo mundo, e o registro documentado mais antigo da pr?tica desse esporte data dos s?culos segundo e terceiro A.C. na China durante a dinastia Han e se chamava Tsu `Chu, e tinha sua pr?tica ligada a exerc?cios militares. Outros antecessores similares ao futebol moderno tamb?m foram praticados na Gr?cia, Jap?o e no Imp?rio Romano. Durante o s?culo XIV j? se praticava similares ao futebol em diversos pa?ses da Europa mas com regras distintas, e foi na Inglaterra em 1863 que se criou a "Football Association" que padronizou as regras e pr?ticas do futebol como esporte [1], um importante marco na hist?ria desse esporte pois criou condi??es para dissemina??o e populariza??o mundial.

Com o passar dos s?culos o Futebol se tornou um dos esportes mais praticados pelo mundo e um valioso produto, despertando interesses dos mais variados. Segundo [2] relat?rio divulgado pela FIFA (F?d?ration Internationale de Football Association) foi movimentado em transfer?ncias de atletas cerca de 6.3 US$ bilh?es somente durante o ano de 2017, a Copa do Mundo R?ssia 2018 obteve cerca de 3,2 bilh?es de espectadores ao longo do torneio e ? considerado o segundo maior evento esportivo do planeta, atr?s somente das Olimp?adas de Ver?o em quantidade de espectadores.

Na literatura existe uma vasta gama de trabalhos voltados ? an?lise e desenvolvimento do futebol, um dos primeiros trabalhos que sugere modelos de predi??o para determinar resultados de partidas de futebol foi escrito por Maher em 1982 [3], introduzindo na literatura a id?ia de definir a quantidade de gols do time i na partida contra o time j como Xij e similarmente Yij como a quantidade de gols do seu advers?rio na mesma partida, e assumir Xij e Yij vari?veis independentes. Outra importante ideia de Maher foi definir a for?a de ataque do time i como i e i como for?a de defesa do time i, e por fim, como fator mando de campo. O modelo que descreve a probabilidade do resultado da partida do Time mandante i contra o Time j:

P (Xij = x , Y ij = y | , , ) = P oisson(x | ? ij) ? P oisson(y |ji)

No qual a nota??o P oisson(z|) serve para descrever a fun??o distribui??o de probabilidade de Poisson com par?metro para avaliar z . Esta sugest?o de descrever a probabilidade dos resultados por meio da for?a de ataque/defesa e fator mando de campo ? amplamente utilizado na literatura.

Em [4] Langseth prop?e uma estrat?gia para realizar apostas esportivas utilizando predi??o de resultados sugerido por Dixon e Coles [5], este por sua vez sugere que a predi??o de resultados esportivos pode ser feita por meio de um modelo com depend?ncia temporal, usando dados de habilidade de ataque e defesa dos times para determinar o par?metro da distribui??o de Poisson que descreve a quantidade de gols em uma partida, atualizando os par?metros a cada rodada.

Existem ainda na literatura outras abordagens para modelar predi??o de partidas de futebol utilizando de t?cnicas como m?todo de Monte Carlo baseado em cadeias de Markov e infer?ncia Bayesiana como em [17] ou m?todos baseados em Data Minning e Machine Learnning como abordagem para predi??o de partidas de futebol como utilizada em Bezerra, de Abreu e Esmin em [10] e Duarte em [11].

Para este projeto foi utilizado o m?todo Soma e Diferen?a [SD0] proposto inicialmente por Arruda em [6], e reaplicado ao Campeonato Brasileiro de 2007 por Suzuki e Tavares em [14], adicionando o fator crise no m?todo. Este m?todo prop?e a id?ia de assumir que o n?mero de gols marcados por um time em uma partida obedece a uma distribui??o univariada de Poisson, utilizando dados hist?ricos para determinar o par?metro desta distribui??o, s?o eles: m?dia de gols do campeonato, poder ofensivo da equipe, poder defensivo do advers?rio e fator mando de campo. Para descrever o resultado da partida o m?todo prop?e a utiliza??o da distribui??o de Poisson Bivariada de Holgate.

2 Modelo

2.1 Modelo para Distribui??o de Poisson

Neste projeto ser? adotado a suposi??o de que a quantidade de gols marcados

pela equipe mandante denotado por X e pela equipe visitante por Y possua

alguma distribui??o discreta bivariada de Poisson, portanto para o vetor de

probabilidade (X,Y)

P (X = x, Y = y) = 1

x=0 y=0

P (X = x, Y

= y)

=

e -y ( y) y y!

x=0

P (X = x, Y

= y)

=

e - x ( x) x x!

y=0

com x , y > 0

Segundo modelo proposto por Arruda em [6] a classe das distribui??es de Poisson que melhor se adapta ? aplica??o ao futebol ? a distribui??o "de Holgate". Uma observa??o importante ? se fazer segue do fato que a covari?ncia ? nula, implicando que X e Y s?o eventos independentes. Definimos a esperan?a marginal de gols a serem marcados em cada jogo como

E[X] = 1 + 12 E[Y ] = 2 + 12

Mas,

Cov(X, Y ) = 0 12 = 0 X e Y independentes.

O pr?ximo passo neste m?todo ? estimar os par?metros 1 e 2 , atrav?s do passo que denomina este m?todo, ou seja, Soma e Diferen?a das esperan?as de X e Y. Como visto no passo anterior E[X] = 1 e E[Y ] = 2 e portanto, ? poss?vel escrever a seguinte express?o:

E[X - Y ] = 1 - 2

(1a)

E[X + Y ] = 1 + 2

(1b)

Sendo a express?o (1a) relacionado ao quanto ? esperado a diferen?a de gols entre Mandante e Visitante e similarmente, (1b) relacionado a soma de gols esperado em uma partida do Campeonato. Para determinar os estimadores indiretos, que ? objeto do interesse deste m?todo ao qual ? par?metro para a distribui??o de Poisson, sugere-se um modelo linear dado que ? composto por vetores de inc?gnitas relacionado ? qualidade ofensiva e defensiva dos time e bem como o fator mandante.

2.2 M?todo SD 0

Arruda em [6] definiu quatro m?todos para previs?o de resultados de partida de futebol dois deles impl?citos, M?todo SD 0 e M?todo SD 1, e os outros dois m?todos expl?citos, M?todo Chance I e M?todo Chance II. Na literatura ? comum observar que autores t?m utilizado dos m?todos impl?citos para realizar previs?es, seja pela maior facilidade pr?tica na manipula??o e determina??o dos vetores de inc?gnitas ou pela descri??o simples e poderosa que este modelo descreve neste tipo de problema.

Considere o Modelo SD 0:

(X + Y ) J = S j + + erroSj

(2a)

(X - Y ) J = D j + + erroDj

(2b)

C om,

(X + Y ) J = Soma de gols marcados na partida j. j = 1, 2, 3, ... , # de jogos no banco de dados.

T = 1, 2, 3, ... , # de times participantes da competi??o S j = M atriz linha status do jogo para a Soma de gols. D j = M atriz linha status do jogo para a Dif eren?a de gols. erroDj , erroSj = Erros independentes; com m?dia zero. , = V etor de par?metros. = F ator mando de campo

Utilizando o banco de dados constru?-se os sistemas (X + Y ) j e (X - Y ) j , em que S j ? a matriz com T colunas e j linhas, com valores correspondente ? 1 se o clube representado pela coluna ir? participar da partida e 0 caso contr?rio. E a matriz similar D j que atribui valores de -1 caso o clube correspondente a aquela coluna seja visitante, 1 caso o clube correspondente a aquela coluna for mandante e 0 caso contr?rio. O vetor de mando de campo atribui valor 1 se o mando de campo for exercido efetivamente pelo clube mandante daquela partida e 0 caso contr?rio (como jogo de port?es fechados , partida em campo neutro, e etc) . A adi??o do fator mando de campo , que matematicamente representa maior chance de (X + Y ) j e (X - Y ) j serem positivos implicando no acr?scimo em E[X] como tamb?m na probabilidade do Time Mandante vencer a partida.

Gr?fico 1: Aproveitamento dos Times Mandantes no Campeonato Brasileiro de 2018 at? a 34? rodada.

Como podemos analisar no Gr?fico 1 times que exercem o mando de campo tendem a ter maiores chances de ganhar a partida, fato embasado no senso comum de torcedores e especialistas em que o clube mandante tem chances maiores de vencer o jogo, intui??o que foi investigada em [9] no qual o autor verifica a vantagem para clubes que mandam a partida em sua casa atrav?s da porcentagem de vit?rias em dados hist?ricos e ainda observou que essa vantagem diminui em divis?es inferiores de um mesmo campeonato.

Por fim, o vetor constru?do igualmente ao vetor , com T linhas correspondente ao fator qualidade do clube representado por aquela linha.

Resumindo o problema de encontrar 1 e 2 em determinar os vetores par?metros e , para a estrat?gia utilizada ? minimizar erroSj e erroDj atrav?s do m?todo dos quadrados m?nimos adequado para este problema. Pois em posse dos par?metros e fixados pelo banco de dados podemos predizer a esperan?a em partidas futuras E [X - Y ] e E [X + Y ] com passo final determinar a matriz de probabilidade "de Holgate", definido em [16] , com os placares prov?veis.

3 Desenvolvimento

O Campeonato Brasileiro ? disputado anualmente por 20 clubes no formato pontos corridos na qual cada time enfrenta todos os outros participantes do torneio em dois turnos, como Mandante ( sediando a partida em seu est?dio) e Visitante, atribuindo 3 pontos pro vencedor da partida, 1 ponto para ambos caso tenham empatado e 0 pontos para o clube perdedor, o clube que somar mais pontos ao final das 38 rodadas do torneio sagra-se campe?o do campeonato.

3.1 Exemplo para estima??o de 1 e 2

Utilizando como exemplo alguns jogos da d?cima rodada do Brasileir?o 1 , com jogos realizados entre os dias 5 ? 7 de junho,

Torneio Hipot?tico Sport 1 x 0 Atl?tico Paranaense Corinthians 1 x 1 Santos Gr?mio 0 x 2 Palmeiras Am?rica 1 x 2 Atl?tico Mineiro

(X + Y ) 94 = 1 (X - Y ) 94 = 1 (X + Y ) 95 = 2 (X - Y ) 95 = 0 (X + Y ) 97 = 2 (X - Y ) 97 = - 2 (X + Y ) 100 = 3 (X - Y ) 100 = - 1

Neste modelo os par?metros e tem que ser calibrados separadamente, sendo assim se utilizarmos como banco de dados um campeonato curto somente com j = 4 o problema se resumiria ? minimizar erroDj e erroSj nas fun??es (2a) e (2b). Nas quais o vetores seriam,

Sj =

Dj =

Note que na ?ltima coluna foi adicionado o par?metro fator mando de campo,segue a express?o para o vetor de inc?gnitas T = [AME , AT R , AT M , COR , GRE , P AL , SAN , SP O , MANDO DE CAMP O 1] T = [AME , AT R , AT M , COR , GRE , P AL , SAN , SP O , MANDO DE CAMP O 2]

................
................

In order to avoid copyright disputes, this page is only a partial summary.

Google Online Preview   Download