DISCIPLINA PROBABILIDADE E ESTATÍSTICA



UNIVERSIDADE FEDERAL DO PARANÁ

CURSO DE ESPECIALIZAÇÃO EM INFORMÁTICA

ÊNFASE EM INTELIGÊNCIA COMPUTACIONAL

DISCIPLINA PROBABILIDADE E ESTATÍSTICA

Prof. Paulo Ricardo Bittencourt Guimarães

Departamento de Estatística – UFPR

PROGRAMA

I. CÁLCULO DE PROBABILIDADES: CONCEITOS BÁSICOS E DEFINIÇÕES (3 aulas)

TEORIA MATEMÁTICA DOS CONJUNTOS

EXPERIMENTO

ESPAÇO AMOSTRAL

EVENTOS

DEFINIÇÃO DE PROBABILIDADE E PROPRIEDADES

VARIÁVEL ALEATÓRIA DISCRETA E CONTÍNUA

II. AJUSTAMENTO DE DISTRIBUIÇÕES DE PROBABILIDADE (3 aulas)

DIST. DISCRETAS DE PROBABILIDADE: BINOMIAL E POISSON

DIST. CONTÍNUAS DE PROBABILIDADE: EXPONENCIAL E NORMAL

BONDADE DO AJUSTE: TESTE KOLMOGOROV-SMIRNOV E TESTE DE LILLIEFORS

III. NOÇÕES DE AMOSTRAGEM (2 aulas)

AMOSTRA ALEATÓRIA

TÉCNICAS DE AMOSTRAGEM: ALEATÓRIA, SISTEMÁTICA E ESTRATIFICADA

ERRO AMOSTRAL E NÍVEL DE CONFIANÇA

CÁLCULO DE TAMANHO AMOSTRAL

IV. ANÁLISE EXPLORATÓRIA DE DADOS (2 aulas)

CÁLCULO DE MEDIDAS DESCRITIVAS

TABELA DE FREQÜÊNCIA E HISTOGRAMA

GRÁFICO BOX-PLOT

V. INFERÊNCIA ESTATÍSTICA (3 aulas)

ESTIMAÇÃO POR INTERVALO: INTERVALO DE CONFIANÇA PARA MÉDIA E PARA PROPORÇÃO

TESTES DE HIPÓTESES PARA MÉDIAS E PROPORÇÕES

ANÁLISE DO P-VALOR

VI. ANÁLISE DE REGRESSÃO E CORRELAÇÃO (2 aulas)

REGRESSÃO SIMPLES

REGRESSÃO MÚLTIPLA

ANÁLISE DE CORRELAÇÃO

SISTEMA DE AVALIAÇÃO

2 listas de exercícios

ESTATÍSTICA

( A maioria das pessoas pensa que Estatística é uma simples coleção de números, tem a ver com gráficos e Censo Demográfico;

( A origem da palavra Estatística tem a ver com uma coleção de informações populacionais e econômicas de interesse do Estado;

( Na verdade é muito mais que isso! É um conjunto de técnicas de análise de dados, cientificamente formuladas, aplicáveis a quase todas as áreas do conhecimento que nos auxiliam no processo de tomada de decisão; E isto hoje em dia é muito importante!

( Hoje em dia as portas do mercado de trabalho estão muito mais abertas aos profissionais que, por exemplo, tem habilidades em línguas estrangeiras. Da mesma forma, profissionais que tem uma cultura básica de Estatística são muito valorizados exatamente pelo seu preparo para tomada de decisão. Mas o que significa isso?

( Desenvolver uma cultura estatística significa desenvolver a habilidade de planejar um estudo controlando todos os aspectos que possam causar variações na resposta de interesse e, com base em metodologia científica ser capaz de realizar inferências que facilitem a tomada de decisão. Tem muito a ver com Lógica e Bom Senso!

( O profissional que trabalha com Estatística lida geralmente com uma amostra, ou seja, com uma pequena parcela da população, pela facilidade, pela limitação de tempo e custo mais baixo. Não precisamos comer a panela inteira de arroz para provar se está ou não bem temperada!

( Apesar da Estatística ser considerada uma ciência exata, seus resultados estão sempre associados à uma pequena margem de erro, exatamente por estarem baseados em uma amostra. O profissional de estatística deve ter a habilidade de controlar esta margem de erro através de procedimentos de Amostragem.

( A utilização de técnicas estatísticas foi incrementada com o grande avanço da computação eletrônica. Hoje existem centenas de softwares estatísticos que facilitam a utilização das técnicas. No entanto se não houver a habilidade de interpretação das informações do “output” do computador, a confusão estará formada!

( Alguns exemplos de aplicação de técnicas estatísticas: Pesquisa Eleitoral, Pesquisa de Mercado, Controle de Qualidade, Índices Econômicos, além do desenvolvimento de medicamentos, formas de tratamento, sementes mais eficientes, etc, ou seja, tudo que é “comprovado cientificamente” deve passar por procedimentos estatísticos.

( Neste curso nos focaremos no estudo de técnicas de Tomada de Decisão que é o interesse principal desta Especialização em Inteligência Computacional;

( Para isso é muito importante que tenhamos contato com elementos básicos que nos ajudem a entender como os métodos estatísticos foram desenvolvidos. O Cálculo de Probabilidades é a “origem matemática” de todos os métodos estatísticos.

( É importante que tenhamos contato também com alguns procedimentos de descrição de conjuntos de dados, bem como de modelagem de dados;

I. CÁLCULO DE PROBABILIDADES: CONCEITOS BÁSICOS E DEFINIÇÕES

TEORIA MATEMÁTICA DOS CONJUNTOS

Um conjunto é uma coleção de objetos, usualmente representados por letras maiúsculas. Por exemplo:

A = { 1, 2, 3, 4} ( 2 ( A

B é o conjunto de todos os números reais entre 0 e 1. Implica que 0,05 pertence a B

C = { x / -1 ( x ( 1 } ( 2 ( C

O conjunto Universo (fundamental) é o conjunto de todos os objetos que estejam sendo estudados e é usualmente representado pela letra U.

O conjunto vazio (nulo) é o conjunto que não possui nenhum elemento, representado pelo símbolo (.

Quando o conjunto A é um subconjunto de B escrevemos A ( B.

EXERCÍCIO: Suponha-se que U = todos os números reais, A = { x / x2 + 2x – 3 = 0}, B = { x / (x-2) (x2 + 2x – 3) = 0 } e C = { x / x = -3, 2, 1 }. Estabeleça as relações entre A, B e C usando os sinais ( e =.

Operações com conjuntos

A ( B é a união de todos os elementos que pertencem a A, pertencem a B ou a ambos os conjuntos.

C ( D é a interseção entre o conjunto C e D, ou seja, é um novo conjunto formado por todos os elementos que pertencem a C e pertencem a D.

Ac é o complementar de A, ou seja, é um novo conjunto formado por todos os elementos que não pertencem a A.

Estas operações podem ser graficamente representadas pelo diagrama de Venn através da definição da região sombreada:

EXPERIMENTO ALEATÓRIO (()

Entende-se por experimento aleatório (não-determinístico) a observação de um determinado fenômeno de interesse cujos resultados não são previsíveis com 100% de certeza, como as leis da Física e da Matemática. Alguns exemplos serão dados aqui:

1.Jogue um dado e observe o número mostrado na face para cima

2. Uma asa de avião é fixada por um grande número de rebites. Conte o número de rebites defeituosos.

3. Meça a resistência à tração de uma barra metálica.

4. Conte o tempo que se leva para conseguir conexão à Internet em diferentes horas do dia.

5. Tábuas percorrem uma esteira através de um equipamento detetor de defeitos. Conte o número de tábuas que passam até que surja a primeira defeituosa.

ESPAÇO AMOSTRAL (S)

Para cada experimento aleatório temos associado um espaço amostral que é o conjunto de todos os resultados possíveis deste experimento.

Ex:

S1 = { 1, 2, 3, 4, 5, 6}

S2 = { 0, 1, 2, 3, ..., M} onde M é o número de rebites utilizado

S3 = {T / T ( 0 }

S4 = { t / t ( 0 }

S5 = { 1, 2, 3, ... }

EVENTOS

É um conjunto resultados possíveis, geralmente representado por um subconjunto do espaço amostral. É o fenômeno de interesse que se quer estudar através do Cálculo de Probabilidades.

Ex: Em um experimento envolvendo um máquina de caça-níqueis deseja-se investigar o aparecimento dos resultados que favorecem a banca.

DEFINIÇÃO DE PROBABILIDADES E PROPRIEDADES

Definição: Seja ( um experimento. Seja S um espaço amostral associado a (. A cada evento A associaremos um número real representado por P(A) e denominado Probabilidade de A, que satisfaça as seguintes propriedades:

1) 0 ( P(A) ( 1

2) P(S) = 1

3) Se A e B forem eventos mutuamente exclusivos,

P(A ( B) = P(A) + P(B)

4) Se A1, A2, ..., An, ... forem, dois a dois, eventos mutuamente exclusivos, então,

[pic]

obs: Caso A e B sejam dois eventos quaisquer, então

[pic] (demonstração)

Na verdade a utilização da definição de Probabilidade e das operações com eventos servem para organizar o raciocínio do Cálculo de Probabilidades, mais ou menos como é feito com um fluxograma.

Agora aproveitaremos as operações de conjuntos descritas anteriormente para o cálculo de probabilidades que envolvem eventos de nosso interesse. Tentemos responder intuitivamente a questão abaixo para depois formalizar o procedimento de cálculo:

a) Para ter a certeza do nascimento de pelo menos um menino, um casal planeja ter 5 bebês. Qual a chance de sucesso?

b) Peças que saem de uma linha de produção são marcadas defeituosas (D) ou não defeituosas (N). As peças são inspecionadas e sua condição registrada. Isto é feito até que duas peças defeituosas consecutivas sejam fabricadas ou que quatro peças tenham sido inspecionadas, aquilo que ocorrer em primeiro lugar. Calcule a probabilidade do experimento ser interrompido antes do lote inteiro ter sido inspecionado.

Como forma de organização do raciocínio de cálculo devemos seguir alguns passos:

1) Descrever o espaço amostral e o seu tamanho (n);

2) Definir o evento de interesse no problema;

3) Verificar o número de eventos que são favoráveis ao evento de interesse (nA);

4) Calcular P(A) = nA / n

Mas atenção: Isto só vale se todos os resultados do espaço amostral forem equiprováveis!

Caso os evento A e B não sejam equiprováveis use:

[pic]

Outros procedimento de organização são utilizados como: regras de Multiplicação, regras de Adição, Permutações e Arranjos, e Combinações. São os chamados Métodos de Enumeração ou Técnicas de Contagem.

Obs:

n ! = n . (n-1) . (n-2) . ... . 1 é o fatorial de n.

[pic] é a permutação de n elementos tomados r a r.

[pic] é a combinação de n elementos tomados r a r.

Outros resultados importantes:

a) [pic] é a probabilidade de ocorrência do evento A dado que o evento B ocorreu

b) Se A e B são eventos independentes, então [pic]

VARIÁVEIS ALEATÓRIAS: DISCRETAS E CONTÍNUAS

Def. de Variável Aleatória: Seja S um espaço amostral associado a um experimento aleatório. Uma função X, que associe a cada elemento de S um número real é denominada variável aleatória.

Variável Aleatória Discreta:

Um a v.a será discreta se o número de resultados possíveis que ela poderá assumir for finito ou infinito enumerável.

Exemplo: Contagem da ocorrência de um fenômeno em um certo número de repetições ou em um certo espaço de tempo.

Seja X uma v.a. discreta e xi um certo valor de X. A probabilidade de ocorrência de xi é dada por P(X = xi) = p(xi), onde:

▪ p(xi) ( 0

▪ a soma de todos os p(xi) é igual a 1.

Variável Aleatória Contínua:

Um a v.a será contínua se o número de resultados possíveis que ela poderá assumir for infinito não enumerável.

Exemplo: Mensuração do tempo entre a ocorrência de duas quedas de energia elétrica numa grande cidade.

Seja Y uma v.a. contínua que assume valores reais dentro de um intervalo . Agora substituiremos a função p definida para uma v.a. discreta pela função f , para todos os valores dentro do intervalo citado acima. Desta forma:

▪ f(yi) ( 0

▪ [pic]

▪ para quaisquer valores a e b dentro do intervalo citado, teremos [pic] que é basicamente o cálculo de uma área abaixo de uma curva.

EXERCÍCIOS COMPLEMENTARES

1) Dez fichas numeradas de 1 até 10 são misturadas em uma urna. Duas fichas numeradas (X,Y) são extraídas da urna, sucessivamente e sem reposição. Qual é a probabilidade de que seja X + Y = 10?

2) Um lote é formado de 10 artigos bons, 4 com defeitos menores e 2 com defeitos graves. Um artigo é escolhido ao acaso. Ache a probabilidade de que:

a) ele não tenha defeitos

b) ele não tenha defeitos graves

c) ele ou seja perfeito ou tenha defeitos graves

3) Um produto é montado em 3 estágios. No primeiro estágio, existem 5 linhas de montagem; no segundo estágio e no terceiro estágio, existem 6 linhas de montagem. De quantas maneiras diferentes poderá o produto se deslocar durante o processo de montagem?

4) Determinado composto químico é obtido pela mistura de 5 líquidos diferentes. Propõe-se despejar um líquido em um tanque e, em seguida, juntar os outros líquidos sucessivamente. Todas as seqüências possíveis devem ser ensaiadas para verificar-se qual delas dará o melhor resultado. Quantos ensaios devem ser efetuados?

5) A probabilidade de um certo homem viver mais 10 anos é 1/4 e a probabilidade de sua esposa viver mais 10 anos é 1/3. Encontre a probabilidade de:

i) ambos estarem vivos dentro de 10 anos;

ii) ao menos um estar vivo dentro de 10 anos;

iii) nenhum estar vivo dentro de 10 anos;

iv) somente a esposa estar viva dentro de 10 anos.

6) Um certo tipo de míssil acerta no alvo com probabilidade 0,3. Quantos mísseis deveriam ser lançados para que houvesse pelo menos uma probabilidade de 80% de acertar no alvo?

II. AJUSTAMENTO DE DISTRIBUIÇÕES DE PROBABILIDADE

No estudo do comportamento de diversos fenômenos é interessante que estes sejam modelados para possibilitar o cálculo de probabilidades. Esta modelagem utiliza resultados decorrentes da observação de diversas repetições do fenômeno (ou do experimento). Assim, o ajuste de uma distribuição de probabilidade é uma grande ferramenta auxiliar na tomada de decisão. Existem inúmeras distribuições de probabilidade, cada uma adequada a um certo tipo de experimento (ou conjunto de dados). Veremos aqui as distribuições mais comuns, divididas em duas classes: Distribuições discretas e contínuas. Em seguida, veremos um procedimento que nos permite testar se determinada distribuição de probabilidade é estatisticamente adequada a uma certa amostra (conjunto de dados).

DIST. DISCRETAS DE PROBABILIDADE: BINOMIAL E POISSON

Retornemos à definição de v.a. discreta: Seja X uma v.a. discreta e xi um certo valor de X. A probabilidade de ocorrência de xi é dada por

P(X = xi) = p(xi), onde:

▪ p(xi) ( 0

▪ a soma de todos os p(xi) é igual a 1.

Como as v.a.s discretas X assumem valores inteiros (geralmente), as probabilidades associadas a esses valores (xi) são pontuais de forma que a distribuição de probabilidade será representada por quantidades de massa localizadas nos pontos xi.

DISTRIBUIÇÃO DE PROBABILIDADE BINOMIAL

Mais uma vez, tentemos resolver intuitivamente: Suponha que peças saiam de uma linha de produção e sejam classificadas como defeituosas (D) ou como não-defeituosas (N). Admita que 3 dessas peças sejam escolhidas ao acaso e classificadas como D ou N. Se a probabilidade de uma peça ser defeituosa é 0,2 calcule a probabilidade de obtermos 0, 1, 2 ou 3 peças defeituosas.

Considere, agora, a seguinte definição:

Seja ( um experimento e A um evento associado a (. Considere ainda

P(A) = p, denominada Probabilidade de ocorrência de A, que satisfaça as seguintes propriedades:

▪ ocorrem n repetições independentes do experimento (;

▪ a probabilidade p é sempre constante para cada repetição;

▪ a v.a. X será definida como sendo o número de vezes que o evento A ocorre

▪ P(AC) = 1 – P(A) = q

Então,

[pic] , k = 0, 1, 2, ..., n.

Agora a resolução da questão acima fica muito mais simples. Basta definirmos:

▪ n = 3

▪ p = 0,2

▪ A = “ocorrência de peça defeituosa”

|[pic]0,512 |[pic]0,384 |

|[pic]0,096 |[pic]0,008 |

EXERCÍCIOS:

1) De um lote que contém 25 peças, das quais 5 são defeituosas, são escolhidas 4 ao acaso. Seja X o número de defeituosas encontradas. Estabeleça a distribuição de probabilidade de X, quando:

a) as peças foram escolhidas com reposição;

b) as peças foram escolhidas sem reposição.

2) Suponha que a máquina 1 produza (por dia) o dobro das peças que são produzidas pela máquina 2. No entanto, 4% das peças fabricadas pela máquina 1 tendem a ser defeituosas, enquanto que somente cerca de 2% de defeituosas produz a máquina 2. Admita que a produção diária das duas máquinas seja misturada. Um amostra aleatória de 10 peças é extraída da produção total. Qual será a probabilidade de que essa amostra contenha duas peças defeituosas?

3) Seja X uma v.a. com distribuição binomial, baseada em 10 repetições de um experimento. Se p = 0,3, calcule as seguintes probabilidades:

a) P(X(8) b) P(X=7) c) P(X>6)

4) Suponha que 5% de todas as peças que saiam de uma linha de produção sejam defeituosas. Se 10 dessas peças forem escolhidas e inspecionadas, qual será a probabilidade de que no máximo 2 defeituosas sejam encontradas?

DISTRIBUIÇÃO DE PROBABILIDADE POISSON

Na distribuição binomial, a v.a . X é o número de “sucessos” que ocorrem em n tentativas independentes do experimento. Podemos considerar agora uma variável aleatória X igual ao número de “sucessos” que ocorrem num intervalo contínuo.

Por exemplo:

• número de chamadas X que uma telefonista recebe num intervalo de uma hora;

• o número de falhas em 1 m2 de tecidos;

• o número de vezes que um computador “trava” em um intervalo de 8 horas.

Uma variável aleatória assim, assume valores inteiros, ou seja, X=0, 1, 2, 3, 4, ... .

Um fenômeno ou experimento de Poisson tem as seguintes características:

• o número de sucessos que ocorrem num intervalo contínuo é independente daqueles que ocorrem em qualquer outro intervalo disjunto;

• em intervalos de mesmo comprimento a probabilidade de ocorrência de um mesmo número de “sucessos” é igual;

• em intervalos muito pequenos, a probabilidade de mais de um “sucesso” é desprezível.

Nessas condições, a variável aleatória X = número de sucessos que ocorrem num determinado intervalo contínuo de tem distribuição de Poisson com parâmetro ( e função de probabilidade dada por:

[pic], para x = 0, 1, 2, ... ,

onde ( é a média de sucessos no intervalo considerado.

EXERCÍCIO:

1) O número de navios petroleiros que chegam a determinada refinaria, a cada dia, tem distribuição de Poisson, com parâmetro ( = 2. As atuais instalações do porto podem atender a três petroleiros por dia. Se mais de 3 navios aportarem por dia, os excedentes deverão seguir para outro porto.

a) Em um dia, qual é a probabilidade de se Ter de mandar petroleiros para outro porto? (0,145)

b) De quanto deverão as atuais instalações ser aumentadas para permitir manobrar todos os petroleiros, em aproximadamente 90% dos dias? (4)

c) Qual é o número esperado de petroleiros a chegarem por dia? (2)

d) Qual é o número mais provável de petroleiros a serem atendidos diariamente? (1 ou 2)

e) Qual é o número esperado de petroleiros a serem atendidos diariamente? (1,785)

f) Qual é o número esperado de petroleiros que voltarão a outros portos diariamente? (0,215)

DIST. CONTÍNUAS DE PROBABILIDADE:

EXPONENCIAL E NORMAL

DISTRIBUIÇÃO DE PROBABILIDADE EXPONENCIAL

A distribuição exponencial envolve probabilidades ao longo do tempo ou da distância entre ocorrências num intervalo contínuo. Por exemplo, a exponencial é usada como modelo do tempo entre falhas de equipamento elétrico, tempo entre a chegada de clientes a um supermercado, tempo entre chamadas telefônicas, etc. Há estreita relação entre a distribuição exponencial e a de Poisson. Na verdade, se um processo de Poisson tem média de ( ocorrências durante um intervalo, o espaço (ou tempo) entre ocorrências naquele intervalo é de 1/(. Por exemplo, se as chamadas telefônicas ocorrem em média de 6 por hora, então o tempo médio entre as chamadas será de 1/6 de hora, ou seja, 10 minutos.

Uma variável aleatória contínua X é exponencialmente distribuída se, sua f.d.p. for do tipo

[pic]

As probabilidades exponenciais se expressam em termos de tempo ou distância até que um evento ou ocorrência se verifique, ou seja, a variável aleatória X representa o tempo necessário até a ocorrência de um determinado evento .

Deste modo, com o emprego da fórmula,

P(X > x) = e-(x

podemos calcular a probabilidade de que o tempo ou a distância antes da primeira ocorrência de um evento seja maior que um dado espaço (ou tempo) x e, a probabilidade de uma ocorrência de um evento em x ou antes de x é dada por:

P(X ( x) = 1- e-(x

Exemplo:

O tempo de vida X (em horas) das lâmpadas elétricas fabricadas por certa companhia é uma variável aleatória, tendo uma f.d.p. dada por

[pic]

a) Calcular o valor de k.

b) Qual é a probabilidade do tempo de vida, de uma lâmpada dessa companhia, ser superior a 600 horas?

c) Qual é o tempo médio de vida esperado?

DISTRIBUIÇÃO DE PROBABILIDADE NORMAL

A distribuição normal é a mais importante das distribuições contínuas de probabilidade, e tem sua origem associada aos erros de mensurações. A distribuição normal desempenha papel preponderante na estatística, e os processos de inferência nela baseados têm larga aplicação.

A distribuição normal tem sua função densidade de probabilidade (f.d.p.) dada por

[pic]

Notação: X ~ N((; (2)

São propriedades da distribuição normal:

1) A distribuição é simétrica em relação a x = (, pois f(x) é uma função par.

2) A função f(x) tem um ponto de máximo para x = (.

3) A função f(x) é duplamente assintótica ao eixo das abscissas, ou seja,

[pic] e [pic]

4) A função f(x) admite dois pontos de inflexão para x = ( ( (.

4) A função de distribuição acumulada é dada por

[pic]

A função F(x), dada acima, pode ser colocada numa forma mais simples, considerando-se a transformação

[pic],

que é a variável normal padronizada ou reduzida Z.

Notamos que a transformação utilizada consiste em adotarmos uma nova distribuição normal de média ( = 0 e variância (2 = 1 ou desvio padrão ( = 1. Portanto,

Z ~ N(0; 1).

Assim, a f.d.p. da variável normal padronizada será dada por

g(z) = [pic].

A distribuição normal padronizada pode ser tabulada utilizando-se métodos de integração numérica.

Exemplo:

Uma indústria fabrica peças mecânicas cujas medidas dos diâmetros externos são normalmente distribuídas com média 40,0 mm e desvio padrão de 2,0 mm. Calcular a percentagem de peças defeituosas fabricadas, sabendo-se que o setor de controle de qualidade dessa indústria classifica como defeituosas aquelas peças cujos diâmetros externos:

a) são inferiores a 37,0 mm.

b) são superiores a 44,0 mm.

c) se desviam mais de 2,0 mm da média.

d) Calcular os limites 40 ( c mm, tais que, a % de refugos (peças defeituosas) não seja superior a 12,6%.

e) Nas condições do item (d), qual seria o novo desvio padrão, se a % de refugos não fosse superior a 1,1%?

BONDADE DO AJUSTE:

TESTE KOLMOGOROV-SMIRNOV E TESTE DE LILLIEFORS

TESTE KOLMOGOROV-SMIRNOV

Este teste de aderência proposto em 1933 avalia a concordância entre a distribuição observada da amostra e uma determinada distribuição teórica. Avalia se os dados amostrais se aproximam razoavelmente de uma determinada distribuição. Para isso utiliza-se a função distribuição acumulada observada, compara com a teórica e determina o ponto em que essa distribuição mais divergem, ao fim testar se essa divergência é aleatória ou não

Seja [pic] uma distribuição teórica acumulada e [pic] uma distribuição observada em uma amostra de n observações (distribuição empírica)

Encontra-se a seguir o maior valor das diferenças entre [pic] e [pic], ou seja,

[pic]

Compara-se o valor observado com o valor crítico bilateral.

Exemplo: Verifique se os dados abaixo podem ser ajustados por uma distribuição de Poisson com média igual a 1,2.

|[pic] |[pic] |

|0 |15 |

|1 |25 |

|2 |10 |

|3 |5 |

|4 |4 |

|5 |1 |

| | |

|Depois |

|[pic] |[pic] |[pic] - [pic] |

|0,3012 |0,250 |0,0512 |

|0,6626 |0,666 |0,0041 |

|0,8794 |0,833 |0,0461 |

|0,9661 |0,917 |0,0494 |

|0,9921 |0,983 |0,0088 |

|0,9983 |1,000 |0,0017 |

[pic]Os dados seguem uma distribuição Poisson (1,2) ou [pic]

[pic] Os dados não seguem uma distribuição Poisson (1,2) ou [pic]

Conclusão: [pic] com isto a [pic] então não podemos rejeitar a hipótese nula.

Exercício: As produções médias de um experimento envolvendo adubação em milho encontram-se tabuladas abaixo

|Classes |[pic] |[pic] |F[pic] |S[pic] |F[pic]- S[pic] |

|2700-3000 |13 |2850 |0.333 |0.111 |0.222 |

|3000-3300 |18 |3150 |0.397 |0.265 |0.132 |

|3300-3600 |24 |3450 |0.464 |0.470 |0.006 |

|3600-3900 |32 |3750 |0.536 |0.743 |0.207 |

|3900-4200 |17 |4050 |0.603 |0.906 |0.303 |

|4200-4500 |11 |4350 |0.667 |1.00 |0.333 |

| |117 | | | | |

Podemos admitir que a produção média segue uma distribuição normal com média [pic]?

Conclusão: Para n = 117 a [pic] os dados não se aderem à distribuição Normal proposta.

TESTE DE LILLIEFORS

No caso em que se deseja testar normalidade e a média e a variância não são previamente especificadas mas sim estimados através dos dados da amostra, deve-se utilizar o teste de Lilliefors.

Este teste tem procedimento análogo ao Kolmogorov – Smirnov porém utiliza uma tabela própria e mais adequada a este tipo de situação.

III – NOÇÕES DE AMOSTRAGEM

AMOSTRA ALEATÓRIA

Consideremos uma população e observando alguns elementos queremos obter informações a respeito da mesma. Estes elementos são obtidos de forma aleatória (em geral independentes) o que chamaremos de amostra aleatória.

É preciso garantir que a amostra ou as amostras que serão usadas sejam obtidas por processos adequados. Se erros forem cometidos no momento de selecionar os elementos da amostra, o trabalho todo ficará comprometido e os resultados finais serão provavelmente bastante viesados. Devemos, portanto, tomar especial cuidado quanto aos critérios que serão usados na seleção da amostra.

O que é necessário garantir, em suma, é que a amostra seja representativa da população. Isso significa que, com exceção de pequenas discrepâncias inerentes à aleatoriedade sempre presente, em maior ou menor grau, no processo de amostragem, a amostra deve possuir as mesmas características básicas da população, no que diz respeito à(s) variável(is) que desejamos pesquisar.

A necessidade da representatividade da amostra não é difícil de entender. O que talvez não seja fácil é saber quando temos uma amostra representativa ou não. Veremos adiante algumas recomendações sobre como proceder para garantir, da melhor forma possível, a representatividade da amostra.

Os problemas de amostragem podem ser mais ou menos complexos, dependendo das populações e das variáveis que se deseja estudar. Na indústria, onde amostras são freqüentemente retiradas para efeito de controle de qualidade dos produtos e materiais, em geral os problemas de amostragem são mais simples de resolver. Por outro lado, em pesquisas sociais, econômicas ou de opinião, a complexidade dos problemas de amostragem é normalmente bastante grande. Em tais casos, extremo cuidado deve ser tomado quanto à caracterização da população e ao processo usado para selecionar a amostra, a fim de evitar que os elementos desta constituam um conjunto com características fundamentalmente distintas das da população.

No caso de questionários serem distribuídos, muita atenção é também requerido em sua elaboração, visando evitar perguntas capciosas ou inibidoras, o que viria a distorcer os resultados.

Em resumo, a obtenção de soluções adequadas para o problema de amostragem exige, em geral, muito bom senso e experiência. Além disso, é muitas vezes conveniente que o trabalho do estatístico seja complementado pelo de um especialista do assunto em questão.

Veremos a seguir, algumas recomendações básicas referentes ao problema de amostragem e a apresentação das principais técnicas de amostragem.

AMOSTRAGEM PROBABILÍSTICA

Existem dois tipos de amostragem: a probabilística e a não probabilística.

A amostragem será probabilística se todos os elementos da população tiverem probabilidade conhecida, e diferente de zero, de pertencer à amostra. Caso contrário, a amostragem será não probabilística.

Segundo essa definição, a amostragem probabilística implica um sorteio com regras bem determinadas, cuja realização só será possível se a população for finita e totalmente acessível.

A utilização de uma amostragem probabilística é a melhor recomendação que se deve fazer no sentido de se garantir a representatividade da amostra, pois o acaso será o único responsável por eventuais discrepâncias entre população e amostra.

A seguir, damos algumas das principais técnicas de amostragem probabilística.

AMOSTRAGEM ALEATÓRIA SIMPLES

Esse tipo de amostragem, também chamada simples ao acaso, casual, simples, elementar, randômica, etc., é equivalente a um sorteio lotérico. Nela, todos os elementos da população têm igual probabilidade de pertencer à amostra, e todas as possíveis amostras têm também igual probabilidade de ocorrer.

Sendo N o número de elementos da população e n o número de elementos da amostra, cada elemento da população tem probabilidade [pic] de pertencer à amostra. A essa relação [pic] denomina-se fração de amostragem. Por outro lado, sendo a amostragem feita sem reposição, o que suporemos em geral, existem [pic] possíveis amostras, todas igualmente prováveis.

Na prática, a amostragem simples ao acaso pode ser realizada numerando-se a população de 1 a N, sorteando-se, a seguir, por meio de um dispositivo aleatório qualquer, n números dessa seqüência, os quais corresponderão aos elementos sorteados para a amostra. Esse sorteio pode ser feito utilizando a tabela de números aleatórios.

AMOSTRAGEM SISTEMÁTICA

Quando os elementos da população se apresentam ordenados e a retirada dos elementos da amostra é feita periodicamente, temos uma amostragem sistemática.

Assim, por exemplo, em uma linha de produção, podemos, a cada dez itens produzidos, retirar um para pertencer a uma amostra da produção diária.

A principal vantagem da amostragem sistemática está na grande facilidade na determinação dos elementos da amostra. O perigo em adotá-la está na possibilidade da existência de ciclos de variação da variável de interesse, especialmente se o período desses ciclos coincidir com o período de retirada dos elementos da amostra. Por outro lado, se a ordem dos elementos na população não tiver qualquer relacionamento com a variável de interesse, então a amostragem sistemática terá efeitos equivalentes à amostragem casual simples, podendo ser utilizada sem restrições.

AMOSTRAGEM ESTRATIFICADA

Muitas vezes a população se divide em subpopulações ou estratos, sendo razoável supor que, de estrato para estrato, a variável de interesse apresente um comportamento substancialmente diverso, tendo, entretanto, comportamento razoavelmente homogêneo dentro de cada estrato. Em tais casos, se o sorteio dos elementos da amostra for realizado sem se levar em consideração a existência dos estratos, pode acontecer que os diversos estratos não sejam convenientemente representados na amostra, a qual seria mais influenciada pelas características da variável nos estratos mais favorecidos pelo sorteio. Evidentemente, a tendência à ocorrência de tal fato será tanto maior quanto menor o tamanho da amostra. Para evitar isso, pode-se adotar uma amostragem estratificada.

Constituem exemplos em que uma amostragem estratificada parece ser recomendável, a estratificação de uma cidade em bairros, quando se deseja investigar alguma variável relacionada à renda familiar; a estratificação de uma população humana em homens e mulheres, ou por faixas etárias; a estratificação de uma população de estudantes conforme suas especificações, etc.

AMOSTRA DE CONVENIÊNCIA

A amostra de conveniência é formada por elementos que o pesquisador reuniu simplesmente porque dispunha deles. Então, se o professor tomar os alunos de sua classe como amostra de toda a escola, estará usando uma amostra de conveniência.

Os estatísticos têm muitas restrições ao uso de amostras de conveniência. Mesmo assim, as amostras de conveniência são comuns na área de saúde, onde se fazem pesquisas com pacientes de uma só clínica ou de um só hospital. Mais ainda, as amostras de conveniência constituem, muitas vezes, a única maneira de estudar determinado problema.

De qualquer forma, o pesquisador que utiliza amostras de conveniência precisa de muito senso crítico. Os dados podem ser tendenciosos. Por exemplo, para estimar a probabilidade de morte por desidratação não se deve recorrer aos dados de um hospital. Como só são internados os casos graves, é possível que a mortalidade entre pacientes internados seja maior do que entre pacientes não-internados. Conseqüentemente, a amostra de conveniência, constituída, neste exemplo, por pacientes internados no hospital, seria tendenciosa.

Finalmente, o pesquisador que trabalha com amostras sempre pretende fazer inferência, isto é, estender os resultados da amostra para toda a população. Então é muito importante caracterizar bem a amostra e estender os resultados obtidos na amostra apenas para a população de onde a amostra proveio.

ERRO AMOSTRAL E NÍVEL DE CONFIANÇA

Uma das etapas do planejamento amostral é a definição do erro amostral e do nível de confiança desejado pelo pesquisador, no levantamento a ser realizado. Estas são informações que poderão levar à um aumento ou redução do tamanho amostral, dependendo dos recursos disponíveis para realização da pesquisa. Trataremos abaixo desses conceitos especificamente para o caso em que estamos interessados em estimar uma proporção populacional.

1) ERRO AMOSTRAL

Imagine que para estimação de um proporção (ou porcentagem) tenhamos interesse em atingir uma certa precisão para nossa estimativa de mais ou menos ( %. Isto significa que se o nosso levantamento proporcionar uma estimativa de P % então poderemos afirmar que a porcentagem da população deve estar entre

P – ( < P < P + ( (1)

com uma certa margem (ou nível) de confiança;

2) NÍVEL DE CONFIANÇA

Imagine agora que o levantamento amostral acima tenha sido realizado com a definição de um nível de confiança de (1 - () ou (1 - () X 100 %. Isto significa que se realizarmos 100 levantamentos semelhantes, o intervalo definido acima (1) conterá o verdadeiro valor da população em (1 - () X 100 % das vezes.

O nível de confiança é exatamente o oposto do nível de significância (() de forma que o efeito causado pelo aumento ou diminuição dessas quantidades pode ser melhor representado na tabela abaixo:

|Erro amostral |Nível de confiança |Nível de significância |Tamanho amostral |

|( |( |( |( |

|( |( |( |( |

CÁLCULO DE TAMANHO AMOSTRAL

Desta forma uma expressão que poderá nos ajudar na definição do tamanho que uma amostra deve ter para satisfazer algumas condições pré-estabelecidas é dada por:

[pic]

onde:

Z é o valor da variável padronizada para um nível de significância (. É o valor da distribuição Normal padronizada cuja área à direita é de ( %;

p é uma pré-estimativa definida a partir de informações que o pesquisador possui acerca desse parâmetro. Geralmente é desconhecida e portanto assume-se que ela é igual a 0,5;

q é o complemento de p, ou seja, q = 1 – p;

( é o erro amostral definido pelo pesquisador;

n0 é o tamanho amostral sugerido.

Sugere-se ainda que seja realizada uma correção no caso de estarmos trabalhando com uma população finita, da seguinte forma:

[pic]

IV - ANÁLISE EXPLORATÓRIA DE DADOS

Antes de abordarmos as técnicas de análise exploratória de dados é importante que conceituemos o que chamamos de medidas descritivas. Existem duas categorias de medidas descritivas:

Medidas de posição ou tendência central: servem para dar uma idéia acerca dos valores médios da variável em estudo.

Medidas de dispersão: servem para dar uma idéia acerca da maior ou menor concentração dos valores da variável em estudo.

Nota: Quando as medidas de tendência central e as de dispersão são calculadas sobre a população, elas são chamadas de parâmetros. Por outro lado, quando essas medidas são obtidas considerando-se uma amostra retirada de uma população, elas são chamadas de estatísticas.

Medidas de Posição ou de Tendência Central

Como o próprio nome indica, a medida de tendência central visa a determinar o centro da distribuição. Essa determinação depende, portanto, da definição de centro da distribuição. Todavia, o centro de um conjunto de valores não está definido e pode ser interpretado de várias maneiras, cada uma das quais descreve uma propriedade da distribuição, que pode ser razoavelmente chamada de tendência central.

São medidas de tendência central:

média aritmética

mediana

moda

Média Aritmética ([pic])

Dada uma distribuição de freqüências, chama-se de média aritmética desta distribuição, e representa-se por [pic], a soma de todos os valores da variável, dividida pela freqüência total (número total de observações). a média aritmética será:

[pic].

Da própria definição segue que a média aritmética de uma distribuição de freqüências:

é da natureza da variável considerada;

sempre existe, e quando calculada admite um único valor;

não pode ser calculada quando os dados estiverem agrupados em classes e a primeira ou última classe tiverem extremos indefinidos;

sofre muito a influência de valores aberrantes.

Mediana (Md ou [pic])

A mediana é uma quantidade que, como a média, também procura caracterizar o centro da distribuição de freqüências, porém, de acordo com um critério diferente. Ela é calculada com base na ordem dos valores que formam o conjunto de dados.

A mediana é a realização que ocupa a posição central da série de observações quando estas estão ordenadas segundo suas grandezas (crescente ou decrescente).

Dada uma distribuição de freqüências e supondo-se os valores da variável dispostos em ordem crescente ou decrescente de magnitude, há três casos a considerar:

1o. A variável em estudo é discreta e n é ímpar. Neste caso a mediana será o valor da variável que ocupa o posto de ordem [pic].

2o. A variável é discreta e n é par. Neste caso, não existe na graduatória um valor que ocupe o seu centro, isto é, a mediana é indeterminada, pois qualquer valor compreendido entre os valores que ocupam os postos [pic] pode ser considerado o centro da graduatória.

O problema é resolvido por uma convenção que consiste em tomar como mediana da graduatória a média aritmética dos valores que ocupam os postos [pic].

3o. A variável é contínua. Neste caso, determina-se a mediana calculando-se aquele valor da variável que divide a freqüência total n em duas partes iguais, não se levando em consideração se n é par ou ímpar.

Existem casos nos quais o emprego da mediana faz-se necessário, como por exemplo quando existem valores aberrantes, pois estes têm sobre a mediana influência muito menor do que sobre a média aritmética.

Nota: Além da mediana que, por definição, divide um conjunto ordenado de valores em duas partes iguais, existem outras medidas que dividem o conjunto de valores em 4, 10 e 100 partes iguais. Conquanto estas medidas não sejam de tendências central, elas podem ser consideradas medidas de posição, uma vez que fornecem pontos à esquerda ou à direita, dos quais são encontradas frações da freqüência total. Estas medidas são os quartis, os decis e os percentis.

Os três quartis são definidos como os valores que dividem o conjunto ordenado de valores em 4 partes iguais; 25% dos valores são menores do que o primeiro quartil, que é denotado por Q1; 50% dos valores caem abaixo do segundo quartil, Q2 (mediana), e 75% dos valores são menores que o terceiro quartil, Q3.

Os decis são valores que dividem o conjunto ordenado de valores em 10 partes iguais, isto é, 10% das observações caem abaixo do primeiro decil, denotado por D1, etc.

Os percentis são valores que dividem o conjunto ordenado de valores em 100 partes iguais, isto é, 1% das observações caem abaixo do primeiro percentil, denotado por C1, etc.

Moda (Mo ou [pic])

Dada uma distribuição de freqüências, a moda é o valor da variável que corresponde à freqüência máxima, isto é, é o valor mais freqüente.

Conquanto o seu resultado seja o mais simples possível, a moda nem sempre existe e nem sempre é única. Quando numa distribuição existem poucos valores da variável, muito freqüentemente não há valores repetidos, com o que nenhum deles satisfaz à condição de moda.

Nota: É interessante notar que a moda pode ser usada como uma medida de tendência central também no caso de a variável considerada ser de natureza qualitativa. De fato, quando se diz que as doenças cardíacas constituíram a causa principal de mortalidade em certo ano, isto quer dizer que na distribuição dos óbitos, segundo a causa mortis, às doenças cardíacas correspondeu um maior número de óbitos, isto é, a rubrica “doenças cardíacas” é a moda da distribuição.

Medidas de Dispersão

Sejam A e B duas localidades com mesma renda média por habitante. Este simples fato de igualdade das duas médias permite concluir que a situação econômica das duas localidades é a mesma? Evidentemente que não, pois esta igualdade poderia existir mesmo que A fosse perfeitamente estabilizada no sentido de que todos os seus habitantes tivessem praticamente a mesma renda (igual à renda média por habitante) e B tivesse uns poucos indivíduos com rendas extraordinariamente altas e a maioria com rendas baixas. Este simples exemplo basta para mostrar que o conhecimento da intensidade dos valores assumidos por uma grandeza, isto é, da posição de uma distribuição, não é suficiente para a sua completa caracterização.

O fato de em A todos os indivíduos terem a mesma renda pode ser traduzido dizendo que em A as rendas não variam de indivíduo para indivíduo, ou ainda que a distribuição das rendas não apresentam variabilidade. Analogamente, o fato de em B alguns indivíduos terem rendas muito elevadas em detrimento da grande maioria, que tem rendas muito baixas, pode ser expresso dizendo-se que em B as rendas variam ou que a distribuição das rendas apresentam variabilidade.

Neste sentido, várias medidas foram propostas para indicar o quanto os dados se apresentam dispersos em torno da região central. Caracterizam, portanto, o grau de variação (variabilidade) existente no conjunto de dados.

Amplitude de Variação ( R )

Uma das medidas mais elementares é a amplitude, a qual é definida como sendo a diferença entre o maior e o menor valores do conjunto de dados:

R = xmax - xmin .

Evidentemente esta medida é muito precária, pois a amplitude não dá informe algum a respeito da maneira pela qual os valores se distribuem entre os valores extremos.

Variância (S2)

S2 = [pic]

Desvio Padrão (S)

S =[pic] ,

Considerações sobre o desvio-padrão:

O desvio-padrão é uma quantidade essencialmente positiva

O desvio-padrão só é nulo se todos os valores da distribuição forem iguais entre si, isto é, se não houver variabilidade.

O desvio-padrão é da mesma natureza da variável X e depende também de sua magnitude.

Se deseja-se comparar duas distribuições quanto à variabilidade, deve-se usar medidas de variabilidade relativa, tais como o ceficiente de variação de Pearson (CV), o qual é dado por:

[pic],

o qual independe da natureza e magnitude da variável X.

Esse resultado é multiplicado por 100, para que o coeficiente de variação seja dado em porcentagem.

Para entender como se interpreta o coeficiente de variação, suponha-se que, estudando-se as distribuições de pesos de recém-nascidos e de adultos, fosse verificado que ambas têm a mesma variabilidade (medida através do desvio-padrão) igual a 500gramas, supondo-se, ainda, que os pesos dos recém-nascidos variam de 2.200 a 4.800 gramas (com um peso médio de 3.500 gramas) enquanto os dos adultos variam de 40 a 90 quilos (com um peso médio de 60 quilos).

Conquanto em termos absoluto as duas distribuições tenham a mesma variabilidade, é fácil perceber que 500 gramas têm significado bem diferentes nas duas distribuições. De fato, no caso dos recém-nascidos, o coeficiente de variação de Pearson será igual a

[pic] = 0,1429 = 14,29%

refletindo uma variabilidade relativa muito maior que para os adultos, onde o coeficiente de variação de Pearson vale

[pic] = 0,0083 = 0,83%.

Um coeficiente de variação igual a 14,29% indica que a dispersão dos dados em relação à média é muito grande, ou seja, a dispersão relativa é alta. Já um coeficiente de variação de 0,83% indica que a dispersão dos dados em relação à média é pequena. Em outras palavras, diferenças de 500 gramas são relativamente mais importantes no grupo de recém-nascidos, que tem média 3500 gramas do que no grupo de adultos, que tem média de 60000gramas. Então o coeficiente de variação mede a dispersão em ralação à média.

UMA TÉCNICA DE ANÁLISE EXPLORATÓRIA DE DADOS:

O BOX-PLOT

As técnicas estatísticas clássicas foram concebidas para serem as melhores possíveis, assumindo um conjunto de pressupostos rígidos. Sabe-se que estas técnicas se comportam deficientemente a medida que este conjunto de pressupostos não é satisfeito.

As técnicas de Análise Exploratória de Dados contribuem para aumentar a eficácia da análise estatística, de forma fácil e rápida. Geralmente devem ser aplicadas antes da formulação das hipóteses estatísticas para identificar padrões e características dos dados.

Dentre estas técnicas destaca-se o Box-plot (ou caixa de bigodes), uma representação gráfica de valores, conhecidos como resumo de 5 números. Esta técnica nos revela uma boa parte da estrutura dos dados, através da visualização de características como:

▪ Tendência central

▪ Dispersão

▪ Assimetria

▪ Comprimento das caudas

▪ Outliers

Detalharemos agora o procedimento para construção de um box plot para um conjunto de dados, através de um exemplo relacionado com o Censo dos E.U.A de 1960:

|Cidade |População |Cidade |População |

|Nova Iorque |778 |Washington |76 |

|Chicago |355 |St. Louis |75 |

|Los Angeles |248 |Milwaukee |74 |

|Filadélfia |200 |San Francisco |74 |

|Detroit |167 |Boston |70 |

|Baltimore |94 |Dallas |68 |

|Houston |94 |New Orleans |63 |

|Cleveland |88 | | |

Para a construção do box-plot é necessário que sejam calculadas as medidas que compõe o resumo de 5 números:

▪ A Mediana (88)

▪ Os Quartis Q1 e Q3 (74 e 184)

▪ O Mínimo e o Máximo (63 e 778)

As barreiras de outliers serão obtidas através do cálculo:

[pic] (1) e [pic] (2)

onde dF = Q3 – Q1

Isto significa que os valores inferiores a (1) ou superiores a (2) serão considerado outliers ou valores discrepantes. O Box-plot irá nos apresentar a localização (mediana), a dispersão (comprimento da caixa), a assimetria (pela distância dos quartis à mediana), o peso das caudas e os outliers (Chicago e Nova Iorque):

[pic]

Observe que a barreira inferior de outliers é –91. Entretanto na representação gráfica, substituiremos este valor pelo mínimo observado (63). As expressões utilizadas para as barreiras de outliers são de certo modo arbitrárias, mas a experiência dos autores da técnica indicou que esta definição serve perfeitamente para a identificação de valores que requerem uma atenção especial.

O BOX PLOT PARA COMPARAÇÃO DE DIVERSOS CONJUNTOS DE DADOS

Considere os conjuntos de dados apresentados abaixo:

[pic]

A tabela na página anterior apresenta dados referentes à população de 10 ou mais grandes cidades em 16 países. Obtenha o resumo de 5 números e construa o box-plot. Para isso cada um dos alunos deverá escolher um dos países. Ao final, representar todos os box-plots num mesmo eixo no quadro negro.

V - INFERÊNCIA ESTATÍSTICA

ESTIMAÇÃO POR INTERVALO:

INTERVALO DE CONFIANÇA PARA MÉDIA E PARA PROPORÇÃO

É muito comum, quando estamos estudamos uma população, conhecermos a distribuição da característica em estudo e não conhecermos os parâmetros dessa distribuição. Então, com base numa amostra aleatória dessa população, nós estimamos um valor aproximado para os parâmetros da população. Estimação é o processo que consiste em utilizar dados amostrais para estimar os valores de parâmetros populacionais.

Lembremos que, parâmetros são funções de valores populacionais, enquanto que estatísticas são funções de valores amostrais.

Inicialmente, vejamos a questão de estimação de um modo mais geral. Consideremos uma amostra (X1, X2, ...,Xn) de uma variável aleatória que descreve uma característica de interesse de uma população. Seja ( um parâmetro que desejamos estimar, como por exemplo a média ( = E(X) ou a variância (2 = Var(X).

A estimação pontual (por ponto) consistirá simplesmente em, à falta de melhor informação, adotar a estimativa disponível como sendo o valor do parâmetro. A idéia é, em sua essência, extremamente simples, porém a qualidade dos resultados irá depender fundamentalmente da conveniente escolha do estimador. Assim, dentre os vários estimadores razoáveis que poderemos imaginar para um determinado parâmetro, devemos ter a preocupação de escolher aquele que melhor satisfaça às propriedades de um bom estimador. Essas propriedades serão dadas logo a seguir:

▪ Não viés

▪ Consistência

▪ Suficiência

▪ Variância Mínima

Intervalos de Confiança (I.C.)

Até agora, todos os estimadores apresentados foram estimadores pontuais, isto é, especificam um único valor para o estimador. Este procedimento não permite julgar qual a possível magnitude do erro que estamos cometendo. Daí surge a idéia de construir os intervalos de confiança em torno da estimativa pontual, de modo que esse intervalo tenha uma probabilidade conhecida de conter o verdadeiro valor do parâmetro.

Ao intervalo que, com probabilidade conhecida, deverá conter o valor real do parâmetro chamaremos intervalo de confiança para esse parâmetro. À probabilidade, que designaremos por ( = 1 - (, de que um intervalo de confiança contenha o valor do parâmetro chamaremos nível de confiança ou grau de confiança do respectivo intervalo. Veremos que ( será a probabilidade de erro na estimação por intervalo, isto é, a probabilidade de errarmos ao afirmar que o valor do parâmetro está contido no intervalo de confiança.

Exemplo: A estimativa pontual da média populacional ( será feita por um valor [pic]. Qualquer que seja a amostra, teremos um erro que será [pic] - (. De acordo com o Teorema do Limite Central, teremos

e = [pic],

com [pic]. Daqui podemos determinar qual a probabilidade de conter erros de determinada magnitude. Por exemplo,

Pr( |e| < 1,96 (x ) = 0,95

ou

Pr( |[pic]| < 1,96 (x ) = 0,95

que é equivalente a

Pr( ( - 1,96 (x < X < ( + 1,96 (x ) = 0,95 (I)

Está afirmação probabilística pode ser escrita do seguinte modo:

Pr( X - 1,96 (x < ( < X + 1,96 (x ) = 0,95 (II)

Convém lembrar que ( não é uma variável aleatória mas um parâmetro, e a expressão (II) deve ser interpretada do seguinte modo: construídos todos os intervalos da forma [pic], 95% deles conterão o parâmetro (.

Intervalo de confiança para ( com (2 = [pic] conhecido

O intervalo de confiança para ( com 100( % de confiança é dado por:

I.C.(( : () = [pic],

com Pr(Z < - z) = Pr(Z > z) = [pic].

Intervalo de confiança para ( com (2 desconhecido

O intervalo de confiança para ( com 100( % de confiança é dado por:

I.C.(( : () = [pic],

com Pr(t(n-1) < - t) = Pr(t(n-1) > t) = [pic].

Intervalo de confiança para proporção

Vamos obter um intervalo de confiança para p. Sabemos que

X = número de sucessos nas n provas de Bernoulli, então X tem uma distribuição aproximadamente normal, com média ( = np e variância

(2 = np(1-p). Consequentemente,

[pic] ~ N(0; 1),

ou ainda,

[pic] ~ N(0; 1).

Assim, se ( = 0,95, temos que:

Pr(-1,96 ( Z ( 1,96) = 0,95,

ou seja,

[pic]= 0,95.

Portanto, com probabilidade 0,95, temos que

[pic],

do que segue

[pic].

que é um intervalo de confiança para p com nível de confiança de 95%.

Vamos obter um intervalo de confiança para p, com um coeficiente de confiança ( qualquer, 0 < ( < 1. Para isso, usamos [pic] como estimador de p(1-p). Então, o intervalo fica

[pic],

onde z é tal que Pr(Z < -z) = Pr(Z > z) = [pic].

Exemplo: Suponha que em n = 400 provas obtemos k = 80 sucessos. Vamos obter um intervalo de confiança para p, com ( = 0,90.

Solução:

Neste caso, [pic] e [pic], então, o intervalo de confiança, é dado por:

[pic] = 0,2 ( 0,033,

ou seja,

IC(p: 90%) = [ 0,167; 0,233].

Acabamos de ver como construir intervalos de confiança para os principais parâmetros populacionais. Em todos os casos, supusemos dado o nível de confiança desses intervalos. Evidentemente, o nível de confiança deve ser fixado de acordo com a probabilidade de acerto que se deseja ter na estimação por intervalo. Sendo conveniente, o nível de confiança pode ser aumentado até tão próximo de 100% quanto se queira, mas isso resultará em intervalos de amplitude cada vez maiores, o que significa perda de precisão na estimação.

É claro que seria desejável termos intervalos com alto nível de confiança e pequena amplitude, o que corresponderia a estimarmos o parâmetro em questão com pequena probabilidade de erro e grande precisão. Isso, porém, requer uma amostra suficientemente grande, pois, para n fixo, confiança e precisão variam em sentido opostos.

EXERCÍCIOS

1) Registraram-se os valores 0.28, 0.30, 0.27, 0.33, 0.31 segundos, obtidos em 5 medições de tempo de reação de um indivíduo a um certo estímulo. Determine os limites de confiança de :

a) 95%

b) 99% para o tempo real de reação.

2) O fabricante de uma droga medicinal declarou que ela era 90% eficaz em curar uma alergia, em um período de 8 horas. Em uma amostra de 200 pessoas que tinham a alergia, a droga curou 160 pessoas. Determinar se a declaração do fabricante é legítima.

TESTE DE HIPÓTESES

A teoria geral da construção e análise de testes de hipóteses é um capítulo muito importante da Estatística Matemática. Seus fundamentos teóricos foram desenvolvidos por Neyman e Pearson, e o método usual de obtenção de testes é o método da razão de verossimilhança.

Vamos supor que exista uma hipótese, a qual será considerada válida até prova em contrário, referente a um dado parâmetro da população. Essa hipótese será testada com base em resultados amostrais, sendo aceita ou rejeitada, conforme veremos a seguir.

Sob diversos aspectos, o problema dos testes de hipóteses é o oposto ao da estimação, mas, há também vários pontos que são comuns aos dois casos. A estimação é feita com base em uma variável convenientemente escolhida, função dos elementos da amostra, denominada estimador. Nos problemas de teste de hipóteses, nossas conclusões baseiam-se em variáveis calculadas a partir da amostra ou amostras disponíveis. Os mesmos critérios para a escolha de bons estimadores, em problemas de estimação, vão agora nos orientar na escolha da variável de teste adequada. Por exemplo, vimos que a média amostral [pic] é o estimador da média populacional (. Então, pelas mesmas razões, se desejarmos testar uma hipótese referente ao verdadeiro valor da média ( da população, a variável de teste mais adequada será [pic].

Conceitos Fundamentais

Consideremos uma amostra (X1, X2, ..., Xn) de uma variável aleatória que descreve uma característica de interesse de uma população. Seja [pic]um estimador (uma estatística) de um parâmetro ( dessa população.

Hipótese nula e Hipótese alternativa

Uma hipótese estatística, que denotaremos por H, é qualquer afirmação sobre a população em estudo. Em geral, o que nos interessa são as afirmações sobre os parâmetros da população.

Usualmente, vamos decidir entre duas hipóteses, uma sendo bastante específica a respeito do valor do parâmetro, chamada de hipótese nula e denotada por H0; e a segunda fornecendo uma alternativa mais geral, chamada de hipótese alternativa e denotada por H1.

Suponha, por exemplo, que desejamos testar a afirmação de que o parâmetro ( da população é igual a um valor (0. Neste caso, as hipótese são dadas por:

H0 : ( = (0 vs H1 : ( ( (0

ou

H0 : ( = (0 vs H1 : ( > (0

ou ainda

H0 : ( = (0 vs H1 : ( < (0

dependendo das informações que o problema traz.

Erros Tipo I e Tipo II

A hipótese nula, H0, pode ser falsa ou verdadeira. Entretanto, o processo de sua rejeição ou aceitação é diferente daquele usado para provar uma proposição matemática que também ou é falsa ou é verdadeira. Em contraste, há sempre um grau de incerteza na decisão tomada a respeito de uma hipótese estatística. Esse é o preço a ser pago por estarmos trabalhando em uma situação onde a variabilidades é inerente.

Erro tipo I : rejeitar H0 quando esta é verdadeira

Erro tipo II : não rejeitar H0 quando esta é falsa

O esquema a seguir mostra os erros que podemos cometer e suas probabilidades.

| | |Situação específica na população (realidade) |

| | |H0 verdadeira |H0 falsa |

| |aceita H0 |correto |erro tipo II |

|Decisão | |( 1 - ( ) |( ( ) |

| |rejeita H0 |erro tipo I |correto |

| | |( ( ) |( 1 - ( ) |

Região Crítica

A faixa de valores da variável de teste que leva à rejeição de H0 é denominada região crítica (RC) do teste. A faixa restante constitui a região de aceitação.

Esta região é construída de modo que Pr( [pic] ( RC |Ho verdadeira) seja igual a (, um número fixado.

Se o valor observado da estatística pertença a RC, rejeitamos H0; caso contrário, não rejeitamos H0.

Passos para a construção de um teste de hipóteses

Daremos abaixo, uma seqüência que pode ser usada sistematicamente para qualquer teste de hipóteses sobre um parâmetro populacional (.

Passo 1: Definir qual a hipótese nula, H0, a ser testada e qual a hipótese alternativa H1.

Passo 2: Escolher a estatística de teste (estimador) adequada que será usada para julgar a hipótese nula H0.

Passo 3: Escolher o nível de significância ( e estabelecer a região crítica.

Passo 4: Calcular o valor da estatística de teste com base em uma amostra de tamanho n extraída da população.

Passo 5: Rejeitar H0 se o valor calculado da estatística pertencer à região crítica. Não rejeitar H0 se o valor calculado da estatística não pertencer à região crítica.

Veremos a seguir, algumas situações de testes mais freqüentes.

Teste sobre a média de uma população normal

É conveniente lembrar que todos os testes de médias que serão vistos aqui, pressupõem a normalidade da distribuição amostral da variável [pic]. Esta suposição será rigorosamente válida se a distribuição da população for normal e a amostragem aleatória, e será válida, em geral, se a amostra for suficientemente grande.

A média de uma população é uma de suas características mais importantes. Assim sendo, é comum desejarmos tomar decisões a seu respeito. Veremos agora quais são os testes a serem usados para a seguintes hipóteses:

H0 : ( ( (0 ou ( = (0 vs H1 : ( < (0

ou

H0 : ( ( (0 ou ( = (0 vs H1 : ( > (0

ou ainda

H0 : ( = (0 vs H1 : ( ( (0

As duas primeiras situações definem os chamados testes unilaterais, por que a região rejeição está somente em uma das caudas da distribuição. A última situação define os testes bilaterais, no qual a região de rejeição se distribui igualmente em ambas as caudas da distribuição.

Testes para a média com (2 desconhecido

É muito freqüente, na prática, o caso em que desejamos testar hipóteses referentes à média da população cuja variância nos é desconhecida. A exemplo do que foi feito na construção de intervalos de confiança, utilizamos um estimador não-viesado da variância (2, isto é, estimamos (2 pela variância amostral S2, e obtemos a estatística :

[pic]

a qual tem distribuição t - student com n -1 graus de liberdade.

A tabela abaixo resume o procedimento a ser seguido:

|Hipóteses |Teste |

|H0 : ( ( (0 vs H1 : ( < (0 |rejeita H0 se, Tn-1 < -tn-1,( |

|H0 : ( ( (0 vs H1 : ( > (0 |rejeita H0 se, Tn-1 > tn-1,( |

|H0 : ( = (0 vs H1 : ( ( (0 | rejeita H0 se, |Tn-1|> [pic] |

EXERCÍCIOS

1) Um teste de resistência a ruptura feito em seis cabos acusou resistência média de 3530 Kg com desvio-padrão de 66 Kg. O fabricante afirma que seu produto tem resistência média de 3650 Kg. Pode-se justificar a alegação do fabricante, ao nível de significância ( = 5% ?

2) Uma máquina automática de encher pacotes de café enche-os segundo uma distribuição normal, com média ( e variância S2 = 400 g2. O valor de ( pode ser fixado num mostrador situado numa posição um pouco inacessível da máquina. A máquina foi regulada para ( = 500g. Desejamos, de meia em meia hora, colher uma amostra de 16 pacotes e verificar se a produção está sob controle, isto é, se ( = 500 g ou não. Se uma dessas amostras apresentasse uma média [pic] = 492 g, você pararia ou não a produção para verificar se o mostrador está na posição correta? Considere ( = 5%.

Teste para Proporção

Tratemos agora do teste de uma proporção a partir do seguinte exemplo:

Suponha que a General Eletric receba regularmente carregamentos de unidades de refrigeração para instalar em suas geladeiras e que nos últimos 18 meses apenas 2% dessas unidades tiveram de ser substituídas. Entretanto, quando o fornecedor mudou a sua produção para uma nova fábrica, a General Eletric começou a suspeitar que a qualidade dessas unidades havia se deteriorado. Portanto, eles retiraram uma amostra de 500 unidades do carregamento seguinte e encontraram 21 unidades com defeito. Verifique se realmente a qualidade das unidades de refrigeração se deteriorou.

Ho: P = 0,02 X H1: P > 0,02

[pic]

O p-valor associado à 2,45 na tabela normal padrão é equivalente a 0,007, ou seja, o p-valor é bem pequeno o que indica que a hipótese nula deve ser rejeitada em favor da hipótese alternativa. Assim, existem evidências para crermos que os novos lotes de unidades de refrigeração estão com a qualidade deteriorada.

EXERCÍCIO:

1) O quanto ajudam os cintos de segurança? Para responder esta pergunta, um estudo foi desenvolvido pelo Departamento de Transportes dos Estados Unidos em 1981. Uma amostra de 10.000 veículos equipados com cinto de segurança de 3 pontos e que se envolveram em acidentes foi obtida. Observe abaixo o resultado obtido:

|Ferimentos graves |Utilização do cinto de segurança | |

|ou fatais |Sim |Não |Total |

|Sim |3 |119 |122 |

|Não |829 |9.049 |9.878 |

|Total |832 |9.168 |10.000 |

Teste a hipótese de que os cintos de segurança são eficientes na prevenção de acidentes de trânsito.

VI - ANÁLISE DE REGRESSÃO E CORRELAÇÃO

REGRESSÃO SIMPLES

Em muitas áreas da investigação científica, a variação em observações experimentais de uma variável é causada por um grande extensão de outras variáveis. É possível, através de procedimentos estatísticos, explorar a natureza do relacionamento entre estas variáveis.

A Análise de Regressão é a área da Estatística que trata da formulação de modelos matemáticos que espelham relações entre variáveis com o objetivo de se fazer predições e outras inferências estatísticas.

Exemplos:

( o gerente de uma empresa está interessado em verificar o relacionamento entre o dinheiro gasto com Propaganda e o correspondente crescimento das vendas.

( Um cientista suspeita que a terapia de radiação causa danos às pessoas dependendo do tempo e da intensidade de exposição.

( O departamento de recursos humanos de uma multinacional geralmente verifica a associação entre o desempenho profissional de seus funcionários e a sua respectiva performance nos testes de avaliação na época de sua seleção.

Suponha que estejamos interessados em estudar o relacionamento entre duas variáveis x e y. A variável x é conhecida como variável independente, cujos valores são muitas vezes controlados pelo pesquisador, enquanto que y é a variável dependente (ou variável resposta) cujos valores estão sujeitos ao acaso. Considere o seguinte exemplo:

|Quantidade de aditivo (x) |x1 |x2 |x3 |... |xn |

|Redução de óxido de Nitrogênio (y) |y1 |y2 |y3 |... |yn |

Plotamos os dados para visualizar o relacionamento entre as variáveis. Se após isto, a relação entre as variáveis x e y for uma reta, podemos considerar que:

yi = ( + ( xi + ei

onde:

( é o intercepto da reta com o eixo y;

( é a inclinação da reta (ou a mudança em y a cada unidade adicional de x);

e é a componente residual que representa todas as demais fontes de variação não explicadas.

Os parâmetros ( e ( do modelo acima são estimados a partir das expressões abaixo:

[pic]

[pic]

São os estimadores de mínimos quadrados.

Considere o conjunto de dados abaixo:

[pic]

A partir da reta estimada podemos plotar o gráfico abaixo:

[pic]

Problemas importantes de Inferência:

• Teste da inclinação (

• Teste do intercepto (

• Predição da resposta média para um certo valor x

Suposições importantes a serem verificadas antes da utilização da técnica

• Relação linear

• Independência dos erros

• Variância constante

• Distribuição Normal

EXERCÍCIO:

Um jornal lista os seguintes preços de carros usados, de um modelo compacto importado, sendo x a idade em anos e y o preço de venda medido em milhares de dólares:

|x |1 |2 |2 |3 |3 |4 |6 |7 |8 |10 |

|y |2.45 |1.8 |2.00 |2.00 |1.70 |1.20 |1.15 |0.69 |0.60 |0.47 |

Plote os dados acima num diagrama e estime a equação de regressão traçando a reta resultante.

REGRESSÃO MÚLTIPLA

Muitas vezes, após criterioso exame do método experimental e do processo de coleta de dados, este pode revelar a existência de outras variáveis causais além de x, que influenciaram a variável resposta y, mas que foram ignoradas na análise de regressão simples. Neste caso deve-se pensar no ajuste de um modelo do tipo:

[pic]

onde

(, (1, (2, (3, ..., (p são os parâmetros a serem estimados

xi1, xi2, xi3, ..., xip são as variáveis independentes que tentarão explicar a variável resposta y.

O método de mínimos quadrados é utilizado aqui com ajuda de pacotes computacionais para estimação dos parâmetros.

ANÁLISE DE CORRELAÇÃO

Pode ocorrer algumas vezes do experimentador ter interesse na quantificação da relação entre duas variáveis, digamos X e Y. O conjunto de dados consistindo de mensurações de X e Y feitas numa amostra de n unidades experimentais pode então ser visto como uma amostra aleatória bivariada do tipo (X1, Y1), (X2, Y2), ..., (Xn, Yn) onde os diferentes pares são independentes. Nesta perspectiva, um estudo da relação entre as variáveis é realizado por Análise de Correlação.

O coeficiente de correlação amostral r é dado por:

[pic]

Observe abaixo alguns exemplos de coeficientes de correlação calculados e seus respectivos diagramas de dispersão:

Propriedades de r

• r deve estar entre –1 e +1

• o valor numérico de r mede o tamanho da relação linear e o seu sinal indica a direção da relação

• r2 é a proporção da variabilidade nos valores de y que é explicada pela reta ajustada por mínimos quadrados

EXERCÍCIO:

É bastante caro medir a altura de árvores dominantes a partir do solo em uma floresta. Um procedimento alternativo consiste em estimar a altura das árvores a partir da opinião de lenhadores treinados (à olho nu). Este procedimento apesar de muito mais barato pode ser que seja bem menos acurado. Para determinar a validade de se utilizar este critério para estimar a altura das árvores, foram feitas as seguintes medições:

Altura de árvores (em pés)

|X (solo) |66 |38 |20 |40 |46 |55 |45 |62 |55 |

|Y (lenhadores) |62 |23 |19 |43 |40 |47 |37 |44 |56 |

|X (solo) |32 |52 |58 |56 |58 |53 |44 |38 |69 |

|Y (lenhadores) |32 |55 |55 |39 |59 |58 |48 |40 |61 |

|X (solo) |40 |38 |53 |54 |56 |57 |58 |44 |

|Y (lenhadores) |45 |41 |47 |44 |51 |58 |56 |47 |

................
................

In order to avoid copyright disputes, this page is only a partial summary.

Google Online Preview   Download

To fulfill the demand for quickly locating and searching documents.

It is intelligent file search solution for home and business.

Literature Lottery

Related searches