EB

Estatı́stica Básica

Illegal control sequence name for \newcommand

5.2 Resolução

  • 5.2.1 O dendrograma (diagrama de árvore) é:

    (-tikz- diagram)
    (-tikz- diagram)

    O espaço amostral é obtido considerando todos os ramos desse diagrama de árvore e resulta em:

    Ω={(FFF),(FFM),(FMF),(FMM),(MFF),(MFM),(MMF),(MMM)}

    Cada ponto deste é equiprovável, pois as probabilidades de nascimento de fêmea e macho são iguais e cada elemento de Ω tem probabilidade (1/2)3=1/8.

    • a) A distribuição de probabilidade da variável aleatória X, definida como sendo o número de fêmeas, é:

      .
      x 0 1 2 3
      P(X=x) 18 38 38 18

      Por exemplo, a probabilidade P(X=1) é obtida pelo número total de pontos de Ω em que X=1, que no caso é igual a 3, em relação ao número total de pontos, que é igual a 8.

    • b) Os resultados para os eventos solicitados são:

      • i) P(X=2)=38=0,3750=37,50%;

      • ii) Se Y representa o número de machos, o evento Y1 equivale a X2, pois se houver 1 macho na ninhada, isto implica em duas fêmeas; se houver 2 machos, implica em 1 fêmea; e se houver 3 machos, implica em 0 fêmea. Assim, a probabilidade do evento é:

        P(Y1)=P(X2)=P(X=2)+P(X=1)+P(X=0)=38+38+18 =78=0,8750=87,50%;

      • iii) P(X2)=P(X=2)+P(X=3)=38+18= 12=0,50=50%;

      • iv) P(X1)=P(X=1)+P(X=0)=38+18= 12=0,50=50%.

    • c) O número esperado NE de ninhadas de 3 filhotes com exatamente 1 fêmea é dado pelo produto da probabilidade do evento P(X=1) pelo número total de ninhadas, ou seja, é NE=(3/8)×500188 ninhadas. Assim, das 500 esperamos que 188 tenham exatamente 1 fêmea.

  • 5.2.2 Neste caso assumimos que X, definida como o número de fêmeas, possui distribuição binomial com parâmetros n=4 e p=5/8. A probabilidade de sucesso não é 1/2, de acordo com as leis de Mendel, pois há um distúrbio genético na raça. Usualmente usamos a seguinte notação para dizer a mesma coisa que acabamos de explicar: X Binomial(n=4,p=5/8).

    • a) Para obtermos a distribuição de probabilidade de X, podemos utilizar o modelo binomial dado por:

      P(X=x)=(nx)px(1p)nx para x=0, 1, , 4.

      Por exemplo, para a probabilidade P(X=0) temos:

      P(X=x)=(40)(58)0(158)40=1×1×(38)4=0,0198.

      Assim, temos a seguinte distribuição de probabilidades:

      .
      x 0 1 2 3 4
      P(X=x) 0,0198 0,1318 0,3296 0,3662 0,1526
    • b) A média é: μX=np=4×5/8=2,5; e a variância é: σX2=np(1p)=4×(5/8)×(3/8)=0,9375.

    • c) O número esperado NE de ninhadas é dado pelo produto da probabilidade do evento de interesse P(X=x) pelo número total de ninhadas. Por exemplo, para X=0, temos P(X=0)×1.000=0,0198×1.000=19,820 ninhadas com nenhuma fêmea. Os demais valores (arredondados) estão apresentados na tabela a seguir:

      .
      x 0 1 2 3 4
      P(X=x) 0,0198 0,1318 0,3296 0,3662 0,1526
      NE 20 132 330 366 153
  • 5.2.3 Resposta para cada uma das questões:

    • a) O modelo probabilístico adequado é o modelo Poisson, principalmente se pudermos supor que a distribuição das bactérias pela lâmina seja aleatória. Assim, X Poisson(λ=4).

    • b) NE=P(X1)×600. Para obtermos a probabilidade do evento de interesse devemos usar o modelo Poisson dado por:

      P(X=x)=eλλxx!, para x=0, 1, 2, e λ=4.

      Assim, P(X1)=P(X=1)+P(X=0), sendo

      P(X=0)=e4×400!=0,0183 e P(X=1)=e4×411!=0,0733.

      Portanto,

      P(X1)=P(X=0)+P(X=1)=0,0183+0,0733=0,0916=9,16% e o número esperado de quadrados com no máximo 1 bactéria é NE=P(X1)×600= 0,0916×60055.

    • c) P(X>2)=P(X=3)+P(X=4)+. Como esta soma possui um número infinito de termos e sabendo que a soma de todos as probabilidades é igual a 1, então

      P(X>2)=1[P(X=0)+P(X=1)+P(X=2)]=1(0,0183+0,0733+e4×422!)=1(0,0183+0,0733+0,1465)=10,2381=0,7619=76,19%.

    • d) P(X=0)=1,83%.

  • 5.2.4 A ocorrência de doenças por ano pode ser modelada, se for aleatória, pelo modelo Poisson. Assim, X Poisson(λ=X¯^.

    • a) A média é

      X¯=0×55+1×44++5×1120=102120=0,85 doenças/ano.

    • b) O parâmetro λ pode ser estimado por λ^=X¯=0,85. Assim, podemos estimar a distribuição de probabilidade utilizando o modelo Poisson por:

      P(X=x)=e0,85×0,85xx!.

      Para X=0 e X=1, para fins de ilustração, temos:

      P(X=0)=e0,85×0,8500!=0,4274P(X=1)=e0,85×0,8511!=0,3633.

      Estas e as demais probabilidades são apresentadas na tabela seguinte:

      .
      x 0 1 2 3 4 5 6 ou mais
      P(X=x) 0,4274 0,3633 0,1544 0,0437 0,0093 0,0016 0,0003
    • c) A frequência esperada é dada pelo produtos das probabilidades por 120. Logo,

      .
      x 0 1 2 3 4 5 6 ou mais
      P(X=x) 0,4274 0,3633 0,1544 0,0437 0,0093 0,0016 0,0003
      FE 51,29 43,60 18,53 5,24 1,12 0,19 0,04
    • d) Como as frequências observadas e esperadas estão relativamente próximas, podemos considerar que o modelo Poisson é adequado para modelar a ocorrência da doença na região estudada.

  • 5.2.5 Distribuição uniforme discreta entre 21 e 30.

    • a) Como o suporte da variável X, tamanho da amostra, é de SX = {21,22,,30}, temos

      P(X=x)=110, para xSX, e P(X=x)=0, para outros valores de x.

    • b) Se o custo de cada planta é de R$ 1,50, considerando k=10 = |Ω|, e como a média da uniforme é

      E(X)=μX=1ki=1kxi=110(21+22++30)=25,5, então o custo médio semanal é de 1,50× 25,5 = 38,25 unidades monetárias. Se denotarmos o custo por Y e verificarmos que o custo é uma função de X, dada por Y = 1,50X, então E(Y) = 1,5E(X). Daí obtivemos o resultado anterior.

    • c) A variância de X é

      V(X)=σX2=1k[i=1kxi2(i=1kxi)2k]=110(6585255210)=8,25. Como o custo pode ser interpretado por uma transformação de X, dada por Y = 1,54X. Temos que a variância do custo Y é V(Y) = 1,52V(X) = 18,5625.

    • d) Do teorema de Tchebichev temos

      P(μkσ<Xi<μ+kσ)11k2,k>1. Como Xi deve ser substituído pela variável aleatória Y (custo), então temos:

      P(μYkσY<Y<μY+kσY)11k2,k>1. Assim, devemos achar k tal que 11/k20,95, que resulta em k 4,4721. O intervalo almejado é portanto:

      IC0,95(μ):[38,254,4721×18,5625,38,25+4,4721×18,5625][18,9823,57,5177]. Assim, ao menos 95% das semanas terão custos entre 18,98 e 57,52 unidades monetárias.

    • e) A função de distribuição é dada por

      F(x)=xix1k,xRxiSX. Assim, temos

      .
      x 21 22 23 24 25 26 27 28 29 30
      F(x) 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 1,00
  • 5.2.6 Como X é binomial, então μX = np e σX2 = np(1p). Logo:

    • a) Com n=30 e p=0,1 temos μX = 3 e σX2 = 2,70. Assim, para k=1 temos

      P(X<32,7)=P(X<1,36)=P(X=0)+P(X=1)=(300)×0,10×0,930+(301)×0,11×0,929=0,0424+0,1413=0,1837. Para k=2 temos,

      P(X<32×2,7)=P(X<0,28)=0.

    • b) Com n=30 e p=0,5 temos μX = 15 e σX2 = 7,5. Assim, para k=1 temos

      P(X<157,5)=P(X<12,26)=P(X=0)+P(X=1)++P(X=12)=(300)×0,50×0,530+(301)×0,51×0,529++(3012)×0,512×0,518=0,1808. Para k=2 temos

      P(X<152×7,5)=P(X<9,52)=(300)×0,50×0,530+(301)×0,51×0,529++(309)×0,59×0,521=0,0214. Para k=3 temos

      P(X<153×7,5)=P(X<6,78)=(300)×0,50×0,530+(301)×0,51×0,529++(306)×0,56×0,524=0,0007.

    • c) Com n=30 e p=0,9 temos μX = 27 e σX2 = 2,7. Assim, para k=1 temos

      P(X<272,7)=P(X<25,36)=P(X=0)+P(X=1)++P(X=25)=(300)×0,90×0,130+(301)×0,91×0,129++(3025)×0,925×0,15=0,1755. Para k=2 temos

      P(X<272×2,7)=P(X<23,71)=(300)×0,90×0,130+(301)×0,91×0,129++(3023)×0,923×0,17=0,0258.

  • 5.2.7 Supondo que o modelo binomial é apropriado para modelar este caso e que X é número de sementes germinadas em um lote de n=100 com p=0,95 (admitido por hipótese que é o real valor da probabilidade do sucesso), então a probabilidade almejada é: P(X>90). Logo, sob a hipótese de que p=0,95, temos

    P(X>90)=P(X=91)++P(X=100)=(10091)×0,9591×0,059++(100100)×0,95100×0,050=0,9718=97,18%.

    O lote tem uma probabilidade de 97,18% de chance de ser comprado.

    A média e a variância são: μ=np = 95 e σ2=np(1p)=4,75. Podemos expressar o resultado do teorema de Tchebichev por

    P(X>μ+kσ)>11k2. Logo, temos que μ+kσ = 95+4,75k = 90. Logo, temos que o valor absoluto de k é 2,29. Assim, temos

    P(X>90)=112,292=0,8093=80,93%, que é um valor conservador, como esperado pelo resultado do próprio teorema.

  • 5.2.8 A função de probabilidade da hipergeométrica neste caso, com n1=30 e n2=32, é:

    P(X=x)=(n1x)(Nn1n2x)(Nn2)=(30x)(N3030)(N32), para max(0,n2N+n1)xmin(n1,n2), equivalendo a que resulta em max(0,62N)xmin(30,32), que resulta ainda em max(0,62N)x30. No experimento específico, observamos x=2. Logo, o modelo fica

    P(X=2)=(302)(N3030)(N32). Devemos maximizar esta probabilidade em relação a N. Um caminho é fazer isso com uso de uma planilha, considerando vários valores de N.

    Fizemos uma função em R e observamos graficamente que o máximo se dá quando N=479. O gráfico a seguir mostra este gráfico, destacando o ponto de máximo. O programa R que usamos é apresentado logo após o gráfico, tendo sido adaptado da internet.

    (image)

    Programa: adaptado de http://www.sci.csueastbay.edu/~btrumbo/Stat3401/Assign3401/A24.pdf

    r <- 30 # red balls in urn
    k <- 32 # balls drawn
    x <- 2    # red balls drawn
    cand <- ceiling(r*k/x) - 1
    t <- seq(round(.9*cand), round(1.1*cand))
    px <- dhyper(x, r, t-r, k)
    mle <- t[px==max(px)]
    plot(t, px, type="l",ylab = "P(X=x)")
    lines(c(mle,mle),c(max(px),min(px)),col=2)
    mle    # MLE as verified by program
    cand # MLE from theory
    

    A segunda alternativa é direta pelo máximo da função de probabilidade geométrica em relação à N. O valor de n1n2/x = 30×32/2 = 480. Assim, o máximo pode ser dado tanto por 480 quanto por 479. Assim, se calcularmos as probabilidades para estes dois valores, veremos que é maximizado quando N=479. Este programa mesmo possui um erro, pois considera apenas uma possibilidade de máximo com valor inteiro da solução inicial n1n2/x. Um exemplo em que ele falha é com n1=28, n2=32 e x=2. Neste caso o máximo é 476 e a solução do programa é 475, objeto cand.

  • 5.2.9 Se considerarmos que a distribuição do esporo do fungo ocorre de forma aleatória é razoável adotar o modelo Poisson para calcularmos a probabilidade. Assim, se o número médio por cm3 é de 0,05, então em 100 cm3, teremos uma média de 5 esporos. Portanto, se X refere-se ao número de esporos por 100 cm3 de solo, então X Poi(λ=5). As probabilidades solicitadas são:

    • a) P(X=0) = e5×50/0! = 0,0067.

    • b) P(X3) = 1 (P(X=0)+P(X=1)+P(X=2)) = 1 (0,0067+0,0337+0,0842) = 1 0,1247 = 0,8753.

  • 5.2.10 A distribuição do número de falhas X (nascimento de machos) até a ocorrência do primeiro sucesso (nascimento de uma fêmea) em um programa de inseminação artificial é a geométrica cuja função de probabilidade é

    P(X=x)=(1p)xp, para x=0, 1, 2, , com p=0,5. O número de inseminações é portanto Y = X+1.

    • a) Para garantir pelo menos 95% de chance de se obter um sucesso são necessários o nascimento de x macho antes da ocorrência da primeira fêmea, de acordo com a seguinte afirmativa probabilística:

      P(Xx)=P(Xy1)=t=1y(1p)t1p=t=1y0,5t10,5=t=1y0,5t0,95. A soma da direita refere-se a soma de uma progressão geométrica com razão r=1p=0,5 e primeiro termo igual a p=0,5. Logo, esta soma é igual a

      2(1212y+1)=112y.

      Assim,

      112y0,95, cuja solução é

      yln(0,05)ln(2)=4,32. Portanto, são necessários ao menos 5 inseminações para garantir o primeiro sucesso (nascimento de uma fêmea) com pelo menos 95% de probabilidade. Se considerarmos esse mesmo problema, mas com um valor geral de p (0,1), a razão da soma é r=1p e o primeiro termo é p. Consideremos que o valor de 95% seja substituído por uma probabilidade mínima γ, para tornar geral o problema. Logo,

      P(Xx)=P(Xy1)=t=1y(1p)t1pγ. Se denotarmos, ainda, a soma das probabilidades acumuladas até y por Sy, teremos Sy = 1(1p)y. Logo, a solução geral é

      yln(1γ)ln(1p).

    • b) Esperar “até” a terceira tentativa para ter o primeiro sucesso significa que a probabilidade desejada implica ter 2 fracassos antes de nascer a primeira fêmea na terceira tentativa (inseminação) ou 1 fracasso na segunda tentativa ou sucesso na primeira tentativa. Essa probabilidade é dada por

      P(X2)=x=02(1p)xp=(12)012+(12)112+(12)212=0,5000+0,2500+0,1250=87,50%.

  • 5.2.11 Este caso refere-se ao mesmo experimento anterior, porém com a espera de mais de um sucesso em repetições dos ensaios Bernoulli (inseminações). Assim, temos que o modelo adequado é a binomial negativa. A função de probabilidade com r sucessos e probabilidade de sucesso p da variável X referente ao número de fracassos até o r-ésimo sucesso é:

    P(X=x|r)=(x+r1x)pr(1p)x, para x=0, 1, 2, 3, . Temos ainda que p=0,5 é a probabilidade de nascer fêmea em uma inseminação.

    • a) Para se ter segundo sucesso no terceira inseminação, indica que tivemos 1 fracasso, antes de este último sucesso ocorrer. Logo, a probabilidade desejada

      P(X=1|r=2)=(1+211)0,52(10,5)1=0,25=25%.

    • b) Este caso é um pouco mais complexo que o caso da geométrica, pois em nossa soma dos termos das probabilidades acumuladas, não teremos uma progressão geométrica como naquele caso. Assim, a alternativa é computar as probabilidades acumuladas até que o valor mínimo da probabilidade solicitado (no caso 95%) seja alcançado. Portanto, usando um programa para auxilar temos

      P(0|r=3)=(x+r1x)pr(1p)x=(0+310)0,53(10,5)0=0,1250, que não garante o mínimo de 95%. Avançamos para o próximo valor de x e obtivemos

      P(1|r=3)=(0+310)0,53(10,5)0+(1+311)0,53(10,5)1=0,1250+0,1875=0,3125, que, novamente, não garante o mínimo de 95%. Se prosseguirmos com este método veremos que P(X7|r=3)=0,9453125 e P(X8|r=3)=0,9672852. Assim, necessitamos de ao menos 8 fracassos antes do terceiro sucesso. Assim, o número total de inseminações necessárias são r+x = 3+8 = 11 inseminações para garantir com ao menos 95% de chance que o terceiro sucesso (nascimento da terceira fêmea) ocorra.

    • c) O valor esperado (com r=3) é

      μX=r(1p)p=3×(10,5)0,5=3. Assim precisamos de em média 3 fracassos para se ter para se alcançar os três sucessos. Assim, o valor médio de inseminações necessárias é igual a 6.

  • 5.2.12 Este caso, temos a distribuição de uma variável binomial condicionado às condições X1 e X2. Logo, para o primeiro caso

    P(X=x|X1)=P({X=x}{X1})P(X1)=P(X=x)1P(X=0),x=1,2,,n. Assim, considerando uma binomial com n=8 e p=0,5, esta função de probabilidade fica

    P(X=x|X1)=(8x)px(1p(8x)0,9960938,x=1,2,,8. Computamos as probabilidades em cada caso e os resultados são:

    .
    x 1 2 3 4 5 6 7 8
    p(x) 0,0314 0,1098 0,2196 0,2745 0,2196 0,1098 0,0314 0,0039

    Podemos verificar que a soma dos valores em relação ao novo conjunto suporte resulta em 1.

    Para o segundo caso, o procedimento é semelhante:

    P(X=x|X2)=P({X=x}{X2})P(X2)=P(X=x)1P(X1),x=2,3,,8. Assim, esta função de probabilidade é

    P(X=x|X2)=(8x)px(1p(8x)0,9648438,x=2,3,,8. Computamos as probabilidades em cada caso e os resultados são:

    .
    x 2 3 4 5 6 7 8
    p(x) 0,1134 0,2267 0,2834 0,2267 0,1134 0,0324 0,0040
  • 5.2.13 A função de probabilidade da distribuição beta binomial com parâmetros α e β é dado por

    P(X=x)=(nx)Γ(α+β)Γ(α)Γ(β)Γ(x+α)Γ(n+βx)Γ(n+α+β), para x=0, 1, 2, , n. Se considerarmos α = β = 1 temos que Γ(α+β) = Γ(2) = 1, Γ(α) = Γ(β) = 1 e

    Γ(x+α)Γ(n+βx)Γ(n+α+β)=Γ(x+1)Γ(n+1x)Γ(n+2)=x!(nx)!(n+1)!=x!(nx)!(n+1)n!=1n+11(nx). Assim,

    P(X=x)=(nx)111n+11(nx)=1n+1, para x=0, 1, 2, , n e representa a função de probabilidade de uma uniforme discreta com n+1 elementos em seu suporte, como queríamos mostrar.

    A média e a variância são:

    μX=nαα+β e σX2=nαβ(n+α+β)(α+β)2(α+β+1),

    μX=n2 e σX2=n(n+2)12. A média e a variância de uma variável aleatória Y com distribuição uniforme discreta com suporte em SY = {a, a+1, , b1, b} são

    μX=a+b2 e σX2=(ba+1)2112. Se fizermos a=0 e b=n, teremos exatamente as quantidades anteriormente apresentadas, após algumas simplificações algébricas.

  • 5.2.14 Vamos demonstrar a média e a variância da uniforme discreta com suporte SX = {1, 2, , k}. A média

    E(X)=μX=1ki=1kxi=1k(1+2+k)=k(k+1)/2k(soma de uma progressão aritmética)=k+12. A variância é:

    V(X)=σX2=1k[i=1kxi2(i=1kxi)2k]=1k[k33+k22+k6(k(k+1)/2)2k]=1k[k33+k22+k6k34k22k4]=k23+k2+16k24k214=k2112, como queríamos mostrar.

    A segunda parte vamos considerar que os valores do suporte fornecido são resultantes de uma transformação de variáveis Se X é a variável original com suporte entre 1 e k, então Y = X1, é uma variável aleatória com suporte com valores inteiros entre 0 e k1. Usando a linearidade da esperança, temos

    E(Y)=E(X1)=E(X)1=k+121=k12. Para a variância temos:

    V(Y)=V(X1)=V(X)=k2112, pois a variância não se altera quando se subtrai uma constante de uma variável aleatória.