EB

Estatı́stica Básica

\(\newcommand{\footnotename}{footnote}\) \(\def \LWRfootnote {1}\) \(\newcommand {\footnote }[2][\LWRfootnote ]{{}^{\mathrm {#1}}}\) \(\newcommand {\footnotemark }[1][\LWRfootnote ]{{}^{\mathrm {#1}}}\) \(\let \LWRorighspace \hspace \) \(\renewcommand {\hspace }{\ifstar \LWRorighspace \LWRorighspace }\) \(\newcommand {\mathnormal }[1]{{#1}}\) \(\newcommand \ensuremath [1]{#1}\) \(\newcommand {\LWRframebox }[2][]{\fbox {#2}} \newcommand {\framebox }[1][]{\LWRframebox } \) \(\newcommand {\setlength }[2]{}\) \(\newcommand {\addtolength }[2]{}\) \(\newcommand {\setcounter }[2]{}\) \(\newcommand {\addtocounter }[2]{}\) \(\newcommand {\arabic }[1]{}\) \(\newcommand {\number }[1]{}\) \(\newcommand {\noalign }[1]{\text {#1}\notag \\}\) \(\newcommand {\cline }[1]{}\) \(\newcommand {\directlua }[1]{\text {(directlua)}}\) \(\newcommand {\luatexdirectlua }[1]{\text {(directlua)}}\) \(\newcommand {\protect }{}\) \(\def \LWRabsorbnumber #1 {}\) \(\def \LWRabsorbquotenumber "#1 {}\) \(\newcommand {\LWRabsorboption }[1][]{}\) \(\newcommand {\LWRabsorbtwooptions }[1][]{\LWRabsorboption }\) \(\def \mathchar {\ifnextchar "\LWRabsorbquotenumber \LWRabsorbnumber }\) \(\def \mathcode #1={\mathchar }\) \(\let \delcode \mathcode \) \(\let \delimiter \mathchar \) \(\def \oe {\unicode {x0153}}\) \(\def \OE {\unicode {x0152}}\) \(\def \ae {\unicode {x00E6}}\) \(\def \AE {\unicode {x00C6}}\) \(\def \aa {\unicode {x00E5}}\) \(\def \AA {\unicode {x00C5}}\) \(\def \o {\unicode {x00F8}}\) \(\def \O {\unicode {x00D8}}\) \(\def \l {\unicode {x0142}}\) \(\def \L {\unicode {x0141}}\) \(\def \ss {\unicode {x00DF}}\) \(\def \SS {\unicode {x1E9E}}\) \(\def \dag {\unicode {x2020}}\) \(\def \ddag {\unicode {x2021}}\) \(\def \P {\unicode {x00B6}}\) \(\def \copyright {\unicode {x00A9}}\) \(\def \pounds {\unicode {x00A3}}\) \(\let \LWRref \ref \) \(\renewcommand {\ref }{\ifstar \LWRref \LWRref }\) \( \newcommand {\multicolumn }[3]{#3}\) \(\require {textcomp}\) \(\newcommand {\intertext }[1]{\text {#1}\notag \\}\) \(\let \Hat \hat \) \(\let \Check \check \) \(\let \Tilde \tilde \) \(\let \Acute \acute \) \(\let \Grave \grave \) \(\let \Dot \dot \) \(\let \Ddot \ddot \) \(\let \Breve \breve \) \(\let \Bar \bar \) \(\let \Vec \vec \) \(\require {mathtools}\) \(\newenvironment {crampedsubarray}[1]{}{}\) \(\newcommand {\smashoperator }[2][]{#2\limits }\) \(\newcommand {\SwapAboveDisplaySkip }{}\) \(\newcommand {\LaTeXunderbrace }[1]{\underbrace {#1}}\) \(\newcommand {\LaTeXoverbrace }[1]{\overbrace {#1}}\) \(\newcommand {\LWRmultlined }[1][]{\begin {multline*}}\) \(\newenvironment {multlined}[1][]{\LWRmultlined }{\end {multline*}}\) \(\let \LWRorigshoveleft \shoveleft \) \(\renewcommand {\shoveleft }[1][]{\LWRorigshoveleft }\) \(\let \LWRorigshoveright \shoveright \) \(\renewcommand {\shoveright }[1][]{\LWRorigshoveright }\) \(\newcommand {\shortintertext }[1]{\text {#1}\notag \\}\) \(\newcommand {\vcentcolon }{\mathrel {\unicode {x2236}}}\) \(\newcommand {\bm }[1]{\boldsymbol {#1}}\) \(\require {cancel}\) \(\newcommand {\firsthdashline }[1][]{\hdashline }\) \(\let \lasthdashline \firsthdashline \) \(\let \cdashline \cline \) \(\require {colortbl}\) \(\let \LWRorigcolumncolor \columncolor \) \(\renewcommand {\columncolor }[2][named]{\LWRorigcolumncolor [#1]{#2}\LWRabsorbtwooptions }\) \(\let \LWRorigrowcolor \rowcolor \) \(\renewcommand {\rowcolor }[2][named]{\LWRorigrowcolor [#1]{#2}\LWRabsorbtwooptions }\) \(\let \LWRorigcellcolor \cellcolor \) \(\renewcommand {\cellcolor }[2][named]{\LWRorigcellcolor [#1]{#2}\LWRabsorbtwooptions }\) \(\newcommand {\tcbset }[1]{}\) \(\newcommand {\tcbsetforeverylayer }[1]{}\) \(\newcommand {\tcbox }[2][]{\boxed {\text {#2}}}\) \(\newcommand {\tcboxfit }[2][]{\boxed {#2}}\) \(\newcommand {\tcblower }{}\) \(\newcommand {\tcbline }{}\) \(\newcommand {\tcbtitle }{}\) \(\newcommand {\tcbsubtitle [2][]{\mathrm {#2}}}\) \(\newcommand {\tcboxmath }[2][]{\boxed {#2}}\) \(\newcommand {\tcbhighmath }[2][]{\boxed {#2}}\)

9.2 Resolução

  • 9.2.1 O intervalo de confiança para o teor médio de zinco \(\mu \) em ppm é dado por:

    \begin{align*} IC_{1-\alpha }(\mu ):& \bar {X} \pm t_{\alpha /2;\nu =99} \dfrac {S}{\sqrt {n}}\\ & =700 \pm 1,984 \times \sqrt {\dfrac {400}{100}}\\ & =700\pm 3,968\\ & =[696,03,\,\, 703,97]. \end{align*}

    Logo, podemos afirmar, com \(95\%\) de confiança, que a verdadeira média \(\mu \) do teor de zinco na constituição química das aves que receberam dieta a base de zinco (suplemento mineral na ração) deve ser um valor entre 696,03 ppm e 703,97 ppm. Como o valor de \(400\) ppm das aves que não recebem a suplementação mineral não pertence ao intervalo de confiança, então podemos dizer que existe um efeito significativo \((P<\)0,05\()\) no teor médio de zinco quando os animais são submetidos a uma dieta com suplementação mineral.

  • 9.2.2 A média e variância amostrais são \(\bar {X}\) \(=\) \(12\) e \(S^2\) \(=\) 13,6, respectivamente. O tamanho da amostra é \(n\) \(=\) \(61\) e os quantis superiores necessários da distribuição \(t\) de Student são \(t_{0,025;\nu =99}\) \(=\) 2,000 e \(t_{0,005;\nu =99}\) \(=\) 2,660. Os intervalos de \(95\%\) e \(99\%\) são:

    \begin{align*} IC_{0,95}(\mu ):& \bar {X} \pm t_{0,025;\nu =60} \dfrac {S}{\sqrt {n}}\\ & =12 \pm 2,000 \times \sqrt {\dfrac {13,6}{61}}\\ & =12\pm 0,94\\ & =[11,06,\,\, 12,94] \end{align*} e

    \begin{align*} IC_{0,99}(\mu ):& \bar {X} \pm t_{0,005;\nu =60} \dfrac {S}{\sqrt {n}}\\ & =12 \pm 2,660 \times \sqrt {\dfrac {13,6}{61}}\\ & =12\pm 1,26\\ & =[10,74,\,\, 13,26]. \end{align*} Verificamos, como esperado pela teoria, que quanto maior o tamanho da amostra, maior é amplitude do intervalo de confiança (menos preciso). Isso se deve ao fato de que com os mesmos recursos (mesma amostra e mesmas estimativas), um aumento da confiança deve proporcionar um aumento da amplitude para que a probabilidade de cobertura maior com uma maior confiança nominal possa ser alcançada. Assim, devemos lembrar que seremos penalizados sempre com um efeito adverso quando possuímos os mesmos recursos, mas queremos garantir uma confiança maior. Por esta razão é que não podemos aumentar o coeficiente de confiança para um número muito próximo de \(100\%\), pois teríamos intervalos de confiança inúteis. Um exemplo seria afirmar que a verdadeira média da produção leiteira é um valor entre \(0\) e \(\infty \) litros, como confiança de \(100\%\). Claro que este é um caso extremado para reforçar a ideia da utilidade do intervalo. Por outro lado, não podemos buscar um intervalo que seja útil, mas com uma confiança muito baixa (próxima de zero).

  • 9.2.3 O total amostral é \(k\) \(=\) \(n\bar {X}\) \(=\) \(10\times \)19,6 \(=\) \(196\). O intervalo exato para \(\mu \) \(=\) \(\lambda \), que explora a relação entre a Poisson e a distribuição gama (ou qui-quadrado), é dado por

    \begin{align*} IC_{1-\alpha }(\mu ): & \left [\lambda _I =\dfrac {\chi ^2_{1-\alpha /2;\,\nu =2k}}{2n},\,\, \lambda _S =\dfrac {\chi ^2_{\alpha /2;\,\nu =2k+2}}{2n}\right ]\\ :&\left [\dfrac {\chi ^2_{0,975;\,\nu =392}}{20},\,\, \dfrac {\chi ^2_{0,025;\,\nu =392+2}}{20}\right ]\\ :&\left [\dfrac {339,0392}{20},\,\, \dfrac {450,8879}{20}\right ]\\ :& [16,9520,\,\,22,5444]. \end{align*}

    O primeiro intervalo baseado em uma aproximação normal é

    \begin{align*} IC_{1-\alpha }(\mu ): & \left [\bar {X}-Z_{0,025} \sqrt {\frac {\bar {X}}{n}},\,\, \bar {X}+Z_{0,025} \sqrt {\frac {\bar {X}}{n}}\right ]\\ :& \left [19,6-1,96\sqrt {\frac {19,6}{10}},\,\, 19,6+1,96 \sqrt {\frac {19,6}{10}}\right ]\\ :& [16,8561,\,\,22,3440]. \end{align*}

    O segundo intervalo baseado em uma aproximação normal é

    \begin{align*} IC_{1-\alpha }(\mu ): & \left [\frac {1}{4}\left (\frac {Z_{0,025}}{\sqrt {n}}- \sqrt {\frac {Z_{0,025}^2}{n}+4\bar {X}}\right )^2,\,\, \frac {1}{4}\left (\frac {Z_{0,025}}{\sqrt {n}}+ \sqrt {\frac {Z_{0,025}^2}{n}+4\bar {X}}\right )^2\right ]\\ :& \left [\frac {1}{4}\left (\frac {1,96}{\sqrt {10}}- \sqrt {\frac {1,96^2}{10}+4\times 19,6}\right )^2,\,\, \frac {1}{4}\left (\frac {1,96}{\sqrt {10}}+ \sqrt {\frac {1,96^2}{10}+4\times 19,6}\right )^2\right ]\\ :& [17,0414,\,\,22,5427]. \end{align*}

    No caso, o intervalo de confiança para a média do número de formigueiros de saúva por 0,5 hectare. Os limites para formigueiro por hectare podem ser obtidos multiplicando por \(2\) os limites anteriormente obtidos em cada caso. Os valores de ambas as aproximações estiveram muito próximas dos limites exatos e podem ser boas alternativas para serem usadas. A segunda aproximação fornece resultados um pouco melhores.

    O intervalo de confiança exato, tomando-se por base a unidade amostral de \(1\) é ha é:

    \begin{align*} IC_{1-\alpha }(\mu ): & [33,9040,\,\, 45,0888]. \end{align*} Assim, temos que o número médio de formigueiros por hectare deve ser um valor entre 33,9040 e 45,0888, com \(95\%\). Se o custo para extinguir um formigueiro, então o custo médio da extinção de todos os formigueiros por hectare é 17,55 reais, com 95% de confiança, deve estar entre 595,01 e 791,31 reais em média por ha. Se são \(100.000\) ha, a empresa deverá realizar um desembolso entre 59,50 e 79,13 milhões, com \(95\%\) de confiança.

  • 9.2.4 Obter os intervalos de confiança aproximados e exato para a média da exponencial. Temos duas aproximações, uma específica para a exponencial e outra, geral, usando o teorema do limite central. A média amostral é \(\bar {X}\) \(=\) 98,3033 obtida a partir da amostra de tamanho \(n=30\). O intervalo exato é:

    \begin{align*} IC_{1-\alpha }(\mu ): & \left [\frac {2n\bar {X}}{\chi ^2_{\alpha /2,\nu =2n}},\,\, \frac {2n\bar {X}}{\chi ^2_{1-\alpha /2;\nu =2n}}\right ]\\ :& \left [\frac {2\times 30\times 98,3033}{83,29767},\, \frac {2\times 30\times 98,3033}{40,48175}\right ]\\ & =\left [70,8087,\, 145,7002\right ]. \end{align*}

    A aproximação normal clássica, usando o teorema do limite central, é:

    \begin{align*} IC_{95\%}(\mu ):& \bar {X} \pm t_{\alpha /2; \nu =n-1} \frac {S}{\sqrt {n}}\\ :& 98,3033\pm 2,04523\times \frac {80,88364}{\sqrt {30}}\\ :& \left [68,1009,\, 128,5058\right ]. \end{align*}

    Finalmente, o intervalo de confiança desenvolvido no Livro é:

    \begin{align*} IC_{1-\alpha }(\mu ): & \left [\frac {\bar {X}\sqrt {n}}{\sqrt {n}+ Z_{\alpha /2}},\,\, \frac {\bar {X}\sqrt {n}}{\sqrt {n}-Z_{\alpha /2}}\right ]\\ :& \left [\frac {98,3033\sqrt {30}}{\sqrt {30}+ 1,96},\,\, \frac {98,3033\sqrt {30}}{\sqrt {30}-1,96}\right ] :& \left [72,3969,\, 153,0820\right ]. \end{align*}

    A aproximação normal clássica foi a que apresentou pior resultado entre as duas aproximações apresentadas. Obviamente em situações reais, se temos uma teoria exata devemos optar sempre ou quase sempre por ela. Pode haver alguma exceção, desde que cientificamente justificado, como, por exemplo, um intervalo de confiança aproximado que retorne intervalos mais curtos e mantenha a confiança nominal para a maioria dos casos em relação aos tamanhos amostrais.

  • 9.2.5 Para os dados do exercício 9.2.3 os intervalos bootstrap são apresentados a seguir:

    .

    Método

    LI LS

    Padrão

    16,7270 22,4808

    Padrão com correção viés

    16,8658 22,3346

    Percentílico

    16,8000 22,8000

    Básico (Hall, 1992)

    16,7000 22,2000

    Correção de Viés

    17,0000 22,7000

    \(t\) de Student

    16,8600 24,8100

    Os resultados foram muito semelhantes, com exceção do limite superior para o intervalo \(t\) de Student. Como os procedimentos são essencialmente computacionais, apresentamos a seguir um programa R com nossa implementação, que contém também códigos dos intervalos do pacote boot do R. Assim, o leitor poderá reproduzir seus próprios resultados, utilizar outras funções e outros conjuntos de dados de seu interesse. Convém enfatizar que o método BCA do R, pacote boot difere do método apresentado, por incorporar uma aceleração da correção de viés. Veja os detalhes em Ferreira (2013).

    # Programa Para Aplicar os ICs bootstrap do capítulo 9
    
    # função para fazer 1 reamostragem bootstrap e retornar uma estimativa
    # est é função do estimador, a: é um artífico-não usado
    bootstrap <- function(a, x, est, ...)
    {
      n   <- length(x)
      xb <- sample(x, n, replace = TRUE)
      est.boot <- est(xb)
      return(est.boot)
    }
    
    # função para obter a distribuição de bootstrap
    distboot <- function(B = 2000, x, est, ...)
    {
      a <- as.matrix(1:B, B, 1)
      result <- apply(a, 1, bootstrap, x, est)
      plot(hist(result))
      return(result)
    }
    
    # Função para obter o erro padrão do estimador de interesse
    serrboot <- function(B = 2000, x, est, ...)
    {
      result <- distboot(B, x, est)
      se.boot <- sd(result)
      est.boot <- est(x)
      return(list(est = est.boot, se = se.boot))
    }
    
    # recebe a amostra original e retorna
    # o intervalo de confiança padrão com ou sem
    # correção de viés
    IC.boot.padrao <- function(B = 2000, x,
                                est, alpha=0.05, CV = TRUE)
    {
      result <- distboot(B, x, est)
      est.boot <- est(x)
      se.boot <- sd(result)
      mean.boot <- mean(result)
      vies.boot <- mean.boot - est.boot
      if (CV == TRUE)
      {
        LI <- est.boot - vies.boot + qnorm(alpha/2)*se.boot
        LS <- est.boot - vies.boot+ qnorm(1-alpha/2)*se.boot
      } else
      {
        LI <- est.boot + qnorm(alpha/2)*se.boot
        LS <- est.boot + vies.boot+ qnorm(1-alpha/2)*se.boot
      }
      return(list(est = est.boot, se =se.boot,
                  Li= LI, Ls = LS))
    }
    
    # recebe a amostra original e retorna
    # o intervalo de confiança percentil
    IC.boot.percent <- function(B = 2000, x, est, alpha=0.05, ...)
    {
      result <- distboot(B, x, est)
      result <- sort(result)
      est.boot <- est(x)
      se.boot <- sd(result)
      k1 <- trunc((B+1)*alpha/2)
      if (k1 <= 0) k1 <- 1
      k2 <- trunc((B+1)*(1-alpha/2))
      LI <- result[k1]
      LS <- result[k2]
      return(list(est = est.boot, se =se.boot,
                  Li= LI, Ls = LS))
    }
    
    # recebe a amostra original e retorna
    # o intervalo de confiança básico de Hall(1992)
    IC.boot.basico <- function(B = 2000, x, est, alpha=0.05)
    {
      result <- distboot(B, x, est)
      result <- sort(result)
      est.boot <- est(x)
      se.boot <- sd(result)
      k1 <- trunc((B+1)*alpha/2)
      if (k1 <= 0) k1 <- 1
      k2 <- trunc((B+1)*(1-alpha/2))
      LI <- 2*est.boot - result[k2]
      LS <- 2*est.boot - result[k1]
      return(list(est = est.boot, se =se.boot,
                  Li= LI, Ls = LS))
    }
    
    # recebe a amostra original e retorna
    # o intervalo de confiança com correção de viés
    IC.boot.BC <- function(B = 2000, x, est, alpha=0.05, ...)
    {
      result <- distboot(B, x, est)
      result <- sort(result)
      est.boot <- est(x)
      se.boot <- sd(result)
      k1 <- sum(result < est.boot) / B
      z0 <- qnorm(k1)
      za2 <- qnorm(alpha/2)
      p1 <- pnorm(2*z0 + za2)
      k1 <- trunc((B+1) * p1)
      if (k1 <= 0) k1 <- 1
      z1a2 <- qnorm(1-alpha/2)
      p2 <- pnorm(2*z0 + z1a2)
      k2 <- trunc((B+1) * p2)
      LI <- result[k1]
      LS <- result[k2]
      return(list(est = est.boot, se =se.boot,
                  Li= LI, Ls = LS))
    }
    
    # Exexmplo Livro 9.1.5
    #x <- c(391.1, 98.3, 197.3, 77.5, 26.5,
    #         92.4, 30.3, 199.8, 99.9, 31.2,
    #         32.2, 78.7, 16.7, 55.4, 213.3,
    #         164.7, 37.1, 15.2, 41.7, 201.9,
    #         56.8, 96.5, 38.0, 104.1, 78.5,
    #         35.0, 95.8, 108.2, 78.6, 156.4)
    x <- c(20, 16, 24, 18, 23,
         19, 16, 14, 16, 30)
    # função para a média
    B <- 2000
    alpha = 0.05
    est.media <- function(x) mean(x)
    alpha = 0.05
    est <- est.media
    IC.boot.padrao(B, x, est, alpha, FALSE)
    IC.boot.padrao(B, x, est, alpha)
    IC.boot.percent(B, x, est, alpha)
    IC.boot.basico(B, x, est, alpha)
    IC.boot.BC(B, x, est, alpha)
    
    # Usando as funções do R
    library(boot) # necessita de estar instalada esta biblioteca
    samplemean <- function(x, d) {
      m <- mean(x[d])
      n <- length(d)
      v <- (n-1) * var(x[d]) / n^2
      return(c(m, v))
    }
    ICboot2 <- boot(x, samplemean, R = 1999)
    boot.ci(ICboot2, conf = 0.95,
            type = c("norm","basic", "perc", "bca", "stud"))
    print(sd(ICboot2$t[,1]))
    
  • 9.2.6 A hipótese de interesse é dada por:

    \begin{align*} H_0:\, \mu =& 3,21 &\textrm { vs }&& H_1:\, \mu \ne & 3,21. \end{align*}

    A média e a variância amostrais são

    \begin{align*} \bar {X}=& 3,10 &\textrm { e }&& S^2=& 0,80, \end{align*} em uma amostra de tamanho \(n=20\) animais. Fixamos o nível nominal de significância em 0,05 e computamos a estatística do teste

    \begin{align*} t_c=& \dfrac {\bar {X}-\mu _0}{\dfrac {S}{\sqrt {n}}} =\dfrac {3,10-3,21}{\sqrt {\dfrac {0,80}{20}}}=-0,55. \end{align*}

    A região crítica (região de rejeição da hipótese nula), sabendo que \(t_{0,025; \nu =19}=\)2,093, é dada por:

    (-tikz- diagram)

    Como o valor de \(t_c\) pertence a região de não rejeição da hipótese, pelo teste \(t\), com \(95\%\) de confiança, a hipótese nula não deve ser rejeitada, ou seja, concluímos que o phlorizin não possui média de glicose diferente da média dos animais não tratados, não tendo efeito na média da glicose arterial dos animais.

  • 9.2.7 Se os dados são Poisson \((\lambda )\), então sabemos que a soma das \(n\) variáveis de uma amostra aleatória é Poisson também com parâmetros \(n\lambda \). Se usarmos a relação da Poisson com a gama, temos

    \begin{align*} F_X(x;\lambda ) =& 1-I_{\lambda }(x+1), \end{align*} em que \(F_X(x;\lambda )\) é a função de distribuição de uma variável \(X\) \(\sim \) Poisson\((\lambda )\) e \(I_{\lambda }(x+1)\) é a função de distribuição de uma gama com parâmetro \(x+1\) avaliada em \(\lambda \), ou seja, \(G(\lambda ; x+1)\), em que \(G\) é a função de distribuição da gama.

    Assim, podemos aplicar o teste requisitado de duas formas.Primeiro, se realizarmos o intervalo de confiança de \(95\%\) exato para a média da Poisson, que no caso é [3,98, 5,97] e avaliarmos se o valor hipotético \(\lambda _0\) está ou não contido no intervalo. No caso, afirmamos, por hipótese, que a média em \(10000\) m\(^2\) é igual a \(121\). Isso equivale a média na área de \(500\) m\(^2\) a um valor médio de 6,05, que é \(\lambda _0\). Assim, como o valor 6,05 não pertence ao intervalo gerado, devemos rejeitar a hipótese nula.

    A segunda alternativa é usar a relação exata acima, entre a Poisson e a gama. O procedimento que devemos fazer segue os seguintes passos (teoria não apresentada no Livro), em que incluímos os resultados do caso específico a cada passo (misturando teoria e prática simultaneamente).

    A hipótese de interesse é dada por:

    \begin{align*} H_0:\, \lambda =& \lambda _0 &\textrm { vs }&& H_1:\, \lambda \ne & \lambda _0, \end{align*} que no caso é

    \begin{align*} H_0:\, \lambda =& 6,05 &\textrm { vs }&& H_1:\, \lambda \ne & 6,05, \end{align*} sendo \(\lambda _0\) \(=\) \(121/20\) \(=\) 6,05. O valor \(20\) refere-se a constante de transformação das áreas de cada unidade amostral de \(500\) m\(^2\) para hectare, \(10000\) m\(^2\).

    Se \(Y\) \(=\) \(\sum _{j=1}^{n} X_i\) é a soma de Poisson, sabemos que, sob \(H_0\), \(Y\) \(\sim \) Pois\((n\lambda _0)\). Assim devemos computar esta soma, que no caso, possui uma realização de \(98\). Se \(H_0\) é verdadeira, devemos rejeitar \(H_0\) se

    \begin{align*} F_Y(y;n\lambda _0)\le \alpha /2 &\textrm { ou }&& 1 - F_Y(y-1;n\lambda _0)\le \alpha /2. \end{align*} Uma alternativa a este critério é utilizarmos o cálculo aproximado do valor-\(p\), usando a relação da Poisson com a gama, por

    \begin{align*} \textrm {valor-}p=& 2\min (1-I_{n\lambda _0}(y+1), I_{n\lambda _0}(y)). \end{align*}

    Para o caso, com \(n=20\) e \(y=98\), temos que o valor-\(p\) \(=\) \(2\min (\)0,0179, 0,9860\()\) \(=\) 0,0358. Assim, no nível nominal de significância \(\alpha \) \(=\) 0,05, devemos rejeitar \(H_0\) e podemos afirmar que a média do número de plantas de bromélia por hectare é inferior a \(121\). Temos que o intervalo de confiança para plantas/ha é dado por [89,6, 119,4] (limites obtido pela multiplicação dos limites do intervalo anterior por \(20\)).

    Fizemos um programa em R para facilitar a aplicação do teste, que é apresentado a seguir:

    # Teste exato para Poisson
    # H_0: lambda = lambda_0
    # sum(x)~sim(nlambda_0) sob H_0
    
    pois.test <- function(x, lambda0)
    {
      n <- length(x)
      y <- sum(x)
      xb <- y / n
      p1 <- 1 - pgamma(n*lambda0, y + 1)
      p2 <- pgamma(n*lambda0, y)
      p.value <- 2 * min(p1, p2)
      return(list(mean = xb, p.value=p.value))
    }
    
    # número de bromélias por 500m2
    # constante de proporcionalidade
    # é 20 (20*x: número por ha)
    x<-c(1, 6, 6, 6, 7,
         2, 7, 6, 6, 3,
         3, 10, 4, 3, 7,
         3, 5, 4, 4, 5)
    pois.test(x, 6.05) # 121/20=6.05
    
  • 9.2.8 Para determinarmos o tamanho amostral para estimar a média \(\mu \) de uma população normal relativa a produtividade com erro de \(200\) kg e \(95\%\) de confiança, precisamos de uma amostral piloto ou de uma estimativa da variância. Neste caso, temos uma estimativa da variância populacional dada por \(S^2\) \(=\) 1,4 \(t^2\)/ha. Assim, devemos resolver de forma interativa a seguinte expressão, sabendo que o erro para mais e para menos em toneladas por hectare é de 0,2 t/ha:

    \begin{align*} n =& \dfrac {S^2t_{\alpha /2; \nu =n-1}^2}{e^2}. \end{align*}

    Começamos com um estimativa inicial de \(n\) qualquer, por exemplo, \(n=10\). Assim, o valor tabelado de \(t\) é \(t_{0,025;\nu =9}\) \(=\) 2,262157. Assim, na primeira iteração temos

    \begin{align*} n =& \dfrac {1,4\times 2,262157^2}{0,2^2}=179,11. \end{align*} Como o valor é diferente do valor anterior \(n=10\), devemos repetir o processo. Assim, arredondamos \(n\) para \(n=179\) e determinamos \(t_{0,025;\nu =178}\) \(=\) 1,973381. Logo, o novo valor de \(n\) é

    \begin{align*} n =& \dfrac {1,4\times 1,973381^2}{0,2^2}=136,2981. \end{align*} Como o valor é diferente do valor anterior \(n=179\), devemos repetir o processo. Assim, arredondamos \(n\) para \(n=136\) e determinamos \(t_{0,025;\nu =135}\) \(=\) 1,977692. Logo, o novo valor de \(n\) é

    \begin{align*} n =& \dfrac {1,4\times 1,977692^2}{0,2^2}=136,8943. \end{align*} Como o valor arredondado 137 é diferente do valor anterior \(n=136\), devemos repetir o processo. Assim, arredondamos \(n\) para \(n=137\) e determinamos \(t_{0,025;\nu =136}\) \(=\) 1,977561. Logo, o novo valor de \(n\) é

    \begin{align*} n =& \dfrac {1,4\times 1,977561^2}{0,2^2}=136,8761. \end{align*} Como o valor arredondo é igual ao valor do passo anterior, temos que o tamanho amostral necessário para estimar a média da produtividade com erro para mais e para menos de 0,2 t/ha e \(95\%\) de confiança é \(n=137\) unidades amostrais.

    Apresentamos o programa em R a seguir para realizarmos automaticamente este processo de forma mais fácil.

    # Function to determine the sample size for
    # estimating mu from normal population with
    # confidence 1-alpha, error margin "e" and
    # estimate of sig^2 (S2)
    SampleSizeEstMu <- function(e, S2, alpha=0.05, n0 = 10)
    {
      it <- 0
      print("Iterações")
      print(c("   It #   ","   t tab.","    n"))
      repeat
      {
        n <- n0
        ta <- qt(1 - alpha/2, n - 1)
        n0 <- (S2 * ta^2 / e^2)
        it <- it + 1
        print(c(it,ta,n0))
        if (abs(n0 - n) < 1)
        {
          n0 <- round(n0)
          break
        }
        if (it >= 1000) break
      }
      return(list(n = round(n0), it = it))
    }
    
    # Example 9.6.8
    e <- 0.2
    s2 <- 1.4
    alpha <- 0.05
    SampleSizeEstMu(e, s2, alpha)
    
  • 9.2.9 Para determinar o tamanho amostral amos usar a fórmula aproximada dada por

    \begin{align*} n=& \dfrac {S^2\left (t_{\beta ;\nu }+t_{\alpha /2;\nu }\right )^2}{\delta ^2}, \end{align*} em que \(\delta \) é a diferença mínima significativa \(\delta \) \(=\) \(|\mu _0-\mu |\). Novamente, como o valor de \(n\) está implicitamente (graus de liberdade dos quantis da distribuição \(t\) de Student), a expressão deve ser resolvida de forma iterativa e para isso devemos considerar um valor inicial qualquer para o tamanho amostral, que no caso será \(n=10\). O valor da estimativa do desvio padrão da população na amostra piloto realizada foi \(s^2\) \(=\) 0,56 t/ha.

    • a) Neste caso temos, \(1-\beta \) \(=\) 0,95, \(1-\alpha \) \(=\) 0,95 e \(\delta \) \(=\) 0,2 t/ha. Temos, com \(n=10\), que \(t_{\beta ;\nu }\) \(=\) \(t_{0,05;9}\) \(=\) 1,833113 e \(t_{\alpha /2;\nu }\) \(=\) \(t_{0,025;9}\) \(=\) 2,262157. Portanto,

      \begin{align*} n=& \dfrac {S^2\left (t_{\beta ;\nu }+ t_{\alpha /2; \nu }\right )^2}{\delta ^2}= \dfrac {0,56^2\left (1,833113+ 2,262157\right )^2}{0,2^2}\\ =& 131,486499 . \end{align*} Como este valor difere do valor inicial \(10\), devemos repetir. Determinamos os novos quantis da distribuição \(t\) e determinamos o novo valor de \(t\) e comparamos com este último. Se houver convergência, na escala inteira, paramos o processo. Caso contrário refazemos o processo. Fizemos isso usando o programa R abaixo. Os resultados (sem arredondamentos) do processo iterativo são:

      .
      Iterações \(t_{\alpha /2; \nu }\) \(t_{\beta ;\nu }\) \(n\)
      1 2,262157 1,833113 131,486499
      2 1,978311 1,656615 103,587477
      3 1,983359 1,659843 104,059687
      4 1,983250 1,659774 104,049534

      Como o valor final arredondo é igual ao valor do passo anterior também arredondado, temos que o tamanho amostral necessário para estimar a média da produtividade com diferença mínima significativa de 0,2 t/ha, \(95\%\) de confiança e poder de \(95\%\) é \(n=104\) unidades amostrais.

      Apresentamos o programa em R a seguir para realizarmos automaticamente este processo de forma mais fácil, como no exercício anterior.

      # Function to determine the sample size for
      # testing H_0: mu = mu_0, considering samples
      # from normal population with
      # confidence 1-alpha, probability of type II error
      # beta, lsd "d" and estimate of sig^2 (S2)
      SampleSizeTestMuBilat <- function(d, S2, alpha=0.05, beta = 0.05, n0 = 10)
      {
        it <- 0
        print("Iterações")
        print(c("   It #   ","   ta ","    tb ","   n"))
        repeat
        {
          n <- n0
          ta <- qt(1 - alpha/2, n - 1)
          tb <- qt(1 - beta, n - 1)
          n0 <- S2 * (ta + tb)^2 / d^2
          it <- it + 1
          print(c(it, ta, tb, n0))
          if (abs(n0 - n) < 0.1)
          {
            n0 <- round(n0)
            break
          }
          if (it >= 1000) break
        }
        return(list(n = round(n0), it = it))
      }
      # Example 9.6.9 (a)
      d     <- 0.2
      S2    <- 0.56^2
      alpha <- 0.05
      beta <- 0.05
      n0    <- 10
      SampleSizeTestMuBilat(d, S2, alpha, beta, n0)
      
    • b) O poder para detectar uma diferença mínima de \(\delta =\)0,1 t/ha com coeficiente de confiança de \(95\%\) e \(n=104\) é obtido por:

      \begin{align*} t_{\beta ;\nu =103} =& \dfrac {\delta \sqrt {n}}{S}-t_{\alpha /2;\nu }= \dfrac {0,1\sqrt {104}}{0,56}-t_{0,025;103}\\ =& \dfrac {0,1\times 10,19804}{0,56}-1,983264\\ =& -0,1621857. \end{align*} Assim, o valor do quantil superior \(\beta \) da distribuição \(t\) é \(t_{\beta ;\nu =103}\) \(=\) \(-\)0,1621857. Para determinarmos \(\beta \), podemos usar o comando do R, \(1-pt(-0.1621857,103)\), que resulta em \(\beta \) \(=\) 0,5642613. Assim o poder é \(1-\beta \) \(=\) 0,4357387, ou seja, o poder equivale a 43,57%. Nesta fórmula usamos uma aproximação, ignorando uma parte de uma expressão, para termos uma solução simplificada. Se não o fizemos e resolvêssemos a expressão completa, teríamos o valor exato do poder dado por 0,4358594, que é muito próximo da solução aproximada. Por isso, não devemos nos preocupar com o uso da aproximação apresentada. Fizemos um programa para facilitar a obtenção por parte do leitor para este caso, que está apresentado a seguir.

      # Function to compute the power of t test for the
      # H_0: mu = mu_0, with d = mu - mu_0.
      PowerTestMuBilat <- function(d, S2, n, alpha=0.05)
      {
        ta <- qt(1 - alpha / 2, n - 1)
        q1 <- -ta - d * sqrt(n) / S2^0.5
        q2 <- ta - d * sqrt(n) / S2^0.5
        powExact <- pt(q1, n - 1) + (1 - pt(q2, n - 1))
        powApprox <- 1 - pt(q2, n - 1)
        return(list(powExact = powExact, powApprox = powApprox))
      }
      # Example 9.6.9 (b)
      d     <- 0.1
      S2    <- 0.56^2
      alpha <- 0.05
      n     <- 104
      PowerTestMuBilat(d, S2, n, alpha)
      
    • c) Para determinarmos a diferença mínima que será detectada com \(90\%\) de poder, coeficiente de confiança de \(95\%\) e \(n=104\) usamos:

      \begin{align*} \delta =& \left (t_{\beta ;\nu }+t_{\alpha /2;\nu }\right ) \dfrac {S}{\sqrt {n}} = \left (1,289825+1,983264\right ) \dfrac {0,56}{\sqrt {104}}\\ =& 0,1797336 \textrm {t/ha.} \end{align*}

      O programa R para facilitar a obtenção deste valor está apresentado a seguir:

      # Function to compute the lsd = d = mu - mu_0 of
      # t test for the H_0: mu = mu_0, with alpha and beta.
      LSDTestMuBilat <- function(S2, n, alpha=0.05, beta = 0.05)
      {
        ta <- qt(1 - alpha / 2, n - 1)
        tb <- qt(1 - beta, n - 1)
        d <- (ta + tb) * S2^0.5 / sqrt(n)
        return(d)
      }
      # Example 9.6.9 (c)
      S2 <- 0.56^2
      alpha <- 0.05
      beta <- 0.10
      n <- 104
      LSDTestMuBilat(S2, n, alpha, beta)
      
  • 9.2.10 Intervalos de confiança para proporções binomiais com \(n\) \(=\) \(500\) e número de sucessos \(y\) \(=\) \(6\). Vamos obter o intervalo exato e todas as aproximações, incluindo a aproximação de Pratt (1968), que é a melhor aproximação conhecida. A estimativa pontual é

    \begin{align*} \hat {p}=&\dfrac {y}{n}=\dfrac {6}{500}=0,0120=1,20\%. \end{align*}

    • a) Intervalo de confiança exato

      O valor dos quantis superiores \(F_{0,025}\) com \(\nu _1\) \(=\) \(2(n-y+1)\) \(=\) \(2(500-6+1)\) \(=\) \(990\) e \(\nu _2\) \(=\) \(2y\) \(=\) \(2\times 6\) \(=\) \(12\) graus de liberdade e \(F_{0,025}\) com \(\nu _1\) \(=\) \(2(y+1)\) \(=\) \(2(6+1)\) \(=\) \(14\) e \(\nu _2\) \(=\) \(2(n-y)\) \(=\) \(2(500-6)\) \(=\) \(988\) graus de liberdade são 2,732611 e 1,878997, respectivamente. O intervalo exato é

      \begin{align*} IC_{1-\alpha }(p):& \left [\dfrac {1}{1+\frac {(n-y+1)F_{0,025;\nu _1 = 990,\nu _2=11}}{y}},\,\, \dfrac {1}{1+\frac {n-y}{(y+1) F_{0,025; \nu _1=14, \nu _2=988}}}\right ]\\ =& \left [\dfrac {1}{1+\frac {(500-6+1)\times 2,732611}{6}},\,\, \dfrac {1}{1+\frac {500-6}{(6+1)\times 1,878997}}\right ]\\ =& [0,004416172,\,\, 0,02593493]\\ =& \left [0,4416172\%,\,\, 2,593493\%\right ]. \end{align*}

    • b) Aproximação normal clássica:

      \begin{align*} IC_{0,95}(p):\,& \hat {p}\pm Z_{\alpha /2} \sqrt {\dfrac {\hat {p}(1-\hat {p})}{n}} = 0,0120 \pm 1,96 \sqrt {\dfrac {0,0120(1 - 0,0120)}{500}}\\ =& [0,2455961\%,\,\, 2,154404\%]. \end{align*}

    • c) Aproximação normal com correção de viés:

      \begin{align*} IC_{0,95}(p):\,&\left \{\begin{array}{c} p_I=\dfrac {y-0,5}{n}-\dfrac {Z_{0,025}}{\sqrt {n}}\sqrt {\dfrac {y-0,5}{n} \left (1-\dfrac {y-0,5}{n}\right )} \\ \\ p_S=\dfrac {y+0,5}{n}+\dfrac {Z_{0,025}}{\sqrt {n}}\sqrt {\dfrac {y+0,5}{n} \left (1-\dfrac {y+0,5}{n}\right )} \end {array} \right .\\ \\ =& \left \{\begin{array}{c} p_I=\dfrac {6-0,5}{500}-\dfrac {1,96}{\sqrt {500}}\sqrt {\dfrac {6-0,5}{500} \left (1-\dfrac {6-0,5}{500}\right )} \\ \\ p_S=\dfrac {6+0,5}{500}+\dfrac {1,96}{\sqrt {500}}\sqrt {\dfrac {6+0,5}{500} \left (1-\dfrac {6+0,5}{500}\right )} \end {array} \right .\\ \\ =& [0,1862279\%,\,\, 2,293375\%]. \end{align*}

    • d) Aproximação normal quadrática sem correção de continuidade:

      \begin{align*} IC_{0,95}(p):\,& \dfrac {y+\frac {Z^2_{0,025}}{2}\pm Z_{0,025}\sqrt {y-\dfrac {y^2}{n}+\dfrac {Z^2_{0,025}}{4}}}{n+Z^2_{0,025}}\\ \\ =& \dfrac {6+\frac {1,96Z^2}{2}\pm 1,96\sqrt {6-\dfrac {6^2}{500} + \dfrac {1,96^2}{4}}}{500 + 1,96^2}\\ \\ =& [0,5510995\%,\,\, 2,593036\%]. \end{align*}

      Se for aplicada a correção de continuidade sugerida, o intervalo obtido é

      \begin{align*} IC_{0,95}(p):\,& [0,4887294\%,\,\, 2,727784\%]. \end{align*}

    • e) Aproximação Poisson:

      \begin{align*} IC_{0,95}(p):\,&\left [\dfrac {\chi ^2_{0,975;\nu =2y}}{2n},\,\, \dfrac {\chi ^2_{0,025;\nu =2(y+1)}}{2n}\right ]= \left [\dfrac {\chi ^2_{0,975;\nu =12}}{2\times 500},\,\, \dfrac {\chi ^2_{0,025;\nu =2(6+1)}}{2\times 500}\right ]\\ =& \left [\dfrac {4,403789}{1000},\,\, \dfrac {26,11895}{1000}\right ]\\ =&[0,4403789\%,\,\, 2,611895\%]. \end{align*}

    • f) Aproximação de Pratt (1968)

      As quantidades \(A\) e \(B\) são, respectivamente:

      \begin{align*} A =& \sqrt {9y(n-y+1)\left (9n+6-Z^2_{0,025}\right )+n+1}\\ =& \sqrt {9\times 6\times (500-6+1)\left (9\times 500+6-1,96^2\right )+500+1}= 10968,8864,\\ B =& \sqrt {9(y+1)(n-y)\left (9n+6-Z^2_{0,025}\right )+n+1}\\ =& \sqrt {9(6+1)(500-6)\left (9\times 500+6-1,96^2\right )+500+1}=11835,77446. \end{align*}

      Logo,

      \begin{align*} p_I =& \dfrac {1}{1+\left (\dfrac {y}{n-y+1}\right )^2\left [\dfrac {81y(n-y+1) -9n-8+3Z_{0,025}A}{81y^2-9y\left (2+Z_{0,025}^2\right )+1}\right ]^3}\\ =& \dfrac {1}{1+\left (\dfrac {\scriptstyle 6}{\scriptstyle 500-6+1}\right )^2\left [\dfrac {\scriptstyle 81\times 6(500-6+1)-9\times 500-8+3\times 1,96\times 10968,8864}{\scriptstyle 81\times 6^2-9\times 6\left (2+1,96^2\right )+1}\right ]^3}\\ =&0,00439453595,\\ \\ p_S =& \dfrac {1}{1+\left (\dfrac {y+1}{n-y}\right )^2\left [\dfrac {81(y+1)(n-y) -9n-8-3Z_{0,025}B}{81(y+1)^2-9(y+1)\left (2+Z_{0,025}^2\right )+1}\right ]^3}\\ =& \dfrac {1}{1+\left (\dfrac {\scriptstyle 6+1}{\scriptstyle 500-6}\right )^2\left [\dfrac {\scriptstyle 81(6+1)(500-6) -9\times 500-8-3\times 1,96\times 11835,77446}{\scriptstyle 81\times (6+1)^2-9\times (6+1)\left (2+1,96^2\right )+1}\right ]^3}\\ =& 0,02593523911. \end{align*}

      Portanto, o intervalo de confiança é

      \begin{align*} IC_{0,95}(p):\,& [0,439453595\%,\,\, 2,593523911\%]. \end{align*}

      Conclui-se que a verdadeira proporção de insetos resistentes a um fungo patogênico está entre 0,4416% e 2,5935% com \(95\%\) de confiança. Dentre as aproximações, a de Pratt (1968) e a Poisson são as que mais se aproximaram da exata, com os menores erros relativos. Essa é uma situação para a qual a aproximação Poisson é recomendada, ou seja, quando \(p\) é pequeno e, ainda, com \(n\) grande. A aproximação normal é adequada quando aplicada a uma grande amostra e quando o valor de \(p\) aproxima-se de 0,50, o que não é o caso neste exemplo. e por isso apresentou a menor acurácia entre todas as aproximações. A melhor aproximação normal, que inclusive forneceu boa aproximação para esse caso, é a quadrática, especialmente se for considerada a correção de continuidade. A aproximação de Pratt (1968), em geral, tem boa acurácia para praticamente todas as combinações de \(p\) e \(n\).

    Podemos usar o pacote \(binom\) do R para obter o intervalo exato e a aproximação normal clássica. A função para isso é binom.confint. O programa para estes dois intervalos, mas principalmente pelo intervalo exato é apresentado a seguir. Além destes métodos, outros métodos são apresentados na função binom.confint, os quais deixei comentado no programa, logo abaixo da chamada dela. Nenhum deles, no entanto, referem-se as aproximações do Livro. A distribuição binomial é uma das mais estudadas e, por isso, apresenta tamanha riqueza de aproximações.

    # IC de 95% para proporções, utilizando
    # o pacote binom do R, função binom.confint
    # métodos exato e aproximado
    library(binom)
    n <- 500# definindo o tamanho da amostra
    y <- 6 # definindo o número de sucessos do evento
    CL <- 0.95 # definindo o nível de confiança
    binom.confint(y, n, conf.level = CL,
                   methods = c("exact", "asymptotic"))
    
    # methods = c("exact", "ac", "asymptotic", "wilson",
    #   "prop.test", "bayes", "logit", "cloglog", "probit")
    
  • 9.2.11 Neste exercício reduzimos o nosso problema a um teste binomial. Uma abordagem mais apropriada, que levaria em consideração as frequências de todas as classes fenotípicas seria o teste qui-quadrado (teste de aderência a ser visto posteriormente no Livro). Veja frequências de todo os genótipos na tabela 4.2.7 item (c). No caso, estamos interessados somente na frequência do genótipo \(aabb\), que é \((1-r)^2/4\), em que \(0<r<0,5\) é frequência de recombinação. As frequências desta são compatíveis com o sistema de ligação em atração, como é o caso do presente exemplo. Se os genes são independentes, implica que eles não estão ligados ou não estão no mesmo cromossomo (ou estão numa distância grande no mesmo cromossomo), significa que \(r\) \(=\) 0,5. Assim, a frequência esperada do genótipo na geração \(F_2\) é de \(1/16\) (0,0625). Se considerarmos como sucesso a ocorrência do genótipo \(aabb\), temos probabilidade de sucesso igual a 0,0625 por hipótese (independência gênica). Assim, um teste binomial para esta hipótese nos dará a informação necessária. Vamos utilizar a aproximação normal para isso. Temos \(n=600\) plantas e \(y\) \(=\) \(20\) delas, com o genótipo de halo claro e susceptível.

    As hipóteses nula (\(r\) \(=\) 0,5) e alternativa são:

    \begin{align*} H_0:\, p=& 0,0625 &\textrm { vs }&& H_1:\, p \ne & 0,0625. \end{align*}

    A estimativa pontual da proporção de sucessos (genótipo de halo claro e susceptível) é

    \begin{align*} \hat {p}=\dfrac {y}{n}=\dfrac {20}{89}=600 \end{align*} e a estatística do teste é dada por:

    \begin{align*} Z_c=& \dfrac {\hat {p}-p_0}{\sqrt {\dfrac {p_0(1-p_0)}{n}}}\\ =& \dfrac {0,03333333-0,0625}{\sqrt {\dfrac {0,0625\times (1-0,0625)}{600}}}\\ =& -2,951459. \end{align*}

    A região crítica (de rejeição da hipótese), em cinza, para o teste é dada por:

    (-tikz- diagram)

    Como o valor da estatística calculado \(Z_c\) \(=\) -2,95 pertence a região de rejeição da hipótese, então pelo teste binomial, utilizando a aproximação normal, com aproximadamente \(95\%\) de confiança, devemos rejeitar a hipótese nula de que os genes sejam independentes, ou seja, os genes de cor de halo e resistência à doença estão ligados e, portanto, no mesmo cromossomo. Os melhoristas, muitas vezes, querem halos claros e genótipos resistentes à doença. A ligação dificulta a obtenção de tais genótipos.

  • 9.2.12 A fórmula clássica para determinarmos o tamanho da amostra é

    \begin{align*} n=& \dfrac {Z^2_{\alpha /2}\hat {p}(1-\hat {p})}{e^2}. \end{align*} Esta fórmula exige que se tenha uma estimativa de \(p\). Para isso precisamos de uma amostra piloto, o que não há neste caso. Uma alternativa é usar um valor de \(n\) conservativo, no qual esta expressão é maximizada em relação a \(\hat {p}\). Para isso, a expressão anterior é derivada em relação a \(\hat {p}\), o resultado igualado a \(0\) e após resolvida a equação, temos como solução \(\hat {p}\) \(=\) 0,5. O estudo da segunda derivada comprova que este valor maximiza o valor de \(n\). Assim, a expressão resultante é:

    \begin{align*} n=& \dfrac {Z^2_{\alpha /2}}{4e^2}. \end{align*} Esta expressão será usada no presente exercício. Assim, com \(95\%\) e margem de erro de \(e\) \(=\) 0,05 (não se confunda leitor, não há relação dos \(95\%\) de confiança ou do \(\alpha \) \(=\) \(5\%\) com o valor de \(e\) \(=\) \(5\%\), que no caso é igual ao \(\alpha \)-mera coincidência). Com o valor da confiança temos \(Z_{\alpha /2}\) \(=\) \(Z_{0,025}\) \(=\) 1,96. Assim,

    \begin{align*} n=& \dfrac {1,96^2}{4\times 0,05^2}=384,16\\ =& 385. \quad \textrm {(arredondamento sempre para cima).} \end{align*} Assim, são necessárias \(385\) unidades amostrais para estimarmos a proporção nesta população com \(95\%\) e erro para mais e para menos de \(5\) pontos percentuais. Podemos também usar outra fórmula mais precisa, como as apresentada no Livro.

    Se fixarmos \(e\) e \(1-\alpha \) a única maneira de tentarmos reduzir o tamanho da amostra é utilizarmos a primeira expressão, que depende de uma amostra piloto para podermos estimar \(p\). Entretanto, só haverá redução do tamanho da amostra se a população binomial amostrada tiver um parâmetro \(p\) afastado de 0,5. Assim, como não conhecemos a população, por razões óbvias, não há garantias de que o tamanho amostral seja reduzido caso venhamos a utilizar uma amostra piloto. Veja que \(\hat {p}(1-\hat {p})\) é máximo quando \(\hat {p}\) \(=\) 0,5, cujo valor máximo é 0,25. Se \(\hat {p}\) afasta-se de 0,5, então o valor de \(\hat {p}(1-\hat {p})\) afasta-se de 0,25, reduzindo o valor de \(n\) necessário. Ao utilizar a segunda forma, na pior situação, \(p\) \(=\) 0,5, o \(n\) está determinado de maneira justa. Caso isso não seja verdade, \(n\) está super determinado (amostra maior que a necessária).

  • 9.2.13 Devemos utilizar o intervalo para proporções binomiais inicialmente, que é dado por:

    \begin{align} \label {eb9:eq:gex13a} IC_{1-\alpha }(p):& \left [p_I=\dfrac {1}{1+\delta _1},\,\, p_S=\dfrac {1}{1+\delta _2} \right ], \end{align} em que

    \begin{align*} \delta _1&= \dfrac {(n-s+1)F_{\alpha /2;\nu _1 = 2(n-s+1),\nu _2=2s}}{s} &\textrm { e }&& \delta _2=& \dfrac {n-s}{(s+1) F_{\alpha /2; \nu _1=2(s+1),\nu _2=2(n-s)}}, \end{align*} sendo \(F_{\alpha /2}\) é o quantil superior da distribuição \(F\) com \(\nu _1\) e \(\nu _2\) graus de liberdade. Se \(s = 0\), então \(p_I = 0\) e \(p_S\) deve ser obtido em (9.1); se \(s = n\), então \(p_S = 1\) e \(p_I\) deve ser obtido em (9.1). A quantidade \(s\) significa o número de elementos da amostra aleatória que é menor ou igual a mediana amostral \(m_d\).

    A amostra ordenada é:

    .
    14 16 16 16 18
    19 20 23 24 30

    Assim a mediana amostral é \(m_d\) \(=\) 18,5. O valor \(s\) é dado por \(s\) \(=\) \(5\). Portanto, se utilizarmos a expressão (9.1), temos \(p_I\) \(=\) 0,187086 e \(p_S\) \(=\) 0,812914, usando um coeficiente de \(95\%\). Finalmente, o intervalos de confiança para mediana é obtido por

    \begin{align*} \left \{\begin{array}{ll} X_I =& (1-g_1)X_{(j)}+ g_1X_{(j+1)} \\ \\ X_S =& (1-g_2)X_{(k)}+ g_2X_{(k+1)} \end {array} \right . \end{align*} em que \(j\) \(=\) \(\lfloor np_I \rfloor \), \(g_1\) \(=\) \(np_I\) \(-\) \(j\), \(k\) \(=\) \(\lfloor np_S \rfloor \), \(g_2\) \(=\) \(np_S\) \(-\) \(k\) e \(X_{(0)}\) \(=\) \(X_{(1)}\), caso \(j=0\). No caso, temos \(j\) \(=\) \(\lfloor 10\times 0,187086\rfloor \) \(=\) \(1\), \(g_1\) \(=\) 1,87086\(-1\) \(=\) 0,87086, \(k\) \(=\) \(\lfloor 10\times 0,812914 \rfloor \) \(=\) 8, \(g_2\) 8,12914\(-8\) \(=\) 0,12914. Logo,

    \begin{align*} X_I =& (1-0,87086)X_{(1)}+ 0,87086X_{(1+1)}\\ =& 0,12914\times 14 + 0,87086\times 16 \\ =& 15,7417. \end{align*} Do mesmo modo,

    \begin{align*} X_I =& (1-0,12914)X_{(8)}+ 0,12914X_{(8+1)}\\ =& 0,87086\times 23 + 0,12914\times 24 \\ =& 23,1291. \end{align*}

    O intervalo de \(95\)% de confiança para \(\mu _d\) é [15,74,   23,13]. Fizemos também o intervalo de confiança com correção de viés e o resultado foi [16,   23].

  • 9.2.14 Vamos começar aplicando o teste do sinal. A hipótese de interesse é

    \begin{align*} H_0:\,\, \mu _d=&\mu _{d0}=5,06 &\textrm { versus } && H_0:\,\, \mu _d\ne &5,06. \end{align*} A amostra ordenada é:

    .
    3,51 4,01 5,68 5,84 6,22
    6,24 6,29 6,55 7,88 8,04
    8,35

    Resumo dos sinais obtidos está apresentado a seguir.

    .
    Sinais Frequência
    \(-\)   2
    \(0\)  0
    \(+\) 9

    Logo,

    \[n_t = n^+ + n^- =9+2=11=n\]

    .

    Como \(s = n^+ = 9\) é maior que o valor médio esperado de sinais positivos, \(n_t(1- q)\) \(=\) \(11\times 0,5\) \(=\) 5,5, o valor-\(p\), com \(q\) \(=\) 0,5, é

    \begin{align*} \textrm {valor-}p=& 2P(S\ge s)=2P(S\ge 9)\\ =& 2\sum _{i=s}^{n_t} \binom {n_t}{i}(1-q)^iq^{n_t-i} = 2 \left (\dfrac {1}{2}\right )^{11} \sum _{i=9}^{11} \binom {11}{i}\\ =& \left (\dfrac {1}{2}\right )^{10} \left (55 + 11 +1\right )=\dfrac {67}{1024}=0,06542969. \end{align*}

    Pode ser usada a distribuição \(F\), que apresenta vantagem para grandes valores de \(n_t\), cujo valor calculado, trocando-se \(s\) por \(s-1\) \(=\) \(8\), é

    \begin{align*} F_c=& \dfrac {s+1}{n_t-s}\times \dfrac {q}{1-q}\\ =& \dfrac {8+1}{11-8}\times \dfrac {0,5}{1-0,5}=3. \end{align*} com \(\nu _1=2(11-8)=6\) e \(\nu _2=2(8+1) = 18\) graus de liberdade.

    O seguinte valor-\(p\) encontrado é

    \begin{align*} 2(1-P(F < 3;\nu _1=6,\nu _2=18)) =& 2(1-0,9672852) = 0,06542969. \end{align*}

    Ambos os procedimentos fornecem o mesmo valor-\(p\) (0,06542969), por serem procedimentos equivalentes. Como o valor-\(p\) é maior que \(5\%\) (valor nominal adotado) a hipótese nula não deve ser rejeitada no valor nominal de significância de \(5\%\), ou seja, o teor mediano de gordura do leite da raça amostrada pode ser considerado igual a \(3\%\). O leitor é convidado para considerar \(S\) como sendo o número de valores inferiores a \(m_{d0}\), ou seja, cujo valor observado é \(n^-\) e com \(p\) \(=\) \(q\). Após isto reproduza os resultados deste exemplo e verifique que são essencialmente iguais.

    Na segunda etapa, vamos aplicar o teste do sinal com postos. As hipóteses nula e alternativa são as mesmas apresentada na primeira etapa. Devemos inicialmente computar os postos com sinais, a partir da amostra ordenada anteriormente apresentada. Na tabela a seguir apresentam-se as dez observações com as diferenças \(d_i\)’s, os postos obtidos considerando os valores absolutos dos \(d_i\)’s e os respectivos sinais associados, entre parênteses.

    .
    Observação \((x_i)\) \(d_i=x_i-\mu _{d0}\) (sinal) posto
    3,51 -1,55 \((-)\) 8
    4,01 -1,05 \((-)\) 3
    5,68 0,62 \((+)\) 1
    5,84 0,78 \((+)\) 2
    6,22 1,16 \((+)\) 4
    6,24 1,18 \((+)\) 5
    6,29 1,23 \((+)\) 6
    6,55 1,49 \((+)\) 7
    7,88 2,82 \((+)\) 9
    8,04 2,98 \((+)\) 10
    8,35 3,29 \((+)\) 11

    O número de diferenças não-nulas é \(n_t\) \(=\) \(n\) \(=\) \(11\) e o valor de \(T^+\) é \(t^+\) \(=\) \(1 + 2 + 4+5+6+7+9+10+11\) \(=\) \(55\). Consultando a Tabela A.10 obtêm-se os limites críticos para o teste, considerando \(\alpha \) igual a \(5\%\) e \(n_t=11\). O limite crítico tabelado é \(T^+_{0,975}=10\). O limite crítico superior é obtido por

    \begin{align*} T^+_{\alpha /2}=& \dfrac {n_t\left (n_t+1\right )}{2}-T^+_{1-\alpha /2} = \dfrac {11\times 12}{2}-8=58. \end{align*}

    Como \(t^+ = 55\) está entre os dois limites críticos, então ele pertence à região de não rejeição da hipótese \(H_0\) e, portanto, não existe razão para suspeitar que a quantidade mediana de nitrato de Minas Gerais seja diferente da mediana dos Estados Unidos, considerando a significância nominal de \(5\)%. O resultado concorda com o valor obtido pelo teste do sinal (sem postos).

    Vamos, por fim, apresentar a aproximação normal (sem correção de continuidade) deste último teste. A média e a variância de \(T^+\), sendo que não houve empates, são

    \begin{align*} \mu _{T^+}=& \dfrac {n_t\left (n_t+1\right )}{4}=\dfrac {11\times 12}{4}=33 \\ \textrm { e }&\\ \sigma ^2_{T^+}=& \dfrac {n_t\left (n_t+1\right ) \left (2n_t+1\right )}{24}=\dfrac {11\times 12\times 23}{24} = 126,5. \end{align*}

    O valor da estatística, com correção de continuidade, considerando \(t^+ = 55\), é

    \begin{align*} Z_c=& \dfrac {55-33}{\sqrt {126,5}}=1,956. \end{align*}

    Como \(Z_c\), sem correção de continuidade, está entre os limites críticos normais \(-Z_{0,025}\) \(=\) \(-\)1,96 e \(Z_{0,025}\) \(=\) 1,96, a hipótese nula \(H_0\) não deve ser rejeitada no valor nominal de significância de \(5\%\). O valor-\(p\) é 0,0505, reforçando este resultado. Veja que por muito pouco, a aproximação normal não forneceu resultado diferente do método exato. Este fato ressalta a importância de termos métodos exatos.

  • 9.2.15 Considerando que a distribuição da população seja a normal, sabendo que \(s^2\) \(=\) 1,6, \(n=37\), \(\chi ^2_{0,975;\nu =36}\) \(=\) 21,3359 e \(\chi ^2_{0,025;36}\) \(=\) 54,4373, temos

    \begin{align*} IC_{1-\alpha }\left (\sigma ^2\right ):&\,\,\left [\dfrac {(n-1)S^2}{\chi ^2_{\alpha /2;\nu }}, \,\, \dfrac {(n-1) S^2}{\chi ^2_{1-\alpha /2;\nu }}\right ]\\ :& \left [\dfrac {(36\times 1,6}{54,4373}, \,\, \dfrac {36\times 1,6}{21,3359}\right ]\\ :&\,\,[1,0581,\,\,2,6997]. \end{align*}

    Com \(95\%\) de confiança, a verdadeira variância populacional é um valor contido no intervalo [1,0581, 2,6997]. Como o valor da variância do híbrido simples é 0,6, podemos concluir, com \(95\%\) de confiança, que a variância do híbrido triplo é maior do que a do híbrido simples. Este resultado é esperado, uma vez que a variabilidade de um híbrido simples é meramente de fatores ambientais, enquanto a variância do híbrido triplo contém uma fonte genética de variabilidade, além da fonte ambiental.

  • 9.2.16 Para realizarmos o teste sobre a variância, vamos adotar os seguintes procedimentos. Formulamos as hipóteses nula e alternativa por:

    \begin{align*} H_0:\, \sigma ^2\le & 0,6 &\textrm { vs }&& H_1:\, \sigma ^2 > & 0,6. \end{align*}

    A estatística do teste é calculada utilizando:

    \begin{align*} \chi ^2_c=& \dfrac {(n-1)S^2}{\sigma ^2_0}=\dfrac {36\times 1,6}{0,6}=96. \end{align*}

    A região crítica (de rejeição da hipótese) para o teste é dada por:

    (-tikz- diagram)

    como \(\chi ^2_c=96\) se situa na região de rejeição da hipótese nula, devemos rejeitar a hipótese \(H_0\), considerando o teste de qui-quadrado com \(95\%\) de confiança. Assim, a hipótese de que a variância populacional seja igual ou inferior a 0,6 \(t^2\)/ha deve ser rejeitada e, portanto, o híbrido triplo é mais variável que o híbrido simples. Este é um bom exemplo para mostrar como os testes muitas corroboram nossas teorias. No caso, sabemos que a variação do híbrido simples tem duas origens, as variabilidades ambiental e genética. Já o híbrido simples tem presente somente a fonte de variação ambiental e, portanto, deve apresentar menor variabilidade que o híbrido triplo.

  • 9.2.17 O intervalo modificado de McKay, conforme aclamado por Vangel (1996) como a melhor aproximação, é

    \begin{align*} IC_{1-\alpha }(\kappa ): & \left [\kappa _I,\,\, \kappa _S \right ]. \end{align*} em que

    \begin{align*} \kappa _I =& \dfrac {K}{\sqrt {\left (\dfrac {\chi ^2_{\alpha /2;\nu }+2}{\nu +1}- 1 \right ) K^2+ \dfrac {\chi ^2_{\alpha /2;\nu }}{\nu }}} \end{align*} e

    \begin{align*} \kappa _S =& \dfrac {K}{\sqrt {\left (\dfrac {\chi ^2_{1-\alpha /2;\nu }+2}{\nu +1}- 1 \right )K^2+ \dfrac {\chi ^2_{1-\alpha /2;\nu }}{\nu }}}, \end{align*} em que \(\nu \) \(=\) \(n-1\).

    No presente caso, temos \(K\) \(=\) 0,32 e \(\bar {X}\) \(=\) 0,0307, com \(n=100\). Logo, \(\chi ^2_{\alpha /2;\nu }\) \(=\) \(\chi ^2_{0,025;\nu =99}\) \(=\) 128,422 e \(\chi ^2_{1-\alpha /2;\nu }\) \(=\) \(\chi ^2_{0,975;\nu =99}\) \(=\) 73,361. Assim,

    \begin{align*} \kappa _I =& \dfrac {0,32}{\sqrt {\left (\dfrac {128,422+2}{99+1}- 1 \right ) 0,32^2+ \dfrac {128,422}{99}}}=\dfrac {0,32}{1,152538}\\ =& 0,2776 \end{align*} e

    \begin{align*} \kappa _S =& \dfrac {0,32}{\sqrt {\left (\dfrac {73,361+2}{99+1}- 1 \right ) 0,32^2+ \dfrac {73,361}{99}}}=\dfrac {0,32}{0,8460442}\\ =& 0,3782. \end{align*} Finalmente, o intervalo de \(95\%\) para o coeficiente de variação populacional \(\kappa \) é

    \begin{align*} IC_{0,95}(\kappa ): & \left [0,2776,\,\, 0,3782 \right ]. \end{align*}

  • 9.2.18 Em uma amostra de tamanho \(n=10\) o valor do \(CV\) foi 0,1502. As hipóteses de interesse, nula e alternativa, são

    \begin{align*} H_0:\, \kappa =& 0,05 &\textrm { vs }&& H_1:\, \kappa \ne & 0,05. \end{align*}

    A estatística do teste é calculada utilizando:

    \begin{align*} \chi ^2_c=& \dfrac {\nu K^2 \left [\nu +1+(\nu +1)\kappa _0^2\right ]}{\kappa _0^2 \left (\nu +1 + \nu K^2\right )}, \end{align*} formulada por McKay (1932), modificado por Vangel (1996). Observação importante deve ser feita, pois na edição atual do Livro, a parte \(\nu +1+(\nu +1)\kappa _0^2\) do numerador da expressão da estatística do teste tem um erro, pois em vez de \(\nu +1+(\nu +1)\kappa _0^2\) está incorretamente apresentada por \(\nu +1+(\nu -1)\kappa _0^2\). Logo,

    \begin{align*} \chi ^2_c=& \dfrac {9\times 0,1502^2 \left (9+1+10\times 0,05^2\right )}{0,05^2 \left (9+1 + 9\times 0,1502^2\right )}\\ =& 79,799. \end{align*}

    A região crítica (de rejeição da hipótese) para o teste é dada por: \(\{\chi ^2\le \) 2,700\(\}\cup \{\chi ^2\ge \) 19,023\(\}\). Como \(\chi ^2_c\) \(=\) 79,799 pertence a região de rejeição de \(H_0\), devemos rejeitar a hipótese nula de que o coeficiente de variação dessa espécie não seja diferente ao do clone de referência, apresentando de fato superior a variabilidade relativa a do clone em questão, pelo teste qui-quadrado de McKay (1932) com \(95\%\) de confiança. Veja o gráfico ilustrativo a seguir.

    (-tikz- diagram)