Estatı́stica Básica

\(\newcommand{\footnotename}{footnote}\) \(\def \LWRfootnote {1}\) \(\newcommand {\footnote }[2][\LWRfootnote ]{{}^{\mathrm {#1}}}\) \(\newcommand {\footnotemark }[1][\LWRfootnote ]{{}^{\mathrm {#1}}}\) \(\let \LWRorighspace \hspace \) \(\renewcommand {\hspace }{\ifstar \LWRorighspace \LWRorighspace }\) \(\newcommand {\mathnormal }[1]{{#1}}\) \(\newcommand \ensuremath [1]{#1}\) \(\newcommand {\LWRframebox }[2][]{\fbox {#2}} \newcommand {\framebox }[1][]{\LWRframebox } \) \(\newcommand {\setlength }[2]{}\) \(\newcommand {\addtolength }[2]{}\) \(\newcommand {\setcounter }[2]{}\) \(\newcommand {\addtocounter }[2]{}\) \(\newcommand {\arabic }[1]{}\) \(\newcommand {\number }[1]{}\) \(\newcommand {\noalign }[1]{\text {#1}\notag \\}\) \(\newcommand {\cline }[1]{}\) \(\newcommand {\directlua }[1]{\text {(directlua)}}\) \(\newcommand {\luatexdirectlua }[1]{\text {(directlua)}}\) \(\newcommand {\protect }{}\) \(\def \LWRabsorbnumber #1 {}\) \(\def \LWRabsorbquotenumber "#1 {}\) \(\newcommand {\LWRabsorboption }[1][]{}\) \(\newcommand {\LWRabsorbtwooptions }[1][]{\LWRabsorboption }\) \(\def \mathchar {\ifnextchar "\LWRabsorbquotenumber \LWRabsorbnumber }\) \(\def \mathcode #1={\mathchar }\) \(\let \delcode \mathcode \) \(\let \delimiter \mathchar \) \(\def \oe {\unicode {x0153}}\) \(\def \OE {\unicode {x0152}}\) \(\def \ae {\unicode {x00E6}}\) \(\def \AE {\unicode {x00C6}}\) \(\def \aa {\unicode {x00E5}}\) \(\def \AA {\unicode {x00C5}}\) \(\def \o {\unicode {x00F8}}\) \(\def \O {\unicode {x00D8}}\) \(\def \l {\unicode {x0142}}\) \(\def \L {\unicode {x0141}}\) \(\def \ss {\unicode {x00DF}}\) \(\def \SS {\unicode {x1E9E}}\) \(\def \dag {\unicode {x2020}}\) \(\def \ddag {\unicode {x2021}}\) \(\def \P {\unicode {x00B6}}\) \(\def \copyright {\unicode {x00A9}}\) \(\def \pounds {\unicode {x00A3}}\) \(\let \LWRref \ref \) \(\renewcommand {\ref }{\ifstar \LWRref \LWRref }\) \( \newcommand {\multicolumn }[3]{#3}\) \(\require {textcomp}\) \(\newcommand {\intertext }[1]{\text {#1}\notag \\}\) \(\let \Hat \hat \) \(\let \Check \check \) \(\let \Tilde \tilde \) \(\let \Acute \acute \) \(\let \Grave \grave \) \(\let \Dot \dot \) \(\let \Ddot \ddot \) \(\let \Breve \breve \) \(\let \Bar \bar \) \(\let \Vec \vec \) \(\require {mathtools}\) \(\newenvironment {crampedsubarray}[1]{}{}\) \(\newcommand {\smashoperator }[2][]{#2\limits }\) \(\newcommand {\SwapAboveDisplaySkip }{}\) \(\newcommand {\LaTeXunderbrace }[1]{\underbrace {#1}}\) \(\newcommand {\LaTeXoverbrace }[1]{\overbrace {#1}}\) \(\newcommand {\LWRmultlined }[1][]{\begin {multline*}}\) \(\newenvironment {multlined}[1][]{\LWRmultlined }{\end {multline*}}\) \(\let \LWRorigshoveleft \shoveleft \) \(\renewcommand {\shoveleft }[1][]{\LWRorigshoveleft }\) \(\let \LWRorigshoveright \shoveright \) \(\renewcommand {\shoveright }[1][]{\LWRorigshoveright }\) \(\newcommand {\shortintertext }[1]{\text {#1}\notag \\}\) \(\newcommand {\vcentcolon }{\mathrel {\unicode {x2236}}}\) \(\newcommand {\bm }[1]{\boldsymbol {#1}}\) \(\require {cancel}\) \(\newcommand {\firsthdashline }[1][]{\hdashline }\) \(\let \lasthdashline \firsthdashline \) \(\let \cdashline \cline \) \(\require {colortbl}\) \(\let \LWRorigcolumncolor \columncolor \) \(\renewcommand {\columncolor }[2][named]{\LWRorigcolumncolor [#1]{#2}\LWRabsorbtwooptions }\) \(\let \LWRorigrowcolor \rowcolor \) \(\renewcommand {\rowcolor }[2][named]{\LWRorigrowcolor [#1]{#2}\LWRabsorbtwooptions }\) \(\let \LWRorigcellcolor \cellcolor \) \(\renewcommand {\cellcolor }[2][named]{\LWRorigcellcolor [#1]{#2}\LWRabsorbtwooptions }\) \(\newcommand {\tcbset }[1]{}\) \(\newcommand {\tcbsetforeverylayer }[1]{}\) \(\newcommand {\tcbox }[2][]{\boxed {\text {#2}}}\) \(\newcommand {\tcboxfit }[2][]{\boxed {#2}}\) \(\newcommand {\tcblower }{}\) \(\newcommand {\tcbline }{}\) \(\newcommand {\tcbtitle }{}\) \(\newcommand {\tcbsubtitle [2][]{\mathrm {#2}}}\) \(\newcommand {\tcboxmath }[2][]{\boxed {#2}}\) \(\newcommand {\tcbhighmath }[2][]{\boxed {#2}}\)

9.2 Resolução

9.2.1 O intervalo de confiança para o teor médio de zinco \(\mu \) em ppm é dado por:
\(\seteqnumber{0}{9.}{0}\)
\begin{align*} IC_{1-\alpha }(\mu ):& \bar {X} \pm t_{\alpha /2;\nu =99} \dfrac {S}{\sqrt {n}}\\ & =700 \pm 1,984 \times \sqrt {\dfrac {400}{100}}\\ & =700\pm 3,968\\ & =[696,03,\,\, 703,97]. \end{align*}

Logo, podemos afirmar, com \(95\%\) de confiança, que a verdadeira média \(\mu \) do teor de zinco na constituição química das aves que receberam dieta a base de zinco (suplemento mineral na ração) deve ser um valor entre 696,03 ppm e 703,97 ppm. Como o valor de \(400\) ppm das aves que não recebem a suplementação mineral não pertence ao intervalo de confiança, então podemos dizer que existe um efeito significativo \((P<\)0,05\()\) no teor médio de zinco quando os animais são submetidos a uma dieta com suplementação mineral.
9.2.2 A média e variância amostrais são \(\bar {X}\) \(=\) \(12\) e \(S^2\) \(=\) 13,6, respectivamente. O tamanho da amostra é \(n\) \(=\) \(61\) e os quantis superiores necessários da distribuição \(t\) de Student são \(t_{0,025;\nu =99}\) \(=\) 2,000 e \(t_{0,005;\nu =99}\) \(=\) 2,660. Os intervalos de \(95\%\) e \(99\%\) são:
\(\seteqnumber{0}{9.}{0}\)
\begin{align*} IC_{0,95}(\mu ):& \bar {X} \pm t_{0,025;\nu =60} \dfrac {S}{\sqrt {n}}\\ & =12 \pm 2,000 \times \sqrt {\dfrac {13,6}{61}}\\ & =12\pm 0,94\\ & =[11,06,\,\, 12,94] \end{align*} e
\(\seteqnumber{0}{9.}{0}\)
\begin{align*} IC_{0,99}(\mu ):& \bar {X} \pm t_{0,005;\nu =60} \dfrac {S}{\sqrt {n}}\\ & =12 \pm 2,660 \times \sqrt {\dfrac {13,6}{61}}\\ & =12\pm 1,26\\ & =[10,74,\,\, 13,26]. \end{align*} Verificamos, como esperado pela teoria, que quanto maior o tamanho da amostra, maior é amplitude do intervalo de confiança (menos preciso). Isso se deve ao fato de que com os mesmos recursos (mesma amostra e mesmas estimativas), um aumento da confiança deve proporcionar um aumento da amplitude para que a probabilidade de cobertura maior com uma maior confiança nominal possa ser alcançada. Assim, devemos lembrar que seremos penalizados sempre com um efeito adverso quando possuímos os mesmos recursos, mas queremos garantir uma confiança maior. Por esta razão é que não podemos aumentar o coeficiente de confiança para um número muito próximo de \(100\%\), pois teríamos intervalos de confiança inúteis. Um exemplo seria afirmar que a verdadeira média da produção leiteira é um valor entre \(0\) e \(\infty \) litros, como confiança de \(100\%\). Claro que este é um caso extremado para reforçar a ideia da utilidade do intervalo. Por outro lado, não podemos buscar um intervalo que seja útil, mas com uma confiança muito baixa (próxima de zero).
9.2.3 O total amostral é \(k\) \(=\) \(n\bar {X}\) \(=\) \(10\times \)19,6 \(=\) \(196\). O intervalo exato para \(\mu \) \(=\) \(\lambda \), que explora a relação entre a Poisson e a distribuição gama (ou qui-quadrado), é dado por
\(\seteqnumber{0}{9.}{0}\)
\begin{align*} IC_{1-\alpha }(\mu ): & \left [\lambda _I =\dfrac {\chi ^2_{1-\alpha /2;\,\nu =2k}}{2n},\,\, \lambda _S =\dfrac {\chi ^2_{\alpha /2;\,\nu =2k+2}}{2n}\right ]\\ :&\left [\dfrac {\chi ^2_{0,975;\,\nu =392}}{20},\,\, \dfrac {\chi ^2_{0,025;\,\nu =392+2}}{20}\right ]\\ :&\left [\dfrac {339,0392}{20},\,\, \dfrac {450,8879}{20}\right ]\\ :& [16,9520,\,\,22,5444]. \end{align*}

O primeiro intervalo baseado em uma aproximação normal é
\(\seteqnumber{0}{9.}{0}\)
\begin{align*} IC_{1-\alpha }(\mu ): & \left [\bar {X}-Z_{0,025} \sqrt {\frac {\bar {X}}{n}},\,\, \bar {X}+Z_{0,025} \sqrt {\frac {\bar {X}}{n}}\right ]\\ :& \left [19,6-1,96\sqrt {\frac {19,6}{10}},\,\, 19,6+1,96 \sqrt {\frac {19,6}{10}}\right ]\\ :& [16,8561,\,\,22,3440]. \end{align*}

O segundo intervalo baseado em uma aproximação normal é
\(\seteqnumber{0}{9.}{0}\)
\begin{align*} IC_{1-\alpha }(\mu ): & \left [\frac {1}{4}\left (\frac {Z_{0,025}}{\sqrt {n}}- \sqrt {\frac {Z_{0,025}^2}{n}+4\bar {X}}\right )^2,\,\, \frac {1}{4}\left (\frac {Z_{0,025}}{\sqrt {n}}+ \sqrt {\frac {Z_{0,025}^2}{n}+4\bar {X}}\right )^2\right ]\\ :& \left [\frac {1}{4}\left (\frac {1,96}{\sqrt {10}}- \sqrt {\frac {1,96^2}{10}+4\times 19,6}\right )^2,\,\, \frac {1}{4}\left (\frac {1,96}{\sqrt {10}}+ \sqrt {\frac {1,96^2}{10}+4\times 19,6}\right )^2\right ]\\ :& [17,0414,\,\,22,5427]. \end{align*}

No caso, o intervalo de confiança para a média do número de formigueiros de saúva por 0,5 hectare. Os limites para formigueiro por hectare podem ser obtidos multiplicando por \(2\) os limites anteriormente obtidos em cada caso. Os valores de ambas as aproximações estiveram muito próximas dos limites exatos e podem ser boas alternativas para serem usadas. A segunda aproximação fornece resultados um pouco melhores.

O intervalo de confiança exato, tomando-se por base a unidade amostral de \(1\) é ha é:
\(\seteqnumber{0}{9.}{0}\)
\begin{align*} IC_{1-\alpha }(\mu ): & [33,9040,\,\, 45,0888]. \end{align*} Assim, temos que o número médio de formigueiros por hectare deve ser um valor entre 33,9040 e 45,0888, com \(95\%\). Se o custo para extinguir um formigueiro, então o custo médio da extinção de todos os formigueiros por hectare é 17,55 reais, com 95% de confiança, deve estar entre 595,01 e 791,31 reais em média por ha. Se são \(100.000\) ha, a empresa deverá realizar um desembolso entre 59,50 e 79,13 milhões, com \(95\%\) de confiança.
9.2.4 Obter os intervalos de confiança aproximados e exato para a média da exponencial. Temos duas aproximações, uma específica para a exponencial e outra, geral, usando o teorema do limite central. A média amostral é \(\bar {X}\) \(=\) 98,3033 obtida a partir da amostra de tamanho \(n=30\). O intervalo exato é:
\(\seteqnumber{0}{9.}{0}\)
\begin{align*} IC_{1-\alpha }(\mu ): & \left [\frac {2n\bar {X}}{\chi ^2_{\alpha /2,\nu =2n}},\,\, \frac {2n\bar {X}}{\chi ^2_{1-\alpha /2;\nu =2n}}\right ]\\ :& \left [\frac {2\times 30\times 98,3033}{83,29767},\, \frac {2\times 30\times 98,3033}{40,48175}\right ]\\ & =\left [70,8087,\, 145,7002\right ]. \end{align*}

A aproximação normal clássica, usando o teorema do limite central, é:
\(\seteqnumber{0}{9.}{0}\)
\begin{align*} IC_{95\%}(\mu ):& \bar {X} \pm t_{\alpha /2; \nu =n-1} \frac {S}{\sqrt {n}}\\ :& 98,3033\pm 2,04523\times \frac {80,88364}{\sqrt {30}}\\ :& \left [68,1009,\, 128,5058\right ]. \end{align*}

Finalmente, o intervalo de confiança desenvolvido no Livro é:
\(\seteqnumber{0}{9.}{0}\)
\begin{align*} IC_{1-\alpha }(\mu ): & \left [\frac {\bar {X}\sqrt {n}}{\sqrt {n}+ Z_{\alpha /2}},\,\, \frac {\bar {X}\sqrt {n}}{\sqrt {n}-Z_{\alpha /2}}\right ]\\ :& \left [\frac {98,3033\sqrt {30}}{\sqrt {30}+ 1,96},\,\, \frac {98,3033\sqrt {30}}{\sqrt {30}-1,96}\right ] :& \left [72,3969,\, 153,0820\right ]. \end{align*}

A aproximação normal clássica foi a que apresentou pior resultado entre as duas aproximações apresentadas. Obviamente em situações reais, se temos uma teoria exata devemos optar sempre ou quase sempre por ela. Pode haver alguma exceção, desde que cientificamente justificado, como, por exemplo, um intervalo de confiança aproximado que retorne intervalos mais curtos e mantenha a confiança nominal para a maioria dos casos em relação aos tamanhos amostrais.

9.2.5 Para os dados do exercício 9.2.3 os intervalos bootstrap são apresentados a seguir:


Método	LI	LS
Padrão	16,7270	22,4808
Padrão com correção viés	16,8658	22,3346
Percentílico	16,8000	22,8000
Básico (Hall, 1992)	16,7000	22,2000
Correção de Viés	17,0000	22,7000
\(t\) de Student	16,8600	24,8100

Os resultados foram muito semelhantes, com exceção do limite superior para o intervalo \(t\) de Student. Como os procedimentos são essencialmente computacionais, apresentamos a seguir um programa R com nossa implementação, que contém também códigos dos intervalos do pacote boot do R. Assim, o leitor poderá reproduzir seus próprios resultados, utilizar outras funções e outros conjuntos de dados de seu interesse. Convém enfatizar que o método BCA do R, pacote boot difere do método apresentado, por incorporar uma aceleração da correção de viés. Veja os detalhes em Ferreira (2013).

# Programa Para Aplicar os ICs bootstrap do capítulo 9

# função para fazer 1 reamostragem bootstrap e retornar uma estimativa
# est é função do estimador, a: é um artífico-não usado
bootstrap <- function(a, x, est, ...)
{
  n   <- length(x)
  xb <- sample(x, n, replace = TRUE)
  est.boot <- est(xb)
  return(est.boot)
}

# função para obter a distribuição de bootstrap
distboot <- function(B = 2000, x, est, ...)
{
  a <- as.matrix(1:B, B, 1)
  result <- apply(a, 1, bootstrap, x, est)
  plot(hist(result))
  return(result)
}

# Função para obter o erro padrão do estimador de interesse
serrboot <- function(B = 2000, x, est, ...)
{
  result <- distboot(B, x, est)
  se.boot <- sd(result)
  est.boot <- est(x)
  return(list(est = est.boot, se = se.boot))
}

# recebe a amostra original e retorna
# o intervalo de confiança padrão com ou sem
# correção de viés
IC.boot.padrao <- function(B = 2000, x,
                            est, alpha=0.05, CV = TRUE)
{
  result <- distboot(B, x, est)
  est.boot <- est(x)
  se.boot <- sd(result)
  mean.boot <- mean(result)
  vies.boot <- mean.boot - est.boot
  if (CV == TRUE)
  {
    LI <- est.boot - vies.boot + qnorm(alpha/2)*se.boot
    LS <- est.boot - vies.boot+ qnorm(1-alpha/2)*se.boot
  } else
  {
    LI <- est.boot + qnorm(alpha/2)*se.boot
    LS <- est.boot + vies.boot+ qnorm(1-alpha/2)*se.boot
  }
  return(list(est = est.boot, se =se.boot,
              Li= LI, Ls = LS))
}

# recebe a amostra original e retorna
# o intervalo de confiança percentil
IC.boot.percent <- function(B = 2000, x, est, alpha=0.05, ...)
{
  result <- distboot(B, x, est)
  result <- sort(result)
  est.boot <- est(x)
  se.boot <- sd(result)
  k1 <- trunc((B+1)*alpha/2)
  if (k1 <= 0) k1 <- 1
  k2 <- trunc((B+1)*(1-alpha/2))
  LI <- result[k1]
  LS <- result[k2]
  return(list(est = est.boot, se =se.boot,
              Li= LI, Ls = LS))
}

# recebe a amostra original e retorna
# o intervalo de confiança básico de Hall(1992)
IC.boot.basico <- function(B = 2000, x, est, alpha=0.05)
{
  result <- distboot(B, x, est)
  result <- sort(result)
  est.boot <- est(x)
  se.boot <- sd(result)
  k1 <- trunc((B+1)*alpha/2)
  if (k1 <= 0) k1 <- 1
  k2 <- trunc((B+1)*(1-alpha/2))
  LI <- 2*est.boot - result[k2]
  LS <- 2*est.boot - result[k1]
  return(list(est = est.boot, se =se.boot,
              Li= LI, Ls = LS))
}

# recebe a amostra original e retorna
# o intervalo de confiança com correção de viés
IC.boot.BC <- function(B = 2000, x, est, alpha=0.05, ...)
{
  result <- distboot(B, x, est)
  result <- sort(result)
  est.boot <- est(x)
  se.boot <- sd(result)
  k1 <- sum(result < est.boot) / B
  z0 <- qnorm(k1)
  za2 <- qnorm(alpha/2)
  p1 <- pnorm(2*z0 + za2)
  k1 <- trunc((B+1) * p1)
  if (k1 <= 0) k1 <- 1
  z1a2 <- qnorm(1-alpha/2)
  p2 <- pnorm(2*z0 + z1a2)
  k2 <- trunc((B+1) * p2)
  LI <- result[k1]
  LS <- result[k2]
  return(list(est = est.boot, se =se.boot,
              Li= LI, Ls = LS))
}

# Exexmplo Livro 9.1.5
#x <- c(391.1, 98.3, 197.3, 77.5, 26.5,
#         92.4, 30.3, 199.8, 99.9, 31.2,
#         32.2, 78.7, 16.7, 55.4, 213.3,
#         164.7, 37.1, 15.2, 41.7, 201.9,
#         56.8, 96.5, 38.0, 104.1, 78.5,
#         35.0, 95.8, 108.2, 78.6, 156.4)
x <- c(20, 16, 24, 18, 23,
     19, 16, 14, 16, 30)
# função para a média
B <- 2000
alpha = 0.05
est.media <- function(x) mean(x)
alpha = 0.05
est <- est.media
IC.boot.padrao(B, x, est, alpha, FALSE)
IC.boot.padrao(B, x, est, alpha)
IC.boot.percent(B, x, est, alpha)
IC.boot.basico(B, x, est, alpha)
IC.boot.BC(B, x, est, alpha)

# Usando as funções do R
library(boot) # necessita de estar instalada esta biblioteca
samplemean <- function(x, d) {
  m <- mean(x[d])
  n <- length(d)
  v <- (n-1) * var(x[d]) / n^2
  return(c(m, v))
}
ICboot2 <- boot(x, samplemean, R = 1999)
boot.ci(ICboot2, conf = 0.95,
        type = c("norm","basic", "perc", "bca", "stud"))
print(sd(ICboot2$t[,1]))

9.2.6 A hipótese de interesse é dada por:
\(\seteqnumber{0}{9.}{0}\)
\begin{align*} H_0:\, \mu =& 3,21 &\textrm { vs }&& H_1:\, \mu \ne & 3,21. \end{align*}

A média e a variância amostrais são
\(\seteqnumber{0}{9.}{0}\)
\begin{align*} \bar {X}=& 3,10 &\textrm { e }&& S^2=& 0,80, \end{align*} em uma amostra de tamanho \(n=20\) animais. Fixamos o nível nominal de significância em 0,05 e computamos a estatística do teste
\(\seteqnumber{0}{9.}{0}\)
\begin{align*} t_c=& \dfrac {\bar {X}-\mu _0}{\dfrac {S}{\sqrt {n}}} =\dfrac {3,10-3,21}{\sqrt {\dfrac {0,80}{20}}}=-0,55. \end{align*}

A região crítica (região de rejeição da hipótese nula), sabendo que \(t_{0,025; \nu =19}=\)2,093, é dada por:

Como o valor de \(t_c\) pertence a região de não rejeição da hipótese, pelo teste \(t\), com \(95\%\) de confiança, a hipótese nula não deve ser rejeitada, ou seja, concluímos que o phlorizin não possui média de glicose diferente da média dos animais não tratados, não tendo efeito na média da glicose arterial dos animais.
9.2.7 Se os dados são Poisson \((\lambda )\), então sabemos que a soma das \(n\) variáveis de uma amostra aleatória é Poisson também com parâmetros \(n\lambda \). Se usarmos a relação da Poisson com a gama, temos
\(\seteqnumber{0}{9.}{0}\)
\begin{align*} F_X(x;\lambda ) =& 1-I_{\lambda }(x+1), \end{align*} em que \(F_X(x;\lambda )\) é a função de distribuição de uma variável \(X\) \(\sim \) Poisson\((\lambda )\) e \(I_{\lambda }(x+1)\) é a função de distribuição de uma gama com parâmetro \(x+1\) avaliada em \(\lambda \), ou seja, \(G(\lambda ; x+1)\), em que \(G\) é a função de distribuição da gama.

Assim, podemos aplicar o teste requisitado de duas formas.Primeiro, se realizarmos o intervalo de confiança de \(95\%\) exato para a média da Poisson, que no caso é [3,98, 5,97] e avaliarmos se o valor hipotético \(\lambda _0\) está ou não contido no intervalo. No caso, afirmamos, por hipótese, que a média em \(10000\) m\(^2\) é igual a \(121\). Isso equivale a média na área de \(500\) m\(^2\) a um valor médio de 6,05, que é \(\lambda _0\). Assim, como o valor 6,05 não pertence ao intervalo gerado, devemos rejeitar a hipótese nula.

A segunda alternativa é usar a relação exata acima, entre a Poisson e a gama. O procedimento que devemos fazer segue os seguintes passos (teoria não apresentada no Livro), em que incluímos os resultados do caso específico a cada passo (misturando teoria e prática simultaneamente).

A hipótese de interesse é dada por:
\(\seteqnumber{0}{9.}{0}\)
\begin{align*} H_0:\, \lambda =& \lambda _0 &\textrm { vs }&& H_1:\, \lambda \ne & \lambda _0, \end{align*} que no caso é
\(\seteqnumber{0}{9.}{0}\)
\begin{align*} H_0:\, \lambda =& 6,05 &\textrm { vs }&& H_1:\, \lambda \ne & 6,05, \end{align*} sendo \(\lambda _0\) \(=\) \(121/20\) \(=\) 6,05. O valor \(20\) refere-se a constante de transformação das áreas de cada unidade amostral de \(500\) m\(^2\) para hectare, \(10000\) m\(^2\).

Se \(Y\) \(=\) \(\sum _{j=1}^{n} X_i\) é a soma de Poisson, sabemos que, sob \(H_0\), \(Y\) \(\sim \) Pois\((n\lambda _0)\). Assim devemos computar esta soma, que no caso, possui uma realização de \(98\). Se \(H_0\) é verdadeira, devemos rejeitar \(H_0\) se
\(\seteqnumber{0}{9.}{0}\)
\begin{align*} F_Y(y;n\lambda _0)\le \alpha /2 &\textrm { ou }&& 1 - F_Y(y-1;n\lambda _0)\le \alpha /2. \end{align*} Uma alternativa a este critério é utilizarmos o cálculo aproximado do valor-\(p\), usando a relação da Poisson com a gama, por
\(\seteqnumber{0}{9.}{0}\)
\begin{align*} \textrm {valor-}p=& 2\min (1-I_{n\lambda _0}(y+1), I_{n\lambda _0}(y)). \end{align*}

Para o caso, com \(n=20\) e \(y=98\), temos que o valor-\(p\) \(=\) \(2\min (\)0,0179, 0,9860\()\) \(=\) 0,0358. Assim, no nível nominal de significância \(\alpha \) \(=\) 0,05, devemos rejeitar \(H_0\) e podemos afirmar que a média do número de plantas de bromélia por hectare é inferior a \(121\). Temos que o intervalo de confiança para plantas/ha é dado por [89,6, 119,4] (limites obtido pela multiplicação dos limites do intervalo anterior por \(20\)).

Fizemos um programa em R para facilitar a aplicação do teste, que é apresentado a seguir:
```
# Teste exato para Poisson
# H_0: lambda = lambda_0
# sum(x)~sim(nlambda_0) sob H_0

pois.test <- function(x, lambda0)
{
  n <- length(x)
  y <- sum(x)
  xb <- y / n
  p1 <- 1 - pgamma(n*lambda0, y + 1)
  p2 <- pgamma(n*lambda0, y)
  p.value <- 2 * min(p1, p2)
  return(list(mean = xb, p.value=p.value))
}

# número de bromélias por 500m2
# constante de proporcionalidade
# é 20 (20*x: número por ha)
x<-c(1, 6, 6, 6, 7,
     2, 7, 6, 6, 3,
     3, 10, 4, 3, 7,
     3, 5, 4, 4, 5)
pois.test(x, 6.05) # 121/20=6.05
```
9.2.8 Para determinarmos o tamanho amostral para estimar a média \(\mu \) de uma população normal relativa a produtividade com erro de \(200\) kg e \(95\%\) de confiança, precisamos de uma amostral piloto ou de uma estimativa da variância. Neste caso, temos uma estimativa da variância populacional dada por \(S^2\) \(=\) 1,4 \(t^2\)/ha. Assim, devemos resolver de forma interativa a seguinte expressão, sabendo que o erro para mais e para menos em toneladas por hectare é de 0,2 t/ha:
\(\seteqnumber{0}{9.}{0}\)
\begin{align*} n =& \dfrac {S^2t_{\alpha /2; \nu =n-1}^2}{e^2}. \end{align*}

Começamos com um estimativa inicial de \(n\) qualquer, por exemplo, \(n=10\). Assim, o valor tabelado de \(t\) é \(t_{0,025;\nu =9}\) \(=\) 2,262157. Assim, na primeira iteração temos
\(\seteqnumber{0}{9.}{0}\)
\begin{align*} n =& \dfrac {1,4\times 2,262157^2}{0,2^2}=179,11. \end{align*} Como o valor é diferente do valor anterior \(n=10\), devemos repetir o processo. Assim, arredondamos \(n\) para \(n=179\) e determinamos \(t_{0,025;\nu =178}\) \(=\) 1,973381. Logo, o novo valor de \(n\) é
\(\seteqnumber{0}{9.}{0}\)
\begin{align*} n =& \dfrac {1,4\times 1,973381^2}{0,2^2}=136,2981. \end{align*} Como o valor é diferente do valor anterior \(n=179\), devemos repetir o processo. Assim, arredondamos \(n\) para \(n=136\) e determinamos \(t_{0,025;\nu =135}\) \(=\) 1,977692. Logo, o novo valor de \(n\) é
\(\seteqnumber{0}{9.}{0}\)
\begin{align*} n =& \dfrac {1,4\times 1,977692^2}{0,2^2}=136,8943. \end{align*} Como o valor arredondado 137 é diferente do valor anterior \(n=136\), devemos repetir o processo. Assim, arredondamos \(n\) para \(n=137\) e determinamos \(t_{0,025;\nu =136}\) \(=\) 1,977561. Logo, o novo valor de \(n\) é
\(\seteqnumber{0}{9.}{0}\)
\begin{align*} n =& \dfrac {1,4\times 1,977561^2}{0,2^2}=136,8761. \end{align*} Como o valor arredondo é igual ao valor do passo anterior, temos que o tamanho amostral necessário para estimar a média da produtividade com erro para mais e para menos de 0,2 t/ha e \(95\%\) de confiança é \(n=137\) unidades amostrais.

Apresentamos o programa em R a seguir para realizarmos automaticamente este processo de forma mais fácil.
```
# Function to determine the sample size for
# estimating mu from normal population with
# confidence 1-alpha, error margin "e" and
# estimate of sig^2 (S2)
SampleSizeEstMu <- function(e, S2, alpha=0.05, n0 = 10)
{
  it <- 0
  print("Iterações")
  print(c("   It #   ","   t tab.","    n"))
  repeat
  {
    n <- n0
    ta <- qt(1 - alpha/2, n - 1)
    n0 <- (S2 * ta^2 / e^2)
    it <- it + 1
    print(c(it,ta,n0))
    if (abs(n0 - n) < 1)
    {
      n0 <- round(n0)
      break
    }
    if (it >= 1000) break
  }
  return(list(n = round(n0), it = it))
}

# Example 9.6.8
e <- 0.2
s2 <- 1.4
alpha <- 0.05
SampleSizeEstMu(e, s2, alpha)
```

9.2.9 Para determinar o tamanho amostral amos usar a fórmula aproximada dada por

\begin{align*} n=& \dfrac {S^2\left (t_{\beta ;\nu }+t_{\alpha /2;\nu }\right )^2}{\delta ^2}, \end{align*} em que \(\delta \) é a diferença mínima significativa \(\delta \) \(=\) \(|\mu _0-\mu |\). Novamente, como o valor de \(n\) está implicitamente (graus de liberdade dos quantis da distribuição \(t\) de Student), a expressão deve ser resolvida de forma iterativa e para isso devemos considerar um valor inicial qualquer para o tamanho amostral, que no caso será \(n=10\). O valor da estimativa do desvio padrão da população na amostra piloto realizada foi \(s^2\) \(=\) 0,56 t/ha.

a) Neste caso temos, \(1-\beta \) \(=\) 0,95, \(1-\alpha \) \(=\) 0,95 e \(\delta \) \(=\) 0,2 t/ha. Temos, com \(n=10\), que \(t_{\beta ;\nu }\) \(=\) \(t_{0,05;9}\) \(=\) 1,833113 e \(t_{\alpha /2;\nu }\) \(=\) \(t_{0,025;9}\) \(=\) 2,262157. Portanto,

\begin{align*} n=& \dfrac {S^2\left (t_{\beta ;\nu }+ t_{\alpha /2; \nu }\right )^2}{\delta ^2}= \dfrac {0,56^2\left (1,833113+ 2,262157\right )^2}{0,2^2}\\ =& 131,486499 . \end{align*} Como este valor difere do valor inicial \(10\), devemos repetir. Determinamos os novos quantis da distribuição \(t\) e determinamos o novo valor de \(t\) e comparamos com este último. Se houver convergência, na escala inteira, paramos o processo. Caso contrário refazemos o processo. Fizemos isso usando o programa R abaixo. Os resultados (sem arredondamentos) do processo iterativo são:


Iterações	\(t_{\alpha /2; \nu }\)	\(t_{\beta ;\nu }\)	\(n\)
1	2,262157	1,833113	131,486499
2	1,978311	1,656615	103,587477
3	1,983359	1,659843	104,059687
4	1,983250	1,659774	104,049534

Como o valor final arredondo é igual ao valor do passo anterior também arredondado, temos que o tamanho amostral necessário para estimar a média da produtividade com diferença mínima significativa de 0,2 t/ha, \(95\%\) de confiança e poder de \(95\%\) é \(n=104\) unidades amostrais.

Apresentamos o programa em R a seguir para realizarmos automaticamente este processo de forma mais fácil, como no exercício anterior.

# Function to determine the sample size for
# testing H_0: mu = mu_0, considering samples
# from normal population with
# confidence 1-alpha, probability of type II error
# beta, lsd "d" and estimate of sig^2 (S2)
SampleSizeTestMuBilat <- function(d, S2, alpha=0.05, beta = 0.05, n0 = 10)
{
  it <- 0
  print("Iterações")
  print(c("   It #   ","   ta ","    tb ","   n"))
  repeat
  {
    n <- n0
    ta <- qt(1 - alpha/2, n - 1)
    tb <- qt(1 - beta, n - 1)
    n0 <- S2 * (ta + tb)^2 / d^2
    it <- it + 1
    print(c(it, ta, tb, n0))
    if (abs(n0 - n) < 0.1)
    {
      n0 <- round(n0)
      break
    }
    if (it >= 1000) break
  }
  return(list(n = round(n0), it = it))
}
# Example 9.6.9 (a)
d     <- 0.2
S2    <- 0.56^2
alpha <- 0.05
beta <- 0.05
n0    <- 10
SampleSizeTestMuBilat(d, S2, alpha, beta, n0)

b) O poder para detectar uma diferença mínima de \(\delta =\)0,1 t/ha com coeficiente de confiança de \(95\%\) e \(n=104\) é obtido por:
\(\seteqnumber{0}{9.}{0}\)
\begin{align*} t_{\beta ;\nu =103} =& \dfrac {\delta \sqrt {n}}{S}-t_{\alpha /2;\nu }= \dfrac {0,1\sqrt {104}}{0,56}-t_{0,025;103}\\ =& \dfrac {0,1\times 10,19804}{0,56}-1,983264\\ =& -0,1621857. \end{align*} Assim, o valor do quantil superior \(\beta \) da distribuição \(t\) é \(t_{\beta ;\nu =103}\) \(=\) \(-\)0,1621857. Para determinarmos \(\beta \), podemos usar o comando do R, \(1-pt(-0.1621857,103)\), que resulta em \(\beta \) \(=\) 0,5642613. Assim o poder é \(1-\beta \) \(=\) 0,4357387, ou seja, o poder equivale a 43,57%. Nesta fórmula usamos uma aproximação, ignorando uma parte de uma expressão, para termos uma solução simplificada. Se não o fizemos e resolvêssemos a expressão completa, teríamos o valor exato do poder dado por 0,4358594, que é muito próximo da solução aproximada. Por isso, não devemos nos preocupar com o uso da aproximação apresentada. Fizemos um programa para facilitar a obtenção por parte do leitor para este caso, que está apresentado a seguir.
```
# Function to compute the power of t test for the
# H_0: mu = mu_0, with d = mu - mu_0.
PowerTestMuBilat <- function(d, S2, n, alpha=0.05)
{
  ta <- qt(1 - alpha / 2, n - 1)
  q1 <- -ta - d * sqrt(n) / S2^0.5
  q2 <- ta - d * sqrt(n) / S2^0.5
  powExact <- pt(q1, n - 1) + (1 - pt(q2, n - 1))
  powApprox <- 1 - pt(q2, n - 1)
  return(list(powExact = powExact, powApprox = powApprox))
}
# Example 9.6.9 (b)
d     <- 0.1
S2    <- 0.56^2
alpha <- 0.05
n     <- 104
PowerTestMuBilat(d, S2, n, alpha)
```
c) Para determinarmos a diferença mínima que será detectada com \(90\%\) de poder, coeficiente de confiança de \(95\%\) e \(n=104\) usamos:
\(\seteqnumber{0}{9.}{0}\)
\begin{align*} \delta =& \left (t_{\beta ;\nu }+t_{\alpha /2;\nu }\right ) \dfrac {S}{\sqrt {n}} = \left (1,289825+1,983264\right ) \dfrac {0,56}{\sqrt {104}}\\ =& 0,1797336 \textrm {t/ha.} \end{align*}

O programa R para facilitar a obtenção deste valor está apresentado a seguir:
```
# Function to compute the lsd = d = mu - mu_0 of
# t test for the H_0: mu = mu_0, with alpha and beta.
LSDTestMuBilat <- function(S2, n, alpha=0.05, beta = 0.05)
{
  ta <- qt(1 - alpha / 2, n - 1)
  tb <- qt(1 - beta, n - 1)
  d <- (ta + tb) * S2^0.5 / sqrt(n)
  return(d)
}
# Example 9.6.9 (c)
S2 <- 0.56^2
alpha <- 0.05
beta <- 0.10
n <- 104
LSDTestMuBilat(S2, n, alpha, beta)
```

9.2.10 Intervalos de confiança para proporções binomiais com \(n\) \(=\) \(500\) e número de sucessos \(y\) \(=\) \(6\). Vamos obter o intervalo exato e todas as aproximações, incluindo a aproximação de Pratt (1968), que é a melhor aproximação conhecida. A estimativa pontual é
\(\seteqnumber{0}{9.}{0}\)
\begin{align*} \hat {p}=&\dfrac {y}{n}=\dfrac {6}{500}=0,0120=1,20\%. \end{align*}
- a) Intervalo de confiança exato
  
  O valor dos quantis superiores \(F_{0,025}\) com \(\nu _1\) \(=\) \(2(n-y+1)\) \(=\) \(2(500-6+1)\) \(=\) \(990\) e \(\nu _2\) \(=\) \(2y\) \(=\) \(2\times 6\) \(=\) \(12\) graus de liberdade e \(F_{0,025}\) com \(\nu _1\) \(=\) \(2(y+1)\) \(=\) \(2(6+1)\) \(=\) \(14\) e \(\nu _2\) \(=\) \(2(n-y)\) \(=\) \(2(500-6)\) \(=\) \(988\) graus de liberdade são 2,732611 e 1,878997, respectivamente. O intervalo exato é
  \(\seteqnumber{0}{9.}{0}\)
  \begin{align*} IC_{1-\alpha }(p):& \left [\dfrac {1}{1+\frac {(n-y+1)F_{0,025;\nu _1 = 990,\nu _2=11}}{y}},\,\, \dfrac {1}{1+\frac {n-y}{(y+1) F_{0,025; \nu _1=14, \nu _2=988}}}\right ]\\ =& \left [\dfrac {1}{1+\frac {(500-6+1)\times 2,732611}{6}},\,\, \dfrac {1}{1+\frac {500-6}{(6+1)\times 1,878997}}\right ]\\ =& [0,004416172,\,\, 0,02593493]\\ =& \left [0,4416172\%,\,\, 2,593493\%\right ]. \end{align*}
- b) Aproximação normal clássica:
  \(\seteqnumber{0}{9.}{0}\)
  \begin{align*} IC_{0,95}(p):\,& \hat {p}\pm Z_{\alpha /2} \sqrt {\dfrac {\hat {p}(1-\hat {p})}{n}} = 0,0120 \pm 1,96 \sqrt {\dfrac {0,0120(1 - 0,0120)}{500}}\\ =& [0,2455961\%,\,\, 2,154404\%]. \end{align*}
- c) Aproximação normal com correção de viés:
  \(\seteqnumber{0}{9.}{0}\)
  \begin{align*} IC_{0,95}(p):\,&\left \{\begin{array}{c} p_I=\dfrac {y-0,5}{n}-\dfrac {Z_{0,025}}{\sqrt {n}}\sqrt {\dfrac {y-0,5}{n} \left (1-\dfrac {y-0,5}{n}\right )} \\ \\ p_S=\dfrac {y+0,5}{n}+\dfrac {Z_{0,025}}{\sqrt {n}}\sqrt {\dfrac {y+0,5}{n} \left (1-\dfrac {y+0,5}{n}\right )} \end {array} \right .\\ \\ =& \left \{\begin{array}{c} p_I=\dfrac {6-0,5}{500}-\dfrac {1,96}{\sqrt {500}}\sqrt {\dfrac {6-0,5}{500} \left (1-\dfrac {6-0,5}{500}\right )} \\ \\ p_S=\dfrac {6+0,5}{500}+\dfrac {1,96}{\sqrt {500}}\sqrt {\dfrac {6+0,5}{500} \left (1-\dfrac {6+0,5}{500}\right )} \end {array} \right .\\ \\ =& [0,1862279\%,\,\, 2,293375\%]. \end{align*}
- d) Aproximação normal quadrática sem correção de continuidade:
  \(\seteqnumber{0}{9.}{0}\)
  \begin{align*} IC_{0,95}(p):\,& \dfrac {y+\frac {Z^2_{0,025}}{2}\pm Z_{0,025}\sqrt {y-\dfrac {y^2}{n}+\dfrac {Z^2_{0,025}}{4}}}{n+Z^2_{0,025}}\\ \\ =& \dfrac {6+\frac {1,96Z^2}{2}\pm 1,96\sqrt {6-\dfrac {6^2}{500} + \dfrac {1,96^2}{4}}}{500 + 1,96^2}\\ \\ =& [0,5510995\%,\,\, 2,593036\%]. \end{align*}
  
  Se for aplicada a correção de continuidade sugerida, o intervalo obtido é
  \(\seteqnumber{0}{9.}{0}\)
  \begin{align*} IC_{0,95}(p):\,& [0,4887294\%,\,\, 2,727784\%]. \end{align*}
- e) Aproximação Poisson:
  \(\seteqnumber{0}{9.}{0}\)
  \begin{align*} IC_{0,95}(p):\,&\left [\dfrac {\chi ^2_{0,975;\nu =2y}}{2n},\,\, \dfrac {\chi ^2_{0,025;\nu =2(y+1)}}{2n}\right ]= \left [\dfrac {\chi ^2_{0,975;\nu =12}}{2\times 500},\,\, \dfrac {\chi ^2_{0,025;\nu =2(6+1)}}{2\times 500}\right ]\\ =& \left [\dfrac {4,403789}{1000},\,\, \dfrac {26,11895}{1000}\right ]\\ =&[0,4403789\%,\,\, 2,611895\%]. \end{align*}
- f) Aproximação de Pratt (1968)
  
  As quantidades \(A\) e \(B\) são, respectivamente:
  \(\seteqnumber{0}{9.}{0}\)
  \begin{align*} A =& \sqrt {9y(n-y+1)\left (9n+6-Z^2_{0,025}\right )+n+1}\\ =& \sqrt {9\times 6\times (500-6+1)\left (9\times 500+6-1,96^2\right )+500+1}= 10968,8864,\\ B =& \sqrt {9(y+1)(n-y)\left (9n+6-Z^2_{0,025}\right )+n+1}\\ =& \sqrt {9(6+1)(500-6)\left (9\times 500+6-1,96^2\right )+500+1}=11835,77446. \end{align*}
  
  Logo,
  \(\seteqnumber{0}{9.}{0}\)
  \begin{align*} p_I =& \dfrac {1}{1+\left (\dfrac {y}{n-y+1}\right )^2\left [\dfrac {81y(n-y+1) -9n-8+3Z_{0,025}A}{81y^2-9y\left (2+Z_{0,025}^2\right )+1}\right ]^3}\\ =& \dfrac {1}{1+\left (\dfrac {\scriptstyle 6}{\scriptstyle 500-6+1}\right )^2\left [\dfrac {\scriptstyle 81\times 6(500-6+1)-9\times 500-8+3\times 1,96\times 10968,8864}{\scriptstyle 81\times 6^2-9\times 6\left (2+1,96^2\right )+1}\right ]^3}\\ =&0,00439453595,\\ \\ p_S =& \dfrac {1}{1+\left (\dfrac {y+1}{n-y}\right )^2\left [\dfrac {81(y+1)(n-y) -9n-8-3Z_{0,025}B}{81(y+1)^2-9(y+1)\left (2+Z_{0,025}^2\right )+1}\right ]^3}\\ =& \dfrac {1}{1+\left (\dfrac {\scriptstyle 6+1}{\scriptstyle 500-6}\right )^2\left [\dfrac {\scriptstyle 81(6+1)(500-6) -9\times 500-8-3\times 1,96\times 11835,77446}{\scriptstyle 81\times (6+1)^2-9\times (6+1)\left (2+1,96^2\right )+1}\right ]^3}\\ =& 0,02593523911. \end{align*}
  
  Portanto, o intervalo de confiança é
  \(\seteqnumber{0}{9.}{0}\)
  \begin{align*} IC_{0,95}(p):\,& [0,439453595\%,\,\, 2,593523911\%]. \end{align*}
  
  Conclui-se que a verdadeira proporção de insetos resistentes a um fungo patogênico está entre 0,4416% e 2,5935% com \(95\%\) de confiança. Dentre as aproximações, a de Pratt (1968) e a Poisson são as que mais se aproximaram da exata, com os menores erros relativos. Essa é uma situação para a qual a aproximação Poisson é recomendada, ou seja, quando \(p\) é pequeno e, ainda, com \(n\) grande. A aproximação normal é adequada quando aplicada a uma grande amostra e quando o valor de \(p\) aproxima-se de 0,50, o que não é o caso neste exemplo. e por isso apresentou a menor acurácia entre todas as aproximações. A melhor aproximação normal, que inclusive forneceu boa aproximação para esse caso, é a quadrática, especialmente se for considerada a correção de continuidade. A aproximação de Pratt (1968), em geral, tem boa acurácia para praticamente todas as combinações de \(p\) e \(n\).
Podemos usar o pacote \(binom\) do R para obter o intervalo exato e a aproximação normal clássica. A função para isso é binom.confint. O programa para estes dois intervalos, mas principalmente pelo intervalo exato é apresentado a seguir. Além destes métodos, outros métodos são apresentados na função binom.confint, os quais deixei comentado no programa, logo abaixo da chamada dela. Nenhum deles, no entanto, referem-se as aproximações do Livro. A distribuição binomial é uma das mais estudadas e, por isso, apresenta tamanha riqueza de aproximações.
```
# IC de 95% para proporções, utilizando
# o pacote binom do R, função binom.confint
# métodos exato e aproximado
library(binom)
n <- 500# definindo o tamanho da amostra
y <- 6 # definindo o número de sucessos do evento
CL <- 0.95 # definindo o nível de confiança
binom.confint(y, n, conf.level = CL,
               methods = c("exact", "asymptotic"))

# methods = c("exact", "ac", "asymptotic", "wilson",
#   "prop.test", "bayes", "logit", "cloglog", "probit")
```
9.2.11 Neste exercício reduzimos o nosso problema a um teste binomial. Uma abordagem mais apropriada, que levaria em consideração as frequências de todas as classes fenotípicas seria o teste qui-quadrado (teste de aderência a ser visto posteriormente no Livro). Veja frequências de todo os genótipos na tabela 4.2.7 item (c). No caso, estamos interessados somente na frequência do genótipo \(aabb\), que é \((1-r)^2/4\), em que \(0<r<0,5\) é frequência de recombinação. As frequências desta são compatíveis com o sistema de ligação em atração, como é o caso do presente exemplo. Se os genes são independentes, implica que eles não estão ligados ou não estão no mesmo cromossomo (ou estão numa distância grande no mesmo cromossomo), significa que \(r\) \(=\) 0,5. Assim, a frequência esperada do genótipo na geração \(F_2\) é de \(1/16\) (0,0625). Se considerarmos como sucesso a ocorrência do genótipo \(aabb\), temos probabilidade de sucesso igual a 0,0625 por hipótese (independência gênica). Assim, um teste binomial para esta hipótese nos dará a informação necessária. Vamos utilizar a aproximação normal para isso. Temos \(n=600\) plantas e \(y\) \(=\) \(20\) delas, com o genótipo de halo claro e susceptível.

As hipóteses nula (\(r\) \(=\) 0,5) e alternativa são:
\(\seteqnumber{0}{9.}{0}\)
\begin{align*} H_0:\, p=& 0,0625 &\textrm { vs }&& H_1:\, p \ne & 0,0625. \end{align*}

A estimativa pontual da proporção de sucessos (genótipo de halo claro e susceptível) é
\(\seteqnumber{0}{9.}{0}\)
\begin{align*} \hat {p}=\dfrac {y}{n}=\dfrac {20}{89}=600 \end{align*} e a estatística do teste é dada por:
\(\seteqnumber{0}{9.}{0}\)
\begin{align*} Z_c=& \dfrac {\hat {p}-p_0}{\sqrt {\dfrac {p_0(1-p_0)}{n}}}\\ =& \dfrac {0,03333333-0,0625}{\sqrt {\dfrac {0,0625\times (1-0,0625)}{600}}}\\ =& -2,951459. \end{align*}

A região crítica (de rejeição da hipótese), em cinza, para o teste é dada por:

Como o valor da estatística calculado \(Z_c\) \(=\) -2,95 pertence a região de rejeição da hipótese, então pelo teste binomial, utilizando a aproximação normal, com aproximadamente \(95\%\) de confiança, devemos rejeitar a hipótese nula de que os genes sejam independentes, ou seja, os genes de cor de halo e resistência à doença estão ligados e, portanto, no mesmo cromossomo. Os melhoristas, muitas vezes, querem halos claros e genótipos resistentes à doença. A ligação dificulta a obtenção de tais genótipos.
9.2.12 A fórmula clássica para determinarmos o tamanho da amostra é
\(\seteqnumber{0}{9.}{0}\)
\begin{align*} n=& \dfrac {Z^2_{\alpha /2}\hat {p}(1-\hat {p})}{e^2}. \end{align*} Esta fórmula exige que se tenha uma estimativa de \(p\). Para isso precisamos de uma amostra piloto, o que não há neste caso. Uma alternativa é usar um valor de \(n\) conservativo, no qual esta expressão é maximizada em relação a \(\hat {p}\). Para isso, a expressão anterior é derivada em relação a \(\hat {p}\), o resultado igualado a \(0\) e após resolvida a equação, temos como solução \(\hat {p}\) \(=\) 0,5. O estudo da segunda derivada comprova que este valor maximiza o valor de \(n\). Assim, a expressão resultante é:
\(\seteqnumber{0}{9.}{0}\)
\begin{align*} n=& \dfrac {Z^2_{\alpha /2}}{4e^2}. \end{align*} Esta expressão será usada no presente exercício. Assim, com \(95\%\) e margem de erro de \(e\) \(=\) 0,05 (não se confunda leitor, não há relação dos \(95\%\) de confiança ou do \(\alpha \) \(=\) \(5\%\) com o valor de \(e\) \(=\) \(5\%\), que no caso é igual ao \(\alpha \)-mera coincidência). Com o valor da confiança temos \(Z_{\alpha /2}\) \(=\) \(Z_{0,025}\) \(=\) 1,96. Assim,
\(\seteqnumber{0}{9.}{0}\)
\begin{align*} n=& \dfrac {1,96^2}{4\times 0,05^2}=384,16\\ =& 385. \quad \textrm {(arredondamento sempre para cima).} \end{align*} Assim, são necessárias \(385\) unidades amostrais para estimarmos a proporção nesta população com \(95\%\) e erro para mais e para menos de \(5\) pontos percentuais. Podemos também usar outra fórmula mais precisa, como as apresentada no Livro.

Se fixarmos \(e\) e \(1-\alpha \) a única maneira de tentarmos reduzir o tamanho da amostra é utilizarmos a primeira expressão, que depende de uma amostra piloto para podermos estimar \(p\). Entretanto, só haverá redução do tamanho da amostra se a população binomial amostrada tiver um parâmetro \(p\) afastado de 0,5. Assim, como não conhecemos a população, por razões óbvias, não há garantias de que o tamanho amostral seja reduzido caso venhamos a utilizar uma amostra piloto. Veja que \(\hat {p}(1-\hat {p})\) é máximo quando \(\hat {p}\) \(=\) 0,5, cujo valor máximo é 0,25. Se \(\hat {p}\) afasta-se de 0,5, então o valor de \(\hat {p}(1-\hat {p})\) afasta-se de 0,25, reduzindo o valor de \(n\) necessário. Ao utilizar a segunda forma, na pior situação, \(p\) \(=\) 0,5, o \(n\) está determinado de maneira justa. Caso isso não seja verdade, \(n\) está super determinado (amostra maior que a necessária).
9.2.13 Devemos utilizar o intervalo para proporções binomiais inicialmente, que é dado por:
\(\seteqnumber{0}{9.}{0}\)
\begin{align} \label {eb9:eq:gex13a} IC_{1-\alpha }(p):& \left [p_I=\dfrac {1}{1+\delta _1},\,\, p_S=\dfrac {1}{1+\delta _2} \right ], \end{align} em que
\(\seteqnumber{0}{9.}{1}\)
\begin{align*} \delta _1&= \dfrac {(n-s+1)F_{\alpha /2;\nu _1 = 2(n-s+1),\nu _2=2s}}{s} &\textrm { e }&& \delta _2=& \dfrac {n-s}{(s+1) F_{\alpha /2; \nu _1=2(s+1),\nu _2=2(n-s)}}, \end{align*} sendo \(F_{\alpha /2}\) é o quantil superior da distribuição \(F\) com \(\nu _1\) e \(\nu _2\) graus de liberdade. Se \(s = 0\), então \(p_I = 0\) e \(p_S\) deve ser obtido em (9.1); se \(s = n\), então \(p_S = 1\) e \(p_I\) deve ser obtido em (9.1). A quantidade \(s\) significa o número de elementos da amostra aleatória que é menor ou igual a mediana amostral \(m_d\).

A amostra ordenada é:

.

14 16 16 16 18

19 20 23 24 30

Assim a mediana amostral é \(m_d\) \(=\) 18,5. O valor \(s\) é dado por \(s\) \(=\) \(5\). Portanto, se utilizarmos a expressão (9.1), temos \(p_I\) \(=\) 0,187086 e \(p_S\) \(=\) 0,812914, usando um coeficiente de \(95\%\). Finalmente, o intervalos de confiança para mediana é obtido por
\(\seteqnumber{0}{9.}{1}\)
\begin{align*} \left \{\begin{array}{ll} X_I =& (1-g_1)X_{(j)}+ g_1X_{(j+1)} \\ \\ X_S =& (1-g_2)X_{(k)}+ g_2X_{(k+1)} \end {array} \right . \end{align*} em que \(j\) \(=\) \(\lfloor np_I \rfloor \), \(g_1\) \(=\) \(np_I\) \(-\) \(j\), \(k\) \(=\) \(\lfloor np_S \rfloor \), \(g_2\) \(=\) \(np_S\) \(-\) \(k\) e \(X_{(0)}\) \(=\) \(X_{(1)}\), caso \(j=0\). No caso, temos \(j\) \(=\) \(\lfloor 10\times 0,187086\rfloor \) \(=\) \(1\), \(g_1\) \(=\) 1,87086\(-1\) \(=\) 0,87086, \(k\) \(=\) \(\lfloor 10\times 0,812914 \rfloor \) \(=\) 8, \(g_2\) 8,12914\(-8\) \(=\) 0,12914. Logo,
\(\seteqnumber{0}{9.}{1}\)
\begin{align*} X_I =& (1-0,87086)X_{(1)}+ 0,87086X_{(1+1)}\\ =& 0,12914\times 14 + 0,87086\times 16 \\ =& 15,7417. \end{align*} Do mesmo modo,
\(\seteqnumber{0}{9.}{1}\)
\begin{align*} X_I =& (1-0,12914)X_{(8)}+ 0,12914X_{(8+1)}\\ =& 0,87086\times 23 + 0,12914\times 24 \\ =& 23,1291. \end{align*}

O intervalo de \(95\)% de confiança para \(\mu _d\) é [15,74,   23,13]. Fizemos também o intervalo de confiança com correção de viés e o resultado foi [16,   23].

.
	14	16	16	16	18
	19	20	23	24	30

9.2.14 Vamos começar aplicando o teste do sinal. A hipótese de interesse é

\begin{align*} H_0:\,\, \mu _d=&\mu _{d0}=5,06 &\textrm { versus } && H_0:\,\, \mu _d\ne &5,06. \end{align*} A amostra ordenada é:


3,51	4,01	5,68	5,84	6,22
6,24	6,29	6,55	7,88	8,04
8,35

Resumo dos sinais obtidos está apresentado a seguir.

.
	Sinais	Frequência
	\(-\)	2
	\(0\)	0
	\(+\)	9

Logo,

\[n_t = n^+ + n^- =9+2=11=n\]

Como \(s = n^+ = 9\) é maior que o valor médio esperado de sinais positivos, \(n_t(1- q)\) \(=\) \(11\times 0,5\) \(=\) 5,5, o valor-\(p\), com \(q\) \(=\) 0,5, é

\begin{align*} \textrm {valor-}p=& 2P(S\ge s)=2P(S\ge 9)\\ =& 2\sum _{i=s}^{n_t} \binom {n_t}{i}(1-q)^iq^{n_t-i} = 2 \left (\dfrac {1}{2}\right )^{11} \sum _{i=9}^{11} \binom {11}{i}\\ =& \left (\dfrac {1}{2}\right )^{10} \left (55 + 11 +1\right )=\dfrac {67}{1024}=0,06542969. \end{align*}

Pode ser usada a distribuição \(F\), que apresenta vantagem para grandes valores de \(n_t\), cujo valor calculado, trocando-se \(s\) por \(s-1\) \(=\) \(8\), é

\begin{align*} F_c=& \dfrac {s+1}{n_t-s}\times \dfrac {q}{1-q}\\ =& \dfrac {8+1}{11-8}\times \dfrac {0,5}{1-0,5}=3. \end{align*} com \(\nu _1=2(11-8)=6\) e \(\nu _2=2(8+1) = 18\) graus de liberdade.

O seguinte valor-\(p\) encontrado é

\begin{align*} 2(1-P(F < 3;\nu _1=6,\nu _2=18)) =& 2(1-0,9672852) = 0,06542969. \end{align*}

Ambos os procedimentos fornecem o mesmo valor-\(p\) (0,06542969), por serem procedimentos equivalentes. Como o valor-\(p\) é maior que \(5\%\) (valor nominal adotado) a hipótese nula não deve ser rejeitada no valor nominal de significância de \(5\%\), ou seja, o teor mediano de gordura do leite da raça amostrada pode ser considerado igual a \(3\%\). O leitor é convidado para considerar \(S\) como sendo o número de valores inferiores a \(m_{d0}\), ou seja, cujo valor observado é \(n^-\) e com \(p\) \(=\) \(q\). Após isto reproduza os resultados deste exemplo e verifique que são essencialmente iguais.

Na segunda etapa, vamos aplicar o teste do sinal com postos. As hipóteses nula e alternativa são as mesmas apresentada na primeira etapa. Devemos inicialmente computar os postos com sinais, a partir da amostra ordenada anteriormente apresentada. Na tabela a seguir apresentam-se as dez observações com as diferenças \(d_i\)’s, os postos obtidos considerando os valores absolutos dos \(d_i\)’s e os respectivos sinais associados, entre parênteses.


Observação \((x_i)\)	\(d_i=x_i-\mu _{d0}\)	(sinal)	posto
3,51	-1,55	\((-)\)	8
4,01	-1,05	\((-)\)	3
5,68	0,62	\((+)\)	1
5,84	0,78	\((+)\)	2
6,22	1,16	\((+)\)	4
6,24	1,18	\((+)\)	5
6,29	1,23	\((+)\)	6
6,55	1,49	\((+)\)	7
7,88	2,82	\((+)\)	9
8,04	2,98	\((+)\)	10
8,35	3,29	\((+)\)	11

O número de diferenças não-nulas é \(n_t\) \(=\) \(n\) \(=\) \(11\) e o valor de \(T^+\) é \(t^+\) \(=\) \(1 + 2 + 4+5+6+7+9+10+11\) \(=\) \(55\). Consultando a Tabela A.10 obtêm-se os limites críticos para o teste, considerando \(\alpha \) igual a \(5\%\) e \(n_t=11\). O limite crítico tabelado é \(T^+_{0,975}=10\). O limite crítico superior é obtido por

\begin{align*} T^+_{\alpha /2}=& \dfrac {n_t\left (n_t+1\right )}{2}-T^+_{1-\alpha /2} = \dfrac {11\times 12}{2}-8=58. \end{align*}

Como \(t^+ = 55\) está entre os dois limites críticos, então ele pertence à região de não rejeição da hipótese \(H_0\) e, portanto, não existe razão para suspeitar que a quantidade mediana de nitrato de Minas Gerais seja diferente da mediana dos Estados Unidos, considerando a significância nominal de \(5\)%. O resultado concorda com o valor obtido pelo teste do sinal (sem postos).

Vamos, por fim, apresentar a aproximação normal (sem correção de continuidade) deste último teste. A média e a variância de \(T^+\), sendo que não houve empates, são

\begin{align*} \mu _{T^+}=& \dfrac {n_t\left (n_t+1\right )}{4}=\dfrac {11\times 12}{4}=33 \\ \textrm { e }&\\ \sigma ^2_{T^+}=& \dfrac {n_t\left (n_t+1\right ) \left (2n_t+1\right )}{24}=\dfrac {11\times 12\times 23}{24} = 126,5. \end{align*}

O valor da estatística, com correção de continuidade, considerando \(t^+ = 55\), é

\begin{align*} Z_c=& \dfrac {55-33}{\sqrt {126,5}}=1,956. \end{align*}

Como \(Z_c\), sem correção de continuidade, está entre os limites críticos normais \(-Z_{0,025}\) \(=\) \(-\)1,96 e \(Z_{0,025}\) \(=\) 1,96, a hipótese nula \(H_0\) não deve ser rejeitada no valor nominal de significância de \(5\%\). O valor-\(p\) é 0,0505, reforçando este resultado. Veja que por muito pouco, a aproximação normal não forneceu resultado diferente do método exato. Este fato ressalta a importância de termos métodos exatos.

9.2.15 Considerando que a distribuição da população seja a normal, sabendo que \(s^2\) \(=\) 1,6, \(n=37\), \(\chi ^2_{0,975;\nu =36}\) \(=\) 21,3359 e \(\chi ^2_{0,025;36}\) \(=\) 54,4373, temos
\(\seteqnumber{0}{9.}{1}\)
\begin{align*} IC_{1-\alpha }\left (\sigma ^2\right ):&\,\,\left [\dfrac {(n-1)S^2}{\chi ^2_{\alpha /2;\nu }}, \,\, \dfrac {(n-1) S^2}{\chi ^2_{1-\alpha /2;\nu }}\right ]\\ :& \left [\dfrac {(36\times 1,6}{54,4373}, \,\, \dfrac {36\times 1,6}{21,3359}\right ]\\ :&\,\,[1,0581,\,\,2,6997]. \end{align*}

Com \(95\%\) de confiança, a verdadeira variância populacional é um valor contido no intervalo [1,0581, 2,6997]. Como o valor da variância do híbrido simples é 0,6, podemos concluir, com \(95\%\) de confiança, que a variância do híbrido triplo é maior do que a do híbrido simples. Este resultado é esperado, uma vez que a variabilidade de um híbrido simples é meramente de fatores ambientais, enquanto a variância do híbrido triplo contém uma fonte genética de variabilidade, além da fonte ambiental.
9.2.16 Para realizarmos o teste sobre a variância, vamos adotar os seguintes procedimentos. Formulamos as hipóteses nula e alternativa por:
\(\seteqnumber{0}{9.}{1}\)
\begin{align*} H_0:\, \sigma ^2\le & 0,6 &\textrm { vs }&& H_1:\, \sigma ^2 > & 0,6. \end{align*}

A estatística do teste é calculada utilizando:
\(\seteqnumber{0}{9.}{1}\)
\begin{align*} \chi ^2_c=& \dfrac {(n-1)S^2}{\sigma ^2_0}=\dfrac {36\times 1,6}{0,6}=96. \end{align*}

A região crítica (de rejeição da hipótese) para o teste é dada por:

como \(\chi ^2_c=96\) se situa na região de rejeição da hipótese nula, devemos rejeitar a hipótese \(H_0\), considerando o teste de qui-quadrado com \(95\%\) de confiança. Assim, a hipótese de que a variância populacional seja igual ou inferior a 0,6 \(t^2\)/ha deve ser rejeitada e, portanto, o híbrido triplo é mais variável que o híbrido simples. Este é um bom exemplo para mostrar como os testes muitas corroboram nossas teorias. No caso, sabemos que a variação do híbrido simples tem duas origens, as variabilidades ambiental e genética. Já o híbrido simples tem presente somente a fonte de variação ambiental e, portanto, deve apresentar menor variabilidade que o híbrido triplo.
9.2.17 O intervalo modificado de McKay, conforme aclamado por Vangel (1996) como a melhor aproximação, é
\(\seteqnumber{0}{9.}{1}\)
\begin{align*} IC_{1-\alpha }(\kappa ): & \left [\kappa _I,\,\, \kappa _S \right ]. \end{align*} em que
\(\seteqnumber{0}{9.}{1}\)
\begin{align*} \kappa _I =& \dfrac {K}{\sqrt {\left (\dfrac {\chi ^2_{\alpha /2;\nu }+2}{\nu +1}- 1 \right ) K^2+ \dfrac {\chi ^2_{\alpha /2;\nu }}{\nu }}} \end{align*} e
\(\seteqnumber{0}{9.}{1}\)
\begin{align*} \kappa _S =& \dfrac {K}{\sqrt {\left (\dfrac {\chi ^2_{1-\alpha /2;\nu }+2}{\nu +1}- 1 \right )K^2+ \dfrac {\chi ^2_{1-\alpha /2;\nu }}{\nu }}}, \end{align*} em que \(\nu \) \(=\) \(n-1\).

No presente caso, temos \(K\) \(=\) 0,32 e \(\bar {X}\) \(=\) 0,0307, com \(n=100\). Logo, \(\chi ^2_{\alpha /2;\nu }\) \(=\) \(\chi ^2_{0,025;\nu =99}\) \(=\) 128,422 e \(\chi ^2_{1-\alpha /2;\nu }\) \(=\) \(\chi ^2_{0,975;\nu =99}\) \(=\) 73,361. Assim,
\(\seteqnumber{0}{9.}{1}\)
\begin{align*} \kappa _I =& \dfrac {0,32}{\sqrt {\left (\dfrac {128,422+2}{99+1}- 1 \right ) 0,32^2+ \dfrac {128,422}{99}}}=\dfrac {0,32}{1,152538}\\ =& 0,2776 \end{align*} e
\(\seteqnumber{0}{9.}{1}\)
\begin{align*} \kappa _S =& \dfrac {0,32}{\sqrt {\left (\dfrac {73,361+2}{99+1}- 1 \right ) 0,32^2+ \dfrac {73,361}{99}}}=\dfrac {0,32}{0,8460442}\\ =& 0,3782. \end{align*} Finalmente, o intervalo de \(95\%\) para o coeficiente de variação populacional \(\kappa \) é
\(\seteqnumber{0}{9.}{1}\)
\begin{align*} IC_{0,95}(\kappa ): & \left [0,2776,\,\, 0,3782 \right ]. \end{align*}
9.2.18 Em uma amostra de tamanho \(n=10\) o valor do \(CV\) foi 0,1502. As hipóteses de interesse, nula e alternativa, são
\(\seteqnumber{0}{9.}{1}\)
\begin{align*} H_0:\, \kappa =& 0,05 &\textrm { vs }&& H_1:\, \kappa \ne & 0,05. \end{align*}

A estatística do teste é calculada utilizando:
\(\seteqnumber{0}{9.}{1}\)
\begin{align*} \chi ^2_c=& \dfrac {\nu K^2 \left [\nu +1+(\nu +1)\kappa _0^2\right ]}{\kappa _0^2 \left (\nu +1 + \nu K^2\right )}, \end{align*} formulada por McKay (1932), modificado por Vangel (1996). Observação importante deve ser feita, pois na edição atual do Livro, a parte \(\nu +1+(\nu +1)\kappa _0^2\) do numerador da expressão da estatística do teste tem um erro, pois em vez de \(\nu +1+(\nu +1)\kappa _0^2\) está incorretamente apresentada por \(\nu +1+(\nu -1)\kappa _0^2\). Logo,
\(\seteqnumber{0}{9.}{1}\)
\begin{align*} \chi ^2_c=& \dfrac {9\times 0,1502^2 \left (9+1+10\times 0,05^2\right )}{0,05^2 \left (9+1 + 9\times 0,1502^2\right )}\\ =& 79,799. \end{align*}

A região crítica (de rejeição da hipótese) para o teste é dada por: \(\{\chi ^2\le \) 2,700\(\}\cup \{\chi ^2\ge \) 19,023\(\}\). Como \(\chi ^2_c\) \(=\) 79,799 pertence a região de rejeição de \(H_0\), devemos rejeitar a hipótese nula de que o coeficiente de variação dessa espécie não seja diferente ao do clone de referência, apresentando de fato superior a variabilidade relativa a do clone em questão, pelo teste qui-quadrado de McKay (1932) com \(95\%\) de confiança. Veja o gráfico ilustrativo a seguir.