Estatı́stica Básica
2.2 Resolução
-
2.2.1 Distribuição de frequências:
-
a) Os diferentes critérios diferem apenas no número de classes usado. Assim, usaremos apenas o critério empírico, Tabela 2.9, em que o número de classes \(k\) é dado por
\(\seteqnumber{0}{2.}{0}\)\begin{align*} k =&\left \{\begin{array}{ll} \sqrt {n} & n\le 100 \quad (\textrm {inteiro mais próximo}) \\ 5\log _{10}(n) & n > 100 \quad (\textrm {inteiro mais próximo}), \end {array} \right . \end{align*} que resulta em \(k\) \(=\) \(\sqrt {n}\) \(=\) \(\sqrt {50}\) \(=\) \(7\) classes. Os demais casos ficam por conta do leitor reproduzir.
O próximo passo é determinar a amplitude total, dada por:
\[ A=X_{(n)}-X_{(1)}=25,52-1,52=24g. \]
Em seguida computamos a amplitude de classe e o limite inferior da primeira classe por:
\(\seteqnumber{0}{2.}{0}\)\begin{align*} c=& \dfrac {A}{k-1}= \dfrac {24}{6}=4\\ LI_{1} =& X_{(1)}-\dfrac {c}{2}=1,52-2=-0,48. \end{align*} Assim, a distribuição de frequências resultante é:
Classes de produção \(\bar {X}_i\) \(F_i\) \(Fr_i\) \(Fp_i\)(%) \(-0,48\vdash \,\,3,52\) 1,52 11 0,22 22 \(\,\,\,\, 3,52\vdash 7,52\) 5,52 16 0,32 32 \(\,\,\,\, 7,52\vdash 11,52\) 9,52 12 0,24 24 \(\,11,52\vdash 15,52\) 13,52 7 0,14 14 \(\,15,52\vdash 19,52\) 17,52 2 0,04 4 \(\,19,52\vdash 23,52\) 21,52 1 0,02 2 \(\,23,52\vdash 27,52\) 25,52 1 0,02 2 Os demais critérios seguem o mesmo padrão e não serão mostrados, podendo diferir no número de classes apenas. Se isso ocorre, obviamente as demais quantidades se modificam. Fica por conta do leitor verificar tais fatos.
-
b) O histograma e o polígono de frequências foram plotados em um mesmo gráfico, obtendo:
-
c) A tabela de distribuição de frequências acumuladas para este caso é:
Limites \((x_i)\) \(FC(X<x_i)\) \(FC(X\ge x_i)\) \(\,\, -0,48\) 0 50 \(\,\,\, 3,52\) 11 39 \(\,\,\, 7,52\) 27 23 \(11,52\) 39 11 \(15,52\) 46 4 \(19,52\) 48 2 \(23,52\) 49 1 \(27,52\) 50 0 -
d) Porcentagem de plantas com produção superior a \(9\):
-
i) Usando a contagem direta nos dados originais, vemos que \(18\) valores superam o valor \(9\). Assim, com uma regra de três simples extrapolamos a estimativa para o caso geral, ou seja, dizemos que \(36\%\) das plantas produzem mais que \(9\) g.
-
ii) Usando a ogiva: na figura anterior, plotamos a linha correspondente ao valor \(9\) e encontramos a ogiva \(F_{c\downarrow }\). A leitura gráfica resultou no valor aproximado de 18,64. Este valor corresponde a 37,28% das plantas com produtividade superior a \(9\) g.
-
iii) Na distribuição de frequências temos que os valor \(9\) está na terceira classe. As demais classes, superiores a terceira, possuem valores que são sabidamente superiores a \(9\) e totalizam \(11\) plantas. Resta descobrir, por interpolação geométrica, quantas das \(12\) plantas são superiores a \(9\) na terceira classe. Usamos regra de três e supomos que a distribuição dentro da classe é uniforme. Logo,
\(\seteqnumber{0}{2.}{0}\)\begin{align*} 11,52-7,52=4,00 \longrightarrow & F_3=12\\ 11,52-9,00=2,52 \longrightarrow & x, \end{align*} resultando em \(x\) \(=\) 7,56 plantas superam \(9\) g de produtividade. Assim, o total é de 7,56 \(+\) 11 \(=\) 18,56. Este valor corresponde a 37,12% das plantas com produtividade superior a \(9\) g.
As três respostas, dos três diferentes métodos, foram muito próximas uma das outras, como esperado. O valor “exato” (melhor estimativa da proporção populacional) foi de \(36\%\) e os erros para mais foram de 1,28 e 1,12 pontos percentuais. Em termos relativos estes erros foram de 3,56% e 3,11%, respectivamente, para a interpolação geométrica e interpolação algébrica.
-
-
e) Pela observação da distribuição de frequências podemos dizer que a distribuição é assimétrica à direita, embora o grau de assimetria não seja muito intenso. Este fenômeno é compatível com segregação em caracteres quantitativos com dominância (herança quantitativa na presença de dominância).
-
f) O gráfico de ramos-e-folhas, pode ser feito pelo R, com o comando stem(prod), sendo prod o vetor de dados originais. O resultado é dado por:
0 | 5 2 | 2489012455899 4 | 4682 6 | 025677813 8 | 0248022246 10 | 19 12 | 015899 14 | 2 16 | 6 18 | 4 20 | 22 | 1 24 | 5
Uma versão mais moderna é o BoxPlot, feito com o comando boxplot(prod) no R, apresentado a seguir:
Neste gráfico, podemos observar o mínimo, excluindo os potenciais outliers, o máximo, também excluindo os outliers, mediana, primeiro quartil (percentil \(25\%\)) e terceiro quartil (percentil \(75\%\)).
-
g) Determinar a produção que acima dela estão \(50\%\) das plantas (\(25\) plantas):
-
i) Pela observação direta dos dados ordenados, dados por:
1,52 2,23 2,39 2,81 2,85 3,01 3,10 3,19 3,38 3,49 3,50 3,76 3,86 3,90 4,43 4,64 4,80 5,15 6,02 6,20 6,53 6,61 6,71 6,73 6,78 7,07 7,33 7,97 8,23 8,40 8,75 8,99 9,15 9,19 9,20 9,40 9,60 10,09 10,86 12,95 13,12 13,46 13,84 13,86 13,94 14,20 16,56 18,44 22,14 25,52
podemos observar que o valor procurado está entre 6,78 e 7,07. Qualquer valor entre estes dois números é um potencial valor para nossa resposta. Podemos convencionar tomar o valor médio dos dois. Assim, a resposta é 6,925 g.
-
ii) Uma segunda alternativa é usar o método gráfico, pelas ogivas. Selecionamos o valor da abscissa de \(25\) e encontramos a curva das frequências acumuladas \(F_{c\uparrow }\). O valor correspondente na abscissa é o valor almejado, como ilustra a figura abaixo:
Este valor corresponde ao valor 7,03 g, na abscissa. Assim, \(50\%\) das plantas superam 7,03 g, por este método.
-
iii) Pela interpolação algébrica na distribuição de frequências, temos que acima de 7,52 g temos \(23\) plantas e acima de 3,52, \(39\) plantas. Logo, o valor almejado encontra-se na segunda classe e pode ser obtido por interpolação. Como acima de 7,52 temos \(23\) plantas, acima do valor almejado na segunda classe tem-se \(25\), entre o valor almejado e o limite superior 7,52 g faltam mais \(2\) plantas para se completarem as \(25\) necessárias. Assim:
\(\seteqnumber{0}{2.}{0}\)\begin{align*} 4 \longrightarrow & 16 \\ x \longrightarrow & 2, \end{align*} resultando em \(x\) \(=\) 0,50 g. O valor pretendido é, portanto, 7,52\(-\)0,50 \(=\) 7,02 g. Logo, \(50\%\) das plantas superam 7,02 g, por este método.
Os três métodos novamente levaram a resultados muito parecidos e qualquer um deles pode ser escolhido para estimar tais quantis superiores ou para se estimar quantis inferiores. Isso dependerá apenas de qual tipo de informação está disponível para o leitor quando for estimar tais quantidades.
-
-
h) Para obter a porcentagem de valores com produtividade inferior a 3,5 g vamos usar a interpolação algébrica na distribuição de frequências apenas. Os outros dois métodos podem ser aplicados como nos casos anteriores. O valor de 3,5 encontra-se na primeira classe. Logo,
\(\seteqnumber{0}{2.}{0}\)\begin{align*} 4 \longrightarrow & 11 \\ 3,5-(-0,48)=3,98 \longrightarrow & x, \end{align*} resultando em “10,945 plantas”. Considerando que \(100\%\) correspondem a \(50\) plantas, então 10,945 correspondem a 21,89%. Portanto, 21,89% das plantas produzem menos que 3,50 g.
-
i) Novamente vamos usar a interpolação algébrica na distribuição de frequências apenas. Para o valor que deixa abaixo dele \(25\%\) das plantas (12,5 plantas), temos que ele se encontra na classe \(2\). Na classe \(1\) temos \(11\) plantas. Logo, é necessária mais 1,5 planta para se completar as 12,5 plantas. Logo, das \(16\) plantas da classe, precisaremos de achar o valor que deixa 1,5 delas abaixo dele. Assim,
\(\seteqnumber{0}{2.}{0}\)\begin{align*} 4 \longrightarrow & 16 \\ x \longrightarrow & 1,5, \end{align*} resultando em \(x\) \(=\) 0,375. O valor almejado é 3,52\(+\)0,375 \(=\) 3,895. Assim, \(25\%\) das plantas estão abaixo de 3,895 g.
Para o valor que deixa \(25\%\) das plantas (12,5 plantas) acima dele, verificamos que acima de 11,52 g temos \(11\) plantas. É necessária 1,5 planta na classe \(3\). Logo,
\(\seteqnumber{0}{2.}{0}\)\begin{align*} 4 \longrightarrow & 12 \\ x \longrightarrow & 1,5, \end{align*} resultando em \(x\) \(=\) 0,50. O valor almejado é 11,52\(-\)0,50 \(=\) 11,02. Assim, \(25\%\) das plantas estão acima de 11,02 g.
-
-
2.2.2 A variável número de galhas por planta foi analisada da seguinte forma:
-
a) O gráfico da ocorrência de galhas é dado por:
Verifica-se que a distribuição é assimétrica à direita. A variável do exercício 1 é quantitativa contínua e a variável do exercício atual é quantitativa discreta.
-
b) A tabela de distribuição de frequências acumuladas para este caso é:
\(x_i\) \(FC(X\le x_i)\) \(FC(X > x_i)\) \(FC_r(X\le x_i)\) \(FC_r(X > x_i)\) \(-1\) 0 85 0,00 1,00 \(0\) 35 50 0,41 0,59 \(1\) 55 30 0,65 0,35 \(2\) 72 13 0,85 0,15 \(3\) 79 6 0,93 0,07 \(4\) 82 3 0,96 0,04 \(5\) 84 1 0,99 0,01 \(6\) 85 0 1,00 0,00 \(7\) 85 0 1,00 0,00 -
c) É potencialmente possível encontrar tal planta com mais de \(6\) galhas, mesmo em uma área de baixa incidência de nematóides como essa. Para isso é necessário aumentar o tamanho da amostra, pois plantas com tal infestação, pelo que indica os dados e o gráfico anterior, estão em baixa frequência na população amostrada. Assim, estes elementos em baixa frequência na população teriam chances mais elevadas de serem amostrados em grandes amostras.
-
-
2.2.3 Sejam as amostras de tamanho \(n=5\) dadas por:
\(\seteqnumber{0}{2.}{0}\)\begin{align*} X=&\left \{2, 4, 4, 3, 2\right \}\\ Y=&\left \{1, 2, 3, 6, 7\right \}, \end{align*} então:
i) \(\displaystyle \sum _{j=1}^4 x_j = \) \(x_1+x_2+x_3+x_4=\) \(2+4+4+3=13\);
ii) \(\displaystyle \sum _{j=1}^5 4x_j^2 =2 \sum _{j=1}^5 x_j^2=\) \(4\times (2^2+4^2+\ldots +2^2)=2\times 49=196\);
iii) \(\displaystyle \sum _{j=1}^5 (3x_j+2y_j)=3\sum _{j=1}^5 x_j+ 2\sum _{j=1}^5 y_j=\) \(3\times 15 + 2\times 19=83\);
iv) \(\displaystyle \sum _{j=1}^5 y_j =\) \(y_1+\ldots +y_5=\) \(1+2+\ldots +7=19\);
v) \(\displaystyle \sum _{j=1}^5 x_j y_j =\) \(2\times 1+ 4\times 2+ \ldots + 2\times 7=\) \(2+8+\ldots +14=54\); e
vi) \(\displaystyle \sum _{j=2}^4 x_jy_j + \sum _{j=1}^5 y_j^2=\) \(40+(1^2+2^2+\ldots +7^2)=40+99=139.\)
Mostrar numérica e algebricamente que as somas de desvios em relação a média aritmética é nula, qualquer que seja a amostra, usando o conjunto \(X\) dado anteriormente para o caso numérico:
a) Numericamente
A média é:
\(\seteqnumber{0}{2.}{0}\)\begin{align*} \bar {X} =& \dfrac {\displaystyle \sum _{j=1}^{n} X_j}{n}=\dfrac {13+2}{5}=3 \end{align*}
\(\displaystyle \sum _{j=1}^n(X_j-\bar {X})=(2-3)+(4-3)+\ldots +(2-3)=-1+1+1+0-1=0\);
b) algebricamente
\(\seteqnumber{0}{2.}{0}\)\begin{align*} \sum _{j=1}^n(X_j-\bar {X})=& \sum _{j=1}^nX_j-\sum _{j=1}^n\bar {X}=\sum _{j=1}^nX_j-n\bar {X}\\ =& \sum _{j=1}^nX_j-\dfrac {\cancel {n} \displaystyle \sum _{j=1}^n X_j}{\cancel {n}}=\sum _{j=1}^nX_j-\sum _{j=1}^nX_j=0,\quad \textrm { C.Q.M.} \end{align*}
Finalmente, para os dados da tabela de dupla entrada das produtividades da gramínea, as seguintes somas
\(i. \displaystyle \sum _{i=1}^4\sum _{j=1}^3 X_{ij}^2 = (4,6^2+\cdots +5,5^2+\cdots +6,0^2+\cdots +6,8^2\) \(=\) \(76,41+92,46+101,64+120,68\) \(=\) \(391,19\)
\(ii. \displaystyle \sum _{i=1}^4 X_{ij}^2 \quad j=1,2,3\)
Temos:
\(\seteqnumber{0}{2.}{0}\)\begin{align*} \sum _{i=1}^4 X_{i1}^2 =& 4,6^2+\cdots +6,0^2=109,20 \quad j=1\\ \sum _{i=1}^4 X_{i2}^2 =& 5,0^2+\cdots +6,2^2=127,33 \quad j=2\\ \sum _{i=1}^4 X_{i3}^2 =& 5,5^2+\cdots +6,8^2=154,66 \quad j=3 \end{align*}
\(iii. \displaystyle \sum _{j=1}^3 X_{ij}^2 \quad i=1,2,3,4\)
Temos:
\(\seteqnumber{0}{2.}{0}\)\begin{align*} \sum _{j=1}^3 X_{1j}^2 =& 4,6^2+5,0^2+5,5^2=76,41 \quad i=1\\ \sum _{j=1}^3 X_{2j}^2 =& 5,0^2+5,5^2+6,1^2=92,46 \quad i=2\\ \sum _{j=1}^3 X_{3j}^2 =& 5,2^2+5,8^2+6,4^2=101,64 \quad i=3\\ \sum _{j=1}^3 X_{4j}^2 =& 6,0^2+6,2^2+6,8^2=120,68 \quad i=4 \end{align*}
-
2.2.4 Dados da produção de leite:
-
a) A média e a midrange são:
\(\seteqnumber{0}{2.}{0}\)\begin{align*} \bar {X} =& \dfrac {\displaystyle \sum _{j=1}^{n} X_j }{n}=\dfrac {299,7}{30} =9,99 \\ \bar {X}_{0,50} =& \dfrac {X_{(1)}+X_{(n)}}{2}=\dfrac {8,13+12,14}{2}=10,135. \end{align*}
-
b) A média aparada:
\(\seteqnumber{0}{2.}{0}\)\begin{align*} \bar {X}_A =& \dfrac {\displaystyle \sum _{j=3}^{n-2} X_j }{n}=\dfrac {8,6+\cdots +11,46}{26} =\dfrac {259,15}{26}=9,9673. \end{align*}
Neste caso não há evidências de nenhum outlier ou dado discrepante. A distribuição de frequências (não mostrado) é razoavelmente simétrica e, portanto, não há necessidade de se utilizar este estimador. Ademais, as estimativas de ambos os estimadores estão razoavelmente próximas, corroborando o argumento da não necessidade de obter a média aparada.
-
c) A mediana, como \(n\) é par, deve ser computada por:
\(\seteqnumber{0}{2.}{0}\)\begin{align*} m_d =& \dfrac {X_{\left (\frac {n}{2}\right )} +X_{\left (\frac {n+2}{2}\right )}}{2} = \dfrac {X_{(15)} + X_{(16)}}{2} = 10,055 l. \end{align*}
A partir das estatísticas de ordem, como os dados são quantitativos contínuos e \(P(X=x)=0\) \(\forall x\in \mathbb {R}\), não é possível estimar a moda olhando para o valor que mais se repete ou mais frequente. No próximo exercício apresentaremos uma estimativa da moda populacional.
-
d) Os percentis \(5\%\) e \(95\%\) pelo método \(1\) da média ponderada (usamos o Sisvar) são:
\(\seteqnumber{0}{2.}{0}\)\begin{align*} X_{0,05}=& 8,18 &\textrm { e }&& X_{0,95}=&11,76 l. \end{align*} Pelo método \(2\) (observação mais próxima) são:
\(\seteqnumber{0}{2.}{0}\)\begin{align*} X_{0,05}=& 8,23 &\textrm { e }&& X_{0,95}=&11,46 l. \end{align*} Pelo método \(3\) (distribuição empírica) são:
\(\seteqnumber{0}{2.}{0}\)\begin{align*} X_{0,05}=& 8,23 &\textrm { e }&& X_{0,95}=&12,05 l. \end{align*} Pelo método \(4\) (média ponderada) são:
\(\seteqnumber{0}{2.}{0}\)\begin{align*} X_{0,05}=& 8,185 &\textrm { e }&& X_{0,95}=&12,0905 l. \end{align*} Pelo método \(5\) (distribuição empírica com ponderamento) são:
\(\seteqnumber{0}{2.}{0}\)\begin{align*} X_{0,05}=& 8,23 &\textrm { e }&& X_{0,95}=&12,05 l. \end{align*}
-
e) Usando-se a propriedade da média aritmética, considerando a renda representada por \(Y\) \(=\) \(k X\), sendo \(k\) \(=\) 0,27, temos
\(\seteqnumber{0}{2.}{0}\)\begin{align*} \bar {Y} =& k\bar {X} =0,27\times 9,99=2,70, \end{align*} que corresponde à renda média por litro de leite (preço em reais da época).
-
f) As médias harmônica e geométrica são:
\(\seteqnumber{0}{2.}{0}\)\begin{align*} \bar {X}_{H} =& \dfrac {1}{\dfrac {1}{n}\displaystyle \sum _{i=1}^n{\dfrac {1}{X_i}}} = \dfrac {1}{\dfrac {1}{30}\displaystyle \sum _{i=1}^n{\dfrac {1}{8,13}+\cdots +\cfrac {1}{12,14}}}=\dfrac {1}{\dfrac {3,031835}{30}} = 9,8950\\ \bar {X}_{G} =& \sqrt [n]{\prod _{i=1}^nX_i} = \sqrt [30]{8,409706\times 10^{29}}=9,9424. \end{align*}
A relação entre a média, média geométrica e média harmônica, dada por \(\bar {X}_H \le \bar {X}_G \le \bar {X}\) foi verificada, que neste caso corresponde à seguinte relação: 9,90\(<\)9,94\(<\)9,99. A igualdade só ocorre se todos os valores amostrais forem iguais.
-
-
2.2.5 Calcular as medidas de posição na distribuição de frequências: Para agrupar os dados deve-se obter:
O número de classe é dado por \(k=\sqrt {n}=\sqrt {30} \approx 5\) e amplitude total por \(A=x_{(30)}-x_{(1)}=\)12,14\(-\)8,13=4,01. Assim, a amplitude de classe é dada por \(c=A/(k-1)=\)4,01/4\(\approx \) 1,00 e o limite inferior da primeira classe por \(LI_1 = x_{(1)}-c/2=\)8,13\(-\)1,00/2=7,63. Os demais limites de classe são obtidos somando-se \(c=\)1,00 aos limites anteriormente obtidos. A distribuição de frequências obtida desta forma é:
Classes de peso \(\bar {X}_i\) \(F_i\) \(Fr_i\) \(Fp_i\)(%) 7,63 \(\vdash \) 8,63 8,13 3 0,10 10,00 8,63 \(\vdash \) 9,63 9,13 6 0,20 20,00 9,63 \(\vdash \) 10,63 10,13 16 0,53 53,33 10,63 \(\vdash \) 11,63 11,13 3 0,10 10,00 11,63 \(\vdash \) 12,63 12,13 2 0,07 6,67 -
i) A média aritmética é dada por:
\(\seteqnumber{0}{2.}{0}\)\begin{align*} \bar {X}=& \dfrac {\displaystyle \sum _{i=1}^k F_i \bar {X}_i}{n}=\dfrac {8,13\times 3+ 9,13\times 9+ 10,13\times 16+ 11,13\times 3+ 12,13\times 2}{30}\\ =& \dfrac {298,9}{30} = 9,9633 \end{align*}
A diferença encontrada para a média dos dados não agrupados pode ser atribuída ao agrupamento. Toda forma de representar os dados de uma maneira mais simplificada (resumida) conduz a algum tipo de perda de precisão. Por exemplo, a perda de precisão neste caso é devido à hipótese tabular básica, em que os pontos médios de cada classe são usados para representar todos os valores dela. O que deve ficar claro, entretanto, é que apesar de menos precisa, a estimativa obtida a partir dos dados agrupados é uma “estimativa confiável” em certo sentido da média populacional, tanto quanto a estimativa dos dados originais. A perda de precisão é, em geral, pequena e pode ser considerada desprezível. P
A mediana é obtida da seguinte maneira. A classe mediana é aquela que contém a posição número \(n/2=30/2=15\). Portanto, a classe mediana é a terceira, pois as frequências acumuladas das duas primeiras classes somam apenas \(9\), que é inferior a \(15\). Logo,
\(\seteqnumber{0}{2.}{0}\)\begin{align*} m_d =& LI_{m_d}+\dfrac {\frac {n}{2}-F_A}{F_{m_d}}c_{m_d}=9,63+\dfrac {15-9}{16}\times 1,00\\ =& 10,0050 \end{align*}
A mesma observação feita para a diferença das estimativas da média vale para a mediana.
Para obter a moda, é necessário determinar a classe de maior frequência, ou seja, a classe modal. A classe modal neste exercício é a terceira. A diferença das frequências da classe modal e classe anterior é \(\Delta _1=16-6=10\) e a diferença das frequências da classe modal e classe posterior é \(\Delta _2=16-3=13\). Assim, tem-se
\(\seteqnumber{0}{2.}{0}\)\begin{align*} m_o=& LI_{m_o} + \dfrac {\Delta _1}{\Delta _1+\Delta _2} c_{m_o}=9,63+\dfrac {10}{10+13}\times 1,00\\ =& 10,0648. \end{align*}
As três medidas, média, mediana e moda, estão muito próximas e isso é um indicativo que a distribuição dos dados deve ser aproximadamente simétrica. A moda não pode ser calculada dos dados originais, quando os dados são quantitativos contínuos, ou seja, em variáveis aleatórias contínuas em que \(P(X=x)=0\) \(\forall x\in \mathbb {R}\).
-
ii) A média geométrica é
\(\seteqnumber{0}{2.}{0}\)\begin{align*} \bar {X}_{G} =& \exp \left (\dfrac {\displaystyle \sum _{i=1}^k F_i \ln (\bar {X}_i)}{n} \right )=\exp \left (\dfrac {6,2867+\cdots +4,9914}{30} \right )\\ =& \exp \left (\dfrac {68,82439}{30}\right )=9,915969. \end{align*} A média harmônica é:
\(\seteqnumber{0}{2.}{0}\)\begin{align*} \bar {X}_{H} =& \dfrac {1}{\dfrac {1}{n}\displaystyle \sum _{i=1}^k{\dfrac {F_i}{\bar {X}_i}}}=\dfrac {1}{\dfrac {0,3690037+\cdots +0,1648805}{30}}\\ =& \dfrac {1}{0,1013356}=9,868204. \end{align*}
Os valores das médias harmônica e geométrica na distribuição de frequências diferiram apenas na segunda casa decimal em relação aos mesmos valores obtidos nos dados originais. O resumo dos dados, em geral, os torna menos informativos e as estimativas neste formato menos precisas. Entretanto, na maioria das vezes, a perda de precisão é não expressiva.
A média quadrática é:
\(\seteqnumber{0}{2.}{0}\)\begin{align*} \bar {X}_{MQ} &= \sqrt {\dfrac {\displaystyle \sum _{i=1}^k F_i \bar {X}_i^2}{n}} = \sqrt {\dfrac {198,2907+\cdots +294,2738}{30}} = \sqrt {100,2069}\\ =& 10,01034. \end{align*}
-
iii) As comparações, quando possíveis, foram realizadas nas respostas anteriormente dadas. A razão principal da diferença é que ao se resumir um conjunto de dados e tentar se obter as mesmas informações, haverá uma perda de precisão em decorrência disso.
-
iv) O histograma e polígono de frequências são apresentados a seguir:
-
v) a distribuição é aproximadamente simétrica, com pequena assimetria a direita. Assim, a média é a medida de posição mais adequada, em virtude de suas propriedades ótimas e de não haver assimetria acentuada, condição esta que prejudica este estimador em relação a mediana ou moda.
-
vi) Utilizando as informações fornecidas no exercício, podemos estimar a produtividade de leite total do município da seguinte maneira. Cada vaca em lactação produz em média 9,9633 kg e existem em média 8,075 vacas em lactação por produtor e um total de \(7309\) produtores, sendo portanto
\(\seteqnumber{0}{2.}{0}\)\begin{align*} \textrm {Total } =& 9,9633\times 8,075\times 7309\\ =& 588035,7 \textrm { kg/dia} \end{align*}
-
-
2.2.6 A média aritmética, sendo \(k\) o número de categorias, \(7\) no caso, é:
\(\seteqnumber{0}{2.}{0}\)\begin{align*} \bar {X} =& \dfrac {\displaystyle \sum _{i=1}^{k} x_i F_i}{n}= \dfrac {0\times 35+\cdots +6\times 1}{85}=\dfrac {103}{85}\\ =& 1,2118. \end{align*} A moda é o valor mais frequente, ou seja, \(m_o\) \(=\) \(0\) e a mediana, como \(n=85\) é ímpar, é dada por
\(\seteqnumber{0}{2.}{0}\)\begin{align*} m_d =& x_{((n+1)/2)}=x_{(43)}=1. \end{align*}
A distribuição é assimétrica à direita, portanto, a média não é uma boa medida para representar estes dados, uma vez que é influenciada por valores extremos. Assim, pode-se utilizar tanto a mediana, quanto a moda para isso.
-
2.2.7 Dados dos intervalos entre partos.
-
a) A amplitude é:
\(\seteqnumber{0}{2.}{0}\)\begin{align*} A =& X_{(n)}-X_{(1)}=15,96-11,80=4,16. \end{align*}
A amplitude total representa a variação entre o menor e o maior valor, sendo simples de calcular e interpretar. Possui a limitação de tender a aumentar com o aumento da amostra, pois quanto maior a amostra maior a chance de amostrar valores extremos da população que ocorrem com baixa frequência. Também é influenciada por valores extremos, os outliers, pois envolve apenas o valor mínimo e máximo da amostra. Da mesma forma, por considerar apenas os dois valores extremos da amostra, pode não retratar a real variabilidade do conjunto de dados. Veja o exemplo: \(2\), \(4\), \(4\), \(4\), \(4\), \(4\), \(4\), \(10\). A amplitude total é igual a \(8\), mas os dados intermediários da amostra não apresentam variabilidade.
A variância e o desvio padrão são:
\(\seteqnumber{0}{2.}{0}\)\begin{align*} S^2=& \dfrac {1}{19} \left [(11,80^2+\ldots +15,96^2) - \dfrac {(11,80+\ldots +15,96)^2}{20}\right ]\\ =& \dfrac {1}{19}\left [ 3975,717-\dfrac {280,65^2}{20}\right ]=1,973451 \textrm { mes}^2 \end{align*} e \(S=\sqrt {1,973451}=\)1,404796 mês.
O desvio médio, uma vez que a média é \(\bar {X}=\)14,0325 é:
\(\seteqnumber{0}{2.}{0}\)\begin{align*} S_{|\bar {X}|} =& \dfrac {\displaystyle \sum _{i=1}^n\left |X_i-\bar {X}\right |}{n}= \dfrac {2,2325+2,1325+\cdots +1,9275}{20}=\dfrac {24,205}{20}\\ =& 1,21025. \end{align*}
-
b) O coeficiente de variação \(CV\) é dado por:
\(\seteqnumber{0}{2.}{0}\)\begin{align*} CV = & \dfrac {1,404796}{14,0325}\times 100\%\\ =& 10,01102\%. \end{align*}
O coeficiente de variação expressa a variabilidade da amostra em porcentagem da média, sendo uma medida adimensional que não depende da grandeza dos dados. Já a variância e o desvio padrão, são medidas de variabilidade absoluta dos dados em torno da média. A diferença entre as duas medidas é que a variância é uma grandeza que está na unidade dos dados ao quadrado (meses\(^2\)) e o desvio padrão, na mesma unidade dos dados, sendo mais fácil de interpretar.
-
c) O erro padrão da média é dado por:
\(\seteqnumber{0}{2.}{0}\)\begin{align*} S_{\bar {X}}=& \dfrac {S}{\sqrt {n}}=\dfrac {1,404796}{\sqrt {20}}=0,3141219. \end{align*}
O desvio padrão amostral mede a variabilidade dos dados em torno da média amostral (ou estima essa variabilidade populacional) ou mede a variabilidade entre os dados da amostra (ou estima essa variabilidade populacional entre os dados). Já o erro padrão mede a variabilidade entre médias de amostras de tamanho \(n\) em torno da média amostral. Um valor próximo a zero indica que a uma grande chance de a média amostral estar próxima do parâmetro populacional subjacente (\(\mu \)). Se, por outro lado, o valor for grande, existe grande chance de a média amostral (estimativa) estar afastada de \(\mu \).
-
d) Para responder a questão formulada, é necessário obter o coeficiente de precisão por
\(\seteqnumber{0}{2.}{0}\)\begin{align*} CP=& \dfrac {S_{\bar {X}}}{\bar {X}}\times 100\%=\dfrac {0,3141219}{14,0325}\times 100\%=2,238531\%. \end{align*}
Como o erro padrão representou apenas 2,24% do valor médio, concluí-se que a média populacional foi estimada com alta precisão, pois o erro relativo \((CP)\) foi muito pequeno.
Para o caso da produção leiteira, o erro padrão foi de \(S_{\bar {X}}\) \(=\) 0,7071 l e o coeficiente de precisão foi de \(CP\) \(=\) 6,98%. Logo, como o CP da produção leiteira é maior que o CP do intervalo entre partos, a média do intervalo entre partos foi estimada com mais precisão.
-
e) Os comentários foram feitos em cada item anterior.
-
f) Com \(k=1\), temos que ao menos \(1-1/1^2\) \(=\) \(0\%\) dos valores estarão a menos de um desvio padrão em torno da média, à sua direita e a sua esquerda. A média da amostra é \(\bar {X}\) \(=\) 14,03 e o desvio padrão \(S\) \(=\) 1,4048. Assim, o intervalo é \([\)12,63, 15,43\(]\). Neste caso observamos \(60\%\), o que atende a condição do teorema. Para \(k=2\), ao menos \(75\%\) dos valores estarão no intervalo \([\)11,22, 16,84\(]\) determinado por \(2\) desvios padrões em torno da média amostral. A estimativa desta probabilidade é dada pela proporção de valores da amostra no intervalo, que é \(20/20\times 20\) \(=\) \(100\%\), atendendo a condição do teorema. Para \(k=3\), ao menos 88,89% dos valores estarão no intervalo \([\)9,81, 18,24\(]\) determinado por \(3\) desvios padrões em torno da média amostral. A estimativa desta probabilidade é de \(100\%\), atendendo também a condição do teorema.
-
-
2.2.8 Devemos agrupar os dados inicialmente. Inicialmente, determinamos o número de classe por \(k=\sqrt {n}=\sqrt {20} \approx 4\) e a amplitude total por \(A=X_{(20)}-X_{(1)}=15,96-11,80=\)4,16. Assim, a amplitude de classe é dada por \(c=A/(k-1)=4,16/3\approx \) 1,39 e o limite inferior da primeira classe por \(LI_1 = x_{(1)}-c/2\)=11,80\(-\)1,39/2\(=\)11,11. Os demais limites de classe são obtidos somando-se \(c=\)1,39 aos limites anteriormente obtidos. A distribuição de frequências é:
Classes dos tempos \(\bar {X}_i\) \(F_i\) \(Fr_i\) \(Fp_i\)(%) 11,11 \(\vdash \) 12,50 11,81 4 0,20 20 12,50 \(\vdash \) 13,89 13,20 5 0,25 25 13,89 \(\vdash \) 15,28 14,59 7 0,35 35 15,28 \(\vdash \) 16,67 15,98 4 0,20 20 Aproveitamos o ensejo e computamos as principais medidas de posição destes dados agrupados. A média aritmética é dada por:
\(\seteqnumber{0}{2.}{0}\)\begin{align*} \bar {X}=& \dfrac {\displaystyle \sum _{i=1}^k F_i \bar {X}_i}{n}=\dfrac {11,81\times 4+ 13,20\times 5+ 14,59\times 7+ 15,98\times 4}{20}=\dfrac {279,29}{20}\\ =& 13,9645 \textrm { meses}. \end{align*}
A diferença encontrada para a média dos dados não agrupados (14,0325) pode ser atribuída ao agrupamento. Toda forma de representar os dados de uma maneira mais simplificada conduz a algum tipo de perda de precisão. Ms o que deve ficar claro é que apesar de menos precisa, a estimativa obtida a partir dos dados agrupados é uma “estimativa confiável” da média populacional, tanto quanto a estimativa dos dados originais. A perda de precisão é, em geral, pequena e pode ser considerada desprezível.
A mediana é obtida da seguinte maneira. A classe mediana é aquela que contém a posição número \(n/2=20/2=10\). Portanto, a classe mediana é a terceira, pois as frequências acumuladas das duas primeiras classes somam apenas \(9\), que é inferior a \(10\). Logo,
\(\seteqnumber{0}{2.}{0}\)\begin{align*} m_d =& LI_{m_d}+\dfrac {\frac {n}{2}-F_A}{F_{m_d}}c_{m_d}=13,89+\dfrac {10-9}{7}\times 1,39\\ =& 14,08857 \textrm { meses}, \end{align*} em que \(F_A\) \(=\) \(F_c\) é a frequência acumulada das classes anteriores a classe mediana.
Para obter a moda, é necessário determinar a classe de maior frequência, ou seja, a classe modal. A classe modal neste exercício é a terceira. A diferença das frequências da classe modal e classe anterior é \(\Delta _1=7-5=2\) e a diferença das frequências da classe modal e classe posterior é \(\Delta _2=7-4=3\). Assim, tem-se
\(\seteqnumber{0}{2.}{0}\)\begin{align*} m_o=& LI_{m_o} + \dfrac {\Delta _1}{\Delta _1+\Delta _2} c_{m_o}=13,89+\dfrac {2}{2+3}\times 1,39\\ =& 14,446 \textrm { meses}. \end{align*}
As três medidas, média, mediana e moda, estão muito próximas e isso é um indicativo que a distribuição dos dados deve ser aproximadamente simétrica.
-
a) As medidas de dispersão para os dados agrupados são dadas na sequência. A amplitude total é dada por
\(\seteqnumber{0}{2.}{0}\)\begin{align*} A=&\bar {X}_{k}-\bar {X}_{1}= 15,98-11,81=4,17 \textrm { meses}, \end{align*} a variância, por
\(\seteqnumber{0}{2.}{0}\)\begin{align*} S^2=&\dfrac {1}{n-1} \left [\sum _{i=1}^k \bar {X}_i^2F_i - \dfrac {\left (\displaystyle \sum _{i=1}^k \bar {X}_iF_i\right )^2}{n}\right ]\\ =& \dfrac {1}{19}\Bigg [11,81^2\times 4+ 13,20^2\times 5+ 14,59^2\times 7+ 15,98^2\times 4-\\ &-\dfrac {\left (11,81\times 4+ 13,20\times 5+ 14,59\times 7+ 15,98\times 4\right )^2}{20}\Bigg ]\\ =& \dfrac {1}{19}\left ( 3940,623-\dfrac {279,29^2}{20}\right )\\ =& 2,130394 \textrm { meses}^2, \end{align*} o desvio padrão, por \(S=\sqrt {2,130394}=\)1,459587 meses, o \(CV\), por
\(\seteqnumber{0}{2.}{0}\)\begin{align*} CV=& \dfrac {1,459587}{13,9645}\times 100\%=10,45213\%, \end{align*} o erro padrão da média,
\(\seteqnumber{0}{2.}{0}\)\begin{align*} S_{\bar {X}}=& \dfrac {S}{\sqrt {n}}=\dfrac {1,459587}{\sqrt {20}}=0,3263736 \textrm { mes}, \end{align*} e o \(CP\), por
\(\seteqnumber{0}{2.}{0}\)\begin{align*} CP=& \dfrac {S_{\bar {X}}}{\bar {X}}\times 100\%=\dfrac {0,3263736}{13,9645}\times 100\%=2,337166\%. \end{align*}
-
b) Pequenas diferenças foram encontradas entre os resultados para os dados agrupados e para os resultados dos dados originais (exercício anterior). Entretanto, as diferenças são um pouco maiores que as observadas quando comparamos os resultados das medidas de posição. Isso é esperado, uma vez que as medidas de dispersão sao funções de \(X_i^2\) e, por considerar os dados ao quadrado, os erros ficam amplificados.
-
c) Para representar um conjunto de dados com duas medidas descritivas, deve-se utilizar uma medida de posição e outra de dispersão. Se a amostra possuir uma distribuição simétrica ou com pequena assimetria apenas, deve-se utilizar a média como medida de posição. Se a distribuição for assimétrica, as medidas de posição robustas, como mediana e moda, devem ser preferidas, pois são pouco influenciadas por valores extremos. Como medida de dispersão, podemos utilizar ou a variância, ou o desvio padrão ou o coeficiente de variação, se o interesse for retratar a variabilidade entre os elementos da amostra em relação a sua média. Se por outro lado, o interesse for na precisão da estimativa da média populacional, ou o erro padrão ou o \(CP\) devem ser utilizados. A escolha entre uma medida absoluta e relativa fica a critério do pesquisador, pois podemos facilmente migrar de uma para outra.
-
d) Para responder estas questões é necessário determinar o \(CV\) e o \(CP\), antes e após o plano panela cheia. Na tabela seguinte foram resumidas as informações necessárias.
Medida de variabilidade Antes do plano Após o plano \(CV\) 10,01% 14,44% \(CP\) 2,24% 3,23% Como o \(CV\) do pós plano é maior do que o \(CV\) pré plano, há uma maior variabilidade dos intervalos de parto após o plano panela cheia ter sido implementado. Da mesma forma, houve uma menor precisão na estimativa da média populacional na situação pós plano, pois o erro padrão expresso em porcentagem da média \((CP)\) foi maior do que na situação pré plano. Mas no caso da precisão, em ambos os casos, a média foi estimada com uma alta precisão, pois os \(CP\) foi baixo (\(CP<10\%\))
-
-
2.2.9 Vamos demonstrar as propriedades da variância amostral:
-
i. Como \(Y_i\) \(=\) \(X_i + k\), \(k\) constante temos:
\(\seteqnumber{0}{2.}{0}\)\begin{align*} S_Y^2 =& \dfrac {1}{n-1}\sum _{i=1}^{n} (Y_i-\bar {Y})^2= \dfrac {1}{n-1}\sum _{i=1}^{n} (X_i+k-(\bar {X}+k))^2\quad \textrm {(propriedades da média)}\\ =& \dfrac {1}{n-1}\sum _{i=1}^{n} (X_i-\bar {X})^2=S^2_X, \end{align*} como queríamos mostrar.
-
ii. Como \(Z_i\) \(=\) \(kX_i\), \(k\) constante temos:
\(\seteqnumber{0}{2.}{0}\)\begin{align*} S_Z^2 =& \dfrac {1}{n-1}\sum _{i=1}^{n} (Y_i-\bar {Y})^2= \dfrac {1}{n-1}\sum _{i=1}^{n} (kX_i-k\bar {X})^2\quad \textrm {(propriedades da média)}\\ =& \dfrac {1}{n-1}\sum _{i=1}^{n} k^2 (X_i-\bar {X})^2= k^2\dfrac {1}{n-1}\sum _{i=1}^{n} (X_i-\bar {X})^2\\ =&k^2S^2_X, \end{align*} como queríamos mostrar.
-
iii. Vamos começar pela variável \(Y\). A amplitude total é:
\(\seteqnumber{0}{2.}{0}\)\begin{align*} A_Y =& Y_{(n)}-Y_{(1)}= X_{(n)}+k-(X_{(1)}+k)=X_{(n)}-X_{(1)}\\ =& A_X. \end{align*} O desvio médio de \(Y\) é:
\(\seteqnumber{0}{2.}{0}\)\begin{align*} S_{|\bar {Y}|} =& \dfrac {\displaystyle \sum _{i=1}^n\left |Y_i-\bar {Y} \right |}{n}=\dfrac {\displaystyle \sum _{i=1}^n\left |X_i + k-(\bar {X}+k) \right |}{n}\\ =& \dfrac {\displaystyle \sum _{i=1}^n\left |X_i -\bar {X} \right |}{n}\\ =& S_{|\bar {X}|}. \end{align*} O desvio padrão é:
\(\seteqnumber{0}{2.}{0}\)\begin{align*} S_{Y} =& \sqrt {S^2_Y}=\sqrt {S^2_X}\\ =& S_{X}. \end{align*} O erro padrão da média para \(Y\) é:
\(\seteqnumber{0}{2.}{0}\)\begin{align*} S_{\bar {Y}} =& \dfrac {S_Y}{\sqrt {n}}=\dfrac {S_X}{\sqrt {n}}\quad \textrm {(pela propriedade anterior)}\\ =& S_{\bar {X}}. \end{align*} O coeficiente de precisão:
\(\seteqnumber{0}{2.}{0}\)\begin{align*} CP_{Y} =& 100\times \dfrac {S_{\bar {Y}}}{\bar {Y}}=\dfrac {100S_{\bar {X}}}{\bar {X}+k}\\ =& \dfrac {CP_X}{1+\frac {k}{\bar {X}}}, \end{align*} que sempre terá redução para variáveis com média positiva se \(k\) for positivo (adição de constante) e redução, para \(k\) negativo (subtração de constante). Finalmente, o coeficiente de variação:
\(\seteqnumber{0}{2.}{0}\)\begin{align*} CV_{Y} =& 100\times \dfrac {S_Y}{\bar {Y}}= \dfrac {100S_X}{\bar {X}+k}\\ =& \dfrac {CV_X}{1+\frac {k}{\bar {X}}}, \end{align*} cujos comentários anteriores para o \(CP\) valem igualmente.
Para a variável \(Z\), vamos começar com a amplitude:
\(\seteqnumber{0}{2.}{0}\)\begin{align*} A_Z =& Z_{(n)}-Z_{(1)}= kX_{(n)}-kX_{(1)}=k(X_{(n)}-X_{(1)})\\ =& k A_X. \end{align*} O desvio médio de \(Z\) é:
\(\seteqnumber{0}{2.}{0}\)\begin{align*} S_{|\bar {Z}|} =& \dfrac {\displaystyle \sum _{i=1}^n\left |Z_i-\bar {Z} \right |}{n}=\dfrac {\displaystyle \sum _{i=1}^n\left |kX_i -k\bar {X} \right |}{n}\\ =& \dfrac {|k|\displaystyle \sum _{i=1}^n\left |X_i -\bar {X} \right |}{n}\\ =& |k|S_{|\bar {X}|}. \end{align*} O desvio padrão de \(Z\) é:
\(\seteqnumber{0}{2.}{0}\)\begin{align*} S_{Z} =& \sqrt {S^2_Z}=\sqrt {k^2 S^2_X}\\ =& |k| S_{X}. \end{align*} O erro padrão da média para \(Z\) é:
\(\seteqnumber{0}{2.}{0}\)\begin{align*} S_{\bar {Z}} =& \dfrac {S_Z}{\sqrt {n}}=\dfrac {|k|S_X}{\sqrt {n}}\quad \textrm {(pela propriedade anterior)}\\ =& |k|S_{\bar {X}}. \end{align*} O coeficiente de precisão:
\(\seteqnumber{0}{2.}{0}\)\begin{align*} CP_{Z} =& 100\times \dfrac {S_{\bar {Z}}}{\bar {Z}}= \dfrac {100|k|S_{\bar {X}}}{k\bar {X}}\\ =& \pm CP_X, \end{align*} que será negativo se \(k\) for negativo e positivo, se \(k>0\). Finalmente, o coeficiente de variação:
\(\seteqnumber{0}{2.}{0}\)\begin{align*} CV_{Z} =& 100\times \dfrac {S_Z}{\bar {Z}}= \dfrac {100|k|S_X}{k\bar {X}}\\ =& \pm CV_X, \end{align*} cujos comentários anteriores para o \(CP\) valem igualmente.
-
-
2.2.10 Para a variável número de galhas por planta tem-se:
-
a) As medidas de dispersão para este conjunto de dados são apresentadas na sequência. A amplitude total é
\(\seteqnumber{0}{2.}{0}\)\begin{align*} A =& x_{(n)}-x_{(1)}=x_{(85)}-x_{(1)}=6-0=6 \textrm { galhas/planta}. \end{align*}
A variância é
\(\seteqnumber{0}{2.}{0}\)\begin{align*} S^2=&\dfrac {1}{n-1} \left [\sum _{i=1}^k x_i^2F_i - \dfrac {\left (\displaystyle \sum _{i=1}^k x_iF_i\right )^2}{n}\right ]\\ =& \dfrac {1}{84}\Bigg [0^2\times 35+ 1^2\times 20+ \ldots +6^2\times 1-\dfrac {\left (0\times 35+ 1\times 20+ \ldots + 6\times 1\right )^2}{85}\Bigg ]\\ =&\dfrac {1}{84}\left (285-\dfrac {103^2}{85}\right )\\ =& 2,166667 \textrm { (galhas/planta)}^2, \end{align*} em que \(k\) é o número de categorias da variável, \(7\) no caso; o desvio padrão é \(S=\sqrt {2,166667}=\)1,47196 galha/planta e o erro padrão da média
\(\seteqnumber{0}{2.}{0}\)\begin{align*} S_{\bar {X}}=& \dfrac {S}{\sqrt {n}}=\dfrac {1,47196}{\sqrt {85}}=0,1596565 \textrm { galha/planta}. \end{align*}
-
b) O \(CV\) e o \(CP\) são
\(\seteqnumber{0}{2.}{0}\)\begin{align*} CV = & \dfrac {S}{\bar {X}}\times 100\%=\dfrac {1,47196}{1,211765}\times 100\%\\ =& 121,4724\% \end{align*} e
\(\seteqnumber{0}{2.}{0}\)\begin{align*} CP = & \dfrac {S_{\bar {X}}}{\bar {X}}\times 100\%=\dfrac {0,1596565}{1,211765}\times 100\%\\ =& 13,17554\%, \end{align*} respectivamente. Estes valores indicam que há uma grande variabilidade dos dados em torno da média e que a precisão da estimativa da média populacional não é muito alta, embora seja boa. Convém salientar que, tanto para o \(CV\) quanto para o \(CP\), o pesquisador deve buscar na literatura experimentos semelhantes ao seu, ou seja, com as mesmas características utilizadas e com a mesma variável, entre outros fatores, para fazer uma comparação da variabilidade e da precisão adequadamente.
-
-
2.2.11 O momento amostral de ordem \(2\) para os \(n=30\) dados da produção leiteira é:
\(\seteqnumber{0}{2.}{0}\)\begin{align*} m_2 =& \dfrac {\displaystyle \sum _{i=1}^n(X_i-\bar {X})^2}{n}= \dfrac {(-1,86)^2+(-1,76)^2+\cdots +2,15^2}{30} = \dfrac {28,6316}{30}\\ =& 0,9543867. \end{align*} O momento de ordem \(3\) é:
\(\seteqnumber{0}{2.}{0}\)\begin{align*} m_3 =& \dfrac {\displaystyle \sum _{i=1}^n(X_i-\bar {X})^3}{n} = \dfrac {(-1,86)^3+(-1,76)^3+\cdots +2,15^3}{30} = \dfrac {6,561894}{30}\\ =& 0,2187298. \end{align*} O momento de ordem \(4\) é:
\(\seteqnumber{0}{2.}{0}\)\begin{align*} m_4 =& \dfrac {\displaystyle \sum _{i=1}^n(X_i-\bar {X})^4}{n} = \dfrac {(-1,86)^4+(-1,76)^4+\cdots +2,15^4}{30} = \dfrac {78,96063}{30}\\ =& 2,632021. \end{align*}
Assim, o coeficiente de assimetria é
\(\seteqnumber{0}{2.}{0}\)\begin{align*} \sqrt {b_1} =& \dfrac {m_3}{m_2^{\frac {3}{2}}}= \dfrac {0,2187298}{0,9543867^{\frac {3}{2}}}\\ =& 0,2345964. \end{align*} O coeficiente de curtose é
\(\seteqnumber{0}{2.}{0}\)\begin{align*} b_2 =& \dfrac {m_4}{m_2^2}= \dfrac {2,632021}{0,9543867^2}\\ =& 2,889619. \end{align*}
Logo, a assimetria é positiva mas de pequena magnitude, indicando uma pequena assimetria à direita da distribuição da produção de leite. O coeficiente de curtose é um pouco menor que \(3\) e a distribuição é platicúrtica, com pequeno desvio de achatamento da distribuição de referência, que é mesocúrtica. Estes resultados são estimativas dos verdadeiros parâmetros populacionais e estes desvios para os valores de referência devem ser testados para que haja uma confirmação de desvios de simetria e achatamento.
-
2.2.12 Na tabela a seguir classificamos a distribuição quanto à simetria e ao grau de achatamento (curtose). Usamos AE, S e AD para distribuições assimétricas à esquerda, simétricas e assimétricas à direita, respectivamente. Também usamos P, M e L para distribuições platicúrticas, mesocúrticas e leptocúrticas, respectivamente.
Coeficiente de Coeficiente de Classificação da Classificação do grau simetria curtose simetria de achatamento +0,5 3,0 AD M -2,0 1,0 AE P +2,0 2,0 AD P +3,0 3,0 AD M +0,0 3,0 S M +0,0 3,5 S L -3,0 4,5 AE L