EB

Estatı́stica Básica

\(\newcommand{\footnotename}{footnote}\) \(\def \LWRfootnote {1}\) \(\newcommand {\footnote }[2][\LWRfootnote ]{{}^{\mathrm {#1}}}\) \(\newcommand {\footnotemark }[1][\LWRfootnote ]{{}^{\mathrm {#1}}}\) \(\let \LWRorighspace \hspace \) \(\renewcommand {\hspace }{\ifstar \LWRorighspace \LWRorighspace }\) \(\newcommand {\mathnormal }[1]{{#1}}\) \(\newcommand \ensuremath [1]{#1}\) \(\newcommand {\LWRframebox }[2][]{\fbox {#2}} \newcommand {\framebox }[1][]{\LWRframebox } \) \(\newcommand {\setlength }[2]{}\) \(\newcommand {\addtolength }[2]{}\) \(\newcommand {\setcounter }[2]{}\) \(\newcommand {\addtocounter }[2]{}\) \(\newcommand {\arabic }[1]{}\) \(\newcommand {\number }[1]{}\) \(\newcommand {\noalign }[1]{\text {#1}\notag \\}\) \(\newcommand {\cline }[1]{}\) \(\newcommand {\directlua }[1]{\text {(directlua)}}\) \(\newcommand {\luatexdirectlua }[1]{\text {(directlua)}}\) \(\newcommand {\protect }{}\) \(\def \LWRabsorbnumber #1 {}\) \(\def \LWRabsorbquotenumber "#1 {}\) \(\newcommand {\LWRabsorboption }[1][]{}\) \(\newcommand {\LWRabsorbtwooptions }[1][]{\LWRabsorboption }\) \(\def \mathchar {\ifnextchar "\LWRabsorbquotenumber \LWRabsorbnumber }\) \(\def \mathcode #1={\mathchar }\) \(\let \delcode \mathcode \) \(\let \delimiter \mathchar \) \(\def \oe {\unicode {x0153}}\) \(\def \OE {\unicode {x0152}}\) \(\def \ae {\unicode {x00E6}}\) \(\def \AE {\unicode {x00C6}}\) \(\def \aa {\unicode {x00E5}}\) \(\def \AA {\unicode {x00C5}}\) \(\def \o {\unicode {x00F8}}\) \(\def \O {\unicode {x00D8}}\) \(\def \l {\unicode {x0142}}\) \(\def \L {\unicode {x0141}}\) \(\def \ss {\unicode {x00DF}}\) \(\def \SS {\unicode {x1E9E}}\) \(\def \dag {\unicode {x2020}}\) \(\def \ddag {\unicode {x2021}}\) \(\def \P {\unicode {x00B6}}\) \(\def \copyright {\unicode {x00A9}}\) \(\def \pounds {\unicode {x00A3}}\) \(\let \LWRref \ref \) \(\renewcommand {\ref }{\ifstar \LWRref \LWRref }\) \( \newcommand {\multicolumn }[3]{#3}\) \(\require {textcomp}\) \(\newcommand {\intertext }[1]{\text {#1}\notag \\}\) \(\let \Hat \hat \) \(\let \Check \check \) \(\let \Tilde \tilde \) \(\let \Acute \acute \) \(\let \Grave \grave \) \(\let \Dot \dot \) \(\let \Ddot \ddot \) \(\let \Breve \breve \) \(\let \Bar \bar \) \(\let \Vec \vec \) \(\require {mathtools}\) \(\newenvironment {crampedsubarray}[1]{}{}\) \(\newcommand {\smashoperator }[2][]{#2\limits }\) \(\newcommand {\SwapAboveDisplaySkip }{}\) \(\newcommand {\LaTeXunderbrace }[1]{\underbrace {#1}}\) \(\newcommand {\LaTeXoverbrace }[1]{\overbrace {#1}}\) \(\newcommand {\LWRmultlined }[1][]{\begin {multline*}}\) \(\newenvironment {multlined}[1][]{\LWRmultlined }{\end {multline*}}\) \(\let \LWRorigshoveleft \shoveleft \) \(\renewcommand {\shoveleft }[1][]{\LWRorigshoveleft }\) \(\let \LWRorigshoveright \shoveright \) \(\renewcommand {\shoveright }[1][]{\LWRorigshoveright }\) \(\newcommand {\shortintertext }[1]{\text {#1}\notag \\}\) \(\newcommand {\vcentcolon }{\mathrel {\unicode {x2236}}}\) \(\newcommand {\bm }[1]{\boldsymbol {#1}}\) \(\require {cancel}\) \(\newcommand {\firsthdashline }[1][]{\hdashline }\) \(\let \lasthdashline \firsthdashline \) \(\let \cdashline \cline \) \(\require {colortbl}\) \(\let \LWRorigcolumncolor \columncolor \) \(\renewcommand {\columncolor }[2][named]{\LWRorigcolumncolor [#1]{#2}\LWRabsorbtwooptions }\) \(\let \LWRorigrowcolor \rowcolor \) \(\renewcommand {\rowcolor }[2][named]{\LWRorigrowcolor [#1]{#2}\LWRabsorbtwooptions }\) \(\let \LWRorigcellcolor \cellcolor \) \(\renewcommand {\cellcolor }[2][named]{\LWRorigcellcolor [#1]{#2}\LWRabsorbtwooptions }\) \(\newcommand {\tcbset }[1]{}\) \(\newcommand {\tcbsetforeverylayer }[1]{}\) \(\newcommand {\tcbox }[2][]{\boxed {\text {#2}}}\) \(\newcommand {\tcboxfit }[2][]{\boxed {#2}}\) \(\newcommand {\tcblower }{}\) \(\newcommand {\tcbline }{}\) \(\newcommand {\tcbtitle }{}\) \(\newcommand {\tcbsubtitle [2][]{\mathrm {#2}}}\) \(\newcommand {\tcboxmath }[2][]{\boxed {#2}}\) \(\newcommand {\tcbhighmath }[2][]{\boxed {#2}}\)

2.2 Resolução

  • 2.2.1 Distribuição de frequências:

    • a) Os diferentes critérios diferem apenas no número de classes usado. Assim, usaremos apenas o critério empírico, Tabela 2.9, em que o número de classes \(k\) é dado por

      \begin{align*} k =&\left \{\begin{array}{ll} \sqrt {n} & n\le 100 \quad (\textrm {inteiro mais próximo}) \\ 5\log _{10}(n) & n > 100 \quad (\textrm {inteiro mais próximo}), \end {array} \right . \end{align*} que resulta em \(k\) \(=\) \(\sqrt {n}\) \(=\) \(\sqrt {50}\) \(=\) \(7\) classes. Os demais casos ficam por conta do leitor reproduzir.

      O próximo passo é determinar a amplitude total, dada por:

      \[ A=X_{(n)}-X_{(1)}=25,52-1,52=24g. \]

      Em seguida computamos a amplitude de classe e o limite inferior da primeira classe por:

      \begin{align*} c=& \dfrac {A}{k-1}= \dfrac {24}{6}=4\\ LI_{1} =& X_{(1)}-\dfrac {c}{2}=1,52-2=-0,48. \end{align*} Assim, a distribuição de frequências resultante é:

      .
      Classes de produção \(\bar {X}_i\) \(F_i\) \(Fr_i\) \(Fp_i\)(%)
      \(-0,48\vdash \,\,3,52\) 1,52 11 0,22 22
      \(\,\,\,\, 3,52\vdash 7,52\) 5,52 16 0,32 32
      \(\,\,\,\, 7,52\vdash 11,52\) 9,52 12 0,24 24
      \(\,11,52\vdash 15,52\) 13,52 7 0,14 14
      \(\,15,52\vdash 19,52\) 17,52 2 0,04 4
      \(\,19,52\vdash 23,52\) 21,52 1 0,02 2
      \(\,23,52\vdash 27,52\) 25,52 1 0,02 2

      Os demais critérios seguem o mesmo padrão e não serão mostrados, podendo diferir no número de classes apenas. Se isso ocorre, obviamente as demais quantidades se modificam. Fica por conta do leitor verificar tais fatos.

    • b) O histograma e o polígono de frequências foram plotados em um mesmo gráfico, obtendo:

      (-tikz- diagram)

    • c) A tabela de distribuição de frequências acumuladas para este caso é:

      .
      Limites \((x_i)\) \(FC(X<x_i)\) \(FC(X\ge x_i)\)
      \(\,\, -0,48\) 0 50
      \(\,\,\, 3,52\) 11 39
      \(\,\,\, 7,52\) 27 23
      \(11,52\) 39 11
      \(15,52\) 46 4
      \(19,52\) 48 2
      \(23,52\) 49 1
      \(27,52\) 50 0

      (-tikz- diagram)

    • d) Porcentagem de plantas com produção superior a \(9\):

      • i) Usando a contagem direta nos dados originais, vemos que \(18\) valores superam o valor \(9\). Assim, com uma regra de três simples extrapolamos a estimativa para o caso geral, ou seja, dizemos que \(36\%\) das plantas produzem mais que \(9\) g.

      • ii) Usando a ogiva: na figura anterior, plotamos a linha correspondente ao valor \(9\) e encontramos a ogiva \(F_{c\downarrow }\). A leitura gráfica resultou no valor aproximado de 18,64. Este valor corresponde a 37,28% das plantas com produtividade superior a \(9\) g.

      • iii) Na distribuição de frequências temos que os valor \(9\) está na terceira classe. As demais classes, superiores a terceira, possuem valores que são sabidamente superiores a \(9\) e totalizam \(11\) plantas. Resta descobrir, por interpolação geométrica, quantas das \(12\) plantas são superiores a \(9\) na terceira classe. Usamos regra de três e supomos que a distribuição dentro da classe é uniforme. Logo,

        \begin{align*} 11,52-7,52=4,00 \longrightarrow & F_3=12\\ 11,52-9,00=2,52 \longrightarrow & x, \end{align*} resultando em \(x\) \(=\) 7,56 plantas superam \(9\) g de produtividade. Assim, o total é de 7,56 \(+\) 11 \(=\) 18,56. Este valor corresponde a 37,12% das plantas com produtividade superior a \(9\) g.

        As três respostas, dos três diferentes métodos, foram muito próximas uma das outras, como esperado. O valor “exato” (melhor estimativa da proporção populacional) foi de \(36\%\) e os erros para mais foram de 1,28 e 1,12 pontos percentuais. Em termos relativos estes erros foram de 3,56% e 3,11%, respectivamente, para a interpolação geométrica e interpolação algébrica.

    • e) Pela observação da distribuição de frequências podemos dizer que a distribuição é assimétrica à direita, embora o grau de assimetria não seja muito intenso. Este fenômeno é compatível com segregação em caracteres quantitativos com dominância (herança quantitativa na presença de dominância).

    • f) O gráfico de ramos-e-folhas, pode ser feito pelo R, com o comando stem(prod), sendo prod o vetor de dados originais. O resultado é dado por:

       0 | 5
       2 | 2489012455899
       4 | 4682
       6 | 025677813
       8 | 0248022246
      10 | 19
      12 | 015899
      14 | 2
      16 | 6
      18 | 4
      20 |
      22 | 1
      24 | 5
      

      Uma versão mais moderna é o BoxPlot, feito com o comando boxplot(prod) no R, apresentado a seguir:

      (image)

      Neste gráfico, podemos observar o mínimo, excluindo os potenciais outliers, o máximo, também excluindo os outliers, mediana, primeiro quartil (percentil \(25\%\)) e terceiro quartil (percentil \(75\%\)).

    • g) Determinar a produção que acima dela estão \(50\%\) das plantas (\(25\) plantas):

      • i) Pela observação direta dos dados ordenados, dados por:

        1,52 2,23 2,39 2,81 2,85 3,01 3,10 3,19 3,38 3,49 3,50 3,76 3,86
        3,90 4,43 4,64 4,80 5,15 6,02 6,20 6,53 6,61 6,71 6,73 6,78 7,07
        7,33 7,97 8,23 8,40 8,75 8,99 9,15 9,19 9,20 9,40 9,60 10,09 10,86
        12,95 13,12 13,46 13,84 13,86 13,94 14,20 16,56 18,44 22,14 25,52
        

        podemos observar que o valor procurado está entre 6,78 e 7,07. Qualquer valor entre estes dois números é um potencial valor para nossa resposta. Podemos convencionar tomar o valor médio dos dois. Assim, a resposta é 6,925 g.

      • ii) Uma segunda alternativa é usar o método gráfico, pelas ogivas. Selecionamos o valor da abscissa de \(25\) e encontramos a curva das frequências acumuladas \(F_{c\uparrow }\). O valor correspondente na abscissa é o valor almejado, como ilustra a figura abaixo:

        (-tikz- diagram)

        Este valor corresponde ao valor 7,03 g, na abscissa. Assim, \(50\%\) das plantas superam 7,03 g, por este método.

      • iii) Pela interpolação algébrica na distribuição de frequências, temos que acima de 7,52 g temos \(23\) plantas e acima de 3,52, \(39\) plantas. Logo, o valor almejado encontra-se na segunda classe e pode ser obtido por interpolação. Como acima de 7,52 temos \(23\) plantas, acima do valor almejado na segunda classe tem-se \(25\), entre o valor almejado e o limite superior 7,52 g faltam mais \(2\) plantas para se completarem as \(25\) necessárias. Assim:

        \begin{align*} 4 \longrightarrow & 16 \\ x \longrightarrow & 2, \end{align*} resultando em \(x\) \(=\) 0,50 g. O valor pretendido é, portanto, 7,52\(-\)0,50 \(=\) 7,02 g. Logo, \(50\%\) das plantas superam 7,02 g, por este método.

        Os três métodos novamente levaram a resultados muito parecidos e qualquer um deles pode ser escolhido para estimar tais quantis superiores ou para se estimar quantis inferiores. Isso dependerá apenas de qual tipo de informação está disponível para o leitor quando for estimar tais quantidades.

    • h) Para obter a porcentagem de valores com produtividade inferior a 3,5 g vamos usar a interpolação algébrica na distribuição de frequências apenas. Os outros dois métodos podem ser aplicados como nos casos anteriores. O valor de 3,5 encontra-se na primeira classe. Logo,

      \begin{align*} 4 \longrightarrow & 11 \\ 3,5-(-0,48)=3,98 \longrightarrow & x, \end{align*} resultando em “10,945 plantas”. Considerando que \(100\%\) correspondem a \(50\) plantas, então 10,945 correspondem a 21,89%. Portanto, 21,89% das plantas produzem menos que 3,50 g.

    • i) Novamente vamos usar a interpolação algébrica na distribuição de frequências apenas. Para o valor que deixa abaixo dele \(25\%\) das plantas (12,5 plantas), temos que ele se encontra na classe \(2\). Na classe \(1\) temos \(11\) plantas. Logo, é necessária mais 1,5 planta para se completar as 12,5 plantas. Logo, das \(16\) plantas da classe, precisaremos de achar o valor que deixa 1,5 delas abaixo dele. Assim,

      \begin{align*} 4 \longrightarrow & 16 \\ x \longrightarrow & 1,5, \end{align*} resultando em \(x\) \(=\) 0,375. O valor almejado é 3,52\(+\)0,375 \(=\) 3,895. Assim, \(25\%\) das plantas estão abaixo de 3,895 g.

      Para o valor que deixa \(25\%\) das plantas (12,5 plantas) acima dele, verificamos que acima de 11,52 g temos \(11\) plantas. É necessária 1,5 planta na classe \(3\). Logo,

      \begin{align*} 4 \longrightarrow & 12 \\ x \longrightarrow & 1,5, \end{align*} resultando em \(x\) \(=\) 0,50. O valor almejado é 11,52\(-\)0,50 \(=\) 11,02. Assim, \(25\%\) das plantas estão acima de 11,02 g.

  • 2.2.2 A variável número de galhas por planta foi analisada da seguinte forma:

    • a) O gráfico da ocorrência de galhas é dado por:

      (-tikz- diagram)

      Verifica-se que a distribuição é assimétrica à direita. A variável do exercício 1 é quantitativa contínua e a variável do exercício atual é quantitativa discreta.

    • b) A tabela de distribuição de frequências acumuladas para este caso é:

      .
      \(x_i\) \(FC(X\le x_i)\) \(FC(X > x_i)\) \(FC_r(X\le x_i)\) \(FC_r(X > x_i)\)
      \(-1\) 0 85 0,00 1,00
      \(0\) 35 50 0,41 0,59
      \(1\) 55 30 0,65 0,35
      \(2\) 72 13 0,85 0,15
      \(3\) 79 6 0,93 0,07
      \(4\) 82 3 0,96 0,04
      \(5\) 84 1 0,99 0,01
      \(6\) 85 0 1,00 0,00
      \(7\) 85 0 1,00 0,00
    • c) É potencialmente possível encontrar tal planta com mais de \(6\) galhas, mesmo em uma área de baixa incidência de nematóides como essa. Para isso é necessário aumentar o tamanho da amostra, pois plantas com tal infestação, pelo que indica os dados e o gráfico anterior, estão em baixa frequência na população amostrada. Assim, estes elementos em baixa frequência na população teriam chances mais elevadas de serem amostrados em grandes amostras.

  • 2.2.3 Sejam as amostras de tamanho \(n=5\) dadas por:

    \begin{align*} X=&\left \{2, 4, 4, 3, 2\right \}\\ Y=&\left \{1, 2, 3, 6, 7\right \}, \end{align*} então:

    i) \(\displaystyle \sum _{j=1}^4 x_j = \) \(x_1+x_2+x_3+x_4=\) \(2+4+4+3=13\);

    ii) \(\displaystyle \sum _{j=1}^5 4x_j^2 =2 \sum _{j=1}^5 x_j^2=\) \(4\times (2^2+4^2+\ldots +2^2)=2\times 49=196\);

    iii) \(\displaystyle \sum _{j=1}^5 (3x_j+2y_j)=3\sum _{j=1}^5 x_j+ 2\sum _{j=1}^5 y_j=\) \(3\times 15 + 2\times 19=83\);

    iv) \(\displaystyle \sum _{j=1}^5 y_j =\) \(y_1+\ldots +y_5=\) \(1+2+\ldots +7=19\);

    v) \(\displaystyle \sum _{j=1}^5 x_j y_j =\) \(2\times 1+ 4\times 2+ \ldots + 2\times 7=\) \(2+8+\ldots +14=54\); e

    vi) \(\displaystyle \sum _{j=2}^4 x_jy_j + \sum _{j=1}^5 y_j^2=\) \(40+(1^2+2^2+\ldots +7^2)=40+99=139.\)

    Mostrar numérica e algebricamente que as somas de desvios em relação a média aritmética é nula, qualquer que seja a amostra, usando o conjunto \(X\) dado anteriormente para o caso numérico:

    a) Numericamente

    A média é:

    \begin{align*} \bar {X} =& \dfrac {\displaystyle \sum _{j=1}^{n} X_j}{n}=\dfrac {13+2}{5}=3 \end{align*}

    \(\displaystyle \sum _{j=1}^n(X_j-\bar {X})=(2-3)+(4-3)+\ldots +(2-3)=-1+1+1+0-1=0\);

    b) algebricamente

    \begin{align*} \sum _{j=1}^n(X_j-\bar {X})=& \sum _{j=1}^nX_j-\sum _{j=1}^n\bar {X}=\sum _{j=1}^nX_j-n\bar {X}\\ =& \sum _{j=1}^nX_j-\dfrac {\cancel {n} \displaystyle \sum _{j=1}^n X_j}{\cancel {n}}=\sum _{j=1}^nX_j-\sum _{j=1}^nX_j=0,\quad \textrm { C.Q.M.} \end{align*}

    Finalmente, para os dados da tabela de dupla entrada das produtividades da gramínea, as seguintes somas

    \(i. \displaystyle \sum _{i=1}^4\sum _{j=1}^3 X_{ij}^2 = (4,6^2+\cdots +5,5^2+\cdots +6,0^2+\cdots +6,8^2\) \(=\) \(76,41+92,46+101,64+120,68\) \(=\) \(391,19\)

    \(ii. \displaystyle \sum _{i=1}^4 X_{ij}^2 \quad j=1,2,3\)

    Temos:

    \begin{align*} \sum _{i=1}^4 X_{i1}^2 =& 4,6^2+\cdots +6,0^2=109,20 \quad j=1\\ \sum _{i=1}^4 X_{i2}^2 =& 5,0^2+\cdots +6,2^2=127,33 \quad j=2\\ \sum _{i=1}^4 X_{i3}^2 =& 5,5^2+\cdots +6,8^2=154,66 \quad j=3 \end{align*}

    \(iii. \displaystyle \sum _{j=1}^3 X_{ij}^2 \quad i=1,2,3,4\)

    Temos:

    \begin{align*} \sum _{j=1}^3 X_{1j}^2 =& 4,6^2+5,0^2+5,5^2=76,41 \quad i=1\\ \sum _{j=1}^3 X_{2j}^2 =& 5,0^2+5,5^2+6,1^2=92,46 \quad i=2\\ \sum _{j=1}^3 X_{3j}^2 =& 5,2^2+5,8^2+6,4^2=101,64 \quad i=3\\ \sum _{j=1}^3 X_{4j}^2 =& 6,0^2+6,2^2+6,8^2=120,68 \quad i=4 \end{align*}

  • 2.2.4 Dados da produção de leite:

    • a) A média e a midrange são:

      \begin{align*} \bar {X} =& \dfrac {\displaystyle \sum _{j=1}^{n} X_j }{n}=\dfrac {299,7}{30} =9,99 \\ \bar {X}_{0,50} =& \dfrac {X_{(1)}+X_{(n)}}{2}=\dfrac {8,13+12,14}{2}=10,135. \end{align*}

    • b) A média aparada:

      \begin{align*} \bar {X}_A =& \dfrac {\displaystyle \sum _{j=3}^{n-2} X_j }{n}=\dfrac {8,6+\cdots +11,46}{26} =\dfrac {259,15}{26}=9,9673. \end{align*}

      Neste caso não há evidências de nenhum outlier ou dado discrepante. A distribuição de frequências (não mostrado) é razoavelmente simétrica e, portanto, não há necessidade de se utilizar este estimador. Ademais, as estimativas de ambos os estimadores estão razoavelmente próximas, corroborando o argumento da não necessidade de obter a média aparada.

    • c) A mediana, como \(n\) é par, deve ser computada por:

      \begin{align*} m_d =& \dfrac {X_{\left (\frac {n}{2}\right )} +X_{\left (\frac {n+2}{2}\right )}}{2} = \dfrac {X_{(15)} + X_{(16)}}{2} = 10,055 l. \end{align*}

      A partir das estatísticas de ordem, como os dados são quantitativos contínuos e \(P(X=x)=0\) \(\forall x\in \mathbb {R}\), não é possível estimar a moda olhando para o valor que mais se repete ou mais frequente. No próximo exercício apresentaremos uma estimativa da moda populacional.

    • d) Os percentis \(5\%\) e \(95\%\) pelo método \(1\) da média ponderada (usamos o Sisvar) são:

      \begin{align*} X_{0,05}=& 8,18 &\textrm { e }&& X_{0,95}=&11,76 l. \end{align*} Pelo método \(2\) (observação mais próxima) são:

      \begin{align*} X_{0,05}=& 8,23 &\textrm { e }&& X_{0,95}=&11,46 l. \end{align*} Pelo método \(3\) (distribuição empírica) são:

      \begin{align*} X_{0,05}=& 8,23 &\textrm { e }&& X_{0,95}=&12,05 l. \end{align*} Pelo método \(4\) (média ponderada) são:

      \begin{align*} X_{0,05}=& 8,185 &\textrm { e }&& X_{0,95}=&12,0905 l. \end{align*} Pelo método \(5\) (distribuição empírica com ponderamento) são:

      \begin{align*} X_{0,05}=& 8,23 &\textrm { e }&& X_{0,95}=&12,05 l. \end{align*}

    • e) Usando-se a propriedade da média aritmética, considerando a renda representada por \(Y\) \(=\) \(k X\), sendo \(k\) \(=\) 0,27, temos

      \begin{align*} \bar {Y} =& k\bar {X} =0,27\times 9,99=2,70, \end{align*} que corresponde à renda média por litro de leite (preço em reais da época).

    • f) As médias harmônica e geométrica são:

      \begin{align*} \bar {X}_{H} =& \dfrac {1}{\dfrac {1}{n}\displaystyle \sum _{i=1}^n{\dfrac {1}{X_i}}} = \dfrac {1}{\dfrac {1}{30}\displaystyle \sum _{i=1}^n{\dfrac {1}{8,13}+\cdots +\cfrac {1}{12,14}}}=\dfrac {1}{\dfrac {3,031835}{30}} = 9,8950\\ \bar {X}_{G} =& \sqrt [n]{\prod _{i=1}^nX_i} = \sqrt [30]{8,409706\times 10^{29}}=9,9424. \end{align*}

      A relação entre a média, média geométrica e média harmônica, dada por \(\bar {X}_H \le \bar {X}_G \le \bar {X}\) foi verificada, que neste caso corresponde à seguinte relação: 9,90\(<\)9,94\(<\)9,99. A igualdade só ocorre se todos os valores amostrais forem iguais.

  • 2.2.5 Calcular as medidas de posição na distribuição de frequências: Para agrupar os dados deve-se obter:

    O número de classe é dado por \(k=\sqrt {n}=\sqrt {30} \approx 5\) e amplitude total por \(A=x_{(30)}-x_{(1)}=\)12,14\(-\)8,13=4,01. Assim, a amplitude de classe é dada por \(c=A/(k-1)=\)4,01/4\(\approx \) 1,00 e o limite inferior da primeira classe por \(LI_1 = x_{(1)}-c/2=\)8,13\(-\)1,00/2=7,63. Os demais limites de classe são obtidos somando-se \(c=\)1,00 aos limites anteriormente obtidos. A distribuição de frequências obtida desta forma é:

    .
    Classes de peso \(\bar {X}_i\) \(F_i\) \(Fr_i\) \(Fp_i\)(%)
       7,63 \(\vdash \)     8,63 8,13 3 0,10 10,00
       8,63 \(\vdash \)     9,63 9,13 6 0,20 20,00
       9,63 \(\vdash \)   10,63 10,13 16 0,53 53,33
    10,63 \(\vdash \)   11,63 11,13 3 0,10 10,00
    11,63 \(\vdash \)   12,63 12,13 2 0,07    6,67
    • i) A média aritmética é dada por:

      \begin{align*} \bar {X}=& \dfrac {\displaystyle \sum _{i=1}^k F_i \bar {X}_i}{n}=\dfrac {8,13\times 3+ 9,13\times 9+ 10,13\times 16+ 11,13\times 3+ 12,13\times 2}{30}\\ =& \dfrac {298,9}{30} = 9,9633 \end{align*}

      A diferença encontrada para a média dos dados não agrupados pode ser atribuída ao agrupamento. Toda forma de representar os dados de uma maneira mais simplificada (resumida) conduz a algum tipo de perda de precisão. Por exemplo, a perda de precisão neste caso é devido à hipótese tabular básica, em que os pontos médios de cada classe são usados para representar todos os valores dela. O que deve ficar claro, entretanto, é que apesar de menos precisa, a estimativa obtida a partir dos dados agrupados é uma “estimativa confiável” em certo sentido da média populacional, tanto quanto a estimativa dos dados originais. A perda de precisão é, em geral, pequena e pode ser considerada desprezível. P

      A mediana é obtida da seguinte maneira. A classe mediana é aquela que contém a posição número \(n/2=30/2=15\). Portanto, a classe mediana é a terceira, pois as frequências acumuladas das duas primeiras classes somam apenas \(9\), que é inferior a \(15\). Logo,

      \begin{align*} m_d =& LI_{m_d}+\dfrac {\frac {n}{2}-F_A}{F_{m_d}}c_{m_d}=9,63+\dfrac {15-9}{16}\times 1,00\\ =& 10,0050 \end{align*}

      A mesma observação feita para a diferença das estimativas da média vale para a mediana.

      Para obter a moda, é necessário determinar a classe de maior frequência, ou seja, a classe modal. A classe modal neste exercício é a terceira. A diferença das frequências da classe modal e classe anterior é \(\Delta _1=16-6=10\) e a diferença das frequências da classe modal e classe posterior é \(\Delta _2=16-3=13\). Assim, tem-se

      \begin{align*} m_o=& LI_{m_o} + \dfrac {\Delta _1}{\Delta _1+\Delta _2} c_{m_o}=9,63+\dfrac {10}{10+13}\times 1,00\\ =& 10,0648. \end{align*}

      As três medidas, média, mediana e moda, estão muito próximas e isso é um indicativo que a distribuição dos dados deve ser aproximadamente simétrica. A moda não pode ser calculada dos dados originais, quando os dados são quantitativos contínuos, ou seja, em variáveis aleatórias contínuas em que \(P(X=x)=0\) \(\forall x\in \mathbb {R}\).

    • ii) A média geométrica é

      \begin{align*} \bar {X}_{G} =& \exp \left (\dfrac {\displaystyle \sum _{i=1}^k F_i \ln (\bar {X}_i)}{n} \right )=\exp \left (\dfrac {6,2867+\cdots +4,9914}{30} \right )\\ =& \exp \left (\dfrac {68,82439}{30}\right )=9,915969. \end{align*} A média harmônica é:

      \begin{align*} \bar {X}_{H} =& \dfrac {1}{\dfrac {1}{n}\displaystyle \sum _{i=1}^k{\dfrac {F_i}{\bar {X}_i}}}=\dfrac {1}{\dfrac {0,3690037+\cdots +0,1648805}{30}}\\ =& \dfrac {1}{0,1013356}=9,868204. \end{align*}

      Os valores das médias harmônica e geométrica na distribuição de frequências diferiram apenas na segunda casa decimal em relação aos mesmos valores obtidos nos dados originais. O resumo dos dados, em geral, os torna menos informativos e as estimativas neste formato menos precisas. Entretanto, na maioria das vezes, a perda de precisão é não expressiva.

      A média quadrática é:

      \begin{align*} \bar {X}_{MQ} &= \sqrt {\dfrac {\displaystyle \sum _{i=1}^k F_i \bar {X}_i^2}{n}} = \sqrt {\dfrac {198,2907+\cdots +294,2738}{30}} = \sqrt {100,2069}\\ =& 10,01034. \end{align*}

    • iii) As comparações, quando possíveis, foram realizadas nas respostas anteriormente dadas. A razão principal da diferença é que ao se resumir um conjunto de dados e tentar se obter as mesmas informações, haverá uma perda de precisão em decorrência disso.

    • iv) O histograma e polígono de frequências são apresentados a seguir:

      (-tikz- diagram)

    • v) a distribuição é aproximadamente simétrica, com pequena assimetria a direita. Assim, a média é a medida de posição mais adequada, em virtude de suas propriedades ótimas e de não haver assimetria acentuada, condição esta que prejudica este estimador em relação a mediana ou moda.

    • vi) Utilizando as informações fornecidas no exercício, podemos estimar a produtividade de leite total do município da seguinte maneira. Cada vaca em lactação produz em média 9,9633 kg e existem em média 8,075 vacas em lactação por produtor e um total de \(7309\) produtores, sendo portanto

      \begin{align*} \textrm {Total } =& 9,9633\times 8,075\times 7309\\ =& 588035,7 \textrm { kg/dia} \end{align*}

  • 2.2.6 A média aritmética, sendo \(k\) o número de categorias, \(7\) no caso, é:

    \begin{align*} \bar {X} =& \dfrac {\displaystyle \sum _{i=1}^{k} x_i F_i}{n}= \dfrac {0\times 35+\cdots +6\times 1}{85}=\dfrac {103}{85}\\ =& 1,2118. \end{align*} A moda é o valor mais frequente, ou seja, \(m_o\) \(=\) \(0\) e a mediana, como \(n=85\) é ímpar, é dada por

    \begin{align*} m_d =& x_{((n+1)/2)}=x_{(43)}=1. \end{align*}

    A distribuição é assimétrica à direita, portanto, a média não é uma boa medida para representar estes dados, uma vez que é influenciada por valores extremos. Assim, pode-se utilizar tanto a mediana, quanto a moda para isso.

  • 2.2.7 Dados dos intervalos entre partos.

    • a) A amplitude é:

      \begin{align*} A =& X_{(n)}-X_{(1)}=15,96-11,80=4,16. \end{align*}

      A amplitude total representa a variação entre o menor e o maior valor, sendo simples de calcular e interpretar. Possui a limitação de tender a aumentar com o aumento da amostra, pois quanto maior a amostra maior a chance de amostrar valores extremos da população que ocorrem com baixa frequência. Também é influenciada por valores extremos, os outliers, pois envolve apenas o valor mínimo e máximo da amostra. Da mesma forma, por considerar apenas os dois valores extremos da amostra, pode não retratar a real variabilidade do conjunto de dados. Veja o exemplo: \(2\), \(4\), \(4\), \(4\), \(4\), \(4\), \(4\), \(10\). A amplitude total é igual a \(8\), mas os dados intermediários da amostra não apresentam variabilidade.

      A variância e o desvio padrão são:

      \begin{align*} S^2=& \dfrac {1}{19} \left [(11,80^2+\ldots +15,96^2) - \dfrac {(11,80+\ldots +15,96)^2}{20}\right ]\\ =& \dfrac {1}{19}\left [ 3975,717-\dfrac {280,65^2}{20}\right ]=1,973451 \textrm { mes}^2 \end{align*} e \(S=\sqrt {1,973451}=\)1,404796 mês.

      O desvio médio, uma vez que a média é \(\bar {X}=\)14,0325 é:

      \begin{align*} S_{|\bar {X}|} =& \dfrac {\displaystyle \sum _{i=1}^n\left |X_i-\bar {X}\right |}{n}= \dfrac {2,2325+2,1325+\cdots +1,9275}{20}=\dfrac {24,205}{20}\\ =& 1,21025. \end{align*}

    • b) O coeficiente de variação \(CV\) é dado por:

      \begin{align*} CV = & \dfrac {1,404796}{14,0325}\times 100\%\\ =& 10,01102\%. \end{align*}

      O coeficiente de variação expressa a variabilidade da amostra em porcentagem da média, sendo uma medida adimensional que não depende da grandeza dos dados. Já a variância e o desvio padrão, são medidas de variabilidade absoluta dos dados em torno da média. A diferença entre as duas medidas é que a variância é uma grandeza que está na unidade dos dados ao quadrado (meses\(^2\)) e o desvio padrão, na mesma unidade dos dados, sendo mais fácil de interpretar.

    • c) O erro padrão da média é dado por:

      \begin{align*} S_{\bar {X}}=& \dfrac {S}{\sqrt {n}}=\dfrac {1,404796}{\sqrt {20}}=0,3141219. \end{align*}

      O desvio padrão amostral mede a variabilidade dos dados em torno da média amostral (ou estima essa variabilidade populacional) ou mede a variabilidade entre os dados da amostra (ou estima essa variabilidade populacional entre os dados). Já o erro padrão mede a variabilidade entre médias de amostras de tamanho \(n\) em torno da média amostral. Um valor próximo a zero indica que a uma grande chance de a média amostral estar próxima do parâmetro populacional subjacente (\(\mu \)). Se, por outro lado, o valor for grande, existe grande chance de a média amostral (estimativa) estar afastada de \(\mu \).

    • d) Para responder a questão formulada, é necessário obter o coeficiente de precisão por

      \begin{align*} CP=& \dfrac {S_{\bar {X}}}{\bar {X}}\times 100\%=\dfrac {0,3141219}{14,0325}\times 100\%=2,238531\%. \end{align*}

      Como o erro padrão representou apenas 2,24% do valor médio, concluí-se que a média populacional foi estimada com alta precisão, pois o erro relativo \((CP)\) foi muito pequeno.

      Para o caso da produção leiteira, o erro padrão foi de \(S_{\bar {X}}\) \(=\) 0,7071 l e o coeficiente de precisão foi de \(CP\) \(=\) 6,98%. Logo, como o CP da produção leiteira é maior que o CP do intervalo entre partos, a média do intervalo entre partos foi estimada com mais precisão.

    • e) Os comentários foram feitos em cada item anterior.

    • f) Com \(k=1\), temos que ao menos \(1-1/1^2\) \(=\) \(0\%\) dos valores estarão a menos de um desvio padrão em torno da média, à sua direita e a sua esquerda. A média da amostra é \(\bar {X}\) \(=\) 14,03 e o desvio padrão \(S\) \(=\) 1,4048. Assim, o intervalo é \([\)12,63, 15,43\(]\). Neste caso observamos \(60\%\), o que atende a condição do teorema. Para \(k=2\), ao menos \(75\%\) dos valores estarão no intervalo \([\)11,22, 16,84\(]\) determinado por \(2\) desvios padrões em torno da média amostral. A estimativa desta probabilidade é dada pela proporção de valores da amostra no intervalo, que é \(20/20\times 20\) \(=\) \(100\%\), atendendo a condição do teorema. Para \(k=3\), ao menos 88,89% dos valores estarão no intervalo \([\)9,81, 18,24\(]\) determinado por \(3\) desvios padrões em torno da média amostral. A estimativa desta probabilidade é de \(100\%\), atendendo também a condição do teorema.

  • 2.2.8 Devemos agrupar os dados inicialmente. Inicialmente, determinamos o número de classe por \(k=\sqrt {n}=\sqrt {20} \approx 4\) e a amplitude total por \(A=X_{(20)}-X_{(1)}=15,96-11,80=\)4,16. Assim, a amplitude de classe é dada por \(c=A/(k-1)=4,16/3\approx \) 1,39 e o limite inferior da primeira classe por \(LI_1 = x_{(1)}-c/2\)=11,80\(-\)1,39/2\(=\)11,11. Os demais limites de classe são obtidos somando-se \(c=\)1,39 aos limites anteriormente obtidos. A distribuição de frequências é:

    .
    Classes dos tempos \(\bar {X}_i\) \(F_i\) \(Fr_i\) \(Fp_i\)(%)
    11,11 \(\vdash \) 12,50 11,81 4 0,20 20
    12,50 \(\vdash \) 13,89 13,20 5 0,25 25
    13,89 \(\vdash \) 15,28 14,59 7 0,35 35
    15,28 \(\vdash \) 16,67 15,98 4 0,20 20

    Aproveitamos o ensejo e computamos as principais medidas de posição destes dados agrupados. A média aritmética é dada por:

    \begin{align*} \bar {X}=& \dfrac {\displaystyle \sum _{i=1}^k F_i \bar {X}_i}{n}=\dfrac {11,81\times 4+ 13,20\times 5+ 14,59\times 7+ 15,98\times 4}{20}=\dfrac {279,29}{20}\\ =& 13,9645 \textrm { meses}. \end{align*}

    A diferença encontrada para a média dos dados não agrupados (14,0325) pode ser atribuída ao agrupamento. Toda forma de representar os dados de uma maneira mais simplificada conduz a algum tipo de perda de precisão. Ms o que deve ficar claro é que apesar de menos precisa, a estimativa obtida a partir dos dados agrupados é uma “estimativa confiável” da média populacional, tanto quanto a estimativa dos dados originais. A perda de precisão é, em geral, pequena e pode ser considerada desprezível.

    A mediana é obtida da seguinte maneira. A classe mediana é aquela que contém a posição número \(n/2=20/2=10\). Portanto, a classe mediana é a terceira, pois as frequências acumuladas das duas primeiras classes somam apenas \(9\), que é inferior a \(10\). Logo,

    \begin{align*} m_d =& LI_{m_d}+\dfrac {\frac {n}{2}-F_A}{F_{m_d}}c_{m_d}=13,89+\dfrac {10-9}{7}\times 1,39\\ =& 14,08857 \textrm { meses}, \end{align*} em que \(F_A\) \(=\) \(F_c\) é a frequência acumulada das classes anteriores a classe mediana.

    Para obter a moda, é necessário determinar a classe de maior frequência, ou seja, a classe modal. A classe modal neste exercício é a terceira. A diferença das frequências da classe modal e classe anterior é \(\Delta _1=7-5=2\) e a diferença das frequências da classe modal e classe posterior é \(\Delta _2=7-4=3\). Assim, tem-se

    \begin{align*} m_o=& LI_{m_o} + \dfrac {\Delta _1}{\Delta _1+\Delta _2} c_{m_o}=13,89+\dfrac {2}{2+3}\times 1,39\\ =& 14,446 \textrm { meses}. \end{align*}

    As três medidas, média, mediana e moda, estão muito próximas e isso é um indicativo que a distribuição dos dados deve ser aproximadamente simétrica.

    • a) As medidas de dispersão para os dados agrupados são dadas na sequência. A amplitude total é dada por

      \begin{align*} A=&\bar {X}_{k}-\bar {X}_{1}= 15,98-11,81=4,17 \textrm { meses}, \end{align*} a variância, por

      \begin{align*} S^2=&\dfrac {1}{n-1} \left [\sum _{i=1}^k \bar {X}_i^2F_i - \dfrac {\left (\displaystyle \sum _{i=1}^k \bar {X}_iF_i\right )^2}{n}\right ]\\ =& \dfrac {1}{19}\Bigg [11,81^2\times 4+ 13,20^2\times 5+ 14,59^2\times 7+ 15,98^2\times 4-\\ &-\dfrac {\left (11,81\times 4+ 13,20\times 5+ 14,59\times 7+ 15,98\times 4\right )^2}{20}\Bigg ]\\ =& \dfrac {1}{19}\left ( 3940,623-\dfrac {279,29^2}{20}\right )\\ =& 2,130394 \textrm { meses}^2, \end{align*} o desvio padrão, por \(S=\sqrt {2,130394}=\)1,459587 meses, o \(CV\), por

      \begin{align*} CV=& \dfrac {1,459587}{13,9645}\times 100\%=10,45213\%, \end{align*} o erro padrão da média,

      \begin{align*} S_{\bar {X}}=& \dfrac {S}{\sqrt {n}}=\dfrac {1,459587}{\sqrt {20}}=0,3263736 \textrm { mes}, \end{align*} e o \(CP\), por

      \begin{align*} CP=& \dfrac {S_{\bar {X}}}{\bar {X}}\times 100\%=\dfrac {0,3263736}{13,9645}\times 100\%=2,337166\%. \end{align*}

    • b) Pequenas diferenças foram encontradas entre os resultados para os dados agrupados e para os resultados dos dados originais (exercício anterior). Entretanto, as diferenças são um pouco maiores que as observadas quando comparamos os resultados das medidas de posição. Isso é esperado, uma vez que as medidas de dispersão sao funções de \(X_i^2\) e, por considerar os dados ao quadrado, os erros ficam amplificados.

    • c) Para representar um conjunto de dados com duas medidas descritivas, deve-se utilizar uma medida de posição e outra de dispersão. Se a amostra possuir uma distribuição simétrica ou com pequena assimetria apenas, deve-se utilizar a média como medida de posição. Se a distribuição for assimétrica, as medidas de posição robustas, como mediana e moda, devem ser preferidas, pois são pouco influenciadas por valores extremos. Como medida de dispersão, podemos utilizar ou a variância, ou o desvio padrão ou o coeficiente de variação, se o interesse for retratar a variabilidade entre os elementos da amostra em relação a sua média. Se por outro lado, o interesse for na precisão da estimativa da média populacional, ou o erro padrão ou o \(CP\) devem ser utilizados. A escolha entre uma medida absoluta e relativa fica a critério do pesquisador, pois podemos facilmente migrar de uma para outra.

    • d) Para responder estas questões é necessário determinar o \(CV\) e o \(CP\), antes e após o plano panela cheia. Na tabela seguinte foram resumidas as informações necessárias.

      .
      Medida de variabilidade Antes do plano Após o plano
      \(CV\) 10,01% 14,44%
      \(CP\)   2,24%   3,23%

      Como o \(CV\) do pós plano é maior do que o \(CV\) pré plano, há uma maior variabilidade dos intervalos de parto após o plano panela cheia ter sido implementado. Da mesma forma, houve uma menor precisão na estimativa da média populacional na situação pós plano, pois o erro padrão expresso em porcentagem da média \((CP)\) foi maior do que na situação pré plano. Mas no caso da precisão, em ambos os casos, a média foi estimada com uma alta precisão, pois os \(CP\) foi baixo (\(CP<10\%\))

  • 2.2.9 Vamos demonstrar as propriedades da variância amostral:

    • i. Como \(Y_i\) \(=\) \(X_i + k\), \(k\) constante temos:

      \begin{align*} S_Y^2 =& \dfrac {1}{n-1}\sum _{i=1}^{n} (Y_i-\bar {Y})^2= \dfrac {1}{n-1}\sum _{i=1}^{n} (X_i+k-(\bar {X}+k))^2\quad \textrm {(propriedades da média)}\\ =& \dfrac {1}{n-1}\sum _{i=1}^{n} (X_i-\bar {X})^2=S^2_X, \end{align*} como queríamos mostrar.

    • ii. Como \(Z_i\) \(=\) \(kX_i\), \(k\) constante temos:

      \begin{align*} S_Z^2 =& \dfrac {1}{n-1}\sum _{i=1}^{n} (Y_i-\bar {Y})^2= \dfrac {1}{n-1}\sum _{i=1}^{n} (kX_i-k\bar {X})^2\quad \textrm {(propriedades da média)}\\ =& \dfrac {1}{n-1}\sum _{i=1}^{n} k^2 (X_i-\bar {X})^2= k^2\dfrac {1}{n-1}\sum _{i=1}^{n} (X_i-\bar {X})^2\\ =&k^2S^2_X, \end{align*} como queríamos mostrar.

    • iii. Vamos começar pela variável \(Y\). A amplitude total é:

      \begin{align*} A_Y =& Y_{(n)}-Y_{(1)}= X_{(n)}+k-(X_{(1)}+k)=X_{(n)}-X_{(1)}\\ =& A_X. \end{align*} O desvio médio de \(Y\) é:

      \begin{align*} S_{|\bar {Y}|} =& \dfrac {\displaystyle \sum _{i=1}^n\left |Y_i-\bar {Y} \right |}{n}=\dfrac {\displaystyle \sum _{i=1}^n\left |X_i + k-(\bar {X}+k) \right |}{n}\\ =& \dfrac {\displaystyle \sum _{i=1}^n\left |X_i -\bar {X} \right |}{n}\\ =& S_{|\bar {X}|}. \end{align*} O desvio padrão é:

      \begin{align*} S_{Y} =& \sqrt {S^2_Y}=\sqrt {S^2_X}\\ =& S_{X}. \end{align*} O erro padrão da média para \(Y\) é:

      \begin{align*} S_{\bar {Y}} =& \dfrac {S_Y}{\sqrt {n}}=\dfrac {S_X}{\sqrt {n}}\quad \textrm {(pela propriedade anterior)}\\ =& S_{\bar {X}}. \end{align*} O coeficiente de precisão:

      \begin{align*} CP_{Y} =& 100\times \dfrac {S_{\bar {Y}}}{\bar {Y}}=\dfrac {100S_{\bar {X}}}{\bar {X}+k}\\ =& \dfrac {CP_X}{1+\frac {k}{\bar {X}}}, \end{align*} que sempre terá redução para variáveis com média positiva se \(k\) for positivo (adição de constante) e redução, para \(k\) negativo (subtração de constante). Finalmente, o coeficiente de variação:

      \begin{align*} CV_{Y} =& 100\times \dfrac {S_Y}{\bar {Y}}= \dfrac {100S_X}{\bar {X}+k}\\ =& \dfrac {CV_X}{1+\frac {k}{\bar {X}}}, \end{align*} cujos comentários anteriores para o \(CP\) valem igualmente.

      Para a variável \(Z\), vamos começar com a amplitude:

      \begin{align*} A_Z =& Z_{(n)}-Z_{(1)}= kX_{(n)}-kX_{(1)}=k(X_{(n)}-X_{(1)})\\ =& k A_X. \end{align*} O desvio médio de \(Z\) é:

      \begin{align*} S_{|\bar {Z}|} =& \dfrac {\displaystyle \sum _{i=1}^n\left |Z_i-\bar {Z} \right |}{n}=\dfrac {\displaystyle \sum _{i=1}^n\left |kX_i -k\bar {X} \right |}{n}\\ =& \dfrac {|k|\displaystyle \sum _{i=1}^n\left |X_i -\bar {X} \right |}{n}\\ =& |k|S_{|\bar {X}|}. \end{align*} O desvio padrão de \(Z\) é:

      \begin{align*} S_{Z} =& \sqrt {S^2_Z}=\sqrt {k^2 S^2_X}\\ =& |k| S_{X}. \end{align*} O erro padrão da média para \(Z\) é:

      \begin{align*} S_{\bar {Z}} =& \dfrac {S_Z}{\sqrt {n}}=\dfrac {|k|S_X}{\sqrt {n}}\quad \textrm {(pela propriedade anterior)}\\ =& |k|S_{\bar {X}}. \end{align*} O coeficiente de precisão:

      \begin{align*} CP_{Z} =& 100\times \dfrac {S_{\bar {Z}}}{\bar {Z}}= \dfrac {100|k|S_{\bar {X}}}{k\bar {X}}\\ =& \pm CP_X, \end{align*} que será negativo se \(k\) for negativo e positivo, se \(k>0\). Finalmente, o coeficiente de variação:

      \begin{align*} CV_{Z} =& 100\times \dfrac {S_Z}{\bar {Z}}= \dfrac {100|k|S_X}{k\bar {X}}\\ =& \pm CV_X, \end{align*} cujos comentários anteriores para o \(CP\) valem igualmente.

  • 2.2.10 Para a variável número de galhas por planta tem-se:

    • a) As medidas de dispersão para este conjunto de dados são apresentadas na sequência. A amplitude total é

      \begin{align*} A =& x_{(n)}-x_{(1)}=x_{(85)}-x_{(1)}=6-0=6 \textrm { galhas/planta}. \end{align*}

      A variância é

      \begin{align*} S^2=&\dfrac {1}{n-1} \left [\sum _{i=1}^k x_i^2F_i - \dfrac {\left (\displaystyle \sum _{i=1}^k x_iF_i\right )^2}{n}\right ]\\ =& \dfrac {1}{84}\Bigg [0^2\times 35+ 1^2\times 20+ \ldots +6^2\times 1-\dfrac {\left (0\times 35+ 1\times 20+ \ldots + 6\times 1\right )^2}{85}\Bigg ]\\ =&\dfrac {1}{84}\left (285-\dfrac {103^2}{85}\right )\\ =& 2,166667 \textrm { (galhas/planta)}^2, \end{align*} em que \(k\) é o número de categorias da variável, \(7\) no caso; o desvio padrão é \(S=\sqrt {2,166667}=\)1,47196 galha/planta e o erro padrão da média

      \begin{align*} S_{\bar {X}}=& \dfrac {S}{\sqrt {n}}=\dfrac {1,47196}{\sqrt {85}}=0,1596565 \textrm { galha/planta}. \end{align*}

    • b) O \(CV\) e o \(CP\) são

      \begin{align*} CV = & \dfrac {S}{\bar {X}}\times 100\%=\dfrac {1,47196}{1,211765}\times 100\%\\ =& 121,4724\% \end{align*} e

      \begin{align*} CP = & \dfrac {S_{\bar {X}}}{\bar {X}}\times 100\%=\dfrac {0,1596565}{1,211765}\times 100\%\\ =& 13,17554\%, \end{align*} respectivamente. Estes valores indicam que há uma grande variabilidade dos dados em torno da média e que a precisão da estimativa da média populacional não é muito alta, embora seja boa. Convém salientar que, tanto para o \(CV\) quanto para o \(CP\), o pesquisador deve buscar na literatura experimentos semelhantes ao seu, ou seja, com as mesmas características utilizadas e com a mesma variável, entre outros fatores, para fazer uma comparação da variabilidade e da precisão adequadamente.

  • 2.2.11 O momento amostral de ordem \(2\) para os \(n=30\) dados da produção leiteira é:

    \begin{align*} m_2 =& \dfrac {\displaystyle \sum _{i=1}^n(X_i-\bar {X})^2}{n}= \dfrac {(-1,86)^2+(-1,76)^2+\cdots +2,15^2}{30} = \dfrac {28,6316}{30}\\ =& 0,9543867. \end{align*} O momento de ordem \(3\) é:

    \begin{align*} m_3 =& \dfrac {\displaystyle \sum _{i=1}^n(X_i-\bar {X})^3}{n} = \dfrac {(-1,86)^3+(-1,76)^3+\cdots +2,15^3}{30} = \dfrac {6,561894}{30}\\ =& 0,2187298. \end{align*} O momento de ordem \(4\) é:

    \begin{align*} m_4 =& \dfrac {\displaystyle \sum _{i=1}^n(X_i-\bar {X})^4}{n} = \dfrac {(-1,86)^4+(-1,76)^4+\cdots +2,15^4}{30} = \dfrac {78,96063}{30}\\ =& 2,632021. \end{align*}

    Assim, o coeficiente de assimetria é

    \begin{align*} \sqrt {b_1} =& \dfrac {m_3}{m_2^{\frac {3}{2}}}= \dfrac {0,2187298}{0,9543867^{\frac {3}{2}}}\\ =& 0,2345964. \end{align*} O coeficiente de curtose é

    \begin{align*} b_2 =& \dfrac {m_4}{m_2^2}= \dfrac {2,632021}{0,9543867^2}\\ =& 2,889619. \end{align*}

    Logo, a assimetria é positiva mas de pequena magnitude, indicando uma pequena assimetria à direita da distribuição da produção de leite. O coeficiente de curtose é um pouco menor que \(3\) e a distribuição é platicúrtica, com pequeno desvio de achatamento da distribuição de referência, que é mesocúrtica. Estes resultados são estimativas dos verdadeiros parâmetros populacionais e estes desvios para os valores de referência devem ser testados para que haja uma confirmação de desvios de simetria e achatamento.

  • 2.2.12 Na tabela a seguir classificamos a distribuição quanto à simetria e ao grau de achatamento (curtose). Usamos AE, S e AD para distribuições assimétricas à esquerda, simétricas e assimétricas à direita, respectivamente. Também usamos P, M e L para distribuições platicúrticas, mesocúrticas e leptocúrticas, respectivamente.

    .
    Coeficiente de Coeficiente de Classificação da Classificação do grau
    simetria curtose simetria de achatamento
    +0,5 3,0 AD M
    -2,0 1,0 AE P
    +2,0 2,0 AD P
    +3,0 3,0 AD M
    +0,0 3,0 S M
    +0,0 3,5 S L
    -3,0 4,5 AE L