Logo Passei Direto
Buscar

Bioestatística: Conceitos e Aplicações

Ferramentas de estudo

Questões resolvidas

1. Alguns termos em estatística são extensamente usados. Como, por exemplo, população e amostra. A seguir, a partir da definição de cada um deles, avalie como as frases abaixo devem ser corretamente completadas.
A população é um _________ completo de todos os elementos a serem estudados. Já amostra é um _________ da população A partir das amostras é possível fazer inferências que servirão de base para a ___________ de decisões.
Assinale a alternativa que completa a frase corretamente.
(A) subconjunto; conjunto; tomada.
(B) conjunto; subconjunto; tomada.
(C) conjunto; conjunto; tomada.
(D) subconjunto; conjunto; subconjunto.
(E) conjunto; subconjunto; subconjunto.

A) subconjunto; conjunto; tomada.
B) conjunto; subconjunto; tomada.
C) conjunto; conjunto; tomada.
D) subconjunto; conjunto; subconjunto.
E) conjunto; subconjunto; subconjunto.

Avalie as afirmacoes I, II, III e IV sobre variáveis quantitativas e variáveis qualitativas

I. O número de filhos de um casal é uma variável quantitativa.
II. O número de cigarros fumados por dia é uma variável qualitativa.
III. O estágio da doença (inicial, intermediário, terminal) é uma variável qualitativa.
IV. A escolaridade (ensino fundamental, ensino médio, ensino superior) é uma variável quantitativa.

Assinale a(s) alternativa(s) correta(s).
Apenas as afirmativas III e IV estão corretas.
Apenas as afirmativas II e III estão corretas.
Apenas a afirmativa I está correta.
Todas as afirmativas estão corretas.
Apenas as afirmativas I e III estão corretas.

O cálculo das medidas de Tendência Central pode possibilitar a localização da maior concentração de valores de uma dada distribuição, isto é, se ela se localiza no início, no meio ou no final, ou, ainda, se há uma distribuição por igual. A respeito das medidas de Tendência Central, avalie as afirmações I, II e III sobre algumas medidas.

I. Média aritmética simples pode ser obtida pelo quociente da soma de todos os dados do experimento e o número total de dados.
II. A mediana é o valor que aparece com mais frequência no conjunto de dados do experimento.
III. A moda é o valor tal que mais da metade dos dados é maior ou igual a ela, e mais da metade dos dados é menor ou igual a ela.

Em relação às afirmações sobre as medidas, assinale a alternativa correta:
A) Apenas I e III são corretas.
B) Apenas II e III são corretas.
C) I, II e III são corretas.
D) Apenas III é correta.
E) Apenas I é correta.

As medidas média, mediana e moda promovem comparações de séries de dados entre si pela confrontação desses números. Em certa pesquisa foram obtidos os seguintes conjuntos de dados 13, 10, 12, 13, 14, 15. Ao analisar essa pesquisa observaram que:

I. A moda do conjunto de dados acima é o 13.
II. Ao colocar os números em ordem crescente tem-se 10, 12, 13, 13, 14, 15. Em seguida, ao tirar a média dos dois termos centrais, resulta-se em 13.

A respeito dessas asserções, assinale a opção correta:
A) as asserções I e II são proposições verdadeiras, e a II é uma justificativa da I.
B) a asserção I é uma proposição falsa, e a II é uma proposição verdadeira.
C) as asserções I e II são proposições falsas.
D) a asserção I é uma proposição verdadeira, e a II é uma proposição falsa.
E) as asserções I e II são proposições verdadeiras, mas a II não é uma justificativa da I.

X”?
a) norm.test(x)
b) shapiro(x)
c) shapiro.test(x)
d) shapirotest(x)
e) Nenhuma das anteriores.

O valor de probabilidade (“p-value”) é a probabilidade de rejeitar H0 sendo ela verdadeira. Dessa forma, o valor de probabilidade está nos informando que, se rejeitarmos H0, a probabilidade de estarmos errados é de 0,5808. Na maioria dos campos da ciência, o nível de significância a ser abordado é de 0,05 (5%), ou seja, para valores maiores que 0,05 não há rejeição de H0. Portanto, como o valor de probabilidade obtido é maior que 0,05 não rejeitamos H0 e concluímos que a variável massa segue uma distribuição normal de probabilidade.

Material
páginas com resultados encontrados.
páginas com resultados encontrados.
details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Questões resolvidas

1. Alguns termos em estatística são extensamente usados. Como, por exemplo, população e amostra. A seguir, a partir da definição de cada um deles, avalie como as frases abaixo devem ser corretamente completadas.
A população é um _________ completo de todos os elementos a serem estudados. Já amostra é um _________ da população A partir das amostras é possível fazer inferências que servirão de base para a ___________ de decisões.
Assinale a alternativa que completa a frase corretamente.
(A) subconjunto; conjunto; tomada.
(B) conjunto; subconjunto; tomada.
(C) conjunto; conjunto; tomada.
(D) subconjunto; conjunto; subconjunto.
(E) conjunto; subconjunto; subconjunto.

A) subconjunto; conjunto; tomada.
B) conjunto; subconjunto; tomada.
C) conjunto; conjunto; tomada.
D) subconjunto; conjunto; subconjunto.
E) conjunto; subconjunto; subconjunto.

Avalie as afirmacoes I, II, III e IV sobre variáveis quantitativas e variáveis qualitativas

I. O número de filhos de um casal é uma variável quantitativa.
II. O número de cigarros fumados por dia é uma variável qualitativa.
III. O estágio da doença (inicial, intermediário, terminal) é uma variável qualitativa.
IV. A escolaridade (ensino fundamental, ensino médio, ensino superior) é uma variável quantitativa.

Assinale a(s) alternativa(s) correta(s).
Apenas as afirmativas III e IV estão corretas.
Apenas as afirmativas II e III estão corretas.
Apenas a afirmativa I está correta.
Todas as afirmativas estão corretas.
Apenas as afirmativas I e III estão corretas.

O cálculo das medidas de Tendência Central pode possibilitar a localização da maior concentração de valores de uma dada distribuição, isto é, se ela se localiza no início, no meio ou no final, ou, ainda, se há uma distribuição por igual. A respeito das medidas de Tendência Central, avalie as afirmações I, II e III sobre algumas medidas.

I. Média aritmética simples pode ser obtida pelo quociente da soma de todos os dados do experimento e o número total de dados.
II. A mediana é o valor que aparece com mais frequência no conjunto de dados do experimento.
III. A moda é o valor tal que mais da metade dos dados é maior ou igual a ela, e mais da metade dos dados é menor ou igual a ela.

Em relação às afirmações sobre as medidas, assinale a alternativa correta:
A) Apenas I e III são corretas.
B) Apenas II e III são corretas.
C) I, II e III são corretas.
D) Apenas III é correta.
E) Apenas I é correta.

As medidas média, mediana e moda promovem comparações de séries de dados entre si pela confrontação desses números. Em certa pesquisa foram obtidos os seguintes conjuntos de dados 13, 10, 12, 13, 14, 15. Ao analisar essa pesquisa observaram que:

I. A moda do conjunto de dados acima é o 13.
II. Ao colocar os números em ordem crescente tem-se 10, 12, 13, 13, 14, 15. Em seguida, ao tirar a média dos dois termos centrais, resulta-se em 13.

A respeito dessas asserções, assinale a opção correta:
A) as asserções I e II são proposições verdadeiras, e a II é uma justificativa da I.
B) a asserção I é uma proposição falsa, e a II é uma proposição verdadeira.
C) as asserções I e II são proposições falsas.
D) a asserção I é uma proposição verdadeira, e a II é uma proposição falsa.
E) as asserções I e II são proposições verdadeiras, mas a II não é uma justificativa da I.

X”?
a) norm.test(x)
b) shapiro(x)
c) shapiro.test(x)
d) shapirotest(x)
e) Nenhuma das anteriores.

O valor de probabilidade (“p-value”) é a probabilidade de rejeitar H0 sendo ela verdadeira. Dessa forma, o valor de probabilidade está nos informando que, se rejeitarmos H0, a probabilidade de estarmos errados é de 0,5808. Na maioria dos campos da ciência, o nível de significância a ser abordado é de 0,05 (5%), ou seja, para valores maiores que 0,05 não há rejeição de H0. Portanto, como o valor de probabilidade obtido é maior que 0,05 não rejeitamos H0 e concluímos que a variável massa segue uma distribuição normal de probabilidade.

Prévia do material em texto

G
RU
PO
 SER ED
U
CACIO
N
AL
gente criando o futuro
ISBN 978-65-86557-92-3
9 786586 557923
BIOESTATÍSTICA
BIO
ESTATÍSTICA
LEANDRO VINHAS DE PAULA
LEANDRO VINHAS DE PAULA
BIOESTATÍSTICA
Curitiba
2022
Leandro Vinhas de Paula
Bioestatistica
Ficha Catalográfica elaborada pela Editora Fael.
V784b Vinhas de Paula, Leandro
Bioestatística / Leandro Vinhas de Paula. – Curitiba: Fael, 2022.
300 p. 
ISBN 978-65-86557-92-3
1. Bioestatística 2. Saúde pública - Metodologia I. Título
CDD 574.015195
Direitos desta edição reservados à Fael.
É proibida a reprodução total ou parcial desta obra sem autorização expressa da Fael.
FAEL
Direção Acadêmica Valmera Fatima Simoni Ciampi
Coordenação Editorial Angela Krainski Dallabona
Revisão Editora Coletânea
Projeto Gráfico Sandro Niemicz
Imagem da Capa Ser Educacional
Arte-Final Hélida Garcia Fraga
Sumário
Carta ao Aluno | 5
1. Explorando conceito básicos em Bioestatística | 7
2. Aplicando conceitos: introdução pacote de análise de 
dados Microsoft Excel® ao software estatístico “R” | 43
3. Distribuição normal de probabilidade e aplicações | 69
4. Associação e relacionamento de variáveis | 93
5. Noções de inferência estatística | 121
6. Estudo de Dispersão de Frequência e 
Análise da Concordância de Variáveis 
Quantitativas e Qualitativas | 149
7. Análise de variância | 171
8. Métodos não paramétricos para comparação 
de duas populações | 199
9. Métodos não paramétricos para comparação 
de várias populações | 223
10. Aplicação de conceitos e desenvolvimento de 
exemplos práticos no software “R” | 249
Gabarito | 273
Referências | 299
Prezado(a) aluno(a),
A finalidade deste material de apoio é possibilitar ao aluno 
da disciplina de Bioestatística uma aproximação inicial com os 
conceitos de estatística aplicada às diversas áreas biológicas.
Aqui, serão explorados temas como processo amostral, 
tipos de variáveis, conjunto de dados, confecção de gráficos, 
análise de dados, aplicação de probabilidades e associação e 
correlação. Todos esses temas são indispensáveis para compre-
ender os fenômenos biológicos, uma vez que é possível quanti-
ficar os dados coletados, realizar comparações e estabelecer, por 
exemplo, um grau de confiabilidade nas pesquisas científicas. 
Carta ao Aluno
– 6 –
Bioestatística
Nesse sentido, a bioestatística, que possui várias ferramentas de análises 
matemáticas, é designada para refinar e apresentar os dados biológicos 
de trabalhos científicos.
Finalmente, o desejo sincero é que o presente texto proporcione 
aos alunos o conhecimento necessário para a compreensão da coleta, 
tabulação e apresentação de dados, fundamentais para que se atinja a 
dimensão da prática profissional, assim como os desafios atuais para 
a sua concretização.
1
Explorando 
conceito básicos 
em Bioestatística
Apesar da incipiente penetração da mentalidade estatística 
na sociedade brasileira, o campo profissional é considerado um 
dos dez mais rentáveis no Brasil, atualmente. A importância 
da estatística é manifestada em momentos diversos, tal como 
a Segunda Guerra Mundial, que acarretou quase 50 milhões de 
pessoas mortas, com consequências e cicatrizes que refletem até 
os dias atuais. Mas o leitor pode se perguntar: “o que isto tem a 
ver com a estatística?”. Bom, o filme intitulado “O jogo da imi-
tação”, indicado pela The Academy Awards à prestigiada premia-
ção do Oscar, expressa claramente o potencial das ciências esta-
tísticas. Estima-se que o uso das técnicas estatísticas na tomada 
de decisões na área de inteligência militar por parte dos países 
aliados encurtou a guerra em pelos 2 anos, salvando 14 milhões 
de vidas, apenas tomando um exemplo.
Bioestatística
– 8 –
Em termos gerais, a estatística pode ser definida como uma ciência que 
está interessada nos métodos científicos para coleta, organização, suma-
rização, apresentação e análise de dados, com o objetivo de obter conclu-
sões fidedignas e válidas e contribuir para a tomada de decisões razoáveis. 
É uma ciência utilizada em diversas áreas, como a política, economia, 
negócios, administração, medicina, ciências biológicas, esportes, dentre 
outras. A subárea de bioestatística se ocupa dos métodos estatísticos para 
investigação quantitativa de problemas nas áreas de ciências da saúde e 
biológicas. A relevância desse campo da estatística tem sido observada na 
exploração de diversos questionamentos dentro das ciências da saúde, tal 
como a eficácia de uma vacina ou um novo medicamento em relação a um 
outro pré-existente para uma determinada doença em diferentes grupos de 
indivíduos, testagem da efetividade de um novo método de treinamento, 
quais doenças são potencializadas pelo consumo de bebidas alcoólicas, 
classificação de grupos de risco, dentre outros. Neste capítulo 1, você irá 
se inteirar um pouco sobre esse universo, a partir de conceitos básicos, 
como medidas (tendência central, de dispersão e separatrizes) e aspectos 
relacionados à apresentação de dados, imprescindíveis ao emprego da bio-
estatística para a solução ou estudo de tais problemas.
1.1 Definições básicas
Na solução de questões relativas à bioestatística, os profissionais das 
ciências da saúde e biológicas pontuam alguns passos clássicos, tais como 
observação, descrição de fenômenos, problemas, produção e testagem de 
hipóteses viáveis. A exploração inicial dos dados proposta neste capítulo 
é fundamental para cumprir as necessidades de observação de fenômenos 
e problemas.
Os profissionais devem identificar estudos de seu interesse e conhe-
cer resultados prévios relevantes para entender o problema traçado. Para 
solucionar e/ou entender melhor esses problemas, as etapas de planeja-
mento e execução de pesquisas de descrição, explicação, predição e/ou 
controle de dados observados devem ser respeitadas. De forma indissoci-
ável, o tratamento estatístico é dependente do planejamento experimental 
adotado e coleta de dados realizada.
– 9 –
Explorando conceito básicos em Bioestatística
De forma geral, os estudos podem ser classificados como: (i) estudos 
historiográficos, baseados na retrospecção de fatos históricos; (ii) estu-
dos descritivos ou observacionais onde os agentes do estudo descrevem 
e extraem elementos de interesse à solução de problemas; (iii) estudos de 
natureza experimental, em que o responsável faz testes deliberados para 
testagem de um determinada hipótese construída previamente sobre as 
variáveis controláveis, (iv) estudos de caso, classificados pela precisa des-
crição por um ou mais profissionais na área de saúde, tal como exemplo 
no diagnóstico e evolução de uma doença ocorrida em grupo restrito de 
indivíduos; (v) estudos comparativos de coorte, onde são comparados um 
grupo exposto a um determinado tratamento a um grupo controle (sem 
exposição ao tratamento estudado); (vi) estudos caso-controle compara-
tivos, onde compara-se um grupo de doentes ou que apresentam o desfe-
cho pesquisado (os casos) e um grupo de pessoas sem a doença estudada 
ou sem o desfecho pesquisado (os controles). É importante alertar que a 
forma de classificação dos diferentes tipos de estudos pode variar con-
forme a referência ou área de ocupação.
Na condução desses estudos, frequentemente o leitor irá se deparar 
com os termos população e amostra. Em síntese, o termo população pode 
ser caracterizado como um conjunto total de objetos ou indivíduos de inte-
resse no estudo. Adicionalmente, a amostra e o respectivo processo de 
amostragem consistem na extração de uma amostra a partir do conjunto 
total de elementos de interesse (população-alvo), logo, uma amostra é um 
subconjunto da população, onde “N” é o número de observações da popu-
lação. Por outro lado, uma amostra obtida é uma parte representativa da 
população, em que “n” é o número de observações de uma amostra. Em 
ciência, para se estabelecer características populacionais é comum obser-
var um subconjunto de seus elementos (amostra) para obter estimativas 
aproximadas sobreas características populacionais. Em termos matemá-
ticos, os conceitos de população (XN
) e amostra (xn) podem ser expressos 
da seguinte maneira:
X X X X XN N� �� �1 2 3, , ,
x x x x xn n1 2 3, , ,
Bioestatística
– 10 –
A seleção dos elementos a serem estudados deve ser feita a partir 
de procedimentos adequados (amostragem), para que os resultados obti-
dos das amostras sejam ilustrativos a respeito das características de toda 
a população. As vantagens do processo amostral são evidenciadas pelo 
custo e tempo reduzidos ao se estudar apenas uma parte da população, e 
da confiabilidade dos dados, evitando erros nas respostas observadas e a 
operacionalidade sobre os dados obtidos.
As características estudadas de uma população são comumente deno-
minadas por variáveis. O conceito de variável consiste em um valor ou 
qualidade que pode variar de objeto para objeto ou de um indivíduo para 
outro, de um instante para outro. A estatura é uma variável pois seus valo-
res podem oscilar de uma pessoa para outra (Ex.: 1.73m), ou o número de 
acidentes em uma estrada é uma variável (Ex.: 121 acidentes). As denomi-
nações das variáveis são frequentemente definidas ou expressas por letras 
ou abreviações por comodidade do usuário.
As variáveis são classificadas como qualitativas, quando se usa a 
escala nominal ou ordinal para medição ou contar as características ou 
grandezas que estamos interessados em estudar. Basicamente, a vari-
ável é nominal ou categórica quando se é usada a escala nominal para 
medir seus valores. Uma variável pode ser classificada como nominal 
se ela é composta por nomes simples ou categorias (Ex.: Masculino 
ou Feminino) e as categorias ou nomes não tem ordem. A variável é 
ordinal se é usada a escala ordinal para medir seus valores. A variável 
é ordinal se ela é composta de categorias que tem ordenamento natural 
(Ex.: Satisfeito, Insatisfeito; Estágio I, Estágio II, Estágio III). Adicio-
nalmente, as variáveis ordinais podem tomar valores não numéricos, 
como, por exemplo, valores resultantes de escalas de “níveis de satis-
fação” (ex.: a favor, contra etc.) e numéricos com o uso de escalas 
numéricas, tais como a Escala Likert, que são usadas amplamente nas 
ciências da saúde (Ex.: 1 – Discordo totalmente; 2 – Discordo par-
cialmente; 3 – Indiferente; 4 – Concordo parcialmente; 5 – Concordo 
totalmente). A figura 1.1 ilustra os tipos de variáveis.
– 11 –
Explorando conceito básicos em Bioestatística
Figura 1.1 – Tipos de variáveis
Fonte: elaborada pelo autor.
Por outro lado, as variáveis quantitativas referem-se a quantidades 
medidas em escala numérica. As variáveis quantitativas são discre-
tas quando assumem valores inteiros ou contáveis (Ex.: 0, 1, 2, 3...). 
As variáveis quantitativas são denominadas contínuas quando não 
são contáveis, isto é, assumindo qualquer valor do conjunto dos núme-
ros reais (Ex.: 1,60; 1,72; 1,85; 2,04).
1.2 Descrição de conjuntos de dados
Após uma breve introdução sobre alguns conceitos básicos de estatís-
tica, tais como tipos de estudos, variáveis, amostragem e população, serão 
abordadas as medidas de tendência central, dispersão e separatrizes.
Basicamente, as medidas de tendência central são conceituadas como 
valores (média, moda e mediana) aos quais os dados obtidos encontram-
-se agrupados. Por outro lado, as medidas de dispersão são necessárias ao 
estudo das variáveis (variância, desvio médio, desvio padrão, coeficiente 
de variação). Por fim, como o próprio nome já reporta, as medidas sepa-
ratrizes são valores que separam o conjunto de dados obtidos em partes 
iguais (quartis, decis e percentis). Nesse sentido, o objetivo desta seção é 
Bioestatística
– 12 –
conceituar essas medidas. Os conceitos e medidas que você verá a seguir 
serão necessários para resolução de exercícios e construção de relatórios 
nas atividades da disciplina.
1.2.1 Medidas de tendência central
A determinação das medidas de tendência central tem como obje-
tivo definir o valor mais provável de uma dada variável. Dessa forma, 
a média possui a função de transformar um conjunto de valores de uma 
amostra ou população em apenas um valor, fornecendo uma ideia ou 
tendência do conjunto de dados. Basicamente, a média aritmética sim-
ples (μ, média populacional; ẋ, média amostral) pode ser obtida a partir 
da relação entre o somatório dos valores de um determinado conjunto de 
dados populacionais ou amostrais e o número de valores deste conjunto 
de dados (Equação X).
i
N
i i
n
iX
N
Médiapopulacional
x
n
Médiaamostral EEq X.X
.
Em uma turma de crianças de uma determinada escola pública, veri-
ficou-se o seguinte conjunto de dados referente à massa corporal (kg): 
Massa = (34; 40; 33; 29; 37; 38,5; 30; 32);
Logo, temos o valor médio de:
i
n
ix
n
kg34 40 33 29 37 38 5 30 32
8
34 18,X
.
A média de massa corporal da turma de crianças medida é de 34,18 kg.
Por outro lado, a média aritmética ponderada determina o valor 
médio considerando o peso dos valores observados. Na média ponderada, 
a alteração da posição dos números pode ocasionar resultados errados ao 
contrário da média aritmética simples.
p
i
n
i i
i
n
i
p x
p
1
1
*
X
.
– 13 –
Explorando conceito básicos em Bioestatística
Suponhamos que em exame de desempenho de alunos para cálculo 
da nota final dos concluintes no ensino superior sejam avaliadas as seguin-
tes vertentes com pesos diferentes: (1) conhecimentos teóricos do curso; 
(2) conhecimentos gerais; (3) conhecimentos práticos. As 3 competências 
possuem respectivamente os pesos de 2, 1 e 3. Logo, se você ao final do 
curso obtiver as notas de 72, 65 e 88, sua média ponderada será:
p
i
n
i i
i
n
i
p x
p
1
1
2 72 1 65 88 3
6
78 83
* * * *
,x.
Nesse caso, temos que a média ponderada de desempenho do estu-
dante será de 78,83 pontos.
A mediana pode ser conceituada como o valor que divide o conjunto 
de dados em partes iguais com o mesmo número de elementos, consti-
tuindo em uma medida de posição. O valor da mediana situa-se na posição 
central do conjunto de dados organizado em ordem crescente de forma 
que o número de dados situados antes desse valor é igual ao número de 
dados que se encontram após esse valor. O cálculo da mediana é depen-
dente do número de observações do conjunto de dados.
Para um conjunto ímpar de dados (9, 12, 8, 6, 14, 11, 5), a mediana 
calculada é:
1. Inicialmente, ordena-se os dados (n=7) de forma crescente (5, 6, 
8, 9, 11, 12, 14);
2. A mediana será determinada pelo elemento que divide o con-
junto de dados em partes iguais, nesse caso igual a 9;
3. Para o conjunto de dados ímpar a mediana é definida como o 
valor da variável que ocupa a posição de ordem n
2
1+ .
Em conjunto de dados par, não há valor o central, a mediana é determi-
nada como a média dos valores que ocupam as posições de ordem n
2
 e n+1
2
 
Ao calcular a mediana para conjunto par de dados (9,8,6,12,11,14), temos:
Bioestatística
– 14 –
4. ordena-se o conjunto par de dados (n=6) de forma crescente 
(6,8,9,11,12,14) e calculam-se a posições:
n
2
3=
 ; 
n
2
1 4� �
 .
5. A mediana será dada pela média entre os elementos que ocu-
pam respectivamente a terceira e quarta posições do conjunto 
de dados:
mediana � �
�
9 11
2
10.
Adicionalmente, a moda é o valor mais comum no conjunto de dados 
de uma determinada variável, ou ainda o valor mais frequente, denomi-
nado valor modal. Logo, um mesmo conjunto de dados pode apresentar 
mais de uma moda, ou seja, mais de um valor frequente, classificado como 
multimodal. Ao calcular a moda para as idades dos candidatos à presidên-
cia de um clube desportivo: idade = (75, 87, 39, 58, 75, 75, 67, 83, 87, 79). 
Logo, a Moda = 75 (é frequente por 3 vezes).
1.2.2 Medidas de dispersão
Após a definição conceitual das medidas de tendência central, um 
aspecto de suma importância para exploração de dados é o estudo da varia-
ção das respostas obtidas, relativamente às medidas de tendência central 
da amostra ou população. A seguir são apresentadasmedidas estatísticas 
para estudo da variabilidade de respostas em torno da medida de tendência 
central principal, a média.
De forma simplificada, a amplitude dos dados corresponde à dife-
rença entre os valores máximos e mínimos de uma variável ordenada de 
forma crescente. Abaixo a amplitude é apresentada matematicamente, 
onde xmin representa o valor mínimo e o xmáx, o valor máximo do conjunto 
de dados:
Amplitudetotal x xmáx min� �� �
– 15 –
Explorando conceito básicos em Bioestatística
A partir de 2 conjuntos de dados x = [3,5,6,12,15] e y = [60,60,60,60,60], 
a amplitude dos dados é:
ATX x xmáx min 5 3 12
ATY x xmáx min 0 60 0
Logo, a variável “x” possui amplitude igual a 12 e a variável “y” 
possui amplitude igual a 0 (dispersão nula), ou seja, os valores da variável 
“y” não variam entre si. A utilização isolada da amplitude dos dados como 
medida de dispersão é limitada, uma vez que considera apenas 2 dados 
extremos. Dessa forma, quanto maior a amplitude total dos dados, maior 
a variação da variável.
O desvio médio, diferentemente da amplitude, leva em considera-
ção o valor médio do conjunto de dados. O desvio médio pode ser defi-
nido como o somatório do módulo das diferenças dos dados em relação 
à média, dividido pelo número total de dados. Abaixo o desvio médio é 
definido matematicamente:
DesvioMédio
x
n
i� x.
Considerando o conjunto de dados da variável x = (12,8,9,10,7,13), 
calcule o desvio médio:
DM
, , , , , ,12 9 83 8 9 83 9 9 83 10 9 83 7 9 83 13 9 83
6
1 83,
Logo, a dispersão média dos dados é da ordem de 1,83.
A variância é uma medida de dispersão que verifica a distância entre 
os valores obtidos pela medida de tendência central amostral ou popula-
cional (média aritmética). Em suma, a variância pode ser entendida como 
o somatório dos desvios elevados ao quadrado, dividido pelo total de 
observações no caso da variância populacional, ou dividido pelo total de 
observações menos 1 no caso da variância amostral. A seguir são definidas 
as variâncias populacional e amostral:
Bioestatística
– 16 –
S
X
N
Variância populacionali2
2
s
x
n
Variânciaamostrali2
2
1
x.
Como exemplo, vamos utilizar o modelo de atendimento semanal na 
administração de uma unidade básica de saúde, onde o tempo médio de 
atendimento de pacientes junto ao sistema único de saúde foi registrado. 
Os resultados obtidos em minutos nos setores de especialidades A, B, C e 
D para cada dia da semana são destacadas a seguir:
Tabela 1.1 – Resultados nos setores de especialidades A, B, C e D
Setor Segunda Terça Quarta Quinta Sexta Sábado Domingo
A 52 55 63 76 55 66 77
B 35 42 37 45 41 47 44
C 42 35 44 49 43 45 46
D 27 32 36 35 36 39 31
A
i
n
ix
n
63 42,x. ; B� 41 57,x.
; C � 43 42,x.
; D� 33 71x.
;
s
x
nA
i2
2
1
103 61,
x.
; sB
2 18 61= , ; sC
2 18 95= , ;sD
2 15 90� ;
Em suma, os setores A e D possuem maior e menor tempo de espera 
semanalmente, respectivamente. Por outro lado, os setores A e D pos-
suem maior e menor dispersão em relação à média. Apesar da variância 
ser extensivamente estudada, o desvio padrão é a medida mais usada na 
testagem de hipóteses estatísticas entre conjuntos de dados devido à sua 
maior precisão. Esse parâmetro determina a dispersão dos valores do con-
junto de dados em relação à média, determinado por meio da extração da 
– 17 –
Explorando conceito básicos em Bioestatística
raiz quadrada da variância. Abaixo, a fórmula do desvio padrão amostral 
é definida matematicamente:
s
x
n
i
2
1
x.
Relembrando o exemplo anterior, abaixo são calculados o desvio 
padrão do tempo de espera para os setores hospitalares de A a D.
s
x
n
s s sA
i
B C D
2
1
10 17 4 31 4 35 3 98, ; , ;x.
O coeficiente de variação é uma medida dispersão (instabilidade) 
relativa de uma variável resposta, permitindo a comparação de dispersão 
entre variáveis diferentes e para a mesma variável em momentos diferen-
tes. O coeficiente de variação (CV) é determinado pela relação percentual 
entre o desvio padrão e a média, conforme descrito abaixo:
CV s% *� 100x.
Ainda considerando o exemplo anterior, abaixo é determinado o 
coeficiente de variação para a variável tempo de espera em diferentes 
setores hospitalares:
CV s CV CV CVA B A A% * , %; % , %; % , %; % , %� � � � �100 16 04 10 37 10 02 11 82
x.
A dispersão relativa do desvio padrão em relação à média oscilou 
de 10,02% a 16,04% para a variável tempo de espera. Em geral, o CV de 
0,1% a 15% denota uma baixa instabilidade de medida, uma dispersão 
de 15,1% a 30% indica uma moderada instabilidade de medida e, por 
fim, valores maiores que 30% indicam uma elevada dispersão relativa 
em relação à média.
Bioestatística
– 18 –
1.2.3 Medição separatrizes
Uma outra categoria de medidas para exploração de dados são as 
separatrizes. Essas medidas consistem valores de separação do conjunto 
de dados em partes iguais. Para a realização da separação do conjunto de 
dados, os dados devem ser previamente ordenados de forma crescente. 
Além da mediana, as medidas separatrizes mais empregadas são os quar-
tis, onde o conjunto de dados é dividido em quatro partes iguais, em que 
cada quartil é alocado 25% dos dados; os decis, quando o conjunto de 
dados é dividido em dez partes iguais e os percentis onde o conjunto de 
dados é dividido em cem partes iguais.
A partir das medidas separatrizes é construído um diagrama de caixas 
(denominado em língua inglesa de “box plot”) que tem sido extensiva-
mente empregado para exploração do conjunto de dados por evidenciar os 
principais aspectos da distribuição dos dados. A construção do diagrama 
box plot é realizada por meio do emprego de cinco números, formados 
pelo valor mínimo, primeiro quartil, segundo quartil (mediana), terceiro 
quartil e valor máximo. Esse tipo gráfico além de denotar características 
da distribuição é útil para comparação de distribuições de frequência de 
dados. Na figura abaixo é exemplificado o diagrama box plot para explo-
ração do conjunto de dados.
O diagrama box plot representa os dados de forma resumida, onde as 
arestas laterais do retângulo representam o primeiro e o terceiro quartis 
(Q1 e Q3) e a linha central dentro do retângulo a mediana ou segundo 
quartil. Entre o valor mínimo e Q1, Q1 e Q2, Q2 e Q3 e de Q3 ao valor 
máximo são determinados os quartis. Cada um dos quartis possui 25% dos 
dados, e, obviamente, entre os limites de Q1 e Q3 situam-se 50% dos dados 
(intervalo interquartil). Dessa forma, para representar os 25% restantes 
dos dados em cada cauda, serão considerados dados atípicos se o valor 
do dado for menor que o valor observado de Q1 – 1,5(Q3-Q1) ou maior 
que o valor observado de Q3 + 1,5(Q3-Q1). Adicionalmente, os dados 
são classificados como valores discrepantes ou “outliers”, caso o valor do 
dado for menor que o valor observado de Q1 – 3(Q3-Q1) ou maior que o 
valor observado de Q3 + 3(Q3-Q1). Por fim, para representar o domínio 
de variação dos dados que não são discrepantes, é traçado a partir do pri-
– 19 –
Explorando conceito básicos em Bioestatística
meiro quartil uma linha para cima e para trás é traçada até o ponto mais 
remoto. Abaixo é exemplificado o diagrama box plot sobre a variável taxa 
de produção de força (Rate of Force Development – RFDpeak), estudada 
amplamente em intervenções e estudos em educação física e esportes.
Figura 1.2 – Diagrama box plot
Fonte: elaborada pelo autor.
1.3 Construindo tabelas e gráficos 
no pacote Microsoft Excel®
A habilidade de expressar dados em forma de tabelas é fundamental 
para a experimentação científica. A distribuição de frequências consiste em 
uma lista das categorias ou valores que uma ou mais variáveis apresentam 
em conjunto com a quantidade de ocorrências (número) de cada valor ou 
categoria. Essa quantidade é denominada de frequência absoluta e pode 
ainda ser expressa em forma de frequência percentual de cada categoria (%).
Logo, o processo de apresentação de um conjunto de dados é depen-
dente do tipo de variável estudada. Os gráficos de colunas,barras e linhas 
geralmente direcionados para apresentação de frequências absolutas, rela-
Bioestatística
– 20 –
tivas e medidas de tendências central associadas a medidas de dispersão. 
Adicionalmente, histogramas e polígonos de frequências são empregados 
para expressar a distribuição de frequências de variáveis discretas e contí-
nuas. Para sumarizar variáveis nominais o gráfico de setores é um recurso 
muito utilizado. É necessário que o leitor conheça as variáveis de interesse 
de sua área de estudo ou campo de atuação, conheça e se familiarize com 
os gráficos empregados.
Nesta seção serão aplicados os conceitos que você aprendeu ante-
riormente em ambiente Excel® a partir de um banco de dados conhecido 
para determinação de medidas descritivas, tabelas e gráficos (https://
www.ime.usp.br/~noproest/dados/aeusp.xls). Abaixo são descritas as 
variáveis observadas nas colunas do banco de dados (aba “descrição do 
arquivo”). As informações do banco de dados referem-se a uma pesquisa 
realizada pela Associação dos Educadores da USP (AEUSP), retratando 
aspectos socioeconômicos e culturais de comunidades de pobres no 
Butantã, São Paulo – SP.
Quadro 1.1 – Descrição das variáveis componentes da base de dados [“aeusp.xls”]
coluna 1: Número do questionário (Num).
coluna 2: Comunidade (Comun).
coluna 3: Sexo (Sexo): 1: masculino/2: feminino
coluna 4: Faixas de idade, em anos (Idade):
1: de 14 (inclusive) a 25 (exclusive)
2: de 25 (inclusive) a 35 (exclusive)
3: de 35 (inclusive) a 45 (exclusive)
4: 45 anos ou mais
coluna 5: Estado Civil (Ecivil): 1: solteiro/ 2: 
casado/ 3: divorciado/ 4: viúvo/ 5: outro
coluna 6: Região de Procedência (Reproce).
coluna 7: Tempo de residência em São Paulo, em anos (Temposp).
coluna 8: Número de residentes na casa (Resid).
– 21 –
Explorando conceito básicos em Bioestatística
coluna 9: Trabalho (Trab): 1: sim/2: não/3: aposentado
coluna 10: Tipo de trabalho, só para os que 
responderam trabalham (Ttrab):
1: empregado com carteira
2: empregado sem carteira
3: profissional liberal
4: autônomo
5: rural
coluna 11: Idade que começou a trabalhar, em anos (Itrab).
coluna 12: Renda familiar em faixas de reais (Renda):
1: de 0 (inclusive) a 150 (exclusive)
2: de 150 (inclusive) a 300 (exclusive)
3: de 300 (inclusive) a 450 (exclusive)
4: de 450 (inclusive) a 900 (exclusive)
5: de 900 (inclusive) a 1500 (exclusive)
6: 1500 ou mais
coluna 13: Acesso a computador (Acompu): 1: sim/2: não
coluna 14: Série em que parou de estudar (Serief):
em branco: não parou de estudar
1 a 8: séries do ensino fundamental
9 a 12: séries do ensino médio
Fonte: https://www.ime.usp.br/~noproest/dados/aeusp.xls
Uma ferramenta importante para sintetização e apresentação de variá-
veis consiste na utilização da ferramenta de tabelas dinâmicas do ambiente 
Excel. Logo, é apresentado a seguir uma descrição passo a passo para 
construção de tabelas. Para construir uma tabela univariada (uma variável 
e suas categorias): (1) todas as cédulas das variáveis incluindo o rótulo são 
selecionadas; (2) clica-se na aba “inserir”; e (3) mais uma vez na janela 
em “tabela dinâmica”.
Bioestatística
– 22 –
Figura 1.3 – Inserção de tabela dinâmica e seleção de dados
Fonte: https://www.ime.usp.br/~noproest/dados/aeusp.xls (2021).
Na sequência, em uma nova janela “criar tabela dinâmica”, o leitor 
deverá escolher os dados ou tabela que se deseja analisar e escolhe-se 
onde se deseja que o relatório de tabela dinâmica seja colocado (“Nova 
Planilha”) e clica-se em “ok”.
Figura 1.4 – Inserção de tabela dinâmica e seleção de dados
Fonte: elaborada pelo autor.
– 23 –
Explorando conceito básicos em Bioestatística
Na nova planilha, observam-se os campos:
1. Soltar Campos de Filtros do Relatório aqui”, são os campos 
onde a variável vai ser resumida;
2. “Campos da tabela”, esses campos aparecem no lado direito 
da planilha, na área “Escolha os campos para adicionar ao rela-
tório”, aparece o nome da variável ou variáveis a resumir, no 
exemplo aparece o nome da variável Sexo;
3. Arraste os campos entre as áreas abaixo”, onde existem o campo 
de (a) “Filtros”, onde se pode especificar algum filtro para se 
aplicar aos dados; (b) “colunas”, caso a variável vá ser resu-
mida em coluna; (c) “linhas”, quando a variável escolhida vai 
ser resumida em linha; e (d) “∑ valores”, onde se tem diversos 
forma de resumir a variável, aparece o primeiro tipo de cálculo 
a resumir que é “Soma”.
Figura 1.5 – Tabela univariada para a variável sexo
Fonte: elaborada pelo autor.
Para sumarizar a variável “Sexo” em linha e a variável “Resid”, temos que:
1. Arrasta-se a variável sexo ao campo “Linhas” e a variável 
“Resid” para o campo de colunas, para que cada categoria da 
variável seja alocada em uma linha;
2. Arrastar a variável ao campo “∑ valores”: observe que na tabela 
dinâmica se tem a soma de sexo.
Bioestatística
– 24 –
3. Para mudar o tipo de cálculo a resumir, clicar duas vezes no 
campo “Soma de Sexo”, e observe que abre outra janela de 
“Configurações do Campo de Valor”, onde temos diversas 
maneiras de resumir a variável, incluso o cômputo de medidas 
de tendência central. Nesse caso, mudou-se para “Contagem” e 
após clicar “ok”, observe a mudança na tabela dinâmica:
Figura 1.6 – Tabela univariada para a variável sexo
Fonte: elaborada pelo autor.
A tabela obtida pode ser editada, mudando os rótulos das colunas, 
nome das categorias, e representar com um gráfico de coluna, barras ou 
circular. Para esse objetivo, deve-se selecionar a aba “análise de tabela 
dinâmica” e clicar em “gráfico dinâmico”.
Figura 1.7 – Gráfico dinâmico
Fonte: elaborada pelo autor.
– 25 –
Explorando conceito básicos em Bioestatística
Após selecionar a janela “Gráfico Dinâmico”, tem-se uma nova 
janela que mostra todos os gráficos que podemos selecionar, para esse 
tipo de variável nominal (“sexo”), podemos selecionar as alternativas de 
“Colunas”, “Pizza” ou “Barras”. Após selecionar e clicar em “ok”, apa-
recerá o gráfico selecionado, que pode ser editada toda a área do gráfico.
Figura 1.8 – Gráfico de “pizza”
Fonte: elaborada pelo autor.
Para apresentar os dados da variável termos de frequência relativa (%), 
temos que:
1. Colocar o cursor na tabela dinâmica (mesma tabela);
2. Arrastar a variável sexo novamente ao campo “∑ valores”, 
observando que na tabela dinâmica há uma nova coluna à direita 
da frequência absoluta e no campo “∑ valores”, aparece uma 
nova soma de sexo (“Soma de Sexo2”), nesse campo deve-se 
mudar para contagem efetuando um duplo clique;
3. Para mudar a forma de resumir a variável, muda -se a forma de 
“Mostrar valores como” e clicar na linha “Sem cálculo”, observe 
que há diversas alternativas de mostrar valores, selecione a alter-
nativa “% do Total Geral”;
Após clicar “ok”, observe a mudança na tabela dinâmica, a seguir.
Bioestatística
– 26 –
Figura 1.9 – Gráfico de pizza
Fonte: elaborada pelo autor.
Na tabela univariada, observa – se que uma maior proporção de alu-
nos pertence ao sexo feminino (“2”, cor vermelha, gráfico de pizza). Logo, 
tabelas com duas variáveis podem ser construídas, fundamental para cons-
trução de tabelas de contingência amplamente usadas na área de ciências 
da saúde, assunto a ser abordado em capítulos posteriores.
Figura 1.10 – Tabela bivariada
Fonte: elaborada pelo autor.
Após selecionar as colunas de dados a serem analisados, o leitor deve 
abrir a aba “inserir” e clicar em “tabela dinâmica”. Nessa planilha, observe 
que no exemplo resume-se a variável “sexo” em linha, e arrasta-se a vari-
ável “Idade” ao campo “colunas”, e, por fim, para que cada categoria da 
– 27 –
Explorando conceito básicos em Bioestatística
variável seja alocada em uma coluna, a mesma variável é adicionada ao 
campo “∑ valores”, observe que na tabela dinâmica se tem a soma de 
sexo. A seguir verifica-se a tabela bivariada para as variáveis sexo e idade. 
Para mudar o tipo de cálculo a resumir, clicar no campo Soma, e observe 
que abre outra janela de “Configurações doCampo de Valor”, onde temos 
diversas formas de resumir a variável, em nosso caso devemos mudar para 
Contagem. Após clicar “OK”, observe a mudança na tabela dinâmica.
Figura 1.11 – Tabela bivariada: contagem
Fonte: elaborada pelo autor.
Após ser editada a tabela dinâmica, mudando os rótulos de linha e 
rótulos de colunas e nome das categorias, observamos que o maior número 
de entrevistados na faixa etária de 14 a 25 anos (1) e do sexo feminino (2).
Figura 1.12 – Gráfico bivariado: contagem
Fonte: elaborada pelo autor.
Bioestatística
– 28 –
Para representar os dados da tabela bivariada em forma de gráfico, 
temos que:
1. Primeiramente, colocar o cursor e clicar na janela superior “aná-
lise de tabela dinâmica”;
2. Nas alternativas abertas selecionar “Gráfico Dinâmico”;
3. A partir da nova janela que mostra todos os gráficos que pode-
mos selecionar, para este tipo de variável nominal, podemos 
selecionar as seguintes as alternativas de gráficos de “colunas” 
ou “barras” (a seguir).
Figura 1.13 – Gráfico bivariado
Fonte: elaborada pelo autor.
Novamente, após clicar “ok”, aparece o gráfico selecionado, pode ser 
editado no título do gráfico, a legenda e toda a área do gráfico, a seguir um 
exemplo do gráfico da distribuição de entrevistados segundo sexo e faixa 
etária, onde se observa que o maior número de entrevistados é do sexo 
feminino e da faixa etária maior que 14 anos e menor que 25. Em diversas 
situações, variáveis podem ser expressas como tabelas com intervalos de 
classe, em que cada classe possui limites superiores e inferiores para clas-
sificação da amostra.
– 29 –
Explorando conceito básicos em Bioestatística
O procedimento de determinação dos intervalos de classe é mos-
trado para construir uma distribuição de frequências em intervalos de 
classe. No exemplo abaixo, uma tabela dinâmica foi construída com a 
variável de interesse “Itrab” que aparece em uma nova planilha. Na 
tabela dinâmica criada, coloca-se o cursor em uma das células, e sele-
ciona-se “agrupar”.
Figura 1.14 – Intervalos de classe para a variável “ITRAB”
Fonte: elaborada pelo autor.
Após selecionar a janela “Agrupar Seleção” se abre uma nova 
janela “Agrupamentos”, onde se observa os seguintes campos: “Ini-
ciar em”, o limite inferior do primeiro intervalo de classe; “Finalizar 
em” o limite superior do último intervalo de classe e “Por” para a 
amplitude do intervalo. No exemplo, para agrupar a variável “Itrab”, 
dado que o valor mínimo é 0 e o máximo é 34, indicamos que o agru-
pamento deve-se iniciar em 0, e terminar em 35 com uma amplitude 
de 5 (7 intervalos de classe, veja acima). Subsequentemente, a apre-
sentação da distribuição de frequências é apresentada em formato 
de histograma e polígono de frequências. No exemplo, posiciona-se 
os dados a representar (frequência absoluta incluindo o rótulo) e em 
seguida a opção “gráfico dinâmico”. Por fim, define-se o tipo de grá-
fico adequado ao tipo de variável.
Bioestatística
– 30 –
Figura 1.15 – Variável ITRAB agrupada em 7 intervalos de classe
Fonte: elaborada pelo autor.
Após fechar a janela, temos o histograma da variável, é possível editá-
-lo para mudança do título e os rótulos do eixo horizontal. A seguir é apre-
sentado o procedimento para construção do histograma e polígono de frequ-
ências. Para editar a entrada de dados, clica-se com o botão direito, dentro 
da janela aberta marcando “Selecionar Dados”, e na nova janela “Selecionar 
Fonte de Dados”, seleciona-se os seguintes itens: (a) “Intervalo de dados do 
gráfico”, as células onde os dados se encontram; (b) “Alterar entre linha e 
coluna”, alteração dos dados, entre linha e coluna; e (c)“Entrada de legenda 
Série”, se estamos adicionando outra série de dados, e/ou editar a série de 
dados apresentada e/ou remover a série apresentada. É recomendável que 
você explore as diferentes opções de edição do gráfico.
Figura 1.16 – Histograma de frequência da variável “ITRAB”
Fonte: elaborada pelo autor.
– 31 –
Explorando conceito básicos em Bioestatística
Para construir o polígono de frequências no mesmo histograma, deve-
mos colocar o mouse do lado direito, dentro da janela aberta marcar “Selecio-
nar Dados”, e na nova janela “Selecionar Fonte de Dados”, essa nova janela 
no campo “Entrada de legenda Série”, adicionar a mesma série de dados, após 
clicar Ok, temos duas colunas que representam a frequência absoluta.
Figura 1.17 – Edição de histograma de frequência
Fonte: elaborada pelo autor.
Podemos construir também um histograma acompanhado de um polígono 
de frequências relativas. Para isso basta selecionar o intervalo de dados e mudar 
o tipo de gráfico para linhas na opção gráfico dinâmico, como mostrado a seguir.
Figura 1.18 – Histograma e polígono de frequências para a variável “Itrab”
Fonte: elaborada pelo autor.
Bioestatística
– 32 –
Outra figura que podemos construir são as Ogivas, que são as repre-
sentações das frequências relativas acumuladas. A seguir, a tabela com 
essas frequências acumuladas e colunas indicando os limites inferiores 
(LI) e limites superiores (LS) dos intervalos de classe.
Figura 1.19 – Histograma e polígono de frequências para a variável “Itrab”
Fonte: elaborada pelo autor.
Após selecionar as células da frequência relativa acumulada abaixo 
de, abrimos a janela “Ferramentas de Gráfico”, selecionamos um gráfico 
de linha, após editar o título do gráfico e eixo horizontal com os valores do 
limite inferior, temos a Ogiva Abaixo de, como se mostra na seguinte figura.
Figura 1.20 – Distribuição de frequências relativas acumuladas – Ogivas
Fonte: elaborada pelo autor.
– 33 –
Explorando conceito básicos em Bioestatística
Da mesma forma, selecionando as células da frequência relativa 
acumulada Acima de, abrimos a janela “Ferramentas de Gráfico”, sele-
cionamos um gráfico de linha, após editar o título do gráfico e eixo 
horizontal com os valores do limite superior, temos a Ogiva Acima de, 
como se mostra na seguinte figura.
Figura 1.21 – Distribuição de frequências relativas acumuladas – Ogivas
Fonte: elaborada pelo autor.
Atualmente, existem vários pacotes estatísticos para tratamento de 
dados, gratuitos (“R” Statistical Software, Python etc.) e pagos (SPSS, 
Minitab, Microsoft Excel,etc.). Para expressar as medidas descritivas 
será empregado o software Excel abaixo, por meio de um procedi-
mento simples para sumarização das medidas descritivas, permitindo 
ao usuário a exploração dos dados. Para isso, na aba de “dados” do 
Excel, clique na ferramenta de análise de dados. Para isso, é necessário 
habilitar a ferramenta de “análise de dados” do Excel. Após habilitar 
essa ferramenta, clique no ícone “análise de dados”.
Bioestatística
– 34 –
Figura 1.22 – Icone “Análise de dados” da plataforma Excel®
Fonte: elaborada pelo autor.
Após selecionar o ícone, você deverá escolher a opção de análise de 
dados de “estatística descritiva”, conforme a figura a seguir:
Figura 1.23 – Estatística descritiva
Fonte: elaborada pelo autor.
– 35 –
Explorando conceito básicos em Bioestatística
Após a seleção da opção de estatística descritiva, você deverá sele-
cionar o conjunto de dados de entrada (coluna), nova planilha e resumo 
estatístico, conforme figura abaixo.
Figura 1.24 – Seleção de dados da variável de interesse
Fonte: elaborada pelo autor.
Após selecionar o resumo estatístico, o conjunto de medidas de 
tendência central, dispersão e separatrizes. A partir do resumo esta-
tístico obtido para variável “Tempo de residência em São Paulo em 
anos”, o leitor poderá melhor interpretar as variáveis de seu interesse 
e realizar os exercícios.
Bioestatística
– 36 –
Figura 1.25 – Resumo estatístico: medidas descritivas
Fonte: elaborada pelo autor.
Após a breve apresentação de conceitos, aplicação de conceitos e 
exemplos, no próximo capítulo será apresentado o software estatístico 
“R”, que será empregado durante todos os capítulos. É indispensável o 
entendimento dos conceitos apresentados para a evolução do aprendizado.Atividades
1. Alguns termos em estatística são extensamente usados. Como, 
por exemplo, população e amostra. A seguir, a partir da definição 
de cada um deles, avalie como as frases abaixo devem ser corre-
tamente completadas.
A população é um __________ completo de todos os elementos 
a serem estudados. Já amostra é um _________ da população A 
– 37 –
Explorando conceito básicos em Bioestatística
partir das amostras é possível fazer inferências que servirão de 
base para a ___________ de decisões.
Assinale a alternativa que completa a frase corretamente.
(A) subconjunto; conjunto; tomada.
(B) conjunto; subconjunto; tomada.
(C) conjunto; conjunto; tomada.
(D) subconjunto; conjunto; subconjunto.
(E) conjunto; subconjunto; subconjunto.
2. Em uma pesquisa realizada em uma cidade do interior de Minas 
Gerais para a análise da viabilidade da implantação de uma fábrica de 
roupas, foram identificados os seguintes indicadores:
(1) idade, (2) escolaridade, (3) renda, (4) sexo, (5) número de 
lojas de roupas na cidade, (6) preço médio das roupas na cidade.
Dos dados acima, quais são quantitativos e quais são qualitativos?
(A) Quantitativos – 1, 3, 4 e Qualitativos –2, 5, 6.
(B) Quantitativos – 1 e Qualitativos – 2, 3, 4, 5, 6.
(C) Quantitativos – 1, 3, 5 e Qualitativos – 2, 4, 6.
(D) Quantitativos – 1, 3, 5, 6 e Qualitativos – 2, 4.
(E) Quantitativos –1, 4, e Qualitativos – 2, 3, 5, 6.
3. Avalie as afirmações I, II, III e IV sobre variáveis quantitativas 
e variáveis qualitativas
I. O número de filhos de um casal é uma variável quantitativa.
II. O número de cigarros fumados por dia é uma variável qualitativa.
III. O estágio da doença (inicial, intermediário, terminal) é uma 
variável qualitativa.
IV. A escolaridade (ensino fundamental, ensino médio, ensino 
superior) é uma variável quantitativa.
Bioestatística
– 38 –
Assinale a(s) alternativa(s) correta(s).
(A) Apenas as afirmativas III e IV estão corretas.
(B) Apenas as afirmativas II e III estão corretas.
(C) Apenas a afirmativa I está correta.
(D) Todas as afirmativas estão corretas.
(E) Apenas as afirmativas I e III estão corretas.
4. Existe uma medida muito utilizada na comparação de diferenças 
entre conjuntos de dados, por ter grande precisão. Ela é respon-
sável por determinar a dispersão dos valores em relação à média 
e é calculado por meio da raiz quadrada da variância. Assinale a 
alternativa que apresenta o nome da medida descrita acima.
(A) Moda.
(B) Coeficiente de Variação.
(C) Mediana.
(D) Desvio padrão.
(E) Desvio médio.
5. O cálculo das medidas de Tendência Central pode possibilitar a 
localização da maior
concentração de valores de uma dada distribuição, isto e, se ela 
se localiza no início, no meio ou no final, ou, ainda, se há uma 
distribuição por igual. A respeito das medidas de Tendência Cen-
tral, avalie as afirmações I, II e III sobre algumas medidas.
I. Média aritmética simples pode ser obtida pelo quociente da 
soma de todos os dados do experimento e o número total de dados.
II. A mediana e o valor que aparece com mais frequência no 
conjunto de dados do experimento.
III. A moda e o valor tal que mais da metade dos dados e 
maior ou igual a ela, e mais da metade dos dados e menor ou 
igual a ela.
– 39 –
Explorando conceito básicos em Bioestatística
Em relação às afirmações sobre as medidas, assinale a alterna-
tiva correta:
(A) Apenas I e III são corretas.
(B) Apenas II e III são corretas.
(C) I, II e III são corretas.
(D) Apenas III é correta.
(E) Apenas I é correta.
6. As medidas média, mediana e moda promovem comparações de 
series de dados entre si pela confrontação desses números. Em 
certa pesquisa foram obtidos os seguintes conjuntos de dados 
13, 10, 12, 13, 14, 15. Ao analisar essa pesquisa observaram que:
I. A moda do conjunto de dados acima é o 13.
II. Ao colocar os números em ordem crescente tem-se 10, 12, 
13, 13, 14, 15. Em seguida tirar a média dos dois termos central, 
resulta-se em 13.
A respeito dessas asserções, assinale a opção correta:
(A) as asserções I e II são proposições verdadeiras, e a II é uma 
justificativa da I.
(B) a asserção I é uma proposição falsa, e a II é uma proposição 
verdadeira.
(C) as asserções I e II são proposições falsas.
(D) a asserção I é uma proposição verdadeira, e a II é uma pro-
posição falsa.
(E) as asserções I e II são proposições verdadeiras, mas a II não 
é uma justificativa da I.
7. Um aspecto importante no estudo descritivo de um conjunto de 
dados é o da determinação da variabilidade ou dispersão des-
ses dados, relativamente à medida de localização do centro da 
amostra. A seguir são apresentados alguns resultados referentes 
ao cálculo do desvio padrão.
Bioestatística
– 40 –
I. Com relação aos dados 12, 15, 14 e 13 o desvio padrão é apro-
ximadamente 1,12.
II. Com relação aos dados 10, 11, 12 e 13 o desvio padrão é 
aproximadamente 0,8.
III. Com relação aos dados 22, 25, 25 e 22 o desvio padrão é 
aproximadamente 1,12.
Em relação às afirmativas acima, assinale a alternativa correta:
(A) Apenas I e III são corretas.
(B) Apenas II e III são corretas.
(C) I, II e III são corretas.
(D) Apenas III é correta.
(E) Apenas I é correta.
8. A ________________é a diferença entre o maior e o menor 
valor analisado em uma variável em ordem crescente. Já medida 
de dispersão _____________ é a medida mais usada na com-
paração de diferenças entre conjuntos de dados, por ter grande 
precisão. E responsável por determinar a dispersão dos valores 
em relação a média e é calculado por meio da raiz quadrada 
da____________.
A partir das definições acima avalie como as frases abaixo 
devem ser corretamente completadas. Assinale a alternativa que 
completa a frase corretamente.
(A) Amplitude total; variância; desvio padrão.
(B) Amplitude total; desvio padrão; variância.
(C) Variância; desvio médio; variância.
(D) Variância; desvio padrão; variância.
(E) Amplitude total; variância; desvio médio.
9. Na escola de Pedro, para nota final, é adotado o sistema de médio 
ponderada. Para o cálculo da média ponderada da disciplina de 
– 41 –
Explorando conceito básicos em Bioestatística
matemática, considera-se que as duas primeiras provas têm peso 2 
e as outras duas tem 3 pontos. Na tabela abaixo está representado 
as notas de Pedro:
Pedro
1ª prova 6,5
2ª prova 7,8
3ª prova 8,0
4ª prova 7,1
Considerando o contexto apresentado, avalie as seguintes asserções:
I. A média ponderada da nota de Pedro na disciplina de matemá-
tica é 7.39.
II. A média ponderada pode ser determinada pelo seguinte cál-
culo � �
� � �6 5 7 8 8 0 7 1
4
, , , ,
.
A respeito dessas asserções, assinale a opção correta:
(A) As asserções I e II são proposições verdadeiras, e a II é uma 
justificativa da I.
(B) A asserção I é uma proposição verdadeira, e a II é uma pro-
posição falsa.
(C) A asserção I é uma proposição falsa, e a II é uma propo-
sição verdadeira.
(D) As asserções I e II são proposições falsas.
(E) As asserções I e II são proposições verdadeiras, mas a II não 
é uma justificativa da I.
2
Aplicando conceitos: 
introdução pacote 
de análise de dados 
Microsoft Excel® ao 
software estatístico “R” 
2.1 Análise de dados – Pacote 
Microsoft Excel®
Atualmente, existem vários pacotes estatísticos para tra-
tamento de dados, gratuitos (“R” Statistical Software, Python) 
e pagos (SPSS, Minitab, Microsoft Excel). Para expressar as 
medidas descritivas, neste capítulo, será empregado o software 
Excel, por meio de um procedimento simples para sumarização 
das medidas descritivas, permitindo ao usuário a exploração dos 
dados. Em seguida, será feita uma breve introdução ao software 
R que será empregado nos demais capítulos.
Para inciar, clique na aba de “dados” do Excel e depois na 
ferramenta de análise de dados. Para isso, inicialmente, você terá 
de habilitar a ferramenta de “análise de dados” do Excel. Após 
habilitar essa ferramenta, clique no ícone “análise de dados”.
Bioestatística
– 44 –
Figura 2.1 – Icone“Análise de dados” da plataforma Excel®
Fonte: elaborada pelo autor.
Após selecionar o ícone, você deverá escolher a opção de análise de 
dados de “estatística descritiva”, conforme a figura a seguir:
Figura 2.2 – Estatística descritiva
Fonte: elaborada pelo autor.
– 45 –
Aplicando conceitos: introdução pacote de análise de dados Microsoft Excel® ao 
software estatístico “R” 
Após a seleção da opção de estatística descritiva, você deverá sele-
cionar o conjunto de dados de entrada (coluna), nova planilha e resumo 
estatístico, conforme abaixo.
Figura 2.3 – Seleção de dados da variável de interesse
Fonte: elaborada pelo autor.
Após selecionar o resumo estatístico, o conjunto de medidas de ten-
dência central, dispersão e separatrizes. A partir do resumo estatístico 
obtido para variável “Tempo de residência em São Paulo em anos”, você 
poderá melhor interpretar as variáveis relacionadas ao banco de dados.
Figura 2.4 – Resumo estatístico: medidas descritivas
Fonte: elaborada pelo autor.
Bioestatística
– 46 –
2.2 Introdução ao software estatístico “R”
O “R” é um software livre e totalmente gratuito para processamento e 
análises de dados. A gênese do software R remete ao ano de 1996, através 
dos professores de estatística Ross Ihaka e Robert Gentleman, vinculados 
à Universidade de Auckland, que desenvolveram a nova linguagem com-
putacional, similar a linguagem “S”, amplamente conhecida e desenvol-
vida por John Chambers. Neste capítulo 2, pretende-se realizar uma intro-
dução ao ambiente do software “R”, para novos usuários provenientes de 
diferentes áreas do conhecimento.
É muito questionado sobre a superioridade ou as vantagens do software 
“R” em relação a outros pacotes estatísticos disponíveis. Para esclarecer 
isso, é necessário abordar alguns benefícios do “R”. Dentre as vantagens 
da sua utilização, podem ser enumeradas:
1. A gratuidade do software, possuindo código aberto com uma lin-
guagem acessível;
2. Ampla utilização e franca expansão entre pesquisadores, profis-
sionais de saúde e estatísticos;
3. Possui mais de 5300 pacotes, com aplicações a todas às áreas 
do conhecimento;
4. Possibilidade de desenvolvimento de pacotes, permitindo desen-
volver ferramentas de acordo com nossa necessidade;
5. Atualização constante com cobertura superior e tecnologia de ponta;
6. A melhor capacidade gráfica dentre os softwares estatísticos;
7. Disponível para diferentes plataformas: Windows, Linux e Mac;
8. Qualidade do “backup” e rede de suporte disponível em internet;
9. Compartilhamento de soluções e criação de um ambiente cola-
borativo com outros usuários;
O software pode ser encontrado na internet no site denominado CRAN 
(The Comprehensive R Archive Network), que disponibiliza o download do 
instalador (http://cran.r-project.org/). É importante ficar atento e escolher 
– 47 –
Aplicando conceitos: introdução pacote de análise de dados Microsoft Excel® ao 
software estatístico “R” 
corretamente o arquivo desejado, uma vez que existem versões para o Win-
dows, MAC e Linux. Facilmente o usuário pode buscar vídeos na internet 
para orientar e sanar dúvidas sobre instalação e utilização do software R 
(https://www.youtube.com/watch?v=_V8eKsto3Ug). Existem atualmente 
três tipos de interfaces de trabalho fornecidas: (1) Interface clássica do 
software R – RGUI; (2) Interface RStudio; (3) Interface RCommander. 
Neste capítulo, será utilizada a interface clássica do R, que permite edição 
de linhas de código e as saídas obtidas em duas áreas separadas, dispostas 
horizontalmente ou verticalmente a critério do usuário.
A tela principal do R é apresentada na figura 2.5. A primeira informa-
ção disponível na tela é a data, o número de versão do software, seguido 
de um cabeçalho detalhando que não há garantia para o software, bem 
como alguns comandos importantes. Abaixo do cabeçalho, é exposto 
uma linha em branco com o símbolo “>” na porção esquerda da tela. 
O símbolo representa um sinal de alerta onde são editados comandos. 
No processo de edição, o aparecimento do símbolo “+” significa que o 
último comando digitado não está completo, sendo necessário digitar 
os caracteres que faltam. Caso o comando tenha sido digitado de forma 
errada, pressionando “ESC”, o símbolo de alerta aparecerá novamente. 
O software R armazena os comandos executados, sendo possível através 
do cursor é possível recuperar os comandos digitado sem a necessidade 
de digitar novamente os mesmos comandos.
Figura 2.5 – Informações de interface no software R
Fonte: elaborada pelo autor.
Bioestatística
– 48 –
O uso do R é feito através dos comandos sobre os objetos (veto-
res, fatores, matrizes, listas e quadros de dados) que serão apresentados 
a seguir. Através da interface é possível obter ajuda por meio da barra de 
ferramentas do RGUI. Entretanto, conhecendo o nome da função que se 
quer ajuda, pode-se digitar apenas um ponto de interrogação, seguido do 
nome da função na linha de comandos. Caso o leitor não se lembre do 
nome exato da função, mas conheça o assunto de interesse, é possível 
utilizar a função “help()” com a consulta entre aspas. Logo, as funções 
relacionadas ao assunto escolhido serão listadas. Em adição, para finali-
dades acadêmicas de citação do software e seus respectivos pacotes, basta 
utilizar o comando “citation()”. A seguir na figura 2.6, são mostrados os 
exemplos de solicitação de ajuda, visualização de exemplos e realização 
de demonstrações de funções e comandos desejados.
Figura 2.6 – Utilização de comandos de citação e apoio ao usuário no software R
– 49 –
Aplicando conceitos: introdução pacote de análise de dados Microsoft Excel® ao 
software estatístico “R” 
Fonte: elaborada pelo autor.
Para ver um exemplo sendo executado, basta utilizar o comando 
“example ()”, escrevendo o nome da função desejada entre os parênteses. 
Adicionalmente, uma ótima maneira para observar as opções disponíveis 
no R consiste em utilizar a função “demo ()”, onde é possível visualizar a 
demonstração sobre gráficos. Esses comandos são de suma importância ao 
aprendizado do leitor. Os conteúdos apresentados neste material de apoio 
podem ser praticados através do software R, adaptados e estudados para sua 
aplicação por parte do usuário. Nas figura 2.7 e 2.8, são detalhados os impor-
tantes comandos de auxílio ao usuário “demo ()” e “example()”. Ao repetir 
os mesmos comandos apresentados, o usuário terá como treinar a execução 
e adaptar os exemplos e demonstrações apresentadas às suas necessidades.
Figura 2.7 – Utilização do comando de exemplo no software R (lm – representa “linear 
model” ou modelo linear, a ser detalhado no capítulo relacionado à regressão linear)
Bioestatística
– 50 –
Fonte: elaborada pelo autor.
O pacote básico do R não possui a maioria das bibliotecas disponibiliza-
das pela plataforma do software R. Entretanto, a instalação dessas bibliotecas 
é muito simples. Para isso, é necessário a conexão com a internet e executar 
a linha de comandos “install.packages()”, função necessária à realização do 
upload das bibliotecas solicitadas. Após a execução da solicitação, é questio-
nado ao usuário o espelho ou servidor (cidade/país) para baixar os arquivos.
Figura 2.8 – Utilização do comando de demonstração no software R: demonstração de 
comandos e argumentos relacionados à implementação de gráficos
– 51 –
Aplicando conceitos: introdução pacote de análise de dados Microsoft Excel® ao 
software estatístico “R” 
Fonte: elaborada pelo autor.
Como exemplo, a seguir é instalado o pacote “MASS”, para sua 
utilização, deve-se chamar o pacote instalado, conforme a seguir. Para 
identificar o conteúdo da biblioteca instalada, basta utilizar o comando 
“help”. A escrita de funções e outras seções de linha de entrada, o usu-
ário perceberá que ao invés de executar os comandos diretamente no 
console do software, torna-se mais útil um editor de texto para essa 
função. Para acessá-lo, deve se utilizar a barra de menu da interface 
RGUI, clicando em “arquivo> novo script”, sucedendo – se a aber-
tura de uma nova janela intitulada “Untitled – R editor”, local para 
digitar e editar os comandos. Para executar as linhas, basta destacá-
-las e pressionar as teclas “Ctrl + R”, logo, automaticamente as linhas 
executadas são executadas e transferidas para a janela de comandos. 
As linhas executadas podem ser salvas para posterior utilização pres-
sionando as teclas “Ctrl + S” como um arquivo, sendo necessária a 
atribuição de um nome.
Figura 2.9 – Utilização dos comandos de instalação, utilização e solicitação de apoio 
para pacotes no software R
Bioestatística
– 52 –
Fonte: elaborada pelo autor.
Conforme tratado anteriormente, a utilização do R é feita por meio da apli-
cação de comandos sobre os objetos (vetores, fatores, matrizes, listas e datafra-
mes também denominados de quadros de dados). Para tanto, faz-se necessário 
conhecer o que caracteriza cada objeto, como criá-los e manuseá-los. Logo, 
podemos definir um vetor com uma sequência numérica de valores com os 
– 53 –
Aplicando conceitos: introdução pacote de análise de dados Microsoft Excel® ao 
software estatístico “R” 
caracteres “< ̶”, onde a função “c()” é usada para criar um vetor a partir de 
seus argumentos. Por exemplo, a seguir é apresentado um vetor composto por 
uma sequência de números primos, menores que 12. Neste exemplo, definimos 
como vetor os números 2, 3, 5, 7 e 11. Caso seja necessário adicionar mais 
informações em um vetor, basta criar um vetor novo, conforme exemplificado. 
Existem ainda outras formas de se gerar um vetor, gerando uma sequência de 
números, conforme destacado. Se o vetor é muito longo e não cabe em uma 
linha, o software utilizará as linhas seguintes para imprimir o vetor.
Figura 2.10 – Criação de vetores
Fonte: elaborada pelo autor.
Adicionalmente, uma maneira mais geral de produzir sequências de 
valores reside no uso da função “seq()”, com argumentos entre parênteses, 
número inicial, final e passo de sequência. Retomando o exemplo anterior, é 
possível criar uma sequência de números inteiros de 1 a 30, de dois em dois 
e exemplificada também de forma inversa. Para facilitar o entendimento da 
função, o mesmo comando pode ser escrito de outra maneira, conforme des-
tacado na figura 2.10. Uma outra função útil para gerar sequências numéricas 
é o comando “rep()” que retorna o primeiro argumento repetindo o número de 
vezes indicado pelo segundo argumento. Como exemplo, para gerar um vetor 
composto pelos algarismos 4 e 5 repetidos por 15 vezes. Outros exemplos de 
criação de vetores com o comando “rep()” são destacados na figura 2.11.
Bioestatística
– 54 –
Figura 2.11 – Criação de vetores no software R com os comandos “seq()” e “rep()”
Fonte: elaborada pelo autor.
Na sequência, operações aritméticas envolvendo vetores são comuns 
e efetuadas para cada um de seus elementos, na figura 2.8 são mostrados 
alguns exemplos de operações com vetores incorporando conhecimentos 
já reportados. Entretanto deve se ressaltar que o comprimento do maior 
vetor não se constitui como um múltiplo do tamanho do menor vetor, o 
software R irá alertar e emitir uma mensagem de alerta (“warning”).
Figura 2.12 – Operações aritméticas com vetores
Fonte: elaborada pelo autor.
– 55 –
Aplicando conceitos: introdução pacote de análise de dados Microsoft Excel® ao 
software estatístico “R” 
Uma outra categoria de objetos usados no software R são os fatores. 
Este objeto é utilizado para armazenar dados categóricos. Por exemplo, 
caso o leitor tenha o interesse em armazenar em um determinado banco de 
dados a informação sobre o sexo dos indivíduos. Para isso, o usuário pode 
utilizar o código numérico de “0” para homens e “1” para mulheres ou 
ainda usar as letras “M” e “F” (Masculino – M, Feminino – F), em ambos 
as situações deve-se usar a função “as.factor()”, para construção de um 
fator. As categorias ou níveis de um fator podem ser consultadas através 
da função “levels()”, podendo ser modificado facilmente assinalando um 
novo vetor aos níveis do fator. A figura 13 mostra a construção de fatores.
Figura 2.13 – Construção de fatores a partir de vetores
Fonte: elaborada pelo autor.
A partir dos fatores construídos é possível tabular, ou seja, construir 
tabelas com o registro de frequência de cada categoria por meio da função 
“table()”, ou ainda com um exemplo mais detalhado (ver figura 2.13). 
O software R também é capaz de operar matrizes e existem várias formas 
de criar matrizes. A seguir são reportadas algumas na figura 2.14:
Figura 2.14 – Manipulação de matrizes no software R
Bioestatística
– 56 –
Fonte: elaborada pelo autor.
Para saber a dimensão sobre a matriz, basta utilizar o comando 
“dim()”, que retorna um vetor com o número de linhas e colunas da matriz, 
nessa ordem. Para transpor uma matriz, ou seja, para trocar as linhas pelas 
colunas deve-se utilizar o comando “t()”. Adicionalmente, para pedir um 
resumo das medidas descritivas básicas por colunas da matriz, com execu-
ção do comando “summary()”. Observe que o comando retorna o mínimo, 
o primeiro quartil, a mediana, a média, o terceiro quartil e o valor máximo.
– 57 –
Aplicando conceitos: introdução pacote de análise de dados Microsoft Excel® ao 
software estatístico “R” 
Figura 2.15 – Obtendo informações de matrizes
Fonte: elaborada pelo autor.
De forma semelhante à extração de partes do vetor com o emprego de 
colchetes, podem ser extraídas partes de uma matriz. Porém, essa tarefa é 
um pouco mais complexa, pois a matriz é um objeto com duas dimensões e 
vetores em apenas uma. Para extrair um elemento da matriz, deve-se utili-
zar colchetes com a especificação numérica de linhas e colunas, separadas 
por vírgulas, nessa ordem. Uma coisa comum durante as análises é querer 
selecionar todas as linhas de uma matriz que obedecem a alguma condição 
definida pelas colunas, os exemplos são detalhados na figura 2.16.
Figura 2.16 – Separação de partes de uma matriz
Bioestatística
– 58 –
Fonte: elaborada pelo autor.
As listas são utilizadas para combinar diferentes objetos em um único 
objeto (vetores, matrizes, números e/ou caracteres e até mesmo outras listas 
(figura 2.17). As listas são construídas com a função “list()”, a introdução 
– 59 –
Aplicando conceitos: introdução pacote de análise de dados Microsoft Excel® ao 
software estatístico “R” 
de componentes na lista é realizada usando a forma usual (nome=arg) de 
atribuir argumentos em uma função. Ao digitar o nome de uma lista, cada 
componente é mostrado com seu nome e valor. Cada elemento da lista pode 
ser visualizado individualmente por seu nome associado com símbolo “$”.
Figura 2.17 – Construção de listas
Fonte: elaborada pelo autor.
Os quadros de dados (dataframe) são muito parecidos com matrizes, 
possuindo linhas e colunas e, portanto, tem duas dimensões. Entretanto, 
diferentemente das matrizes, cada coluna pode armazenar elementos de 
diferentes tipos (números e caracteres). Por isso se torna a melhor forma 
de se armazenar dados, onde cada linha corresponde a uma unidade, indi-
víduo ou pessoa, e cada coluna representa uma medida realizada em cada 
unidade. Para analisar dados corretamente, é necessário montar correta-
mente o dataframe, utilizando planilhas para inserir e editar os dados. 
O principal aspecto a ser considerado reside em posicionar todos os valo-
res de uma mesma variável na mesma coluna. Após inspecionar o arquivo 
para observar a ocorrência de erros de digitação, este deve ser salvo pre-
ferencialmente em formato de texto separado por tabulações, ou no for-
mato csv separado por vírgulas. Esse arquivo pode então ser importado 
Bioestatística
– 60 –
para o ambiente do software R, utilizando a função “read.table()” ou 
“read.csv2()”. Abaixo é reportada a organização de um quadro de dados 
organizado em Excel, note que as variáveis resposta (respostas fisiológi-
cas) são organizadas em colunas na vertical assim como os fatores com 
caracteres (sexo e formato de jogo no futebol).Figura 2.18 – Exemplo de estrutura de quadro de dados (dataframe) comportando 
caracteres e números construído em ambiente Excel
Fonte: elaborada pelo autor.
Para facilitar a implementação de comandos para importação de 
dados para o ambiente do software R, deve-se mudar o diretório para 
a pasta que contém arquivos com os bancos de dados (figura 2.19), 
por meio da barras de ferramentas RGUI ou comandos “setwd()” e 
“getwd()”. Dentro da função “read.table()” existem vários argumentos. 
Dentre os mais utilizados estão o “header”, no qual o usuário deve infor-
mar se o dataframe possui ou não cabeçalho com as iniciais “T” ou 
– 61 –
Aplicando conceitos: introdução pacote de análise de dados Microsoft Excel® ao 
software estatístico “R” 
“TRUE” (quando possuir cabeçalho) e “F” ou “FALSE” (quando não 
possuir). Caso o usurário não informe, o software possui um default para 
ausência de cabeçalho (“FALSE”). Adicionalmente, o argumento “dec” 
é utilizado para informar como os números decimais estão identificados, 
se por ponto ou virgulas. O default é o ponto, dessa forma se os dados 
numéricos estiverem separados por vírgulas, deve-se utilizar dec=”,”, 
para não ocorrer o erro. O argumento “sep” é utilizado para informar 
como os dados estão separados, o default da função “read.table()” é 
“sep =” ” “, ou seja, a separação ocorre por espaço. Caso os dados este-
jam separados por vírgulas, deve-se usar sep=”,”.
Figura 2.19 – Mudanças de diretórios e importação de arquivos
Fonte: elaborada pelo autor.
Após importar o dataframe para o ambiente R, existem algumas 
funções que permitem o manuseio do banco de dados, permitindo visu-
alizar o cabeçalho (“head()”) ou ainda para anexar o objeto ao caminho 
de procura e simplificando a digitação (“attach()”). Ao chegar ao final 
deste capítulo, foram apresentados diferentes objetos ao leitor para 
manipulação e utilização do software R e como obter medidas descri-
tivas básicas em ambiente Excel. Logo, é necessário que o usuário se 
atente em praticar e aprofundar sobre as informações destacadas neste 
capítulo. Elas serão muito úteis nos capítulos posteriores.
Bioestatística
– 62 –
Figura 2.20 – Manuseio do banco de dados importado
– 63 –
Aplicando conceitos: introdução pacote de análise de dados Microsoft Excel® ao 
software estatístico “R” 
Fonte: elaborada pelo autor.
Atividades
1. O software estatístico “R” é uma ferramenta amplamente 
empregada no mercado de trabalho. É um software com ver-
sões para os sistemas Windows, MAC e Linux. Os símbolos 
“>” e “+”, significam:
a) “+”, pausa do programa; “>”, sistema está pronto para digitar.
b) “+”, chamado de alerta; “>”, comando digitado não está completo.
c) “>”, chamado de alerta; “+”, comando digitado não está completo,
d) “>”, chamado de alerta; “+”, comando de pausa do sistema.
e) Nenhuma das anteriores.
Bioestatística
– 64 –
2. O conhecimento da distribuição de probabilidade das variáveis de 
estudo são fundamentais para a análise estatística. A verificação da 
hipótese de normalidade é um pré-requisito para vários testes. Para 
verificar esse pressuposto sobre o conjunto de dados, qual o comando 
no R para testar a hipótese sobre uma variável aleatória “X”?
a) norm.test(x)
b) shapiro(x)
c) shapiro.test(x)
d) shapirotest(x)
e) Nenhuma das anteriores.
3. O software R é um potente recurso para análises estatísticas em 
diversas áreas atualmente. Nesse software, é possível manipular 
e gerar conjuntos de dados. Quais são os objetos que podem ser 
criados pelo usuário?
a) Matrizes, vetores e listas.
b) Matrizes, vetores, fatores e listas.
c) Variáveis, matrizes, vetores e listas.
d) Variáveis, fatores, vetores e listas.
e) Fatores, matrizes, vetores e listas.
4. O mundo do trabalho tem sofrido diversas transformações nos 
últimos anos. A profissão de cientista de dados tem emergido 
atualmente para tratar da grande quantidade de dados disponí-
veis. Para importar conjuntos de dados previamente construídos, 
quais comandos podem ser empregados?
a) readtable(nome do arquivo), read.csv2(nome do arquivo).
b) read.table(), read.csv2().
c) read.table(nome do arquivo), read.csv2(nome do arquivo).
d) read.table[nome do arquivo], read.csv2[nome do arquivo].
e) Nenhuma das anteriores.
– 65 –
Aplicando conceitos: introdução pacote de análise de dados Microsoft Excel® ao 
software estatístico “R” 
5. O aprendizado da utilização do software R fortemente depende 
da sua exercitação e da pesquisa. Nesse sentido, além de conhe-
cer e utilizar o comando de ajuda (“help.search()”), você pode 
solicitar ao software R exemplo de como usar determinados 
comandos, como, por exemplo, para a criação de um fator ou 
uma matriz. Como você poderia executar?
a) example()
b) example(“as.factor”)
c) use(as.factor)
d) example(as.factor)
e) Nenhuma das anteriores
6. Imagine que Joana tem 9 seguidores no Instagram e quer saber alguns 
dados sobre deles. Ou seja, identificar as medidas de tendência cen-
tral moda, média e mediana. Cada um com o seguinte número de 
seguidores: 700 | 800 | 800 | 1000 | 1200 | 1300 | 1400 | 2000 | 2600. 
A seguir, avalie a veracidade dos cálculos realizados por Joana.
I. A média de seguidores é aproximadamente 1311,1.
II. A medida da moda dos seguidores é 800.
III. A medida da mediana dos seguidores é 800.
Em relação às afirmativas acima, pode-se afirmar que:
(A) I, II e III são corretas.
(B) Apenas III é correta.
(C) Apenas I é correta.
(D) Apenas I e II são corretas.
(E) Apenas II e III são corretas.
As questões de 7 a 11 devem ser desenvolvidas no ambiente R.
7. A tabela a seguir relaciona o calor específico da água com 
a temperatura.
Bioestatística
– 66 –
t, ºC 200 220 240 260
Cp, Kcal/(kg°C ) 1,075 1,102 1,136 1,183
A média aritmética da capacidade calorífica da água no intervalo 
de tempo , é?
(A) 1,124
(B) 1,1579
(C) 1,1651
(D) 1,1531
8. A aeronave experimental FX-15, criado pela Força Aérea dos 
EUA, possuía motores de foguete. Não só atingiu o recorde de 
velocidade no início da década de 1970, mas também o recorde 
de altitude. Foram 80,47km de altura (o que qualificou os pilotos 
como astronautas) e uma velocidade de 7.273 km/h.
Para certo teste, suponha que foi registrada a velocidade em 
vários intervalos de tempo. Como mostra a tabela a seguir:
Tempo (m) 1 2 3 4
Velocidade (Km) 6000 6500 6784 7100
A velocidade média nos 4 primeiros minutos foi:
(A) 6596 km/h.
(B) 6483 km/h.
(C) 6500 km/h.
(D) 6000 km/h.
(E) 6550 km/h
9. A tabela a seguir traz o número de pessoas infectadas por uma 
doença contagiosa em cinco dias, nas cinco regiões do Brasil.
– 67 –
Aplicando conceitos: introdução pacote de análise de dados Microsoft Excel® ao 
software estatístico “R” 
Regiões 
do Brasil Sul Sudeste Centro-Oeste Nordeste Norte
Número de 
infectados 58 68 70 38 65
O número médio aproximado de pessoas infectadas no Brasil em 
cinco dias foi:
(A) 60
(B) 61
(C) 62
(D) 63
(E) 64
10. A glicemia é uma medida de controle de saúde em humanos. 
Os dez valores a seguir aos valores de glicose dosada em indiví-
duos de uma empresa submetidos a jejum (Glicose: 77, 98, 93, 
99, 102, 116, 80, 82, 78, 90). Caracterize essa variável conforme 
os valores de média, desvio padrão, coeficiente de variação.
(a) 91;12,59;13,00
(b) 81,5;12,59;13,76
(c) 91,5;13,59;13,76
(d) 91,5;12,59;13,76
(e) 91,5;12,9;13,76
11. Usain Bolt é um corredor olímpico jamaicano. Bolt é o recordista 
olímpico e mundial dos 100 metros rasos, tendo completado a 
prova em 9,69 segundos, a de 200 metros com 19,30 segundos 
e, na olimpíada de 2008, conseguiu o título com sua equipe na 
corrida 4×100 metros em 37,10 segundos.
Suponha que tenha sido registrada cinco provas teste de Usain 
St. Leo Bolt nos 100 metros rasos, em uma pista de corrida, na 
seguinte tabela:
Bioestatística
– 68 –
Número da prova 1 2 3 4 5
Tempo (em s) 10,0 9,88 9,95 9,91 9,89
O desvio médio do tempo de prova nas cinco provas de Bolt foi de:
(A) 0,198.
(B) 0,0396.
(C)0,0792.
(D) 0,2376.
(E) 0,076.
3
Distribuição normal 
de probabilidade 
e aplicações 
Um experimento aleatório é aquele cujo resultado é incerto, 
embora se saiba quais são os resultados possíveis (Ex.: jogada de 
uma moeda e observação da face de cima, jogada de um dado e 
observação da face de cima). O conjunto dos resultados possíveis 
do experimento é chamado de espaço amostral (Ex.: jogada de um 
dado e observação da face de cima; E = {1, 2, 3, 4, 5, 6}. Uma 
variável aleatória é uma função que associa um número real com 
cada elemento em um espaço amostral. Como exemplo, toma-se 
o monitoramento da qualidade da gasolina vendida em postos de 
combustível pela agência nacional de petróleo (ANP), em que uma 
variável aleatória de interesse é a proporção de álcool na amostra 
de gasolina do posto. Cada valor dessa variável está ligado a um 
ou mais elementos do espaço amostral (postos de combustível). 
Bioestatística
– 70 –
Para cada elemento do espaço amostral podemos calcular sua probabilidade 
de ocorrer na realização de experimentos. Em síntese, o termo probabilidade 
pode ser definido como o estudo das chances de obtenção de cada resultado 
de um experimento aleatório. Ao obter dados de uma variável de interesse, 
pode-se assumir um modelo de probabilidade e, a partir disso, estimar a 
probabilidade de ocorrência de um determinado resultado.
Os diversos campos de atuação da estatística se baseiam em distribui-
ções de probabilidade para se tomar decisões sobre hipóteses e parâmetros 
(Ex.: Regressão Linear, Modelos Lineares Generalizados, Inferência Esta-
tística, Estatística Multivariada, Estatística Não Paramétrica, Controle de 
Qualidade etc.). Logo, faz-se necessário estabelecer algumas definições 
iniciais. A distribuição de probabilidade consiste na representação de um 
gráfico, tabela ou fórmula que dá a probabilidade para cada valor de uma 
variável aleatória, que possui um valor numérico, determinado ao acaso 
(Ex.: escolha aleatória de uma carta de um baralho). As distribuições de 
probabilidade podem ser classificadas em dois grupos: (A) Discretas – 
formadas por variáveis de natureza discreta (Ex.: distribuições binomial, 
geométrica e Poisson); (B) Contínuas – compostas por variáveis classi-
ficadas como contínuas, compreendidas pelas distribuições gama, qui-
-quadrado e normal.
No presente capítulo, será abordada a distribuição normal de pro-
babilidade, uma das distribuições mais importantes e relevantes para a 
estatística devido ao teorema central do limite. O teorema central do limite 
reporta que para qualquer tipo de distribuição da variável de interesse, 
para grandes amostras, a distribuição de médias amostrais terá distribui-
ção aproximadamente normal, tendendo a uma distribuição normal na 
medida em que o tamanho da amostra aumentar. Logo, pode-se ter uma 
variável original com uma distribuição diferente da normal, mas ao obter 
várias amostras grandes desta distribuição e então construirmos um histo-
grama de médias amostrais, a forma se parecerá como uma curva normal. 
Todavia, se uma variável aleatória contínua possui uma distribuição com 
um histograma simétrico e em formato de sino (destacado a seguir) e que 
também pode ser descrita pela equação abaixo, pode se dizer que ela pos-
sui uma distribuição normal:
– 71 –
Distribuição normal de probabilidade e aplicações 
σ
µ
f x 1
2 22 2
21
2
1exp x Equação
A representação da distribuição normal possui dois parâmetros: a 
média e o desvio padrão. Nesse sentido, a notação para representar que 
uma determinada variável “x” possui distribuição normal de média (μ) = 
20 e desvio padrão (σ) = 5 é definida como x ~ N (20,5), em outras pala-
vras, a variável “x” tende a uma média 20 e desvio padrão 5.
A partir do conhecimento da distribuição de probabilidade da vari-
ável, podemos evidenciar a probabilidade de ocorrência de um determi-
nado evento, por meio da realização de um procedimento de integração 
da área desejada da curva. Porém, uma vez que essa prática não é usual, 
para facilitar o procedimento para estimar a probabilidade de ocorrência, 
os profissionais em estatística transformaram uma curva qualquer normal 
(N), na famosa normal padronizada, N(0,1), ou seja, com média (μ) = 0 e 
desvio padrão (σ) = 1. Essa transformação é obtida com a padronização da 
variável no escore “z”, utilizando a seguinte expressão:
z
x
s
i Equação2
Para entender melhor a utilização prática do escore “z”, entendendo 
que a variável altura como uma variável quantitativa contínua e que res-
peita uma distribuição normal de probabilidade, queremos comparar as 
alturas de um indivíduo do sexo masculino (200 cm) e um do sexo femi-
nino (187 cm), com respeito às populações dos respectivos sexos. Nesse 
Bioestatística
– 72 –
sentido, qual dos dois são mais altos em relação ao seu sexo? Para res-
ponder melhor a essa pergunta, precisamos então padronizar aquelas altu-
ras convertendo em escores “z” para então compará-los. Estima-se que 
a média da altura de homens é de 174,1 cm com um desvio padrão 5,3 
e a das mulheres é de 159,9 com um desvio padrão de 5,7. A partir da 
equação para padronização, sua representação é feita de forma aplicada 
(software “R”). É interessante notar que, para declarar uma variável, o 
usuário deve empregar qualquer nome de interesse (Ex.: “z_masculino”) 
que representará o valor de “z” e os símbolos “<-“, conforme a figura 3.1. 
Nota-se que o indivíduo do sexo masculino está a 4,7543 desvios padrões 
da média da população do sexo masculino e feminino a 4,8867. Portanto, 
pode-se afirmar que a pessoa do sexo feminino é mais baixa em relação 
ao seu sexo do que a pessoa do sexo masculino. Nessa linha, a seguir são 
apresentadas algumas funções do R importantes nesta etapa de operações 
com distribuições (quadro 3.1).
Quadro 3.1 – Funções básicas do R para distribuição normal de probabilidade
dnorm(quantiles, média, 
desvio – padrão)
calcula a densidade de probabilidade 
f(x) em um determinado ponto, ou 
seja, a probabilidade de ocorrência 
de um determinado valor;
pnorm(quantiles, média, 
desvio – padrão)
calcula a função de probabilidade f(x) 
acumulada em determinado ponto;
qnorm(vetor de 
probabilidades, média, 
desvio – padrão)
calcula o quantil correspondente 
a uma dada probabilidade;
rnorm(número de 
observações, média, 
desvio – padrão)
retira uma amostra aleatória 
da distribuição.
Fonte: https://www.rdocumentation.org/packages/stats/versions/3.6.2/topics/Normal (2021).
Ao empregar as funções destacadas, na curva gerada N (20,5), o 
usuário deverá digitar os comandos com seus respectivos argumentos e 
– 73 –
Distribuição normal de probabilidade e aplicações 
teclar “control + R”. O valor de 0,07 obtido representa a densidade de 
probabilidade no valor 20, na distribuição N (20,5). O valor de 0,158 é 
a probabilidade em uma distribuição N (20,5) de aparecimento de valo-
res menores que 15. Logo, o valor de probabilidade da ordem de 0,185 
é a probabilidade para o valor da variável encontrar-se entre 15 e 18. 
O comando abaixo significa que um valor menor que 29,79 tem probabi-
lidade de 0,975 de ocorrer. Adicionalmente, um valor maior do que 29,79 
possui 0,025 de probabilidade de ocorrência.
Figura 3.1 – Utilização do escore “z” padronizado
Fonte: elaborada pelo autor.
Podemos ainda simular valores de uma distribuição normal conforme 
a figura 3.2. A seguir são declaradas 4 variáveis (a, b, c e d) e ao teclar 
“control + R”, com média (μ) = 100 e desvio padrão (σ) = 15, gerados 
quatro subconjuntos com 50, 500, 5000 e 50.000 elementos amostrais e 
os respectivos histogramas obtidos. Ao observar a figura 3.2, à medida em 
que a amostra aumenta, os histogramas progressivamente apresentam um 
comportamento mais semelhante à curva normal apresentada, ou seja, o 
formato da distribuição de frequência acumuladas assemelha-se gradual-
mente a um formato de “sino”.
Bioestatística
– 74 –
Figura 3.2 – Histogramas de frequência
Fonte: elaborada pelo autor.– 75 –
Distribuição normal de probabilidade e aplicações 
Suponha que a altura em posição sentada de motoristas tem que ser 
considerada no projeto de um novo modelo de automóvel. Os homens 
têm alturas em posição sentada que são normalmente distribuídas com 
média de 36 polegadas e desvio padrão de 1,4 polegadas. Os engenheiros 
forneceram projetos que podem acomodar homens com alturas em posi-
ção sentada de até 38,8 polegadas, mas homens mais altos não podem ser 
acomodados. Se selecionarmos um homem aleatoriamente, qual a pro-
babilidade de que sua altura em posição seja menor que 38,8 polegadas? 
O projeto é possível de ser executado? Com esse comando, a probabilidade 
de ocorrência de um valor de altura sentado menor que 38,8 é de 0,9772 
(figura 3.3). Para calcular a probabilidade de ocorrer um valor maior que 
38,8, basta subtrair 1 do valor de probabilidade obtido acima e executar o 
comando pnorm() e teclar “control + R”. Por fim, a execução do projeto 
levará a uma perda de aproximadamente 2,28% dos clientes do sexo mas-
culino (figura 3.3), cabendo à empresa se a perda é de ordem aceitável. 
Deve-se ressaltar a necessidade de conhecimento da distribuição normal 
padronizada, logo, para resolver o problema destacado, podemos transfor-
mar o valor de 38,8 em escore “z” e para “tomar a decisão” considerando 
a distribuição normal padronizada. Logo matematicamente, tem-se que:
P X 3,
,
P X P Z38 8 38 8 36
1 4
2 Equação
Nesse sentido, temos no software “R” que:
Figura 3.3 – Tipificação de respostas individuais – exemplos
Fonte: elaborada pelo autor.
Conforme destacado, o valor de probabilidade e o valor obtido após 
a padronização são os mesmos. Após observar uma amostra de dados 
de uma dada variável, podemos pensar assim, respeitando os rigores da 
amostragem, pode-se supor uma distribuição que melhor se adequa aos 
Bioestatística
– 76 –
dados. Obtendo-se a distribuição, pode-se inferir sobre a variável. Após 
a análise descritiva dos dados, torna-se necessária a execução de alguns 
testes estatísticos para testar duas hipóteses de interesse. Para isso existem 
dois grandes grupos de testes clássicos de hipóteses: (1) paramétricos; e 
(2) não – paramétricos. Os paramétricos exigem o conhecimento da distri-
buição de probabilidade existentes no conjunto de dados.
Figura 3.4 – Pressuposto de normalidade: “Quantile – quantile plot”
Fonte: elaborada pelo autor.
O emprego de métodos paramétricos dos não paramétricos é discri-
minado por meio da verificação ou não da hipótese de normalidade dos 
dados. Dessa maneira, torna-se imperativa a necessidade de testagem da 
normalidade. Sendo assim, é de suma importância conhecer algum teste 
– 77 –
Distribuição normal de probabilidade e aplicações 
estatístico capaz de inferir se a distribuição de probabilidade das variáveis 
a serem analisadas é normal. Uma forma mais simples de verificação da 
hipótese de normalidade decorre por meio da avaliação do “quantile – 
quantile plot” (Figura 3.4).
Nesse caso, se a amostra estudada é normalmente distribuída, os pon-
tos devem estar próximos à linha reta. Porém, os desvios de normalidade 
aparecem como vários tipos de não linearidade. Os comandos utilizados 
para isso são “qqnorm” e “qqline” (quantil-quantil). Basicamente, os 
quantis são medidas separatrizes que dividem o intervalo de frequência de 
uma determinada amostra ou população.
Adicionalmente, ao observar a figura 3.4, a variável massa simulada 
parece normalmente distribuída. Entretanto, como visivelmente existem 
alguns pontos que estão distantes da linha reta produzida é importante 
realizar algum teste de hipótese para a suposição de normalidade. Para 
isso, será empregado o tradicional teste de hipótese para normalidade de 
“Shapiro-Wilk”. Para isso emprega-se o comando “shapiro.test()”, digi-
tando esse comando e dentro dos parêntesis o nome da variável, seguido 
de “control + R” (Figura 3.5).
As hipóteses do teste de Shapiro são:
 2 H0 – Hipótese nula: a variável massa possui uma distribuição 
normal de probabilidade;
 2 H1 – Hipótese alternativa: a variável massa não possui uma dis-
tribuição normal de probabilidade.
Figura 3.5 – Verificação da suposição de normalidade: software R
Fonte: elaborada pelo autor.
O valor de probabilidade (“p-value”) é a probabilidade de rejeitar 
H0 sendo ela verdadeira. Dessa forma, o valor de probabilidade está nos 
Bioestatística
– 78 –
informando que, se rejeitarmos H0, a probabilidade de estarmos errados é 
de 0,5808. Na maioria dos campos da ciência, o nível de significância a 
ser abordado é de 0,05 (5%), ou seja, para valores maiores que 0,05 não 
há rejeição de H0. Portanto, como o valor de probabilidade obtido é maior 
que 0,05 não rejeitamos H0 e concluímos que a variável massa segue uma 
distribuição normal de probabilidade.
3.1 Aprendendo a utilizar a tabela “z” 
Anteriormente, reportamos que para calcular os valores de probabili-
dade corretamente e sem o concurso da operação de integração (por vezes 
morosa e inacessível aos usuários), conforme evidenciado, utilizamos 
a tabela de áreas sob a curva normal de uma variável padronizada “z”, 
caracterizada pela média (μ) = 0 e desvio padrão (σ) = 1.
Tabela 3.1 – Curva normal padronizada ou reduzida – Tabela “z”
Fonte: http://www.datalyzer.com.br/site/suporte/administrador/info/arquivos/info73/73.
html (2021).
– 79 –
Distribuição normal de probabilidade e aplicações 
A tabela 3.1 possui as áreas compreendidas e calculadas previamente 
entre o ponto central da distribuição, com média 0, e qualquer valor de 
“z”. Logo, em sua construção, a primeira coluna contém valores intei-
ros e decimais da variável “z” e cada coluna seguinte (primeira linha), 
o seu valor centesimal. Dessa forma, a normal padronizada é tabelada e 
assim pode-se inferir sobre a probabilidade de ocorrência de determinado 
evento, sem a utilização de computadores. O escore padronizado (“z”) é 
o número de desvios padrões acima ou abaixo da média que se situa um 
determinado valor. Veja a tabela 3.1.
A tabela 3.1 apresenta somente metade da área da curva normal padro-
nizada, para determinarmos o valor de probabilidade correspondente entre 
o valor de z = 0 e o valor de z=1,96, basta localizar valor inteiro e decimal 
de “z” na primeira coluna (1,9) e o respectivo valor centesimal (0,06), no 
interior da tabela, o valor encontrado que cruza a projeção entre a linha e 
a coluna localizadas, corresponde ao valor de probabilidade (P=0,4750). 
Considerando a simetria entre os dois lados da curva de distribuição nor-
mal, a diferença entre o valor da área da metade da curva (P=0,5) e o valor 
obtido acima é igual a 0,025. Temos então que a probabilidade de encon-
trarmos um valor acima de +1,96 é de 0,025 [P(Z>1,96) = 0,025].
Para encontrar o valor da variável padronizada “z”, basta realizar o 
procedimento inverso. A partir do valor de probabilidade na porção interna 
da tabela, encontra-se os valores da variável “z”. Por exemplo, para o 
valor de 0,4418, encontramos os valores de 1,5 e 0,07, logo, z=1,57. Mas, 
e os valores de correspondentes a outra porção da curva normal padroni-
zada? Os valores de probabilidade são exatamente iguais para os valores 
negativos, à esquerda, da variável “z”.
Podemos observar que na distribuição da variável padronizada “z”, 
que para um determinado intervalo de respostas típicas de 95%, os valores 
limites correspondem a -1,96 (à esquerda) e +1,96 (à direita). Pois, se a 
área de z=0 a z=+1,96 é de 0,4750, e de z=0 a z=-1,96 também será de 
0,4750, uma vez que as duas metades da curva normal padronizada são 
simétricas e sua área total é igual a 1.
A partir destes valores é possível tipificar respostas individuais 
conhecendo os valores de média e desvio padrão para determinada 
Bioestatística
– 80 –
variável resposta a partir da equação do escore “z” padronizado apre-
sentada previamente.
3.2 Aprendendo a tipificar respostas individuais
Nesta subseção, trabalharemos com mais exemplos práticos parasuplantar os conhecimentos teóricos obtidos. A determinação da área cen-
tral de 95% sob a curva normal pode ser resolvida, conforme destacamos 
anteriormente, pelo procedimento de integração. Para tal necessitaríamos 
definir a função matemática sob a qual se deseja calcular a área compreen-
dida entre duas coordenadas quaisquer, proposta por Gauss, integrar esta 
função entre essas duas coordenadas: o valor obtido será a área percentual 
em relação a área percentual em relação a área total sob toda a função de 
-∞ a +∞, que corresponderia a 100%.
3.2.1 Exemplos de Aplicações
Exemplo 1. Considerando um exemplo específico na área de agro-
pecuária, dada a massa ao abate de suínos com média de 90 kg e desvio 
padrão 12kg, para um determinado frigorífico. Quando nossa variável for 
diferente de “z”, como identificar o intervalo de respostas típicas da massa 
de abate de suínos, com os valores de média e desvio padrão reportados? 
Logo, conforme já previamente destacado, por meio da relação z
x
s
i�
�� �� 
é possível transformar qualquer variável biológica normalmente distribu-
ída em distribuição padrão “z”. Como os valores de “z” que limitam o 
grupo de respostas típicas (95% da população) são -1,96 e 1,96, a relação 
para cálculo dos escores “z” nos fornecerá os mesmos limites para qual-
quer variável normal, ou seja:
i E6 1x s1 9 96 1 2 4
x
s
quaçãoi
i
Onde x s1 1 96� �� . será a menor resposta típica e x s2 1 96� �� . 
será a maior resposta típica. O intervalo de x1 e x2 é denominado de inter-
valo de respostas típicas individuais, ou ainda, o intervalo de confiança 
– 81 –
Distribuição normal de probabilidade e aplicações 
que corresponde a 95% das observações dispersas em torno da média. 
Nesse sentido, a massa de abate de suínos compreenderá o intervalo de:
6 1 Equaç 5x k 113ga kg ãi 90 1 9 2 66 5 oo
Adicionalmente, considerando uma quantidade disponível de 300 
animais para fornecer ao frigorifico, quantos animais (nX) foram neces-
sários para atender a demanda imposta? Logo, nesse sentido temos que:
300 animais ---- 100%
nX ---- 95% nX = 285 animais.
Nesse caso temos que, para descrever a variável peso ao abate, 285 
animais (95% deles) estarão probabilisticamente no intervalo de respos-
tas típicas para fornecimento de matéria prima ao frigorifico (Figura 3.6). 
O domínio do cálculo de probabilidade envolvendo a curva normal fun-
damenta a teoria estatística que permitirá a comparação de grupos expe-
rimentais. Entretanto, a distribuição “z” possibilita algumas aplicações 
práticas onde a resposta individual é o alvo do usuário.
Figura 3.6 – Exemplo 1: área da curva normal – intervalo de respostas típicas
Fonte: elaborada pelo autor.
Bioestatística
– 82 –
Entretanto, o frigorífico solicitou que os animais a serem adquiridos pos-
suam entre 90kg (X1) e 100Kg (X2) de peso para o abate por questões opera-
cionais e logísticas finais do frigorífico. Nesse sentido, necessita-se conhecer 
a área relativa (procedimento de integração) que corresponderia ao percentual 
da população ali contida. Sabendo que X1 é o limite superior do intervalo de 
respostas individuais típicas, a área calculada deveria ser de 0,4750 (47,5%) 
porque a outra porção estaria simetricamente do outro lado da média.
z
x
s
1 90 90
12
0
6z
x
s
2 100 90
12
0 83 Equação
Logo, temos que:
P massa90 0 100
P massa90 90
12
100 90
12
��
�
�
�
�
� � �
��
�
�
�
�
�
�
�
�
�
�
� �
Equação, %P Z0 0 83 0 2967 29 67 7
Figura 3.7 – Exemplo 1: área da curva normal – intervalo requisitado pelo frigorífico 
(X1 = 90Kg; X2 = 100Kg)
Fonte: elaborada pelo autor.
– 83 –
Distribuição normal de probabilidade e aplicações 
Para o intervalo destacado, temos probabilisticamente que 29,67% 
dos animais atenderiam à demanda imposta pelo frigorífico, correspon-
dendo aproximadamente a 89 dos animais disponíveis:
300 animais ---- 100%
nX ---- 29,67% nX = 89,01 (≈ 89 animais).
Exemplo 2. Uma determinada panificadora recém-inaugurada necessita 
reservar 30 dúzias de ovos com peso inferior a 38 gramas diariamente. Esses 
ovos são mais baratos para produção de itens diversos como pães e bolos. 
Logo, uma granja de aves consultada como possível fornecedora reportou 
uma produção média diária de 3000 ovos, com massa em média de 55 gramas 
e com desvio padrão de 12 gramas. Com base nestas informações, o possível 
fornecedor de matéria prima seria capaz de atender esta demanda?
Figura 3.8 – Exemplo 2: área da curva normal
Fonte: elaborada pelo autor.
Se x = 38 gramas, então seu valor correspondente em uma distribui-
ção de “z” será (Figura 3.6).
8z Equaç
38 55
12
1 412 1 42 ãão
Bioestatística
– 84 –
Ao consultar a tabela “z”, a área compreendida entre -1,42 e 0 é de 0,422. 
Porém, a área de interesse de ovos industriais mais leves que 38 gramas cor-
responde à área inferior ao valor de z = – 1,42. Portanto, a probabilidade de 
encontrar ovos mais leves que 38g na granja será a diferença entre o valor de 
probabilidade da metade da curva normal (0,5) e o valor de “z” obtido.
P z P z Equação0 1 42 0 50 0 422 0 0778 7 78 9, ,
Uma vez que a granja produz 3000 ovos por dia, temos que:
3000 ovos ---- 100%
oferta ---- 7,78% oferta = 233,4 ovos (≈ 233 ovos).
Nesse sentido, a granja não poderá fornecer o montante pedido de 
360 ovos (30 dúzias) com peso abaixo de 38 gramas. Logo, a panificadora 
deverá encontrar mais fornecedores para atender sua demanda ou reduzir 
a produção de itens na panificadora.
Exemplo 3. Ao recuperar o exemplo do abatedouro de suínos, caso 
um outro abatedouro se interessar por animais com peso mínimo de 90kg 
[P(X≥90kg)], qual a porcentagem de animais que estará apta para o abate 
quando a média do lote for de 95kg e o desvio padrão de 15kg?
Figura 3.9 – Exemplo 3: área da curva normal
Fonte: elaborada pelo autor.
– 85 –
Distribuição normal de probabilidade e aplicações 
z Equação
90 95
15
0 3333 10
A área correspondente ao intervalo de “z” de -0,333 a 0 (ou de 90 a 
95kg na distribuição original) corresponde a:
EquaçãoP Z , ,0 33 0 00 0 1293 12,,93 11
Logo, a probabilidade de encontrar animais com no mínimo 90kg no 
grupo reportado:
EquaçP Z , , , ,P Z ã0 33 0 00 0 00 0 1293 0 50 0 6293 oo12
Então:
300 animais ---- 100%
nX ---- 62,93% nX = 188,79 (≈ 188 animais).
Na nova situação proposta pelo frigorifico, temos probabilistica-
mente que 62,93% ou aproximadamente 188 dos suínos cumpririam a 
possível demanda.
Exemplo 4. A variável de massa corporal é uma variável quantitativa 
contínua e que respeita uma distribuição normal de probabilidade. Um 
grupo de amigos (Italo 78kg, José 91kg, Isabela 69kg e Raquel 78kg) sen-
tiram-se mutuamente desafiados a verificar qual é mais pesado e menos 
pesado. A média de massa de homens é estimada em 80kg com um des-
vio padrão de 6kg e a das mulheres é de 65kg com um desvio padrão de 
5kg. Dessa forma, qual seria a ordem dos mais pesados para os menos de 
acordo coma padronização como escore “z”?
,z
x
sitalo
1 78 80
6
0 333
,z
x
sjose
2 91 80
6
1 833
,z
x
sisabela
3 69 65
5
0 800
Bioestatística
– 86 –
,z
x
sraquel
4 78 65
5
2 60
Logo, após a padronização da variável massa temos que:
z z z zraquel jose isabela italo> > >�
Adicionalmente, o estudo da massa corporal é importante para diver-
sas aplicações comerciais, por isso, há a necessidade de determinação do 
intervalo de respostas típicas para massa corporal de homens e mulheres. 
Logo, para 95% das respostas típicas da massa corporal, temos que:
916 6 Equaçãox kga kghomens 80 1 9 68 24 76 13
Equação6 5x k2 7ga kgmulheres 65 1 9 55 4 8 14
Para um intervalo de respostas típicas de 99%, os limites de massa 
para mulheres e homens seria de
x k 15ga6 6 kghomens 80 2 5 64 55 95 45 Equação
x k 77 16ga kgmulheres 65 2 5 5 52 125 875 Equação
Exemplo 5. Um haras cria cavalos manga-larga marchador que atin-
gem 140 cm de altura média na cernelha e desvio padrão 5,3 cm. Para 
o registro de animais machos, os limites novos permitidos pela associa-
ção decriadores para aquela para característica foram estabelecidos como 
intervalo de 132 a 143cm. Logo, tendo em vista o haras em questão, qual 
o percentual de garanhões naquele haras que não atenderia aos novos 
padrões de raça?
17
,
z
y
s
Equaçinferior
1 132 140
5 3
1 51 ãão
18
,
z
y
s
Equsuperior
2 143 140
5 3
0 57 aação
– 87 –
Distribuição normal de probabilidade e aplicações 
Então:
EquaçãoP Z , ,1 51 0 00 0 4345 43,, %45 19
Equação, %P Z0 0 57 0 2157 21 57 20
Logo, para os novos padrões estabelecidos pela associação (132 e 
143 cm), teremos 65,02% dos animais reprodutores atendendo os padrões 
da raça. É interessante notar ainda que o haras está produzindo animais 
potencialmente mais altos para o parâmetro de altura na cernelha.
Exemplo 6. Em outro exemplo na área econômica, para uma rodada 
de negociações, um comerciante internacional de produtos lácteos foi 
desafiado por políticos em um evento que seu país possivelmente não 
seria capaz de fornecer o montante de produto in natura (100.000 tonela-
das/mês) com nível de qualidade (parâmetro denominado por contagem 
de células somáticas, CCS <250) e preço médio (€ 0,50±0,20 centavos/
litro) para competir com o produto local com pelo menos 99% de certeza. 
O comerciante, conhecedor de estatística, rapidamente antes de se pro-
nunciar abertamente durante a conferência decidiu fundamentar suas pala-
vras. O comerciante sabia que a produção mensal de leite de sua empresa 
em todas as suas unidades era de 1.200.000 toneladas/mês, CCS média de 
556,55 e desvio padrão 435,8, preço médio de R$ 1,40, com desvio padrão 
de 35 centavos. Qual foi a melhor resposta à observação dos políticos?
Sobre a quantidade média de produto in natura, temos que:
3 1
,
,
,z
X
sCCS250
1 250 556 55
435 8
0 703 9Equação
20Equaç, , , ,P Z P Z0 00 0 703 0 50 0 241 0 259 25 9 ãão
Ao todo o comerciante possui 310.800 toneladas por mês com valo-
res de CCS<250. Esse valor é quase 3 vezes maior que o valor do produto 
in natura estipulados pelos políticos. Logo, uma boa resposta à observação 
ofertada por políticos, por parte do comerciante, seria de que “acredito 
não só que podemos oferecer esta quantidade com esta qualidade, como 
também 3 vezes mais”.
Bioestatística
– 88 –
Figura 3.10 – Exemplo 6: área da curva normal
Fonte: elaborada pelo autor.
A respeito do preço médio de produto, com a cotação do euro 1 euro 
= 4,50 reais, o comerciante pode oferecer o preço médio unitário a 0,31 
centavos de euro (1,40), isentos de tarifas comerciais, com 95% de con-
fiança, o comerciante poderia oferecer preços entre 0,71 e 2,08 reais, ou 
0,16 e 0,46 euros, inferiores aos preços pagos atualmente no país.
21x , ,preços 1 40 1 96 0 35 0 71 2 08 reais Equação
Na experimentação em bioestatística, a utilização de desempenhos 
individuais será muito restrita. Os ensaios em sua maioria desejarão com-
parar médias de tratamentos e não tipificar possíveis respostas individuais. 
Assim sendo, nosso interesse passa a ser não como a maioria dos indiví-
duos podem responder a um tratamento, mas como a média de “n” indi-
víduos tratados igualmente pode variar de experimento para experimento. 
Isso significa que estaremos procurando um intervalo que englobe 95% 
de todas as médias possíveis de serem encontradas quando utilizarmos n 
indivíduos sob um mesmo tratamento. Neste capítulo foram tratados con-
ceitos sobre a distribuição normal de probabilidade, a utilização de tabela 
“z”, a tipificação de respostas individuais e aplicação desses conceitos no 
– 89 –
Distribuição normal de probabilidade e aplicações 
software “R”. No próximo capítulo serão tratados conceitos relacionados 
à associação de variáveis e o relacionamento entre variáveis.
Atividades
1. A distribuição de probabilidade é a representação de um gráfico, 
tabela ou fórmula que dá a probabilidade para cada valor de uma 
variável aleatória, que possui um valor numérico, determinado 
ao acaso para cada resultado obtido. Basicamente existem dois 
grupos de distribuições, quais são elas?
a) Gama, Poisson.
b) Discretas, contínuas.
c) Discreta, normal.
d) Poisson, contínua.
e) Nenhuma das alternativas anteriores.
2. O ______________________ mostra que para qualquer que seja 
tipo de distribuição da variável de interesse, para grandes amos-
tras, a distribuição de médias amostrais terá distribuição apro-
ximadamente normal, tendendo a uma distribuição normal na 
medida em que o tamanho da amostra aumentar. Logo, a alter-
nativa correta é:
a) Teorema central do limite.
b) Teorema de limites.
c) Intervalo de respostas típicas.
d) Intervalo de confiança.
e) Nenhuma das alternativas anteriores.
3. Uma variável aleatória contínua que possui um histograma de 
frequência acumulada simétrico. Para calcular o valor de proba-
bilidade, delibera-se pelo uso do método de integração. A função 
que permite o cálculo dos valores de probabilidade é:
Bioestatística
– 90 –
a) f x exp x1
2
1
22 2
2
b) f x exp x1
2
1
22
2
c) f x exp x1
2
1
2 2
2
d) f x exp x1
2
1
22 2
2
e) f x exp x1
2
1
2 2
2
4. O conhecimento da ___________________ de cada evento 
ocorrer para uma determinada variável, é realizado por meio do 
procedimento de integração da área da curva de interesse. Porém, 
esta prática não é simples, opta-se por transforar uma curva nor-
mal qualquer em uma normal padronizada), com _________ = 
0 e _________ = 1. Isso é feito com a padronização da variável 
em um escore “z”, utilizando a expressão _______
a) Distribuição, média, desvio padrão, �z
x
s
i�
�� �� .
b) Distribuição de probabilidade, média, desvio padrão, �z
x
s
i�
�� �� .
c) Distribuição de probabilidade, média, desvio médio, �z
x
s
i�
�� �� .
d) Distribuição de probabilidade, média ponderada, desvio 
padrão, �z
x
s
i�
�� �� .
e) Nenhuma das alternativas anteriores.
5. A variável peso corporal é uma variável quantitativa contínua 
e que respeita uma distribuição normal de probabilidade. Um 
grupo de 4 amigos (Pedro 78kg, André 91kg, Renata 69kg e 
– 91 –
Distribuição normal de probabilidade e aplicações 
Adriana 78kg) sentiram-se mutuamente desafiados a verificar 
qual é mais pesado e menos pesado. Estima-se que a média do 
peso de homens é de 80kg com um desvio padrão de 6kg e das 
mulheres é de 65kg com um desvio padrão de 5kg. Qual a ordem 
dos mais pesados para os menos de acordo com o escore “z”?
a) Adriana; Renata e André.
b) Adriana; André; Pedro e Renata.
c) André; Adriana; Renata e Pedro.
d) Adriana; André; Renata e Pedro.
e) Nenhuma das anteriores.
6. Ainda sobre a questão acima, é importante para várias aplica-
ções comerciais conhecer o intervalo de respostas típicas. Os 
intervalos de respostas típicas para o peso corporal de homens e 
mulheres para 95%:
a) 68,4 a 91,76; 55,2 a 74,8.
b) 68,24 a 91,06; 55,2 a 74,8.
c) 68,24 a 91,67; 55,2 a 74,8.
d) 68,24 a 91,76; 55,2 a 74.
e) Nenhuma das alternativas anteriores.
7. Para um intervalo de respostas típicas de 99%, qual seriam os 
limites de pesos para mulheres e homens?
a) 52,125 a 77,8; 64,55 a 95,45.
b) 52,125 a 77,875; 64,55 a 95,45.
c) 52,10 a 77,875; 64,0 a 95,45.
d) 52,12 a 77,7; 64,55 a 95,45.
e) 52,125 a 76,875; 64,55 a 95,45.
8. Os escores “z” padronizados constituem uma forma de transfor-
mar dados de uma variável qualquer, em uma variável padrão 
Bioestatística
– 92 –
para determinação dos valores de probabilidade. Logo os valo-
res de 0,3438 e 0,4932 observados na tabela correspondem a 
quais valores da variável padrão “z”?
a) 1,06 e 2,50.
b) 1,53 e 2,11.
c) 1,32 e 2,06.
d) 1,01 e 2,47.
e) Nenhuma das alternativas anteriores.
9. Em uma fazenda leiteira é comum realizar a pesagem do leite, o 
valor médio obtido por animal foi de 14kg e desvio padrão 3kg. 
Qual o intervalo de respostas típicas obtidos (95%)?
a) 8,12kg a 18,88kg
b) 8,12kg a 19,88kg.
c) 8,12kg a 19kg
d) 8kg a 19,88kg
e) Nenhuma das anteriores.
10. Se em um criatório o peso ao nascer médio de bezerros machos 
for de 23kg e desvio padrão3kg, entre que valores de peso ao 
nascer estará a maioria dos bezerros ali nascidos (95% deles)?
a) 17,1kg a 28,88kg.
b) 16,12kg a 28,88kg.
c) 17,12kg a 28,88kg.
d) 17,12kg a 28,8kg.
e) Nenhuma das alternativas anteriores.
4
Associação e 
relacionamento 
de variáveis
Neste capítulo, a essência do conceito relacionado à 
associação e relacionamento de variáveis são introduzidos. As 
relações entre constructos constituem o conceito e o modelo 
em que o objetivo de pesquisa é explorar ou confirmar. A asso-
ciação entre duas ou mais variáveis é a essência de uma teoria. 
O pesquisador busca quantificar a força de associações. Logo, 
a associação ocorre se a distribuição de uma variável está rela-
cionada à distribuição de outra variável. As medidas de asso-
ciação indicam, em termos quantitativos, o grau em que as 
alterações nos valores da outra variável estão relacionadas às 
alterações nos valores de outra variável.
Bioestatística
– 94 –
4.1 Coeficiente de Correlação de Pearson
O coeficiente de correlação de Pearson (r) é utilizado para quantificar 
a relação linear entre duas variáveis quantitativas. Seu valor é determinado 
pelos valores dos dados amostrais observados. Seja uma amostra aleatória 
constituída de n pares x yi i,� � de observações, i n� �1 2, , , . O coeficiente de 
correlação amostral de Pearson é calculado através da equação 01. Logo, 
temos coeficiente de correlação de Pearson:
r
S
S S
x x y y
x x y y
xy
x y
i
n
i i
i
n
i i
n
i
1
1
2
1
2
1
22
1
2
1
1
2 2
1
2
1
2
( )
i
n
i i
i
n
i i
n
i
x y nxy
x nx y ny
2
1
2
1Equação
Sendo que:
S
x x y y
nxy
i
n
i i�
�� � �� �
�
�� 1
1 ; 
S
x x
nx
i
n
i1
2
1
2
1
; 
S
y y
ny
i
n
1
2
1
2
1
Pode ser mostrado que o coeficiente de correlação de Pearson está 
sempre entre -1 e 1. O exemplo a seguir ilustra o cálculo de r. Em outras 
palavras, tomando como exemplo, em uma agência de correios de uma 
cidade, o gerente realizou um estudo para relacionar o peso (em kg) do 
total de correspondências recebidas por dia com o número efetivo de cor-
respondências (x1000). Os dados obtidos da observação de 11 dias estão 
na tabela 4.1.
Tabela 4.1 – Dados do exemplo 1 
Dia Peso xi Número yi x yi i
1 10 4,1 41
2 35 6,5 227,5
3 13 3,6 46,8
– 95 –
Associação e relacionamento de variáveis
Dia Peso xi Número yi x yi i
4 34 6,7 227,8
5 21 5,2 109,2
Média 22,60 5,220 652,3 (Total)
Desvio Padrão 11,59 1,388 -
CV% 51,28 26,59 -
Fonte: elaborada pelo autor.
Nesse caso o valor do coeficiente de correlação de Pearson é dado por:
S
x y nxy
nxy
i
n
i i�
�
�
�
� � �� ��� �� ���( ) , , ,
,1
1
652 3 5 22 6 5 22
4
15 61
r �
� �� �
�
15 61
11 59 1 388
0 9704,
, ,
,
O valor de “r” indica que há uma forte relação linear entre os pesos 
total das correspondências recebidas e o número de correspondências rece-
bidas diariamente, sendo que quanto maior o número de correspondências 
recebidas maior é o peso total. A correlação está bem próxima de 1.
4.2 Teste de Hipóteses – Coeficiente 
de Correlação de Pearson
Seja ρ o coeficiente de correlação populacional entre as variáveis 
aleatórias X e Y. Para testar a significância da correlação, é necessário que 
as duas variáveis X e Y tenham distribuição normal. Caso isso aconteça, 
podemos testar a hipótese: H0 0: � � através da estatística t-Student dada 
pela equação 2 (Estatística t-Student):
Equaçãot r n
r
2
1 2 2
Bioestatística
– 96 –
Que sob a hipótese nula tem distribuição t-Student com (n-2) graus 
de liberdade. Seja α o nível de significância do teste, 0 1� �� . Se a hipó-
tese alternativa for H1 0: � � , então a hipótese nula será rejeitada para 
grandes valores de t isto é, t tc> , sendo o valor crítico obtido da tabela 
t-Student tal que P t tn c� �� � �2 �. Se a hipótese alternativa for H1 0: � � , a 
hipótese nula será rejeitada para pequenos valores de t isto é, t tc< , e o valor 
crítico obtido da tabela t-Student é tal que P t tn c� �� � �2 �. Se a hipótese 
alternativa for bilateral, H1 0: � � , então a hipótese nula será rejeitada 
para valores de t, t tc> , sendo o valor crítico obtido da tabela t-Student 
é tal que P t tn c� �� � �2 2
� . No exemplo em questão temos que o valor de t 
observado é igual a equação 3 a seguir:
Equaçãot r
,
n
r
2
1
0 9704 5 2
1 0 9704
6 9592 2 3
Seja H1 0: � � e � � 0 05, .
Supondo normalidade para as variáveis peso total e número de cor-
respondências recebidas diariamente podemos realizar o teste estatístico. 
Sob a hipótese nula a estatística de teste t tem distribuição t-Student com 
3 graus de liberdade. Então, o valor crítico tc � será igual a t3 0 05 2 35; , ,= e 
a hipótese nula será rejeitada, o que indica que a relação linear positiva 
entre o peso total de correspondências recebidas e o número de correspon-
dências recebidas diariamente é significativa do teste que seria dada por 
P t3 6 959 0 00304�� � �, , , o que indica que sob a hipótese nula um valor de 
correlação da ordem 0,9704 é pouco provável. Na figura 4.1 tem-se o grá-
fico de dispersão dos valores do peso de correspondências e do número de 
correspondências recebidas diariamente. A figura 4.1 indica uma relação 
de crescimento positivo entre duas variáveis. É importante observar que 
para n = 5 e � � 0 05, a hipótese H0 0: � � seria rejeitada para qualquer 
valor de r maior ou igual a 0,805. Basta buscar os valores de r que satis-
fazem a equação abaixo:
2 35 3
1 2r
r
Equação4
– 97 –
Associação e relacionamento de variáveis
Figura 4.1 – Gráfico de dispersão entre o peso total e o número de correspondências 
recebidas diariamente
Fonte: elaborada pelo autor.
O coeficiente de correlação de Pearson é um coeficiente paramétrico. 
Nem sempre temos dados com distribuição normal. Nesse caso, é impor-
tante buscarmos uma alternativa não paramétrica para medir a relação 
linear entre as duas variáveis. No exemplo em questão, a variável número 
de correspondências recebidas é discreta e não tem distribuição normal.
4.3 Coeficiente de Correlação de Spearman
Quando uma ou duas variáveis de interesse para estudar da associação 
não respeita o pressuposto de normalidade, frequentemente é computado 
o coeficiente de correlação de Spearman. Logo, o coeficiente de correla-
ção de Spearman é uma medida não paramétrica de associação ou depen-
dência entre variáveis, em que, diferentemente do coeficiente de Pearson, 
baseia-se na ordenação em postos dos valores originais (pela magnitude 
do valor numérico, ver tabela 4.2) para determinação do grau de associa-
ção. Nesse sentido, suponha que tenhamos uma amostra constituída de n 
pares de dados do tipo x yi i,� �. Então, o coeficiente de correlação de Spearman 
é simplesmente o coeficiente de correlação de Pearson calculado com os 
postos das observações x yi i,� �. Dados os n pares de observações deve-se 
Bioestatística
– 98 –
inicialmente ordenar os valores de X do menor para o maior colocando os 
pontos correspondentes (em caso de empates usar posto médio). Denota-
-se o posto de observação xi por Ri. Posteriormente, ordena-se os valores 
de Y do menor para o maior colocando os postos correspondentes (em 
caso de empates usar posto médio). Denota-se o posto de observação yi 
por Si. O coeficiente de correlação de Spearman será dado pela equação 03 
(coeficiente de correlação de Spearman):
r
R R S S
R R S S
i
n
i i
i
n
i i
n
i
i�
�� � �� �
�� ��
�
�
� �� ��
�
�
�
��
� �
�
� �
1
1
2
1
2
1
2
1
2
(
��
� �
�
� �
�
�� ��
��
�
��
�� ��
��
�
��
1
1
2 2
1
2
1
2 2
1
2
n
i i
i
n
i i
n
i
R S nRS
R nR S nS
)
Sendo R S n
� �
�1
2
.
No caso de não haver empates entres as observações o coeficiente de 
Spearman se reduz a equação 3 (coeficiente de correlação de Spearman – 
reduzida, equação 5).
r T
n n
� �
�� �
1 6
12
 onde T R S Equação
i
n
i i
1
2 5
No caso de empates, os valores Ri e Si são substituídos por postos Ri
* 
e Si
*. T por T * e r por r*, onde o * denota que há empates entre as observa-
ções e postos médiosestão sendo utilizados na atribuição de postos dessas 
observações. Ao recuperar o exemplo 1, primeiramente ordenaríamos os 
valores dos pesos das correspondências recebidas e atribuiríamos os pos-
tos correspondentes. Posteriormente o mesmo seria feito para os valores 
do número de correspondências recebidas diariamente. Os dados organi-
zados dessa forma são apresentados na tabela 4.2.
Tabela 4.2 – Dados de pesos de correspondências
Dia Peso xi Número yi R Si i
2
1 10(1) 4,1(2) 1
2 35(5) 6,5(4) 1
– 99 –
Associação e relacionamento de variáveis
Dia Peso xi Número yi R Si i
2
3 13(2) 3,6(1) 1
4 34(4) 6,7(5) 1
5 21(3) 5,2(3) 0
Fonte: elaborada pelo autor.
Nesse sentido, o coeficiente de Spearman seria calculado da 
seguinte forma: r � �
� �
�� �
� � �1
6 4
5 25 1
1 0 2 0 80, , o que indica relação linear 
entre os postos das observações de X e Y.
4.4 Teste de Hipóteses – Coeficiente de 
Associação (Correlação de Spearman)
É possível testar a significância da correlação entre X e Y usando o 
coeficiente não paramétrico de Spearman. As seguintes hipóteses nulas e 
alternativas podem ser consideradas:
I H0 0 contra Ha : � � 0
II H� � �0 0: � contra Ha : � � 0
III H� � �0 0: � contra Ha : � � 0
Onde ρ é o coeficiente de correlação populacional entre X e Y.
A distribuição de probabilidades do coeficiente e correlação amostral 
de Spearman sob a hipótese nula é determinada pelas ordenações possí-
veis de serem obtidas quando se tem n pares de n observações de X e n de 
Y (pares). Essa distribuição não depende do conhecimento da distribuição 
de probabilidades das variáveis aleatórias X e Y, sendo o coeficiente de 
correlação de Spearman não paramétrico. Existem tabelas com a distribui-
ção exata de r sob a hipótese nula. No entanto, quando n é grande a distri-
buição de r sob a hipótese nula se aproxima de uma distribuição normal 
Bioestatística
– 100 –
com média zero e variância igual a 1
1n−
 no caso em que não há empates 
entre as observações de X ou de Y.
No caso (I) a probabilidade de significância de teste é dada por 
p P r robs� �� �. No caso (II) a probabilidade de significância é dada por: 
p P r robs� �� �. No caso (III) seja p P r robs� �� �2 sendo robs o valor observado do 
coeficiente de Spearman para a amostra avaliada.
No exemplo da agência de correios suponha que tenhamos as hipóte-
ses: H0 0: � � contra Ha : � � 0.
Então pela tabela da distribuição exata de r sob a hipótese nula obte-
mos: p P r� �� � �0 80 0 067, , . Isto significa que a hipótese nula seria rejei-
tada para qualquer nível de significância maior ou igual a 0,067. É impor-
tante observar que não há exigência de normalidade das variáveis para se 
realizar o teste de hipóteses relacionado ao coeficiente de associação não 
paramétrico de Spearman.
Adicionalmente, em outro exemplo, os dados a seguir referem-se a 
um experimento para verificar o efeito de uma droga (X) no crescimento 
de um determinado tumor. Foram usadas 7 doses diferentes de X e para 
cada dose observou-se a porcentagem (Y) de animais que desenvolveram 
o tumor. Os dados observados foram (tabela 4.3):
Tabela 4.3 – Dados de efeito da droga e crescimento tumoral
Dose (X) 0,05 0,5 5,0 20 50 100 300
Posto (X) 1 2 3 4 5 6 7
% (Y) 1 0 4,9 44,2 30 86,5 56,9
Posto (Y) 2 1 3 5 4 7 6
R Si i
2 1 1 0 1 1 1 1
Fonte: elaborada pelo autor.
S E 6T R
i
n
i i
1
2 6 qquação
– 101 –
Associação e relacionamento de variáveis
Figura 4.2 – Gráfico de dispersão entre percentagem de animais que desenvolveram 
o tumor e dosagem da droga
Fonte: elaborada pelo autor.
O valor observado do coeficiente de Spearman é: r � �
� �
�� �
�1
6 6
7 49 1
0 8928, . 
A probabilidade de significância para o teste unilateral (I) é 0,006 indi-
cando que existe uma associação positiva significativa entre a dosagem 
da droga e o desenvolvimento do tumor. Quanto maior a dose espera-se 
que maior será o percentual de animais que desenvolvem o tumor. Para o 
teste bilateral (III) seria 0,012. Usando a aproximação normal tem-se que:
p P r P N p N0 8928 0 1 0 8928
1
6
0 1 2 19, , , , , 0 014 7Equação
Figura 4.3 – Gráfico de dispersão entre os valores dos postos da percentagem de 
animais que desenvolveram o tumor e os postos de dosagem da droga
Fonte: elaborada pelo autor.
Bioestatística
– 102 –
A figura 4.2 apresenta os gráficos de dispersão da porcentagem de 
animais que desenvolveram o tumor (Y) e dosagem da droga (X). A figura 
4.3 apresenta o gráfico de dispersão dos postos de Y versus os postos de X. 
É possível observar que a relação entre Y e X aparentemente não é linear, 
enquanto a relação entre os postos de Y e os postos de X é linear. O coe-
ficiente de correlação de Spearman é na realidade um coeficiente de asso-
ciação entre X e Y, não necessariamente essa associação é linear. Quando 
o valor é positivo há uma associação positiva entre as variáveis, ou seja, 
quando uma variável aumenta de valor a outra também tende a aumentar 
o valor (e vice-versa). Para tomar outro exemplo, em uma competição de 
ginástica rítmica desportiva, dez participantes foram classificados por dois 
juízes da seguinte forma (1 é 1° colocado; 2 é o 2° colocado etc.). Nesse 
exemplo, o valor do coeficiente de correlação de Spearman é r = 0 915, 
e a probabilidade de significância do teste (I) é igual 0 0,00 (aproxima-
damente), rejeitando-se a hipótese nula. Deste modo, percebe-se que os 
juízes foram concordantes no julgamento dos candidatos.
Tabela 4.4 – Notas em competição de ginástica
Juiz A 2 5 6 4 1 7 9 10 3 8
Juiz B 1 4 5 6 2 7 10 8 3 9
R RA B
2 1 1 1 4 1 0 1 4 0 1
Fonte: elaborada pelo autor.
4.5 Caso de empates entre observações X ou Y
No caso de haver empates entre as observações de X ou de Y, utiliza-se 
os postos médios quando da ordenação de valores e a distribuição normal para 
o cálculo da probabilidade de significância. No caso de empates, tem-se que:
Var T
n n n d d
n n
d
i ix ix i iy* 1 1
36
1 1
2 2 3
3
33
3
d
n n
iy Equação7
Assim, a variância do coeficiente de correlação de Spearman de 
r* será definida pelas equações 7 e 8 (variância do coeficiente de cor-
relação de Spearman):
– 103 –
Associação e relacionamento de variáveis
Var r
n n
Var T Equação* *36
1
8
2 2
E utiliza-se a aproximação normal para cálculo da probabilidade de signi-
ficância, sendo dix e diy, as frequências observadas de cada valor da variável X 
e cada valor da variável Y. Para efeito da correção de empates apenas as frequ-
ências dos valores de X e Y que aparecem mais de uma vez são contabilizadas.
4.6 Análise de Regressão Linear
A análise de regressão é uma técnica de modelagem utilizada para 
analisar a relação entre uma variável resposta (Y) e uma ou mais vari-
áveis explicativas X1, X2, X3...Xn com objetivo de identificar (estimar) 
uma função que descreva, da melhor forma possível, a relação entre essas 
variáveis. Assim, pode-se predizer o valor que a variável resposta (Y) irá 
assumir para determinados valores das variáveis explicativas. O objetivo 
de empregar essa técnica reside na interpretação da relação possivelmente 
existente entre as variáveis a fim de entender o fenômeno, predizer valores 
para variável resposta a partir das variáveis explicativas.
Antes de explorar a análise de regressão linear, devemos diferenciar 
os conceitos de modelagem estatística e modelagem matemática. A mode-
lagem matemática envolve o componente determinístico e modelagem 
estatística envolve tanto o componente determinístico e o componente 
estocástico. A regressão simples é dada pela equação 5 a seguir (modelo 
de regressão linear):
y i ni i
�
0 1 1 2 3ε , , , ,
Onde:
 2 yi � e a variável resposta;
 2 xi e a variável explicativa;
 2 β0 e o intercepto (termo constante);
 2 β1 e o coeficiente relacionado a variável xi (fator multiplicador 
ou coeficiente de regressão);
Bioestatística
– 104 –
 2 ei e o erro aleatório, pertencente ao modelo.
Para ajustar um modelo de regressão linear, devem ser respeitados as 
seguintes suposições:2 ei N(0;σ2);
 2 Cov(ei , ej) = 0 (Independência),
4.6.1 Exemplos de Aplicação
Exemplo 1. Para entender os coeficientes da análise de regressão sem 
se preocupar com as questões de estimação e incerteza, vamos iniciar com 
um exemplo que se trata de uma regressão para predizer o desempenho 
esportivo de equipes adultas femininas da modalidade esportiva de han-
debol entre os anos de 2007 e 2017 (1ª a 24ª posições), explicada pelo 
número médio de partidas internacionais disputadas pelo grupo de joga-
doras de cada país participante de campeonatos mundiais.
Desempenho par�das21 36 0 17, * ε (Modelagem estatística)
Desempenho par�das21 36 0 17, * (Modelagem matemática)
A variável resposta “Desempenho” denota o valor predito ou esperado 
para o desempenho dado o preditor número médio de partidas internacio-
nais disputadas. Esse modelo busca explicar o desempenho em mundiais 
a partir da experiência internacional obtida através de jogos, onde -0,17 é 
o coeficiente de regressão. O intercepto “21,36” o valor esperado para o 
número médio de partidas internacionais disputadas. Os coeficientes em 
um modelo de regressão linear são geralmente estimados pelo método dos 
mínimos quadrados ordinários. A ideia do método de mínimos quadrados 
é minimizar por meio das equações 5, 6 e 7 abaixo. Métodos dos mínimos 
quadrados para determinação dos coeficientes do modelo de regressão.
SQE y x
i
n
i i� � � �0 1
1
0 1
2
,� � � � �� ��� ��
�
�
SQE(β0,β1) pode ser minimizadas através de suas derivadas:
� � �
�
� � � �� � �
�
�
SQE
y x
i
n
i i
� �
�
� �0 1
0 1
0 12 0
,
– 105 –
Associação e relacionamento de variáveis
� � �
�
� � � �� � �
�
�
SQE
y x
i
n
i i
� �
�
� �0 1
1 1
0 12 0
,
Resolvendo o sistema de equações temos:
 2 � �0 1� �y xmédia média ;
 2
�1
1 1 1
1
2 1
2
2�
� � �� �
�
� �
� � �
�
�
� � �
�
�
i
n
i i i
n
i i
n
i
i
n
i
i
n
i
x y y x
x
x
n ;
Assumindo a suposição válida, ei ~ N (0, σ2), então:
 2
� � �0 0
2
2
1
2
1~ ,N
n
x
x x
média
i
n
i média
�
�� �
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
 2 β1 
~ ,N
x x
i
n
i média
� �1
2
1
2
1
�� �� �
�
�
�
�
�
�
�
�
 2 Hipótese para β0: H H0 10 0: ; ;² 0 ² 0
 2 Estatística de teste: 
t
se seobs
H
�
�
� �
�
� �
� �
�
�
�
0 0
0
0
0
0
;
 2 Hipótese para β1: H H0 10 0: ; ;² 1 ² 1
 2 Estatística de teste: 
t
se seobs
H
�
�
� �
�
� �
� �
�
�
�
1 1
1
1
1
0
.
Podemos construir intervalos de confiança para os β’s (coeficien-
tes) estimados:
� �0 0� � �t sec *
� �1 1� � �t sec *
Bioestatística
– 106 –
Onde:
 2
se
n
x
x x
média
i
n
i média
� �0
2
2
1
2
1� � � �
�� �
�
�
�
�
�
�
�
�
�� ;
 2
se
x x
i
n
i média
� �1
2
1
2
1� � �
�� �
�� ;
 2 �
� �2 1 0 1�
� �� �
�
�� i
N
iy x
N p , onde p é o número de parâmetros esti-
mados pelo modelo;
 2 tc é o valor crítico da distribuição tn−2 de acordo com o nível 
de confiança desejado;
 2 Com 95% de confiança o valor de tc é: P t t tc N c[ ]� � ��2 .
O erro observado é chamado resíduo que é dado por:
� �0 0� � �t sec *
� �1 1� � �t sec *
Onde: y x .e y y ondei i i i
�
0 1
�
Figura 4.4 – Determinação da soma dos quadrados das fontes de variação
Fonte: elaborada pelo autor.
P t tc N C2 0 95t
– 107 –
Associação e relacionamento de variáveis
Os resíduos pode ser uma medida útil de quão bem a reta estimada se 
ajusta aos dados. Uma boa equação de regressão é aquela que ajuda a explicar 
uma grande proporção da variância de yi . Podemos medir a variação de yi 
(Variação y y yi i média
� 2
, após algumas equações chegamos ao seguinte 
resultado (equação 7, Somas dos quadrados das fontes de variação).
SQT SQE SQregressão� �
y y y yi média i i
2 2� + y yi média
2�
Para analisar a adequação do ajuste, deve-se determinar o coeficiente 
de determinação (R2), resumindo a subdivisão da variação de yi em termos 
de uma análise de variância (tabela 4.5). Uma medida importante para a 
qualidade de ajuste é dada por pela equação 8, Coeficiente de Determinação.
R SQE
SQT
SQreg
SQT
2 1� � �
 2 O valor de R2 estará sempre entre 0 e 1;
 2 Um R2 = 0 (A regressão não ajuda em nada a explicar a varia-
ção de yi);
 2 Um R2 = 1 (Ajustamento perfeito).
Tabela 4.5 – Tabela de análise variância para regressão linear
Fonte de 
Variação
Soma de 
quadrados GL Quadrados 
Médios Teste F
Regressão SQreg y yi média
2� 1 QMreg SQreg
=
1
F QMreg
QMEN1 2, � �Resíduos SQE y yi i
2� N-2 QME SQE
N
�
�2
Total SQT y yi média� � �� �2 N-1 -
Fonte: elaborada pelo autor.
Bioestatística
– 108 –
A busca pela excelência no esporte induz treinadores e comissões técnicas 
a procurar meios e ferramentas para a análise do desempenho em competição 
para identificar as variáveis necessárias ao sucesso. Nesse sentido, a escassez 
de informações oriundas de análises de desempenho sobre as variáveis que 
diferenciam equipes vencedoras das perdedoras, dificulta o planejamento de 
treinos e competições para melhora do desempenho em competições de alto 
nível, ou mesmo como referência para equipes, treinadores e jogadores em 
desenvolvimento. Dessa forma, o objetivo desse exemplo é estabelecer a rela-
ção entre desempenho classificatório em mundiais femininos de handebol e 
número médio de partidas internacionais entre 2007 e 2019.
O número médio foi de 56±26 partidas internacionais disputadas 
pelas equipes. O número de partidas internacionais é fornecido por cada 
país participante, considerando amistosos internacionais, competições 
continentais, mundiais e jogos olímpicos. Ao todo, n=89 dados foram dis-
ponibilizados via internet entre os anos de 2007 – 2019. O grau de asso-
ciação entre partidas e a posição em mundiais se testou por meio do teste 
de correlação de Spearman (ρ) e um modelo de regressão linear entre o 
desempenho obtido em função das partidas internacionais foi construído.
Figura 4.5 – Relação entre desempenho em mundiais femininos de handebol (ranking) 
e número médio de partidas internacionais (IMP) entre 2007 e 2019
Fonte: elaborada pelo autor. 
– 109 –
Associação e relacionamento de variáveis
A relação estabelecida mostrou que o aumento médio de participação 
em um jogo internacional melhora em 0,17 vezes a posição obtida em 
mundiais (Desempenho = 21,36 – 0,17partidas, intercepto e coeficiente 
de regressão significativos, p<0,001, R2 = 0.45, observada na figura 4.5), 
com um coeficiente moderado e negativo de correlação entre as variáveis 
(ρ = -0.66; p<0,001), ou seja, um maior número de partidas está modera-
damente associado às posições inicias do ranking de classificação (melhor 
desempenho) em mundiais.
Figura 4.6 – Correlação de Spearman e análise de regressão linear: software “R”
Fonte: elaborada pelo autor.
Exemplo 2. No treinamento esportivo em diversas modalidades, 
umas das principais de medidas para controle do processo de treinamento 
é a variável denominada impulso de treinamento (TRIMP – training 
impulse). A metodologia do impulso de treino (TRIMP) é definida como 
uma medida de acúmulo de carga que o organismo suportou durante o 
Bioestatística
– 110 –
estímulo aplicado. A variável TRIMP foi calculado onde “HRreserve” (fre-
quência cardíaca de reserva) é calculado subtraindo a frequência cardí-
aca máxima obtida na sessão de treinamento pela frequência cardíaca de 
repouso, “e” um fator relacionado ao sexo do voluntário (e = 1.67 para 
mulheres; e = 1.92 para homens) e “Timesession” a duração da série ou estí-
mulo de treino, de acordo com a equação 1:
P T e E* *TRIM ime HRSESSION reserve� 0,, *64 1quação
Entretanto, essa medida tem sido extensivamente criticada por 
treinadores e pesquisadores, por não captar grande parte dos aspectos 
relacionados à carga de treinamento. Pois, apesar do entendimento da 
natureza sistêmica e complexa da carga de treinamento e seus efeitos 
sobre os diferentes sistemas biológicos, torna-se paradoxal a corrente 
abordagem reducionista de uso e interpretação isolada de variáveis e 
metodologias adotadaspara monitorar e controlar da carga imposta nas 
sessões (ex.: frequência cardíaca, percepção subjetiva de esforço, ace-
lerações etc.), que muitas vezes se encontram correlacionadas entre si. 
Logo, a quantificação da carga baseada na abordagem das informações 
contidas coletivamente no conjunto de variáveis tende a maximizar a 
compreensão da demanda imposta no treinamento. Nesse sentido, cien-
tistas do esporte tem advogado pela implementação de técnicas multi-
variadas de análise apropriadas que permitam sumarizar as informações 
(análise de componentes principais) e fornecer visualizações adequa-
das sobre a carga. Essas medidas facilitarão a incorporação das medidas 
obtidas, para tomada de decisões durante o planejamento, considerando 
a complexidade do processo de treinamento.
Para explorar a nova medida de interesse denominada por escore glo-
bal (GS), uma determinada comissão técnica de uma modalidade espor-
tiva coletiva, procedeu testes para verificar o grau de associação e rela-
cionamento para com a variável TRIMP, no sentido de substitui-la, uma 
vez que ela considera todas as variáveis obtidas. Para analisar a relação 
do TRIMP em função dos escores globais, os profissionais construíram 
modelos de regressão linear e computaram o coeficiente de determinação 
(R2) e de correlação de spearman (ρ) (trivial, ≤0.25; fraco, 0.26 – 0.50; 
– 111 –
Associação e relacionamento de variáveis
moderado, 0.51 – 0.75; e forte, 0.76 – 1.00) foram determinados. Con-
comitantemente, sucedeu-se a verificação da significância estatística dos 
modelos (intercepto [“a”] e coeficiente de regressão [“b”]).
Figura 4.7 – Estudo do grau de associação e o relacionamento entre a variável TRIMP 
em função do GS obtido via análise de componentes principais
Fonte: elaborada pelo autor.
De forma interessante, esses verificaram que o índice TRIMP 
mostrou associação forte para com os escores globais dos jogadores 
(GS – 0,77 [0,68; 0,84]). Através do ajuste dos modelos, encontrou-se 
que os escores do método TRIMP podem ser explicados tanto pelos GS 
(TRIMP = 15.33 + 2.78 GS; R2 = 0.66), sendo que o intercepto e o coe-
ficiente de regressão obtidos para o modelo ajustado foram significativos 
(p<0.05). Para cada aumento de uma unidade nos valores das variáveis 
GS, os escores para o método TRIMP são multiplicados em 2,78 vezes. 
Logo, essa informação parece indicar a necessidade de mudanças nas 
práticas de monitoramento dos atletas da equipe em questão. As figuras 
4.7 e 4.8 mostram os gráficos de dispersão e saídas obtidas nas análises.
Bioestatística
– 112 –
Figura 4.8 – Gráfico de dispersão da variável TRIMP em função do GS obtido via 
análise de componentes principais
Fonte: elaborada pelo autor.
Exemplo 3. O futebol é um esporte coletivo que movimenta vultuo-
sas somas de recursos financeiros. No processo de treinamento os atletas 
são expostos a muitos jogos e sessões de treino. Um grande desafio aos 
profissionais relacionados à comissão técnica reside na tarefa de otimiza-
ção do desempenho concomitantemente à prevenção e redução do número 
de lesões. Logo, é de interesse desses profissionais a adoção de métodos 
de diagnóstico que possibilitem o controle do processo de treinamento de 
forma individualizada. Nesse sentido, é bem conhecido que um aumento 
principalmente da demanda física dos jogos, que abrangem ações intensas 
e excêntricas, as quais estão associadas a danos musculares e consequen-
tes processos inflamatórios. Esses processos inflamatórios são verificados 
pela infiltração de fagócitos, elevação das concentrações de Interleucina 6 e 
Fator de Necrose Tumoral alfa (TNF-α) e, em especial, pelo aumento da sín-
tese de proteínas de fase aguda, principalmente a Proteína C-reativa (PCR). 
– 113 –
Associação e relacionamento de variáveis
O aumento das concentrações de PCR e do aparecimento do processo infla-
matório tem sido associado ao aumento local da temperatura muscular.
Figura 4.9 – Estudo do grau de associação e o relacionamento entre a variável PCR 
[%] em função do TskHZn [%]
Fonte: elaborada pelo autor.
Nesse contexto, a análise de concentrações plasmáticas de PCR tem 
se tornado uma medida muito importante para determinação do quadro 
inflamatório dos atletas no futebol, entretanto, essa medida é invasiva, 
necessitando coletas sanguíneas por punções venosas. Por outro lado, o 
uso de câmeras sensíveis ao calor tem sido empregadas para estudar o pro-
cesso inflamatório para controle do processo de treinamento. Um procedi-
mento não invasivo, com várias potencialidades e rápido, tema de estudo 
em evidência nas ciências esporte.
Bioestatística
– 114 –
Figura 4.10 – Gráfico de dispersão da variável PCR [%] em função do TskHZn [%]
Fonte: elaborada pelo autor.
Logo, uma comissão técnica de um time de futebol estudou de forma 
exploratória para diminuir custos e tempo a relação entre os dois métodos 
de medição. Semelhante ao exemplo anterior, para estudar a relação das 
variáveis de Tsk-HZn [%] em função das variáveis fisiológicas CRP [%], 
modelos de regressão linear foram ajustados, computados o coeficiente 
de determinação (R2) e estabelecido o grau de associação através do coe-
ficiente de correlação de spearman (ρ) (trivial, ρ≤0.25; fraco, ρ = 0.26 
– 0.50; moderado, ρ = 0.51 – 0.75; e forte, ρ = 0.76 – 1.00). Concomitan-
temente, sucedeu-se a verificação da significância estatística dos modelos 
(intercepto [“a”] e coeficiente de regressão [“b”]).
Através do ajuste dos modelos, encontrou-se que a variável CRP 
[%] pode ser adequadamente explicado pela variável Tsk-HZn [%]. O 
intercepto e o coeficiente de regressão obtido foram significativos para o 
modelo ajustado (CRP [%] = 6.481 + 0.871Tsk-HZn [%]; R2=0.87, “α” e 
“β”, p<0.001). Para cada aumento de uma unidade da variável Tsk-HZn 
– 115 –
Associação e relacionamento de variáveis
[%], o valor da variável CRP [%] são multiplicados em 0.871 vezes. Adi-
cionalmente, as variáveis estudadas mostraram forte grau de associação 
(CRP [%] vs. Tsk-HZn [%] – ρ = 0.91 [0.85; 0.94], p<0.001), manifes-
tando-se como colineares. As figuras 4.9 e 4.10 mostram os gráficos de 
dispersão e saídas obtidas nas análises.
Neste capítulo, foram apresentados os testes de hipótese para associa-
ção e sobre os modelos ajustados. Adicionalmente, exemplos úteis à área 
de educação física e esportes são apresentados. No próximo capítulo serão 
abordados testes de hipóteses para verificação de diferenças.
Atividades
Enunciado para questões de 1 a 3.
Na área de ciências do esporte, mais precisamente no campo da 
biomecânica do esporte, emprega-se simultaneamente técnicas 
de medição da atividade muscular (atividade eletromiográfica) e 
o movimento (torque muscular). Essas duas variáveis possuem 
associação da ordem de 0,65. Estas técnicas fundamentais ao 
estudo do movimento, possuem a finalidade de otimizar méto-
dos de treinamento, controle do desempenho, com a finalidade 
de aprimorar resultados esportivos. Neste sentido, responda as 
questões a seguir.
1. Quais as características das respostas de atividade eletromiográ-
fica e torque muscular:
a) A atividade eletromiográfica é uma resposta de ordem discre-
tas e o torque muscular é uma variável contínua.
b) A atividade eletromiográfica é uma resposta de ordem ordinal 
e o torque muscular é uma variável contínua.
c) Ambas são variáveis contínuas.
d) A atividade eletromiográfica é uma resposta de ordem contí-
nua e o torque muscular é uma variável discreta.
e) Nenhuma das alternativas anteriores.
Bioestatística
– 116 –
2. Após definir a característica da resposta, para associar as duas 
variáveis de atividade eletromiográfica e torque muscular deve-
-se empregar:
a) Teste t pareado.
b) Teste de Person.
c) Teste de qui-quadrado.
d) Teste de Spearman.
e) Nenhuma das alternativas anteriores.
3. Após definir característica da resposta e tipo de teste, obser-
vando o valor de correlação, interprete-o:
a) A atividade eletromiográfica explica moderadamente a res-posta de torque muscular.
b) A atividade eletromiográfica explica fortemente a resposta de 
torque muscular.
c) A atividade eletromiográfica explica pouco a resposta de tor-
que muscular.
d) A atividade eletromiográfica não explica a resposta de tor-
que muscular.
e) Nenhuma das alternativas anteriores.
4. Em uma determinada modalidade esportiva estudou-se a relação 
entre as variáveis distância total percorrida e desempenho em 
competições internacionais, que deve interferir sobre os méto-
dos de treinamento e de controle do treinamento. No estudo de 
correlação, valores de r=0,42 são significativos se o “n” amos-
tral for 22, por exemplo. Qual a interpretação para a significân-
cia diante de um r tão baixo:
a) O desempenho em competições internacionais é pouco expli-
cada pela distância total percorrida;
b) A associação entre as variáveis distância total percorrida e 
desempenho em competições internacionais é insignificativa;
– 117 –
Associação e relacionamento de variáveis
c) A associação entre as variáveis distância total percorrida e 
desempenho em competições internacionais é pequena;
d) O desempenho em competições internacionais é moderada-
mente explicado pela distância total percorrida;
e) Nenhuma das anteriores.
5. Os dados a seguir referem-se a um experimento para verifi-
car o efeito de uma droga (X) no crescimento de um tumor 
benigno. Ao todo 7 doses foram usadas e para cada dose 
observou-se a porcentagem (Y) de animais que desenvolve-
ram o tumor. Os dados observados foram:
Variáveis 1 2 3 4 5 6 7
Dose (x) 0,05 0,5 5,0 20 50 100 300
% Animais (Y) 1 0 4,9 44,2 30 86,5 56,9
O valor observado do coeficiente de Spearman obtido é:
a) 0,7715.
b) 0,8156.
c) 0,8928.
d) 0,6911.
e) Nenhuma das alternativas anteriores.
6. Ainda que seja verificado alguma associação entre a dose de uma 
droga administrada e o percentual de animais que desenvolveram 
tumores, deve ser verificado se a associação é significativa e qual 
o valor de probabilidade observado. Selecione a opção correta:
a) p<0,001.
b) p=0,001.
c) p=0,006.
d) p=0,001.
e) Nenhuma das alternativas anteriores.
Bioestatística
– 118 –
7. Na arbitragem em ginástica rítmica desportiva, juízes diferen-
tes emitem notas sobre o desempenho obtido nas apresentações. 
Em um campeonato nacional 10 participantes foram classifica-
dos por dois juízes da seguinte forma:
Variáveis 1 2 3 4 5 6 7 8 9 10
Juiz A 2 5 6 4 1 7 9 10 3 8
Juiz B 1 4 5 6 2 7 10 8 3 9
O método de avaliação da associação e o resultado obtido é:
a) Correlação de Pearson (ρ=0,915; p<0,001).
b) Correlação de Spearman (ρ=0,90; p=0,001).
c) Correlação de Pearson (ρ=0,85; p<0,001).
d) Correlação de Spearman (ρ=0,915; p<0,001).
e) Correlação de Spearman (ρ=0,815; p<0,001).
Enunciado das questões de 8 a 10.
O Brasil é um grande produtor e exportador de carne suína. 
Nesse sentido, o peso ao abate em suínos é influenciado pela 
concentração de proteínas na ração. Quando tentamos ajustar 
um modelo linear associando o peso ao abate em suínos ao teor 
proteico na ração (14%, 16%, 18% e 20%) na fase de termina-
ção, como você explicaria as situações à seguir:
8. O efeito linear significativo e falta de ajuste não significativo:
a) Se a falta de ajuste (com 1 gl) não foi significativa, houve des-
vio de linearidade e se o efeito linear foi significativo, devemos 
aceitar o modelo como sendo linear.
b) Se a falta de ajuste (com 2 gl) não foi significativa, houve des-
vio de linearidade e se o efeito linear foi significativo, devemos 
aceitar o modelo como sendo linear.
c) Se a falta de ajuste (com 0 gl) não foi significativa, não houve 
desvio de linearidade e se o efeito linear foi significativo, deve-
mos aceitar o modelo como sendo linear.
– 119 –
Associação e relacionamento de variáveis
d) Se a falta de ajuste (com 2 gl) não foi significativa, não houve 
desvio de linearidade e se o efeito linear foi significativo, não 
devemos aceitar o modelo como sendo linear.
e) Nenhuma das anteriores
9. Significância para ambos:
a) A falta de ajuste significativa não desclassifica a alternativa 
de linearidade. O fato de o efeito linear também ser significativo 
só traduz o fato de que se matematicamente definirmos a melhor 
reta para os pontos experimentais, ela terá inclinação grande 
(significativa) mas o modelo não representa bem aqueles pontos. 
Um novo modelo deverá ser sugerido a partir destes.
b) A falta de ajuste significativa desclassifica a alternativa de 
linearidade. O fato de o efeito linear também ser significativo 
só traduz o fato de que se matematicamente definirmos a melhor 
reta para os pontos experimentais, ela terá inclinação grande 
(significativa) mas o modelo não representa bem aqueles pontos. 
Um novo modelo deverá ser sugerido a partir destes.
c) A falta de ajuste significativa desclassifica a alternativa de 
linearidade. O fato de o efeito linear também ser significa-
tivo só traduz o fato de que se matematicamente definirmos 
a melhor reta para os pontos experimentais, ela terá inclina-
ção pequena (significativa) mas o modelo não representa bem 
aqueles pontos.
d) A falta de ajuste significativa desclassifica a alternativa de 
linearidade. O fato de o efeito linear também ser significativo 
só traduz o fato de que se matematicamente definirmos a melhor 
reta para os pontos experimentais, ela terá inclinação grande 
(significativa) mas o modelo não representa bem aqueles pontos. 
Um novo modelo não poderá ser sugerido a partir destes.
e) Nenhuma das alternativas anteriores.
10. Efeito linear não significativo e falta de ajuste significativo:
a) Deve-se repetir o experimento e aumentar a amostra.
Bioestatística
– 120 –
b) Provavelmente o efeito é curvilíneo (parabólico) e uma reta 
aplicada à distribuição de pontos neste formato redundaria em 
um modelo quase paralelo ao eixo horizontal. Neste caso um 
novo modelo de ordem superior (linear) deverá ser investigado.
c) Provavelmente o efeito é curvilíneo (parabólico) e uma reta 
aplicada à distribuição de pontos neste formato redundaria em um 
modelo quase paralelo ao eixo horizontal. Neste caso um novo 
modelo de ordem superior (quadrático) deverá ser investigado.
d) Executar uma análise de resíduos e retirar possíveis outliers.
e) Nenhuma das alternativas anteriores.
5
Noções de inferência 
estatística
5.1 Testes de hipótese
Neste capítulo, será apresentado o ramo de inferência esta-
tística, envolvendo a obtenção de dados amostrais, bem como 
a estimativa de parâmetros referentes à população em questão 
para testagem de alguma hipótese direcionada à amostra obtida. 
A determinação destes parâmetros e o respectivo teste de hipó-
teses são procedimentos padrão na área de bioestatística. Con-
siderando apenas uma única variável quantitativa, as perguntas 
mais frequentes a serem respondidas remetem ao valor médio 
populacional – se o valor médio obtido difere do esperado pelos 
atores da pesquisa e o respectivo nível de dispersão ou erro asso-
ciado à estimativa do valor médio após a obtenção dos dados. 
No caso das variáveis qualitativas, definidas previamente, após 
a obtenção da frequência ocorre a determinação da proporção 
de ocorrência de um determinado evento (população), se a pro-
porção de eventos observada é diferente da proporção esperada 
em teoria e experimentalmente, bem como o erro associado à 
determinação da proporção observada.
Bioestatística
– 122 –
Ao considerar os dois tipos de variáveis destacadas no parágrafo 
anterior, a natureza do tipo de combinação destas variáveis determina o 
tipo de questões que se pode responder: (1) variável qualitativa versus 
variável qualitativa – estuda-se a associação ou concordância entre vari-
áveis, como ocorre e o respectivo grau de associação e concordância; (2) 
variável quantitativa versus variável qualitativa – pode-se verificar a exis-
tência de diferenças entre as categorias ou níveis da variável qualitativa e 
o respectivo nível de erro relacionado às diferenças observadas; por fim(3), variável quantitativa versus variável quantitativa – pode-se estudar a 
presença, o tipo e o grau de associação entre variáveis.
A elaboração de afirmações em determinado campo de atividades é 
precedida pela observação, parte imprescindível e um dos pilares do método 
científico. Logo, para conduzirmos um teste de hipótese, é importante ter 
em mente diversos termos que norteiam este campo da estatística. É neces-
sário inicialmente estabelecer as hipóteses que queremos testar, denomi-
nadas hipótese nula – H0, afirmação produzida e conduzida pelo usuário 
que, em geral, direciona para a inexistência de relação entre fenômenos 
mensurados, e a alternativa ou ainda chamada de substantiva – H1, que 
geralmente aponta a existência de uma relação entre fenômenos estudados.
Após definir as hipóteses a serem estudadas, é necessário determinar 
as incertezas associadas aos experimentos/testes, reconhecer que há um 
grau de erro em qualquer experimento. Logo, deve-se fixar o erro assu-
mido para estudar as hipóteses traçadas (nível de significância – α) e o 
poder do teste (1- β). O nível de significância consiste no valor limítrofe 
em que se assume que a hipótese nula é falsa, quando a probabilidade 
calculada se encontra abaixo do valor fixado e o poder pode ser definido 
como a probabilidade de rejeitar a hipótese nula quando a hipótese nula é 
falsa. Na estimativa dos parâmetros de média amostral (x – relação entre 
o somatório dos elementos amostrais e o número de elementos amostra-
dos) e populacional (µ – relação entre o somatório dos valores dos ele-
mentos e o número de elementos amostrais) e suas respectivas incertezas 
experimentais de desvio-padrão amostral (s – raiz quadrada do somatório 
dos desvios elevado ao quadrado e dividido pelo número de elementos da 
amostra menos 1) e populacional (σ – raiz quadrada dos somatórios dos 
desvios elevado ao quadrado dividido pelo número elementos). Após a 
– 123 –
Noções de inferência estatística
execução do teste de hipóteses, temos dois tipos de possibilidades de 
erro na decisão sobre as hipóteses: (1) erro tipo I (α) – significa rejeitar 
a hipótese nula quando essa era de fato verdadeira; e (2) erro tipo II (β) 
– significa não rejeitar a hipótese nula quando a hipótese nula é falsa. 
A tabela 5.1 exemplifica os tipos de erros.
Tabela 5.1 – Definições dos tipos de erro
TIPOS DE ERRO
DECISÃO REJEITAR NÃO REJEITAR
H0 verdadeira Erro tipo I 1 – α
H0 falsa 1 – β Erro tipo II
Fonte: elaborada pelo autor.
De maneira geral, os princípios e conceitos para condução de um 
teste de hipótese perfazem o estabelecimento das hipóteses, a determi-
nação da estatística de teste, o cálculo do valor de probabilidade e a res-
pectiva tomada de decisão sobre as hipóteses tomadas. Inicialmente, o 
pesquisador deve selecionar o parâmetro a ser estimado (média, proporção 
ou variância) e se as hipóteses escolhidas serão unilaterais (Ex.: H0: μ ≥10; 
H1: μ<10) ou bilaterais (Ex.: H0: μ=10; H1: μ≠10). Os testes unilaterais 
testam somente se o valor estimado experimentalmente é maior ou menor 
que um valor ou expectativa previamente estabelecida. Por outro lado, 
os testes bilaterais testam as duas opções dos testes unilaterais. Logo, os 
testes unilaterais baseiam-se em algum parâmetro preestabelecido para o 
que se tem como objetivo de testagem.
Após estabelecer as hipóteses, sucede-se a escolha do teste e a deter-
minação da estatística de teste; o valor calculado é empregado para tomada 
de decisão sobre as hipóteses traçadas, a partir de dados amostrais. Adi-
cionalmente, a estatística de teste é associada a uma distribuição de pro-
babilidade. Logo, por meio do cômputo da estatística de teste, obtém-se 
a probabilidade de ocorrência do evento em questão, tornando possível a 
rejeição ou a confirmação da hipótese nula. Em síntese, o valor de proba-
bilidade remete à probabilidade de encontrar uma estatística de teste com 
valor que seja minimamente tão extremo quanto o oferecido pelos dados 
amostrais, cometendo um erro tipo I, ou seja, considerando a hipótese nula 
Bioestatística
– 124 –
como verdadeira. Logo, deve-se mencionar a fixação do erro assumido, 
do nível de significância, geralmente em torno de 5% (0,05), onde valores 
menores que 0,05 denotam a indicação de rejeição da hipótese nula.
Por outro lado, de forma recorrente na literatura, toma-se o conceito 
de região crítica para a tomada de decisões. Estatisticamente, a região crí-
tica consiste no conjunto de valores da estatística de teste que são indi-
cados para refutar a hipótese nula. Adicionalmente, deve ser ressaltado 
que à medida que se aumenta o tamanho da amostra, tem-se a distribui-
ção de probabilidade da estatística de teste para cada teste de hipótese. 
Porém, neste momento, o leitor deve se questionar sobre qual teste deve 
ser empregado para sua necessidade. Para selecionar o teste adequado e 
garantir a correta tomada de decisão, é mister que algumas questões sejam 
respondidas, especificamente sobre a distribuição dos dados. Dentre elas, 
podemos destacar se é conhecida a distribuição de probabilidade das variá-
veis estudadas e se elas são normalmente distribuídas, e se há a presença de 
valores extremos (denominados comumente de “outliers”). Logo, deve-se 
identificar qual o tamanho amostral e se as unidades experimentais ou amos-
tras são dependentes ou independentes quanto à obtenção dos elementos 
amostrais. Nesse sentido, o teste de hipótese mais adequado para avaliar 
as hipóteses de estudo será obtido respondendo a essas perguntas. A seguir 
serão explicados alguns dos principais testes estatísticos, classificados em 
testes sobre uma amostra e sobre duas amostras.
5.2 Intervalo de confiança da média
Para conceituar o que é o intervalo de confiança da média, deve-se tomar 
um exemplo direto. Para isso, consideremos um conjunto amostral obtido para 
uma variável “w” com um valor médio na ordem de 400 (tendência central), 
desvio-padrão de 200 (dispersão) e valores de médias com 12 e 30 observa-
ções, obtidas aleatoriamente a partir do conjunto dos dados. É possível notar 
que, para 12 amostras, o valor médio apresenta a maior variação observada 
entre os valores amostrais, tornando-se menor pela operação em si. Fato 
inverso ocorre com a distribuição de médias coletas a partir de 30 elementos, 
com um desvio-padrão menor do que com 12 amostras. Logo, as médias para 
as distribuições serão as semelhantes, pois dizem respeito sempre ao mesmo 
– 125 –
Noções de inferência estatística
fenômeno. Deve-se ressaltar ainda que o valor do desvio diminui à medida 
que o número de amostras empregadas para o cálculo da tendência central 
aumenta. A redução da instabilidade relativa pode ser demonstrada matemati-
camente quando consideramos que Var (a) = s2, conforme as propriedades das 
medidas de tendência central (média) e de dispersão (desvio-padrão):
Var a Var
a a a
n n
Var a a an
n
� ����( ) = + +…+





= + +…+( )1 2
2 1 2
1
���������� �Equação1
Ao considerar as amostras a a a
n1 2
, ,¼ , se as observações experimentais 
forem independentes, temos:
Var a a a Var a Var a Var a Equação
n n
� � ) ( ) ( ����������
1 2 1 2
+ +( ) = + +…+( ) ��2
Então:
Var a
n
Var a Var a Var a Equaç
n
� ) ( ) ( �����������( ) = + +…+( )



1
2 1 2
ãão�3
Porém, como as variâncias são iguais (Var(a1) = Var(a2) = Var(an)), 
pois trata-se da mesma resposta sendo estudada e Var(a) = s2, logo:
������������� � �������������������������Var a
n
rs
s
n
( ) = ( ) =1
2
2
2
����������������� �Equação4
Então, a instabilidade (desvio-padrão) observada em um conjunto 
de médias obtidas de n indivíduos será s n/ . Note que “s” expressa a 
variação média entre indivíduos e s n/ a variação média entre valores de 
médias. Numa distribuição de médias obtidas de “n” de elementos recolhi-
dos aleatoriamente (n ≥ 120) teríamos, portanto, o intervalo de confiança, 
conforme pode ser observado a seguir:
������������� , * �������������������������
,
at
s
n
a
s
n
a
gl
± = ±
2
1 96 ������� �Equação5
Entretanto, na experimentação, o valor médio encontrado se baseia 
em um número restrito de observações. Como o valor de 1,96 se refere à 
distribuição de valores médios de grandes grupos (n ≥ 120), e o desvio da 
distribuição de médias aumenta à medida que a amostra diminui, uma cor-
reção no valor de z = 1,96 deverá ser feita para garantir a definição precisa 
de uma área central de 95% (intervalo de confiança para “n” amostras).
Bioestatística
– 126 –
Nesse sentido, a distribuição de médias verificadas referentes a 25 
amostras possuirá um desvio-padrão maior (s√25) do que para 150 amostras 
(s√150), com menor instabilidade relativa. Logo, tendo em vista estas afirma-
ções, obviamente a distribuição normal possuirá maior dispersão e os 95% das 
médias possíveis se encontrará em um intervalo maior que o de -1,96 a 1,96, 
no caso, de -2,262 a 2,262. Adicionalmente, os valores referentes à variável 
padronizada “z” (considerando o tamanho amostral) podem ser visualizados 
na tabela “t” de Student, função dos graus de liberdade (n-1).
5.3 Testes para inferência sobre uma amostra
Um experimento é conduzido para uma determinada planta medi-
cinal (camomila – Matricaria chamomilla) específica do cerrado. Após 
a realização de uma coleta de amostras, a altura das amostras da refe-
rida planta foi medida. Nesse sentido, foi feita uma estimativa da altura 
média populacional das plantas medicinais e sua respectiva estimativa do 
intervalo de confiança, para estudar se a média encontrada é equivalente à 
média apresentada em outros estudos encontrados na literatura. Mas então 
como responder a essas questões? Quais são as possibilidades de teste 
que se possui para responder se a média encontrada é equivalente à média 
apresentada em outros estudos teóricos? Quais são as suposições dos tes-
tes? Observe o fluxograma a seguir:
Figura 5.1 – Suposições dos testes para uma amostra
A variância populacional 
é conhecida?
A população respeita 
uma distribuição 
normal?
Teste “Z”
Teste “T”
Utilizar métodos 
não paramétricos
Fonte: elaborada pelo autor.
– 127 –
Noções de inferência estatística
Porém, após definir anteriormente o que é um intervalo de confiança, 
também denominado intervalo de respostas típicas, definiremos o inter-
valo de confiança da média, na seção a seguir.
5.4 Teste “Z”
Incialmente são reportados os valores da variável altura da planta 
medicinal (camomila – Matricaria chamomilla). Essencialmente, deve ser 
lembrado que a variância amostral geralmente não é visualizada na prá-
tica. No entanto, teoricamente, consideremos que a variância (população) 
seja igual a 2,25 e, consequentemente, o desvio-padrão seja de 1,5. Logo, é 
necessário conhecer se os dados da respectiva variável respeitam uma distri-
buição normal de probabilidade. Nesse sentido, o “quantile - quantile plot” 
(“Q-Q plot”) e o teste de Shapiro-Wilk foram empregados. No gráfico de 
“Q – Q plot” e por meio do teste de Shapiro-Wilk, pode-se verificar que 
existem evidências de que a amostra da planta medicinal possui distribuição 
normal (nível de 5% de significância, p = 0,1858) – não foi rejeitada a hipó-
tese nula para o pressuposto de normalidade dos dados (Figura 5.2).
Figura 5.2 – Vetor de dados planta A
Fonte: elaborada pelo autor.
Para construir o intervalo de confiança da média (Figura 5.3), deve-se 
conhecer a margem de erro (equação 6). Como a altura é normalmente distri-
buída e a variância populacional é conhecida, a margem de erro é dada por:
��������������������������� ��������������Erro z z
n
Equa
a( ) =
2
s
çção�6
Bioestatística
– 128 –
Figura 5.3 – Intervalo de confiança da média
Fonte: elaborada pelo autor.
Dessa forma, o intervalo de confiança é dado por: ẋ - Erro (z) < μ < ẋ + Erro (z). 
Então, a estimativa pontual para a média populacional é de 2,946 e, com 95% 
de confiança, a média populacional está entre [2,53; 3,36]. Para utilizar o teste 
“z”, suponha que na pesquisa anterior a média encontrada foi de 3,32. Pode-se 
afirmar que as médias são iguais?
Hipóteses:
 2 hipótese nula: μ = 3,32;
 2 hipótese alternativa: μ ≠ 3,32.
Temos a seguinte estatística de teste:
 z
n
=
−
√
∝
σ
 Equação7
x.
A estatística de teste “z” possui uma distribuição normal. Logo, por 
meio do valor de “z” calculado, a decisão referente à rejeição da hipótese 
nula pode ser tomada. A seguir, são realizados os cálculos com o auxílio 
do software “R”.
Figura 5.4 – Cálculo da estatística de teste “z” e o valor de probabilidade
Fonte: elaborada pelo autor.
– 129 –
Noções de inferência estatística
Após determinar a estatística de teste, emprega-se a função 
pnorm() para calcular o valor de probabilidade acumulada até o ponto 
“z”. Deve-se ter muita atenção aqui, pois caso valor de “z” fosse posi-
tivo, deveria ser feito o cálculo de [2 * pnorm z( )( )]. O valor é multiplicado 
por 2, pois o teste é bilateral e a curva da normal é simétrica. Observe 
a importância de definir bem suas hipóteses. Logo, rejeitaria-se a hipó-
tese nula na situação de teste de hipótese unilateral. Entretanto, uma 
vez que foi observado um p-valor calculado de 0,078, não será rejei-
tada a hipótese nula (teste bilateral), pois existem evidências de que 
a altura média encontrada com a nossa amostra é equivalente à altura 
média observada na literatura, a partir de um computador em conexão 
com internet, por meio da instalação de um pacote de funções para 
realizar os cálculos (“BSDA”) (Figura 5.4).
5.5 Teste “T”
Em uma segunda situação, caso a variância não fosse conhecida, qual 
seria a decisão e o procedimento adotado? Conforme a figura 5.1, aplica-se 
o teste “T”. Neste caso, a mudança basicamente reside sobre a estatística 
de teste e a distribuição de probabilidade a ser utilizada – a distribuição 
de “t” de Student. A diferença entre a distribuição normal padronizada e 
a distribuição “t” de Student é que esta é diferente para tamanhos amos-
trais diferentes. A sua forma é um pouco mais larga, refletindo uma maior 
variabilidade. No entanto, à medida que o tamanho amostral aumenta, a 
distribuição “t” de Student se aproxima da normal. Os valores das duas 
distribuições são idênticos para tamanhos amostrais maiores que 2000 
observações, mas dependendo da referência adotada tem sido considerado 
que para amostras maiores que 30 parece ser razoável adotar o teste “z” ao 
invés do t, pois é diferença é muito pequena.
Para determinar o valor de “t”, basta identificar o valor de signifi-
cância adotado e o respectivo número de graus de liberdade. O valor de 
“t” reside no valor observado na casela comum à coluna (nível de signi-
ficância) e linha (graus de liberdade).
Bioestatística
– 130 –
Figura 5.5 – Cálculo do teste “z” em ambiente R
Fonte: elaborada pelo autor.
Considerando o exemplo relacionado com a planta medicinal, em 
que não é observada a variância da população, a variável altura apresenta 
distribuição normal com estimativa para a média populacional na ordem 
de 2,946. Logo, ao elaborar os intervalos de confiança para estimativa da 
média e compará-la com a de estudos anteriores, tem-se que as hipóteses 
continuam as mesmas, mas a estatística de teste e a margem de erro são alte-
radas. Adicionalmente, temos que tn-1 possui distribuição t de Student com 
n-1 graus de liberdade. A seguir é destacada a margem de erro para variáveis 
(com distribuição normal) e a variância populacional não conhecida:
���������������������������������� �������
;
Erro t t
s
n
a
n
( ) =
−
2
1
������������������ �Equação9
Onde s é a estimativa do desvio-padrão e ta n
2
1; - é o valor crítico 
da distribuição t com o nível de significância de a
2
 e com n-1 graus 
de liberdade. Dessa maneira, o intervalo de confiança é dado por: 
x Erro t x Erro t− ( ) < < + ( )� �µ . A partir das linhas de comando executadas, os 
valores da estatística de teste e de probabilidade observados foram res-pectivamente de t = -1,7587 e p = 0,084 (49 graus de liberdade). Logo, a 
partir do valor de probabilidade encontrado, não se recomenda a rejeição 
da hipótese nula, considerando 5% do nível de significância (hipóteses: 
H0: μ=3,32; H1: μ≠3,32).
– 131 –
Noções de inferência estatística
Estatística de teste:
 t
µ
s
n
n− =
−( )
( )
1
 Equação8
x.
Tabela 5.2 – Distribuição “t” de Student
Fonte: www.conteudo.icmc.usp.br.
Adicionalmente, existem evidências de que a altura média encon-
trada em nosso estudo é equivalente à altura média do estudo anterior. 
Na figura 5.6 temos a hipótese alternativa especificada, o intervalo de 95% 
de confiança e a respectiva média amostral. Para a condução de testes uni-
laterais, é necessário alterar o argumento “alternative”.
Bioestatística
– 132 –
Figura 5.6 – Aplicação do teste “t” em ambiente R
Fonte: elaborada pelo autor.
5.6 Teste para inferência sobre duas amostras
Os testes de inferência, tendo em vista a comparação de duas amos-
tras, são clássica e massivamente definidos na literatura. Com o intuito de 
tomada de decisão em relação a hipóteses construídas sobre duas amostras, 
é necessário colher os objetivos do respectivo teste de hipótese selecionado 
e os pressupostos que envolvem cada teste. Nesta parte do capítulo, serão 
apresentados conceitos referentes a métodos para comparações de parâme-
tros de média que respeitam uma distribuição normal de probabilidade. Na 
figura 5.7, de maneira geral, são apresentados testes adequados, conside-
rando o que é mais frequentemente encontrado em pesquisas científicas.
No geral, o objetivo desses testes é estabelecer a comparação de valo-
res médios para uma determinada variável quantitativa que segue uma dis-
tribuição normal de probabilidade, referente a níveis ou categorias de uma 
variável qualitativa (ex.: glicose entre sexos, nacionalidades, tratamentos 
dietéticos etc.). Quando as amostras são pareadas, temos a recomenda-
ção para condução de um teste “t” pareado, em que são extraídas duas 
medições de uma mesma unidade experimental; porém, com mais de duas 
medições obtidas, recomenda-se a aplicação de uma análise longitudinal 
(não é o escopo desta disciplina). Por outro lado, para amostras não pare-
adas, em que temos uma medição extraída de cada unidade experimental 
dividida em duas amostras, recomenda-se a aplicação de um teste “t” para 
amostras independentes, ou, no caso de mais de dois níveis ou catego-
rias da variável qualitativa, a realização de uma análise de variância para 
– 133 –
Noções de inferência estatística
um fator. Neste capítulo serão tratados testes para duas amostras inicial-
mente e, na sequência, alguns casos relacionados à análise de variância 
para comparação de tratamentos. Inicialmente, os testes paramétricos para 
amostras independentes serão apresentados.
Figura 5.7 – Suposições dos testes para duas amostras para variáveis qualitativas 
versus variáveis quantitativas
Qualitativa
vs.
Quantitativa
Apresenta 
distribuição 
normal. 
Amostras 
pareadas:
Qualitativa: 
possui mais 
de 2 níveis
Qualitativa: 
possui mais 
de 2 níveis
Teste “T”
Teste “T”
pareado
Análise 
longitudinal*
Anova
(1 fator)
Não
Não
Não
Sim
Sim
Sim
*Não será tratado pela disciplina.
Fonte: elaborada pelo autor.
5.7 Teste “t” (amostras independentes)
Para reportar o teste “t” a partir de amostras independentes será uti-
lizado o experimento a respeito de estudo observacional em mulheres que 
realizavam um tratamento para fertilização. Inicialmente, as idades das 
mulheres foram obtidas frente aos tipos de infertilidade apresentados pelos 
pacientes. Após a realização do tratamento, houve um acompanhamento 
das mulheres por dois anos e, no final desse período, foi computado sobre 
quais delas engravidaram ou não. Considera-se que o propósito do estudo 
foi avaliar a influência da idade sobre a variável qualitativa gravidez e 
a presença de relação entre idade e o tipo de infertilidade. Na figura 5.8 
Bioestatística
– 134 –
pode-se verificar como foi executada a importação dos dados e o estudo da 
hipótese de normalidade para a idade computada das mulheres.
Figura 5.8 – Importação de dados e verificação do pressuposto de normalidade dos dados
Fonte: elaborada pelo autor.
Como verificado, a idade das mulheres mostrou uma distribuição 
normal. Nesse sentido, para estudar o efeito da idade sobre a gravidez, 
recomenda-se o uso do teste “t”. A variável gravidez apresenta dois níveis 
(engravidar e não engravidar) e as amostras são independentes, uma vez 
que é obtida apenas uma medição por unidade experimental (paciente). Para 
executar o teste “t”, inicialmente deve-se verificar se as variâncias são iguais 
(pressuposto de homoscedasticidade). Previamente à execução do teste, os 
dados são explorados por meio de um gráfico boxplot (Figura 5.9).
Logo, é possível verificar na figura 5.9 que, observando as medianas 
dos grupos, eles são possivelmente diferentes. Adicionalmente, para as 
mulheres com o tipo I de infertilidade, pode-se observar que a mediana da 
idade é maior em termos absolutos do que para as mulheres com infertili-
dade dos tipos II e III. Temos na sequência então o exemplo de aplicação 
do teste “t” para analisar o efeito da idade sobre a gravidez.
Figura 5.9 – Gráficos boxplot para as variáveis gravidez e infertilidade
– 135 –
Noções de inferência estatística
Fonte: elaborada pelo autor.
Hipóteses:
 2 H0 – as idades são estatisticamente iguais entre grupos 
(µG = µNG);
 2 H1 – as idades são estatisticamente diferentes entre grupos 
(µG ≠ µNG).
Estatística de teste para variâncias populacionais iguais (sA
2 = sB
2):
����������������� �
� �
t
x x µ µ
S
n
Graus de Liberdade
A B A B
P
A
=
−( )− −( )
2
++
S
n
Equação
P
B
2
10����������������������� �
A respeito da equação 10, nA e nB remetem às amostras dos grupos 
A e B, �x
A
 e x
B
 médias amostrais dos grupos A e B, µA e µB médias popu-
lacionais dos grupos A e B, e sp
2 (variância respectiva):
 s
x x
np
A A B B
A
2
2 2
=
∑ −( ) + ∑ −( )
−−( )+ −( )1 1
11
 
 
n
Equação
B
x. x.
Bioestatística
– 136 –
Para variâncias populacionais diferentes, tem-se que:
 t
µ µ
S
GL
A B A B=
−( )− −( )
AA
A
B
B
n
S
n
Equação
2 2
12
+
 
x. x.
Logo, dado que previamente verifica-se a hipótese de igualdade de 
variâncias, antes de realizar o teste “t”, computa-se e a estatística de teste 
“F”, sendo que:
Hipóteses: H0: sA
2 = sB
2 ; H1: sA
2 ≠ s
B
2 .
Estatística de teste:
����������������������������������������� � ��������F
S
S
= 1
2
2
2
������������������������������ �Equação13
Onde s
1
2 é a maior das duas variâncias e os graus de liberdade do 
numerador são n1-1 e n2-1.
Figura 5.10 – Teste de hipótese para variâncias iguais: pré-requisito para realização 
do teste “t” para amostras independentes
Fonte: elaborada pelo autor.
Nota-se na figura 5.10 que, como o p-valor é maior que 0,05, não se 
verificam evidências para refutar a hipótese nula (variâncias iguais).
Figura 5.11 – Teste “t” para amostras independentes (ambiente “R”)
Fonte: elaborada pelo autor.
– 137 –
Noções de inferência estatística
Ao considerar o exemplo conduzido, com valor de probabilidade 
igual a 0,1058, não existe evidência para rejeitar H0. Logo, pode-se 
entender que as pacientes que engravidaram possuíam 29,92 anos de 
idade em média, enquanto as pacientes que não conseguiram engravidar 
tinham 28,38 anos de idade em média, o que é significativamente dife-
rente (nível de 5% de significância).
5.8 Teste “t” pareado (amostras dependentes)
Nesta seção teremos os testes de observações (amostras) dependen-
tes, ou também denominados “pareados”. Uma das maneiras de entender 
o conceito de dependência é com exemplos. Consideremos um exemplo 
no qual retiram-se medidas de massa corporalantes ou depois da condu-
ção de um protocolo para perda de peso. A figura 5.11 revela as linhas de 
comando utilizadas, o respectivo conjunto de dados e a testagem do pres-
suposto de normalidade (distribuição normal). Após a testagem da hipó-
tese de normalidade sobre o conjunto de dados para a variável massa, 
deve-se administrar o teste “t” pareado para testar a hipótese de estudo. 
A seguir são apresentadas as hipóteses e sua estatística de teste, levando 
em conta que as amostras se encontram normalmente distribuídas, sendo 
que “d” corresponde à média das diferenças, sd é o desvio-padrão das 
diferenças e µd é a média populacional das diferenças.
Hipóteses:
 2 H0: µd = µPRÉ - µPÓS=0;
 2 H1: µd = µPRÉ - µPÓS≠0;
���������������� � �����������������������������t
d µ
s
n
n
d
d
− =
−
1
EEquação�14
Figura 5.12 – Teste “t” para amostras dependentes (pareadas)
Bioestatística
– 138 –
Fonte: elaborada pelo autor.
Em ambiente “R”, nota-se que como o p-valor é menor que 0,05, 
pode-se rejeitar a hipótese nula, ou seja, não há evidências de que os pesos 
antes ou após a dieta são iguais. Além disso, verifica-se também que a 
média das diferenças é de 7,19. Em síntese, conclui-se que os indivíduos 
perdem 2,05kg em média com a dieta aplicada.
Exemplos
Exemplo 1. Um veterinário avaliou o nível de tiroxina sérica de 55 
cães machos adultos normais. Considerando os valores obtidos da média 
(ẋ = 2,04 mcg/100ml) e do desvio-padrão (s = 0,78 mcg/100ml) como 
boas estimativas populacionais, podemos dizer:
a) que 95% dos cães nesta categoria, em qualquer amostra reali-
zada, estarão com nível sérico de tiroxina de 2,04±1,96(0,78), 
ou seja, de 0,51 a 3,57 mcg/100ml (intervalos de respostas típi-
cas ou intervalo de confiança).
b) Caso outro pesquisador repita o estudo utilizando o mesmo 
número de animais (n = 55), o valor médio de tiroxina sérica será 
– 139 –
Noções de inferência estatística
possivelmente 2 04 2 006
0 78
55
, ,
,
± , sendo 2,006 o valor “t” corres-
pondente a 55-1=54 graus de liberdade, ou seja, entre 1,83 e 
2,25 mcg/100ml (intervalo de confiança da média).
Exemplo 2. Em todo e qualquer teste estatístico expressa-se como 
elemento principal a variação mais provável entre indivíduos, por meio da 
estimativa de desvio-padrão ou variância, onde a variação é total. Como 
exemplo, tomaremos dois grupos experimentais de 5 elementos A (72; 75; 
70; 71; 68) e 5 elementos B (72; 67; 72; 70; 66). Logo, temos que a vari-
ância entre indivíduos será:
s
x
x
n
x
x
n
n np
A
A
A
B
B
B
A B
2
2
2
2
2
1 1
=
∑ −
( )
+ ∑ −
( )
−( )+ −( )
=�
�
25374
356
5
24113
347
5
8
2 2
−
( )
+ −
( )
s
p
2 26 8 31 2
8
7 25=
+
=
, .
,
Passemos às comparações entre as médias dos grupos A e B, utili-
zando o intervalo de confiança da diferença ẋA - ẋB. Considerando que 
a estimativa é calculada a partir de 8 graus de liberdade e as variâncias 
populacionais são iguais, temos que o intervalo de confiança será:
( )± +A B GL
P
A
P
B
t
S
n
S
n
− =
2 2
x. x.
71 2 69 4 2 306
7 25
8
7 25
8
, , ,
, ,
−( )± + = �
1 80 3 89, .±
Ou seja, em 95% das respostas típicas testando os grupos A e B, a 
diferença entre suas médias oscila de -2,09 a 5,69, intervalo que inclui o 
Bioestatística
– 140 –
valor 0. Logo, o grupo A apresenta média equivalente ao grupo B. Adicio-
nalmente, pelo teste “t”, temos que:
S
n
S
n
A B
P
A
P
B
=
−( )
+
= =
2 2
1 80
1 68
1 071
,
,
,
x.x.
Logo, pelo fato de o valor de “t” tabelado (2,306) ser maior 
que o valor calculado de “t” (1,071), indica-se que os grupos possuem 
médias equivalentes.
Exemplo 3. No combate a verminoses, na tentativa de selecionar 
um antígeno identificador da Schistosomíase, foram testados dois antí-
genos (A e B) em 11 pacientes, um em cada braço, e após oito minutos a 
área de reação epidérmica foi medida em cm2 (Tabela 5.3). Considerando 
as 11 observações da nova variável d, ∑ = ∑ =d e d8 08 6 512, , teremos: 
dmédio = 0,73 e sdiferenças = 0,24. Logo o intervalo de confiança da dmédio será: 
0 7345
0 2413
10
0 7345 0 162110,
,
, , .±
( )
√
= ±
t
Tabela 5.3 – Área de reação epidérmica em cm2 segundo o antígeno utilizado de forma 
subcutânea e o paciente
Indivíduo Antígeno A Antígeno B Diferença d=A-B
1 3,58 2,96 0,62
2 1,67 0,62 1,05
3 2,7 2,08 0,62
4 3 2,7 0,3
5 0,88 0,03 0,85
6 0,97 0,41 0,56
7 2,2 1,14 1,06
8 3,9 3,2 0,7
9 2,85 1,93 0,92
10 2,5 1,6 0,9
11 1,3 0,8 0,5
Fonte: Sampaio (2010).
– 141 –
Noções de inferência estatística
Sendo assim, o provável valor de dmédio é de 0,5424 a 0,8966, demons-
trando sempre uma superioridade de área do antígeno A, de 0,57 a 0,89 
cm2 maior que o antígeno B. Se o valor zero estivesse incluído neste inter-
valo, isto significaria que em algumas situações o antígeno B apresentaria 
área superior à de A. Para que a diferença média dmédio fosse significativa, 
a condição matemática seria:
t
d
s
n
tabelado
medio
diferenças
£� �
Temos:
�
,
,
, .t = =
0 7345
0 2413
11
10 095
Como o valor de “t” tabelado para n-1 graus de liberdade é de 2,228, 
o valor “t” calculado foi superior não só a este nível de 5%, mas aos níveis 
de 1% (3,169) e 0,1% (4,587). Nesse sentido, concluímos que o antígeno 
A provoca reação epidérmica mais extensa que o antígeno B, com proba-
bilidade de erro inferior a 0,1% (p < 0,001).
Para o caso de uma variável explicativa possuir mais de dois níveis 
e as observações serem dependentes, é adequado empregar a análise de 
variância para medidas repetidas, porém, não abordaremos esse conte-
údo neste capítulo. Em suma, neste capítulo você teve acesso a conceitos 
e noções sobre a área de inferência estatística e sobre como comparar 
grupos experimentais com o uso do software “R”. Para aprofundar seus 
conhecimentos, revise seus conceitos e explore em outros livros-texto e 
em exemplos disponíveis na internet.
Atividades
Leia o enunciado para as questões de 1 a 5:
Os testes de hipóteses são usados em diversas áreas. Na bioesta-
tística, a construção de hipóteses deve sempre preceder a aplica-
Bioestatística
– 142 –
ção de testes. Ao considerar a hipótese nula de que a ingestão de 
gorduras poli-insaturadas diariamente pode reduzir os níveis de 
LDL e a hipótese alternativa de que o consumo de gorduras poli-
-insaturadas na alimentação diária pode reduzir os níveis séricos 
de LDL, responda a seguir:
1. Conforme apresentado, os tipos de erro cometidos na tomada de 
decisão sobre o efeito do consumo de gorduras poli-insaturadas 
na alimentação diária são:
a) erros tipo I e II;
b) erro tipo A e B;
c) erros tipo B e D;
d) erros tipo I e A;
e) nenhuma das anteriores;
2. Em complemento à questão anterior, a tomada de decisão (infe-
rência) é fundamental a diversas áreas, como a bioestatística. 
Nesse sentido, as informações a seguir são corretas exceto:
a) O erro tipo I implica na rejeição da hipótese nula.
b) O erro tipo I consiste na rejeição da hipótese nula quando esta 
deveria ser verdadeira.
c) O erro tipo II implica na aceitação da hipótese nula.
d) O erro tipo II consiste na aceitação da hipótese nula quando 
esta deveria ser rejeitada.
e) Nenhuma das anteriores.
3. A tomada de decisão sobre a importância do consumo de gorduras 
poli-insaturadas é resultado de diversas etapas. Quais são elas?
a) Estabelecimento de hipóteses, determinação da estatística de 
teste, cálculo do valor de probabilidade.
b) Estabelecimento de hipóteses, determinação da estatística de 
teste, cálculo do valor de probabilidade e tomada de decisão.
– 143 –
Noções de inferência estatística
c) Determinação da estatística de teste, cálculo do valor de pro-
babilidade e tomada de decisão.
d) Determinação da estatística de teste, cálculo do valor 
de probabilidade
e) Estabelecimento de hipóteses, determinação da estatística de 
teste, cálculo do valor de probabilidade e tomada de decisão.
4. Uma das etapas do teste de hipóteses consiste na elaboração das 
hipóteses de estudo. Neste período, o pesquisador deveconhecer 
amplamente o problema para elaborar suas hipóteses de estudo, 
ou seja, o que é esperado sobre o questionamento ou problema 
proposto. Neste horizonte, as hipóteses elaboradas podem ser 
classificadas em hipóteses unilaterais ou bilaterais. Como elas 
podem ser definidas?
a) Nas hipóteses unilaterais pressupõe-se que as hipóteses nulas 
estabelecem valores maiores ou menores que um valor predeter-
minado e nas hipóteses bilaterais é observado se valores médios 
obtidos experimentalmente são diferentes ou iguais.
b) Nas hipóteses bilaterais pressupõe-se que as hipóteses nulas 
são maiores ou menores que um valor predeterminado para uma 
variável conhecida e nas unilaterais é observado se determina-
dos valores médios são diferentes ou iguais.
c) Nas hipóteses bilaterais pressupõe-se que as hipóteses alterna-
tivas são maiores ou menores que um valor predeterminado para 
uma variável conhecida.
d) A hipótese alternativa nas hipóteses unilaterais estabelece que 
a média das respostas experimentais é maior que um valor pre-
determinado e nas hipóteses bilaterais é observado se valores 
médios obtidos experimentalmente são diferentes.
e) Nenhuma das anteriores.
5. As gorduras poli-insaturadas estão presentes em alimentos 
como peixes, azeite e castanhas. Estudos experimentais e popu-
lacionais mostraram que indivíduos que adotam naturalmente 
Bioestatística
– 144 –
na dieta este tipo de alimento ao longo da vida possuem maior 
expectativa de vida, menor incidência de infarto e menores 
níveis de LDL. Este tipo de dieta é adotado em países mediterrâ-
neos. Um estudo populacional foi desenvolvido com indivíduos 
de duas cidades de países diferentes (Évora, em Portugal; e Foz 
do Iguaçu, no Brasil) com a mesma idade, níveis de LDL e regis-
tro prévio de seus hábitos alimentares. Quais seriam respectiva-
mente as hipóteses nula e alternativa?
a) Hipótese unilateral: hipótese nula – os valores de colesterol 
LDL são iguais entre indivíduos das duas cidades; hipótese alter-
nativa – os valores de colesterol LDL são diferentes entre indiví-
duos das duas cidades.
b) Hipótese bilateral: hipótese nula – os valores de coleste-
rol LDL são iguais entre indivíduos das duas cidades; hipótese 
alternativa – os valores de colesterol LDL são diferentes entre 
indivíduos das duas cidades.
c) Hipótese bilateral: hipótese alternativa – os valores de coles-
terol LDL são iguais entre indivíduos das duas cidades; hipó-
tese nula – os valores de colesterol LDL são diferentes entre 
indivíduos das duas cidades.
d) Hipótese unilateral: hipótese nula – os valores de coleste-
rol LDL são iguais entre indivíduos das duas cidades; hipótese 
alternativa – os valores de colesterol LDL são diferentes entre 
indivíduos das duas cidades.
e) Hipótese bilateral: hipótese nula – os valores de coleste-
rol LDL são diferentes entre indivíduos das duas cidades; 
hipótese alternativa – os valores de colesterol LDL são iguais 
entre indivíduos das duas cidades.
6. Uma granja de aves tipo rhode produz 3000 ovos por dia, os 
quais são classificados e vendidos de acordo com o peso. Ovos 
industriais são assim classificados porque são mais baratos, por 
possuírem menos de 48 g. Se a granja produz ovos com peso 
médio de 53 g e desvio-padrão de 6,4 g, ela poderia atender o 
– 145 –
Noções de inferência estatística
pedido de um restaurante e de uma confeitaria que pertencem 
a uma mesma empresa, a qual deseja comprar 600 unidades 
desse tipo por dia?
a) Atenderia o pedido, pelo menos em parte.
b) Atenderia completamente o pedido do empreendimento e ainda 
sobraria uma quantidade representativa de ovos industriais.
c) Atenderia completamente o pedido do empreendimento exa-
tamente como o solicitado.
d) O pedido não poderia ser atendido pelo fornecedor.
e) Nenhuma das anteriores.
7. Frequentemente ouvimos notícias sobre estudos que apresentam 
resultados curiosos em notícias de nosso dia a dia. Geralmente 
essas informações e notícias são reportadas por jornalistas e sites 
que, sem o devido conhecimento sobre a área estatística e capa-
cidade crítica sobre tais pesquisas, por vezes acabam por veicular 
conclusões erroneamente e não sintetizar devidamente as infor-
mações sobre os resultados observados em pesquisas. Esse fenô-
meno atualmente é bem conhecido em diversas áreas, produzindo 
confusão junto à população, o que é conhecido como “notícias 
falsas” ou “fake news”. Tempos atrás, afirmava-se que o consumo 
de ovos diariamente poderia elevar os níveis de colesterol sérico 
LDL. Mais recentemente, vários fatores foram elucidados e hoje 
o ovo é um alimento que cada vez mais faz parte do dia a dia na 
mesa dos brasileiros, com elevado potencial nutricional para die-
tas com foco em perda de peso, evitando a degradação proteica. 
Um determinado estudo não produziu resultados positivos com 8 
indivíduos, e outro, com uma amostra multicultural, recrutou 731 
indivíduos, mostrando resultados positivos sobre parâmetros clí-
nicos. Na sua opinião, o que ocorreu? Se aumentarmos o tamanho 
amostral, o desvio-padrão se altera?
a) Não ocorrerá nada, os parâmetros encontram-se inalterados;
b) O aumento do tamanho amostral reduzirá o intervalo de con-
fiança da média, logo, com maior confiança.
Bioestatística
– 146 –
c) O aumento do tamanho amostral reduzirá o intervalo de 
confiança da média.
d) O aumento da amostra aumentará o intervalo de confiança 
da média.
e) Nenhuma das anteriores.
Enunciado para questões de 8 a 10:
A digestibilidade de duas espécies de forrageiras do cerrado, 
obtidas em locais diferentes dos respectivos pastos, foram res-
pectivamente de:
Dados das espécies forrageiras
Capim elefante (n = 7) 69 72 66,8 70,5 73 67,8 63 -
Brachiaria (n = 8) 78 75,2 77,0 73,9 74,0 72,0 76,3 68,5
8. Ao comparar as digestibilidades médias das duas forrageiras, 
foram obtidos os seguintes resultados e tomada de decisão.
a) Capim elefante < Brachiaria, confirma-se a hipótese nula.
b) Capim elefante = Brachiaria, rejeita-se a hipótese nula.
c) Capim elefante > Brachiaria, confirma-se a hipótese nula.
d) Capim elefante < Brachiaria, rejeita-se a hipótese nula.
e) Nenhuma das anteriores;
9. Caso outras 7 amostras de capim elefante tivessem sido coleta-
das naquele mesmo local e na mesma época, qual seria o valor 
da digestibilidade média dessas amostras?
a) 68,8±2,6.
b) 67,87±2,62.
c) 68,87±2,62.
d) 68,00±2,62.
e) Nenhuma das anteriores.
– 147 –
Noções de inferência estatística
10. Apesar de 8 amostras terem sido colhidas, seria possível fazer 
um prognóstico entre quais valores a digestibilidade da Brachia-
ria teria para qualquer amostra colhida no mesmo local?
a) 67,07% a 80,65%.
b) 68,07% a 81,65%.
c) 68,07% a 80,65%.
d) 67,07% a 80,55%.
e) Nenhuma das anteriores.
6
Estudo de Dispersão 
de Frequência 
e Análise da 
Concordância de 
Variáveis Quantitativas 
e Qualitativas
6.1 Estudo de Dispersão de Frequência
As respostas obtidas na experimentação em animais e humanos 
geralmente são quantitativas. Considerando fatores circunstanciais, 
como o tempo, amostra e infraestruturas disponíveis (instalações 
físicas, materiais, equipamentos de medição etc.), um delineamento 
adequado pode ser definido para analisar as respostas biológicas. 
As respostas qualitativas exigem uma estratégia diferenciada de aná-
lise por sua natureza. Nas análises envolvendo experimentos com 
animais, caso o experimento seja planejado para se obter respostas 
qualitativas de cada animal por efeito de tratamentos impostos pelo 
pesquisador, é preciso criar um critério de variabilidade de respostas 
observadas dentro de cada tratamento. Como as respostas são qua-
litativas, a abordagem de análise mais indicada envolveria métodos 
não paramétricos (ZAR, 1984; SAMPAIO, 2010).
Bioestatística
– 150 –
Existem situações, entretanto nas quais as respostas qualitativas são 
julgadas pela frequência em que elas ocorrem dentro de um subuniverso 
estudado. Isso ocorrerá em basicamente dois grandes grupos deestudo de 
dispersão de frequência:
a) Variável estudada apresenta-se dicotomicamente (sim ou não, 
presença ou ausência, animais positivos ou negativos etc.) indi-
cará apenas um resultado percentual de ocorrência da resposta 
alvo. Como exemplo, podemos citar a ocorrência de brucelose 
em bovinos de um município (positivo ou negativo);
b) Variável estudada, ainda qualitativa, é pesquisada em grupos 
diferentes e se deseja conhecer se a dispersão das respostas 
observadas (dicotômicas ou não) se apresenta igualmente para 
todos os grupos, ou se a dispersão parece variar dependendo 
do grupo onde a resposta foi estudada. Essa situação está mais 
ligada à ação planejadora do pesquisador do que na situação 
anterior onde, pela operação de levantamento, não está implícita 
a imposição de grupos experimentais ou tratamentos. Por exem-
plo, em uma criação leiteira, estuda-se se a retenção de placenta 
está associada ou ocorre mais frequentemente em algum grau 
de parentalidade sanguínea para vacas paridas, percebe-se que 
a resposta de retenção de placenta é dicotômica (sim ou não) e 
podem existir mais de dois graus de sangue discriminados pelo 
pesquisador para verificar se existe diferença no percentual de 
animais paridos com retenção entre aqueles graus de sangue, 
estes estudo são denominados de tabelas de contingência, apre-
sentadas à seguir (ZAR, 1984; SAMPAIO, 2010).
Figura 6.1 – Estudo de dispersão de frequência: tabelas de contingência
Fonte: elaborada pelo autor.
– 151 –
Estudo de Dispersão de Frequência e Análise da Concordância de Variáveis 
Quantitativas e Qualitativas
6.2 Tabelas de Contingência
Enquanto nos levantamentos estuda-se tão somente a frequência de 
evento dicotômico dentro de um universo amostral, as tabelas de contin-
gência envolvem o estudo de frequência de eventos dicotômicos ou não, 
mas que trazem consigo, naturalmente ou pressuposta pelo pesquisador, 
uma distribuição esperada.
Suponhamos que em uma fazenda de exploração leiteira tenha havido 
180 nascimentos no último ano. Para esse tipo de exploração o evento mais 
desejável é de produtoras do plantel. A segregação genética para sexos de 
1:1 é bem conhecida, deverá prevalecer e portanto, estaremos esperando 
90 fêmeas e 90 machos entre bezerros nascidos. Se observássemos que 
realmente nasceram 90 machos e 90 fêmeas, nada de novo teria aconte-
cido que ameaçasse a esperada segregação de nascimentos na proporção 
1 macho para 1 fêmea (1:1).
Caso o evento observado fosse entretanto de 92 fêmeas e 88 
machos, consideraríamos a mesma segregação, já que os desvios ocor-
ridos entre as frequências observadas e esperadas foram muito peque-
nos. Supostamente, se 120 fêmeas e apenas 60 machos, esses desvios 
nos pareceriam mais substanciais e alternativamente julgaríamos: ou 
algo muito difícil de acontecer está ocorrendo ou alguma coisa pode 
estar efetivamente alterando a proporção esperada de 1:1. Nesse sen-
tido, para julgarmos um evento como esse por meio da avaliação dos 
desvios observados, é necessário:
c) Estabelecer as hipóteses de testagem e um índice para medir a 
magnitude de desvios (Equação 01, Índice afastamento qui-qua-
drado – χ2), por meio do índice afastamento de qui-quadrado (χ2);
Hipóteses:
 2 H0 – Hipótese nula: não existe associação entre as variáveis, 
não há discrepância entre as frequências esperada e obser-
vada (� �obs tab
2 2� ).
Bioestatística
– 152 –
 2 H1 – Hipótese alternativa: há associação entre as variáveis, há dis-
crepância entre as frequências esperada e observada (χobs
2 > χtab
2 ).
calculado
i
linhas
j
Colunas
ij ij
ij
n E
E
2
1 1
2
EEquação01
Onde nij é a frequência observada, E
n n
nij
i j� � �
��
 a frequência esperada 
e χobs
2
 segue uma distribuição de qui-quadrado com k-1 graus de liberdade 
para um total k de grupos, ilustrados na tabela 6.1. A exemplo do cálculo 
do desvio padrão, os desvios foram elevados ao quadrado, pois sua soma 
simples resultaria no valor 0, e relativizados pela frequência esperada perti-
nente, logo o índice obtido é adimensional (ZAR, 1984; SAMPAIO, 2010).
Exemplo 1. Considerando a mesma fazenda de pecuária leiteira, a 
primeira situação em que se verifica 92 fêmeas e 88 machos, o índice de 
afastamento seria:
�1
2
2 292 90
90
88 90
90
0 088�
�� �
�
�� �
� ,
Na segunda situação em que se verifica 92 fêmeas e 88 machos, o 
índice de afastamento seria:
�2
2
2 2120 90
90
60 90
90
20 0�
�� �
�
�� �
� ,
Tabela 6.1 – Tabela de Contingência 2 x 2
Variável 1
Variável 2
Nivel A Nivel B Total
Nivel A N
11
N
12
N
1+
Nivel B N
21
N
22
N
2+
Total N
+1
N
+2
N
++
Fonte: elaborada pelo autor.
– 153 –
Estudo de Dispersão de Frequência e Análise da Concordância de Variáveis 
Quantitativas e Qualitativas
Logo, o valor do índice de afastamento qui-quadrado para o nas-
cimento de bezerros da fazenda na primeira situação é menor que 
na segunda situação (χ1
2 < χ2
2). Parece claro que a primeira situação 
denuncia desvios meramente casuais e na segunda eles já parecem 
substancialmente grandes.
d) Analisar a distribuição desse índice de modo a identificar o valor 
em que os desvios seriam elevados demais para serem interpre-
tados como casuais, tornando-se discrepante da frequência espe-
rada para determinada resposta.
Figura 6.2 – Distribuição de qui-quadrado: Teste de χ2 (aceitação e rejeição de uma 
hipótese nula)
Fonte: http://www.portalaction.com.br/22-teste-qui-quadrado-para-independência (2021).
O estudo da distribuição dos valores de χtabelado
2
 obtidos em vários 
levantamentos relacionados ao sexo, se a proporção for realmente 1:1, 
nos conduzirá ao encontro mais frequente de valores zero ou próximos de 
zero, a frequência diminuindo à medida que os valores de �tabelado
2 aumen-
tam. Além disso, essa distribuição irá depender do número de grupos estu-
dados onde o valor mínimo do índice é zero (gl = k - 1). As variações 
na proporção de nascimentos entre fêmeas e machos levarão diferentes e 
maiores valores de χcalculado
2
, mas cada vez menos frequentes. Os valores 
próximos a zero indicarão desvios meramente causais, dentro do critério 
de tipificar sempre 95% das respostas possíveis (p<0,05) (ZAR, 1984). 
Logo, deve-se localizar o valor crítico de χtabelado
2 como aquele que engloba 
Bioestatística
– 154 –
sob a curva do gráfico uma área que corresponda a 95% da área total a par-
tir do valor inicial zero. Em síntese, isso se traduz que estudos de propor-
ções entre sexos que estiverem além deste ponto, sugerirão um fenômeno 
muito improvável (5% dos casos) ou o colocando em dúvida a proporção 
inicial considerada (SAMPAIO, 2010).
Tabela 6.2 – Tabela de qui – quadrado (χ2)
Fonte: www.ime.unicamp.br/~cnaber/Tabela%20da%20Qui-quadrado.pdf (2021).
O estudo de áreas pode ser feito com o domínio da função matemá-
tica da distribuição de probabilidade de χ2 e do processo de integração. 
Os valores limites e áreas podem ser quantificadas para o nível de erro 
estipulado (5%) e tabeladas conforme o número de graus de liberdade 
envolvidos no estudo (tabela 6.2). Para “k” grupos independentes os graus 
de liberdade correspondem a k-1, logo o valor tabelado que congrega 95% 
– 155 –
Estudo de Dispersão de Frequência e Análise da Concordância de Variáveis 
Quantitativas e Qualitativas
dos eventos possíveis da proporção de nascimentos por sexo é da ordem 
de 3,84, 5% de erro, que corresponde obter valores superiores a este limite 
em cinco de 100 estudos realizados (ZAR, 1984).
Logo, na primeira situação proposta anteriormente o valor de qui-
-quadrado ( 1
2 0 088, ) revela que os desvios foram realmente casuais, não 
significativo, pelo que o índice é taxado de não significativo, confirmando 
a hipótese nula. Por outro lado, na segunda situação, o índice é superior ao 
tabelado (�2
2 20 0� , ), mostrando uma elevada discrepância entre as frequ-
ências observadas e esperadas (CRAWLEY, 2013).
Exemplo 2. Em outro exemplo (tabela 6.3), para grupos indepen-
dentes, a pelagemde coelhos de determinada raça possui 4 cores (branco, 
cinza, preto e malhado), onde a proporção esperada é respectivamente 
de 9:3:3:1. Em uma propriedade são estudados em torno de 480 filhotes 
registrados conforme a tabela 6.2. Tem-se o objetivo verificar a discrepân-
cia entre as frequências esperada e observada de filhotes da propriedade:
�2
2
2 2 2 2260 270
270
98 90
90
87 90
90
35 30
30
2 014�
�� �
�
�� �
�
�� �
�
�� �
� ,
Tabela 6.3 – Pelagem de filhotes de coelho
Pelagem
Frequência
Observada Esperada
Branco 260 270
Cinza 98 90
Preto 87 90
Malhado 35 30
Total 480 480
Fonte: elaborada pelo autor.
Como existem 4 tipos de pelagem, temos então 3 graus de liberdade 
(k-1=3). O valor tabelado para 5%, conforme a tabela 6.2, é de 7,815. 
Como o índice de afastamento qui-quadrado calculado é inferior ao valor 
tabelado, não há discrepância entre a frequência observada e esperada 
Bioestatística
– 156 –
entre as cores de filhotes de coelhos, portanto quaisquer variações entre 
a frequência observada e esperada na propriedade criadora de coelhos 
ocorre ao acaso.
Exemplo 03. Em diferentes contextos esportivos, é comumente 
observada a organização das competições em categorias em que o critério 
adotado é o ano de nascimento. Apesar da intenção positiva de se promo-
ver uma forma de disputa justa entre os participantes, este critério de agru-
pamento pode induzir diferenças de idade, que podem alcançar quase 24 
meses dentro da mesma categoria etária. Essa diferença relativa de idade 
pode levar a possíveis vantagens de desempenho e participação, favore-
cendo os atletas nascidos mais próximos ao início do ano de seleção, fenô-
meno denominado “Efeito da Idade Relativa” (EIR). Na prática, um indi-
víduo nascido em janeiro apresenta 11 meses a mais de desenvolvimento 
psicofísico que outro nascido em dezembro, proporcionando uma vanta-
gem em termos psicofísicos e de tempo de prática. Diante do exposto, o 
presente exemplo tem como objetivo mostrar e avaliar a presença do EIR 
de forma global nas categorias juvenil, júnior e adulta quando agrupados 
por trimestre (primeiro trimestre, T1 – nascidos(as) em janeiro, fevereiro 
e março; segundo trimestre, T2 – nascidos em abril, maio e junho; terceiro 
trimestre, T3 – nascidos em julho, agosto e setembro e quarto trimestre, 
T4 – outubro, novembro e dezembro) para ambos os sexos em campe-
onatos mundiais, com o uso do teste de qui-quadrado. Espera-se que a 
proporção de nascimentos seja igual para cada trimestre.
As hipóteses estabelecidas para o estudo da dispersão de frequência 
por trimestres de nascimento na modalidade handebol são:
 2 H0 – Hipótese nula: não há discrepância entre as frequências 
esperada e observada de trimestres de nascimento na modali-
dade handebol (� �obs tab
2 2� );
 2 H1 – Hipótese alternativa: há discrepância entre as frequências 
esperada e observada de trimestres de nascimento na modali-
dade handebol (χobs
2
> χtab
2
).
– 157 –
Estudo de Dispersão de Frequência e Análise da Concordância de Variáveis 
Quantitativas e Qualitativas
Tabela 6.4 – Estatística de teste qui-quadrado e p-valores para distribuições de 
trimestres de nascimento nas categorias juvenis, juniores e adultos (feminino 
e masculino) da modalidade esportiva de handebol (*Indica discrepâncias 
significativas com valor de p < 0,001)
Categoria (Sexo)
Trimestre e Campeonato
T1 T2 T3 T4
Adulto (Masculino) 537 491 486 401
Adulto (Feminino) 572 548 465 406
Júnior (Masculino) 349 312 258 206
Júnior (Feminino) 385 288 259 212
Juvenil (Masculino) 300 247 243 157
Juvenil (Feminino) 353 299 242 188
Fonte: https://www.ihf.info/competitions (2021).
Adulto Masc
,
,
,
,
2
2 2537 478 75
478 75
491 478 75
478 75
486 4478 75
478 75
2,
,
�
�� �
�
401 478 75
478 75
20 13
2,
,
, *
Adulto Fem
,
,
,
,
2
2 2572 497 75
497 75
548 497 75
497 75
465 4997 75
497 75
406 497 75
497 75
35 21
2 2,
,
,
,
, *
Júnior Masc
,
,
,
,
2
2 2349 497 75
497 75
312 497 75
497 75
258 4497 75
497 75
206 497 75
497 75
41 73
2 2,
,
,
,
, *
Júnior Masc
,
,
,
,
2
2 2349 281 25
281 25
312 281 25
281 25
258 2281 25
281 25
206 281 25
281 25
41 73
2 2,
,
,
,
, *
Júnior Fem
2
2 2 2385 286
286
288 286
286
259 286
286
212 286
286
55 97
2
, *
Juvenil Masc
,
,
,
,
2
2 2300 236 75
236 75
247 236 75
236 75
243 2236 75
236 75
157 236 75
236 75
44 63
2 2,
,
,
,
, *
Bioestatística
– 158 –
Juvenil Fem
,
,
,
,
,2
2 2353 270 5
270 5
299 270 5
270 5
242 270 55
270 5
188 270 5
270 5
56 33
2 2
,
,
,
, *
Figura 6.3 – Teste de qui-quadrado: software “R”
Fonte: elaborada pelo autor.
Os índices de afastamento indicam uma diferença entre as frequências 
esperada e observada na distribuição de trimestres de nascimento em todas 
as categorias. Para verificar se há diferenças entre trimestres, aplicam-se tes-
– 159 –
Estudo de Dispersão de Frequência e Análise da Concordância de Variáveis 
Quantitativas e Qualitativas
tes de proporções 2 a 2, que não são o foco desta unidade de estudo. A partir 
da aplicação desses testes verificamos se há a presença do EIR.
Na categoria juvenil, em ambos os sexos foi verificado uma maior 
proporção pelos menos às margens da significância decrescente do pri-
meiro ao quarto trimestre (T1, T2, T3 e T4) (Feminino – T1 vs. T2, p = 0,049; 
T1 vs. T3, p = 0,004; T1 vs. T4, p < 0,001; T2 vs. T3, p = 0,061; T2 vs. 
T4, p < 0,001; T3 vs. T4, p = 0,047; e Masculino – T1 vs. T2, p = 0,07; T1 
vs. T3 e T1 vs. T4, p < 0,001; T2 vs. T3, p = 0,03; T2 vs. T4, p < 0,001; 
T3 vs. T4, p = 0,02).
Para a categoria Junior, a análise de proporções revelou que em 
ambos os sexos o T1 foi significativamente superior à T3 e T4 (Femi-
nino e Masculino – T1 vs. T3, T1 vs. T4, p < 0,001), T2 em relação à T4 
(Feminino e Masculino – T2 vs. T4, p < 0,001) e especificamente o T1 
significativamente diferente ao T2 no masculino (T1 vs. T2, p < 0,001). 
Porém, na categoria júnior masculina foi verificada uma proporção maior 
de nascidos no T3 quando comparado ao T4 (p = 0,047) e às margens da 
significância de T2 para com T4 (p = 0,06).
Na categoria adulta do sexo feminino uma maior proporção signi-
ficativa de nascidos nos três primeiros trimestres em relação ao último 
trimestre (T1 vs. T4, p < 0,001, T2 vs. T4. p = 0,004; T3 vs. T4, p = 0,007). 
Por outro lado, no sexo masculino foi verificada uma maior frequência de 
nascidos nos dois primeiros trimestres quando comparado aos dois últimos 
trimestres (T1 vs. T3, p < 0,001; T1 vs. T4, p < 0,001; T2 vs. T3, p = 0,017; 
e T2 vs. T4, p < 0,001). Após as análises, de uma forma geral, nas análises 
gerais foi verificado uma forte presença do EIR em todas as categorias e 
em ambos os sexos. Na figura 6.3 é mostrado a aplicação do teste de qui – 
quadrado no software “R”.
6.3 Limitações do uso do χ2
Nesta subseção, são abordados aspectos relacionados com as limi-
tações de uso do teste de qui-quadrado. O estudo de dispersão de frequ-
ências é realizado a partir de registros absolutos. Nesse sentido, podem 
ser verificadas algumas limitações:
Bioestatística
– 160 –
a) O índice de afastamento qui-quadrado possui uma configu-
ração que impede que qualquer frequência teórica assuma o 
valor zero, implicando em uma indeterminação, onde o divi-
sor seria igual a zero. Por outro lado, as frequências esperadas 
muito próximas de zero superestimam o valor de χ2 e podem 
ser um indicador para agrupamento de classes, compactamos 
classes vizinhas adotando um critério racional, até que a soma 
de frequência seja maior que 1.
b) As situações experimentais com frequências totais reduzidas, 
não poderão ter suas dispersões devidamente estudadas e com-
paradas. Caso as observações de um grupo forem distribuídas 
em k classes de respostas, o ideal seria obter 15*k indivíduos 
para este grupo. Assim, para o valor mínimo de k = 2 devería-
mos contar com 30 indivíduos por grupo.
c) Como a distribuição dos valores de χ2 é contínua e as frequên-
cias estudadas são variáveisdiscretas, um ajuste para corrigir 
pequena diferença no cálculo da área sob a curva da distribuição 
pode ser efetuada, logo o teor de ajuste proposto é:
�calculado
i
linhas
j
Colunas
ij ij
ij
n E
E
2
1 1
2
0 5
�
�� �
�
� �
� �
,
A alteração proposta só diminui discretamente o valor final de χ2 e, 
portanto, quando sem o ajuste do valor de χ2 não tiver sido significativo ou 
então for muito maior que o tabelado, a correção de continuidade não afe-
tará a conclusão inicialmente tomada. Por outro lado, o valor significativo 
de χ2 estiver próximo ao valor tabelado, seria interessante procedermos à 
correção, cujo valor ajustado de χ2 seria igual a:
�calculado
i
linhas
j
Colunas
ij ij
ij
n E
E
2
1 1
2
0 5 17 21 0
�
�� �
�
� �
� �
� �
, ,55
21
25 21 0 5
21
13 9 0 5
9
5 9 0 5
9
3 888
2 2 2 2� �
�
� �� �
�
� �� �
�
� �� �
�
, , ,
,
O valor anterior do índice de afastamento era de 5,079, mostrando a 
significância dos desvios observados, superior ao valor tabelado de 3,84 
com 1 grau de liberdade. O valor ajustado é superior ao tabelado, confir-
mando a associação entre a fertilidade e diluente.
– 161 –
Estudo de Dispersão de Frequência e Análise da Concordância de Variáveis 
Quantitativas e Qualitativas
6.4 Análise da Concordância de Variáveis 
Quantitativas e Qualitativas
6.4.1 Coeficiente de Kendall
Em muitas situações temos duas ou mais variáveis (quantitativas ou 
ordinais) e desejamos avaliar se existe associação entre elas. Em algu-
mas situações temos variáveis categóricas e desejamos avaliar se existe 
associação entre elas. Outras vezes tem-se julgadores, juízes ou critérios 
de avaliação diferentes e deseja-se avaliar se existe concordância entre 
eles. Quando as variáveis são contínuas é comum o uso do coeficiente de 
correlação de Pearson para avaliar se existe associação linear entre duas 
variáveis, determinado intrinsicamente pelos valores dos dados amostrais 
observados. Entretanto, se existe tendência de que altos valores de uma 
determinada variável X se associem com valores da variável Y, então para 
dois pares de observações quaisquer (xi, yi) e (xj, yj), em que i ≠ j, se xi > xj é 
provável que yi > yj. Quando isso ocorre, pode se dizer que os dois pares 
são concordantes. Portanto, concordância implica que as diferenças (xi, xj) e 
(yj, yj) têm o mesmo sinal, ou seja, a razão: q
y y
x x
j i
j i
�
�
�
 é positiva. Se a razão 
“q” for negativa temos uma discordância entre os dois pares e se q for 
igual a zero ou infinito, temos um “empate”.
Considerando que, numa amostra aleatória de n pares, tenha-se: nc 
pares concordantes; nd pares discordantes e nt empates. Logo, o coefi-
ciente de concordância de Kendall amostral é definido por:
n n
n n n
n n
n
n n
n n
c d
c d t
c d c d
2
1
2
1
�
Para o calcular o coeficiente de Kendall, inicialmente temos que 
construir os pares e avaliar quantos são concordantes, quantos são discor-
dantes e quantos tem empates como é ilustrado a seguir. Os dados a seguir 
referem-se a um experimento para verificar o efeito de uma droga (X) no 
crescimento de um determinado tumor. Foram usadas 7 doses diferentes 
Bioestatística
– 162 –
de X e para cada dose observou-se a percentagem (Y) de animais que 
desenvolveram o tumor. Os dados observados foram:
Tabela 6.5 – Efeito de uma droga no crescimento tumoral
Dose (X) 0,05 0,5 5,0 20 50 100 300
Postos (x) 1 2 3 4 5 6 7
Percentagem (Y) 1 0 4,9 44,2 30 86,5 56,9
Posto (Y) 2 1 3 5 4 7 6
R Si I
2
1 1 0 1 1 1 1
Fonte: elaborada pelo autor.
Logo, pares (x, y) concordantes:
(0,05;1) com: (5;4,9); (20;44,2); (50;30); (100;86,5); (300; 56,9)
(0,05;0) com: (5;4,9); (20;44,2); (50;30); (100;86,5); (300; 56,9)
(5;4,9) com: (20;44,2); (50;30); (100;86,5); (300;56,9)
(20;44,2) com: (100;86,5); (300;56,9)
(50;30) com: (100;86,5); (300;56,9)
Pares (x, y) discordantes:
(20;44,2) com: (50;30)
(100;86,5) com: (300;56,9)
(0,05;1) com: (0,05;0)
Sendo assim, temos 18 pares concordantes e três pares discordantes e 
nenhum empate. O coeficiente de Kendall será dado por:
,n n
n n n
c d
c d t
18 3
21
0 714�
Os resultados obtidos indicam descritivamente que há associação 
positiva entre a dosagem da droga e o desenvolvimento do tumor.
– 163 –
Estudo de Dispersão de Frequência e Análise da Concordância de Variáveis 
Quantitativas e Qualitativas
6.4.2 Teste de Hipótese – Coeficiente 
de Kendall para duas variáveis
Seja �� o coeficiente de associação populacional entre as variáveis 
X e Y. Então é possível testar a hipótese nula contra as alternativas como 
mostrado nos casos a seguir.
H contraH Ia0 0 0
H contraH IIa0 0 0
H contraH IIIa0 0 0
A distribuição de �� sob a hipótese nula é tabelada para alguns tama-
nhos de amostra e não depende do conhecimento das distribuições de 
probabilidade das variáveis aleatórias X e Y. Para o cálculo da probabili-
dade de significância utiliza-se a distribuição exata (amostras menores e 
sem empates) ou a aproximação normal (amostras grandes e/ou empates). 
Nesse caso, sob a hipótese nula �� é aproximadamente normal com média 
igual a zero e variância dada por:
Var
n
n n
2 2 5
9 1
�
Considerando o exemplo anterior, a probabilidade de significância 
para o teste unilateral, isto é, H0 0:� � contra Ha :� � 0 é igual a:
PH0
0 714 0 015, ,�
Logo, a probabilidade de significância para o teste unilateral seria:
P P N P NH H H0 0 0
0 714 0 1 0 714
0 1005
0 1 2 25, , ,
,
, , 0 012,�
Enquanto para o teste bilateral será: p = 2*(0,012) = 0,024, valores 
próximos daqueles obtidos utilizando-se a distribuição exata.
Bioestatística
– 164 –
6.4.3 Coeficiente de concordância de 
Kappa (Variáveis Qualitativas)
As situações apresentadas anteriormente envolvem a classificação de 
objetos com base em variáveis quantitativas. Existem situações nas quais 
se trabalha com variáveis categóricas nominais ou ordinais. Nesse caso, 
há a necessidade de definir os coeficientes apropriados para esses tipos de 
variáveis. Como exemplo, supondo que dois cardiologistas realizaram de 
forma independente 200 classificações de eletrocardiogramas como nor-
mais, com possíveis anormalidades e anormalidades bem definidas, com 
resultados detalhados a seguir:
Tabela 6.6 – Classificação de eletrocardiogramas
C
ar
di
ol
og
is
ta
 X
Categorias
Cardiologista Y
Normal Possível 
Anormalidade
Anormalidade 
Definida Total
Normal 90 30 0 120
Possível 
Anormalidade 0 20 20 40
Anormalidade 
Definida 10 10 20 40
Total 100 60 40 200
Fonte: elaborada pelo autor.
A tabela de resultados é um caso particular de uma tabela do tipo:
Tabela 6.7 – Resultados
Ju
iz
 o
u 
cr
ité
ri
o 
X
Categoria
Juiz ou critério Y
1 2 ... r Total
1 n11 n12 ... n1
2 n21 n22 ... n2
... r nr1 nr2 ... nr
Total n.1 n.2 ... nr n... = n
Fonte: elaborada pelo autor.
– 165 –
Estudo de Dispersão de Frequência e Análise da Concordância de Variáveis 
Quantitativas e Qualitativas
Sejam 
P P X i Y j p P X i p P Y j i jIJ i j ,. . 1 22, , .r
Nesse caso, questiona-se se há concordância entre as classificações 
realizadas entre os dois cardiologistas. Logo temos que:
 2 H0: a concordância ou discordância entre os dois cardiologistas 
é puramente aleatória;
 2 H1: há concordância positiva ou discordância entre os dois car-
diologistas, ou seja, a concordância ou discordância não é pura-
mente aleatória.
Sob a hipótese nula as concordâncias que aparecem nos dados são 
atribuídas ao acaso, ou seja,
p P X i Y j p pii i i. .
Logo, a proporção esperada de concordâncias ao acaso estimada 
pelos dados observados é igual a:
p p
.
. .p
n
n
n
n
n n
ne
i
r
i i
i
r
i j
i
r
i j
1 1 1
2
� ��
A proporção observada de concordâncias pela tabela de dados é:
p n
ni
r
ii
0
1
�
Portanto, para testar a hipótese nula pode-se comparar os valores 
de pe�, p0� . Quanto mais próximos forem esses valores mais indicação se 
tem que a hipótese nula é verdadeira. Logo, a estatística ou coeficiente de 
Kappa para concordância em análises qualitativas é dado por:
K pp
p
e
e
0
1
� �
�
�
O Coeficiente de Kappa (K�) pode assumir valores entre �
�
�
�
��
�
�
��
p
p
e
e

1
 até 1. 
Quanto mais próximo de 1 maior a indicação de concordância positiva 
Bioestatística
– 166 –
entre avaliadores ou critérios. Inversamente, quando o coeficiente se 
encontra mais próximo de �
�
�
�
��
�
�
��
p
p
e
e

1
 de discordância entre avaliadores ou 
critérios estabelecidos, quanto mais próximo de zero maior a indicação 
que a concordância ou discordância é puramente aleatória ou ao acaso.
Adicionalmente, a variância do coeficiente de Kappa é dada por:
k
e
e e
i
r
i i i i
n p
p p p p p p2 2
1
1
1 �
. . . .
� � �� � �
E sob a hipótese nula a estatística 
Z K
K
��
�
tem distribuição aproximada 
normal com média zero e variância igual a 1.
,pe
120
200
100
200
40
200
60
200
40
200
40
200
0 40�
,po
90
200
20
200
20
200
0 65�
, ,
,
,K p p
p
e
e
0
1
0 65 0 40
1 0 40
0 417
� �
�
�
k
e
e e
i
r
i i i i
n p
p p p p p p2 2
1
1
1
1
200 1� . . . . 0 4
0 4 0 4 120
200
100
200
120 100
200
40 60
2002
2
,
, , . .
..
.
.
,
200
100
200
40 40
200 200
80
200
0 00225� � �� � �
Z K
K
,
,
,�
0 417
0 05
8 34
�
Logo, é significativo ao nível de 5%, concluindo-se que existe con-
cordância entre os dois cardiologistas para as classificações realizadas nos 
eletrocardiogramas.
Neste capítulo, o leitor foi apresentado a conceitos relacionados ao 
estudo de dispersão de frequência e coeficiente para análise de concor-
dância entre duas variáveis de ordem quantitativa e qualitativa. A partir 
disso, o usuário amplia seus conhecimentos buscando novos exemplos 
aplicados à sua área de atuação.
– 167 –
Estudo de Dispersão de Frequência e Análise da Concordância de Variáveis 
Quantitativas e Qualitativas
Atividades
1. Dados retrospectivos de casos de tumor testicular em cães exa-
minados no atendimento gratuito à comunidade pelo Hospital 
Veterinário da UFMG nos últimos dez anos (344 animais com 
problemas testiculares) revelaram, quando se consideravam 
algumas faixas etárias, o seguinte resultado:
Faixa etária Amostragem Animais com tumor
Até 3 anos 82 6
De 3 a 6 anos 63 9
De 6 a 9 anos 50 7
De 9 a 12 anos 70 23
De 12 a 15 anos 45 25
De 15 a 18 anos 34 24
Identifique a resposta medida nessa pesquisa e a classifique 
quanto à categoria e faça a análise do ensaio.
2. Para saber se a frequência de tumor está associada com a idade 
do animal, você deverá fazer uma hipótese nula. Qual é ela e 
porque temos que partir da mesma para analisarmos os dados?
3. Se não houvesse associação entre idade e frequência de tumor 
em cães, quantos animais entre 3 e 6 anos deveriam apresen-
tar aquela patogenia?
4. Um apicultor percebeu que toda vez que capturava um novo 
enxame e o instalava diretamente no núcleo de produção de sua 
granja, havia uma grande chance dessa nova colmeia não se conso-
lidar por motivos desconhecidos, mas que ele imaginava que fosse 
devido à competição acirrada com as demais colônias dos núcleos. 
Assim sendo, ele decidiu instalar em uma área isolada daquela 
primeira um núcleo que chamou de núcleo de colonização, onde 
apenas novos enxames capturados eram instalados, lá permane-
cendo até que estivessem plenamente, quando eram então transfe-
ridos para o núcleo de produção. Com este manejo ele alegou que 
conseguia muito mais consolidação de colmeias naquele núcleo. 
Bioestatística
– 168 –
De 45 enxames que passaram pelo núcleo de colonização e foram 
posteriormente transferidos para a produção, 8 não lograram se 
desenvolver plenamente. Entretanto, dos 55 novos enxames colo-
cados diretamente no núcleo de produção, 33 conseguiram se con-
solidar e entrar em fase produtiva. Pelos resultados obtidos. O que 
você recomendaria a um apicultor a procura de um meio mais 
efetivo de implantar uma colmeia produtiva?
5. Um estudante do curso de graduação em medicina veteriná-
ria, pretendendo montar um negócio alternativo para renda 
extra durante seu curso, montou um experimento para avaliar 
a fecundidade de três diferentes grupos de coloração de caná-
rios. O preço de mercado é mais alto para variantes de coloração 
recessiva de maior dificuldade em se obter a partir de cruzamen-
tos específicos. O objetivo do estudante é direcionar a criação 
para variedades mais prolíferas e de maior preço para venda. 
Os dados da tabela abaixo apresentam os diferentes resultados 
obtidos entre as diferentes colorações.
Distribuição de ovos fertilizados ou não entre diferentes 
colorações de plumagem em canários.
Coloração Mutante Ovos férteis Ovos inférteis Total Ovos férteis [%]
Branco (Recessivo – bb) 515 1287 1802 28,6
Amarelo Nevado 
(Dominante – Ab) 506 665 1171 43,2
Amarelo Intenso 
(Dominante – AA) 58 70 128 45,3
Vermelho Intenso 
(Dominante – VV) 205 93 298 68,8
Total 1284 2115 3399
Em caso de haver distinção entre as colorações quanto à prolifi-
cidade calcule se há diferença entre aves de coloração recessivas 
e aves de coloração dominantes.
6. Em um determinado experimento farmacológico, foram obser-
vados o consumo de oxigênio e a pressão do ventrículo esquerdo 
de um grupo de 7 cães (grupo controle).
– 169 –
Estudo de Dispersão de Frequência e Análise da Concordância de Variáveis 
Quantitativas e Qualitativas
Cão 1 2 3 4 5 6 7
Consumo de oxigênio (X) 78 92 116 90 106 78 99
Pressão ventricular (Y) 32 33 45 30 38 24 44
Logo, calcule determine os coeficientes de Spearman e Kendall.
7. Duzentos e dez (210) empregados de uma empresa foram ava-
liados de acordo com dois critérios distintos. O critério A refere-
-se a nota que foi dada ao empregado pelo seu supervisor ime-
diato. Maiores notas indicavam melhor desempenho. O critério 
B refere-se a nota que o empregado obteve num teste de aptidão 
profissional aplicado por um psicólogo. Maiores escores nesse 
teste indicavam maior aptidão do empregado para a função que 
estava desempenhando na empresa. As notas de ambos os cri-
térios foram categorizadas e cada empregado foi então classifi-
cado em uma de três categorias de desempenho: Bom, Adequado 
e Inadequado. Os resultados estão mostrados no Quadro 6.1. 
O objetivo é avaliar se existe concordância entre os resultados 
de classificação desses dois critérios de avaliação.
Quadro 6.1 – Classificação dos empregados de acordo com os dois critérios de avaliação
CRITÉRIO
Critério B
Total
Bom Adequado Inadequado
Critério A
Bom 45 36 15 96
Adequado 18 37 14 69
Inadequado 6 13 26 45
Total 69 86 55 210
Usando o coeficiente Kappa, avalie se há ou não concordância 
significativa entre os resultados obtidos pelos dois critérios. 
Escreva claramente suas hipóteses nula e alternativa e calcule a 
probabilidade de significância do teste em ambiente R.
8. Considerando-se que os empregados dessa empresa são rotinei-
ramente avaliados pelo critério A, de acordo com os resultados 
obtidos por você em (a) e (b), você indicaria a troca do critério 
Bioestatística
– 170 –
A pelo critério B para ser usado como um recurso rotineiro 
de avaliação dos empregados dessa empresa? Justifique clara-
mente sua resposta.
9. Dez estudantes recém-formados em bioestatística prestaram 
um exame geral na área em que se graduaram. O procedi-
mento adotado de atribuição de nota final ao exame foi o 
seguinte: Todos os exames foram corrigidos por 2 profes-
sores, de forma independente, da área de Estatística. Cada 
professor fez a classificação dos estudantes que prestaram 
o exame, sendo que na classificação 1 representa o melhor 
escore (ou o melhor resultado) e o rank 10 o pior resultado. 
As classificações obtidas estão dadas a seguir:
Classificação
Estudante
1 2 3 4 5 6 7 8 9 10
Professor 1 5 3 8 9 2 7 6 1 4 10
Professor 2 7 4 6 2 3 9 8 5 1 10
Há alguma evidência de que há concordância de julgamento 
entre os dois professores?
10. Oito indivíduos fizeram duas provas: (1) língua portuguesa – 
compreensão de textos, e, (2) habilidade matemática. As notas 
obtidas pelos estudantes estão na tabela a seguir.Verifique se 
a há concordância entre os resultados dos testes. Verifique se 
um estudante que tem uma nota boa em compreensão de textos 
teria também uma boa nota em habilidade matemática.
Provas
Estudante
1 2 3 4 5 6 7 8
Habilidade matemática 90 60 45 48 58 72 25 85
Compreensão de textos 60 91 85 81 90 76 93 80
7
Análise de variância
7.1 Princípios de experimentação
O planejamento de experimentos é uma área da estatística 
muito empregada por pesquisadores, pois por meio da sua exe-
cução as variáveis de maior influência no desempenho de um 
determinado cenário ou processo podem ser conhecidas/testa-
das. Neste caso, a análise de variância (“Analysis of Variance 
– ANOVA”) deve ser empregada/construída de acordo com os 
princípios básicos de planejamento de experimentos.
Bioestatística
– 172 –
Neste campo, as variáveis explicativas qualitativas são denominadas 
“fatores”, e suas categorias “níveis”, “tratamentos” ou “grupos”. Caso a 
variável explicativa seja de ordem quantitativa, possuindo interferência 
direta sobre a variável resposta, é denominada “covariável”. Os parâme-
tros são frequentemente chamados de efeitos; logo, existem modelos de 
efeitos fixos, aleatórios e mistos. Conforme o tipo de desenho experi-
mental, propõe-se um modelo composto por parâmetros fixos, aleatórios 
e mistos, por meio da análise de variância. A classificação dos efeitos é 
determinada pelos níveis dos fatores. Caso os níveis do fator apresentem-
-se como fixos (Ex.: fator tratamento – níveis controle e tratamento; perí-
odo de testagem – pré e pós-tratamento), o efeito denomina-se “fixo”, uma 
vez que as conclusões obtidas serão aplicadas somente aos níveis detalha-
dos; logo, temos uma análise de modelos fixos. Por outro lado, podería-
mos escolher “n” níveis aleatoriamente e de forma independente de uma 
população “N”; logo, as conclusões obtidas podem ser estendidas para 
toda a população, e temos que o efeito é aleatório (Ex.: Fator – Laborató-
rio, Níveis – 10 laboratórios). Neste capítulo, nos concentraremos apenas 
na análise de modelos fixos.
Dentre os princípios básicos do processo experimental, destacam-se: 
(1) replicação de unidades experimentais; (2) aleatoriedade de unidades 
experimentais; (3) blocagem de unidades experimentais; (4) uniformidade 
das unidades experimentais; (5) uniformidade na aplicação de tratamen-
tos; e (6) uniformidade do meio. A replicação em experimentação possui 
importância para a estimativa do erro experimental, fundamental à veri-
ficação de se as diferenças observadas são de fato significativas. Além 
disso, este comportamento permite a obtenção de uma estimativa mais 
precisa para o fator experimental estudado. Adicionalmente, os métodos 
empregados requerem que os erros experimentais constituam-se em vari-
áveis aleatórias distribuídas independentemente, bem como a condução 
experimental realizada por meio de réplicas, obtidas aleatoriamente para 
garantir a distribuição igual dos fatores que interferem sobre as análises. 
Para aumentar a precisão dos experimentos, os pesquisadores costumam 
planejar os experimentos em blocos, um recurso muito importante. Em 
alguns cenários, pode-se controlar e avaliar um fator conhecido que inter-
fere sobre a resposta estudada, mas que não se tem interesse em estudar. 
– 173 –
Análise de variância
Adicionalmente, previamente à aplicação de tratamentos, tem-se a neces-
sidade de uniformidade ou homogeneidade das características das unida-
des experimentais (seres humanos ou animais) na composição amostral, 
a garantia de exposição igual aos tratamentos e a uniformidade de condi-
ções do meio durante a aplicação dos tratamentos.
No planejamento experimental é fundamental a busca pela confiabi-
lidade dos resultados. Logo, antes de conduzir os experimentos, os obje-
tivos e os critérios devem estar claramente definidos. Nesse sentido, é 
necessário definir:
 2 qual a variável resposta a ser estudada;
 2 quais variáveis envolvidas e que interferem no experimento;
 2 quais os níveis das variáveis selecionadas para o estudo;
 2 qual o tamanho amostral;
 2 se há vantagem em realizar o procedimento de blocagem;
 2 qual método de análise dos resultados será empregado.
Anteriormente, foi relatado que a variância é fundamental para alcan-
çarmos os objetivos da maioria das investigações científicas (testagem de 
hipóteses). Os experimentos perfazem fatores variados que nem sempre 
são controlados em sua plenitude, além de situações experimentais testa-
das, oscilações de idade da amostra, sexo, temporalidade, ou ainda instala-
ções sendo incorporadas no cálculo da variância. A seguir, são mostrados 
alguns exemplos de aplicação da análise de variância.
7.2 Delineamento inteiramente ao 
acaso – análise de variância
7.2.1 Experimentos com um único fator
A análise de variância para fator único é a técnica utilizada quando 
a única variável explicativa é categórica, para quaisquer quantidades de 
níveis (Ex.: Tratamento A, B, C e D). Para um único fator, como visto 
Bioestatística
– 174 –
anteriormente, o emprego do teste “t” de Student forneceria a mesma res-
posta que a observada por meio da análise de variância. O modelo da 
análise de variância é mostrado a seguir:
y
i a níveis
j n repetiçõesij i ij
= + +
= ( )
= ( )



µ τ ε ��
, ,�.. �
, ,.. �
1 2
1 2



Sendo que:
 2 µ – parâmetro comum para todos os níveis chamados de 
média geral;
 2 t
i – parâmetro original do i-ésimo nível do fator (efeito de cada 
nível), chamado de efeito do i-ésimo nível;
 2 e
ij – erro aleatório, que incorpora todas as fontes de variabili-
dade incluindo o erro de medição, variabilidades decorrentes a 
fatores não controlados e diferenças entre unidades experimen-
tais em geral.
Logo, as hipóteses são:
 2 H0: t t t
1 2
0= =…= =
�
�
a (não há diferença entre tratamentos)
 2 H0: ti
¹ 0 (há diferença para pelo menos um dos tratamentos)
Entretanto, para a condução da análise de variância, as suposições 
de presença de uma distribuição normal de probabilidade, normalidade e 
homoscedasticidade devem ser testadas e verificadas. Em linhas gerais, 
a homoscedasticidade atesta que a oscilação da variável resposta não 
depende dos tratamentos impostos, em que a hipótese nula sugere que as 
variâncias dos mesmos tratamentos são iguais, como o teste de Bartlett. 
Por regra, a não verificação destas suposições teóricas não permite a con-
dução da análise de variância. Os erros são independentemente distribu-
ídos com média zero e variância s2, o que implica que cada observação 
deve ser mutuamente independente e y N
ij I
~ ,µ τ σ+( )2 .
Em síntese, a análise de variância estuda como os graus de liberdade 
e a soma dos quadrados totais de todos os resultados em um determi-
nado estudo estão distribuídos entre todas as fontes de variação existentes, 
– 175 –
Análise de variância
sobre a resposta analisada. Em geral, os experimentos testam hipóteses 
sobre os valores médios de uma determinada resposta nos tratamentos. 
Para este caso, a variabilidade total é particionada em fonte de variação de 
tratamentos e termo do erro, conforme esquematizado a seguir:
��������� ������������ �SQ SQ SQ Equação
TOTAL TRATAMENTOS ERRO
= − 1
Após o cômputo da soma dos quadrados para cada fonte de variação, 
seguida da obtenção da relação entre a respectivas somas de quadrados e 
o número de graus de liberdade da fonte de variação particionada, subse-
quentemente, a estatística “F” é obtida por meio da divisão entre a variân-
cia de tratamentos e a variância do erro (razão de variâncias, fórmula 7). A 
partir do escore “F”, é determinado se há ou não diferença entre tratamentos 
por meio dos valores da distribuição de valores de “F” segundo os graus de 
liberdade. A seguir, a tabela de análise de variância é mostrada para apenas 
um fator (tabela 7.1, onde “k” é o número de tratamentos do fator; “n” o 
tamanho amostral total; “ri” o número de réplicas do respectivo nível “i”; 
“Ti” réplicas do nível “i”; e “xi” cadaelemento amostral “i”).
Tabela 7.1 – Tabela de análise de variância
Fonte de 
variação GL Soma dos quadrados Variância Estatística 
“F”
Total n-1 SQ x
x
nT i
i= ∑ −
∑( )2
2
-
F
MQT
MQE
=Tratamentos k-1 SQ
T
r
x
nTRAT
I
i
i=
∑
−
∑( )2
2
MQT
SQ Trat
k
=
( )
−1
Erro n-k SQ SQ SQ
ERRO T TRAT
= − MQE
SQ Erro
N k
=
( )
−
Fonte: elaborada pelo autor.
Razão de variâncias:
������������� �������������� �F
MQT
MQE
Equação= 2
Hipóteses para a estatística “F”:
Bioestatística
– 176 –
 2 H0: Média1= Média 2= Média3= Médiak;
 2 H1: Há pelo menos uma das médias diferente entre si.
Para conduzir as análises no software “R”, deve-se usar o comando 
“aov()”, como realizado na figura 7.1. Note que não é apresentado o soma-
tório dos quadrados total. Ao recuperar o exemplo da variável resposta 
“idade” e explicativa de “tipo de infertilidade”, a partir dos comandos a 
seguir, consegue-se toda a tabela de análise de variância calculada, inclu-
sive o p-valor do teste e sua respectiva estatística de teste. Como o p-valor 
é igual a 0,006, há evidências para rejeitar H0; logo, existe pelo menos 
uma diferença entre os níveis do fator (tipo de infertilidade).
Para identificar quais são os níveis que se diferem, sucede-se algum 
teste que permita comparação par a par. Existem diversos testes de com-
parações múltiplas, mas será utilizado nesse exemplo o teste de Tukey. 
O teste de Tukey é o mais utilizado entre os diversos testes que estão dis-
poníveis. O comando para executá-lo é mostrado também a seguir.
Figura 7.1 – Análise de variância e teste de comparações múltiplas de médias 
(ambiente “R”)
Fonte: elaborada pelo autor.
Com as comparações múltiplas, pode-se notar que a idade das pacien-
tes do tipo I de infertilidade é significativamente diferente dos tipos II, 
sem diferenças entre os tipos de infertilidade, sendo as pacientes que apre-
sentaram o tipo I de infertilidade em média 3,57 anos mais jovens que as 
pacientes que apresentaram o tipo II de infertilidade.
– 177 –
Análise de variância
Exemplo 1. Com o objetivo de estudar o efeito de seis concentrações 
de um determinado componente semelhante ao algodão sobre a resistência à 
tensão de um tecido de natureza sintética, foram coletadas seis réplicas para 
cada uma das seis concentrações do componente semelhante ao algodão. 
Os dados são apresentados a seguir, na tabela 7.2. Já a figura 7.2 mostra a 
resistência para cada uma das concentrações, onde visualmente é verificada 
uma maior resistência para a concentração do componente em 30%.
Figura 7.2 – Resistência à tensão para as respectivas concentrações de um componente 
semelhante ao algodão no tecido sintético
Fonte: elaborada pelo autor.
Previamente à condução das análises para testar a hipótese da exis-
tência de diferenças entre níveis de concentração do componente para a 
resistência à tensão, é necessário a verificação das suposições de homoge-
neidade de variâncias e normalidade (figura 7.3).
Tabela 7.2 – Resistência à tensão para as concentrações de um componente semelhante 
ao algodão
Concentração [%]
Réplicas
1 2 3 4 5 6
15 7 7 15 11 9 12
Bioestatística
– 178 –
Concentração [%]
Réplicas
1 2 3 4 5 6
20 12 17 12 18 18 17
25 14 18 18 19 19 18
30 19 25 22 19 23 25
35 7 10 11 15 11 15
40 8 11 11 12 11 14
Fonte: elaborada pelo autor.
Figura 7.3 – Testagem das suposições de normalidade e homoscedasticidade
Fonte: elaborada pelo autor.
Para testar a normalidade e homogeneidade, foram empregados res-
pectivamente os testes de Shapiro-Wilk e Bartlett. Após os testes, veri-
ficou-se que a variável resposta possuía uma distribuição normal (não 
rejeição da hipótese nula) e homogeneidade entre as variâncias entre 
tratamentos (não rejeição da hipótese nula). A figura 7.3 mostra os resul-
tados obtidos. Após a verificação dos pressupostos, sucede-se a análise 
de variância (Figura 7.4).
– 179 –
Análise de variância
Figura 7.4 – Análise de variância: delineamento inteiramente ao acaso (fator único)
Fonte: elaborada pelo autor.
Os resultados obtidos na análise de variância mostraram a existên-
cia de diferenças entre tratamentos, evidenciados pela estatística “F” 
(F5,30=18,59; p<0,001). Logo, manifesta-se a necessidade de testes de 
comparações múltiplas para evidenciar entre quais concentrações de 
algodão ocorrem diferenças. Após o teste de comparações múltiplas, 
verificou-se uma menor resistência para uma concentração de 15% de 
algodão em relação às concentrações de 20%, 25% e 30% de algodão 
(p<0,05), da concentração de 20% de algodão em relação à concentra-
ção de 30% de algodão (p<0,05), da concentração de 25% em relação 
às concentrações de 35% e 40% (p<0,05) e da concentração de 30% em 
relação às concentrações de 35% e 40% (p<0,05).
Figura 7.5 – Testes para comparações múltiplas de Tukey
Fonte: elaborada pelo autor.
Bioestatística
– 180 –
7.2.2 Delineamento de blocos ao acaso
Para alguns cenários experimentais, a variabilidade proveniente de 
fatores não conhecidos ou não controláveis pode afetar substancialmente 
os resultados obtidos na execução dos experimentos. A casualização ou 
aleatorização é uma técnica experimental que protege os resultados desse 
inconveniente. Em muitos cenários experimentais, é possível diminuir a 
variabilidade explicada pelo erro. Caso a fonte de variação seja conhecida 
e controlável, pode-se utilizar blocagem. Com este recurso, a blocagem 
permite distribuir a fonte de variação a ser controlada igualmente entre os 
tratamentos, diminuindo assim a variância do erro.
Para exemplificar a técnica de blocagem, consideremos o caso em que 
temos como objetivo medir a atividade eletromiográfica que é influenciada 
por características individuais (percentual de gordura corporal, arquitetura 
muscular, nível de condicionamento físico, espessura da pele, estado de 
hidratação etc.). No estudo da atividade muscular em humanos participan-
tes de diferentes protocolos de treinamento, a blocagem dos indivíduos 
permitirá distribuir igualmente as fontes de variação influentes sobre a 
resposta medida. Se temos 20 indivíduos submetidos a diferentes regimes 
de treinamento (A, B e C) em ordem aleatória, neste caso conduziremos 
um exemplo de experimento com blocos completamente aleatorizados, 
em que o indivíduo é o bloco, onde cada unidade experimental passa por 
todas as situações experimentais (tratamentos), controlando possíveis 
interferências da amostra nos resultados. A seguir, apresenta-se modelo 
para a análise de variância em blocos completamente aleatorizados:
y
i a níveis
j b blocosij i J ij
= + + +
= ( )
= ( )


µ τ β ε ��
, ,�.. �
, ,.. �
1 2
1 2



� �Equação3
Sendo que:
 2 µ – parâmetro comum para todos os níveis chamados de média geral;
 2 t
i – parâmetro original do i-ésimo nível do fator (efeito de cada 
nível), chamado de efeito do i-ésimo nível;
 2 b
J – efeito do j-ésimo bloco;
– 181 –
Análise de variância
 2 e
ij – erro aleatório, que incorpora todas as fontes de variabi-
lidade incluindo o erro de medição, variabilidades decorrentes 
de fatores não controlados e diferenças entre unidades bj
¹ 0
experimentais em geral.
Hipóteses:
Efeitos dos níveis do fator:
 2 H0: t t t
1 2
0= =…= =
�
�
a (não há diferença entre tratamentos);
 2 H1: ti
¹ 0 (há diferença para pelo menos um dos tratamentos).
Efeitos dos blocos (os blocos devem ser testados, pois não é neces-
sário continuar com a blocagem nos próximos experimentos se não forem 
significativos):
 2 H0: bj
= 0 (ausência de diferença entre blocos);
 2 H1: (há diferença para pelo menos um dos blocos).
Logo, supõe-se que os erros assumem o pressuposto de normalidade; 
os erros são independentemente distribuídos com média zero e variân-
cia (s2 ) constante. A análise de variância, por definição, é o estudo da 
variação, derivada da partição da variabilidade total em componentes de 
variabilidade, e pode ser medida pela soma dos quadrados totais. A parti-
ção da variabilidade total (SQT ) é a soma da variabilidadedentro de cada 
nível do fator (SQ
Trat
) com a variabilidade contida nos blocos (SQ
bloco
) e a 
variabilidade no erro aleatório (SQ
erro
):
��������� ��������SQ SQ SQ SQ Equa
TOTAL TRATAMENTOS BLOCOS ERRO
= + + çção�4
Tabela 7.3 – Tabela de análise de variância em blocos casualizados
Fonte de 
variação GL Soma dos quadrados Variância Estatística 
“F”
Total n-1 SQ x
x
nT i
i= ∑ −
∑( )2
2
- -
Bioestatística
– 182 –
Fonte de 
variação GL Soma dos quadrados Variância Estatística 
“F”
Tratamentos k-1 SQ
T
r
x
nTrat
I
i
i=
∑
−
∑( )2
2
MQT
SQ Trat
k
=
( )
−1
MQT
MQE
Blocos b-1 SQ a y y
Bloco
i
b
j
= −( )
=
∑
1
2
MQB
SQ Bloco
b
=
( )
−1
MQB
MQE
Erro n-k SQ SQ SQ
ERRO T TRAT
= − MQE
SQ Erro
N k
=
( )
−
-
Fonte: elaborada pelo autor.
 2 A hipótese nula (H0) é rejeitada para tratamentos se F0 > Fa-1, (a-1) (b-1);
 2 A hipótese nula (H0) é rejeitada para os blocos se F0 > Fb-1, (a-1) (b-1).
Após a devida a apresentação, é conduzido um exemplo a seguir em 
ambiente “R” por meio de uma análise de variância em blocos ao acaso. 
Neste exemplo, queremos estudar o que ocorre durante o emprego de 
um regime de treinamento com a utilização de vibração. Considerando 
que o indivíduo afeta as respostas de atividade eletromiográfica e de 
força muscular, como decisão experimental, um grupo de pesquisadores 
decidiu estabelecer o indivíduo como “bloco”, para melhorar a precisão 
experimental. Neste estudo, foram recrutados 15 indivíduos que reali-
zaram três regimes de treinamento em dias diferentes: (A) realização 
de ações musculares sem vibração – Controle; (B) condução de ações 
musculares com vibração com intensidade I (3 milímetros e 20 Hz) – 
SVA e (C) condução de ações musculares com vibração de intensidade II 
 (5 milímetros e 20Hz). A ordem de aplicação dos tratamentos foi aleato-
rizada e foram quantificadas a taxa de produção de força (TPF), o valor 
máximo de força alcançado (Fpico), a taxa de elevação da atividade ele-
tromiográfica (TEMG) e o pico de atividade eletromiográfica (EMG-
pico) para estudar os efeitos dos regimes de treinamento. Os dados cole-
tados são apresentados a seguir:
– 183 –
Análise de variância
Tabela 7.4 – Dados de atividade eletromiográfica e força muscular obtidos durante 
os tratamentos
Tratamento Bloco EMGpico [%) TEMG [%/s] Fpico [N] TPF [N/s]
Controle Ind01 74,97 183,85 170,93 412,67
Controle Ind02 90,00 194,44 205,14 798,70
Controle Ind03 80,72 114,46 176,09 596,55
Controle Ind04 99,97 161,75 144,20 569,80
Controle Ind05 114,46 172,71 201,22 720,52
Controle Ind06 79,19 165,48 165,30 496,67
Controle Ind07 77,28 142,92 190,50 392,51
Controle Ind08 84,77 246,37 142,19 636,96
Controle Ind09 140,82 385,20 159,26 638,00
Controle Ind10 127,34 150,87 176,64 700,60
Controle Ind11 83,89 235,88 200,79 820,74
Controle Ind12 98,22 153,80 178,20 695,23
Controle Ind13 89,34 261,70 185,73 708,66
Controle Ind14 100,76 365,67 176,39 819,16
Controle Ind15 92,58 171,86 174,94 524,30
SVA Ind01 137,38 473,25 203,50 1217,29
SVA Ind02 78,15 275,42 211,16 1026,12
SVA Ind03 85,47 224,61 177,54 596,42
SVA Ind04 90,55 223,38 136,45 549,33
SVA Ind05 87,97 233,88 204,43 732,68
SVA Ind06 106,75 781,08 184,30 1342,63
SVA Ind07 77,29 126,15 165,64 400,48
SVA Ind08 114,22 344,29 169,09 750,01
SVA Ind09 108,45 301,77 179,74 720,05
Bioestatística
– 184 –
Tratamento Bloco EMGpico [%) TEMG [%/s] Fpico [N] TPF [N/s]
SVA Ind10 100,93 128,45 181,52 709,87
SVA Ind11 71,03 255,80 221,39 1088,37
SVA Ind12 68,49 165,28 183,37 773,27
SVA Ind13 160,40 734,20 198,92 988,72
SVA Ind14 107,53 683,69 203,89 1123,98
SVA Ind15 69,21 272,39 179,33 743,88
SVB Ind01 139,48 576,07 214,54 1242,50
SVB Ind02 81,73 198,69 216,84 746,43
SVB Ind03 70,89 161,46 193,72 778,27
SVB Ind04 143,02 463,41 143,58 703,43
SVB Ind05 80,17 467,06 228,65 727,24
SVB Ind06 92,20 344,17 185,15 1108,82
SVB Ind07 86,85 215,34 195,17 561,34
SVB Ind08 110,83 395,37 161,76 793,20
SVB Ind09 69,83 160,32 160,96 478,62
SVB Ind10 108,38 243,26 193,89 764,99
SVB Ind11 111,43 262,67 200,34 841,93
SVB Ind12 127,01 124,05 191,21 802,75
SVB Ind13 113,42 490,77 169,87 660,06
SVB Ind14 100,29 455,06 177,09 1608,11
SVB Ind15 116,04 473,26 173,92 876,64
Fonte: elaborada pelo autor.
Aparentemente, conforme os gráficos boxplot, verificam-se valores 
maiores para os tratamentos com vibrações mecânicas, para as variá-
veis estudadas. Para construirmos o exemplo em ambiente “R”, os dados 
foram colocados em formato de quadro de dados (dataframe) e importa-
dos; logo, temos que:
– 185 –
Análise de variância
Figura 7.6 – Importação e exploração dos dados de atividade eletromiográfica e força
Fonte: elaborada pelo autor.
Bioestatística
– 186 –
Para todas as variáveis estudadas, foram verificados os pressupostos de 
normalidade e homogeneidade de variâncias (figura 7.7). Entretanto, deve 
ser ressaltado que um recurso foi empregado para respeitar tais pressupos-
tos. Muitas vezes, a variável resposta estudada viola estes pressupostos em 
um primeiro momento, porém, com a aplicação de logaritmo (“log()”), a 
escala da variável estudada é alterada (diminuída), possibilitando a verifi-
cação dos pressupostos de normalidade e homoscedasticidade (não viola-se 
hipótese nula) e a respectiva utilização da técnica de análise de variância.
Figura 7.7 – Testagem das suposições de normalidade e homoscedasticidade para as 
variáveis estudadas
– 187 –
Análise de variância
Fonte: elaborada pelo autor.
Figura 7.8 – Análise de variância: delineamento em blocos ao acaso (fator único – 
tratamentos) para as variáveis estudadas
Fonte: elaborada pelo autor.
Após a aplicação da análise de variância, verificou-se efeito de tra-
tamento para TPF (F2,28=6,647, p=0,004), Fpico (F2,28=4,259, p=0,024) 
Bioestatística
– 188 –
e TEMG (F2,28=6,732, p=0,004). Porém, não houve efeito de tratamento 
para EMGpico (F2,28=0,466, p=0,633). Logo, manifesta-se a necessidade 
da realização de testes de comparações múltiplas para verificação de onde 
encontram-se tais efeitos do referido regime de treinamento.
Figura 7.9 – Testes para comparações múltiplas de Tukey para as variáveis estudadas
Fonte: elaborada pelo autor.
Após a condução dos testes de comparações múltiplas, verificou-se que 
os protocolos de treinamento com adição de vibrações de intensidade I (SVA) 
e II (SVB) possuem diferenças significativas para com o tratamento controle 
(sem vibrações), para as variáveis TPF (SVA vs. Controle, p=0,01; SVB vs. 
Controle, p=0,01), Fpico (SVA vs. Controle, p=0,05; SVB vs. Controle, p=0,03) 
e TEMG (SVA vs. Controle, p=0,011; SVB vs. Controle, p=0,008). Nesse sen-
tido, é possível concluir que a adição de vibrações mecânicas ao treinamento de 
força aumentou o desempenho físico significativamente durante as sessões, de 
forma independente aos parâmetros de vibração adotados, ou seja, não foram 
verificadas alterações entre regimes de treinamento com vibrações.
7.2.3 Experimentos fatoriais
Os experimentos fatoriais envolvem pelo menos dois fatores: o fator 
A, com “i” níveis (i=1, 2, ..., a), e o fator B, com “j” níveis (j=1, 2, ..., b) 
– 189 –
Análise de variância
para k repetições (k=1, 2, ..., n). Neste tipo de experimento, pode-se estu-
dar o efeito da interação entre os fatores sobre a variável resposta, em que 
a ordem das observações é aleatória. Logo, temos o modelo para este tipo 
de experimento delineado inteiramente ao acaso:
���������� ������������� �y a Equação
ij i J ij ij
= + + +( ) +µ τ τα ε 5
Sendo que:
 2 µ – parâmetro comum para todos os níveis chamados de média geral;
 2 t
i – parâmetro original do i-ésimo nível do fator A, denominado 
efeito do i-ésimo nível A;
 2 a
J – parâmetro original do j-ésimo nível do fator B, denominado 
efeito do i-ésimo nível B;
 2 τα( )
ij – constitui-se no efeito da interação entre os fatores A e B.
 2 e
ij – erro aleatório, que incorpora todas as fontes de variabili-
dade, incluindo o erro de medição, variabilidadesdecorrentes de 
fatores não controlados.
Hipóteses:
Efeitos dos níveis do fator A:
 2 H0: t t t
1 2
0= =…= =
�
�
a (não há diferença para pelo menos um 
nível do fator A);
 2 H1: ti
¹ 0 (há diferença para pelo menos um nível do fator A).
Efeitos dos níveis do fator B:
 2 H0: a a a
J1 2
0= =…= =� (não há diferença para pelo menos um 
nível do fator B);
 2 H1: aJ ¹ 0 (há diferença para pelo menos um nível do fator B).
Testa-se o efeito da interação entre os fatores A e B:
 2 H0: τα( ) =
ij
� 0 (não há interação entre os dois fatores estudados);
Bioestatística
– 190 –
 2 H1: τα( ) ≠
ij
0 (há interação entre os fatores A e fator B).
Novamente, supõe-se que os erros assumem os pressupostos: (1) 
normalidade, (2) os erros são independentemente distribuídos com média 
zero e variância constante, e (3) as observações são independentes e nor-
malmente distribuídas. Conforme destacado, a análise de variância deriva 
da partição da variabilidade total em componentes de variabilidade e pode 
ser medida pela soma dos quadrados totais (SQ
T
). Logo, temos na decom-
posição da variabilidade total em: variabilidade do fator A (SQ
A
), variabi-
lidade do fator B (SQ
B
), variabilidade da interação entre os fatores (SQ
AB
) 
e variabilidade no erro aleatório (SQ
ERRO
), conforme sintetizado a seguir:
��������� �������� �SQ SQ SQ SQ SQ Equação
TOTAL A B AB ERRO
= + + + 6
Assim, desdobrando os cálculos, tem-se a tabela 7.5 a seguir (“k” – o 
número de tratamentos; “n” o tamanho amostral total; “ri” número de repe-
tições do nível “i”; “yi” repetições do nível “i”; e “yi” cada elemento “i” 
amostral), para experimentos de interação entre fatores.
Tabela 7.5 – Tabela de análise de variância com interação de fatores experimentais
Fonte de 
variação
Graus de 
liberdade Soma dos quadrados Variância “F”
Total n-1 SQ y y
T
i
a
j
n
ijk
= −( )
= =
…∑∑
1 1
2
- -
Fator A a-1 SQ bn y y
A
i
a
i
= −( )
=
… …∑
1
2 SQ
a
A
-1
MQ
MQE
A
Fator B b-1 SQ an y y
B
i
b
i
= −( )
=
… …∑
1
2 SQ
b
B
-1
MQ
MQE
B
Interação (a-1)(b-1) SQ y y y y
AB
i
a
j
n
ij I j
= − − −( )
= =
∑∑
1 1
2
.. . . ...
SQ
a b
AB
−( ) −( )1 1
MQ
MQE
AB
Erro abn-1
SQ
ERRO
=
SQ SQ SQ SQ
T B B AB
- - -
SQ Erro
ab n
( )
−( )1 -
Fonte: elaborada pelo autor.
– 191 –
Análise de variância
Após a devida apresentação conceitual, um exemplo no software R é 
conduzido a seguir. Neste exemplo, temos que um engenheiro está proje-
tando baterias para utilizar em dispositivos que serão expostos a tempera-
turas extremas. O profissional possui três tipos diferentes de materiais para 
construção das baterias para alimentação dos dispositivos. O problema prin-
cipal do engenheiro é descobrir o efeito do tipo de material e da temperatura 
sobre o estado de vida útil da bateria, com a finalidade de fundamentar a 
tomada de decisão sobre qual a melhor maneira para projetar as baterias. 
Os dados obtidos são reportados a seguir, sendo organizados em formato de 
“dataframe” em Microsoft Excel® e importados para o software R.
Figura 7.10 – Importação dos dados de durabilidade de baterias
Fonte: elaborada pelo autor.
Bioestatística
– 192 –
A partir dos dados obtidos, são construídos gráficos boxplot entre 
a variável resposta de durabilidade das baterias e o tipo e a temperatura. 
É possível visualmente observar que a bateria do tipo 3 à temperatura 
de 15 graus Fahrenheit mostra maior durabilidade em média. Por outro 
lado, observa-se que as baterias do tipo 1 a uma temperatura de 125 graus 
Fahrenheit fornecem menor durabilidade. É possível observar ainda uma 
grande variabilidade no desempenho das baterias.
Figura 7.11 – Exploração dos dados de durabilidade de baterias
Fonte: elaborada pelo autor.
– 193 –
Análise de variância
Em seguida, após a testagem das hipóteses de normalidade e homosce-
dasticidade para a durabilidade de vida útil das baterias, verificou-se que a 
variável resposta respeita tais pressupostos, conforme é verificado a seguir, 
possibilitando o uso da análise de variância para os fatores estudados.
Figura 7.12 – Testagem das suposições de normalidade e homoscedasticidade
Fonte: elaborada pelo autor.
Após suceder a análise de variância para um delineamento de interação 
entre os fatores experimentais, observa-se um efeito significativo sobre a 
variável resposta para fatores de temperatura e tipo de baterias (p < 0.001), 
bem como uma interação significativa entre tais fatores (p = 0,014). Logo, há 
a necessidade de aplicação de testes de comparações múltiplas para eviden-
ciar o local onde encontram-se tais diferenças, por meio do teste de Tukey.
Figura 7.13 – Análise de variância: delineamento de interação de fatores experimentais
Fonte: elaborada pelo autor.
Nota-se que após a aplicação do teste de Tukey, diferenças signi-
ficativas na durabilidade média da bateria entre os tipos de baterias de 
1 e 3 foram encontradas (p=0,001). A durabilidade média da bateria 
difere significativamente em todas as comparações entre temperaturas. 
Pode-se ainda verificar as comparações múltiplas para as interações, 
ou seja, fixando os tipos de materiais e comparando as temperaturas. A 
figura 7.14, fornece tais os resultados obtidos nas comparações.
Bioestatística
– 194 –
Figura 7.14 – Testes para comparações múltiplas de Tukey
Fonte: elaborada pelo autor.
– 195 –
Análise de variância
Neste mesmo exemplo, seria possível também a condução de um 
desenho experimental fatorial com o recurso de blocagem – seria como 
incluir um terceiro fator com o interesse de diminuir a variabilidade expli-
cada pelo erro ou a precisão experimental. Caso se deseje realizar um 
experimento fatorial com muitos fatores, é aconselhável que se reduza 
todos os fatores a dois níveis, para trabalhar de acordo com a metodologia 
do experimento fatorial (2k).
Existem ainda outras configurações experimentais para o uso da aná-
lise de variância. Nós sugerimos ao leitor que sinta-se livre e encorajado 
para explorar outros tipos de planejamentos experimentais, suas vanta-
gens e desvantagens de utilização.
Atividades
1. A análise de variância é amplamente empregada em diversas 
áreas para estudo da variação de respostas obtidas experimental-
mente. Há vários tipos de análises para estudo da variação. Quais 
as suposições necessárias para realização da análise de variância?
a) Distribuição normal de dados e variabilidade.
b) Homogeneidade de variâncias e variabilidade.
c) Amostra representativa e distribuição normal de dados.
d) Normalidade e homoscedasticidade.
e) Nenhuma das anteriores.
2. Consideremos a aplicação de quatro dietas diferentes com a fina-
lidade de estudar seu efeito sobre a resposta de colesterol sérico 
HDL, em que os indivíduos foram alocados aleatoriamente em 
cada um dos grupos. Neste sentido, questiona-se ao leitor as fon-
tes ou partições da variância na condução das análises.
a) Tratamento e erro.
b) Total, tratamento e erro.
Bioestatística
– 196 –
c) Total = tratamento + erro.
d) Tratamentos + erro.
e) Nenhuma das anteriores.
3. Considere a situação anterior de estudo do HDL frente às 
dietas implementadas. Tendo em vista a tabela de análise de 
variância, quais são os passos para analisar se há ou não dife-
rença entre os tratamentos?
4. A análise de variância é conduzida em softwares como o “R”. 
Na execução dos testes, quais termos devem ser usados?
a) anova(x~y), “x”, respostas; “y”, tratamentos.
b) analisisv(x~y), “x”, respostas; “y”, tratamentos.
c) aov(x~y), “x”, respostas; “y”, tratamentos.
d) anava(x~y) , “x”, respostas; “y”, tratamentos.
e) aov(x~y, data=dados), “x”, respostas; “y”, tratamentos.
5. Na condução da análise de variância em bloco e com interação 
de fatores experimentais, frequentemente são utilizados softwa-
res como o software “R”. Para realizar estas análises, quais são 
os comandos empregados?
a) anova(x~y + bloco), “x”, respostas; “y”, tratamentos; 
anova(x~y*z), “x”, respostas; “y” e “z”, tratamentos.
b) analisisv(x~y+ bloco), “x”, respostas; “y”, tratamentos; 
analisisv(x~y*z), “x”, respostas; “y” e “z”, tratamentos.
c) aov(x~y + bloco), “x”, respostas; “y”, tratamentos; aov(x~y*z), 
“x”, respostas; “y” e “z”, tratamentos.
d) anava(x~y + bloco, data=dados), “x”, respostas; “y”, tratamen-
tos; aov(x~y*z, data=dados), “x”, respostas; “y” e “z”, tratamentos.
e) aov(x~y + bloco, data=dados), “x”, respostas; “y”, tratamentos; 
aov(x~y*z, data=dados), “x”, respostas; “y” e “z”, tratamentos.
6. Um determinado pesquisador conduziu um delineamento intei-
ramente casualizado desbalanceado, que avaliou quatro grupos: 
– 197 –
Análise de variância
A (5 repetições), B (7 repetições), C (8 repetições) e D (6 repeti-
ções). Qual método estatístico seria adequado para testagem da 
hipótese de diferença de médias?
7. Tendo vista os princípios básicos de experimentação, o que 
deve ser respeitado para conduzir um experimento inteira-
mente casualizado?
8. Após o estudo deste capítulo, descreva quais as vantagens do 
procedimento de blocagem no planejamento experimental.
9. A seguir estão registradas as produções médias diárias de 
cabras leiteiras (litros/dia), segundo a estação do ano em que o 
parto ocorreu e a ordem de parto. A diferença mínima signifi-
cativa para compará-las entre si foi de 4 litros/dia. Logo, pedi-
mos aos leitores que, cientes dos conhecimentos trabalhados 
no capítulo, discutam os resultados.
Ordem do parto
Ocorrência do parto
Período de seca Período de chuva
Primíparas 7 16
Multíparas 18 23
10. Uma determinada fábrica de ração para porcos, Duroc, deseja 
testar composições de rações com três níveis proteicos (10, 
15 e 20%), sendo mensurado o peso no abate após 6 meses de 
engorda. Nos grupos experimentais testados, a amostra alocada 
foi de 12 animais de ambos os sexos (composição igual). Os 
animais machos alcançam pesos mais elevados no abate, logo, 
nesse caso, o sexo pode ser uma fonte de variação do experimento. 
Os resultados obtidos de peso médio (kg) são os seguintes:
Sexo
Concentração proteica na ração
10% 15% 20%
Machos 78 93 98
Fêmeas 64 79 83
Considerando o valor da diferença mínima significativa para compa-
ração de médias 13,5kg, pede-se que os resultados sejam discutidos.
8
Métodos não 
paramétricos para 
comparação de 
duas populações
A maioria dos resultados experimentais é de natureza quan-
titativa, podendo ser sumarizada por meio de medidas de tendên-
cia central e de dispersão, geralmente associadas a um tipo parti-
cular de distribuição de probabilidade, neste caso a distribuição 
normal de probabilidade. Até o presente momento, foram apre-
sentados métodos paramétricos de comparação para as respostas 
estudadas. Entretanto, algumas respostas quantitativas podem 
não ser distribuídas normalmente, ainda que submetidas a algum 
tipo de transformação. Estas variáveis possuem uma elevada ins-
tabilidade relativa, não podendo ser estudadas por métodos para-
métricos, desenvolvidos para variáveis que possuem distribuição 
normal de probabilidade e homogeneidade de variâncias compu-
tadas entre grupos. Logo, os testes não paramétricos estudam as 
posições relativas dos resultados obtidos quando observados em 
Bioestatística
– 200 –
conjunto. Nestes métodos, uma ordenação dos resultados do mais baixo 
ao mais elevado é conduzida, somada à identificação dos tratamentos. Ao 
estabelecer o ordenamento, a subjetividade em atribuir graus de quantifi-
cação da variável resposta e a grande instabilidade das respostas são con-
troladas, relativizando a amplitude observada. Entretanto, a perda do deta-
lhamento da variável resposta com o uso de métodos não paramétricos é 
em hipótese menos eficiente. Neste capítulo e no próximo apresentaremos 
métodos não paramétricos clássicos.
Figura 8.1 – Testes não paramétricos clássicos
Fonte: elaborada pelo autor.
No capítulo 8 serão apresentados testes não paramétricos com 2 
níveis para o fator estudado, tanto para amostras pareadas quanto para 
amostras independentes (testes de Mann-Whitney e de Wilcoxon). No 
capítulo 9 serão apresentados testes para mais de 2 níveis, considerando 
tanto amostras pareadas quanto não pareadas.
8.1 Teste de Mann-Whitney
Na presença de apenas dois grupos experimentais (X; Y), porém 
sem o pareamento de respostas (amostras independentes), com tamanhos 
iguais ou diferentes, tem sido sugerida a aplicação do teste de Mann-Whi-
tney. Considera-se dois grupos independentes com tamanhos “m” e “n”, 
constituindo-se no número total (N) de observações a soma de elementos 
de ambos os grupos (N = m + n). Para a condução do teste, tem sido suge-
– 201 –
Métodos não paramétricos para comparação de duas populações
rida a reunião de todos os elementos amostrais de ambos os grupos expe-
rimentais e a ordenação dos postos do menor para o maior e sua respectiva 
soma (W X
X
i
n
i
=
=
∑
1
; W Y
Y
i
n
i
=
=
∑
1
). No caso de empates entre as observações 
amostrais, estas devem receber o valor médio das ordenações correspon-
dentes. Logo, para comparação dos grupos, tem-se as seguintes hipóteses:
a) Hipótese nula: H0 – a variável “Y” é estocasticamente igual a “X”;
Sob a hipótese nula, a esperança e a variância para as variáveis 
são dadas por:
EW
n N
EW
m N
X Y
( ) ; ( )=
+( )
=
+( )1
2
1
2
Var W Var W
nm N
X Y
( ) ( )= =
+( )1
12
b) Hipótese alternativa (caso 1): H1 – a variável “Y” é estocastica-
mente maior que “X”;
No caso 1, a hipótese nula será rejeitada para valores grandes de 
estatística de teste (WX ), ou seja, valores de estatística de teste 
acima do valor crítico. A probabilidade de significância é defi-
nida como p P W W
X obs
= ≥


 , onde Wobs é o valor da estatís-
tica de teste e a probabilidade “p” é determinada sob a hipótese 
nula para p < 0,05.
c) Hipótese alternativa (caso 2): H1 – a variável “Y” é estocastica-
mente menor que “X”;
No caso 2, a hipótese nula será rejeitada para valores peque-
nos de estatística de teste (WX ), ou seja, valores de estatística 
de teste acima do valor crítico. A probabilidade de significância 
é definida como p P W W
X obs
= ≤


 , onde Wobs é o valor da 
estatística de teste e a probabilidade “p” é determinada sob a 
hipótese nula para p < 0,05.
Bioestatística
– 202 –
d) Hipótese alternativa (caso 3): H1 – a variável “Y” é estocastica-
mente diferente de “X”;
No caso 3, a hipótese nula será rejeitada para valores pequenos 
e grandes de estatística de teste (W
X
), ou seja, valores de estatís-
tica de teste acima e abaixo dos valores críticos. Porém, a proba-
bilidade de significância é definida como p P W W
X obs
= ≤


2 , se 
W W
obs X
= ( )� ou p P W W
Y obs
= ≤


2 , se W W
obs s
= ( )� , onde Wobs X( )e 
W
obs Y( ) correspondem ao valor da estatística de teste e a probabili-
dade “p” é determinada sob a hipótese nula para p < 0,05. Para as 
hipóteses traçadas, as estatísticas de Mann-Whitney são usadas 
para determinar os valores críticos para a rejeição da hipótese 
nula ou as probabilidades de significância:
W W
n n
W W
m m
XY X YX Y
= −
+( )
= −
+( )1
2
1
2
;
As distribuições das estatísticas de Mann-Whitney são tabeladas. 
Para amostras diferentes entre grupos, deve-se separar as ordenações do 
grupo menor (n1), computando a respectiva soma dos postos (M), no caso 
de grupos com número de elementos amostrais iguais, a soma dos postos 
de cada grupo deve ser calculada. Em seguida, deve-se calcular a estatís-
tica “T” no caso de n1 < n2:
T n n n M= + +( )−1 1 2
1 �
O menor valor encontrado entre M e T (para n1 < n2) ou o menor valor 
de soma dos postos – M (para n1 = n2), deve ser comparado ao valor crítico 
(tabelado) em função do tamanho dos grupos (tabela 8.1). Caso o valor 
da estatística de teste for menor ou igual comparado ao tabelado, haverá 
diferenças significativas entre grupos experimentais. Caso os valores críti-
cos da estatística de teste não sejam encontrados na tabela 8.1, os mesmos 
podem ser estimados por meio da seguinte equação:T
n n n
n n n n
=
+ +( )
−
+ +( )
−
1 1 2
1 2 1 2
1
2 1 96
1
12 0 5
,
,
– 203 –
Métodos não paramétricos para comparação de duas populações
Tabela 8.1 – Valores críticos de “T” para o teste não paramétrico de Mann-Whitney, 
conforme o tamanho dos grupos comparados (nível de 5% de significância)
Grupo Maior
Grupo Menor
2 3 4 5 6 7 8 9 10 11 12 13
4 - - 10 - - - - - - - - -
5 - 6 11 17 - - - - - - - -
6 - 7 12 18 26 - - - - - - -
7 - 7 13 20 27 36 - - - - - -
8 3 8 14 21 29 38 49 - - - - -
9 3 8 15 22 31 40 51 63 - - - -
10 3 9 15 23 32 42 53 65 78 - - -
11 4 9 16 24 34 44 55 68 81 96 - -
12 4 10 17 26 35 46 58 71 85 99 115 -
13 4 10 18 27 37 48 60 73 88 103 119 137
14 4 11 19 28 38 50 63 76 91 106 123 141
15 4 11 20 29 40 52 65 79 94 110 127 145
20 5 14 24 35 48 62 77 93 110 128 147 167
25 6 16 28 42 56 72 89 107 126 146 167 189
Fonte: Sampaio (2010).
8.2 Caso de empate entre observações amostrais
Nas situações de ocorrência de empate entre observações amostrais, 
emprega-se o cômputo de posto médio (soma-se as ordenações e divide-se 
pelo número de empates ocorridos entre as observações) na ordenação e 
atribuição de postos da amostra. Neste caso, as estatísticas de teste para 
empates nas observações são:
W X
X
i
n
i
* *=
=
∑
1
W Y
Y
i
m
i
* *=
=
∑
1
Bioestatística
– 204 –
Sendo Xi
* e Yi
* os postos das observações de cada grupo e “n” e “m” 
as amostras referentes (respectivamente) a cada grupo. Nesse sentido, a 
esperança (média) e variância amostral de cada grupo são (d
i
 – representa 
o número de observações iguais da amostra conjunta e – número de valo-
res distintos):
EW
n N
e E W
m N
X Y
( )* *=
+( ) ( ) =
+( )1
2
1
2
Var W Var W
nm N nm d d
N NX Y
i
e
i i
( )* *= ( ) =
+( )
−
−( )
−( )
=∑1
12 12 1
1
3
Para o cálculo dos valores de probabilidade nos casos de empate entre 
as observações amostrais, recomenda-se a utilização da aproximação da dis-
tribuição da estatística de teste pela distribuição normal, reportada a seguir.
8.3 Aproximação normal
Utiliza-se a aproximação normal na condição em que as amostras 
independentes são grandes e, portanto, convergem para uma distribuição 
normal de probabilidade (iguais ou acima de 10 observações). Porém, 
para se realizar a mesma aproximação normal (semelhante à padroniza-
ção de variáveis explicitada anteriormente) para amostras inferiores à 10 
observações, deve-se empregar uma correção no cálculo dos valores de 
probabilidade, conforme descrito a seguir:
N
W E W
Var W
0 1,( ) ≈
− ( )
( )
Correção de continuidade (amostras < 10), sendo “W” uma variável 
aleatória discreta e “Z” uma variável padronizada:
P W x P Z
x E W
Var W
≤

 = ≤
+( )− ( )
( )












0 5,
– 205 –
Métodos não paramétricos para comparação de duas populações
P W x P Z
x E W
Var W
≥

 = ≥
−( )− ( )
( )












0 5,
Exemplo 1. Para exemplificar o emprego do teste de Mann-Whitney, 
consideremos a premissa de que um fabricante de produtos alimentícios 
desidratados afirma que o conteúdo do corante tartrazina da marca concor-
rente (B) é maior que o da marca local (A). Ao considerar que as variáveis 
“m” e “n” são aleatórias, representando cada um dos respectivos conteúdos 
de corante para as marcas concorrente e local, para solucionar a questão 
levantada um laboratório quantificou o conteúdo do corante em miligramas 
para 5 amostras das duas marcas. Os valores obtidos são reportados a seguir:
Tabela 8.2 – Dados referentes ao conteúdo do corante tartrazina
Amostras 1 2 3 4 5
Marca “A” 800 1.200 1.400 900 1.000
Marca “B” 1.100 1.300 1.500 700 1.600
Fonte: elaborada pelo autor.
Face às sentenças, temos as seguintes hipóteses:
 2 H0: a variável “n” é estocasticamente igual a “m”, ou seja, os 
produtos da marca “B” tendem a ter um conteúdo de corante 
tartrazina semelhante ao da marca “A”.
 2 H1: a variável “n” é estocasticamente maior que “m”, ou seja, 
os produtos da marca “B” tendem a ter um conteúdo de corante 
tartrazina semelhante ao da marca “A”.
Para realizar as análises, ordena-se observações conjuntamente do 
menor ao maior valor, colocando os postos correspondentes às observações:
Tabela 8.3 – Determinação dos postos
Observações 700 800 900 1000 1100 1200 1300 1400 1500 1600
Posto 1 2 3 4 5 6 7 8 9 10
Marca B A A A B A B A B B
Fonte: elaborada pelo autor.
Bioestatística
– 206 –
Caso a afirmação contida no enunciado seja correta, obviamente 
espera-se que a soma dos postos para a marca “B” seja maior. Quanto 
maior a soma dos postos da marca B (W), maior será a chance de rejeição 
da hipótese nula:
W
A
= + + + + =2 3 4 6 8 23 ;
W
B
= + + + + =1 5 7 9 10 32 ;
p P W P W
n N
P W
B B B
= ≥


 = −
+( )
≥ −
( )









= ≥


32
1
2
32
5 6
2
17 == − ≤


 = − =1 16 1 0 789 0 2103P W
B
, ,
Como a probabilidade de significância é alta, a hipótese nula não 
deveria ser rejeitada (lembrar que a probabilidade de significância nos dá 
uma estimativa da probabilidade de estarmos rejeitando a hipótese nula 
incorretamente, ou seja, quando ela é de fato verdadeira – erro tipo I do 
teste). No software “R” temos:
Figura 8.2 – Importação do banco de dados e teste de Mann-Whitney
Fonte: elaborada pelo autor.
Exemplo 2. Uma psicopedagoga de uma escola municipal estudou a 
subjetividade do modo de brincar de crianças de uma turma de 24 alunos 
(12 meninos e 12 meninas) no que diz respeito ao grau de criatividade, a 
partir de uma escala própria, previamente validada. Há a necessidade de 
– 207 –
Métodos não paramétricos para comparação de duas populações
verificar se há diferença entre meninos e meninas para o grau de criativi-
dade. Os valores obtidos são mostrados na tabela a seguir.
Tabela 8.4 – Classificação de criatividade de crianças
Meninos 8,6 6,9 7,2 6,7 11,3 6,5 11,8 4,5 14,1 10,4 4,1 5,0
Meninas 5,5 4,0 2,2 5,8 1,6 0,7 0,9 1,8 2,6 3,6 2,0 1,5
Fonte: elaborada pelo autor.
Para efeito desta solução vamos considerar como Y (n=12) o grau 
observado no grupo dos meninos e como X (m=12) o grau de criatividade 
das meninas. Logo, temos as hipóteses:
 2 H0: a variável “Y” é estocasticamente igual a “X”;
 2 H1: a variável “Y” é estocasticamente diferente de “X”.
Tabela 8.5 – Determinação dos postos para os dados obtidos
Observações Postos Observações Postos
0,7 1 5,0 13
0,9 2 5,5 14
1,5 3 5,8 15
1,6 4 6,5 16
1,8 5 6,7 17
2,0 6 6,9 18
2,2 7 7,2 19
2,6 8 8,6 20
3,6 9 10,4 21
4,0 10 11,3 22
4,1 11 11,8 23
4,5 12 14,1 24
Fonte: elaborada pelo autor.
Em outras palavras, sob a hipótese nula, o grau de criatividade obser-
vado em meninos tende a gerar valores similares ao grau de criatividade 
observado em meninas. Por outro lado, na hipótese alternativa, o grau de 
Bioestatística
– 208 –
criatividade observado em meninos tende a gerar valores diferentes ao 
grau de criatividade observado em meninas.
W
x
= + + + + + + + + + + + =1 2 3 4 5 6 7 8 9 10 14 15 84
W
y
= + + + + + + + + + + + =11 12 13 16 17 18 19 20 21 22 23 24 216
SomadosPostos� � =
( )
=
24 25
2
300
A probabilidade de significância do teste é:
p P W P N P N
x
= ≤


 = ( ) ≥
+( )−









= (2 84 2 0 1
84 0 5 150
300
2 0 1,
,
, )) ≥ −


 ≈3 78 0 002, ,
Sendo que:
E W Var W
x x( ) = ( )
= ( ) = ( )( )( ) =
12 25
2
150
12 12 25
12
300;
No ambiente “R”, temos:
Figura 8.3 – Importação de dados e teste de Mann-Whitney
– 209 –
Métodos não paramétricos para comparação de duas populações
Fonte: elaborada pelo autor.
Exemplo 3. O comportamento do treinador no processo de treinamento 
possui papel fundamental no sucesso competitivo dos atletas. Para avaliar o 
comportamento de treinadores, são propostas escalas de avaliação conduzi-
das sob a perspectiva (visão) de treinadores e atletas, compreendendo dife-
rentes dimensões do processo de treinamento, denominadas escalas de com-
portamento do treinador na visão do treinador (ECT-T) e do atleta (ECT-A). 
A ECT-A e a ECT-T são questionárioscompostos de 40 questões cada que 
abordam a frequência de comportamentos específicos, e são pontuados em 
uma escala Likert de 7 pontos, onde 1 representa “nunca” e 7 “sempre”.
Figura 8.4 – Importação do banco de dados
Fonte: elaborada pelo autor.
Bioestatística
– 210 –
As questões avaliam seis dimensões do comportamento do treinador, 
sendo elas: Treinamento Físico (TF) – provisão pelos treinadores do plane-
jamento e treinamento físico para o treinamento e competição; Treinamento 
Técnico (TT) – “feedback” do treinador, demonstrações visuais e verbais e 
aconselhamentos; Preparação Mental (PM) – envolvimento do treinador em 
ajudar os atletas a serem mais resistentes, focados e autoconfiantes; Estabe-
lecimento de Objetivos (EO) –envolvimento do treinador na identificação, 
desenvolvimento e monitoramento dos objetivos dos atletas; Reforço Pes-
soal Positivo (RPP) –proximidade, disponibilidade e compreensão do trei-
nador; Reforço Pessoal Negativo (RPN) – atitudes do treinador como o uso 
do medo, gritos quando está com raiva e desconsideração das opiniões dos 
atletas. Logo, para estudar o comportamento de treinadores de basquetebol, 
um cientista do esporte aplicou questionários em atletas e treinadores.
Figura 8.5 – Testes de Wilcoxon em ambiente “R” para as diferentes dimensões 
avaliadas pelas escalas de comportamento de treinadores
– 211 –
Métodos não paramétricos para comparação de duas populações
Fonte: elaborada pelo autor.
Ao comparar as respostas obtidas, exceto para a dimensão de estabele-
cimento de objetivos, onde foram verificadas diferenças moderadas entre a 
perspectiva de atletas e treinadores (EO, z = 17, p = 0,013), não foram veri-
ficadas alterações significativas para as medianas das demais dimensões da 
ECT (TF, z = 44, p = 0,67; TT, z= 44, p = 0,67; PM, z = 37, p = 0,34; RPP, z = 
46, p = 0,79; RPN, z = 70, p = 0,14). De forma geral, os dados sugerem que 
os treinadores de basquetebol de base estão sendo percebidos pelos atletas 
da mesma maneira que se enxergam, pois apresentaram resultados similares 
para as dimensões TF, TT, PM, RPP e RPN. Entretanto, verificou-se dife-
rença entre a percepção do treinador e dos atletas sobre do estabelecimento 
dos objetivos, aspecto que pode efetivamente prejudicar o rendimento da 
equipe durante os treinamentos e competições.
8.4 Teste de Wilcoxon de postos sinalizados
O teste de Wilcoxon de postos sinalizados foi desenhado para compa-
ração de respostas caracterizadas pelo pareamento de respostas obtidas no 
tempo, por meio de procedimentos de aliquotagem – retirada de respostas 
de uma mesma unidade experimental. Ao considerar uma amostra com “N” 
pares de elementos, em cada par um elemento amostral recebe um trata-
mento ou situação controle e um experimental, portanto, com “N” pares de 
dados (x y i N
i i
; , , , , ,= …1 2 3 ), sendo xi a resposta medida para o grupo con-
trole e yi a resposta medida para o grupo experimental. No teste de Wilco-
xon para postos sinalizados, considera-se o sinal das diferenças e os valores 
obtidos nas diferenças numéricas entre os elementos dos dois grupos.
Para a condução dos testes, inicialmente deve ser obtida a diferença 
par a par (| |Z
i
) entre as respostas (Z y x
i i i
= − ). Os postos devem ser orde-
nados e atribuídos a partir das diferenças de forma crescente, do menor ao 
maior valor observado. Para as ordenações das diferenças onde ocorrem 
Bioestatística
– 212 –
empates, se o empate ocorrer entre diferenças de mesmo sinal, as diferen-
ças com empates devem ordenadas sequencialmente; por outro lado, se 
empates ocorrerem em diferenças com sinais opostos, a ordenação deve 
ser feita pela ordenação média (soma-se as ordenações e divide-se pelo 
número de empates ocorridos entre as observações). O sinal observado 
nas diferenças entre os pares de dados deverá constar também nos postos 
ordenados. Em seguida, os postos positivos e negativos devem ser soma-
dos separadamente (W x W y
x
i
N
i y
i
N
i
= =
=
+
=
−
∑ ∑
1 1
; ). Logo, como hipóteses, temos 
sob a hipótese nula que a distribuição da hipótese nula da variável “y” 
(tratamento) é igual à variável “x”. Para a hipótese alternativa, temos que 
a distribuição da variável “y” (tratamento) tende a gerar valores maiores 
do que a variável “x”. Em síntese, podem ser apresentadas como:
 2 Hipótese nula (H0): H0 – a variável “Y” é estocasticamente 
igual a “X”;
 2 Hipótese alternativa (HA): HA – a variável “Y” é estocastica-
mente diferente de “X”.
A probabilidade de significância do teste será dada como 
P W r
H X0
≥


, onde “r” é o valor amostral observado de WX , pode ser 
obtido por meio de tabelas próprias ou da aproximação à distribuição 
normal, por meio do cálculo da esperança (média) e variância amostral. 
Por meio da tabela, considera-se o valor de somatório que for menor 
(desconsiderando o sinal) – será o valor calculado da estatística de teste 
(“W”). O valor da estatística de teste deve ser comparado com o valor 
crítico de “W” (ver tabela 8.6), determinado conforme o número de pares 
de dados e nível de significância selecionado. Para os casos em que o 
valor de “W” calculado for menor que de “W” crítico, haverá diferenças 
significativas entre níveis do fator estudado (W W
calculado crítico
< ).
Tabela 8.6 – Valores de “W” para o teste de Wilcoxon de postos sinalizados, segundo 
o número de pares estudados e o nível do erro tipo I
Número de pares 
de dados
Probabilidade do erro tipo I
0,05 0,01
6 0 -
– 213 –
Métodos não paramétricos para comparação de duas populações
Número de pares 
de dados
Probabilidade do erro tipo I
0,05 0,01
7 2 -
8 4 0
9 6 2
10 8 3
11 11 5
12 14 7
13 17 10
14 21 13
15 25 16
16 30 20
17 35 23
18 40 28
19 46 32
20 52 38
21 59 43
22 66 49
23 73 55
24 81 61
25 89 68
26 98 76
27 107 84
28 116 92
29 126 100
30 136 109
Fonte: Sampaio (2010).
Por meio da aproximação à distribuição normal, deve-se computar a 
esperança (Esperança [Wx]) e a variância amostral (Variância [Wx]) pre-
Bioestatística
– 214 –
viamente, considerando a ausência e a presença de empates nas observa-
ções. No caso sem empates, temos:
E W
N N
X( ) =
+( )1
4
�
Var W
N N N
X( ) =
+( ) +( )1 2 1
24
��
Para os casos com empates, temos o respectivo cálculo da esperança 
e variância, onde " "d
0
 é o número de diferenças (Z
i
) iguais a zero, “e” 
o número de valores distintos de diferenças (Zi ) e " "d
i
 a frequência do 
i-ésimo valor distinto de Z
i
:
E W N N d d
X
*( ) = +( )− +( )



1
4
1 1
0 0
Var W
N N N d d d d
X
i
e
i*
[ ]
( ) =
+( ) +( )


 − +( ) +( )
−
−
=∑1 2 1 1 2 1
24
0 0 0 1
2 dd d
i i( ) +( )1
48
�
Para o cômputo da probabilidade de significância pela aproximação à 
distribuição normal, tem-se que:
N
W E W
Var W
0 1,( ) ≈
− ( )
( )
Exemplo 4. Um treinador de atletismo para as provas de salto pre-
tende estudar o impacto da carga de treinamento de uma sessão prévia a 
uma competição para suceder a utilização de procedimentos de recupera-
ção para 6 atletas juvenis. Para isso, o treinador monitorou o desempenho 
por meio da avaliação da altura de saltos verticais antes e após a referida 
sessão de treino que antecede a competição. Assim, à luz dos resultados 
obtidos, reporte qual seria a recomendação ao treinador.
Tabela 8.7 – Altura de saltos vertical pré e pós-sessão
Momento
Altura do salto (melhor 
desempenho de três saltos)
1 2 3 4 5 6
Pré-sessão 38,0 45,3 43,0 47,5 39,7 42,1
– 215 –
Métodos não paramétricos para comparação de duas populações
Momento
Altura do salto (melhor 
desempenho de três saltos)
1 2 3 4 5 6
Pós-sessão 34,5 40,7 41,2 43,1 35,2 35,8
|Diferença| 3,5 4,6 1,8 4,4 4,5 6,3
Postos 2 5 1 3 4 6
ΣVs 21
Fonte: elaborada pelo autor.
Logo, temos as seguintes hipóteses:
 2 H0: o desempenho de saltos verticais após a sessão de treinamento 
tende a ser semelhante ao desempenho de saltos verticais pré-sessão;
 2 H1: o desempenho de saltos verticais após a sessão de treinamento 
tende aser diferente ao desempenho de saltos verticais pré-sessão.
Figura 8.6 – Importação do banco de dados e aplicação do teste de Wilcoxon em 
ambiente “R”
Fonte: elaborada pelo autor.
Bioestatística
– 216 –
Logo, a partir das análises, temos que após a sessão de treinamento o 
desempenho de saltos verticais reduziu significativamente, sinalizando a 
necessidade de procedimentos de recuperação dos atletas.
Exemplo 5. Para avaliar o efeito de um tratamento conduzido com 
base no método pilates sobre a incontinência urinária de esforço (perda 
involuntária de urina aos esforços quando a pressão intravesical supera a 
pressão intrauretral). A proposta do método pilates é fortalecer a muscu-
latura do assoalho pélvico por meio de exercícios específicos. Para este 
estudo, foi realizada a avaliação de um grupo de 18 idosas antes e após o 
tratamento e a variável avaliada foi a força de contração da musculatura 
do assoalho pélvico, testada pelo toque intravaginal. Este estudo foi rea-
lizado por fisioterapeutas especialistas em uroginecologia e experientes 
neste tipo de avaliação. Para classificar a força de contração dessa muscu-
latura, respeitou-se o sistema a seguir:
Tabela 8.8 – Sistema de classificação
Grau Visualização da contração 
em posição ginecológica Resposta à palpação
0 Ausente Ausente
1 Ausente Reconhecível
2 Débil Reconhecível
3 Presente Sem resistência
4 Presente Com resistência <5s
5 Presente Com resistência >5s
Fonte: elaborada pelo autor.
Os dados foram:
Idosa 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
Antes 2 3 3 4 4 5 4 4 2 2 1 0 0 5 3 2 1 1
Após 3 5 4 4 3 5 5 5 3 4 4 2 3 4 5 5 3 4
A resposta estudada é do tipo discreta com distribuição de probabi-
lidade não normal. As amostras são pareadas e com 2 níveis para o fator 
momento (antes e depois do tratamento). Neste sentido, recomenda-se a 
aplicação do teste não paramétrico de Wilcoxon para pares ordenados. O 
estudo objetiva a avaliação do efeito do tratamento baseado no método 
– 217 –
Métodos não paramétricos para comparação de duas populações
pilates sobre a incontinência urinária de esforço em idosas. A resposta 
estudada é a força de contração da musculatura do assoalho pélvico, numa 
escala de 0 a 5. Logo, estabelecendo a diferença entre os valores antes e 
após, bem como o ordenamento de postos, como hipóteses temos:
 2 H0: o tratamento baseado em pilates não afeta a força de contra-
ção da musculatura do assoalho pélvico.
 2 H1: o tratamento baseado em pilates afeta a força de contração 
da musculatura do assoalho pélvico.
Tabela 8.9 – Diferença entre valores e ordenamento de postos
Idosa 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
Antes 2 3 3 4 4 5 4 4 2 2 1 0 0 5 3 2 1 1
Após 3 5 4 4 3 5 5 5 3 4 4 2 3 4 5 5 3 4
|dif.| 1 2 1 0 -1 0 1 1 1 2 3 2 3 -1 2 3 2 3
Postos 6 12 6 1,5 6 1,5 6 6 6 12 16,5 12 16,5 6 12 16,5 12 16,5
Fonte: elaborada pelo autor.
Assim, temos o cálculo da esperança e variância para postos ordena-
dos (com empates):
VS = 156.
VR = 6 + 6 = 12
E VS N N d d


 = +( )− +( )


 = +( )− +( )


 =
1
4
1 1
1
4
18 18 1 1 1 1
0 0
885
Var VS N N N d d d


 = +( ) +( )


 − +( ) +( )


 −
1
24
1 2 1 1 2 1
1
40 0 0 88
1
12654 6
24
0 125 52
1
3
i
e
i i i
d d d
=
∑ −( ) +( )



=



 −



 − =, 66 88,
Cálculo da probabilidade de significância:
p N p N0 1
156 0 5 85
526 88
0 1 3 11 0,
,
,
, ,( ) ≤
+( )−









= ( ) ≤ −


 ≈ ,, 0009 (rejeita-se a hipótese nula).
Logo, após a realização das análises, verificou-se que o tratamento 
baseado no método pilates afeta a força de contração da musculatura do 
assoalho pélvico, e, portanto, pode contribuir para o tratamento da incon-
tinência urinária de esforço. Em ambiente “R”, temos:
Bioestatística
– 218 –
Figura 8.7 – Importação do banco de dados e aplicação do teste de Wilcoxon em 
ambiente “R” (computado sem os postos empatados)
Fonte: elaborada pelo autor.
Após a apresentação dos testes de Mann-Whitney e de Wilcoxon para 
postos sinalizados e condução dos exemplos, sugere-se ao leitor refazer 
– 219 –
Métodos não paramétricos para comparação de duas populações
os exemplos e buscar novos conforme sua área de interesse para conso-
lidação da aprendizagem. No capítulo 9 serão explorados os testes de 
Kruskal-Wallis e de Friedman para mais de dois níveis.
Atividades
Uma dose capaz de infectar baseada na bactéria Staphylococcus 
aureus foi administrada em 13 amostras de leite de origens diferentes que 
comprovadamente não apresentavam contaminação prévia pelo patógeno 
em questão. Cada amostra de leite foi particionada em duas alíquotas e, 
em cada uma delas, aleatoriamente, foram aplicadas nisina ou lactopero-
xidase. O objetivo era verificar o controle do patógeno (tóxico ao sistema 
digestório) na fabricação do queijo frescal a partir das amostras de leite 
coletadas. Depois de efetuada a produção, foram retiradas amostras dos 
queijos produzidos para preparação das placas de cultura. Após acomoda-
ção em estufa, unidades formadoras de colônias (UFC) foram contabiliza-
das, conforme descrito a seguir:
Origem do leite UFC (Nisina) UFC 
(Lactoperoxidase)
1 3 5
2 87 45
3 128 93
4 Incontável 125
5 23 27
6 65 42
7 250 38
8 90 22
9 12 17
10 178 63
11 39 11
12 203 47
13 8 15
Bioestatística
– 220 –
1. Caracterize a resposta obtida para cada placa cultivada.
2. Ao observar as características da resposta estudada, recomende 
a estratégia de análise de dados.
3. Execute a análise recomendada na questão anterior e verifique se 
há diferença entre os inibidores do patógeno.
4. Ao considerar um novo experimento, se um pesquisador cole-
tasse 13 amostras de leite com diferentes níveis de contamina-
ção do patógeno e conduzisse um experimento igual ao reali-
zado anteriormente, discuta se seria possível concordar com o 
procedimento adotado.
(Enunciado para questões de 5 a 9) O efeito da administração de 
selênio é conhecido por estimular a resposta imunológica em ani-
mais, particularmente em aves. Um pesquisador tem como obje-
tivo saber se a forma de administração deste substrato (inorgânico 
ou orgânico) altera a resposta imunológica. Para isso, instalou um 
experimento em ambiente uniforme, onde havia 16 conjuntos, 
cada um com seis pintinhos machos da linhagem cobb, com um 
dia de idade, já vacinados. A ração fornecida era a mesma para 
todos os conjuntos, mas em 8 deles foi adicionado 0,15 mg de 
selênio inorgânico. Nos outros 8 conjuntos foi adicionado 0,15 
mg de selênio orgânico. Considerando que a distribuição dos 
pintinhos foi feita aleatoriamente, 14 dias após a vacinação foi 
mensurada a concentração de anticorpos. Os resultados obtidos 
encontram-se na tabela a seguir, e correspondem à análise de um 
pool retirado de três pintinhos, pois a análise realizada exige um 
volume que, se retirado de uma só ave, levaria à morte.
Tratamentos
0,15mg de selênio inorgânico 0,15mg de selênio orgânico
1/670 512
1860 98
538 530
863 445
– 221 –
Métodos não paramétricos para comparação de duas populações
Tratamentos
0,15mg de selênio inorgânico 0,15mg de selênio orgânico
250 200
612 471
559 158
629 490
5. Com base no enunciado anterior, responda às seguintes questões.
a) Determine a média e o desvio padrão de cada grupo. Se em 
algum deles o valor do coeficiente de variação for maior que 
50% e/ou não for observada homoscedasticidade, discuta se uma 
análise paramétrica seria recomendável.
b) Na alternativa de uma análise não paramétrica, discuta qual é a 
estratégia recomendada.
6. Conduza a análise do experimento recomendada, verificando se 
a fonte de fornecimento do selênio realmente influencia a res-
posta imunológica de aves comerciais.
7. Discuta se a forma ofertada de selênio aumentou a resposta imu-
nológica das aves.
8. Apresente um quadro final caracterizando os dois grupos expe-
rimentais, onde possamos observar os valores de mediana, 
mínimo, máximo, além da eventual diferença significativa.
9. O procedimentode utilizar um pool de três aves faz com que a 
variação observada entre as unidades experimentais aumente ou 
diminua? Explique o raciocínio.
10. Um biólogo tem como objetivo estudar os hábitos e como o 
caranguejo do mangue se dispersa no manguezal com relação 
ao regime hídrico do mangue (inundável ou não inundável). 
Sua unidade experimental era uma área de 4m2. Neste espaço, 
contava-se o número de tocas encontradas (resposta medida). Se 
entre os dois ambientes fosse encontrado um maior número de 
tocas, isto refletiria em um habitat preferencial, considerando-se 
Bioestatística
– 222 –
que se tratava da mesma espécie. Para isso, foi preciso identi-
ficar áreas inundáveis (pelas marés). Ele estudou 19 áreas da 
região alvo, sendo 10 inundáveis e 9 não inundáveis. Analise o 
experimento com base nos resultados obtidos nessas contagens, 
conforme reportado a seguir:
Área Alagável Seca
1 15 13
2 32 8
3 20 1
4 65 10
5 23 5
6 41 3
7 18 20
8 45 11
9 53 9
10 43 -
9
Métodos não 
paramétricos para 
comparação de 
várias populações
Muitas vezes pesquisadores e profissionais deparam-se com 
situações em que os fatores estudados possuem mais de dois 
níveis. Quando é possível assumir que a distribuição de proba-
bilidade da variável estudada é normal e com homogeneidade 
de variâncias em todos os tratamentos, emprega-se a análise de 
variância paramétrica para a comparação de médias. No entanto, 
temos situações nas quais o conjunto de dados não provém de 
distribuições normais e as amostras não são grandes para o uso 
da análise de variância. Nesses casos, são empregados os testes 
não paramétricos. Assim, em continuidade ao capítulo 8, serão 
apresentados métodos não paramétricos que viabilizam tais com-
parações, também por meio do ordenamento de postos (Teste de 
Kruskal-Wallis para amostras independentes e teste de Friedman 
para amostras pareadas), conforme evidenciado na figura 9.1.
Bioestatística
– 224 –
Figura 9.1 – Testes não paramétricos clássicos
Fonte: elaborada pelo autor.
A seguir são apresentadas as respectivas fundamentações teóricas 
para realização dos testes, estatística de teste e condução dos testes de 
comparações múltiplas.
9.1 Teste de Kruskal-Wallis
Para os testes apresentados neste capítulo, será assumido que o efeito 
de tratamentos afeta apenas as respostas, ou seja, a locação das distribui-
ções envolvidas, assumindo que alguma ordenação nos tratamentos ten-
deria a ter respostas iguais entre alguns dos tratamentos (mas não entre 
todos) ou respostas diferentes entre todos os tratamentos. Ao considerar-
mos elementos amostrais retidos aleatoriamente, as respostas dos trata-
mentos são variáveis aleatórias dadas por:
Tratamento x x x DistribuiçãoF
n
� :� � � ��� � �1
11 12 1 1
¼
Tratamento x x x DistribuiçãoF
n
� :� � � ��� � �2
21 22 2 2
¼
¼�
TratamentoS x x x DistribuiçãoF
S S Sn S
� :� � � ��� � �
1 2
¼
Logo, entendendo que as distribuições de cada tratamento (F
i
) são 
contínuas, desconhecidas e que os grupos são independentes, temos as 
seguintes hipóteses traçadas para comparações de tratamentos:
– 225 –
Métodos não paramétricos para comparação de várias populações
 2 H0: as medianas das distribuições dos tratamentos são iguais;
 2 H1: as medianas das distribuições dos tratamentos não são 
todas iguais, ou seja, há alguma diferença entre as medianas 
dos tratamentos.
Após estabelecer as hipóteses a serem estudadas, sucede-se o pro-
cedimento de ordenação dos elementos amostrais, considerando uma 
amostra aleatória para “s” tratamentos. Assim, temos os postos Rij (“i” 
tratamentos, ”j” observações) ordenados no teste de Kruskal-Wallis da 
seguinte maneira:
Tabela 9.1 – Ordenamento dos postos das amostras nos tratamentos
Tratamentos
1 2 3 S
R
11
R
21
R
31
R
s1
R
12
R
22
R
32
R
s2
. . . .
R
n1
R
n2
R
n3
R
sn
R
1
R
2
R
3
R
s
Fonte: elaborada pelo autor.
No teste de Kruskal-Wallis, o ordenamento dos postos ocorre 
somente nas colunas dos tratamentos. Na tabela 9.1, a última linha cor-
responde ao somatório dos postos em cada tratamento, e o somatório 
total dos postos é dado por:
R R i s
i
j
ni
IJ
= =( )
=
∑
1
1 2� , , .
Logo, a média dos postos é dada por:
R
n
R i s
i
j
ni
IJ.
, , .= =( )
=
∑
1
1 2
1
Bioestatística
– 226 –
Quando os tratamentos divergem em magnitude entre si, diferenças 
substanciais são esperadas para a soma dos postos (n – amostra por trata-
mento, N – conjunto amostral total). Por outro lado, para a hipótese nula, 
espera-se que as somas dos postos para os tratamentos sejam próximas, 
semelhantes à média global dos postos, dadas por:
R
N
ij
=
+ 1
2
9.2 Estatística de Kruskal-Wallis
No caso em que há empates (valores iguais de postos no mesmo tra-
tamento “s”), para a tomada de decisão sobre as hipóteses traçadas sobre 
as medianas dos postos, William Kruskal e Allen Wallis propuseram a 
seguinte estatística de teste:
K
N N
n R
N
I
S
i i
=
+( )
−
+( )








=
∑
12
1
1
21
2
Tabela 9.2 – Valores críticos de X2 segundo os graus de liberdade do estudo (s -1) e o 
nível de significância
Graus de 
liberdade
Probabilidade de encontrar valores maiores (erro tipo I)
0,20 0,10 0,05 0,02 0,01 0,001
1 1,64 2,71 3,84 5,41 6,64 10,83
2 3,22 4,60 5,99 7,82 9,21 13,82
3 4,64 6,25 7,82 9,84 11,34 16,27
4 5,99 7,78 9,49 11,67 13,28 18,46
5 7,29 9,24 11,07 13,39 15,09 20,52
6 8,56 10,64 12,59 15,03 16,81 22,46
7 9,80 12,02 14,07 16,62 18,48 24,32
8 11,03 13,36 15,51 18,17 20,09 26,12
9 12,24 14,68 16,92 19,68 21,67 27,88
10 13,44 15,99 18,31 21,16 23,21 29,59
Fonte: Sampaio (2010).
– 227 –
Métodos não paramétricos para comparação de várias populações
A distribuição da estatística “K” pode ser obtida a partir apenas do 
conhecimento dos tamanhos amostrais dos tratamentos estudados. A tabela 
9.2 mostra a distribuição exata de “K”, uma aproximação da distribuição 
qui-quadrado com a perda de um grau de liberdade. De forma alternativa, 
a estatística de teste pode ser expressa por meio do desmembramento das 
diferenças elevadas ao quadrado (caso de ausência de empates de obser-
vações). Logo, temos:
K
N N
n R
N
N N
R
nI
S
i i
I
S
i=
+( )
−
+( )









=
+( )
( )
= =
∑ ∑
12
1
1
2
12
11
2
1
2
[
ii
N]− +( )3 1
K
N N
R
n
N
I
S
i
i
=
+( )
( )
− +( )
=
∑
12
1
3 1
1
2
[ ]
Sendo R
i
 a soma dos postos, ni a amostra em cada um dos tratamentos 
e N a amostra total (N n
i
k
i
=
=
∑
1
). Adicionalmente, outro desdobramento tem 
sido empregado para estudar a estatística K, levando em consideração a 
variância amostral, conforme destacado por Sampaio (2010):
K
N N
n R
N
S
R
n
N N
I
S
i i
I
S
i
i
=
+( )
−
+( )









=
( )
−
= =
∑ ∑
12
1
1
2
1
1
2
2
1
2
( ]
++( )








1
4
2
�
Sendo a variância (S 2) dada por:
S
N N
2
1
12
=
+( )
Nas situações de ocorrência de empates entre postos de observações 
por tratamento, há a necessidade de “ajustes” (cF) no cômputo da estatís-
tica de teste, onde é empregada a média dos postos do tratamento e não 
mais a soma dos postos no respectivo tratamento (R
i
).
K
N N cF
n R
N
I
S
i i
=
+( )
−
+( )








=
∑
12
1
1
21
2
.
Bioestatística
– 228 –
cF
d d
N N
i
e
i i
i i
= −
−( )
−( )












=∑1 1
3
3
Sendo o fator de correção baseado na frequência dos empa-
tes (e – valores distintos observados na amostra conjunta; di – a 
frequência de valores/empates observados), modificando também a 
variância amostral.
S
N N cF
2
1
12
=
+( )
Em síntese, para o uso do teste de Kruskal-Wallis, o leitor deve 
ordenar os postos do menor valor para o maior valor e, ocorrendo 
valores com “empates”, a ordenação média deverá substituir as orde-
nações correspondentes – calcula-se a soma dos postos respectivos 
a cada tratamento, a média dos postos e em seguida o cômputo da 
estatística de teste. Uma vez que a estatística de teste se distribui 
em aproximaçãoà distribuição de qui-quadrado, se o valor calculado 
for igual ou superior ao valor crítico de qui-quadrado encontrado na 
tabela 9.2, será verificada a existência de diferenças significativas 
entre os tratamentos estudados.
9.3 Comparações múltiplas
Após a rejeição da hipótese nula por intermédio do teste de Kruskal-
-Wallis, objetiva-se identificar onde encontram-se tais diferenças. Para 
cada comparação, calcula-se as diferenças entre tratamentos por meio da 
média dos postos dos tratamentos (R R
i j
- ). Essas diferenças poderão ser 
testadas pela utilização do teste “t”, calculando-se para cada diferença de 
ordenações entre tratamentos “N – s” graus de liberdade, onde N repre-
senta o conjunto amostral e “s” os tratamentos.
t
R R
S
N K
N s n n
i j
i j
=
−
− −
−






+






2 1 1 1
– 229 –
Métodos não paramétricos para comparação de várias populações
Tabela 9.3 – Distribuição de “t” segundo os graus de liberdade do erro e a probabilidade 
do erro tipo I (bicaudal)
Graus de 
liberdade
Probabilidade de encontrar valores maiores (erro tipo I)
0,90 0,70 0,30 0,10 0,05 0,01 0,001
1 0,158 0,510 1,963 6,314 12,706 63,657 636,619
2 0,142 0,445 1,385 2,920 4,303 9,925 31,598
3 0,137 0,424 1,250 2,353 3,182 5,841 12,941
4 0,134 0,414 1,190 2,132 2,776 4,604 8,610
5 0,132 0,408 1,156 2,015 2,571 4,032 6,859
6 0,131 0,404 1,134 1,943 2,447 3,707 5,959
7 0,130 0,402 1,119 1,895 2,365 3,499 5,405
8 0,130 0,399 1,108 1,860 2,306 3,355 5,041
9 0,129 0,398 1,100 1,833 2,262 3,250 4,781
10 0,129 0,397 1,093 1,812 2,228 3,169 4,587
11 0,129 0,396 1,088 1,796 2,201 3,106 4,437
12 0,128 0,395 1,083 1,782 2,179 3,055 4,318
13 0,128 0,394 1,079 1,771 2,160 3,012 4,221
14 0,128 0,393 1,076 1,761 2,145 2,977 4,140
15 0,128 0,393 1,074 1,753 2,131 2,947 4,073
16 0,128 0,392 1,071 1,746 2,120 2,921 4,015
17 0,128 0,392 1,069 1,740 2,110 2,898 3,965
18 0,127 0,392 1,067 1,734 2,101 2,878 3,922
19 0,127 0,391 1,066 1,729 2,093 2,861 3,883
20 0,127 0,391 1,064 1,725 2,086 2,845 3,850
21 0,127 0,391 1,063 1,721 2,080 2,831 3,819
22 0,127 0,390 1,061 1,717 2,074 2,819 3,792
23 0,127 0,390 1,060 1,714 2,069 2,807 3,767
24 0,127 0,390 1,059 1,711 2,064 2,797 3,745
25 0,127 0,390 1,058 1,708 2,060 2,787 3,725
26 0,127 0,390 1,058 1,706 2,056 2,779 3,707
Bioestatística
– 230 –
Graus de 
liberdade
Probabilidade de encontrar valores maiores (erro tipo I)
0,90 0,70 0,30 0,10 0,05 0,01 0,001
27 0,127 0,389 1,057 1,703 2,052 2,771 3,690
28 0,127 0,389 1,056 1,701 2,048 2,763 3,674
29 0,127 0,389 1,055 1,699 2,045 2,756 3,659
30 0,127 0,389 1,055 1,677 2,042 2,750 3,646
40 0,126 0,388 1,050 1,684 2,021 2,704 3,551
60 0,126 0,387 1,046 1,671 2,000 2,660 3,460
120 0,126 0,386 1,041 1,658 1,980 2,617 3,373
∞ 0,126 0,385 1,036 1,645 1,960 2,576 3,291
Fonte: Sampaio (2010).
A partir do cômputo da estatística “t” de Student nas comparações, 
deve-se identificar o valor da estatística de teste para os respectivos graus 
de liberdade, para determinar o valor de probabilidade referente à compa-
ração. Em ambiente “R”, sugere-se instalar os pacotes estatísticos gratui-
tos “PMCMR” e “PMCMRplus” para uso do teste de comparações múlti-
plas de Nemenyi. A seguir são apresentados exemplos de uso do teste de 
Kruskal-Wallis e do teste de comparações múltiplas.
Exemplo 1. Em um estudo sobre o efeito de dietas sobre a massa 
corporal de ratos Wistar, foram distribuídos aleatoriamente 25 animais em 
quatro grupos de dietas. Após 12 semanas, mediu-se a massa corporal, que 
foi computada para verificar se houve alguma alteração. Os dados obtidos 
e os respectivos postos são reportados entre parênteses na tabela 9.4.
Tabela 9.4 – Alteração de massa corporal após 12 semanas de dieta
Tratamentos
Tratamento A Tratamento B Tratamento C Tratamento D
277 (22) 221 (6) 268 (21) 222 (7)
225 (10) 251 (20) 285 (23) 296 (24)
226 (11) 217 (5) 207 (3) 227 (12)
– 231 –
Métodos não paramétricos para comparação de várias populações
Tratamentos
Tratamento A Tratamento B Tratamento C Tratamento D
184 (1) 205 (2) 240 (16) 224 (9)
210 (4) - 232 (13) 250 (19)
234 (14) - 235 (15) 247 (17)
248 (18) - 301 (25) -
223 (8) - - -
Fonte: elaborada pelo autor.
Logo, as hipóteses são:
 2 H0: as medianas das distribuições dos tratamentos são iguais 
(Mediana Mediana Mediana Mediana
A B C D
= = =
�
);
 2 H1: há alguma diferença entre as medianas dos tratamentos 
(Mediana
i
¹ 0).
Somatório dos postos de cada tratamento: (åR
i
): A = 88; B = 33; 
C = 116; D = 88.
Média de postos de cada tratamento: (R
i
): A� = 11; B = 8,25; C = 16,57; 
D =14,66.
Média global de postos: (R..): 13
Estatística de teste:
K =
( )
−( ) + −( ) + −( ) + −( )12
25 26
8 11 13 4 8 25 13 7 16 57 13 6 14 66 13
2 2 2 2
, , ,





= 4 2,
A probabilidade de significância do teste empregando a distribuição 
qui-quadrado com 3 graus de liberdade (graus de liberdade = tratamen-
tos -1 = 4 – 1, figura 9.2) é de 0,2407 (aproximadamente), logo, a hipó-
tese nula de igualdade entre as medianas das dietas para ganho de massa 
corporal não deveria ser rejeitada. Assim, em ambiente “R”, temos na 
figura 9.2 a mesma análise.
Bioestatística
– 232 –
Figura 9.2 – Importação do banco de dados e aplicação do teste de Kruskall-Wallis 
para verificação da diferença de medianas dos tratamentos
Fonte: elaborada pelo autor.
Exemplo 2. Amostras de pilhas de diferentes marcas foram selecio-
nadas aleatoriamente para estudar se há diferença de vida útil entre as 
marcas disponíveis. As pilhas foram avaliadas experimentalmente por 
meio do tempo de duração em horas. A seguir são detalhadas as respostas 
e os postos ordenados.
As hipóteses são:
 2 H0: as medianas das distribuições dos tratamentos são iguais 
(Mediana Mediana Mediana
1 2 3
= =
�
);
 2 H1: há alguma diferença entre as medianas dos tratamentos 
(Medianas
i
¹ 0).
Tabela 9.5 – Vida útil em horas de diferentes marcas de baterias
Marcas
Marca “1” (n = 5) Marca “2” (n = 4) Marca “3” (n = 4)
63,1 (5) 74,0 (12,5) 72,3 (11)
– 233 –
Métodos não paramétricos para comparação de várias populações
Marcas
Marca “1” (n = 5) Marca “2” (n = 4) Marca “3” (n = 4)
54,2 (1,5) 70,4 (8,5) 69,2 (7)
57,0 (3) 71,5 (10) 70,4 (8,5)
54,2 (1,5) 67,6 (6) 74,0 (12,5)
60,0 (4) - -
R
1
15= R
2
37= R
3
39=
R
1
3= R
2
9 25= , R
3
9 75= ,
Média global de postos (R
..
): 7
Fonte: elaborada pelo autor.
Estatística de teste:
K =
( )
−( ) + −( ) + −( )





=
12
13 14
5 3 7 4 9 25 7 4 9 75 7 8 604
2 2 2
, , ,
Logo, temos a probabilidade de significância:
p P K P= ≥

 = ≥

 ≈8 604 8 604 0 0136
2
2, , ,c
Assim, a partir da estatística de teste e probabilidade de significância, 
a hipótese nula de igualdade entre as medianas dos tratamentos deveria 
ser rejeitada em favor da hipótese alternativa, sugerindo a necessidade 
de aplicação de um teste de comparações múltiplas para verificação das 
diferenças entre cada marca de pilha. Em ambiente “R” temos a mesma 
análise, conforme mostrado na figura 9.3.
Figura 9.3 – Importação do banco de dados e aplicação do teste de Kruskall-Wallis 
para verificação da diferença de medianas dos tratamentos
Bioestatística
– 234 –
Fonte: elaborada pelo autor.
Após comparar as diferentes marcas de pilhas, verificou-se diferenças 
significativas entre a marca “1” e a marca “3” (p=0,035), às margens da sig-
nificância entre a marca “1” e marca “2” (p=0,056), e sem diferença entre a 
marca “2” e a marca “3” (p=0,984). Em suma, a marca “1” possui uma vida 
útil registrada em horas corridas menor que as marcas “2” e “3” (Figura 9.3).
9.4 Comparação de vários tratamentos 
pareados: caso de blocos aleatorizados 
completos (Teste de Friedman) 
Este teste ocorre na presença de mais de dois grupos ou tratamentos 
pareados em que é possível caracterizar a existência de blocos, aleatoria-
mente administrados, porém sob o prisma não paramétrico (figura 9.1). 
Ao considerar que o efeito de tratamentos administrados afeta apenas etão somente as respostas, neste caso, a hipótese alternativa propõe que há 
alguma diferença entre as medianas das distribuições das respostas nos dife-
rentes tratamentos, supondo então a existência de uma ordenação entre os 
tratamentos. Assim, a média de seus postos nos diferentes blocos é dada por:
R
R R R
b
R
b
ondeR éo postoemcadatratament
i
i i i i
ij
=
+ +…+
=1 2 1 � � � � � � � � oo
– 235 –
Métodos não paramétricos para comparação de várias populações
Logo, a ordenação dos tratamentos é efetuada dentro de cada bloco 
(b) em conformidade com as observações amostrais obtidas (da observa-
ção de menor valor para a observação de maior valor). No caso de dife-
rença entre tratamentos (s), isso se reflete em diferença entre os valores de 
somatório dos postos (R
i
) levando à rejeição da hipótese nula. Por outro 
lado, para a hipótese nula, o somatório dos postos de cada tratamento 
tende a estar próximo à média geral de postos (R
..
, a seguir).
R
bs
s s s
j
b
..
=
+( )





=
+
=
∑
1 1
2
1
21
9.5 Estatística de Friedman
A estatística de teste sob a hipótese nula tem uma distribuição de 
qui-quadrado (aproximadamente) com perda de um grau de liberdade. De 
forma semelhante à estatística de Kruskal-Wallis, as hipóteses estatísticas 
para o teste de Friedman são:
 2 H0: as medianas das distribuições dos tratamentos são iguais 
(Mediana Mediana Mediana
s1 2
= =…=
�
);
 2 H1: há alguma diferença entre as medianas dos tratamentos 
(Medianas
i
¹ 0).
Logo, temos a estatística de teste de Friedman para a situação de 
ausência de empates em cada bloco:
c
0
2
1
2
12
1
1
2
=
+( )
−
+





=
∑
b
s s
R
s
I
S
i.
Ou, ainda, pode ser novamente escrita:
c
0
2
1
212
1
3 1=
+( )










− +( )





=
∑bs s
R b s
I
S
i
No caso da presença de empates de observações amostrais dentro dos 
blocos (empates ocorridos em todos os blocos), deve-se empregar postos 
Bioestatística
– 236 –
médios na ordenação dos elementos amostrais contidos em cada bloco, 
com uma correção da estatística de teste:
c
0
2
1
2
112
1
1
2
1=
+( )
−
+





= −
=
=∑
∑b
s s cF
R
s
ondecF
I
S
i
j
b
i
.
; ==∑ −( )
−( )














1
3
2 1
e
ij ij
j d d
bs s
 2 dij = número de observações no bloco que são iguais ao j-ésimo 
valor;
 2 ej = número de observações distintas no bloco j.
De forma parecida ao teste de Kruskal-Wallis, a variância dos postos 
é dada por:
S
s s
casossemempatesnosblocos2
1
12
=
+( )( )� � � � �
S
s s cF
casoscomempatesnosblocos2
1
12
=
+( ) ( )� � � � �
Em suma, para aplicar o teste de Friedman, os elementos amostrais 
dentro de cada bloco devem ser ordenados. Observando o cômputo de valo-
res médios para empates nos postos, deve-se somar as ordenações para cada 
respectivo tratamento, determinar o valor da estatística de teste (valor calcu-
lado de qui-quadrado), seguido da comparação para com o valor crítico de 
qui-quadrado (tabelado, ver tabela 9.2). Caso o valor de estatística de teste 
calculado configure-se maior ou igual ao valor tabelado da distribuição de 
qui-quadrado, verificar se há diferença entre ordenações dos tratamentos, 
sucedendo-se a necessidade de testes de comparações múltiplas.
9.6 Comparações múltiplas
Para cada par de tratamentos, calcula-se as diferenças, onde R
i
 e R
j
 
são a média dos postos dos respectivos tratamentos:
d R R
i j
= − ;
– 237 –
Métodos não paramétricos para comparação de várias populações
Logo, para a comparação de diferentes tratamentos (p), a diferença 
mínima significativa (dms) será dada por:
dms z
s s
b
p
=
+( )
a
2
1
6
Em ambiente “R”, deve-se instalar os pacotes estatísticos gratuitos 
“PMCMR” e “PMCMRplus” para uso do teste de comparações múltiplas 
de Nemenyi. A seguir são apresentados exemplos de uso do teste de Frie-
dman e do teste de comparações múltiplas de Nemenyi.
Exemplo 3. Uma empresa de bebidas deseja conhecer a preferência 
de seus clientes por diferentes tipos de vinhos. Foram selecionadas 12 
pessoas para experimentar vinhos tintos, brancos e rosé aleatoriamente, 
observando um intervalo adequado para não interferir sobre as avaliações. 
Logo, para as comparações, temos as hipóteses:
 2 H0: as medianas das distribuições das preferências para os tipos 
de vinhos são iguais;
 2 H1: há alguma diferença entre as medianas das distribuições das 
preferências para os tipos de vinhos.
Tabela 9.6 – Preferência por diferentes tipos de vinhos
Indivíduos Vinho branco Vinho tinto Vinho rosé
1 10 7 8
2 8 5 5
3 7 8 6
4 9 6 4
5 7 5 4
6 9 7 5
7 5 9 3
8 6 7 7
9 5 4 6
10 10 6 4
Bioestatística
– 238 –
Indivíduos Vinho branco Vinho tinto Vinho rosé
11 4 7 4
12 7 3 3
Fonte: elaborada pelo autor.
c
2
2
1
2
12
1
1
2
6 0455=
+( )
−
+





=
=
∑
b
s s
R
s
I
S
i.
,
PH
0 2
2 6 0455 0 048c ≥

 =, ,
Figura 9.4 – Importação do banco de dados e aplicação do teste de Friedman
– 239 –
Métodos não paramétricos para comparação de várias populações
Fonte: elaborada pelo autor.
Após a aplicação do teste de Friedman, verificou-se a existência de 
diferença significativa entre as medianas das distribuições de preferências 
por diferentes tipos de vinhos (Figura 9.4). Logo, após suceder os testes de 
comparações múltiplas de Nemenyi, demonstrou-se que houve diferença 
na preferência maior dos clientes por vinho branco do que por vinho rosé.
Figura 9.5 – Teste de comparações múltiplas de Nemenyi em ambiente “R”
Fonte: elaborada pelo autor.
Exemplo 4. Um produtor rural deseja cultivar aveia em sua proprie-
dade. Antes de iniciar o cultivo, decidiu encomendar um estudo para com-
parar as distribuições de produção para quatro variedades de aveia em 
diferentes tipos de solo. Neste exemplo, cada tipo de solo constitui-se no 
bloco e as variedades de aveia nos tratamentos. A seguir é reportada na 
tabela 9.7 a produtividade de aveia em toneladas por hectare para as varie-
dades de aveia nos 5 tipos de solo.
Bioestatística
– 240 –
Tabela 9.7 – Produtividade de aveia em toneladas por hectare para diferentes tipos de 
solo e seus respectivos postos entre parênteses
Tipos de solo Tipo “1” Tipo “2” Tipo “3” Tipo “4”
1 6,00 (1) 6,21 (2) 7,52 (3) 7,76 (4)
2 6,48 (2) 6,72 (3) 6,73 (4) 6,00 (1)
3 6,96 (1) 7,28 (2) 6,44 (4) 7,32 (3)
4 6,40 (1) 6,72 (2) 7,76 (4) 6,96 (3)
5 6,74 (2) 6,28 (1) 7,76 (3,5) 7,76 (3,5)
Total (postos) 7 10 18,5 14,5
Média (postos) 1,4 2 3,7 2,9
Fonte: elaborada pelo autor.
c
3
2
1
2
12
1
1
2
4 9592=
+( )
−
+





=
=
∑
b
s s cF
R
s
I
S
i.
,
PH
0 3
2 4 9592 0 1748c ≥

 =, ,
Após aplicar o teste de Friedman, a produtividade observada em 
diferentes tipos de aveia em solos diferentes não revelou diferenças sig-
nificativas (c32 4 9592 0 1748= =, ; ,p ). Logo, qualquer tipo de aveia pode ser 
recomendado ao produtor rural para o cultivo com a finalidade de alcançar 
uma melhor produtividade.
Figura 9.6 – Importação do banco de dados e aplicação do teste de Friedman
– 241 –
Métodos não paramétricos para comparação de várias populações
Fonte: elaborada pelo autor.
Após a apresentação dos conteúdos e exemplos referentes aos testes 
não paramétricos de Kruskal-Wallis e de Friedman, sugere-se aos leitores 
a reprodução dos exemplos apresentados neste capítulo, tanto manual-
mente quanto no software “R”, para entendimento e fixação dos concei-
tos. Nós sugerimos ao leitor que se sinta livre e encorajado para explorar 
outros exemplos e o entendimento dos planejamentos experimentais, suas 
vantagens e desvantagens de utilização.
Atividades
1. A propagação de piolho em aves será associada em geral às con-
dições climáticas e à densidade populacional dos hospedeiros. 
Foram estudadas duas cidades diferentes no estado do Paraná, 
onde havia granjas com manejo intensivo de aves (galpões de 
confinamento) e outras com manejo extensivo (aves com acesso 
permanente ao verde).Cada granja forneceu uma ave em idade 
de abate, escolhida ao acaso, como unidade experimental, e nela 
foi realizada a contagem do número de piolhos presentes. Para 
isso, a ave precisou ser abatida e depenada a seco. Observe os 
resultados obtidos de contagem por município e manejo.
Contagem do número de piolhos presentes
Município A (>UR) Município B (<UR)
Extensivo Intensivo Extensivo Intensivo
0 8 3 20
Bioestatística
– 242 –
Contagem do número de piolhos presentes
Município A (>UR) Município B (<UR)
Extensivo Intensivo Extensivo Intensivo
1 20 6 15
3 7 2 33
0 9 10 33
0 3 4 14
5 9 8 30
2 10 2 28
2 5 13 17
a) Embora os resultados sejam discretos, seria possível sua norma-
lização? Justifique.
b) Qual é a estratégia de análise para esta situação?
c) Execute a análise sugerida em ambiente “R”.
2. Caso em determinado município houvesse um manejo menos 
frequente, poderíamos ter, por exemplo, apenas cinco granjas de 
manejo extensivo no município B:
a) Em quê isso afetaria a estratégia de análise? Explique.
b) Em quê isso afetaria a comparação de médias? Explique.
c) Caso houvesse resultados dos dois sistemas, mas apenas de um 
município, você utilizaria a mesma análise? Comente.
3. Uma cooperativa de beneficiamento e comercialização de leite 
recebe a produção de quatro grandes regiões de um mesmo 
município. Esta cooperativa possui um laboratório capaz de 
medir a qualidade do leite que recebe de seus associados. Os 
produtos chegam em carros-pipa na usina de processamento, 
trazendo uma amostra composta de leite de algumas fazendas. 
O laboratório analisa a contagem de coliformes a 30 °C, C de 
Staphylococcus aureus a 45 °C, e realiza outras análises que 
caracterizam a qualidade microbiológica do leite. A contagem 
– 243 –
Métodos não paramétricos para comparação de várias populações
de Staphylococcus aureus foi realizada em um estudo para veri-
ficar se havia diferença de contaminação entre as quatro regi-
ões, com a intenção de priorizar seu controle preventivamente 
em locais com maior potencial de contaminação. Os resultados 
observados estão a seguir (contagem em diluições de 102). Faça 
a análise do ensaio em ambiente R e interprete os resultados.
Contagem de Staphylococcus aureus
Repetição Região A Região B Região C Região D
1 1 0 27 0
2 135 260 20 0
3 140 590 1 0
4 0,1 140 40 11000
5 3350 23000 530 2150
6 1010 6300 0,2 0
7 190 3 4 41
8 4 0 3 7
9 370 0 0,2 8,5
10 9,5 0,2 0,2 65
11 40 200 10 20
12 2320 905 0,2 20
4. Um produto de homeopatia à base da planta “timbó”, que possui 
propriedades diuréticas, foi utilizado com finalidade de reduzir 
o peso de postura e eclosão de ovos de teleóginas. Verificou-se 
a resposta obtida como percentual de eclosão de ovos. Faça a 
análise do ensaio em ambiente R e interprete os resultados.
Percentual de eclosão de ovos de teleóginas
Controle Timbó Timbó + selênio Timbó + cobre
90 60 58 80
80 45 63 65
95 75 49 70
Bioestatística
– 244 –
Percentual de eclosão de ovos de teleóginas
Controle Timbó Timbó + selênio Timbó + cobre
98 85 80 55
85 50 70 68
5. O glicerol é uma substância muito utilizada como crioprote-
tor no congelamento de sêmen de diversas espécies. Contudo, 
é sabido de seu potencial destrutivo, sendo positivamente cor-
relacionado com a concentração que é adicionada no diluidor. 
Apesar deste conhecimento, não há disponível atualmente outro 
material crioprotetor que o substitua. Assim, há pesquisas volta-
das para determinar qual concentração de glicerol é menos pre-
judicial. Neste estudo, foi empregado o garanhão como unidade 
experimental, com seu sêmen sendo coletado e dividido em alí-
quotas, que foram distribuídas entre todos os tratamentos. A via-
bilidade das células espermáticas foi dada pela sua motilidade 
após o descongelamento.
Motilidade de células espermáticas para 
diferentes concentrações de glicerol
Animais Tratamento I 
(3,5% de glicerol)
Tratamento II 
(4,5% de glicerol)
Tratamento III 
(5,5% de glicerol)
1 40 45 33
2 32 40 45
3 30 35 20
4 45 32 30
5 33 39 52
6 45 50 23
7 20 30 42
8 30 39 33
9 52 65 45
10 23 23 20
11 42 60 30
– 245 –
Métodos não paramétricos para comparação de várias populações
Motilidade de células espermáticas para 
diferentes concentrações de glicerol
Animais Tratamento I 
(3,5% de glicerol)
Tratamento II 
(4,5% de glicerol)
Tratamento III 
(5,5% de glicerol)
12 30 53 30
13 43 56 52
14 23 63 23
15 20 30 42
16 30 30 30
a) Faça a análise estatística segundo a estratégia recomendada.
b) É possível perceber o efeito prejudicial do crioprotetor à medida 
que a concentração aumenta?
6. É necessário estar preparado para transformar os resultados da 
análise não paramétrica em conclusão prática. Como o leitor 
apresentaria os resultados para caracterizar o potencial de cada 
concentração? Discuta.
7. Cavalos empregados na modalidade esportiva de hipismo 
podem apresentar alterações no aparelho locomotor decorren-
tes de injúrias ou luxações ocorridas em eventos competitivos. 
A partir deste cenário, um novo tratamento está sendo testado, 
avaliando-se o grau de claudicação a cada 24 horas (sensibi-
lidade à palpação do tendão flexor digital superficial) por um 
médico veterinário, que utiliza uma avaliação subjetiva da sen-
sibilidade: 5 = sensibilidade máxima, 0 = sem sensibilidades. 
Os cavalos aqui considerados tiveram lesões simples e equiva-
lentes. Veja os resultados a seguir:
Sensibilidade à palpação do tendão flexor 
digital superficial pelo tempo
Cavalos 24h 48h 72h 96h
1 4 4 3 2
2 3 4 3 1
Bioestatística
– 246 –
Sensibilidade à palpação do tendão flexor 
digital superficial pelo tempo
Cavalos 24h 48h 72h 96h
3 3 3 2 1
4 3 3 2 2
5 2 2 1 0
6 3 3 2 3
7 4 3 3 2
8 5 3 2 0
9 4 3 3 1
10 3 2 1 0
11 4 3 4 1
Está implícito que o pesquisador deseja saber a partir de que 
tempo após a aplicação diária do tratamento a claudicação arre-
fece, ou seja, qual o tempo mínimo para o tratamento aplicado 
para mostrar efetividade.
a) Qual a estratégia de análise para os dados apresentados? Justifique.
b) Esse número de animais estudados parece ser suficiente? Comente.
8. Execute a análise sugerida no primeiro item.
9. Exprima as conclusões a respeito dos resultados obtidos. Em 
seguida, apresente uma outra situação que exigiria a aplicação 
desta mesma técnica de análise, preferencialmente em sua área 
experimental ou conexa.
10. O Brasil é um dos maiores exportadores de produtos agrícolas 
do mundo. Logo, há a necessidade constante de aprimoramento 
genético de animais. Em experimento conduzido por um médico 
veterinário, seis concentrações de um diluente de sêmen foram 
testadas em 12 amostras de sêmen obtidas de touros da raça pardo 
suíça. Após o procedimento de homogeneização, cada amostra 
foi dividida em seis alíquotas, preparadas posteriormente com 
uma das seis concentrações, em teste do diluente (C1, C2, C3, 
– 247 –
Métodos não paramétricos para comparação de várias populações
C4, C5, C6). Os resultados para a resposta vigor (0, 1, 2, 3, 4, 5) 
foram medidos 6 horas após a diluição e conservação em tem-
perada adequada. Faça a análise do experimento e comente os 
resultados obtidos.
Resposta de vigor para concentrações do diluente
Touros C1 C2 C3 C4 C5 C6
1 4 5 1 2 3 1
2 5 4 3 1 3 1
3 5 4 5 3 4 0
4 4 3 4 3 2 3
5 5 5 3 4 2 2
6 4 5 3 2 1 1
7 3 5 2 2 0 2
8 4 5 2 1 1 4
9 3 4 4 1 2 1
10 5 5 4 3 2 1
11 4 4 0 2 3 0
12 5 4 3 4 2 2
Total da 
ordenação (åRi)
63 62 43 33 28 23
Média da 
ordenação 5,25 5,17 3,54 2,75 2,33 1,92
Mediana 4 4,5 3 2 2 1
Médias seguidas de letras distintas diferem pelo teste de Friedman 
(p < 0,05), r = repetições, b = blocos, t = tratamentos.
10
Aplicação de conceitos 
e desenvolvimento 
de exemplos práticos 
no software “R”
Após apresentarmos diversos conceitos em bioestatística, 
chegou o momento de desenvolvermos exemplos práticos para 
consolidar o aprendizado obtido nesta obra. Os exemplos con-
duzidos neste capítulo serão detalhados passo a passo em suas 
premissas e cálculos, bem como os comandos executáveisem 
ambiente “R” e suas respectivas interpretações. É recomendável 
que estes exemplos sejam estudados e reproduzidos pelo leitor 
Bioestatística
– 250 –
para entendimento das técnicas estatísticas. Nos exemplos realizados, será 
apresentado ainda o banco de dados e sua forma de composição ou coleta 
de dados. Logo, os exemplos reais a serem mostrados a seguir irão perfa-
zer os seguintes temas e assuntos:
[1] Análise exploratória de dados – desempenho de atletas 
de velocidade.
[2] Associação e relacionamento de variáveis – monitora-
mento da carga no futebol.
[3] Inferência estatística – análise do campeonato europeu de 
handebol feminino de 2020.
[4] Métodos não paramétricos – efeito da desidratação em 
lutadores amadores.
Adicionalmente, os bancos de dados são ofertados para que os usu-
ários possam treinar a realização de suas próprias análises. O leitor pode 
ainda desenvolver e treinar as análises com seus próprios dados, uma 
excelente forma de consolidação do aprendizado.
Exemplo 1. Análise exploratória de dados – Avaliação de desem-
penho em testes de 50 metros de atletas de velocidade
A avaliação do desempenho de atletas submetidos a regimes de trei-
namento direcionados a provas de velocidade no atletismo é fundamental 
para treinadores. Em geral, estas avaliações são realizadas por meio do 
registro do tempo decorrido para percorrer uma distância preestabelecida, 
em que podem ser computados parâmetros médios de velocidade, acelera-
ção, força, potência e impulso alcançados, utilizando cronômetros, placas 
sensíveis ao contato e células fotoelétricas. Apesar de serem parâmetros 
úteis aos treinadores, estes dispositivos não são capazes de revelar as osci-
lações e o que fato ocorreu durante a tarefa. Para superar essa limitação, os 
pesquisadores na área esportiva frequentemente recorrem ao uso de câme-
ras de alta velocidade e de softwares para reconstrução bidimensional ou 
tridimensional do desempenho dos indivíduos testados, para obtenção de 
medidas acuradas durante a tarefa. Porém, além de ser um recurso extre-
mamente caro, a logística de preparação do equipamento, a exigência de 
pessoal treinado para realização das medições e o tempo para realização 
– 251 –
Aplicação de conceitos e desenvolvimento de exemplos práticos no software “R”
do procedimento de processamento tornam inviável seu emprego durante 
a prática diária. Ne tem sido utilizados dispositivos do tipo “encoder”, 
permitindo a determinação de parâmetros cinemáticos e cinéticos instan-
tâneos durante a tarefa, conforme evidenciado na figura 10.1.
Figura 10.1 – Exemplo de gráfico de velocidade em função do tempo em uma tarefa 
de “sprint” ou corrida de 30 metros obtido com uso de um encoder
Fonte: elaborada pelo autor.
Logo, para selecionar corretamente os melhores atletas para parti-
cipação de uma competição de 100 m rasos, um treinador decidiu ava-
liar e classificar o desempenho de seus atletas para não incorrer em erros 
e entender o impacto das sessões de treinamento. Para isso, o treinador 
administrou testes de 50 m com um dispositivo do tipo encoder. Os indi-
víduos foram orientados previamente a desenvolver sua corrida em no 
máximo três repetições, sendo retido o melhor desempenho observado 
para tomada de decisão, a respeito da participação na competição e do 
processo de treinamento. Após a realização das medições, os resultados 
para as variáveis obtidas são apresentados a seguir (Velocidade máxima, 
Vmax [m/s]; aceleração máxima, Amax [m/s2]; força máxima, Fmax [N]; 
força máxima relativizada pela massa do indivíduo, Fmaxrel [N/Kg]; pico 
Bioestatística
– 252 –
de potência, Pmax [W]; pico de potência relativizado pela massa do indi-
víduo, Pmaxrel [W/kg]; tempo para alcançar o pico de potência, TPmax 
[s] e tempo total). Logo, importando o conjunto de dados, temos conforme 
a figura 10.2 o banco de dados em ambiente R.
Figura 10.2 – Importação do banco de dados das variáveis de Vmax [m/s], Amax [m/
s2], Fmax [N], Fmaxrel [N/Kg], Pmax [W], Pmaxrel [W/kg] e TPmax [s] obtidas pelos 
atletas no teste de 50 metros
Fonte: elaborada pelo autor.
Ao observar o desempenho observado nos testes (figuras 10.2, 10.3 
e 10.4), foi possível verificar que o indivíduo 4 apresentou o melhor 
(menor) tempo total nos testes (6,760 segundos), bem como o melhor 
pico de aceleração, força máxima (absoluta e relativa), potência (abso-
luta e relativa) e o segundo melhor tempo para alcançar o pico de potên-
cia (0,850 segundo).
O pior desempenho é verificado para o indivíduo 1, que possui o 
maior tempo total, menor força (absoluta e relativa), potência (absoluta 
e relativa), tempo para alcançar o pico de potência, aceleração máxima, 
apesar de não apresentar o maior valor de velocidade máxima (terceiro 
menor valor). É interessante ressaltar que variabilidade relativa (%), das 
variáveis quantificadas foi menor que 10%, denotando a consistência 
interindivíduo e a homogeneidade do grupo de atletas, algo de suma 
importância ao direcionamento do processo de treinamento e seleção de 
atletas para torneios. Os parâmetros descritivos para cada variável são 
apresentados na figura 10.3.
– 253 –
Aplicação de conceitos e desenvolvimento de exemplos práticos no software “R”
Figura 10.3 – Análise descritiva das variáveis de desempenho em sprints de 50 metros
Fonte: elaborada pelo autor.
A seguir são explorados os gráficos de dispersão para as variáveis 
de velocidade máxima [m/s], aceleração máxima [m/s2], força máxima 
[N], força máxima relativa [N/Kg], potência máxima [W], potência 
máxima relativa [W/kg] e tempo para alcançar a potência máxima [s] 
obtidos pelos atletas no teste de 50 metros, bem como seus respectivos 
comandos em ambiente “R”.
Figura 10.4 – Gráficos de dispersão das variáveis estudadas
Bioestatística
– 254 –
Fonte: elaborada pelo autor.
Exemplo 2. Associação e relacionamento de variáveis: marcado-
res de monitoramento da carga no futebol
O futebol é um esporte coletivo que movimenta vultuosas somas de 
recursos financeiros. No processo de treinamento, os atletas são expostos 
a muitos jogos e sessões de treino. Um grande desafio aos profissionais 
relacionados à comissão técnica reside na tarefa de otimização do desem-
penho concomitantemente à prevenção e à redução do número de lesões. 
Logo, é de interesse destes profissionais a adoção de métodos de diagnós-
– 255 –
Aplicação de conceitos e desenvolvimento de exemplos práticos no software “R”
tico que possibilitem o controle do processo de treinamento de forma indi-
vidualizada, rápida e prática. Nesse sentido, é bem conhecido o aumento 
principalmente da demanda física dos jogos, que abrangem ações intensas 
e excêntricas, as quais estão associadas a danos musculares e consequen-
tes processos inflamatórios. Esses processos inflamatórios são verificados 
pela proliferação de fagócitos, pelo aumento da síntese de proteínas, como 
a Proteína C-reativa (PCR). O aumento das concentrações de PCR e o 
aparecimento do processo inflamatório têm sido associados ao aumento 
local da temperatura muscular.
Figura 10.5 – Estudo do grau de associação e do relacionamento entre a variável PCR 
[%] em função do TskHZn [%]
Fonte: elaborada pelo autor.
Neste contexto, a análise de concentrações plasmáticas de PCR 
tem se tornado uma medida muito importante para determinação do 
Bioestatística
– 256 –
quadro inflamatório dos atletas no futebol, entretanto, esta medida é 
invasiva, necessitando de coletas sanguíneas. Por outro lado, câmeras 
sensíveis ao calor têm sido utilizadas para estudar o processo infla-
matório para controle do processo de treinamento, um procedimento 
não invasivo, com várias potencialidades e rápido, tema de estudo em 
evidência nas ciências do esporte.
Figura 10.6 – Gráfico de dispersão da variável de PCR [%] em função da TskHZn [%]
Fonte: elaborada pelo autor.
Logo, a comissão técnica de um time de futebol iniciou um estudo 
exploratório sobre a relação entre os dois métodos de medição para dimi-nuir custos e tempo. O objetivo era associar e relacionar os níveis relati-
vos da proteína C reativa (PCR) e da temperatura da pele dos membros 
inferiores (Tsk-HZn) de atletas de futebol em três jogos. Para isso, foram 
determinados valores basais para PCR e Tsk-HZn (valores iniciais). Após 
5 dias foram efetuadas medições de PCR e de Tsk-Hzn, após a realização 
de 3 jogos com 10 atletas de futebol. A seguir é exibido o banco de dados 
e sua respectiva importação para o ambiente “R”.
– 257 –
Aplicação de conceitos e desenvolvimento de exemplos práticos no software “R”
Para estudar a relação das variáveis de Tsk-HZn [%] em função das 
variáveis fisiológicas CRP [%], modelos de regressão linear foram ajusta-
dos, computado o coeficiente de determinação (R2) e estabelecido o grau 
de associação por meio do coeficiente de correlação de Spearman (ρ) (tri-
vial, ρ ≤ 0.25; fraco, ρ = 0.26 – 0.50; moderado, ρ = 0.51 – 0.75; e forte, 
ρ = 0.76 – 1.00). Concomitantemente, sucedeu-se a verificação da significân-
cia estatística dos modelos (intercepto [“a”] e coeficiente de regressão [“b”]).
Por meio do ajuste dos modelos, encontrou-se que a variável CRP 
[%] pode ser adequadamente explicada pela variável Tsk-HZn [%]. 
O intercepto e o coeficiente de regressão obtido foram significati-
vos para o modelo ajustado (CRP [%] = 6.481 + 0.871Tsk-HZn [%]; 
R2 = 0.87, “α” e “β”, p < 0.001). Para cada aumento de uma unidade da 
variável Tsk-HZn [%], o valor da variável CRP [%] é multiplicado em 
0,871 vezes. Adicionalmente, as variáveis estudadas mostraram forte 
grau de associação (CRP [%] vs. Tsk-HZn [%] – ρ = 0.91 [0.85; 0.94], 
p < 0.001), manifestando-se como colineares. As figuras 10.5 e 10.6 
mostram as saídas obtidas nas análises e os gráficos de dispersão.
Em seguida, o breve estudo exploratório verificou que os métodos de 
medição estão altamente associados, possibilitando que a partir da tempe-
ratura observada em zonas quentes seja estimada a concentração de PCR, 
diminuindo os custos e tornando mais prático o processo de monitora-
mento pós-jogo no futebol.
Exemplo 3. Métodos paramétricos e não paramétricos: análise 
do desempenho observado nas partidas disputadas no campeonato 
europeu de handebol feminino de 2020
A busca pela excelência em modalidades esportivas coletivas, assim 
como no handebol, tem feito com que treinadores e comissões técnicas 
procurem meios e ferramentas para a análise do desempenho em jogos de 
equipes de alto nível e para a identificação das variáveis necessárias para 
alcançar o sucesso. Entre os anos 1995 e 2001, foram discutidas e implan-
tadas modificações importantes nas regras do jogo, como a “regra do jogo 
passivo” relacionada com falta de objetividade no ataque e a “saída de 
jogo após o gol”. Essencialmente a partir deste movimento e outras altera-
ções subsequentes (como a mais recente regra do sétimo jogador), o jogo 
tornou-se mais rápido, dinâmico e complexo, alterando a intensidade das 
Bioestatística
– 258 –
ações dos jogadores. Neste sentido, a escassez de informações oriundas de 
análises de desempenho sobre as variáveis que diferenciam equipes ven-
cedoras das perdedoras dificulta o planejamento de treinos e competições 
para melhora do desempenho em competições de alto nível, ou mesmo 
como referência para equipes, treinadores e jogadores em desenvolvi-
mento. Adicionalmente, com a ausência de público presencial em instala-
ções esportivas em consequência da pandemia global de Sars-cov-2, faz-se 
necessário o estudo do desempenho observado nos jogos das competições 
desenvolvidas nestas condições. Para isso, foram coletadas informações 
de 43 jogos oficiais do Campeonato Europeu Feminino adultos de 2020, 
com dados disponibilizados no website da Federação Europeia de Hande-
bol (https://women2020.ehf-euro.com/home/). Logo após a tabulação de 
dados para variáveis de ordem coletiva, foram testadas as hipóteses para 
normalidade, homoscedasticidade e diferença entre perdedores e vencedo-
res nas partidas. Assim, como nos exemplos anteriores, o banco de dados 
é fornecido como material de apoio.
Figura 10.7 – Comparação entre equipes perdedoras e ganhadoras para o número de 
lançamentos por equipe
Fonte: elaborada pelo autor.
– 259 –
Aplicação de conceitos e desenvolvimento de exemplos práticos no software “R”
O handebol é uma modalidade que envolve um número grande de 
finalizações por lançamentos. Logo, após testar a hipótese de normalidade 
(W = 0,98; p = 0,32) e homoscedasticidade (χ2 = 0,11; p = 0,73) verificou-se 
que ambas foram respeitadas (utilizando a função “log()” para redução da 
escala) e sucedeu-se a realização de uma análise de variância. O leitor deve 
perceber que nesse caso poderia perfeitamente ser executado um teste “t” 
para amostras independentes. Após as análises, foram verificadas diferenças 
significativas para o número de lançamentos realizados por vencedores e 
perdedores das partidas (44,42 ± 4,28 vs. 46,81 ± 4,76; F = 6,02, p = 0,016), 
em que a estatística “F” (razão de variâncias) é conclusiva.
Figura 10.8 – Comparação entre equipes perdedoras e ganhadoras para perda de 
posse de bola (“turnover”)
Fonte: elaborada pelo autor.
No contexto da modalidade, a variável “turnover”, ou perda de posse 
de bola, é de suma importância, uma vez que a conservação da posse de 
bola para a realização das finalizações é um dos princípios-chave. Nesse 
sentido, após testar os pressupostos de normalidade (W=0,98; p=0,26) e 
Bioestatística
– 260 –
homogeneidade de variâncias (χ2=1,83; p=0,17), verificou-se que a variá-
vel coleta respeitava tais pressupostos, possibilitando a condução de uma 
análise de variância ou um teste “t” de Student para amostras indepen-
dentes. Logo, verificou-se a existência de diferenças significativas entre 
o número de perdas de posse de bola de equipes vencedoras e perdedoras 
(13,77±3,92 vs. 11,21±3,17; F=11,06, p=0,001).
Figura 10.9 – Comparação entre equipes perdedoras e ganhadoras para o número de 
passes realizados
Fonte: elaborada pelo autor.
Assim como em todas as outras modalidades esportivas coletivas, 
no handebol o passe é fundamental, constituindo-se em uma forma de 
comunicação não verbal entre jogadores de uma mesma equipe. Após 
estudar a hipótese normalidade (W=0,96; p=0,02) na distribuição dos 
dados e homogeneidade de variâncias entre grupos (χ2=0,407; p=0,52), 
verificou-se que pelo menos uma delas não foi respeitada. Logo, como 
– 261 –
Aplicação de conceitos e desenvolvimento de exemplos práticos no software “R”
temos amostras não pareadas, com a violação do pressuposto de norma-
lidade e 2 níveis para variável estudada, sugere-se o emprego do teste de 
Mann-Whitney por meio do ordenamento de postos. Subsequentemente, 
a aplicação deste teste mostrou diferenças significativas entre vencedo-
res e perdedores para o número de passes realizados (837,3±115,19 vs. 
763,19±104,32; W=1213,5; p=0,012).
Figura 10.10 – Comparação entre equipes perdedoras e ganhadoras para os erros 
de passe
Fonte: elaborada pelo autor.
Assim como verificado na variável anterior, para os erros de passe 
também foi violado o pressuposto de normalidade dos dados (W=0,86; 
p<0,001), sem violar o pressuposto de homogeneidade de variâncias 
(χ2=1,028; p=0,31), sugerindo-se a aplicação do teste de Mann-Whitney 
para comparação de medianas. Na sequência à sua aplicação, verificou-se 
diferenças significativas entre vencedores e perdedores para o número de 
erros de passe (9,4±3,68 vs. 8,23±3,14; W=1175,5; p=0,03).
Bioestatística
– 262 –
Figura 10.11 – Comparação entre equipes perdedoras e ganhadoras para a 
distância percorrida
Fonte: elaborada pelo autor.
Por outro lado, para a variável de distância percorrida pelas equi-
pes, a normalidade (W=0,99; p=0,77) e a homoscedasticidade (χ2=0,394; 
p=0,52) foram respeitadas, evidenciando a possibilidade de utilização de 
uma análise de variância. Logo, com sua aplicação, foi possível verificar 
diferenças significativas entre as equipesperdedoras e vencedoras nas par-
tidas (32,39±1,21 vs. 31,79±1,1; F=5,777, p=0,018).
Figura 10.12 – Comparação entre equipes de perdedores e ganhadores para a posse de bola
– 263 –
Aplicação de conceitos e desenvolvimento de exemplos práticos no software “R”
Fonte: elaborada pelo autor.
Para a variável posse de bola também verificaram-se diferenças sig-
nificativas entre vencedores e perdedores nas partidas por meio da análise 
de variância (51,79±5,12 vs. 48,21±5,12; F=10,54, p=0,001), uma vez 
respeitados os pressupostos para sua utilização (W=0,99; p=0,75; χ2=0,01; 
p=0,99). Adicionalmente, para a eficiência de ataque também foram evi-
denciadas diferenças entre vencedores e perdedores nos jogos (42,55±4,46 
vs. 51,85±5,88; F=71,7, p<0,001), respeitando-se também tais pressupos-
tos para análises (W=0,99; p=0,84; χ2=0,19; p=0,65).
Figura 10.13 – Comparação entre equipes perdedoras e ganhadoras para a 
eficiência de ataque
Bioestatística
– 264 –
Fonte: elaborada pelo autor.
Por fim, com base nos testes de hipóteses, foi possível verificar um 
maior número de lançamentos e eficiência de ataque para as equipes ven-
cedoras, enquanto verificou-se um maior número de perdas de posse de 
bola (turnovers), passes, erros de passes, posse de bola e distância per-
corrida para as equipes perdedoras. Isso sinaliza que as equipes vencedo-
ras possivelmente são mais objetivas (menos passes, mais lançamentos) 
quando estão com a posse de bola direcionada à meta adversária, desgas-
tando-se menos fisicamente durante o jogo (distância percorrida), come-
tendo menos erros de passes e lançamentos. Estas informações são extre-
mamente importantes para o entendimento da dinâmica atual do jogo.
Exemplo 4. Métodos paramétricos e não paramétricos: efeito da desi-
dratação sobre o desempenho de força em lutadores de judô amadores
As competições nas artes marciais são equalizadas em suas condi-
ções de disputa por meio da adoção de categorias definidas pelo valor de 
massa apresentado pelos indivíduos. A alocação de indivíduos nas cate-
gorias é efetuada por meio da realização de procedimentos de determi-
nação da massa dias antes das lutas, uma vez que a força passiva (força 
peso) é determinante no resultado dos embates. Nesse sentido, os atletas 
de artes marciais como o judô, em geral costumam concentrar-se em cate-
gorias inferiores ao seu peso normal, induzindo procedimentos agressivos 
como o jejum e a desidratação para perder massa corporal antes da pesa-
gem, recuperando em seguida sua massa normal antes das competições. 
– 265 –
Aplicação de conceitos e desenvolvimento de exemplos práticos no software “R”
Entretanto, é bem conhecido que estes procedimentos de perda abrupta de 
massa corporal levam a uma redução da capacidade de produção de força.
Tabela 10.1 – Variáveis de desempenho físico nos momentos pré-desidratação, pós-
desidratação e pré-competição (x s± )
Teste Variáveis Pré-desidratação Pós-desidratação Pré-competição
Preensão 
manual
PF (N) 91,84±34,48 84,01±35,73 76,17±34,42
RFD (N.s-1) 235,0± 80,2 136,1± 43,4 184,4± 116,2
RFD200 (N.s -1) 239,8±130,8 145,3±57,65 144,2± 109,7
Tração de 
membros 
inferiores
PF(N) 860,38±369,60 787,73±392,59 890,26±316,81
RFD (N.s-1) 3197,68±2811,01 2338,02±1890,02 2774,50±2141,19
RFD200 (N.s -1) 1796,88±1348,86 1055,20±1188,56 1917,45±1135,48
Massa Massa (kg) 85,21±11,79 78,58±13,76 87,79±18,15
Fonte: elaborada pelo autor.
O objetivo deste exemplo é avaliar o efeito do processo de desidra-
tação sobre as respostas de força em atletas de judô, em um experimento 
delineado inteiramente ao acaso. Entendendo essas premissas, um expe-
rimento foi conduzido com a hipótese de que a realização do procedi-
mento de desidratação reduz o desempenho de força, sendo recuperado 
com a retirada das restrições de ingestão de água e alimentos após a 
pesagem, previamente à competição.
Na sequência, os 12 judocas saudáveis recrutados foram submetidos 
a medições das respostas de força (testes de preensão manual e tração de 
membros inferiores) inicialmente (controle), após a execução do procedi-
mento de jejum e desidratação (pós-desidratação) e pré-competição com 
a recuperação da ingestão de água e alimentos (lutas). Para os testes de 
força de preensão manual e tração de membros inferiores, os dinamôme-
tros digitais foram customizados para preensão e tração manual, sendo 
previamente calibrados (capacidade de 2000N, amostragem de 1 KHz). 
A partir destes dispositivos, foram obtidas curvas força-tempo (figura 
10.14), onde foram extraídas variáveis de pico de força, que corresponde 
ao maior valor de força na curva força-tempo, e taxa de produção de força 
(TPF Força
Tempo
=
∆
∆
), que é a maior variação de força obtida no tempo.
Bioestatística
– 266 –
Figura 10.14 – Curva força-tempo durante um teste de tração de membros inferiores
Fonte: elaborada pelo autor.
Inicialmente, o banco de dados foi importado (figura 10.15) e as vari-
áveis estudadas foram descritas em termos de média e desvio padrão, con-
forme descrito na tabela 10.1. Para avaliar as respostas, os pressupostos de 
normalidade e homoscedasticidade foram verificados por meio dos testes 
de Shapiro-Wilk e Bartlett, respectivamente, para todas as variáveis quan-
tificadas. Caso algum dos pressupostos fosse violado, foi executada uma 
transformação logarítmica (aplicação de logaritmo neperiano) e realiza-
dos novamente os testes para verificação dos pressupostos mencionados.
Figura 10.15 – Importação do banco de dados e declaração de variáveis
– 267 –
Aplicação de conceitos e desenvolvimento de exemplos práticos no software “R”
Fonte: elaborada pelo autor.
Para as variáveis que respeitam os pressupostos testados anterior-
mente, foi empregada uma análise de variância (fator momento) para ava-
liar a existência de diferenças entre momentos. Para as variáveis que não 
respeitam os pressupostos testados, foi aplicado o teste não paramétrico 
de Friedman. Caso os valores da estatística c2 (qui-quadrado) fossem sig-
nificativos, foi empregado o teste de comparações múltiplas de Nemenyi 
(neste caso, o leitor também poderia empregar testes de Wilcoxon). 
Para isso, deve ser instalado e chamado na linha de comandos o pacote 
“PMCMRplus” (Figura 10.16).
Figura 10.16 – Análise das variáveis de desempenho nos testes de preensão manual
Bioestatística
– 268 –
Fonte: elaborada pelo autor.
Para a massa corporal, foi verificada a existência de diferenças 
entre as medianas dos momentos de avaliação (c22 16 615= , , p < 0,001). 
Entre os momentos controle e pós-desidratação, foi verificada uma 
redução significativa da massa corporal do grupo estudado (p = 0,001), 
– 269 –
Aplicação de conceitos e desenvolvimento de exemplos práticos no software “R”
seguida de aumento significativo entre os momentos pós-desidratação 
e pré-competitivo (p = 0,001), sem alterações entre os momentos con-
trole e pré-competição (p = 0,99) e com moderada instabilidade da 
resposta (13,83% - 20,67%).
Nos testes de força de tração de membros inferiores, as variáveis 
obtidas a partir da curva força-tempo não apresentaram alterações signifi-
cativas entre os momentos de avaliação (PFtração, F2,33 = 0,545, p = 0,585; 
TPFtração, F2,33 = 0,423; p < 0,659; TPF200tração, c22 1 166= , , p = 0,558). 
Adicionalmente, foi verificado que as variáveis de força oriundas do teste 
de tração de membros inferiores mostraram grande instabilidade relativa, 
oscilando entre 35,58% e 132,9%.
Figura 10.17 – Análise das variáveis de desempenho nos testes de tração de 
membros inferiores
Bioestatística
– 270 –
Fonte: elaborada pelo autor.
Nos testes de força de preensão manual, as variáveis PFmanual 
(F2,33 = 0,742; p < 0,484), TPF200manual (c22 3 5= , , p = 0,174) não 
apresentaram alterações significativas entre os momentos de avaliação. 
Porém, a TPFmanual mostrou diferenças entre os momentos de avalia-
ção (c22 6 5= , , p = 0,038), verificou-se uma redução significativa entre 
o momento de avaliação inicial (controle)e o momento pós-desidratação 
(p = 0,038), sem alterações entre o momento controle e pré-competição 
(p = 0,158) e pós-desidratação e pré-competição (p = 0,813). As variáveis 
de força de preensão manual mostraram demasiada instabilidade rela-
tiva, verificada entre 31,87% e 115,10%. A figura 10.18 mostra os valores 
médios das variáveis obtidas nos testes de força de preensão manual e tra-
ção de membros inferiores em diferentes momentos da experimentação.
Figura 10.18 – Valores médios das variáveis de pico de força e taxa de produção 
de força nas tarefas de preensão manual e tração de membros inferiores († indica 
diferenças entre momentos)
– 271 –
Aplicação de conceitos e desenvolvimento de exemplos práticos no software “R”
Fonte: elaborada pelo autor.
Bioestatística
– 272 –
Para membros inferiores, o procedimento de desidratação não afetou 
o desempenho de força dos judocas. Entretanto, os resultados dos testes 
de força de preensão manual em diferentes momentos mostraram que o 
procedimento de desidratação alterou o desempenho de força explosiva 
(taxa de produção de força), porém, não é possível afirmar que a capaci-
dade de produção de força explosiva foi recuperada para as lutas, pois o 
desempenho encontrado não se manifestou como superior ao momento de 
avaliação pós-desidratação. No judô, um esporte onde a força de preensão 
manual é preponderante para a realização dos golpes e determinante para 
o resultado da luta, a informação obtida é essencial a treinadores e atletas.
Por fim, após a apresentação dos exemplos neste capítulo, reco-
menda-se que o leitor se sinta livre e encorajado para reproduzir os 
exemplos contidos neste documento e explorar outros bancos de dados, 
de forma a consolidar o aprendizado experimentado neste documento. 
Espera-se que este curso tenha motivado substancialmente o interesse 
do pelo campo da bioestatística.
Gabarito
Bioestatística
– 274 –
1. Explorando conceito básicos em Bioestatística 
1. B.
2. D.
3. E.
4. D.
5. E.
6. D.
7. A.
8. B.
9. B.
2. Aplicando conceitos: introdução 
pacote de análise de dados Microsoft 
Excel® ao software estatístico “R”
1. C, “>”, alerta do programa; “+” significa que o comando digi-
tado é incompleto.
2. C, para verificar a hipótese de normalidade no software R, 
emprega-se o comando “shapiro.test(x)”
3. D, os objetos no software R consistem de fatores, matrizes, veto-
res e listas.
4. C, para realizar a importação de quadros de dados, deve-se 
empregado o comando read.table(nome do arquivo) para arqui-
vos em extensão .txt e read.csv2(nome do arquivo) para arqui-
vos em Excel em que os dados são separados por vírgulas.
5. D, para solicitar exemplos de como se emprega determinado comando, 
deverá ser utilizado o comando example (comando desejado).
6. D.
7. A.
– 275 –
Gabarito
8. A.
9. A.
10. D.
11. B.
3. Distribuição normal de probabilidade 
e aplicações 
1. B, as distribuições são classificadas como discretas e contínuas.
2. A, teorema central do limite fundamenta a distribuição normal 
de probabilidade.
3. D, a função de densidade que descreve os valores de probabilidade 
na distribuição normal é f x exp x1
2
1
22 2
2 .
4. B, é importante o conhecimento da distribuição de proba-
bilidade, de média igual a 0, desvio padrão igual a 1 (por 
serem padronizados), para sua determinação dos escores “z” 
emprega-se a relação �z
x
s
i�
�� �� .
5. D, os escores “z” padronizados são Adriana, z=2,6; André, 
z=1,83; Renata, z=0,8; Pedro, z=-0,33.
6. E, o intervalo de respostas típicas para homens e mulheres é de 
68,24 a 91,76; 55,2 a 74,8;
7. B, os escores z padronizados para mulheres 52,125 a 77,875kg; 
e homens 64,55 a 95,45kg;
8. D, observando a tabela os valores da variável “z” são iguais 
a 1,01 e 2,47.
9. B, A maior dos animais (95%) produz entre 8,12kg a 19,88kg.
10. C, A maioria dos bezerros machos (95%) apresentará pesos ao 
nascer entre 23±1,96*3, ou seja, de 17,12 a 28,88kg.
Bioestatística
– 276 –
4. Associação e relacionamento de variáveis
1. C, as variáveis correlacionadas são de característica contínua, 
com valores em frações.
2. B, como as duas variáveis são de ordem continua espera-se que 
a distribuição dos dados seja normal. Logo, o teste de correlação 
recomendado é o de Pearson.
3. A, a atividade eletromiográfica explica moderadamente a res-
posta de torque muscular, com um valor de ordem 0,65.
4. D, no estudo de modelos lineares simples, a correlação entre 
as duas variáveis do modelo é igual à raiz quadrada do coefi-
ciente de determinação (R2), quando obtemos um modelo com 
R2=0,95 ele é muito mais confiável em termos preditivos que 
com R2=0,85. Existe uma subjetividade aliada ao interesse do 
pesquisador neste tipo de avaliação. Uma correlação de 42% 
mesmo que significativa não despertaria esse interesse. As asso-
ciações definidas por r ≥ 0,75 são mais atraentes por darem 
subsídios mais seguros para o mecanismo biológico que rege a 
variação das duas respostas estudadas e independentes.
5. C, verifica-se forte associação entre a dose de uma droga e per-
centual de animais que desenvolvem tumores (ρ=0,8928).
6. C, a probabilidade de significância para o teste unilateral é 
igual a 0,006, indicando que existe uma associação positiva 
significativa entre a dosagem da droga e o desenvolvimento 
do tumor. Quanto maior a dose espera-se que maior será o 
percentual de animais que desenvolvem o tumor. Para o teste 
bilateral seria 0,012. Usando a aproximação normal tem-se 
que p=P[ρ≥0,8928]=P[N(0,1)≥2,19]=0,014.
7. D, verificou-se forte associação entre os juízes que proferem 
notas que como variáveis não possuem distribuição normal.
8. E, Se a falta de ajuste (com 2 gl) não foi significativa, não houve 
desvio de linearidade e se o efeito linear foi significativo, deve-
mos aceitar o modelo como sendo linear.
– 277 –
Gabarito
9. B, a falta de ajuste significativo desclassifica a alternativa de 
linearidade. O fato de o efeito linear também ser significativo só 
traduz o fato de que se matematicamente definirmos a melhor 
reta para os pontos experimentais, ela terá inclinação grande 
(significativa) mas o modelo não representa bem aqueles pontos. 
Um novo modelo deverá ser sugerido a partir destes.
10. C, provavelmente o efeito é curvilíneo (parabólico) e uma reta 
aplicada à distribuição de pontos nesse formato redundaria em um 
modelo quase paralelo ao eixo horizontal. Nesse caso, um novo 
modelo de ordem superior (quadrático) deverá ser investigado.
5. Noções de inferência estatística
1. A. Os erros para a tomada de decisão são os de tipo 1 e 2.
2. E. O erro tipo I é definido pela rejeição da hipótese nula 
quando de fato deveria ser verdadeira. O erro tipo II é o 
inverso – onde há confirmação da hipótese nula quando na 
verdade deve ser refutada.
3. B. As etapas envolvem a construção de hipóteses, cálculo 
da estatística de teste e do valor de probabilidade, seguido da 
tomada de decisão.
4. D. Teste unilateral: H0: μ ≥3,32; H1: μ<3,32; teste bilateral: H0: 
μ=3,32; H1: μ≠3,32.
5. B. Hipótese nula – os valores de colesterol LDL são iguais entre 
indivíduos das cidades; hipótese alternativa – os valores de coles-
terol LDL são diferentes entre indivíduos das cidades (bilateral).
6. Conforme vimos anteriormente, o valor-alvo de ovos industriais 
é de x=48gramas, em escore “z” pela expressão z= (48-53)/6,4=-
0,78, com valor de probabilidade pela tabela normal padronizada 
de 0,2823 (28,23%) das respostas individuais possíveis, em con-
formidade com a unidade II. A probabilidade de obtermos res-
postas abaixo de 48 g seria de 21,77% (0,5 – 0,2823 = 0,2177). 
Bioestatística
– 278 –
Nesse sentido, esses 21,77% de 3000 ovos produzidos pela 
granja representam 653,1 ovos. Assim, é possível atender a 
demanda produzida.
7. B. Ao aumentar o número de observações, nem a média nem o 
desvio-padrão de uma variável são afetados, pois são inerentes à 
resposta medida. Porém, o valor médio possui maior confiança 
pela redução de seuintervalo (x±s t√n) devido à elevação do 
tamanho da amostra e à diminuição do valor de “t”.
8. Teste t para amostras independentes = (68,87-74,36) /√(10,334/7+ 
+10,334/8) = -5,49/1,66=-3,29. Na tabela “t” com 6 + 7 = 13 
graus de liberdade t = 2,160. Como o valor de “t” calculado 
(3,299) foi maior que o de “t” tabelado (2,160), as duas médias 
de digestibilidade são estatisticamente diferentes (nível de 5% 
de significância). O capim Brachiaria apresenta maior digestibi-
lidade que o capim elefante.
9. C. A média de 7 amostras estaria provavelmente no intervalo de 
68,87±t*s/√7, onde os valores de t e s poderiam ser 2,447 e 3,40 
(valores para 7 graus de liberdade) ou mais precisamente 2,160 e 
3,21 (referentes à avaliação conjunta das forrageiras, com 13 graus 
de liberdade). O intervalo seria 68,87±2,62 (66,25% a 71,49%).
10. C. É interessante notar que se deseja informação sobre valores 
individuais, então médios. Considerando que o valor médio de 
digestibilidade (74,36%) obtido pela amostragem de Brachiaria 
e seu desvio-padrão (3,05% ou também mais precisamente seu 
valor mais provável 3,21%), a maior parte dos resultados obti-
dos (95% deles) estaria no intervalo 74,36±1,96*3,2, ou seja, 
de 68,07% a 80,65%.
6. Estudo de Dispersão de Frequência e 
Análise da Concordância de Variáveis 
Quantitativas e Qualitativas
1. A resposta medida é quantitativa, discreta, descontinuada (fluxo 
de resposta), apresenta distribuição não normal, muito instável 
– 279 –
Gabarito
(média = 15,66; desvio – padrão = 9,20; cv% = 58,73%) e nomi-
nal (tipo intervalar). O ensaio possui delineamento longitudinal 
com amostras independentes.
Determinação da frequência esperada (Fe – negrito).
Faixa etária Amostragem Animais com 
tumor
Animais sem 
tumor
Até 3 anos 82 6 [22,40] 76 [59,59]
De 3 a 6 anos 63 9 [17,21] 54 [45,78]
De 6 a 9 anos 50 7 [13,66] 43 [36,33]
De 9 a 12 anos 70 23 [19,12] 47 [50,87]
De 12 a 15 anos 45 25 [12,29] 20 [32,7]
De 15 a 18 anos 34 24 [9,28] 10 [24,71]
Total 344 94 250
Cálculo do Índice de afastamento qui-quadrado:
� 2
2 2 26 22 4
22 4
9 17 21
17 21
7 13 66
13 66
23 19 12
�
�� �
�
�� �
�
�� �
�
��,
,
,
,
,
,
, ��
�
�� �
�
�� �
�
�� �
�
2 2 2 2
19 12
25 12 29
12 29
24 9 29
9 29
76 59 59
59 59,
,
,
,
,
,
,
554 45 78
45 78
43 36 33
36 33
47 50 87
50 87
20 322 2 2�� �
�
�� �
�
�� �
�
�,
,
,
,
,
,
,77
32 7
10 24 71
24 71
77 54
2 2� �
�
�� �
�
,
,
,
, �
� 2
2 2 26 22 4
22 4
9 17 21
17 21
7 13 66
13 66
23 19 12
�
�� �
�
�� �
�
�� �
�
��,
,
,
,
,
,
, ��
�
�� �
�
�� �
�
�� �
�
2 2 2 2
19 12
25 12 29
12 29
24 9 29
9 29
76 59 59
59 59,
,
,
,
,
,
,
554 45 78
45 78
43 36 33
36 33
47 50 87
50 87
20 322 2 2�� �
�
�� �
�
�� �
�
�,
,
,
,
,
,
,77
32 7
10 24 71
24 71
77 54
2 2� �
�
�� �
�
,
,
,
, �
, ,Xcalculado tabelado
2
0 05 5
277 54 11 54, ;X
A frequência observada por faixa etária de tumores difere 
da esperada, logo as variáveis de faixa etária e presença de 
tumor estão associadas (rejeita-se a hipótese nula de indepen-
dência de variáveis).
2. Hipóteses
H0: As variáveis de faixa etária e presença de tumor são indepen-
dentes (não estão associadas);
H1: As variáveis de faixa etária e presença de tumor não são 
independentes (associadas).
3. Caso a hipótese nula de associação entre a faixa etária e a presença de 
tumores seja rejeitada, a frequência de ocorrência de tumores em cães 
para animais de 3 a 6 anos de idade deverá ser maior que 17,21 cães.
Bioestatística
– 280 –
4. 
 2 T1 – Captura e alocação direta para produção (antiga ação);
 2 T2 – Captura, núcleo de colonização e posteriormente transferi-
dos para produção.
Determinação da frequência esperada (Fe – negrito):
Tratamentos
Desempenho pleno de enxames
Amostra
[+] [-]
Tratamento [T1] 33 [38,5] 22 [16,5] 55
Tratamento [T2] 37 [31,5] 8 [13,5] 45
Frequência Observada 70 30 100
Tratamentos:
Hipótese:
 2 H0: A frequência observada não difere da frequência esperada;
 2 H1: A frequência observada difere da frequência esperada.
Cálculo do Índice de afastamento qui-quadrado:
� 2
2 2 2 237 31 5
31 5
8 13 5
13 5
33 38 5
38 5
22 16 5
1
�
�� �
�
�� �
�
�� �
�
�� �,
,
,
,
,
,
,
66 5
5 82
,
,� �
2 3, ,Xcalculado tabelado
2
0 05 1
25 8 84, ;X
Após o cálculo do índice de afastamento de qui-quadrado, veri-
ficou-se a rejeição da hipótese nula em favor da hipótese alterna-
tiva. Logo, recomenda-se ao apicultor a adoção do procedimento 
de captura de enxames, criação de um núcleo de colonização para, 
em seguida, serem transferidos para os núcleos de produção.
– 281 –
Gabarito
5. 
Determinação da frequência esperada (Fe – negrito):
Coloração Mutante Ovos férteis Ovos inférteis Total Ovos férteis [%]
Branco (Recessivo – bb) 515[680,72] 1287[1121,37] 1802 28,6
Amarelo Nevado 
(Dominante – Ab) 506[442,35] 665[728,64] 1171 43,2
Amarelo Intenso 
(Dominante – AA) 58[48,35] 70[79,64] 128 45,3
Vermelho Intenso 
(Dominante – VV) 205[112,57] 93[185,43] 298 68,8
Total 1284 2115 3399
Hipótese:
 2 H0: A distribuição de frequência observada não difere da frequên-
cia esperada;
 2 H1: A distribuição de frequência observada difere da frequên-
cia esperada.
, ,calculado tabelado
2
0 05 3
2204 61 7 82, ;XX
Logo, rejeita-se a hipótese nula em favor da hipótese alternativa. 
Adicionalmente, há diferença entre aves de coloração recessiva 
e aves de coloração dominantes:
Coloração
Fertilidade dos ovos
Amostragem
[+] [-]
Coloração recessiva 515 [680,72] 1287 [1121,27] 1802
Coloração dominante 769 [603,27] 828 [993,72] 1597
Frequência observada 1284 2115 3399
Hipótese:
 2 H0: A frequência observada não difere da frequência esperada;
 2 H1: A frequência observada difere da frequência esperada.
Bioestatística
– 282 –
, ,Xcalculado tabelado
2
0 05 1
2137 99 3 84, ;X
Após o cálculo do índice de afastamento qui-quadrado, verificou-
-se que há diferenças entre a frequência observada e esperada de ovos de 
colorações recessiva e dominante sobre a fertilidade dos mesmos.
6. Postos calculados abaixo.
Cão A B C D E F G
Consumo de oxigênio (X) 78 92 116 90 106 78 99
Postos (X) 1,5 4 7 3 6 1,5 5
Pressão ventricular (Y) 32 33 45 30 38 24 44
Postos (Y) 3 4 7 2 5 1 6
R Si I
2
2,25 0 0 1 1 0,25 1
Os coeficientes de Spearman (rho = 0,9009; p=0,005) e Kendall 
(tau = 0,7807; p=0,015) indicam elevada associação positiva entre pos-
tos das variáveis consumo de oxigênio e pressão ventricular.
– 283 –
Gabarito
7. 
A concordância entre critérios de avaliação é positiva e razoá-
vel (K=0,263, “FAIR AGREEMENT”), logo, a hipótese nula 
foi rejeitada (p<0.001).
8. Não, pois a concordância entre os critérios apesar de significa-
tiva é razoável para ser usado como um recurso rotineiro de ava-
liação dos empregados da empresa.
9. 
A concordância entre professores é puramente aleatória, logo, 
a hipótese nula não foi rejeitada (p=0.216).
Bioestatística
– 284 –
10. 
Os resultados obtidos indicam moderada discordância (tau = – 0,571; 
p = 0,061) para o desempenho observado nos testes de habilidade 
matemática e compreensão de textos, conforme destacado a seguir.
7. Análise de variância
1. D. As suposições para realização da análise de variância perfa-
zem a presença da distribuição normal de probabilidade e homo-
geneidade ou igualdade de variâncias entre grupos.
2. C. Variação total = tratamento + erro.
3. Determinação da soma dos quadrados para cada uma das fontes 
de variação, quadrado médio ou variância das partições, escore 
F para identificação de diferenças entre tratamentos e verifica-
ção se o valor de “F” exceder o valor crítico (tabelado) há dife-
rença entre situações experimentais, caso contrário não possuem 
diferença entre si.
4. E. O termo “aov()” é empregado para análise de variância, onde 
“x” corresponde à resposta, “y” aos tratamentos.
5. E. O comando “aov()” é empregado na análise de variância em 
blocos e interação de fatores experimentais, onde os argumentos 
são “x” para as respostas estudadas, “y” e “z”para os fatores 
estudados, e “bloco” para a variável controlada e a identificação 
do conjunto de dados.
– 285 –
Gabarito
6. Considerando as características da estrutura do teste “t” de Stu-
dent, com 22 graus de liberdade (5+7+8+6), a comparação menos 
precisa ocorrerá entre os tratamentos A (5) e D (6), por simples-
mente envolver menores amostras. Por outro lado, a comparação 
com maior consistência ocorre entre os tratamentos B e C.
7. A implantação deste delineamento exige uniformidade da amos-
tra, do meio de experimentação, para que, ao final do experi-
mento, caso diferenças ocorram entre grupos, sejam atribuídas 
tão somente ao efeito de tratamento.
8. O delineamento experimental em blocos possibilita o controle 
de uma ou mais fontes de variação que interferem diretamente 
sobre a variável resposta, diminuindo a variância do erro e 
melhorando a precisão experimental para com o delineamento 
inteiramente casualizado.
9. Há diferenças significativas na comparação entre as médias das 
estações, favorecendo o período chuvoso, para ambas as ordens 
de parto. Por outro lado, a diferença observada para as primí-
paras é visivelmente maior que a para as multíparas. Logo, em 
relação à interação entre estação e ordem de parto, já que as 
multíparas possuem maior resistência a condições climáticas, a 
diferença entre as ordens de parto foi sempre significativa, sendo 
maior no período de seca.
10. Foram verificadas diferenças significativas entre os sexos em todas 
as concentrações de proteínas, sendo maior que a diferença mínima 
significativa de 13,5kg. As diferenças foram mantidas estáveis, 
indicando que o efeito de sexo não depende do nível proteico.
8. Métodos não paramétricos para 
comparação de duas populações
1. A resposta estudada é em Unidades Formadoras de Colônia 
(UFC). As UFC possuem distribuição de probabilidade não 
normal. As amostras de leite foram aliquotadas em dois grupos 
(previamente contaminados com o patógeno), em que um grupo 
Bioestatística
– 286 –
recebeu nisina e outro lactoperoxidase, para verificar o controle 
sanitário na produção de queijos.
2. As amostras obtidas são pareadas e o fator experimental 
momento possui 2 níveis. Nesse sentido, dadas as características 
da resposta, recomenda-se o emprego neste caso do teste não 
paramétrico de Wilcoxon para pares ordenados. Como hipóte-
ses, temos:
 2 H0: os produtos não diferem quanto ao número de UFC (T Ttab
calc
>
0 05 13, ;
)
 2 H1: os produtos diferem quanto ao número de UFC (T Ttab
calc
£
0 05 13, ; )
Logo, para T Ttab
calc
>
0 05 13, ;
, não se rejeita a hipótese nula, ou seja, os 
produtos não diferem quanto ao número de UFC.
3. 
Origem 
do leite
UFC 
(nisina)
UFC 
(lactoperoxidase) |Diferença| Postos
1 3 5 -2 1
2 87 45 42 8
3 128 93 35 7
4 Incontável 125 875 13
5 23 27 -4 2
6 65 42 23 5
7 250 38 212 12
8 90 22 68 9
9 12 17 -5 3
10 178 63 115 10
11 39 11 28 6
12 203 47 156 11
13 8 15 -7 4
VS = 81
VR = 10
– 287 –
Gabarito
E VS
N N



 =
+( )
=
+( )
=
1
4
13 13 1
4
45
Var VS N N N


 = +( ) +( )


 =



 =
1
24
1 2 1
182 27
24
204 75
*
,
Ttab
0 05 13
17
, ;
=
T
calc
= 81
4. Não seria possível concordar com o procedimento adotado. 
A contaminação em diferentes níveis poderia levar a condi-
ções diferentes das obtidas anteriormente. Logo, a confiabi-
lidade da medida seria questionável para a resposta de UFC 
nos tratamentos. A ausência de controle da contaminação das 
unidades experimentais poderá introduzir um fator de confu-
são sobre a resposta medida.
5. 
a) 
x
x
n
i
n
i= =∑ 1
xt1
0 00149 1860 538 863 250 612 559 629
8
663 8751=
+ + + + + + +( )
=
,
,
xt2
512 98 530 445 200 471 158 490
8
363=
+ + + + + + +( )
=
s =
−( )
=∑ i
n
i
x x
n
1
2
st1 549 43= , ;
Bioestatística
– 288 –
st2 178 65= ,
cv
t
%
,
,
* , %
1
549 43
663 87
100 82 76= =
cv
t
%
,
* , %
2
178 65
363
100 49 21= =
O coeficiente de variação (%) no tratamento 1 foi superior a 50%, não 
apresentando homoscedasticidade entre os tratamentos (s s
t t1 2
¹ ). Nesse 
sentido, a transformação radicial seria recomendada, sucedendo uma aná-
lise dos pressupostos de normalidade e homoscedasticidade.
b) Na alternativa de uma análise não paramétrica, na qual não há uma 
distribuição normal de probabilidade, com amostras independen-
tes e de 2 níveis, será empregado o teste de Mann-Whitney.
6. A transformação radicial alterou a magnitude do cv%, porém o 
tratamento permanece superior a 50%, não apresentando homos-
cedasticidade (s s
t t1 2
¹ ) entre tratamentos. Logo, sucede-se o 
teste de Mann-Whitney a seguir:
Tratamentos
0,15mg de selênio inorgânico 0,15mg de selênio orgânico
[1] 0,00149 (1,00) [9] 512 (22,62)
[16] 1860 (43,12) [2] 98 (9,89)
[11] 538 (23,19) [10] 530 (23,02)
[15] 863 (29,37) [6] 445 (21,09)
[5] 250 (15,81) [4] 200 (14,14)
[13] 612 (24,73) [7] 471 (21,70)
[12] 559 (23,64) [3] 158 (12,56)
[14] 629 (25,07) [8] 490 (22,13)
Após a transformação radicial, destacada entre parênteses na 
tabela anterior:
– 289 –
Gabarito
xt1
1 00 43 12 23 19 29 37 15 81 24 73 23 64 25 07
8
23 2=
+ + + + + + +( )
=
, , , , , , , ,
, 44
st1 11 88= , ;
cv
t
%
,
,
* , %
1
11 88
23 24
100 51 12= =
xt2
22 62 9 89 23 02 21 09 14 14 21 70 12 56 22 13
8
18 3=
+ + + + + + +( )
=
, , , , , , , ,
, 99
st2 5 28= ,
cv
t
%
,
,
* , %
2
5 28
18 39
100 28 74= =
Ws
inorganico
= + + + + + + + =1 16 11 15 5 13 12 14 87
Ws T
organico
= + + + + + + + = =( )9 2 10 6 4 7 3 8 49 49
0 05 8 8
�
, , ,
Somados postos� � =
+( )
=
16 16 1
2
136
E Ws W
inorganico xy



 =
+( )
= = − =
8 16 1
2
68 87 36 51;
E Ws W
organico yx



 =
+( )
= = − =
8 16 1
2
68 49 36 13;
Var Ws Var Ws
inorganico organico



 =



 =
+( )
=
8 8 16 1
12
90 6
*
, 66
(n≠m; escolher entre nmenor e tcritico)
P x a P N
a E X
Var x
≤

 = ( ) ≤
+( )− 



( )












0 1
0 5
,
,
Bioestatística
– 290 –
P Ws P N
inorganico
≥


 = ( ) ≥
−( )−









=87 0 1
87 0 5 68
90 66
,
,
,
PP N 0 1 1 94 0 0262, , ,( ) ≥


 =
P x a P N
a E X
Var x
≥

 = ( ) ≥
+( )− 



( )












0 1
0 5
,
,
P Ws P N P N
organico
≤


 = ( ) ≥
+( )−









=49 0 1
49 0 5 68
90 66
,
,
,
00 1 1 94 0 0262, , ,( ) ≥ −


 =
7. A resposta imunológica das aves é aumentada com o uso do 
selênio inorgânico na ração.
8. 
Medida
Tratamentos
0,15mg de selênio 
inorgânico
0,15mg de selênio 
orgânico
Média 66,398 363,00
Desvio padrão 549,43 178,66
CV% 82,76 49,21
Mediana 585,5 458
Máximo 1860 530
Mínimo 0,0015 98
Estatística de teste 51 13
p-valor 0,0262
t t
a m n, , , , ,
=
0 05 8 8 49
9. A utilização de um pool de três aves, decorre de quando o mate-
rial de um só animal se mostra insuficiente para análise labora-
torial. A reunião consiste em um pool que representa réplicas 
de cada tratamento. No caso do exercício, o pool foi a média de 
3 aves, então, nesse sentido, tende a diminuir a variabilidade 
de medida da concentração de anticorpos.
– 291 –
Gabarito
10. O estudo segue delineamento inteiramente ao acaso, em que a 
resposta medida é o número de tocas por área nas condições 
alagável e seca. Logo, temos as seguintes hipóteses:
 2 H0: o número de tocas não difere entre as áreas seca e alagável;
 2 H1: o número de tocas difere entre as áreas seca e alagável.
Área Alagável (Postos) Seca (Postos)
1 15 (9) 13 (8)
2 32 (14) 8 (4)
3 20 (11,5) 1 (1)
4 65 (19) 10 (6)
5 23 (13) 5 (3)
6 41 (15) 3 (2)
7 18 (10) 20 (11,5)
8 45 (17) 11 (7)
9 53 (18) 9 (5)
10 43 (16) -
Soma (T) 142 47,5
Média 14,25 5,28
Ttab
0 05 9 10
65
, , ,
=
Tcrítico = nmenor (n1 + n2 + 1) – Tmenor = 9(9+10+1) – 47,5 = 132,5
Entre Tmenor = 47,5 e Tcrítico = 132,5, escolhe-se o menor.
Logo, como o Tmenor = 47,5 < 65, rejeita-se H0 (Tescolhido ≥ Ttabelado, não 
se rejeita a hipótese nula). Logo, há diferença entreo número de tocas em 
ambiente alagado em relação ao ambiente seco – os caranguejos produ-
zem mais tocas em ambiente alagadiço.
Bioestatística
– 292 –
 2 Caso 1: se m = n, escolhe-se a menor soma de postos e com-
para-se com Ttaba,m,n;
 2 Caso 2: na ≠ nb, escolhe-se entre nmenor e tcritico; em que:
47,5 < Ttaba,m,n , rejeita-se H0.
Tescolhido ≥ Tcritico, não se rejeita H0.
9. Métodos não paramétricos para 
comparação de várias populações
1. 
a) Entendendo a propagação de piolhos como dependente das 
condições climáticas (covariável), o número de piolhos por ave 
poderia ser normalizado pelo valor de umidade relativa (UR) 
previamente registrada. No entanto, não se sabe se esta covari-
ável foi registrada no experimento, garantindo correção de pos-
síveis problemas na equidade de condições entre tratamentos.
b) Considerando que as amostras são independentes e há 4 grupos 
experimentais, recomenda-se a aplicação do teste de Kruskall-
-Wallis para identificação de possíveis diferenças entre trata-
mentos. Caso afirmativo, aplica-se um teste de comparações 
entre medianas (teste não paramétrico de Nemenyi).
c)
– 293 –
Gabarito
Para as comparações sobre as respostas de contagem de piolhos 
presentes nos galpões de manejo intensivo e extensivo de aves 
com diferentes valores de umidade relativa (UR), verificou-se 
que há diferença entre os manejos intensivos e extensivos, tanto 
em maior como em menor UR, e por fim entre os manejos inten-
sivo com menor UR e extensivo com maior UR.
2. 
a) Caso a comparação das amostras nas granjas fosse indepen-
dente, a estratégia não seria alterada (teste de Kruskall-Wallis), 
caso as composições das granjas fossem dependentes entre si, 
seria empregado o teste não paramétrico de Friedman.
b) A comparação par a par é efetuada por meio da determinação 
da diferença mínima significativa (dms) e da comparação de 
medianas observadas nos tratamentos.
c) Para amostras independentes e dois níveis deve ser empregado 
o teste de Mann-Whitney ou o teste de comparações múltiplas 
de Nemenyi.
3. Análise do ensaio:
Bioestatística
– 294 –
Após as análises, não foram verificadas diferenças de contami-
nações por Staphylococcus aureus entre regiões para as amostras 
de leite (c0 05 32 4 2193 0 2387
, ,
, , ,= =p ).
4. Análise do ensaio:
Após as análises, verificou-se diferença entre tratamentos para o 
percentual de eclosão de ovos de teleóginas da planta diurética 
timbó. Após a aplicação de testes de comparações múltiplas, foi 
verificado que houve diferença significativa entre o tratamento 
controle o tratamento somente com a planta timbó e planta timbó 
adicionada de selênio.
– 295 –
Gabarito
5. 
a) Para amostras dependentes, mais de 2 níveis, emprega-se o teste 
não paramétrico de Friedman
Tratamento I – ΣRi = 27,5; Xt1 = 1,718; Mdt1 = 1,75;
Tratamento II – ΣRi = 42,5; Xt1 = 2,65; Mdt1 = 3;
Tratamento III – ΣRi = 29; Xt1 = 1,81; Mdt1 = 1,5;
c
Calc ibt t
R b t2 212
1
3 1
12
16 3 3 1
=
+( )
∑

 − +( )( )










=
+( )*
227 5 42 5 29 3 16 4
12
192
3403 5 192 20 71872 2 2, , , ,+ +( )− ( )( ) = ( )− =
c
0 05 2
2 5 99
, ,
,=
Logo, c c
Calc tab
2 2> , rejeita-se a hipótese nula, há diferença entre trata-
mentos.
r r
z
t ti j
a− =
−( )
=
−( )
= → − =
1
0 05
3 3 1
0 0083 0 5 0 0083 0 4917
,
, , , ,
dms
z
t t
bt t
a=
−( )
+( )
= =
1
1
6
2 4 5 6 13 44, * , ,
r r
i j
− > ( )13 57, *
r r ns
i j
− ≤ ( )13 57,
Tratamento I – Tratamento II = 15> 13,44* (p = 0,002)
Tratamento I – Tratamento III = 1,5 ≤ 13,44 ns (p = 0,962)
Tratamento II – Tratamento III =13,5 > 13,44* (p = 0,045)
b) À medida que se aumenta a concentração de glicerol, não é pos-
sível verificar um efeito prejudicial do crioprotetor. A concen-
tração de 3,5% de glicerol mostrou uma motilidade superior em 
relação às concentrações de 4,5% e 5,5% de glicerol.
6. A concentração de glicerol de 3,5% mostra uma motilidade 
superior em relação às concentrações de 3,5% e 5,5%, não 
são diferentes.
Bioestatística
– 296 –
7. 
a) Considerando a natureza da resposta estudada (contagem), pare-
amento de amostra e mais de 2 níveis, recomenda-se a aplicação 
do teste não paramétrico de Friedman.
b) Sim, considerando que o tamanho amostral igual a 5 possui um 
poder de 80% para o teste. Logo, a amostra de 11 animais é satis-
fatória para as análises.
8. Para as análises e cômputo da estatística de teste, temos:
c
Calc ibt t
R b t2 212
1
3 1
12
11 4 5
34=
+( )
∑

 − +( )( )










=
( )*
111 5 165 20 9267, ,( )− =
c
0 05 3
2 7 82
, ,
,=
Logo, para c c
Calc
2
0 05 3
2>
, , , verifica-se a existência de diferença entre momentos.
r r
z
t t
za
1 2 1
0 05
4 4 1
0 00416 0 5 0 00416 0 4958 2 6− =
−( )
=
−( )
= → − = =
,
, , , , , 33( )
dms
z
t t
bt t
a=
−( )
+( )
= =
1
1
6
263 6 05 15 9115* , ,
r r
i j
− > ( )15 91, *
r r ns
i j
− ≤ ( )15 91,
∑ −∑ = ( )R R ns
h h24 48
5�
∑ −∑ = ( )R R ns
h h24 72
15 5,
∑ − ∑ = ( )R R *h h24 96
25 5,
∑ −∑ = ( )R R ns
h h48 72
10 5,
– 297 –
Gabarito
∑ − ∑ = ( )R R *h h48 96
20 5,
∑ −∑ = ( )R R ns
h h72 96
10�
9. O tratamento para lesões em cavalos mostrou uma redução da 
sensibilidade em 96h em relação ao momento de início do trata-
mento (24h) e em relação a 48h de início do tratamento.
10. 
c
Calc
2 2 2 3 2 2 212
12 6 7
63 62 43 33 28 23 3 12 6 281 24=
( )
+ + + + +( )− ( )( ) = −
*
, 2252 35 24 2 2= >, ;Ç ÇCalc tab
c
tab
2 11 07= ,
dms
z
t t
bt t
a=
+( )
+( )
= =
1
1
6
2 93 9 16 26 85, * , ,
r r
z
t t
z
i j
a− =
−( )
= → − = =( )
1
0 0017 0 5 0 0017 0 4983 2 93, , , , ,
r r
i j
− > ( )26 85, *
r r ns
i j
− ≤ ( )26 85,
DMS = 26,85
C1 – C2: 63 – 62 = 1 (ns)
C1 – C3: 63 – 43 = 20 (ns)
C1 – C4: 63 – 33 = 30 (p<0,05) *
C1 – C5: 63 – 28 = 35 (p<0,05) *
C1 – C6: 63 – 23 = 40 (p<0,05) *
C2 – C3: 62 - 43 = 19 (ns)
Bioestatística
– 298 –
C2 – C4: 62 - 33 = 29 (p<0,05) *
C2 – C5: 62 - 28 = 34 (p<0,05) *
C2 – C6: 62 - 23 = 39 (p<0,05) *
C3 – C4: 43 - 33 = 10 (ns)
C3 – C5: 43 - 28 = 15 (ns)
C3 – C6: 43 - 23 = 20 (ns)
C4 – C5: 33 - 28 = 5 (ns)
C4 – C6: 33 - 23 = 10 (ns)
C5 – C6: 28 - 23 = 5 (ns)
A resposta de vigor medida seis horas após a diluição e conserva-
ção em temperatura adequada nas concentrações de diluente 1 e 2 
diferiu significativamente das concentrações 4, 5 e 6 de diluente.
Referências
Bioestatística
– 300 –
CRAWLEY, M. J. The R book. San Francisco: John Wiley & Sons, 2013.
PAGANO, M.; GAUVREAU, K. Princípios de bioestatística. 2. ed. São 
Paulo: Pioneira Thompson Learning, 2004.
SAMPAIO, I. B. M. Estatística aplicada à experimentação animal. 
Belo Horizonte: FEPMVZ, 2010.
SHAHBABA, B. Biostatistics with R. New York: Springer, 2012.
SIQUEIRA, A. L.; TIBÚRCIO, J. D. Estatística na área da saúde: con-
ceitos, metodologia, aplicações e prática computacional. Belo Horizonte: 
Coopmed, 2011.
TRIOLA, M. F. Introdução à estatística. 10. ed. Rio de Janeiro: 
LTC, 2011.
ZAR, J. H. Biostatistical analysis. New Jersey: Prentice-Hall, 1984.
G
RU
PO
 SER ED
U
CACIO
N
AL
gente criando o futuro
ISBN 978-65-86557-92-3
9 786586 557923
BIOESTATÍSTICA
BIO
ESTATÍSTICALEANDRO VINHAS DE PAULA
LEANDRO VINHAS DE PAULA
BIOESTATÍSTICA
Em cursos da área biológica e da saúde, sempre ouvimos os alunos falando que 
escolheram essa área para fugir da matemática. Mas, ao ingressar no curso, 
percebem que a matemática está presente e faz uma grande diferença conhecer 
a aplicação dela para avançar e evoluir na carreira profissional.
A matemática possui diversas ferramentas de análises estatísticas que podem e 
devem ser usadas para trazer confiabilidade aos dados coletados e apresentados 
na área biológica. 
Toda vez que vemos, por exemplo, uma pesquisa para algum cargo público, 
sempre vem destacado: “Esta pesquisa tem margem de erro de dois pontos 
percentuais, para mais ou para menos”. Por que então não usamos essas 
ferramentas para mostrar a margem de erro em artigos científicos da área 
biológicae da saúde? É aqui que a bioestatística entra para brilhar.
Podemos usar fórmulas para definir o tamanho da amostra que será coletada de 
determinado organismo em um fragmento florestal; ou usar uma equação pra 
definir qual a margem de confiança dos resultados apresentados. Que tal pegar 
os dados que você coletou e colocou na planilha do Excel, de uma forma que 
fica difícil de explicar, e transformar em um gráfico autoexplicativo? É aqui que a 
bioestatística fará toda a diferença na sua formação.
Compreender a aplicação da estatística para dados biológicos é fundamental 
para a sua formação. Logo, este livro irá contribuir para a difusão do ensino 
da bioestatística e ajudará na formação dos futuros pesquisadores das áreas 
biológica e da saúde.

Mais conteúdos dessa disciplina