Prévia do material em texto
G
RU
PO
SER ED
U
CACIO
N
AL
gente criando o futuro
ISBN 978-65-86557-92-3
9 786586 557923
BIOESTATÍSTICA
BIO
ESTATÍSTICA
LEANDRO VINHAS DE PAULA
LEANDRO VINHAS DE PAULA
BIOESTATÍSTICA
Curitiba
2022
Leandro Vinhas de Paula
Bioestatistica
Ficha Catalográfica elaborada pela Editora Fael.
V784b Vinhas de Paula, Leandro
Bioestatística / Leandro Vinhas de Paula. – Curitiba: Fael, 2022.
300 p.
ISBN 978-65-86557-92-3
1. Bioestatística 2. Saúde pública - Metodologia I. Título
CDD 574.015195
Direitos desta edição reservados à Fael.
É proibida a reprodução total ou parcial desta obra sem autorização expressa da Fael.
FAEL
Direção Acadêmica Valmera Fatima Simoni Ciampi
Coordenação Editorial Angela Krainski Dallabona
Revisão Editora Coletânea
Projeto Gráfico Sandro Niemicz
Imagem da Capa Ser Educacional
Arte-Final Hélida Garcia Fraga
Sumário
Carta ao Aluno | 5
1. Explorando conceito básicos em Bioestatística | 7
2. Aplicando conceitos: introdução pacote de análise de
dados Microsoft Excel® ao software estatístico “R” | 43
3. Distribuição normal de probabilidade e aplicações | 69
4. Associação e relacionamento de variáveis | 93
5. Noções de inferência estatística | 121
6. Estudo de Dispersão de Frequência e
Análise da Concordância de Variáveis
Quantitativas e Qualitativas | 149
7. Análise de variância | 171
8. Métodos não paramétricos para comparação
de duas populações | 199
9. Métodos não paramétricos para comparação
de várias populações | 223
10. Aplicação de conceitos e desenvolvimento de
exemplos práticos no software “R” | 249
Gabarito | 273
Referências | 299
Prezado(a) aluno(a),
A finalidade deste material de apoio é possibilitar ao aluno
da disciplina de Bioestatística uma aproximação inicial com os
conceitos de estatística aplicada às diversas áreas biológicas.
Aqui, serão explorados temas como processo amostral,
tipos de variáveis, conjunto de dados, confecção de gráficos,
análise de dados, aplicação de probabilidades e associação e
correlação. Todos esses temas são indispensáveis para compre-
ender os fenômenos biológicos, uma vez que é possível quanti-
ficar os dados coletados, realizar comparações e estabelecer, por
exemplo, um grau de confiabilidade nas pesquisas científicas.
Carta ao Aluno
– 6 –
Bioestatística
Nesse sentido, a bioestatística, que possui várias ferramentas de análises
matemáticas, é designada para refinar e apresentar os dados biológicos
de trabalhos científicos.
Finalmente, o desejo sincero é que o presente texto proporcione
aos alunos o conhecimento necessário para a compreensão da coleta,
tabulação e apresentação de dados, fundamentais para que se atinja a
dimensão da prática profissional, assim como os desafios atuais para
a sua concretização.
1
Explorando
conceito básicos
em Bioestatística
Apesar da incipiente penetração da mentalidade estatística
na sociedade brasileira, o campo profissional é considerado um
dos dez mais rentáveis no Brasil, atualmente. A importância
da estatística é manifestada em momentos diversos, tal como
a Segunda Guerra Mundial, que acarretou quase 50 milhões de
pessoas mortas, com consequências e cicatrizes que refletem até
os dias atuais. Mas o leitor pode se perguntar: “o que isto tem a
ver com a estatística?”. Bom, o filme intitulado “O jogo da imi-
tação”, indicado pela The Academy Awards à prestigiada premia-
ção do Oscar, expressa claramente o potencial das ciências esta-
tísticas. Estima-se que o uso das técnicas estatísticas na tomada
de decisões na área de inteligência militar por parte dos países
aliados encurtou a guerra em pelos 2 anos, salvando 14 milhões
de vidas, apenas tomando um exemplo.
Bioestatística
– 8 –
Em termos gerais, a estatística pode ser definida como uma ciência que
está interessada nos métodos científicos para coleta, organização, suma-
rização, apresentação e análise de dados, com o objetivo de obter conclu-
sões fidedignas e válidas e contribuir para a tomada de decisões razoáveis.
É uma ciência utilizada em diversas áreas, como a política, economia,
negócios, administração, medicina, ciências biológicas, esportes, dentre
outras. A subárea de bioestatística se ocupa dos métodos estatísticos para
investigação quantitativa de problemas nas áreas de ciências da saúde e
biológicas. A relevância desse campo da estatística tem sido observada na
exploração de diversos questionamentos dentro das ciências da saúde, tal
como a eficácia de uma vacina ou um novo medicamento em relação a um
outro pré-existente para uma determinada doença em diferentes grupos de
indivíduos, testagem da efetividade de um novo método de treinamento,
quais doenças são potencializadas pelo consumo de bebidas alcoólicas,
classificação de grupos de risco, dentre outros. Neste capítulo 1, você irá
se inteirar um pouco sobre esse universo, a partir de conceitos básicos,
como medidas (tendência central, de dispersão e separatrizes) e aspectos
relacionados à apresentação de dados, imprescindíveis ao emprego da bio-
estatística para a solução ou estudo de tais problemas.
1.1 Definições básicas
Na solução de questões relativas à bioestatística, os profissionais das
ciências da saúde e biológicas pontuam alguns passos clássicos, tais como
observação, descrição de fenômenos, problemas, produção e testagem de
hipóteses viáveis. A exploração inicial dos dados proposta neste capítulo
é fundamental para cumprir as necessidades de observação de fenômenos
e problemas.
Os profissionais devem identificar estudos de seu interesse e conhe-
cer resultados prévios relevantes para entender o problema traçado. Para
solucionar e/ou entender melhor esses problemas, as etapas de planeja-
mento e execução de pesquisas de descrição, explicação, predição e/ou
controle de dados observados devem ser respeitadas. De forma indissoci-
ável, o tratamento estatístico é dependente do planejamento experimental
adotado e coleta de dados realizada.
– 9 –
Explorando conceito básicos em Bioestatística
De forma geral, os estudos podem ser classificados como: (i) estudos
historiográficos, baseados na retrospecção de fatos históricos; (ii) estu-
dos descritivos ou observacionais onde os agentes do estudo descrevem
e extraem elementos de interesse à solução de problemas; (iii) estudos de
natureza experimental, em que o responsável faz testes deliberados para
testagem de um determinada hipótese construída previamente sobre as
variáveis controláveis, (iv) estudos de caso, classificados pela precisa des-
crição por um ou mais profissionais na área de saúde, tal como exemplo
no diagnóstico e evolução de uma doença ocorrida em grupo restrito de
indivíduos; (v) estudos comparativos de coorte, onde são comparados um
grupo exposto a um determinado tratamento a um grupo controle (sem
exposição ao tratamento estudado); (vi) estudos caso-controle compara-
tivos, onde compara-se um grupo de doentes ou que apresentam o desfe-
cho pesquisado (os casos) e um grupo de pessoas sem a doença estudada
ou sem o desfecho pesquisado (os controles). É importante alertar que a
forma de classificação dos diferentes tipos de estudos pode variar con-
forme a referência ou área de ocupação.
Na condução desses estudos, frequentemente o leitor irá se deparar
com os termos população e amostra. Em síntese, o termo população pode
ser caracterizado como um conjunto total de objetos ou indivíduos de inte-
resse no estudo. Adicionalmente, a amostra e o respectivo processo de
amostragem consistem na extração de uma amostra a partir do conjunto
total de elementos de interesse (população-alvo), logo, uma amostra é um
subconjunto da população, onde “N” é o número de observações da popu-
lação. Por outro lado, uma amostra obtida é uma parte representativa da
população, em que “n” é o número de observações de uma amostra. Em
ciência, para se estabelecer características populacionais é comum obser-
var um subconjunto de seus elementos (amostra) para obter estimativas
aproximadas sobreas características populacionais. Em termos matemá-
ticos, os conceitos de população (XN
) e amostra (xn) podem ser expressos
da seguinte maneira:
X X X X XN N� �� �1 2 3, , ,
x x x x xn n1 2 3, , ,
Bioestatística
– 10 –
A seleção dos elementos a serem estudados deve ser feita a partir
de procedimentos adequados (amostragem), para que os resultados obti-
dos das amostras sejam ilustrativos a respeito das características de toda
a população. As vantagens do processo amostral são evidenciadas pelo
custo e tempo reduzidos ao se estudar apenas uma parte da população, e
da confiabilidade dos dados, evitando erros nas respostas observadas e a
operacionalidade sobre os dados obtidos.
As características estudadas de uma população são comumente deno-
minadas por variáveis. O conceito de variável consiste em um valor ou
qualidade que pode variar de objeto para objeto ou de um indivíduo para
outro, de um instante para outro. A estatura é uma variável pois seus valo-
res podem oscilar de uma pessoa para outra (Ex.: 1.73m), ou o número de
acidentes em uma estrada é uma variável (Ex.: 121 acidentes). As denomi-
nações das variáveis são frequentemente definidas ou expressas por letras
ou abreviações por comodidade do usuário.
As variáveis são classificadas como qualitativas, quando se usa a
escala nominal ou ordinal para medição ou contar as características ou
grandezas que estamos interessados em estudar. Basicamente, a vari-
ável é nominal ou categórica quando se é usada a escala nominal para
medir seus valores. Uma variável pode ser classificada como nominal
se ela é composta por nomes simples ou categorias (Ex.: Masculino
ou Feminino) e as categorias ou nomes não tem ordem. A variável é
ordinal se é usada a escala ordinal para medir seus valores. A variável
é ordinal se ela é composta de categorias que tem ordenamento natural
(Ex.: Satisfeito, Insatisfeito; Estágio I, Estágio II, Estágio III). Adicio-
nalmente, as variáveis ordinais podem tomar valores não numéricos,
como, por exemplo, valores resultantes de escalas de “níveis de satis-
fação” (ex.: a favor, contra etc.) e numéricos com o uso de escalas
numéricas, tais como a Escala Likert, que são usadas amplamente nas
ciências da saúde (Ex.: 1 – Discordo totalmente; 2 – Discordo par-
cialmente; 3 – Indiferente; 4 – Concordo parcialmente; 5 – Concordo
totalmente). A figura 1.1 ilustra os tipos de variáveis.
– 11 –
Explorando conceito básicos em Bioestatística
Figura 1.1 – Tipos de variáveis
Fonte: elaborada pelo autor.
Por outro lado, as variáveis quantitativas referem-se a quantidades
medidas em escala numérica. As variáveis quantitativas são discre-
tas quando assumem valores inteiros ou contáveis (Ex.: 0, 1, 2, 3...).
As variáveis quantitativas são denominadas contínuas quando não
são contáveis, isto é, assumindo qualquer valor do conjunto dos núme-
ros reais (Ex.: 1,60; 1,72; 1,85; 2,04).
1.2 Descrição de conjuntos de dados
Após uma breve introdução sobre alguns conceitos básicos de estatís-
tica, tais como tipos de estudos, variáveis, amostragem e população, serão
abordadas as medidas de tendência central, dispersão e separatrizes.
Basicamente, as medidas de tendência central são conceituadas como
valores (média, moda e mediana) aos quais os dados obtidos encontram-
-se agrupados. Por outro lado, as medidas de dispersão são necessárias ao
estudo das variáveis (variância, desvio médio, desvio padrão, coeficiente
de variação). Por fim, como o próprio nome já reporta, as medidas sepa-
ratrizes são valores que separam o conjunto de dados obtidos em partes
iguais (quartis, decis e percentis). Nesse sentido, o objetivo desta seção é
Bioestatística
– 12 –
conceituar essas medidas. Os conceitos e medidas que você verá a seguir
serão necessários para resolução de exercícios e construção de relatórios
nas atividades da disciplina.
1.2.1 Medidas de tendência central
A determinação das medidas de tendência central tem como obje-
tivo definir o valor mais provável de uma dada variável. Dessa forma,
a média possui a função de transformar um conjunto de valores de uma
amostra ou população em apenas um valor, fornecendo uma ideia ou
tendência do conjunto de dados. Basicamente, a média aritmética sim-
ples (μ, média populacional; ẋ, média amostral) pode ser obtida a partir
da relação entre o somatório dos valores de um determinado conjunto de
dados populacionais ou amostrais e o número de valores deste conjunto
de dados (Equação X).
i
N
i i
n
iX
N
Médiapopulacional
x
n
Médiaamostral EEq X.X
.
Em uma turma de crianças de uma determinada escola pública, veri-
ficou-se o seguinte conjunto de dados referente à massa corporal (kg):
Massa = (34; 40; 33; 29; 37; 38,5; 30; 32);
Logo, temos o valor médio de:
i
n
ix
n
kg34 40 33 29 37 38 5 30 32
8
34 18,X
.
A média de massa corporal da turma de crianças medida é de 34,18 kg.
Por outro lado, a média aritmética ponderada determina o valor
médio considerando o peso dos valores observados. Na média ponderada,
a alteração da posição dos números pode ocasionar resultados errados ao
contrário da média aritmética simples.
p
i
n
i i
i
n
i
p x
p
1
1
*
X
.
– 13 –
Explorando conceito básicos em Bioestatística
Suponhamos que em exame de desempenho de alunos para cálculo
da nota final dos concluintes no ensino superior sejam avaliadas as seguin-
tes vertentes com pesos diferentes: (1) conhecimentos teóricos do curso;
(2) conhecimentos gerais; (3) conhecimentos práticos. As 3 competências
possuem respectivamente os pesos de 2, 1 e 3. Logo, se você ao final do
curso obtiver as notas de 72, 65 e 88, sua média ponderada será:
p
i
n
i i
i
n
i
p x
p
1
1
2 72 1 65 88 3
6
78 83
* * * *
,x.
Nesse caso, temos que a média ponderada de desempenho do estu-
dante será de 78,83 pontos.
A mediana pode ser conceituada como o valor que divide o conjunto
de dados em partes iguais com o mesmo número de elementos, consti-
tuindo em uma medida de posição. O valor da mediana situa-se na posição
central do conjunto de dados organizado em ordem crescente de forma
que o número de dados situados antes desse valor é igual ao número de
dados que se encontram após esse valor. O cálculo da mediana é depen-
dente do número de observações do conjunto de dados.
Para um conjunto ímpar de dados (9, 12, 8, 6, 14, 11, 5), a mediana
calculada é:
1. Inicialmente, ordena-se os dados (n=7) de forma crescente (5, 6,
8, 9, 11, 12, 14);
2. A mediana será determinada pelo elemento que divide o con-
junto de dados em partes iguais, nesse caso igual a 9;
3. Para o conjunto de dados ímpar a mediana é definida como o
valor da variável que ocupa a posição de ordem n
2
1+ .
Em conjunto de dados par, não há valor o central, a mediana é determi-
nada como a média dos valores que ocupam as posições de ordem n
2
e n+1
2
Ao calcular a mediana para conjunto par de dados (9,8,6,12,11,14), temos:
Bioestatística
– 14 –
4. ordena-se o conjunto par de dados (n=6) de forma crescente
(6,8,9,11,12,14) e calculam-se a posições:
n
2
3=
;
n
2
1 4� �
.
5. A mediana será dada pela média entre os elementos que ocu-
pam respectivamente a terceira e quarta posições do conjunto
de dados:
mediana � �
�
9 11
2
10.
Adicionalmente, a moda é o valor mais comum no conjunto de dados
de uma determinada variável, ou ainda o valor mais frequente, denomi-
nado valor modal. Logo, um mesmo conjunto de dados pode apresentar
mais de uma moda, ou seja, mais de um valor frequente, classificado como
multimodal. Ao calcular a moda para as idades dos candidatos à presidên-
cia de um clube desportivo: idade = (75, 87, 39, 58, 75, 75, 67, 83, 87, 79).
Logo, a Moda = 75 (é frequente por 3 vezes).
1.2.2 Medidas de dispersão
Após a definição conceitual das medidas de tendência central, um
aspecto de suma importância para exploração de dados é o estudo da varia-
ção das respostas obtidas, relativamente às medidas de tendência central
da amostra ou população. A seguir são apresentadasmedidas estatísticas
para estudo da variabilidade de respostas em torno da medida de tendência
central principal, a média.
De forma simplificada, a amplitude dos dados corresponde à dife-
rença entre os valores máximos e mínimos de uma variável ordenada de
forma crescente. Abaixo a amplitude é apresentada matematicamente,
onde xmin representa o valor mínimo e o xmáx, o valor máximo do conjunto
de dados:
Amplitudetotal x xmáx min� �� �
– 15 –
Explorando conceito básicos em Bioestatística
A partir de 2 conjuntos de dados x = [3,5,6,12,15] e y = [60,60,60,60,60],
a amplitude dos dados é:
ATX x xmáx min 5 3 12
ATY x xmáx min 0 60 0
Logo, a variável “x” possui amplitude igual a 12 e a variável “y”
possui amplitude igual a 0 (dispersão nula), ou seja, os valores da variável
“y” não variam entre si. A utilização isolada da amplitude dos dados como
medida de dispersão é limitada, uma vez que considera apenas 2 dados
extremos. Dessa forma, quanto maior a amplitude total dos dados, maior
a variação da variável.
O desvio médio, diferentemente da amplitude, leva em considera-
ção o valor médio do conjunto de dados. O desvio médio pode ser defi-
nido como o somatório do módulo das diferenças dos dados em relação
à média, dividido pelo número total de dados. Abaixo o desvio médio é
definido matematicamente:
DesvioMédio
x
n
i� x.
Considerando o conjunto de dados da variável x = (12,8,9,10,7,13),
calcule o desvio médio:
DM
, , , , , ,12 9 83 8 9 83 9 9 83 10 9 83 7 9 83 13 9 83
6
1 83,
Logo, a dispersão média dos dados é da ordem de 1,83.
A variância é uma medida de dispersão que verifica a distância entre
os valores obtidos pela medida de tendência central amostral ou popula-
cional (média aritmética). Em suma, a variância pode ser entendida como
o somatório dos desvios elevados ao quadrado, dividido pelo total de
observações no caso da variância populacional, ou dividido pelo total de
observações menos 1 no caso da variância amostral. A seguir são definidas
as variâncias populacional e amostral:
Bioestatística
– 16 –
S
X
N
Variância populacionali2
2
s
x
n
Variânciaamostrali2
2
1
x.
Como exemplo, vamos utilizar o modelo de atendimento semanal na
administração de uma unidade básica de saúde, onde o tempo médio de
atendimento de pacientes junto ao sistema único de saúde foi registrado.
Os resultados obtidos em minutos nos setores de especialidades A, B, C e
D para cada dia da semana são destacadas a seguir:
Tabela 1.1 – Resultados nos setores de especialidades A, B, C e D
Setor Segunda Terça Quarta Quinta Sexta Sábado Domingo
A 52 55 63 76 55 66 77
B 35 42 37 45 41 47 44
C 42 35 44 49 43 45 46
D 27 32 36 35 36 39 31
A
i
n
ix
n
63 42,x. ; B� 41 57,x.
; C � 43 42,x.
; D� 33 71x.
;
s
x
nA
i2
2
1
103 61,
x.
; sB
2 18 61= , ; sC
2 18 95= , ;sD
2 15 90� ;
Em suma, os setores A e D possuem maior e menor tempo de espera
semanalmente, respectivamente. Por outro lado, os setores A e D pos-
suem maior e menor dispersão em relação à média. Apesar da variância
ser extensivamente estudada, o desvio padrão é a medida mais usada na
testagem de hipóteses estatísticas entre conjuntos de dados devido à sua
maior precisão. Esse parâmetro determina a dispersão dos valores do con-
junto de dados em relação à média, determinado por meio da extração da
– 17 –
Explorando conceito básicos em Bioestatística
raiz quadrada da variância. Abaixo, a fórmula do desvio padrão amostral
é definida matematicamente:
s
x
n
i
2
1
x.
Relembrando o exemplo anterior, abaixo são calculados o desvio
padrão do tempo de espera para os setores hospitalares de A a D.
s
x
n
s s sA
i
B C D
2
1
10 17 4 31 4 35 3 98, ; , ;x.
O coeficiente de variação é uma medida dispersão (instabilidade)
relativa de uma variável resposta, permitindo a comparação de dispersão
entre variáveis diferentes e para a mesma variável em momentos diferen-
tes. O coeficiente de variação (CV) é determinado pela relação percentual
entre o desvio padrão e a média, conforme descrito abaixo:
CV s% *� 100x.
Ainda considerando o exemplo anterior, abaixo é determinado o
coeficiente de variação para a variável tempo de espera em diferentes
setores hospitalares:
CV s CV CV CVA B A A% * , %; % , %; % , %; % , %� � � � �100 16 04 10 37 10 02 11 82
x.
A dispersão relativa do desvio padrão em relação à média oscilou
de 10,02% a 16,04% para a variável tempo de espera. Em geral, o CV de
0,1% a 15% denota uma baixa instabilidade de medida, uma dispersão
de 15,1% a 30% indica uma moderada instabilidade de medida e, por
fim, valores maiores que 30% indicam uma elevada dispersão relativa
em relação à média.
Bioestatística
– 18 –
1.2.3 Medição separatrizes
Uma outra categoria de medidas para exploração de dados são as
separatrizes. Essas medidas consistem valores de separação do conjunto
de dados em partes iguais. Para a realização da separação do conjunto de
dados, os dados devem ser previamente ordenados de forma crescente.
Além da mediana, as medidas separatrizes mais empregadas são os quar-
tis, onde o conjunto de dados é dividido em quatro partes iguais, em que
cada quartil é alocado 25% dos dados; os decis, quando o conjunto de
dados é dividido em dez partes iguais e os percentis onde o conjunto de
dados é dividido em cem partes iguais.
A partir das medidas separatrizes é construído um diagrama de caixas
(denominado em língua inglesa de “box plot”) que tem sido extensiva-
mente empregado para exploração do conjunto de dados por evidenciar os
principais aspectos da distribuição dos dados. A construção do diagrama
box plot é realizada por meio do emprego de cinco números, formados
pelo valor mínimo, primeiro quartil, segundo quartil (mediana), terceiro
quartil e valor máximo. Esse tipo gráfico além de denotar características
da distribuição é útil para comparação de distribuições de frequência de
dados. Na figura abaixo é exemplificado o diagrama box plot para explo-
ração do conjunto de dados.
O diagrama box plot representa os dados de forma resumida, onde as
arestas laterais do retângulo representam o primeiro e o terceiro quartis
(Q1 e Q3) e a linha central dentro do retângulo a mediana ou segundo
quartil. Entre o valor mínimo e Q1, Q1 e Q2, Q2 e Q3 e de Q3 ao valor
máximo são determinados os quartis. Cada um dos quartis possui 25% dos
dados, e, obviamente, entre os limites de Q1 e Q3 situam-se 50% dos dados
(intervalo interquartil). Dessa forma, para representar os 25% restantes
dos dados em cada cauda, serão considerados dados atípicos se o valor
do dado for menor que o valor observado de Q1 – 1,5(Q3-Q1) ou maior
que o valor observado de Q3 + 1,5(Q3-Q1). Adicionalmente, os dados
são classificados como valores discrepantes ou “outliers”, caso o valor do
dado for menor que o valor observado de Q1 – 3(Q3-Q1) ou maior que o
valor observado de Q3 + 3(Q3-Q1). Por fim, para representar o domínio
de variação dos dados que não são discrepantes, é traçado a partir do pri-
– 19 –
Explorando conceito básicos em Bioestatística
meiro quartil uma linha para cima e para trás é traçada até o ponto mais
remoto. Abaixo é exemplificado o diagrama box plot sobre a variável taxa
de produção de força (Rate of Force Development – RFDpeak), estudada
amplamente em intervenções e estudos em educação física e esportes.
Figura 1.2 – Diagrama box plot
Fonte: elaborada pelo autor.
1.3 Construindo tabelas e gráficos
no pacote Microsoft Excel®
A habilidade de expressar dados em forma de tabelas é fundamental
para a experimentação científica. A distribuição de frequências consiste em
uma lista das categorias ou valores que uma ou mais variáveis apresentam
em conjunto com a quantidade de ocorrências (número) de cada valor ou
categoria. Essa quantidade é denominada de frequência absoluta e pode
ainda ser expressa em forma de frequência percentual de cada categoria (%).
Logo, o processo de apresentação de um conjunto de dados é depen-
dente do tipo de variável estudada. Os gráficos de colunas,barras e linhas
geralmente direcionados para apresentação de frequências absolutas, rela-
Bioestatística
– 20 –
tivas e medidas de tendências central associadas a medidas de dispersão.
Adicionalmente, histogramas e polígonos de frequências são empregados
para expressar a distribuição de frequências de variáveis discretas e contí-
nuas. Para sumarizar variáveis nominais o gráfico de setores é um recurso
muito utilizado. É necessário que o leitor conheça as variáveis de interesse
de sua área de estudo ou campo de atuação, conheça e se familiarize com
os gráficos empregados.
Nesta seção serão aplicados os conceitos que você aprendeu ante-
riormente em ambiente Excel® a partir de um banco de dados conhecido
para determinação de medidas descritivas, tabelas e gráficos (https://
www.ime.usp.br/~noproest/dados/aeusp.xls). Abaixo são descritas as
variáveis observadas nas colunas do banco de dados (aba “descrição do
arquivo”). As informações do banco de dados referem-se a uma pesquisa
realizada pela Associação dos Educadores da USP (AEUSP), retratando
aspectos socioeconômicos e culturais de comunidades de pobres no
Butantã, São Paulo – SP.
Quadro 1.1 – Descrição das variáveis componentes da base de dados [“aeusp.xls”]
coluna 1: Número do questionário (Num).
coluna 2: Comunidade (Comun).
coluna 3: Sexo (Sexo): 1: masculino/2: feminino
coluna 4: Faixas de idade, em anos (Idade):
1: de 14 (inclusive) a 25 (exclusive)
2: de 25 (inclusive) a 35 (exclusive)
3: de 35 (inclusive) a 45 (exclusive)
4: 45 anos ou mais
coluna 5: Estado Civil (Ecivil): 1: solteiro/ 2:
casado/ 3: divorciado/ 4: viúvo/ 5: outro
coluna 6: Região de Procedência (Reproce).
coluna 7: Tempo de residência em São Paulo, em anos (Temposp).
coluna 8: Número de residentes na casa (Resid).
– 21 –
Explorando conceito básicos em Bioestatística
coluna 9: Trabalho (Trab): 1: sim/2: não/3: aposentado
coluna 10: Tipo de trabalho, só para os que
responderam trabalham (Ttrab):
1: empregado com carteira
2: empregado sem carteira
3: profissional liberal
4: autônomo
5: rural
coluna 11: Idade que começou a trabalhar, em anos (Itrab).
coluna 12: Renda familiar em faixas de reais (Renda):
1: de 0 (inclusive) a 150 (exclusive)
2: de 150 (inclusive) a 300 (exclusive)
3: de 300 (inclusive) a 450 (exclusive)
4: de 450 (inclusive) a 900 (exclusive)
5: de 900 (inclusive) a 1500 (exclusive)
6: 1500 ou mais
coluna 13: Acesso a computador (Acompu): 1: sim/2: não
coluna 14: Série em que parou de estudar (Serief):
em branco: não parou de estudar
1 a 8: séries do ensino fundamental
9 a 12: séries do ensino médio
Fonte: https://www.ime.usp.br/~noproest/dados/aeusp.xls
Uma ferramenta importante para sintetização e apresentação de variá-
veis consiste na utilização da ferramenta de tabelas dinâmicas do ambiente
Excel. Logo, é apresentado a seguir uma descrição passo a passo para
construção de tabelas. Para construir uma tabela univariada (uma variável
e suas categorias): (1) todas as cédulas das variáveis incluindo o rótulo são
selecionadas; (2) clica-se na aba “inserir”; e (3) mais uma vez na janela
em “tabela dinâmica”.
Bioestatística
– 22 –
Figura 1.3 – Inserção de tabela dinâmica e seleção de dados
Fonte: https://www.ime.usp.br/~noproest/dados/aeusp.xls (2021).
Na sequência, em uma nova janela “criar tabela dinâmica”, o leitor
deverá escolher os dados ou tabela que se deseja analisar e escolhe-se
onde se deseja que o relatório de tabela dinâmica seja colocado (“Nova
Planilha”) e clica-se em “ok”.
Figura 1.4 – Inserção de tabela dinâmica e seleção de dados
Fonte: elaborada pelo autor.
– 23 –
Explorando conceito básicos em Bioestatística
Na nova planilha, observam-se os campos:
1. Soltar Campos de Filtros do Relatório aqui”, são os campos
onde a variável vai ser resumida;
2. “Campos da tabela”, esses campos aparecem no lado direito
da planilha, na área “Escolha os campos para adicionar ao rela-
tório”, aparece o nome da variável ou variáveis a resumir, no
exemplo aparece o nome da variável Sexo;
3. Arraste os campos entre as áreas abaixo”, onde existem o campo
de (a) “Filtros”, onde se pode especificar algum filtro para se
aplicar aos dados; (b) “colunas”, caso a variável vá ser resu-
mida em coluna; (c) “linhas”, quando a variável escolhida vai
ser resumida em linha; e (d) “∑ valores”, onde se tem diversos
forma de resumir a variável, aparece o primeiro tipo de cálculo
a resumir que é “Soma”.
Figura 1.5 – Tabela univariada para a variável sexo
Fonte: elaborada pelo autor.
Para sumarizar a variável “Sexo” em linha e a variável “Resid”, temos que:
1. Arrasta-se a variável sexo ao campo “Linhas” e a variável
“Resid” para o campo de colunas, para que cada categoria da
variável seja alocada em uma linha;
2. Arrastar a variável ao campo “∑ valores”: observe que na tabela
dinâmica se tem a soma de sexo.
Bioestatística
– 24 –
3. Para mudar o tipo de cálculo a resumir, clicar duas vezes no
campo “Soma de Sexo”, e observe que abre outra janela de
“Configurações do Campo de Valor”, onde temos diversas
maneiras de resumir a variável, incluso o cômputo de medidas
de tendência central. Nesse caso, mudou-se para “Contagem” e
após clicar “ok”, observe a mudança na tabela dinâmica:
Figura 1.6 – Tabela univariada para a variável sexo
Fonte: elaborada pelo autor.
A tabela obtida pode ser editada, mudando os rótulos das colunas,
nome das categorias, e representar com um gráfico de coluna, barras ou
circular. Para esse objetivo, deve-se selecionar a aba “análise de tabela
dinâmica” e clicar em “gráfico dinâmico”.
Figura 1.7 – Gráfico dinâmico
Fonte: elaborada pelo autor.
– 25 –
Explorando conceito básicos em Bioestatística
Após selecionar a janela “Gráfico Dinâmico”, tem-se uma nova
janela que mostra todos os gráficos que podemos selecionar, para esse
tipo de variável nominal (“sexo”), podemos selecionar as alternativas de
“Colunas”, “Pizza” ou “Barras”. Após selecionar e clicar em “ok”, apa-
recerá o gráfico selecionado, que pode ser editada toda a área do gráfico.
Figura 1.8 – Gráfico de “pizza”
Fonte: elaborada pelo autor.
Para apresentar os dados da variável termos de frequência relativa (%),
temos que:
1. Colocar o cursor na tabela dinâmica (mesma tabela);
2. Arrastar a variável sexo novamente ao campo “∑ valores”,
observando que na tabela dinâmica há uma nova coluna à direita
da frequência absoluta e no campo “∑ valores”, aparece uma
nova soma de sexo (“Soma de Sexo2”), nesse campo deve-se
mudar para contagem efetuando um duplo clique;
3. Para mudar a forma de resumir a variável, muda -se a forma de
“Mostrar valores como” e clicar na linha “Sem cálculo”, observe
que há diversas alternativas de mostrar valores, selecione a alter-
nativa “% do Total Geral”;
Após clicar “ok”, observe a mudança na tabela dinâmica, a seguir.
Bioestatística
– 26 –
Figura 1.9 – Gráfico de pizza
Fonte: elaborada pelo autor.
Na tabela univariada, observa – se que uma maior proporção de alu-
nos pertence ao sexo feminino (“2”, cor vermelha, gráfico de pizza). Logo,
tabelas com duas variáveis podem ser construídas, fundamental para cons-
trução de tabelas de contingência amplamente usadas na área de ciências
da saúde, assunto a ser abordado em capítulos posteriores.
Figura 1.10 – Tabela bivariada
Fonte: elaborada pelo autor.
Após selecionar as colunas de dados a serem analisados, o leitor deve
abrir a aba “inserir” e clicar em “tabela dinâmica”. Nessa planilha, observe
que no exemplo resume-se a variável “sexo” em linha, e arrasta-se a vari-
ável “Idade” ao campo “colunas”, e, por fim, para que cada categoria da
– 27 –
Explorando conceito básicos em Bioestatística
variável seja alocada em uma coluna, a mesma variável é adicionada ao
campo “∑ valores”, observe que na tabela dinâmica se tem a soma de
sexo. A seguir verifica-se a tabela bivariada para as variáveis sexo e idade.
Para mudar o tipo de cálculo a resumir, clicar no campo Soma, e observe
que abre outra janela de “Configurações doCampo de Valor”, onde temos
diversas formas de resumir a variável, em nosso caso devemos mudar para
Contagem. Após clicar “OK”, observe a mudança na tabela dinâmica.
Figura 1.11 – Tabela bivariada: contagem
Fonte: elaborada pelo autor.
Após ser editada a tabela dinâmica, mudando os rótulos de linha e
rótulos de colunas e nome das categorias, observamos que o maior número
de entrevistados na faixa etária de 14 a 25 anos (1) e do sexo feminino (2).
Figura 1.12 – Gráfico bivariado: contagem
Fonte: elaborada pelo autor.
Bioestatística
– 28 –
Para representar os dados da tabela bivariada em forma de gráfico,
temos que:
1. Primeiramente, colocar o cursor e clicar na janela superior “aná-
lise de tabela dinâmica”;
2. Nas alternativas abertas selecionar “Gráfico Dinâmico”;
3. A partir da nova janela que mostra todos os gráficos que pode-
mos selecionar, para este tipo de variável nominal, podemos
selecionar as seguintes as alternativas de gráficos de “colunas”
ou “barras” (a seguir).
Figura 1.13 – Gráfico bivariado
Fonte: elaborada pelo autor.
Novamente, após clicar “ok”, aparece o gráfico selecionado, pode ser
editado no título do gráfico, a legenda e toda a área do gráfico, a seguir um
exemplo do gráfico da distribuição de entrevistados segundo sexo e faixa
etária, onde se observa que o maior número de entrevistados é do sexo
feminino e da faixa etária maior que 14 anos e menor que 25. Em diversas
situações, variáveis podem ser expressas como tabelas com intervalos de
classe, em que cada classe possui limites superiores e inferiores para clas-
sificação da amostra.
– 29 –
Explorando conceito básicos em Bioestatística
O procedimento de determinação dos intervalos de classe é mos-
trado para construir uma distribuição de frequências em intervalos de
classe. No exemplo abaixo, uma tabela dinâmica foi construída com a
variável de interesse “Itrab” que aparece em uma nova planilha. Na
tabela dinâmica criada, coloca-se o cursor em uma das células, e sele-
ciona-se “agrupar”.
Figura 1.14 – Intervalos de classe para a variável “ITRAB”
Fonte: elaborada pelo autor.
Após selecionar a janela “Agrupar Seleção” se abre uma nova
janela “Agrupamentos”, onde se observa os seguintes campos: “Ini-
ciar em”, o limite inferior do primeiro intervalo de classe; “Finalizar
em” o limite superior do último intervalo de classe e “Por” para a
amplitude do intervalo. No exemplo, para agrupar a variável “Itrab”,
dado que o valor mínimo é 0 e o máximo é 34, indicamos que o agru-
pamento deve-se iniciar em 0, e terminar em 35 com uma amplitude
de 5 (7 intervalos de classe, veja acima). Subsequentemente, a apre-
sentação da distribuição de frequências é apresentada em formato
de histograma e polígono de frequências. No exemplo, posiciona-se
os dados a representar (frequência absoluta incluindo o rótulo) e em
seguida a opção “gráfico dinâmico”. Por fim, define-se o tipo de grá-
fico adequado ao tipo de variável.
Bioestatística
– 30 –
Figura 1.15 – Variável ITRAB agrupada em 7 intervalos de classe
Fonte: elaborada pelo autor.
Após fechar a janela, temos o histograma da variável, é possível editá-
-lo para mudança do título e os rótulos do eixo horizontal. A seguir é apre-
sentado o procedimento para construção do histograma e polígono de frequ-
ências. Para editar a entrada de dados, clica-se com o botão direito, dentro
da janela aberta marcando “Selecionar Dados”, e na nova janela “Selecionar
Fonte de Dados”, seleciona-se os seguintes itens: (a) “Intervalo de dados do
gráfico”, as células onde os dados se encontram; (b) “Alterar entre linha e
coluna”, alteração dos dados, entre linha e coluna; e (c)“Entrada de legenda
Série”, se estamos adicionando outra série de dados, e/ou editar a série de
dados apresentada e/ou remover a série apresentada. É recomendável que
você explore as diferentes opções de edição do gráfico.
Figura 1.16 – Histograma de frequência da variável “ITRAB”
Fonte: elaborada pelo autor.
– 31 –
Explorando conceito básicos em Bioestatística
Para construir o polígono de frequências no mesmo histograma, deve-
mos colocar o mouse do lado direito, dentro da janela aberta marcar “Selecio-
nar Dados”, e na nova janela “Selecionar Fonte de Dados”, essa nova janela
no campo “Entrada de legenda Série”, adicionar a mesma série de dados, após
clicar Ok, temos duas colunas que representam a frequência absoluta.
Figura 1.17 – Edição de histograma de frequência
Fonte: elaborada pelo autor.
Podemos construir também um histograma acompanhado de um polígono
de frequências relativas. Para isso basta selecionar o intervalo de dados e mudar
o tipo de gráfico para linhas na opção gráfico dinâmico, como mostrado a seguir.
Figura 1.18 – Histograma e polígono de frequências para a variável “Itrab”
Fonte: elaborada pelo autor.
Bioestatística
– 32 –
Outra figura que podemos construir são as Ogivas, que são as repre-
sentações das frequências relativas acumuladas. A seguir, a tabela com
essas frequências acumuladas e colunas indicando os limites inferiores
(LI) e limites superiores (LS) dos intervalos de classe.
Figura 1.19 – Histograma e polígono de frequências para a variável “Itrab”
Fonte: elaborada pelo autor.
Após selecionar as células da frequência relativa acumulada abaixo
de, abrimos a janela “Ferramentas de Gráfico”, selecionamos um gráfico
de linha, após editar o título do gráfico e eixo horizontal com os valores do
limite inferior, temos a Ogiva Abaixo de, como se mostra na seguinte figura.
Figura 1.20 – Distribuição de frequências relativas acumuladas – Ogivas
Fonte: elaborada pelo autor.
– 33 –
Explorando conceito básicos em Bioestatística
Da mesma forma, selecionando as células da frequência relativa
acumulada Acima de, abrimos a janela “Ferramentas de Gráfico”, sele-
cionamos um gráfico de linha, após editar o título do gráfico e eixo
horizontal com os valores do limite superior, temos a Ogiva Acima de,
como se mostra na seguinte figura.
Figura 1.21 – Distribuição de frequências relativas acumuladas – Ogivas
Fonte: elaborada pelo autor.
Atualmente, existem vários pacotes estatísticos para tratamento de
dados, gratuitos (“R” Statistical Software, Python etc.) e pagos (SPSS,
Minitab, Microsoft Excel,etc.). Para expressar as medidas descritivas
será empregado o software Excel abaixo, por meio de um procedi-
mento simples para sumarização das medidas descritivas, permitindo
ao usuário a exploração dos dados. Para isso, na aba de “dados” do
Excel, clique na ferramenta de análise de dados. Para isso, é necessário
habilitar a ferramenta de “análise de dados” do Excel. Após habilitar
essa ferramenta, clique no ícone “análise de dados”.
Bioestatística
– 34 –
Figura 1.22 – Icone “Análise de dados” da plataforma Excel®
Fonte: elaborada pelo autor.
Após selecionar o ícone, você deverá escolher a opção de análise de
dados de “estatística descritiva”, conforme a figura a seguir:
Figura 1.23 – Estatística descritiva
Fonte: elaborada pelo autor.
– 35 –
Explorando conceito básicos em Bioestatística
Após a seleção da opção de estatística descritiva, você deverá sele-
cionar o conjunto de dados de entrada (coluna), nova planilha e resumo
estatístico, conforme figura abaixo.
Figura 1.24 – Seleção de dados da variável de interesse
Fonte: elaborada pelo autor.
Após selecionar o resumo estatístico, o conjunto de medidas de
tendência central, dispersão e separatrizes. A partir do resumo esta-
tístico obtido para variável “Tempo de residência em São Paulo em
anos”, o leitor poderá melhor interpretar as variáveis de seu interesse
e realizar os exercícios.
Bioestatística
– 36 –
Figura 1.25 – Resumo estatístico: medidas descritivas
Fonte: elaborada pelo autor.
Após a breve apresentação de conceitos, aplicação de conceitos e
exemplos, no próximo capítulo será apresentado o software estatístico
“R”, que será empregado durante todos os capítulos. É indispensável o
entendimento dos conceitos apresentados para a evolução do aprendizado.Atividades
1. Alguns termos em estatística são extensamente usados. Como,
por exemplo, população e amostra. A seguir, a partir da definição
de cada um deles, avalie como as frases abaixo devem ser corre-
tamente completadas.
A população é um __________ completo de todos os elementos
a serem estudados. Já amostra é um _________ da população A
– 37 –
Explorando conceito básicos em Bioestatística
partir das amostras é possível fazer inferências que servirão de
base para a ___________ de decisões.
Assinale a alternativa que completa a frase corretamente.
(A) subconjunto; conjunto; tomada.
(B) conjunto; subconjunto; tomada.
(C) conjunto; conjunto; tomada.
(D) subconjunto; conjunto; subconjunto.
(E) conjunto; subconjunto; subconjunto.
2. Em uma pesquisa realizada em uma cidade do interior de Minas
Gerais para a análise da viabilidade da implantação de uma fábrica de
roupas, foram identificados os seguintes indicadores:
(1) idade, (2) escolaridade, (3) renda, (4) sexo, (5) número de
lojas de roupas na cidade, (6) preço médio das roupas na cidade.
Dos dados acima, quais são quantitativos e quais são qualitativos?
(A) Quantitativos – 1, 3, 4 e Qualitativos –2, 5, 6.
(B) Quantitativos – 1 e Qualitativos – 2, 3, 4, 5, 6.
(C) Quantitativos – 1, 3, 5 e Qualitativos – 2, 4, 6.
(D) Quantitativos – 1, 3, 5, 6 e Qualitativos – 2, 4.
(E) Quantitativos –1, 4, e Qualitativos – 2, 3, 5, 6.
3. Avalie as afirmações I, II, III e IV sobre variáveis quantitativas
e variáveis qualitativas
I. O número de filhos de um casal é uma variável quantitativa.
II. O número de cigarros fumados por dia é uma variável qualitativa.
III. O estágio da doença (inicial, intermediário, terminal) é uma
variável qualitativa.
IV. A escolaridade (ensino fundamental, ensino médio, ensino
superior) é uma variável quantitativa.
Bioestatística
– 38 –
Assinale a(s) alternativa(s) correta(s).
(A) Apenas as afirmativas III e IV estão corretas.
(B) Apenas as afirmativas II e III estão corretas.
(C) Apenas a afirmativa I está correta.
(D) Todas as afirmativas estão corretas.
(E) Apenas as afirmativas I e III estão corretas.
4. Existe uma medida muito utilizada na comparação de diferenças
entre conjuntos de dados, por ter grande precisão. Ela é respon-
sável por determinar a dispersão dos valores em relação à média
e é calculado por meio da raiz quadrada da variância. Assinale a
alternativa que apresenta o nome da medida descrita acima.
(A) Moda.
(B) Coeficiente de Variação.
(C) Mediana.
(D) Desvio padrão.
(E) Desvio médio.
5. O cálculo das medidas de Tendência Central pode possibilitar a
localização da maior
concentração de valores de uma dada distribuição, isto e, se ela
se localiza no início, no meio ou no final, ou, ainda, se há uma
distribuição por igual. A respeito das medidas de Tendência Cen-
tral, avalie as afirmações I, II e III sobre algumas medidas.
I. Média aritmética simples pode ser obtida pelo quociente da
soma de todos os dados do experimento e o número total de dados.
II. A mediana e o valor que aparece com mais frequência no
conjunto de dados do experimento.
III. A moda e o valor tal que mais da metade dos dados e
maior ou igual a ela, e mais da metade dos dados e menor ou
igual a ela.
– 39 –
Explorando conceito básicos em Bioestatística
Em relação às afirmações sobre as medidas, assinale a alterna-
tiva correta:
(A) Apenas I e III são corretas.
(B) Apenas II e III são corretas.
(C) I, II e III são corretas.
(D) Apenas III é correta.
(E) Apenas I é correta.
6. As medidas média, mediana e moda promovem comparações de
series de dados entre si pela confrontação desses números. Em
certa pesquisa foram obtidos os seguintes conjuntos de dados
13, 10, 12, 13, 14, 15. Ao analisar essa pesquisa observaram que:
I. A moda do conjunto de dados acima é o 13.
II. Ao colocar os números em ordem crescente tem-se 10, 12,
13, 13, 14, 15. Em seguida tirar a média dos dois termos central,
resulta-se em 13.
A respeito dessas asserções, assinale a opção correta:
(A) as asserções I e II são proposições verdadeiras, e a II é uma
justificativa da I.
(B) a asserção I é uma proposição falsa, e a II é uma proposição
verdadeira.
(C) as asserções I e II são proposições falsas.
(D) a asserção I é uma proposição verdadeira, e a II é uma pro-
posição falsa.
(E) as asserções I e II são proposições verdadeiras, mas a II não
é uma justificativa da I.
7. Um aspecto importante no estudo descritivo de um conjunto de
dados é o da determinação da variabilidade ou dispersão des-
ses dados, relativamente à medida de localização do centro da
amostra. A seguir são apresentados alguns resultados referentes
ao cálculo do desvio padrão.
Bioestatística
– 40 –
I. Com relação aos dados 12, 15, 14 e 13 o desvio padrão é apro-
ximadamente 1,12.
II. Com relação aos dados 10, 11, 12 e 13 o desvio padrão é
aproximadamente 0,8.
III. Com relação aos dados 22, 25, 25 e 22 o desvio padrão é
aproximadamente 1,12.
Em relação às afirmativas acima, assinale a alternativa correta:
(A) Apenas I e III são corretas.
(B) Apenas II e III são corretas.
(C) I, II e III são corretas.
(D) Apenas III é correta.
(E) Apenas I é correta.
8. A ________________é a diferença entre o maior e o menor
valor analisado em uma variável em ordem crescente. Já medida
de dispersão _____________ é a medida mais usada na com-
paração de diferenças entre conjuntos de dados, por ter grande
precisão. E responsável por determinar a dispersão dos valores
em relação a média e é calculado por meio da raiz quadrada
da____________.
A partir das definições acima avalie como as frases abaixo
devem ser corretamente completadas. Assinale a alternativa que
completa a frase corretamente.
(A) Amplitude total; variância; desvio padrão.
(B) Amplitude total; desvio padrão; variância.
(C) Variância; desvio médio; variância.
(D) Variância; desvio padrão; variância.
(E) Amplitude total; variância; desvio médio.
9. Na escola de Pedro, para nota final, é adotado o sistema de médio
ponderada. Para o cálculo da média ponderada da disciplina de
– 41 –
Explorando conceito básicos em Bioestatística
matemática, considera-se que as duas primeiras provas têm peso 2
e as outras duas tem 3 pontos. Na tabela abaixo está representado
as notas de Pedro:
Pedro
1ª prova 6,5
2ª prova 7,8
3ª prova 8,0
4ª prova 7,1
Considerando o contexto apresentado, avalie as seguintes asserções:
I. A média ponderada da nota de Pedro na disciplina de matemá-
tica é 7.39.
II. A média ponderada pode ser determinada pelo seguinte cál-
culo � �
� � �6 5 7 8 8 0 7 1
4
, , , ,
.
A respeito dessas asserções, assinale a opção correta:
(A) As asserções I e II são proposições verdadeiras, e a II é uma
justificativa da I.
(B) A asserção I é uma proposição verdadeira, e a II é uma pro-
posição falsa.
(C) A asserção I é uma proposição falsa, e a II é uma propo-
sição verdadeira.
(D) As asserções I e II são proposições falsas.
(E) As asserções I e II são proposições verdadeiras, mas a II não
é uma justificativa da I.
2
Aplicando conceitos:
introdução pacote
de análise de dados
Microsoft Excel® ao
software estatístico “R”
2.1 Análise de dados – Pacote
Microsoft Excel®
Atualmente, existem vários pacotes estatísticos para tra-
tamento de dados, gratuitos (“R” Statistical Software, Python)
e pagos (SPSS, Minitab, Microsoft Excel). Para expressar as
medidas descritivas, neste capítulo, será empregado o software
Excel, por meio de um procedimento simples para sumarização
das medidas descritivas, permitindo ao usuário a exploração dos
dados. Em seguida, será feita uma breve introdução ao software
R que será empregado nos demais capítulos.
Para inciar, clique na aba de “dados” do Excel e depois na
ferramenta de análise de dados. Para isso, inicialmente, você terá
de habilitar a ferramenta de “análise de dados” do Excel. Após
habilitar essa ferramenta, clique no ícone “análise de dados”.
Bioestatística
– 44 –
Figura 2.1 – Icone“Análise de dados” da plataforma Excel®
Fonte: elaborada pelo autor.
Após selecionar o ícone, você deverá escolher a opção de análise de
dados de “estatística descritiva”, conforme a figura a seguir:
Figura 2.2 – Estatística descritiva
Fonte: elaborada pelo autor.
– 45 –
Aplicando conceitos: introdução pacote de análise de dados Microsoft Excel® ao
software estatístico “R”
Após a seleção da opção de estatística descritiva, você deverá sele-
cionar o conjunto de dados de entrada (coluna), nova planilha e resumo
estatístico, conforme abaixo.
Figura 2.3 – Seleção de dados da variável de interesse
Fonte: elaborada pelo autor.
Após selecionar o resumo estatístico, o conjunto de medidas de ten-
dência central, dispersão e separatrizes. A partir do resumo estatístico
obtido para variável “Tempo de residência em São Paulo em anos”, você
poderá melhor interpretar as variáveis relacionadas ao banco de dados.
Figura 2.4 – Resumo estatístico: medidas descritivas
Fonte: elaborada pelo autor.
Bioestatística
– 46 –
2.2 Introdução ao software estatístico “R”
O “R” é um software livre e totalmente gratuito para processamento e
análises de dados. A gênese do software R remete ao ano de 1996, através
dos professores de estatística Ross Ihaka e Robert Gentleman, vinculados
à Universidade de Auckland, que desenvolveram a nova linguagem com-
putacional, similar a linguagem “S”, amplamente conhecida e desenvol-
vida por John Chambers. Neste capítulo 2, pretende-se realizar uma intro-
dução ao ambiente do software “R”, para novos usuários provenientes de
diferentes áreas do conhecimento.
É muito questionado sobre a superioridade ou as vantagens do software
“R” em relação a outros pacotes estatísticos disponíveis. Para esclarecer
isso, é necessário abordar alguns benefícios do “R”. Dentre as vantagens
da sua utilização, podem ser enumeradas:
1. A gratuidade do software, possuindo código aberto com uma lin-
guagem acessível;
2. Ampla utilização e franca expansão entre pesquisadores, profis-
sionais de saúde e estatísticos;
3. Possui mais de 5300 pacotes, com aplicações a todas às áreas
do conhecimento;
4. Possibilidade de desenvolvimento de pacotes, permitindo desen-
volver ferramentas de acordo com nossa necessidade;
5. Atualização constante com cobertura superior e tecnologia de ponta;
6. A melhor capacidade gráfica dentre os softwares estatísticos;
7. Disponível para diferentes plataformas: Windows, Linux e Mac;
8. Qualidade do “backup” e rede de suporte disponível em internet;
9. Compartilhamento de soluções e criação de um ambiente cola-
borativo com outros usuários;
O software pode ser encontrado na internet no site denominado CRAN
(The Comprehensive R Archive Network), que disponibiliza o download do
instalador (http://cran.r-project.org/). É importante ficar atento e escolher
– 47 –
Aplicando conceitos: introdução pacote de análise de dados Microsoft Excel® ao
software estatístico “R”
corretamente o arquivo desejado, uma vez que existem versões para o Win-
dows, MAC e Linux. Facilmente o usuário pode buscar vídeos na internet
para orientar e sanar dúvidas sobre instalação e utilização do software R
(https://www.youtube.com/watch?v=_V8eKsto3Ug). Existem atualmente
três tipos de interfaces de trabalho fornecidas: (1) Interface clássica do
software R – RGUI; (2) Interface RStudio; (3) Interface RCommander.
Neste capítulo, será utilizada a interface clássica do R, que permite edição
de linhas de código e as saídas obtidas em duas áreas separadas, dispostas
horizontalmente ou verticalmente a critério do usuário.
A tela principal do R é apresentada na figura 2.5. A primeira informa-
ção disponível na tela é a data, o número de versão do software, seguido
de um cabeçalho detalhando que não há garantia para o software, bem
como alguns comandos importantes. Abaixo do cabeçalho, é exposto
uma linha em branco com o símbolo “>” na porção esquerda da tela.
O símbolo representa um sinal de alerta onde são editados comandos.
No processo de edição, o aparecimento do símbolo “+” significa que o
último comando digitado não está completo, sendo necessário digitar
os caracteres que faltam. Caso o comando tenha sido digitado de forma
errada, pressionando “ESC”, o símbolo de alerta aparecerá novamente.
O software R armazena os comandos executados, sendo possível através
do cursor é possível recuperar os comandos digitado sem a necessidade
de digitar novamente os mesmos comandos.
Figura 2.5 – Informações de interface no software R
Fonte: elaborada pelo autor.
Bioestatística
– 48 –
O uso do R é feito através dos comandos sobre os objetos (veto-
res, fatores, matrizes, listas e quadros de dados) que serão apresentados
a seguir. Através da interface é possível obter ajuda por meio da barra de
ferramentas do RGUI. Entretanto, conhecendo o nome da função que se
quer ajuda, pode-se digitar apenas um ponto de interrogação, seguido do
nome da função na linha de comandos. Caso o leitor não se lembre do
nome exato da função, mas conheça o assunto de interesse, é possível
utilizar a função “help()” com a consulta entre aspas. Logo, as funções
relacionadas ao assunto escolhido serão listadas. Em adição, para finali-
dades acadêmicas de citação do software e seus respectivos pacotes, basta
utilizar o comando “citation()”. A seguir na figura 2.6, são mostrados os
exemplos de solicitação de ajuda, visualização de exemplos e realização
de demonstrações de funções e comandos desejados.
Figura 2.6 – Utilização de comandos de citação e apoio ao usuário no software R
– 49 –
Aplicando conceitos: introdução pacote de análise de dados Microsoft Excel® ao
software estatístico “R”
Fonte: elaborada pelo autor.
Para ver um exemplo sendo executado, basta utilizar o comando
“example ()”, escrevendo o nome da função desejada entre os parênteses.
Adicionalmente, uma ótima maneira para observar as opções disponíveis
no R consiste em utilizar a função “demo ()”, onde é possível visualizar a
demonstração sobre gráficos. Esses comandos são de suma importância ao
aprendizado do leitor. Os conteúdos apresentados neste material de apoio
podem ser praticados através do software R, adaptados e estudados para sua
aplicação por parte do usuário. Nas figura 2.7 e 2.8, são detalhados os impor-
tantes comandos de auxílio ao usuário “demo ()” e “example()”. Ao repetir
os mesmos comandos apresentados, o usuário terá como treinar a execução
e adaptar os exemplos e demonstrações apresentadas às suas necessidades.
Figura 2.7 – Utilização do comando de exemplo no software R (lm – representa “linear
model” ou modelo linear, a ser detalhado no capítulo relacionado à regressão linear)
Bioestatística
– 50 –
Fonte: elaborada pelo autor.
O pacote básico do R não possui a maioria das bibliotecas disponibiliza-
das pela plataforma do software R. Entretanto, a instalação dessas bibliotecas
é muito simples. Para isso, é necessário a conexão com a internet e executar
a linha de comandos “install.packages()”, função necessária à realização do
upload das bibliotecas solicitadas. Após a execução da solicitação, é questio-
nado ao usuário o espelho ou servidor (cidade/país) para baixar os arquivos.
Figura 2.8 – Utilização do comando de demonstração no software R: demonstração de
comandos e argumentos relacionados à implementação de gráficos
– 51 –
Aplicando conceitos: introdução pacote de análise de dados Microsoft Excel® ao
software estatístico “R”
Fonte: elaborada pelo autor.
Como exemplo, a seguir é instalado o pacote “MASS”, para sua
utilização, deve-se chamar o pacote instalado, conforme a seguir. Para
identificar o conteúdo da biblioteca instalada, basta utilizar o comando
“help”. A escrita de funções e outras seções de linha de entrada, o usu-
ário perceberá que ao invés de executar os comandos diretamente no
console do software, torna-se mais útil um editor de texto para essa
função. Para acessá-lo, deve se utilizar a barra de menu da interface
RGUI, clicando em “arquivo> novo script”, sucedendo – se a aber-
tura de uma nova janela intitulada “Untitled – R editor”, local para
digitar e editar os comandos. Para executar as linhas, basta destacá-
-las e pressionar as teclas “Ctrl + R”, logo, automaticamente as linhas
executadas são executadas e transferidas para a janela de comandos.
As linhas executadas podem ser salvas para posterior utilização pres-
sionando as teclas “Ctrl + S” como um arquivo, sendo necessária a
atribuição de um nome.
Figura 2.9 – Utilização dos comandos de instalação, utilização e solicitação de apoio
para pacotes no software R
Bioestatística
– 52 –
Fonte: elaborada pelo autor.
Conforme tratado anteriormente, a utilização do R é feita por meio da apli-
cação de comandos sobre os objetos (vetores, fatores, matrizes, listas e datafra-
mes também denominados de quadros de dados). Para tanto, faz-se necessário
conhecer o que caracteriza cada objeto, como criá-los e manuseá-los. Logo,
podemos definir um vetor com uma sequência numérica de valores com os
– 53 –
Aplicando conceitos: introdução pacote de análise de dados Microsoft Excel® ao
software estatístico “R”
caracteres “< ̶”, onde a função “c()” é usada para criar um vetor a partir de
seus argumentos. Por exemplo, a seguir é apresentado um vetor composto por
uma sequência de números primos, menores que 12. Neste exemplo, definimos
como vetor os números 2, 3, 5, 7 e 11. Caso seja necessário adicionar mais
informações em um vetor, basta criar um vetor novo, conforme exemplificado.
Existem ainda outras formas de se gerar um vetor, gerando uma sequência de
números, conforme destacado. Se o vetor é muito longo e não cabe em uma
linha, o software utilizará as linhas seguintes para imprimir o vetor.
Figura 2.10 – Criação de vetores
Fonte: elaborada pelo autor.
Adicionalmente, uma maneira mais geral de produzir sequências de
valores reside no uso da função “seq()”, com argumentos entre parênteses,
número inicial, final e passo de sequência. Retomando o exemplo anterior, é
possível criar uma sequência de números inteiros de 1 a 30, de dois em dois
e exemplificada também de forma inversa. Para facilitar o entendimento da
função, o mesmo comando pode ser escrito de outra maneira, conforme des-
tacado na figura 2.10. Uma outra função útil para gerar sequências numéricas
é o comando “rep()” que retorna o primeiro argumento repetindo o número de
vezes indicado pelo segundo argumento. Como exemplo, para gerar um vetor
composto pelos algarismos 4 e 5 repetidos por 15 vezes. Outros exemplos de
criação de vetores com o comando “rep()” são destacados na figura 2.11.
Bioestatística
– 54 –
Figura 2.11 – Criação de vetores no software R com os comandos “seq()” e “rep()”
Fonte: elaborada pelo autor.
Na sequência, operações aritméticas envolvendo vetores são comuns
e efetuadas para cada um de seus elementos, na figura 2.8 são mostrados
alguns exemplos de operações com vetores incorporando conhecimentos
já reportados. Entretanto deve se ressaltar que o comprimento do maior
vetor não se constitui como um múltiplo do tamanho do menor vetor, o
software R irá alertar e emitir uma mensagem de alerta (“warning”).
Figura 2.12 – Operações aritméticas com vetores
Fonte: elaborada pelo autor.
– 55 –
Aplicando conceitos: introdução pacote de análise de dados Microsoft Excel® ao
software estatístico “R”
Uma outra categoria de objetos usados no software R são os fatores.
Este objeto é utilizado para armazenar dados categóricos. Por exemplo,
caso o leitor tenha o interesse em armazenar em um determinado banco de
dados a informação sobre o sexo dos indivíduos. Para isso, o usuário pode
utilizar o código numérico de “0” para homens e “1” para mulheres ou
ainda usar as letras “M” e “F” (Masculino – M, Feminino – F), em ambos
as situações deve-se usar a função “as.factor()”, para construção de um
fator. As categorias ou níveis de um fator podem ser consultadas através
da função “levels()”, podendo ser modificado facilmente assinalando um
novo vetor aos níveis do fator. A figura 13 mostra a construção de fatores.
Figura 2.13 – Construção de fatores a partir de vetores
Fonte: elaborada pelo autor.
A partir dos fatores construídos é possível tabular, ou seja, construir
tabelas com o registro de frequência de cada categoria por meio da função
“table()”, ou ainda com um exemplo mais detalhado (ver figura 2.13).
O software R também é capaz de operar matrizes e existem várias formas
de criar matrizes. A seguir são reportadas algumas na figura 2.14:
Figura 2.14 – Manipulação de matrizes no software R
Bioestatística
– 56 –
Fonte: elaborada pelo autor.
Para saber a dimensão sobre a matriz, basta utilizar o comando
“dim()”, que retorna um vetor com o número de linhas e colunas da matriz,
nessa ordem. Para transpor uma matriz, ou seja, para trocar as linhas pelas
colunas deve-se utilizar o comando “t()”. Adicionalmente, para pedir um
resumo das medidas descritivas básicas por colunas da matriz, com execu-
ção do comando “summary()”. Observe que o comando retorna o mínimo,
o primeiro quartil, a mediana, a média, o terceiro quartil e o valor máximo.
– 57 –
Aplicando conceitos: introdução pacote de análise de dados Microsoft Excel® ao
software estatístico “R”
Figura 2.15 – Obtendo informações de matrizes
Fonte: elaborada pelo autor.
De forma semelhante à extração de partes do vetor com o emprego de
colchetes, podem ser extraídas partes de uma matriz. Porém, essa tarefa é
um pouco mais complexa, pois a matriz é um objeto com duas dimensões e
vetores em apenas uma. Para extrair um elemento da matriz, deve-se utili-
zar colchetes com a especificação numérica de linhas e colunas, separadas
por vírgulas, nessa ordem. Uma coisa comum durante as análises é querer
selecionar todas as linhas de uma matriz que obedecem a alguma condição
definida pelas colunas, os exemplos são detalhados na figura 2.16.
Figura 2.16 – Separação de partes de uma matriz
Bioestatística
– 58 –
Fonte: elaborada pelo autor.
As listas são utilizadas para combinar diferentes objetos em um único
objeto (vetores, matrizes, números e/ou caracteres e até mesmo outras listas
(figura 2.17). As listas são construídas com a função “list()”, a introdução
– 59 –
Aplicando conceitos: introdução pacote de análise de dados Microsoft Excel® ao
software estatístico “R”
de componentes na lista é realizada usando a forma usual (nome=arg) de
atribuir argumentos em uma função. Ao digitar o nome de uma lista, cada
componente é mostrado com seu nome e valor. Cada elemento da lista pode
ser visualizado individualmente por seu nome associado com símbolo “$”.
Figura 2.17 – Construção de listas
Fonte: elaborada pelo autor.
Os quadros de dados (dataframe) são muito parecidos com matrizes,
possuindo linhas e colunas e, portanto, tem duas dimensões. Entretanto,
diferentemente das matrizes, cada coluna pode armazenar elementos de
diferentes tipos (números e caracteres). Por isso se torna a melhor forma
de se armazenar dados, onde cada linha corresponde a uma unidade, indi-
víduo ou pessoa, e cada coluna representa uma medida realizada em cada
unidade. Para analisar dados corretamente, é necessário montar correta-
mente o dataframe, utilizando planilhas para inserir e editar os dados.
O principal aspecto a ser considerado reside em posicionar todos os valo-
res de uma mesma variável na mesma coluna. Após inspecionar o arquivo
para observar a ocorrência de erros de digitação, este deve ser salvo pre-
ferencialmente em formato de texto separado por tabulações, ou no for-
mato csv separado por vírgulas. Esse arquivo pode então ser importado
Bioestatística
– 60 –
para o ambiente do software R, utilizando a função “read.table()” ou
“read.csv2()”. Abaixo é reportada a organização de um quadro de dados
organizado em Excel, note que as variáveis resposta (respostas fisiológi-
cas) são organizadas em colunas na vertical assim como os fatores com
caracteres (sexo e formato de jogo no futebol).Figura 2.18 – Exemplo de estrutura de quadro de dados (dataframe) comportando
caracteres e números construído em ambiente Excel
Fonte: elaborada pelo autor.
Para facilitar a implementação de comandos para importação de
dados para o ambiente do software R, deve-se mudar o diretório para
a pasta que contém arquivos com os bancos de dados (figura 2.19),
por meio da barras de ferramentas RGUI ou comandos “setwd()” e
“getwd()”. Dentro da função “read.table()” existem vários argumentos.
Dentre os mais utilizados estão o “header”, no qual o usuário deve infor-
mar se o dataframe possui ou não cabeçalho com as iniciais “T” ou
– 61 –
Aplicando conceitos: introdução pacote de análise de dados Microsoft Excel® ao
software estatístico “R”
“TRUE” (quando possuir cabeçalho) e “F” ou “FALSE” (quando não
possuir). Caso o usurário não informe, o software possui um default para
ausência de cabeçalho (“FALSE”). Adicionalmente, o argumento “dec”
é utilizado para informar como os números decimais estão identificados,
se por ponto ou virgulas. O default é o ponto, dessa forma se os dados
numéricos estiverem separados por vírgulas, deve-se utilizar dec=”,”,
para não ocorrer o erro. O argumento “sep” é utilizado para informar
como os dados estão separados, o default da função “read.table()” é
“sep =” ” “, ou seja, a separação ocorre por espaço. Caso os dados este-
jam separados por vírgulas, deve-se usar sep=”,”.
Figura 2.19 – Mudanças de diretórios e importação de arquivos
Fonte: elaborada pelo autor.
Após importar o dataframe para o ambiente R, existem algumas
funções que permitem o manuseio do banco de dados, permitindo visu-
alizar o cabeçalho (“head()”) ou ainda para anexar o objeto ao caminho
de procura e simplificando a digitação (“attach()”). Ao chegar ao final
deste capítulo, foram apresentados diferentes objetos ao leitor para
manipulação e utilização do software R e como obter medidas descri-
tivas básicas em ambiente Excel. Logo, é necessário que o usuário se
atente em praticar e aprofundar sobre as informações destacadas neste
capítulo. Elas serão muito úteis nos capítulos posteriores.
Bioestatística
– 62 –
Figura 2.20 – Manuseio do banco de dados importado
– 63 –
Aplicando conceitos: introdução pacote de análise de dados Microsoft Excel® ao
software estatístico “R”
Fonte: elaborada pelo autor.
Atividades
1. O software estatístico “R” é uma ferramenta amplamente
empregada no mercado de trabalho. É um software com ver-
sões para os sistemas Windows, MAC e Linux. Os símbolos
“>” e “+”, significam:
a) “+”, pausa do programa; “>”, sistema está pronto para digitar.
b) “+”, chamado de alerta; “>”, comando digitado não está completo.
c) “>”, chamado de alerta; “+”, comando digitado não está completo,
d) “>”, chamado de alerta; “+”, comando de pausa do sistema.
e) Nenhuma das anteriores.
Bioestatística
– 64 –
2. O conhecimento da distribuição de probabilidade das variáveis de
estudo são fundamentais para a análise estatística. A verificação da
hipótese de normalidade é um pré-requisito para vários testes. Para
verificar esse pressuposto sobre o conjunto de dados, qual o comando
no R para testar a hipótese sobre uma variável aleatória “X”?
a) norm.test(x)
b) shapiro(x)
c) shapiro.test(x)
d) shapirotest(x)
e) Nenhuma das anteriores.
3. O software R é um potente recurso para análises estatísticas em
diversas áreas atualmente. Nesse software, é possível manipular
e gerar conjuntos de dados. Quais são os objetos que podem ser
criados pelo usuário?
a) Matrizes, vetores e listas.
b) Matrizes, vetores, fatores e listas.
c) Variáveis, matrizes, vetores e listas.
d) Variáveis, fatores, vetores e listas.
e) Fatores, matrizes, vetores e listas.
4. O mundo do trabalho tem sofrido diversas transformações nos
últimos anos. A profissão de cientista de dados tem emergido
atualmente para tratar da grande quantidade de dados disponí-
veis. Para importar conjuntos de dados previamente construídos,
quais comandos podem ser empregados?
a) readtable(nome do arquivo), read.csv2(nome do arquivo).
b) read.table(), read.csv2().
c) read.table(nome do arquivo), read.csv2(nome do arquivo).
d) read.table[nome do arquivo], read.csv2[nome do arquivo].
e) Nenhuma das anteriores.
– 65 –
Aplicando conceitos: introdução pacote de análise de dados Microsoft Excel® ao
software estatístico “R”
5. O aprendizado da utilização do software R fortemente depende
da sua exercitação e da pesquisa. Nesse sentido, além de conhe-
cer e utilizar o comando de ajuda (“help.search()”), você pode
solicitar ao software R exemplo de como usar determinados
comandos, como, por exemplo, para a criação de um fator ou
uma matriz. Como você poderia executar?
a) example()
b) example(“as.factor”)
c) use(as.factor)
d) example(as.factor)
e) Nenhuma das anteriores
6. Imagine que Joana tem 9 seguidores no Instagram e quer saber alguns
dados sobre deles. Ou seja, identificar as medidas de tendência cen-
tral moda, média e mediana. Cada um com o seguinte número de
seguidores: 700 | 800 | 800 | 1000 | 1200 | 1300 | 1400 | 2000 | 2600.
A seguir, avalie a veracidade dos cálculos realizados por Joana.
I. A média de seguidores é aproximadamente 1311,1.
II. A medida da moda dos seguidores é 800.
III. A medida da mediana dos seguidores é 800.
Em relação às afirmativas acima, pode-se afirmar que:
(A) I, II e III são corretas.
(B) Apenas III é correta.
(C) Apenas I é correta.
(D) Apenas I e II são corretas.
(E) Apenas II e III são corretas.
As questões de 7 a 11 devem ser desenvolvidas no ambiente R.
7. A tabela a seguir relaciona o calor específico da água com
a temperatura.
Bioestatística
– 66 –
t, ºC 200 220 240 260
Cp, Kcal/(kg°C ) 1,075 1,102 1,136 1,183
A média aritmética da capacidade calorífica da água no intervalo
de tempo , é?
(A) 1,124
(B) 1,1579
(C) 1,1651
(D) 1,1531
8. A aeronave experimental FX-15, criado pela Força Aérea dos
EUA, possuía motores de foguete. Não só atingiu o recorde de
velocidade no início da década de 1970, mas também o recorde
de altitude. Foram 80,47km de altura (o que qualificou os pilotos
como astronautas) e uma velocidade de 7.273 km/h.
Para certo teste, suponha que foi registrada a velocidade em
vários intervalos de tempo. Como mostra a tabela a seguir:
Tempo (m) 1 2 3 4
Velocidade (Km) 6000 6500 6784 7100
A velocidade média nos 4 primeiros minutos foi:
(A) 6596 km/h.
(B) 6483 km/h.
(C) 6500 km/h.
(D) 6000 km/h.
(E) 6550 km/h
9. A tabela a seguir traz o número de pessoas infectadas por uma
doença contagiosa em cinco dias, nas cinco regiões do Brasil.
– 67 –
Aplicando conceitos: introdução pacote de análise de dados Microsoft Excel® ao
software estatístico “R”
Regiões
do Brasil Sul Sudeste Centro-Oeste Nordeste Norte
Número de
infectados 58 68 70 38 65
O número médio aproximado de pessoas infectadas no Brasil em
cinco dias foi:
(A) 60
(B) 61
(C) 62
(D) 63
(E) 64
10. A glicemia é uma medida de controle de saúde em humanos.
Os dez valores a seguir aos valores de glicose dosada em indiví-
duos de uma empresa submetidos a jejum (Glicose: 77, 98, 93,
99, 102, 116, 80, 82, 78, 90). Caracterize essa variável conforme
os valores de média, desvio padrão, coeficiente de variação.
(a) 91;12,59;13,00
(b) 81,5;12,59;13,76
(c) 91,5;13,59;13,76
(d) 91,5;12,59;13,76
(e) 91,5;12,9;13,76
11. Usain Bolt é um corredor olímpico jamaicano. Bolt é o recordista
olímpico e mundial dos 100 metros rasos, tendo completado a
prova em 9,69 segundos, a de 200 metros com 19,30 segundos
e, na olimpíada de 2008, conseguiu o título com sua equipe na
corrida 4×100 metros em 37,10 segundos.
Suponha que tenha sido registrada cinco provas teste de Usain
St. Leo Bolt nos 100 metros rasos, em uma pista de corrida, na
seguinte tabela:
Bioestatística
– 68 –
Número da prova 1 2 3 4 5
Tempo (em s) 10,0 9,88 9,95 9,91 9,89
O desvio médio do tempo de prova nas cinco provas de Bolt foi de:
(A) 0,198.
(B) 0,0396.
(C)0,0792.
(D) 0,2376.
(E) 0,076.
3
Distribuição normal
de probabilidade
e aplicações
Um experimento aleatório é aquele cujo resultado é incerto,
embora se saiba quais são os resultados possíveis (Ex.: jogada de
uma moeda e observação da face de cima, jogada de um dado e
observação da face de cima). O conjunto dos resultados possíveis
do experimento é chamado de espaço amostral (Ex.: jogada de um
dado e observação da face de cima; E = {1, 2, 3, 4, 5, 6}. Uma
variável aleatória é uma função que associa um número real com
cada elemento em um espaço amostral. Como exemplo, toma-se
o monitoramento da qualidade da gasolina vendida em postos de
combustível pela agência nacional de petróleo (ANP), em que uma
variável aleatória de interesse é a proporção de álcool na amostra
de gasolina do posto. Cada valor dessa variável está ligado a um
ou mais elementos do espaço amostral (postos de combustível).
Bioestatística
– 70 –
Para cada elemento do espaço amostral podemos calcular sua probabilidade
de ocorrer na realização de experimentos. Em síntese, o termo probabilidade
pode ser definido como o estudo das chances de obtenção de cada resultado
de um experimento aleatório. Ao obter dados de uma variável de interesse,
pode-se assumir um modelo de probabilidade e, a partir disso, estimar a
probabilidade de ocorrência de um determinado resultado.
Os diversos campos de atuação da estatística se baseiam em distribui-
ções de probabilidade para se tomar decisões sobre hipóteses e parâmetros
(Ex.: Regressão Linear, Modelos Lineares Generalizados, Inferência Esta-
tística, Estatística Multivariada, Estatística Não Paramétrica, Controle de
Qualidade etc.). Logo, faz-se necessário estabelecer algumas definições
iniciais. A distribuição de probabilidade consiste na representação de um
gráfico, tabela ou fórmula que dá a probabilidade para cada valor de uma
variável aleatória, que possui um valor numérico, determinado ao acaso
(Ex.: escolha aleatória de uma carta de um baralho). As distribuições de
probabilidade podem ser classificadas em dois grupos: (A) Discretas –
formadas por variáveis de natureza discreta (Ex.: distribuições binomial,
geométrica e Poisson); (B) Contínuas – compostas por variáveis classi-
ficadas como contínuas, compreendidas pelas distribuições gama, qui-
-quadrado e normal.
No presente capítulo, será abordada a distribuição normal de pro-
babilidade, uma das distribuições mais importantes e relevantes para a
estatística devido ao teorema central do limite. O teorema central do limite
reporta que para qualquer tipo de distribuição da variável de interesse,
para grandes amostras, a distribuição de médias amostrais terá distribui-
ção aproximadamente normal, tendendo a uma distribuição normal na
medida em que o tamanho da amostra aumentar. Logo, pode-se ter uma
variável original com uma distribuição diferente da normal, mas ao obter
várias amostras grandes desta distribuição e então construirmos um histo-
grama de médias amostrais, a forma se parecerá como uma curva normal.
Todavia, se uma variável aleatória contínua possui uma distribuição com
um histograma simétrico e em formato de sino (destacado a seguir) e que
também pode ser descrita pela equação abaixo, pode se dizer que ela pos-
sui uma distribuição normal:
– 71 –
Distribuição normal de probabilidade e aplicações
σ
µ
f x 1
2 22 2
21
2
1exp x Equação
A representação da distribuição normal possui dois parâmetros: a
média e o desvio padrão. Nesse sentido, a notação para representar que
uma determinada variável “x” possui distribuição normal de média (μ) =
20 e desvio padrão (σ) = 5 é definida como x ~ N (20,5), em outras pala-
vras, a variável “x” tende a uma média 20 e desvio padrão 5.
A partir do conhecimento da distribuição de probabilidade da vari-
ável, podemos evidenciar a probabilidade de ocorrência de um determi-
nado evento, por meio da realização de um procedimento de integração
da área desejada da curva. Porém, uma vez que essa prática não é usual,
para facilitar o procedimento para estimar a probabilidade de ocorrência,
os profissionais em estatística transformaram uma curva qualquer normal
(N), na famosa normal padronizada, N(0,1), ou seja, com média (μ) = 0 e
desvio padrão (σ) = 1. Essa transformação é obtida com a padronização da
variável no escore “z”, utilizando a seguinte expressão:
z
x
s
i Equação2
Para entender melhor a utilização prática do escore “z”, entendendo
que a variável altura como uma variável quantitativa contínua e que res-
peita uma distribuição normal de probabilidade, queremos comparar as
alturas de um indivíduo do sexo masculino (200 cm) e um do sexo femi-
nino (187 cm), com respeito às populações dos respectivos sexos. Nesse
Bioestatística
– 72 –
sentido, qual dos dois são mais altos em relação ao seu sexo? Para res-
ponder melhor a essa pergunta, precisamos então padronizar aquelas altu-
ras convertendo em escores “z” para então compará-los. Estima-se que
a média da altura de homens é de 174,1 cm com um desvio padrão 5,3
e a das mulheres é de 159,9 com um desvio padrão de 5,7. A partir da
equação para padronização, sua representação é feita de forma aplicada
(software “R”). É interessante notar que, para declarar uma variável, o
usuário deve empregar qualquer nome de interesse (Ex.: “z_masculino”)
que representará o valor de “z” e os símbolos “<-“, conforme a figura 3.1.
Nota-se que o indivíduo do sexo masculino está a 4,7543 desvios padrões
da média da população do sexo masculino e feminino a 4,8867. Portanto,
pode-se afirmar que a pessoa do sexo feminino é mais baixa em relação
ao seu sexo do que a pessoa do sexo masculino. Nessa linha, a seguir são
apresentadas algumas funções do R importantes nesta etapa de operações
com distribuições (quadro 3.1).
Quadro 3.1 – Funções básicas do R para distribuição normal de probabilidade
dnorm(quantiles, média,
desvio – padrão)
calcula a densidade de probabilidade
f(x) em um determinado ponto, ou
seja, a probabilidade de ocorrência
de um determinado valor;
pnorm(quantiles, média,
desvio – padrão)
calcula a função de probabilidade f(x)
acumulada em determinado ponto;
qnorm(vetor de
probabilidades, média,
desvio – padrão)
calcula o quantil correspondente
a uma dada probabilidade;
rnorm(número de
observações, média,
desvio – padrão)
retira uma amostra aleatória
da distribuição.
Fonte: https://www.rdocumentation.org/packages/stats/versions/3.6.2/topics/Normal (2021).
Ao empregar as funções destacadas, na curva gerada N (20,5), o
usuário deverá digitar os comandos com seus respectivos argumentos e
– 73 –
Distribuição normal de probabilidade e aplicações
teclar “control + R”. O valor de 0,07 obtido representa a densidade de
probabilidade no valor 20, na distribuição N (20,5). O valor de 0,158 é
a probabilidade em uma distribuição N (20,5) de aparecimento de valo-
res menores que 15. Logo, o valor de probabilidade da ordem de 0,185
é a probabilidade para o valor da variável encontrar-se entre 15 e 18.
O comando abaixo significa que um valor menor que 29,79 tem probabi-
lidade de 0,975 de ocorrer. Adicionalmente, um valor maior do que 29,79
possui 0,025 de probabilidade de ocorrência.
Figura 3.1 – Utilização do escore “z” padronizado
Fonte: elaborada pelo autor.
Podemos ainda simular valores de uma distribuição normal conforme
a figura 3.2. A seguir são declaradas 4 variáveis (a, b, c e d) e ao teclar
“control + R”, com média (μ) = 100 e desvio padrão (σ) = 15, gerados
quatro subconjuntos com 50, 500, 5000 e 50.000 elementos amostrais e
os respectivos histogramas obtidos. Ao observar a figura 3.2, à medida em
que a amostra aumenta, os histogramas progressivamente apresentam um
comportamento mais semelhante à curva normal apresentada, ou seja, o
formato da distribuição de frequência acumuladas assemelha-se gradual-
mente a um formato de “sino”.
Bioestatística
– 74 –
Figura 3.2 – Histogramas de frequência
Fonte: elaborada pelo autor.– 75 –
Distribuição normal de probabilidade e aplicações
Suponha que a altura em posição sentada de motoristas tem que ser
considerada no projeto de um novo modelo de automóvel. Os homens
têm alturas em posição sentada que são normalmente distribuídas com
média de 36 polegadas e desvio padrão de 1,4 polegadas. Os engenheiros
forneceram projetos que podem acomodar homens com alturas em posi-
ção sentada de até 38,8 polegadas, mas homens mais altos não podem ser
acomodados. Se selecionarmos um homem aleatoriamente, qual a pro-
babilidade de que sua altura em posição seja menor que 38,8 polegadas?
O projeto é possível de ser executado? Com esse comando, a probabilidade
de ocorrência de um valor de altura sentado menor que 38,8 é de 0,9772
(figura 3.3). Para calcular a probabilidade de ocorrer um valor maior que
38,8, basta subtrair 1 do valor de probabilidade obtido acima e executar o
comando pnorm() e teclar “control + R”. Por fim, a execução do projeto
levará a uma perda de aproximadamente 2,28% dos clientes do sexo mas-
culino (figura 3.3), cabendo à empresa se a perda é de ordem aceitável.
Deve-se ressaltar a necessidade de conhecimento da distribuição normal
padronizada, logo, para resolver o problema destacado, podemos transfor-
mar o valor de 38,8 em escore “z” e para “tomar a decisão” considerando
a distribuição normal padronizada. Logo matematicamente, tem-se que:
P X 3,
,
P X P Z38 8 38 8 36
1 4
2 Equação
Nesse sentido, temos no software “R” que:
Figura 3.3 – Tipificação de respostas individuais – exemplos
Fonte: elaborada pelo autor.
Conforme destacado, o valor de probabilidade e o valor obtido após
a padronização são os mesmos. Após observar uma amostra de dados
de uma dada variável, podemos pensar assim, respeitando os rigores da
amostragem, pode-se supor uma distribuição que melhor se adequa aos
Bioestatística
– 76 –
dados. Obtendo-se a distribuição, pode-se inferir sobre a variável. Após
a análise descritiva dos dados, torna-se necessária a execução de alguns
testes estatísticos para testar duas hipóteses de interesse. Para isso existem
dois grandes grupos de testes clássicos de hipóteses: (1) paramétricos; e
(2) não – paramétricos. Os paramétricos exigem o conhecimento da distri-
buição de probabilidade existentes no conjunto de dados.
Figura 3.4 – Pressuposto de normalidade: “Quantile – quantile plot”
Fonte: elaborada pelo autor.
O emprego de métodos paramétricos dos não paramétricos é discri-
minado por meio da verificação ou não da hipótese de normalidade dos
dados. Dessa maneira, torna-se imperativa a necessidade de testagem da
normalidade. Sendo assim, é de suma importância conhecer algum teste
– 77 –
Distribuição normal de probabilidade e aplicações
estatístico capaz de inferir se a distribuição de probabilidade das variáveis
a serem analisadas é normal. Uma forma mais simples de verificação da
hipótese de normalidade decorre por meio da avaliação do “quantile –
quantile plot” (Figura 3.4).
Nesse caso, se a amostra estudada é normalmente distribuída, os pon-
tos devem estar próximos à linha reta. Porém, os desvios de normalidade
aparecem como vários tipos de não linearidade. Os comandos utilizados
para isso são “qqnorm” e “qqline” (quantil-quantil). Basicamente, os
quantis são medidas separatrizes que dividem o intervalo de frequência de
uma determinada amostra ou população.
Adicionalmente, ao observar a figura 3.4, a variável massa simulada
parece normalmente distribuída. Entretanto, como visivelmente existem
alguns pontos que estão distantes da linha reta produzida é importante
realizar algum teste de hipótese para a suposição de normalidade. Para
isso, será empregado o tradicional teste de hipótese para normalidade de
“Shapiro-Wilk”. Para isso emprega-se o comando “shapiro.test()”, digi-
tando esse comando e dentro dos parêntesis o nome da variável, seguido
de “control + R” (Figura 3.5).
As hipóteses do teste de Shapiro são:
2 H0 – Hipótese nula: a variável massa possui uma distribuição
normal de probabilidade;
2 H1 – Hipótese alternativa: a variável massa não possui uma dis-
tribuição normal de probabilidade.
Figura 3.5 – Verificação da suposição de normalidade: software R
Fonte: elaborada pelo autor.
O valor de probabilidade (“p-value”) é a probabilidade de rejeitar
H0 sendo ela verdadeira. Dessa forma, o valor de probabilidade está nos
Bioestatística
– 78 –
informando que, se rejeitarmos H0, a probabilidade de estarmos errados é
de 0,5808. Na maioria dos campos da ciência, o nível de significância a
ser abordado é de 0,05 (5%), ou seja, para valores maiores que 0,05 não
há rejeição de H0. Portanto, como o valor de probabilidade obtido é maior
que 0,05 não rejeitamos H0 e concluímos que a variável massa segue uma
distribuição normal de probabilidade.
3.1 Aprendendo a utilizar a tabela “z”
Anteriormente, reportamos que para calcular os valores de probabili-
dade corretamente e sem o concurso da operação de integração (por vezes
morosa e inacessível aos usuários), conforme evidenciado, utilizamos
a tabela de áreas sob a curva normal de uma variável padronizada “z”,
caracterizada pela média (μ) = 0 e desvio padrão (σ) = 1.
Tabela 3.1 – Curva normal padronizada ou reduzida – Tabela “z”
Fonte: http://www.datalyzer.com.br/site/suporte/administrador/info/arquivos/info73/73.
html (2021).
– 79 –
Distribuição normal de probabilidade e aplicações
A tabela 3.1 possui as áreas compreendidas e calculadas previamente
entre o ponto central da distribuição, com média 0, e qualquer valor de
“z”. Logo, em sua construção, a primeira coluna contém valores intei-
ros e decimais da variável “z” e cada coluna seguinte (primeira linha),
o seu valor centesimal. Dessa forma, a normal padronizada é tabelada e
assim pode-se inferir sobre a probabilidade de ocorrência de determinado
evento, sem a utilização de computadores. O escore padronizado (“z”) é
o número de desvios padrões acima ou abaixo da média que se situa um
determinado valor. Veja a tabela 3.1.
A tabela 3.1 apresenta somente metade da área da curva normal padro-
nizada, para determinarmos o valor de probabilidade correspondente entre
o valor de z = 0 e o valor de z=1,96, basta localizar valor inteiro e decimal
de “z” na primeira coluna (1,9) e o respectivo valor centesimal (0,06), no
interior da tabela, o valor encontrado que cruza a projeção entre a linha e
a coluna localizadas, corresponde ao valor de probabilidade (P=0,4750).
Considerando a simetria entre os dois lados da curva de distribuição nor-
mal, a diferença entre o valor da área da metade da curva (P=0,5) e o valor
obtido acima é igual a 0,025. Temos então que a probabilidade de encon-
trarmos um valor acima de +1,96 é de 0,025 [P(Z>1,96) = 0,025].
Para encontrar o valor da variável padronizada “z”, basta realizar o
procedimento inverso. A partir do valor de probabilidade na porção interna
da tabela, encontra-se os valores da variável “z”. Por exemplo, para o
valor de 0,4418, encontramos os valores de 1,5 e 0,07, logo, z=1,57. Mas,
e os valores de correspondentes a outra porção da curva normal padroni-
zada? Os valores de probabilidade são exatamente iguais para os valores
negativos, à esquerda, da variável “z”.
Podemos observar que na distribuição da variável padronizada “z”,
que para um determinado intervalo de respostas típicas de 95%, os valores
limites correspondem a -1,96 (à esquerda) e +1,96 (à direita). Pois, se a
área de z=0 a z=+1,96 é de 0,4750, e de z=0 a z=-1,96 também será de
0,4750, uma vez que as duas metades da curva normal padronizada são
simétricas e sua área total é igual a 1.
A partir destes valores é possível tipificar respostas individuais
conhecendo os valores de média e desvio padrão para determinada
Bioestatística
– 80 –
variável resposta a partir da equação do escore “z” padronizado apre-
sentada previamente.
3.2 Aprendendo a tipificar respostas individuais
Nesta subseção, trabalharemos com mais exemplos práticos parasuplantar os conhecimentos teóricos obtidos. A determinação da área cen-
tral de 95% sob a curva normal pode ser resolvida, conforme destacamos
anteriormente, pelo procedimento de integração. Para tal necessitaríamos
definir a função matemática sob a qual se deseja calcular a área compreen-
dida entre duas coordenadas quaisquer, proposta por Gauss, integrar esta
função entre essas duas coordenadas: o valor obtido será a área percentual
em relação a área percentual em relação a área total sob toda a função de
-∞ a +∞, que corresponderia a 100%.
3.2.1 Exemplos de Aplicações
Exemplo 1. Considerando um exemplo específico na área de agro-
pecuária, dada a massa ao abate de suínos com média de 90 kg e desvio
padrão 12kg, para um determinado frigorífico. Quando nossa variável for
diferente de “z”, como identificar o intervalo de respostas típicas da massa
de abate de suínos, com os valores de média e desvio padrão reportados?
Logo, conforme já previamente destacado, por meio da relação z
x
s
i�
�� ��
é possível transformar qualquer variável biológica normalmente distribu-
ída em distribuição padrão “z”. Como os valores de “z” que limitam o
grupo de respostas típicas (95% da população) são -1,96 e 1,96, a relação
para cálculo dos escores “z” nos fornecerá os mesmos limites para qual-
quer variável normal, ou seja:
i E6 1x s1 9 96 1 2 4
x
s
quaçãoi
i
Onde x s1 1 96� �� . será a menor resposta típica e x s2 1 96� �� .
será a maior resposta típica. O intervalo de x1 e x2 é denominado de inter-
valo de respostas típicas individuais, ou ainda, o intervalo de confiança
– 81 –
Distribuição normal de probabilidade e aplicações
que corresponde a 95% das observações dispersas em torno da média.
Nesse sentido, a massa de abate de suínos compreenderá o intervalo de:
6 1 Equaç 5x k 113ga kg ãi 90 1 9 2 66 5 oo
Adicionalmente, considerando uma quantidade disponível de 300
animais para fornecer ao frigorifico, quantos animais (nX) foram neces-
sários para atender a demanda imposta? Logo, nesse sentido temos que:
300 animais ---- 100%
nX ---- 95% nX = 285 animais.
Nesse caso temos que, para descrever a variável peso ao abate, 285
animais (95% deles) estarão probabilisticamente no intervalo de respos-
tas típicas para fornecimento de matéria prima ao frigorifico (Figura 3.6).
O domínio do cálculo de probabilidade envolvendo a curva normal fun-
damenta a teoria estatística que permitirá a comparação de grupos expe-
rimentais. Entretanto, a distribuição “z” possibilita algumas aplicações
práticas onde a resposta individual é o alvo do usuário.
Figura 3.6 – Exemplo 1: área da curva normal – intervalo de respostas típicas
Fonte: elaborada pelo autor.
Bioestatística
– 82 –
Entretanto, o frigorífico solicitou que os animais a serem adquiridos pos-
suam entre 90kg (X1) e 100Kg (X2) de peso para o abate por questões opera-
cionais e logísticas finais do frigorífico. Nesse sentido, necessita-se conhecer
a área relativa (procedimento de integração) que corresponderia ao percentual
da população ali contida. Sabendo que X1 é o limite superior do intervalo de
respostas individuais típicas, a área calculada deveria ser de 0,4750 (47,5%)
porque a outra porção estaria simetricamente do outro lado da média.
z
x
s
1 90 90
12
0
6z
x
s
2 100 90
12
0 83 Equação
Logo, temos que:
P massa90 0 100
P massa90 90
12
100 90
12
��
�
�
�
�
� � �
��
�
�
�
�
�
�
�
�
�
�
� �
Equação, %P Z0 0 83 0 2967 29 67 7
Figura 3.7 – Exemplo 1: área da curva normal – intervalo requisitado pelo frigorífico
(X1 = 90Kg; X2 = 100Kg)
Fonte: elaborada pelo autor.
– 83 –
Distribuição normal de probabilidade e aplicações
Para o intervalo destacado, temos probabilisticamente que 29,67%
dos animais atenderiam à demanda imposta pelo frigorífico, correspon-
dendo aproximadamente a 89 dos animais disponíveis:
300 animais ---- 100%
nX ---- 29,67% nX = 89,01 (≈ 89 animais).
Exemplo 2. Uma determinada panificadora recém-inaugurada necessita
reservar 30 dúzias de ovos com peso inferior a 38 gramas diariamente. Esses
ovos são mais baratos para produção de itens diversos como pães e bolos.
Logo, uma granja de aves consultada como possível fornecedora reportou
uma produção média diária de 3000 ovos, com massa em média de 55 gramas
e com desvio padrão de 12 gramas. Com base nestas informações, o possível
fornecedor de matéria prima seria capaz de atender esta demanda?
Figura 3.8 – Exemplo 2: área da curva normal
Fonte: elaborada pelo autor.
Se x = 38 gramas, então seu valor correspondente em uma distribui-
ção de “z” será (Figura 3.6).
8z Equaç
38 55
12
1 412 1 42 ãão
Bioestatística
– 84 –
Ao consultar a tabela “z”, a área compreendida entre -1,42 e 0 é de 0,422.
Porém, a área de interesse de ovos industriais mais leves que 38 gramas cor-
responde à área inferior ao valor de z = – 1,42. Portanto, a probabilidade de
encontrar ovos mais leves que 38g na granja será a diferença entre o valor de
probabilidade da metade da curva normal (0,5) e o valor de “z” obtido.
P z P z Equação0 1 42 0 50 0 422 0 0778 7 78 9, ,
Uma vez que a granja produz 3000 ovos por dia, temos que:
3000 ovos ---- 100%
oferta ---- 7,78% oferta = 233,4 ovos (≈ 233 ovos).
Nesse sentido, a granja não poderá fornecer o montante pedido de
360 ovos (30 dúzias) com peso abaixo de 38 gramas. Logo, a panificadora
deverá encontrar mais fornecedores para atender sua demanda ou reduzir
a produção de itens na panificadora.
Exemplo 3. Ao recuperar o exemplo do abatedouro de suínos, caso
um outro abatedouro se interessar por animais com peso mínimo de 90kg
[P(X≥90kg)], qual a porcentagem de animais que estará apta para o abate
quando a média do lote for de 95kg e o desvio padrão de 15kg?
Figura 3.9 – Exemplo 3: área da curva normal
Fonte: elaborada pelo autor.
– 85 –
Distribuição normal de probabilidade e aplicações
z Equação
90 95
15
0 3333 10
A área correspondente ao intervalo de “z” de -0,333 a 0 (ou de 90 a
95kg na distribuição original) corresponde a:
EquaçãoP Z , ,0 33 0 00 0 1293 12,,93 11
Logo, a probabilidade de encontrar animais com no mínimo 90kg no
grupo reportado:
EquaçP Z , , , ,P Z ã0 33 0 00 0 00 0 1293 0 50 0 6293 oo12
Então:
300 animais ---- 100%
nX ---- 62,93% nX = 188,79 (≈ 188 animais).
Na nova situação proposta pelo frigorifico, temos probabilistica-
mente que 62,93% ou aproximadamente 188 dos suínos cumpririam a
possível demanda.
Exemplo 4. A variável de massa corporal é uma variável quantitativa
contínua e que respeita uma distribuição normal de probabilidade. Um
grupo de amigos (Italo 78kg, José 91kg, Isabela 69kg e Raquel 78kg) sen-
tiram-se mutuamente desafiados a verificar qual é mais pesado e menos
pesado. A média de massa de homens é estimada em 80kg com um des-
vio padrão de 6kg e a das mulheres é de 65kg com um desvio padrão de
5kg. Dessa forma, qual seria a ordem dos mais pesados para os menos de
acordo coma padronização como escore “z”?
,z
x
sitalo
1 78 80
6
0 333
,z
x
sjose
2 91 80
6
1 833
,z
x
sisabela
3 69 65
5
0 800
Bioestatística
– 86 –
,z
x
sraquel
4 78 65
5
2 60
Logo, após a padronização da variável massa temos que:
z z z zraquel jose isabela italo> > >�
Adicionalmente, o estudo da massa corporal é importante para diver-
sas aplicações comerciais, por isso, há a necessidade de determinação do
intervalo de respostas típicas para massa corporal de homens e mulheres.
Logo, para 95% das respostas típicas da massa corporal, temos que:
916 6 Equaçãox kga kghomens 80 1 9 68 24 76 13
Equação6 5x k2 7ga kgmulheres 65 1 9 55 4 8 14
Para um intervalo de respostas típicas de 99%, os limites de massa
para mulheres e homens seria de
x k 15ga6 6 kghomens 80 2 5 64 55 95 45 Equação
x k 77 16ga kgmulheres 65 2 5 5 52 125 875 Equação
Exemplo 5. Um haras cria cavalos manga-larga marchador que atin-
gem 140 cm de altura média na cernelha e desvio padrão 5,3 cm. Para
o registro de animais machos, os limites novos permitidos pela associa-
ção decriadores para aquela para característica foram estabelecidos como
intervalo de 132 a 143cm. Logo, tendo em vista o haras em questão, qual
o percentual de garanhões naquele haras que não atenderia aos novos
padrões de raça?
17
,
z
y
s
Equaçinferior
1 132 140
5 3
1 51 ãão
18
,
z
y
s
Equsuperior
2 143 140
5 3
0 57 aação
– 87 –
Distribuição normal de probabilidade e aplicações
Então:
EquaçãoP Z , ,1 51 0 00 0 4345 43,, %45 19
Equação, %P Z0 0 57 0 2157 21 57 20
Logo, para os novos padrões estabelecidos pela associação (132 e
143 cm), teremos 65,02% dos animais reprodutores atendendo os padrões
da raça. É interessante notar ainda que o haras está produzindo animais
potencialmente mais altos para o parâmetro de altura na cernelha.
Exemplo 6. Em outro exemplo na área econômica, para uma rodada
de negociações, um comerciante internacional de produtos lácteos foi
desafiado por políticos em um evento que seu país possivelmente não
seria capaz de fornecer o montante de produto in natura (100.000 tonela-
das/mês) com nível de qualidade (parâmetro denominado por contagem
de células somáticas, CCS <250) e preço médio (€ 0,50±0,20 centavos/
litro) para competir com o produto local com pelo menos 99% de certeza.
O comerciante, conhecedor de estatística, rapidamente antes de se pro-
nunciar abertamente durante a conferência decidiu fundamentar suas pala-
vras. O comerciante sabia que a produção mensal de leite de sua empresa
em todas as suas unidades era de 1.200.000 toneladas/mês, CCS média de
556,55 e desvio padrão 435,8, preço médio de R$ 1,40, com desvio padrão
de 35 centavos. Qual foi a melhor resposta à observação dos políticos?
Sobre a quantidade média de produto in natura, temos que:
3 1
,
,
,z
X
sCCS250
1 250 556 55
435 8
0 703 9Equação
20Equaç, , , ,P Z P Z0 00 0 703 0 50 0 241 0 259 25 9 ãão
Ao todo o comerciante possui 310.800 toneladas por mês com valo-
res de CCS<250. Esse valor é quase 3 vezes maior que o valor do produto
in natura estipulados pelos políticos. Logo, uma boa resposta à observação
ofertada por políticos, por parte do comerciante, seria de que “acredito
não só que podemos oferecer esta quantidade com esta qualidade, como
também 3 vezes mais”.
Bioestatística
– 88 –
Figura 3.10 – Exemplo 6: área da curva normal
Fonte: elaborada pelo autor.
A respeito do preço médio de produto, com a cotação do euro 1 euro
= 4,50 reais, o comerciante pode oferecer o preço médio unitário a 0,31
centavos de euro (1,40), isentos de tarifas comerciais, com 95% de con-
fiança, o comerciante poderia oferecer preços entre 0,71 e 2,08 reais, ou
0,16 e 0,46 euros, inferiores aos preços pagos atualmente no país.
21x , ,preços 1 40 1 96 0 35 0 71 2 08 reais Equação
Na experimentação em bioestatística, a utilização de desempenhos
individuais será muito restrita. Os ensaios em sua maioria desejarão com-
parar médias de tratamentos e não tipificar possíveis respostas individuais.
Assim sendo, nosso interesse passa a ser não como a maioria dos indiví-
duos podem responder a um tratamento, mas como a média de “n” indi-
víduos tratados igualmente pode variar de experimento para experimento.
Isso significa que estaremos procurando um intervalo que englobe 95%
de todas as médias possíveis de serem encontradas quando utilizarmos n
indivíduos sob um mesmo tratamento. Neste capítulo foram tratados con-
ceitos sobre a distribuição normal de probabilidade, a utilização de tabela
“z”, a tipificação de respostas individuais e aplicação desses conceitos no
– 89 –
Distribuição normal de probabilidade e aplicações
software “R”. No próximo capítulo serão tratados conceitos relacionados
à associação de variáveis e o relacionamento entre variáveis.
Atividades
1. A distribuição de probabilidade é a representação de um gráfico,
tabela ou fórmula que dá a probabilidade para cada valor de uma
variável aleatória, que possui um valor numérico, determinado
ao acaso para cada resultado obtido. Basicamente existem dois
grupos de distribuições, quais são elas?
a) Gama, Poisson.
b) Discretas, contínuas.
c) Discreta, normal.
d) Poisson, contínua.
e) Nenhuma das alternativas anteriores.
2. O ______________________ mostra que para qualquer que seja
tipo de distribuição da variável de interesse, para grandes amos-
tras, a distribuição de médias amostrais terá distribuição apro-
ximadamente normal, tendendo a uma distribuição normal na
medida em que o tamanho da amostra aumentar. Logo, a alter-
nativa correta é:
a) Teorema central do limite.
b) Teorema de limites.
c) Intervalo de respostas típicas.
d) Intervalo de confiança.
e) Nenhuma das alternativas anteriores.
3. Uma variável aleatória contínua que possui um histograma de
frequência acumulada simétrico. Para calcular o valor de proba-
bilidade, delibera-se pelo uso do método de integração. A função
que permite o cálculo dos valores de probabilidade é:
Bioestatística
– 90 –
a) f x exp x1
2
1
22 2
2
b) f x exp x1
2
1
22
2
c) f x exp x1
2
1
2 2
2
d) f x exp x1
2
1
22 2
2
e) f x exp x1
2
1
2 2
2
4. O conhecimento da ___________________ de cada evento
ocorrer para uma determinada variável, é realizado por meio do
procedimento de integração da área da curva de interesse. Porém,
esta prática não é simples, opta-se por transforar uma curva nor-
mal qualquer em uma normal padronizada), com _________ =
0 e _________ = 1. Isso é feito com a padronização da variável
em um escore “z”, utilizando a expressão _______
a) Distribuição, média, desvio padrão, �z
x
s
i�
�� �� .
b) Distribuição de probabilidade, média, desvio padrão, �z
x
s
i�
�� �� .
c) Distribuição de probabilidade, média, desvio médio, �z
x
s
i�
�� �� .
d) Distribuição de probabilidade, média ponderada, desvio
padrão, �z
x
s
i�
�� �� .
e) Nenhuma das alternativas anteriores.
5. A variável peso corporal é uma variável quantitativa contínua
e que respeita uma distribuição normal de probabilidade. Um
grupo de 4 amigos (Pedro 78kg, André 91kg, Renata 69kg e
– 91 –
Distribuição normal de probabilidade e aplicações
Adriana 78kg) sentiram-se mutuamente desafiados a verificar
qual é mais pesado e menos pesado. Estima-se que a média do
peso de homens é de 80kg com um desvio padrão de 6kg e das
mulheres é de 65kg com um desvio padrão de 5kg. Qual a ordem
dos mais pesados para os menos de acordo com o escore “z”?
a) Adriana; Renata e André.
b) Adriana; André; Pedro e Renata.
c) André; Adriana; Renata e Pedro.
d) Adriana; André; Renata e Pedro.
e) Nenhuma das anteriores.
6. Ainda sobre a questão acima, é importante para várias aplica-
ções comerciais conhecer o intervalo de respostas típicas. Os
intervalos de respostas típicas para o peso corporal de homens e
mulheres para 95%:
a) 68,4 a 91,76; 55,2 a 74,8.
b) 68,24 a 91,06; 55,2 a 74,8.
c) 68,24 a 91,67; 55,2 a 74,8.
d) 68,24 a 91,76; 55,2 a 74.
e) Nenhuma das alternativas anteriores.
7. Para um intervalo de respostas típicas de 99%, qual seriam os
limites de pesos para mulheres e homens?
a) 52,125 a 77,8; 64,55 a 95,45.
b) 52,125 a 77,875; 64,55 a 95,45.
c) 52,10 a 77,875; 64,0 a 95,45.
d) 52,12 a 77,7; 64,55 a 95,45.
e) 52,125 a 76,875; 64,55 a 95,45.
8. Os escores “z” padronizados constituem uma forma de transfor-
mar dados de uma variável qualquer, em uma variável padrão
Bioestatística
– 92 –
para determinação dos valores de probabilidade. Logo os valo-
res de 0,3438 e 0,4932 observados na tabela correspondem a
quais valores da variável padrão “z”?
a) 1,06 e 2,50.
b) 1,53 e 2,11.
c) 1,32 e 2,06.
d) 1,01 e 2,47.
e) Nenhuma das alternativas anteriores.
9. Em uma fazenda leiteira é comum realizar a pesagem do leite, o
valor médio obtido por animal foi de 14kg e desvio padrão 3kg.
Qual o intervalo de respostas típicas obtidos (95%)?
a) 8,12kg a 18,88kg
b) 8,12kg a 19,88kg.
c) 8,12kg a 19kg
d) 8kg a 19,88kg
e) Nenhuma das anteriores.
10. Se em um criatório o peso ao nascer médio de bezerros machos
for de 23kg e desvio padrão3kg, entre que valores de peso ao
nascer estará a maioria dos bezerros ali nascidos (95% deles)?
a) 17,1kg a 28,88kg.
b) 16,12kg a 28,88kg.
c) 17,12kg a 28,88kg.
d) 17,12kg a 28,8kg.
e) Nenhuma das alternativas anteriores.
4
Associação e
relacionamento
de variáveis
Neste capítulo, a essência do conceito relacionado à
associação e relacionamento de variáveis são introduzidos. As
relações entre constructos constituem o conceito e o modelo
em que o objetivo de pesquisa é explorar ou confirmar. A asso-
ciação entre duas ou mais variáveis é a essência de uma teoria.
O pesquisador busca quantificar a força de associações. Logo,
a associação ocorre se a distribuição de uma variável está rela-
cionada à distribuição de outra variável. As medidas de asso-
ciação indicam, em termos quantitativos, o grau em que as
alterações nos valores da outra variável estão relacionadas às
alterações nos valores de outra variável.
Bioestatística
– 94 –
4.1 Coeficiente de Correlação de Pearson
O coeficiente de correlação de Pearson (r) é utilizado para quantificar
a relação linear entre duas variáveis quantitativas. Seu valor é determinado
pelos valores dos dados amostrais observados. Seja uma amostra aleatória
constituída de n pares x yi i,� � de observações, i n� �1 2, , , . O coeficiente de
correlação amostral de Pearson é calculado através da equação 01. Logo,
temos coeficiente de correlação de Pearson:
r
S
S S
x x y y
x x y y
xy
x y
i
n
i i
i
n
i i
n
i
1
1
2
1
2
1
22
1
2
1
1
2 2
1
2
1
2
( )
i
n
i i
i
n
i i
n
i
x y nxy
x nx y ny
2
1
2
1Equação
Sendo que:
S
x x y y
nxy
i
n
i i�
�� � �� �
�
�� 1
1 ;
S
x x
nx
i
n
i1
2
1
2
1
;
S
y y
ny
i
n
1
2
1
2
1
Pode ser mostrado que o coeficiente de correlação de Pearson está
sempre entre -1 e 1. O exemplo a seguir ilustra o cálculo de r. Em outras
palavras, tomando como exemplo, em uma agência de correios de uma
cidade, o gerente realizou um estudo para relacionar o peso (em kg) do
total de correspondências recebidas por dia com o número efetivo de cor-
respondências (x1000). Os dados obtidos da observação de 11 dias estão
na tabela 4.1.
Tabela 4.1 – Dados do exemplo 1
Dia Peso xi Número yi x yi i
1 10 4,1 41
2 35 6,5 227,5
3 13 3,6 46,8
– 95 –
Associação e relacionamento de variáveis
Dia Peso xi Número yi x yi i
4 34 6,7 227,8
5 21 5,2 109,2
Média 22,60 5,220 652,3 (Total)
Desvio Padrão 11,59 1,388 -
CV% 51,28 26,59 -
Fonte: elaborada pelo autor.
Nesse caso o valor do coeficiente de correlação de Pearson é dado por:
S
x y nxy
nxy
i
n
i i�
�
�
�
� � �� ��� �� ���( ) , , ,
,1
1
652 3 5 22 6 5 22
4
15 61
r �
� �� �
�
15 61
11 59 1 388
0 9704,
, ,
,
O valor de “r” indica que há uma forte relação linear entre os pesos
total das correspondências recebidas e o número de correspondências rece-
bidas diariamente, sendo que quanto maior o número de correspondências
recebidas maior é o peso total. A correlação está bem próxima de 1.
4.2 Teste de Hipóteses – Coeficiente
de Correlação de Pearson
Seja ρ o coeficiente de correlação populacional entre as variáveis
aleatórias X e Y. Para testar a significância da correlação, é necessário que
as duas variáveis X e Y tenham distribuição normal. Caso isso aconteça,
podemos testar a hipótese: H0 0: � � através da estatística t-Student dada
pela equação 2 (Estatística t-Student):
Equaçãot r n
r
2
1 2 2
Bioestatística
– 96 –
Que sob a hipótese nula tem distribuição t-Student com (n-2) graus
de liberdade. Seja α o nível de significância do teste, 0 1� �� . Se a hipó-
tese alternativa for H1 0: � � , então a hipótese nula será rejeitada para
grandes valores de t isto é, t tc> , sendo o valor crítico obtido da tabela
t-Student tal que P t tn c� �� � �2 �. Se a hipótese alternativa for H1 0: � � , a
hipótese nula será rejeitada para pequenos valores de t isto é, t tc< , e o valor
crítico obtido da tabela t-Student é tal que P t tn c� �� � �2 �. Se a hipótese
alternativa for bilateral, H1 0: � � , então a hipótese nula será rejeitada
para valores de t, t tc> , sendo o valor crítico obtido da tabela t-Student
é tal que P t tn c� �� � �2 2
� . No exemplo em questão temos que o valor de t
observado é igual a equação 3 a seguir:
Equaçãot r
,
n
r
2
1
0 9704 5 2
1 0 9704
6 9592 2 3
Seja H1 0: � � e � � 0 05, .
Supondo normalidade para as variáveis peso total e número de cor-
respondências recebidas diariamente podemos realizar o teste estatístico.
Sob a hipótese nula a estatística de teste t tem distribuição t-Student com
3 graus de liberdade. Então, o valor crítico tc � será igual a t3 0 05 2 35; , ,= e
a hipótese nula será rejeitada, o que indica que a relação linear positiva
entre o peso total de correspondências recebidas e o número de correspon-
dências recebidas diariamente é significativa do teste que seria dada por
P t3 6 959 0 00304�� � �, , , o que indica que sob a hipótese nula um valor de
correlação da ordem 0,9704 é pouco provável. Na figura 4.1 tem-se o grá-
fico de dispersão dos valores do peso de correspondências e do número de
correspondências recebidas diariamente. A figura 4.1 indica uma relação
de crescimento positivo entre duas variáveis. É importante observar que
para n = 5 e � � 0 05, a hipótese H0 0: � � seria rejeitada para qualquer
valor de r maior ou igual a 0,805. Basta buscar os valores de r que satis-
fazem a equação abaixo:
2 35 3
1 2r
r
Equação4
– 97 –
Associação e relacionamento de variáveis
Figura 4.1 – Gráfico de dispersão entre o peso total e o número de correspondências
recebidas diariamente
Fonte: elaborada pelo autor.
O coeficiente de correlação de Pearson é um coeficiente paramétrico.
Nem sempre temos dados com distribuição normal. Nesse caso, é impor-
tante buscarmos uma alternativa não paramétrica para medir a relação
linear entre as duas variáveis. No exemplo em questão, a variável número
de correspondências recebidas é discreta e não tem distribuição normal.
4.3 Coeficiente de Correlação de Spearman
Quando uma ou duas variáveis de interesse para estudar da associação
não respeita o pressuposto de normalidade, frequentemente é computado
o coeficiente de correlação de Spearman. Logo, o coeficiente de correla-
ção de Spearman é uma medida não paramétrica de associação ou depen-
dência entre variáveis, em que, diferentemente do coeficiente de Pearson,
baseia-se na ordenação em postos dos valores originais (pela magnitude
do valor numérico, ver tabela 4.2) para determinação do grau de associa-
ção. Nesse sentido, suponha que tenhamos uma amostra constituída de n
pares de dados do tipo x yi i,� �. Então, o coeficiente de correlação de Spearman
é simplesmente o coeficiente de correlação de Pearson calculado com os
postos das observações x yi i,� �. Dados os n pares de observações deve-se
Bioestatística
– 98 –
inicialmente ordenar os valores de X do menor para o maior colocando os
pontos correspondentes (em caso de empates usar posto médio). Denota-
-se o posto de observação xi por Ri. Posteriormente, ordena-se os valores
de Y do menor para o maior colocando os postos correspondentes (em
caso de empates usar posto médio). Denota-se o posto de observação yi
por Si. O coeficiente de correlação de Spearman será dado pela equação 03
(coeficiente de correlação de Spearman):
r
R R S S
R R S S
i
n
i i
i
n
i i
n
i
i�
�� � �� �
�� ��
�
�
� �� ��
�
�
�
��
� �
�
� �
1
1
2
1
2
1
2
1
2
(
��
� �
�
� �
�
�� ��
��
�
��
�� ��
��
�
��
1
1
2 2
1
2
1
2 2
1
2
n
i i
i
n
i i
n
i
R S nRS
R nR S nS
)
Sendo R S n
� �
�1
2
.
No caso de não haver empates entres as observações o coeficiente de
Spearman se reduz a equação 3 (coeficiente de correlação de Spearman –
reduzida, equação 5).
r T
n n
� �
�� �
1 6
12
onde T R S Equação
i
n
i i
1
2 5
No caso de empates, os valores Ri e Si são substituídos por postos Ri
*
e Si
*. T por T * e r por r*, onde o * denota que há empates entre as observa-
ções e postos médiosestão sendo utilizados na atribuição de postos dessas
observações. Ao recuperar o exemplo 1, primeiramente ordenaríamos os
valores dos pesos das correspondências recebidas e atribuiríamos os pos-
tos correspondentes. Posteriormente o mesmo seria feito para os valores
do número de correspondências recebidas diariamente. Os dados organi-
zados dessa forma são apresentados na tabela 4.2.
Tabela 4.2 – Dados de pesos de correspondências
Dia Peso xi Número yi R Si i
2
1 10(1) 4,1(2) 1
2 35(5) 6,5(4) 1
– 99 –
Associação e relacionamento de variáveis
Dia Peso xi Número yi R Si i
2
3 13(2) 3,6(1) 1
4 34(4) 6,7(5) 1
5 21(3) 5,2(3) 0
Fonte: elaborada pelo autor.
Nesse sentido, o coeficiente de Spearman seria calculado da
seguinte forma: r � �
� �
�� �
� � �1
6 4
5 25 1
1 0 2 0 80, , o que indica relação linear
entre os postos das observações de X e Y.
4.4 Teste de Hipóteses – Coeficiente de
Associação (Correlação de Spearman)
É possível testar a significância da correlação entre X e Y usando o
coeficiente não paramétrico de Spearman. As seguintes hipóteses nulas e
alternativas podem ser consideradas:
I H0 0 contra Ha : � � 0
II H� � �0 0: � contra Ha : � � 0
III H� � �0 0: � contra Ha : � � 0
Onde ρ é o coeficiente de correlação populacional entre X e Y.
A distribuição de probabilidades do coeficiente e correlação amostral
de Spearman sob a hipótese nula é determinada pelas ordenações possí-
veis de serem obtidas quando se tem n pares de n observações de X e n de
Y (pares). Essa distribuição não depende do conhecimento da distribuição
de probabilidades das variáveis aleatórias X e Y, sendo o coeficiente de
correlação de Spearman não paramétrico. Existem tabelas com a distribui-
ção exata de r sob a hipótese nula. No entanto, quando n é grande a distri-
buição de r sob a hipótese nula se aproxima de uma distribuição normal
Bioestatística
– 100 –
com média zero e variância igual a 1
1n−
no caso em que não há empates
entre as observações de X ou de Y.
No caso (I) a probabilidade de significância de teste é dada por
p P r robs� �� �. No caso (II) a probabilidade de significância é dada por:
p P r robs� �� �. No caso (III) seja p P r robs� �� �2 sendo robs o valor observado do
coeficiente de Spearman para a amostra avaliada.
No exemplo da agência de correios suponha que tenhamos as hipóte-
ses: H0 0: � � contra Ha : � � 0.
Então pela tabela da distribuição exata de r sob a hipótese nula obte-
mos: p P r� �� � �0 80 0 067, , . Isto significa que a hipótese nula seria rejei-
tada para qualquer nível de significância maior ou igual a 0,067. É impor-
tante observar que não há exigência de normalidade das variáveis para se
realizar o teste de hipóteses relacionado ao coeficiente de associação não
paramétrico de Spearman.
Adicionalmente, em outro exemplo, os dados a seguir referem-se a
um experimento para verificar o efeito de uma droga (X) no crescimento
de um determinado tumor. Foram usadas 7 doses diferentes de X e para
cada dose observou-se a porcentagem (Y) de animais que desenvolveram
o tumor. Os dados observados foram (tabela 4.3):
Tabela 4.3 – Dados de efeito da droga e crescimento tumoral
Dose (X) 0,05 0,5 5,0 20 50 100 300
Posto (X) 1 2 3 4 5 6 7
% (Y) 1 0 4,9 44,2 30 86,5 56,9
Posto (Y) 2 1 3 5 4 7 6
R Si i
2 1 1 0 1 1 1 1
Fonte: elaborada pelo autor.
S E 6T R
i
n
i i
1
2 6 qquação
– 101 –
Associação e relacionamento de variáveis
Figura 4.2 – Gráfico de dispersão entre percentagem de animais que desenvolveram
o tumor e dosagem da droga
Fonte: elaborada pelo autor.
O valor observado do coeficiente de Spearman é: r � �
� �
�� �
�1
6 6
7 49 1
0 8928, .
A probabilidade de significância para o teste unilateral (I) é 0,006 indi-
cando que existe uma associação positiva significativa entre a dosagem
da droga e o desenvolvimento do tumor. Quanto maior a dose espera-se
que maior será o percentual de animais que desenvolvem o tumor. Para o
teste bilateral (III) seria 0,012. Usando a aproximação normal tem-se que:
p P r P N p N0 8928 0 1 0 8928
1
6
0 1 2 19, , , , , 0 014 7Equação
Figura 4.3 – Gráfico de dispersão entre os valores dos postos da percentagem de
animais que desenvolveram o tumor e os postos de dosagem da droga
Fonte: elaborada pelo autor.
Bioestatística
– 102 –
A figura 4.2 apresenta os gráficos de dispersão da porcentagem de
animais que desenvolveram o tumor (Y) e dosagem da droga (X). A figura
4.3 apresenta o gráfico de dispersão dos postos de Y versus os postos de X.
É possível observar que a relação entre Y e X aparentemente não é linear,
enquanto a relação entre os postos de Y e os postos de X é linear. O coe-
ficiente de correlação de Spearman é na realidade um coeficiente de asso-
ciação entre X e Y, não necessariamente essa associação é linear. Quando
o valor é positivo há uma associação positiva entre as variáveis, ou seja,
quando uma variável aumenta de valor a outra também tende a aumentar
o valor (e vice-versa). Para tomar outro exemplo, em uma competição de
ginástica rítmica desportiva, dez participantes foram classificados por dois
juízes da seguinte forma (1 é 1° colocado; 2 é o 2° colocado etc.). Nesse
exemplo, o valor do coeficiente de correlação de Spearman é r = 0 915,
e a probabilidade de significância do teste (I) é igual 0 0,00 (aproxima-
damente), rejeitando-se a hipótese nula. Deste modo, percebe-se que os
juízes foram concordantes no julgamento dos candidatos.
Tabela 4.4 – Notas em competição de ginástica
Juiz A 2 5 6 4 1 7 9 10 3 8
Juiz B 1 4 5 6 2 7 10 8 3 9
R RA B
2 1 1 1 4 1 0 1 4 0 1
Fonte: elaborada pelo autor.
4.5 Caso de empates entre observações X ou Y
No caso de haver empates entre as observações de X ou de Y, utiliza-se
os postos médios quando da ordenação de valores e a distribuição normal para
o cálculo da probabilidade de significância. No caso de empates, tem-se que:
Var T
n n n d d
n n
d
i ix ix i iy* 1 1
36
1 1
2 2 3
3
33
3
d
n n
iy Equação7
Assim, a variância do coeficiente de correlação de Spearman de
r* será definida pelas equações 7 e 8 (variância do coeficiente de cor-
relação de Spearman):
– 103 –
Associação e relacionamento de variáveis
Var r
n n
Var T Equação* *36
1
8
2 2
E utiliza-se a aproximação normal para cálculo da probabilidade de signi-
ficância, sendo dix e diy, as frequências observadas de cada valor da variável X
e cada valor da variável Y. Para efeito da correção de empates apenas as frequ-
ências dos valores de X e Y que aparecem mais de uma vez são contabilizadas.
4.6 Análise de Regressão Linear
A análise de regressão é uma técnica de modelagem utilizada para
analisar a relação entre uma variável resposta (Y) e uma ou mais vari-
áveis explicativas X1, X2, X3...Xn com objetivo de identificar (estimar)
uma função que descreva, da melhor forma possível, a relação entre essas
variáveis. Assim, pode-se predizer o valor que a variável resposta (Y) irá
assumir para determinados valores das variáveis explicativas. O objetivo
de empregar essa técnica reside na interpretação da relação possivelmente
existente entre as variáveis a fim de entender o fenômeno, predizer valores
para variável resposta a partir das variáveis explicativas.
Antes de explorar a análise de regressão linear, devemos diferenciar
os conceitos de modelagem estatística e modelagem matemática. A mode-
lagem matemática envolve o componente determinístico e modelagem
estatística envolve tanto o componente determinístico e o componente
estocástico. A regressão simples é dada pela equação 5 a seguir (modelo
de regressão linear):
y i ni i
�
0 1 1 2 3ε , , , ,
Onde:
2 yi � e a variável resposta;
2 xi e a variável explicativa;
2 β0 e o intercepto (termo constante);
2 β1 e o coeficiente relacionado a variável xi (fator multiplicador
ou coeficiente de regressão);
Bioestatística
– 104 –
2 ei e o erro aleatório, pertencente ao modelo.
Para ajustar um modelo de regressão linear, devem ser respeitados as
seguintes suposições:2 ei N(0;σ2);
2 Cov(ei , ej) = 0 (Independência),
4.6.1 Exemplos de Aplicação
Exemplo 1. Para entender os coeficientes da análise de regressão sem
se preocupar com as questões de estimação e incerteza, vamos iniciar com
um exemplo que se trata de uma regressão para predizer o desempenho
esportivo de equipes adultas femininas da modalidade esportiva de han-
debol entre os anos de 2007 e 2017 (1ª a 24ª posições), explicada pelo
número médio de partidas internacionais disputadas pelo grupo de joga-
doras de cada país participante de campeonatos mundiais.
Desempenho par�das21 36 0 17, * ε (Modelagem estatística)
Desempenho par�das21 36 0 17, * (Modelagem matemática)
A variável resposta “Desempenho” denota o valor predito ou esperado
para o desempenho dado o preditor número médio de partidas internacio-
nais disputadas. Esse modelo busca explicar o desempenho em mundiais
a partir da experiência internacional obtida através de jogos, onde -0,17 é
o coeficiente de regressão. O intercepto “21,36” o valor esperado para o
número médio de partidas internacionais disputadas. Os coeficientes em
um modelo de regressão linear são geralmente estimados pelo método dos
mínimos quadrados ordinários. A ideia do método de mínimos quadrados
é minimizar por meio das equações 5, 6 e 7 abaixo. Métodos dos mínimos
quadrados para determinação dos coeficientes do modelo de regressão.
SQE y x
i
n
i i� � � �0 1
1
0 1
2
,� � � � �� ��� ��
�
�
SQE(β0,β1) pode ser minimizadas através de suas derivadas:
� � �
�
� � � �� � �
�
�
SQE
y x
i
n
i i
� �
�
� �0 1
0 1
0 12 0
,
– 105 –
Associação e relacionamento de variáveis
� � �
�
� � � �� � �
�
�
SQE
y x
i
n
i i
� �
�
� �0 1
1 1
0 12 0
,
Resolvendo o sistema de equações temos:
2 � �0 1� �y xmédia média ;
2
�1
1 1 1
1
2 1
2
2�
� � �� �
�
� �
� � �
�
�
� � �
�
�
i
n
i i i
n
i i
n
i
i
n
i
i
n
i
x y y x
x
x
n ;
Assumindo a suposição válida, ei ~ N (0, σ2), então:
2
� � �0 0
2
2
1
2
1~ ,N
n
x
x x
média
i
n
i média
�
�� �
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
2 β1
~ ,N
x x
i
n
i média
� �1
2
1
2
1
�� �� �
�
�
�
�
�
�
�
�
2 Hipótese para β0: H H0 10 0: ; ;² 0 ² 0
2 Estatística de teste:
t
se seobs
H
�
�
� �
�
� �
� �
�
�
�
0 0
0
0
0
0
;
2 Hipótese para β1: H H0 10 0: ; ;² 1 ² 1
2 Estatística de teste:
t
se seobs
H
�
�
� �
�
� �
� �
�
�
�
1 1
1
1
1
0
.
Podemos construir intervalos de confiança para os β’s (coeficien-
tes) estimados:
� �0 0� � �t sec *
� �1 1� � �t sec *
Bioestatística
– 106 –
Onde:
2
se
n
x
x x
média
i
n
i média
� �0
2
2
1
2
1� � � �
�� �
�
�
�
�
�
�
�
�
�� ;
2
se
x x
i
n
i média
� �1
2
1
2
1� � �
�� �
�� ;
2 �
� �2 1 0 1�
� �� �
�
�� i
N
iy x
N p , onde p é o número de parâmetros esti-
mados pelo modelo;
2 tc é o valor crítico da distribuição tn−2 de acordo com o nível
de confiança desejado;
2 Com 95% de confiança o valor de tc é: P t t tc N c[ ]� � ��2 .
O erro observado é chamado resíduo que é dado por:
� �0 0� � �t sec *
� �1 1� � �t sec *
Onde: y x .e y y ondei i i i
�
0 1
�
Figura 4.4 – Determinação da soma dos quadrados das fontes de variação
Fonte: elaborada pelo autor.
P t tc N C2 0 95t
– 107 –
Associação e relacionamento de variáveis
Os resíduos pode ser uma medida útil de quão bem a reta estimada se
ajusta aos dados. Uma boa equação de regressão é aquela que ajuda a explicar
uma grande proporção da variância de yi . Podemos medir a variação de yi
(Variação y y yi i média
� 2
, após algumas equações chegamos ao seguinte
resultado (equação 7, Somas dos quadrados das fontes de variação).
SQT SQE SQregressão� �
y y y yi média i i
2 2� + y yi média
2�
Para analisar a adequação do ajuste, deve-se determinar o coeficiente
de determinação (R2), resumindo a subdivisão da variação de yi em termos
de uma análise de variância (tabela 4.5). Uma medida importante para a
qualidade de ajuste é dada por pela equação 8, Coeficiente de Determinação.
R SQE
SQT
SQreg
SQT
2 1� � �
2 O valor de R2 estará sempre entre 0 e 1;
2 Um R2 = 0 (A regressão não ajuda em nada a explicar a varia-
ção de yi);
2 Um R2 = 1 (Ajustamento perfeito).
Tabela 4.5 – Tabela de análise variância para regressão linear
Fonte de
Variação
Soma de
quadrados GL Quadrados
Médios Teste F
Regressão SQreg y yi média
2� 1 QMreg SQreg
=
1
F QMreg
QMEN1 2, � �Resíduos SQE y yi i
2� N-2 QME SQE
N
�
�2
Total SQT y yi média� � �� �2 N-1 -
Fonte: elaborada pelo autor.
Bioestatística
– 108 –
A busca pela excelência no esporte induz treinadores e comissões técnicas
a procurar meios e ferramentas para a análise do desempenho em competição
para identificar as variáveis necessárias ao sucesso. Nesse sentido, a escassez
de informações oriundas de análises de desempenho sobre as variáveis que
diferenciam equipes vencedoras das perdedoras, dificulta o planejamento de
treinos e competições para melhora do desempenho em competições de alto
nível, ou mesmo como referência para equipes, treinadores e jogadores em
desenvolvimento. Dessa forma, o objetivo desse exemplo é estabelecer a rela-
ção entre desempenho classificatório em mundiais femininos de handebol e
número médio de partidas internacionais entre 2007 e 2019.
O número médio foi de 56±26 partidas internacionais disputadas
pelas equipes. O número de partidas internacionais é fornecido por cada
país participante, considerando amistosos internacionais, competições
continentais, mundiais e jogos olímpicos. Ao todo, n=89 dados foram dis-
ponibilizados via internet entre os anos de 2007 – 2019. O grau de asso-
ciação entre partidas e a posição em mundiais se testou por meio do teste
de correlação de Spearman (ρ) e um modelo de regressão linear entre o
desempenho obtido em função das partidas internacionais foi construído.
Figura 4.5 – Relação entre desempenho em mundiais femininos de handebol (ranking)
e número médio de partidas internacionais (IMP) entre 2007 e 2019
Fonte: elaborada pelo autor.
– 109 –
Associação e relacionamento de variáveis
A relação estabelecida mostrou que o aumento médio de participação
em um jogo internacional melhora em 0,17 vezes a posição obtida em
mundiais (Desempenho = 21,36 – 0,17partidas, intercepto e coeficiente
de regressão significativos, p<0,001, R2 = 0.45, observada na figura 4.5),
com um coeficiente moderado e negativo de correlação entre as variáveis
(ρ = -0.66; p<0,001), ou seja, um maior número de partidas está modera-
damente associado às posições inicias do ranking de classificação (melhor
desempenho) em mundiais.
Figura 4.6 – Correlação de Spearman e análise de regressão linear: software “R”
Fonte: elaborada pelo autor.
Exemplo 2. No treinamento esportivo em diversas modalidades,
umas das principais de medidas para controle do processo de treinamento
é a variável denominada impulso de treinamento (TRIMP – training
impulse). A metodologia do impulso de treino (TRIMP) é definida como
uma medida de acúmulo de carga que o organismo suportou durante o
Bioestatística
– 110 –
estímulo aplicado. A variável TRIMP foi calculado onde “HRreserve” (fre-
quência cardíaca de reserva) é calculado subtraindo a frequência cardí-
aca máxima obtida na sessão de treinamento pela frequência cardíaca de
repouso, “e” um fator relacionado ao sexo do voluntário (e = 1.67 para
mulheres; e = 1.92 para homens) e “Timesession” a duração da série ou estí-
mulo de treino, de acordo com a equação 1:
P T e E* *TRIM ime HRSESSION reserve� 0,, *64 1quação
Entretanto, essa medida tem sido extensivamente criticada por
treinadores e pesquisadores, por não captar grande parte dos aspectos
relacionados à carga de treinamento. Pois, apesar do entendimento da
natureza sistêmica e complexa da carga de treinamento e seus efeitos
sobre os diferentes sistemas biológicos, torna-se paradoxal a corrente
abordagem reducionista de uso e interpretação isolada de variáveis e
metodologias adotadaspara monitorar e controlar da carga imposta nas
sessões (ex.: frequência cardíaca, percepção subjetiva de esforço, ace-
lerações etc.), que muitas vezes se encontram correlacionadas entre si.
Logo, a quantificação da carga baseada na abordagem das informações
contidas coletivamente no conjunto de variáveis tende a maximizar a
compreensão da demanda imposta no treinamento. Nesse sentido, cien-
tistas do esporte tem advogado pela implementação de técnicas multi-
variadas de análise apropriadas que permitam sumarizar as informações
(análise de componentes principais) e fornecer visualizações adequa-
das sobre a carga. Essas medidas facilitarão a incorporação das medidas
obtidas, para tomada de decisões durante o planejamento, considerando
a complexidade do processo de treinamento.
Para explorar a nova medida de interesse denominada por escore glo-
bal (GS), uma determinada comissão técnica de uma modalidade espor-
tiva coletiva, procedeu testes para verificar o grau de associação e rela-
cionamento para com a variável TRIMP, no sentido de substitui-la, uma
vez que ela considera todas as variáveis obtidas. Para analisar a relação
do TRIMP em função dos escores globais, os profissionais construíram
modelos de regressão linear e computaram o coeficiente de determinação
(R2) e de correlação de spearman (ρ) (trivial, ≤0.25; fraco, 0.26 – 0.50;
– 111 –
Associação e relacionamento de variáveis
moderado, 0.51 – 0.75; e forte, 0.76 – 1.00) foram determinados. Con-
comitantemente, sucedeu-se a verificação da significância estatística dos
modelos (intercepto [“a”] e coeficiente de regressão [“b”]).
Figura 4.7 – Estudo do grau de associação e o relacionamento entre a variável TRIMP
em função do GS obtido via análise de componentes principais
Fonte: elaborada pelo autor.
De forma interessante, esses verificaram que o índice TRIMP
mostrou associação forte para com os escores globais dos jogadores
(GS – 0,77 [0,68; 0,84]). Através do ajuste dos modelos, encontrou-se
que os escores do método TRIMP podem ser explicados tanto pelos GS
(TRIMP = 15.33 + 2.78 GS; R2 = 0.66), sendo que o intercepto e o coe-
ficiente de regressão obtidos para o modelo ajustado foram significativos
(p<0.05). Para cada aumento de uma unidade nos valores das variáveis
GS, os escores para o método TRIMP são multiplicados em 2,78 vezes.
Logo, essa informação parece indicar a necessidade de mudanças nas
práticas de monitoramento dos atletas da equipe em questão. As figuras
4.7 e 4.8 mostram os gráficos de dispersão e saídas obtidas nas análises.
Bioestatística
– 112 –
Figura 4.8 – Gráfico de dispersão da variável TRIMP em função do GS obtido via
análise de componentes principais
Fonte: elaborada pelo autor.
Exemplo 3. O futebol é um esporte coletivo que movimenta vultuo-
sas somas de recursos financeiros. No processo de treinamento os atletas
são expostos a muitos jogos e sessões de treino. Um grande desafio aos
profissionais relacionados à comissão técnica reside na tarefa de otimiza-
ção do desempenho concomitantemente à prevenção e redução do número
de lesões. Logo, é de interesse desses profissionais a adoção de métodos
de diagnóstico que possibilitem o controle do processo de treinamento de
forma individualizada. Nesse sentido, é bem conhecido que um aumento
principalmente da demanda física dos jogos, que abrangem ações intensas
e excêntricas, as quais estão associadas a danos musculares e consequen-
tes processos inflamatórios. Esses processos inflamatórios são verificados
pela infiltração de fagócitos, elevação das concentrações de Interleucina 6 e
Fator de Necrose Tumoral alfa (TNF-α) e, em especial, pelo aumento da sín-
tese de proteínas de fase aguda, principalmente a Proteína C-reativa (PCR).
– 113 –
Associação e relacionamento de variáveis
O aumento das concentrações de PCR e do aparecimento do processo infla-
matório tem sido associado ao aumento local da temperatura muscular.
Figura 4.9 – Estudo do grau de associação e o relacionamento entre a variável PCR
[%] em função do TskHZn [%]
Fonte: elaborada pelo autor.
Nesse contexto, a análise de concentrações plasmáticas de PCR tem
se tornado uma medida muito importante para determinação do quadro
inflamatório dos atletas no futebol, entretanto, essa medida é invasiva,
necessitando coletas sanguíneas por punções venosas. Por outro lado, o
uso de câmeras sensíveis ao calor tem sido empregadas para estudar o pro-
cesso inflamatório para controle do processo de treinamento. Um procedi-
mento não invasivo, com várias potencialidades e rápido, tema de estudo
em evidência nas ciências esporte.
Bioestatística
– 114 –
Figura 4.10 – Gráfico de dispersão da variável PCR [%] em função do TskHZn [%]
Fonte: elaborada pelo autor.
Logo, uma comissão técnica de um time de futebol estudou de forma
exploratória para diminuir custos e tempo a relação entre os dois métodos
de medição. Semelhante ao exemplo anterior, para estudar a relação das
variáveis de Tsk-HZn [%] em função das variáveis fisiológicas CRP [%],
modelos de regressão linear foram ajustados, computados o coeficiente
de determinação (R2) e estabelecido o grau de associação através do coe-
ficiente de correlação de spearman (ρ) (trivial, ρ≤0.25; fraco, ρ = 0.26
– 0.50; moderado, ρ = 0.51 – 0.75; e forte, ρ = 0.76 – 1.00). Concomitan-
temente, sucedeu-se a verificação da significância estatística dos modelos
(intercepto [“a”] e coeficiente de regressão [“b”]).
Através do ajuste dos modelos, encontrou-se que a variável CRP
[%] pode ser adequadamente explicado pela variável Tsk-HZn [%]. O
intercepto e o coeficiente de regressão obtido foram significativos para o
modelo ajustado (CRP [%] = 6.481 + 0.871Tsk-HZn [%]; R2=0.87, “α” e
“β”, p<0.001). Para cada aumento de uma unidade da variável Tsk-HZn
– 115 –
Associação e relacionamento de variáveis
[%], o valor da variável CRP [%] são multiplicados em 0.871 vezes. Adi-
cionalmente, as variáveis estudadas mostraram forte grau de associação
(CRP [%] vs. Tsk-HZn [%] – ρ = 0.91 [0.85; 0.94], p<0.001), manifes-
tando-se como colineares. As figuras 4.9 e 4.10 mostram os gráficos de
dispersão e saídas obtidas nas análises.
Neste capítulo, foram apresentados os testes de hipótese para associa-
ção e sobre os modelos ajustados. Adicionalmente, exemplos úteis à área
de educação física e esportes são apresentados. No próximo capítulo serão
abordados testes de hipóteses para verificação de diferenças.
Atividades
Enunciado para questões de 1 a 3.
Na área de ciências do esporte, mais precisamente no campo da
biomecânica do esporte, emprega-se simultaneamente técnicas
de medição da atividade muscular (atividade eletromiográfica) e
o movimento (torque muscular). Essas duas variáveis possuem
associação da ordem de 0,65. Estas técnicas fundamentais ao
estudo do movimento, possuem a finalidade de otimizar méto-
dos de treinamento, controle do desempenho, com a finalidade
de aprimorar resultados esportivos. Neste sentido, responda as
questões a seguir.
1. Quais as características das respostas de atividade eletromiográ-
fica e torque muscular:
a) A atividade eletromiográfica é uma resposta de ordem discre-
tas e o torque muscular é uma variável contínua.
b) A atividade eletromiográfica é uma resposta de ordem ordinal
e o torque muscular é uma variável contínua.
c) Ambas são variáveis contínuas.
d) A atividade eletromiográfica é uma resposta de ordem contí-
nua e o torque muscular é uma variável discreta.
e) Nenhuma das alternativas anteriores.
Bioestatística
– 116 –
2. Após definir a característica da resposta, para associar as duas
variáveis de atividade eletromiográfica e torque muscular deve-
-se empregar:
a) Teste t pareado.
b) Teste de Person.
c) Teste de qui-quadrado.
d) Teste de Spearman.
e) Nenhuma das alternativas anteriores.
3. Após definir característica da resposta e tipo de teste, obser-
vando o valor de correlação, interprete-o:
a) A atividade eletromiográfica explica moderadamente a res-posta de torque muscular.
b) A atividade eletromiográfica explica fortemente a resposta de
torque muscular.
c) A atividade eletromiográfica explica pouco a resposta de tor-
que muscular.
d) A atividade eletromiográfica não explica a resposta de tor-
que muscular.
e) Nenhuma das alternativas anteriores.
4. Em uma determinada modalidade esportiva estudou-se a relação
entre as variáveis distância total percorrida e desempenho em
competições internacionais, que deve interferir sobre os méto-
dos de treinamento e de controle do treinamento. No estudo de
correlação, valores de r=0,42 são significativos se o “n” amos-
tral for 22, por exemplo. Qual a interpretação para a significân-
cia diante de um r tão baixo:
a) O desempenho em competições internacionais é pouco expli-
cada pela distância total percorrida;
b) A associação entre as variáveis distância total percorrida e
desempenho em competições internacionais é insignificativa;
– 117 –
Associação e relacionamento de variáveis
c) A associação entre as variáveis distância total percorrida e
desempenho em competições internacionais é pequena;
d) O desempenho em competições internacionais é moderada-
mente explicado pela distância total percorrida;
e) Nenhuma das anteriores.
5. Os dados a seguir referem-se a um experimento para verifi-
car o efeito de uma droga (X) no crescimento de um tumor
benigno. Ao todo 7 doses foram usadas e para cada dose
observou-se a porcentagem (Y) de animais que desenvolve-
ram o tumor. Os dados observados foram:
Variáveis 1 2 3 4 5 6 7
Dose (x) 0,05 0,5 5,0 20 50 100 300
% Animais (Y) 1 0 4,9 44,2 30 86,5 56,9
O valor observado do coeficiente de Spearman obtido é:
a) 0,7715.
b) 0,8156.
c) 0,8928.
d) 0,6911.
e) Nenhuma das alternativas anteriores.
6. Ainda que seja verificado alguma associação entre a dose de uma
droga administrada e o percentual de animais que desenvolveram
tumores, deve ser verificado se a associação é significativa e qual
o valor de probabilidade observado. Selecione a opção correta:
a) p<0,001.
b) p=0,001.
c) p=0,006.
d) p=0,001.
e) Nenhuma das alternativas anteriores.
Bioestatística
– 118 –
7. Na arbitragem em ginástica rítmica desportiva, juízes diferen-
tes emitem notas sobre o desempenho obtido nas apresentações.
Em um campeonato nacional 10 participantes foram classifica-
dos por dois juízes da seguinte forma:
Variáveis 1 2 3 4 5 6 7 8 9 10
Juiz A 2 5 6 4 1 7 9 10 3 8
Juiz B 1 4 5 6 2 7 10 8 3 9
O método de avaliação da associação e o resultado obtido é:
a) Correlação de Pearson (ρ=0,915; p<0,001).
b) Correlação de Spearman (ρ=0,90; p=0,001).
c) Correlação de Pearson (ρ=0,85; p<0,001).
d) Correlação de Spearman (ρ=0,915; p<0,001).
e) Correlação de Spearman (ρ=0,815; p<0,001).
Enunciado das questões de 8 a 10.
O Brasil é um grande produtor e exportador de carne suína.
Nesse sentido, o peso ao abate em suínos é influenciado pela
concentração de proteínas na ração. Quando tentamos ajustar
um modelo linear associando o peso ao abate em suínos ao teor
proteico na ração (14%, 16%, 18% e 20%) na fase de termina-
ção, como você explicaria as situações à seguir:
8. O efeito linear significativo e falta de ajuste não significativo:
a) Se a falta de ajuste (com 1 gl) não foi significativa, houve des-
vio de linearidade e se o efeito linear foi significativo, devemos
aceitar o modelo como sendo linear.
b) Se a falta de ajuste (com 2 gl) não foi significativa, houve des-
vio de linearidade e se o efeito linear foi significativo, devemos
aceitar o modelo como sendo linear.
c) Se a falta de ajuste (com 0 gl) não foi significativa, não houve
desvio de linearidade e se o efeito linear foi significativo, deve-
mos aceitar o modelo como sendo linear.
– 119 –
Associação e relacionamento de variáveis
d) Se a falta de ajuste (com 2 gl) não foi significativa, não houve
desvio de linearidade e se o efeito linear foi significativo, não
devemos aceitar o modelo como sendo linear.
e) Nenhuma das anteriores
9. Significância para ambos:
a) A falta de ajuste significativa não desclassifica a alternativa
de linearidade. O fato de o efeito linear também ser significativo
só traduz o fato de que se matematicamente definirmos a melhor
reta para os pontos experimentais, ela terá inclinação grande
(significativa) mas o modelo não representa bem aqueles pontos.
Um novo modelo deverá ser sugerido a partir destes.
b) A falta de ajuste significativa desclassifica a alternativa de
linearidade. O fato de o efeito linear também ser significativo
só traduz o fato de que se matematicamente definirmos a melhor
reta para os pontos experimentais, ela terá inclinação grande
(significativa) mas o modelo não representa bem aqueles pontos.
Um novo modelo deverá ser sugerido a partir destes.
c) A falta de ajuste significativa desclassifica a alternativa de
linearidade. O fato de o efeito linear também ser significa-
tivo só traduz o fato de que se matematicamente definirmos
a melhor reta para os pontos experimentais, ela terá inclina-
ção pequena (significativa) mas o modelo não representa bem
aqueles pontos.
d) A falta de ajuste significativa desclassifica a alternativa de
linearidade. O fato de o efeito linear também ser significativo
só traduz o fato de que se matematicamente definirmos a melhor
reta para os pontos experimentais, ela terá inclinação grande
(significativa) mas o modelo não representa bem aqueles pontos.
Um novo modelo não poderá ser sugerido a partir destes.
e) Nenhuma das alternativas anteriores.
10. Efeito linear não significativo e falta de ajuste significativo:
a) Deve-se repetir o experimento e aumentar a amostra.
Bioestatística
– 120 –
b) Provavelmente o efeito é curvilíneo (parabólico) e uma reta
aplicada à distribuição de pontos neste formato redundaria em
um modelo quase paralelo ao eixo horizontal. Neste caso um
novo modelo de ordem superior (linear) deverá ser investigado.
c) Provavelmente o efeito é curvilíneo (parabólico) e uma reta
aplicada à distribuição de pontos neste formato redundaria em um
modelo quase paralelo ao eixo horizontal. Neste caso um novo
modelo de ordem superior (quadrático) deverá ser investigado.
d) Executar uma análise de resíduos e retirar possíveis outliers.
e) Nenhuma das alternativas anteriores.
5
Noções de inferência
estatística
5.1 Testes de hipótese
Neste capítulo, será apresentado o ramo de inferência esta-
tística, envolvendo a obtenção de dados amostrais, bem como
a estimativa de parâmetros referentes à população em questão
para testagem de alguma hipótese direcionada à amostra obtida.
A determinação destes parâmetros e o respectivo teste de hipó-
teses são procedimentos padrão na área de bioestatística. Con-
siderando apenas uma única variável quantitativa, as perguntas
mais frequentes a serem respondidas remetem ao valor médio
populacional – se o valor médio obtido difere do esperado pelos
atores da pesquisa e o respectivo nível de dispersão ou erro asso-
ciado à estimativa do valor médio após a obtenção dos dados.
No caso das variáveis qualitativas, definidas previamente, após
a obtenção da frequência ocorre a determinação da proporção
de ocorrência de um determinado evento (população), se a pro-
porção de eventos observada é diferente da proporção esperada
em teoria e experimentalmente, bem como o erro associado à
determinação da proporção observada.
Bioestatística
– 122 –
Ao considerar os dois tipos de variáveis destacadas no parágrafo
anterior, a natureza do tipo de combinação destas variáveis determina o
tipo de questões que se pode responder: (1) variável qualitativa versus
variável qualitativa – estuda-se a associação ou concordância entre vari-
áveis, como ocorre e o respectivo grau de associação e concordância; (2)
variável quantitativa versus variável qualitativa – pode-se verificar a exis-
tência de diferenças entre as categorias ou níveis da variável qualitativa e
o respectivo nível de erro relacionado às diferenças observadas; por fim(3), variável quantitativa versus variável quantitativa – pode-se estudar a
presença, o tipo e o grau de associação entre variáveis.
A elaboração de afirmações em determinado campo de atividades é
precedida pela observação, parte imprescindível e um dos pilares do método
científico. Logo, para conduzirmos um teste de hipótese, é importante ter
em mente diversos termos que norteiam este campo da estatística. É neces-
sário inicialmente estabelecer as hipóteses que queremos testar, denomi-
nadas hipótese nula – H0, afirmação produzida e conduzida pelo usuário
que, em geral, direciona para a inexistência de relação entre fenômenos
mensurados, e a alternativa ou ainda chamada de substantiva – H1, que
geralmente aponta a existência de uma relação entre fenômenos estudados.
Após definir as hipóteses a serem estudadas, é necessário determinar
as incertezas associadas aos experimentos/testes, reconhecer que há um
grau de erro em qualquer experimento. Logo, deve-se fixar o erro assu-
mido para estudar as hipóteses traçadas (nível de significância – α) e o
poder do teste (1- β). O nível de significância consiste no valor limítrofe
em que se assume que a hipótese nula é falsa, quando a probabilidade
calculada se encontra abaixo do valor fixado e o poder pode ser definido
como a probabilidade de rejeitar a hipótese nula quando a hipótese nula é
falsa. Na estimativa dos parâmetros de média amostral (x – relação entre
o somatório dos elementos amostrais e o número de elementos amostra-
dos) e populacional (µ – relação entre o somatório dos valores dos ele-
mentos e o número de elementos amostrais) e suas respectivas incertezas
experimentais de desvio-padrão amostral (s – raiz quadrada do somatório
dos desvios elevado ao quadrado e dividido pelo número de elementos da
amostra menos 1) e populacional (σ – raiz quadrada dos somatórios dos
desvios elevado ao quadrado dividido pelo número elementos). Após a
– 123 –
Noções de inferência estatística
execução do teste de hipóteses, temos dois tipos de possibilidades de
erro na decisão sobre as hipóteses: (1) erro tipo I (α) – significa rejeitar
a hipótese nula quando essa era de fato verdadeira; e (2) erro tipo II (β)
– significa não rejeitar a hipótese nula quando a hipótese nula é falsa.
A tabela 5.1 exemplifica os tipos de erros.
Tabela 5.1 – Definições dos tipos de erro
TIPOS DE ERRO
DECISÃO REJEITAR NÃO REJEITAR
H0 verdadeira Erro tipo I 1 – α
H0 falsa 1 – β Erro tipo II
Fonte: elaborada pelo autor.
De maneira geral, os princípios e conceitos para condução de um
teste de hipótese perfazem o estabelecimento das hipóteses, a determi-
nação da estatística de teste, o cálculo do valor de probabilidade e a res-
pectiva tomada de decisão sobre as hipóteses tomadas. Inicialmente, o
pesquisador deve selecionar o parâmetro a ser estimado (média, proporção
ou variância) e se as hipóteses escolhidas serão unilaterais (Ex.: H0: μ ≥10;
H1: μ<10) ou bilaterais (Ex.: H0: μ=10; H1: μ≠10). Os testes unilaterais
testam somente se o valor estimado experimentalmente é maior ou menor
que um valor ou expectativa previamente estabelecida. Por outro lado,
os testes bilaterais testam as duas opções dos testes unilaterais. Logo, os
testes unilaterais baseiam-se em algum parâmetro preestabelecido para o
que se tem como objetivo de testagem.
Após estabelecer as hipóteses, sucede-se a escolha do teste e a deter-
minação da estatística de teste; o valor calculado é empregado para tomada
de decisão sobre as hipóteses traçadas, a partir de dados amostrais. Adi-
cionalmente, a estatística de teste é associada a uma distribuição de pro-
babilidade. Logo, por meio do cômputo da estatística de teste, obtém-se
a probabilidade de ocorrência do evento em questão, tornando possível a
rejeição ou a confirmação da hipótese nula. Em síntese, o valor de proba-
bilidade remete à probabilidade de encontrar uma estatística de teste com
valor que seja minimamente tão extremo quanto o oferecido pelos dados
amostrais, cometendo um erro tipo I, ou seja, considerando a hipótese nula
Bioestatística
– 124 –
como verdadeira. Logo, deve-se mencionar a fixação do erro assumido,
do nível de significância, geralmente em torno de 5% (0,05), onde valores
menores que 0,05 denotam a indicação de rejeição da hipótese nula.
Por outro lado, de forma recorrente na literatura, toma-se o conceito
de região crítica para a tomada de decisões. Estatisticamente, a região crí-
tica consiste no conjunto de valores da estatística de teste que são indi-
cados para refutar a hipótese nula. Adicionalmente, deve ser ressaltado
que à medida que se aumenta o tamanho da amostra, tem-se a distribui-
ção de probabilidade da estatística de teste para cada teste de hipótese.
Porém, neste momento, o leitor deve se questionar sobre qual teste deve
ser empregado para sua necessidade. Para selecionar o teste adequado e
garantir a correta tomada de decisão, é mister que algumas questões sejam
respondidas, especificamente sobre a distribuição dos dados. Dentre elas,
podemos destacar se é conhecida a distribuição de probabilidade das variá-
veis estudadas e se elas são normalmente distribuídas, e se há a presença de
valores extremos (denominados comumente de “outliers”). Logo, deve-se
identificar qual o tamanho amostral e se as unidades experimentais ou amos-
tras são dependentes ou independentes quanto à obtenção dos elementos
amostrais. Nesse sentido, o teste de hipótese mais adequado para avaliar
as hipóteses de estudo será obtido respondendo a essas perguntas. A seguir
serão explicados alguns dos principais testes estatísticos, classificados em
testes sobre uma amostra e sobre duas amostras.
5.2 Intervalo de confiança da média
Para conceituar o que é o intervalo de confiança da média, deve-se tomar
um exemplo direto. Para isso, consideremos um conjunto amostral obtido para
uma variável “w” com um valor médio na ordem de 400 (tendência central),
desvio-padrão de 200 (dispersão) e valores de médias com 12 e 30 observa-
ções, obtidas aleatoriamente a partir do conjunto dos dados. É possível notar
que, para 12 amostras, o valor médio apresenta a maior variação observada
entre os valores amostrais, tornando-se menor pela operação em si. Fato
inverso ocorre com a distribuição de médias coletas a partir de 30 elementos,
com um desvio-padrão menor do que com 12 amostras. Logo, as médias para
as distribuições serão as semelhantes, pois dizem respeito sempre ao mesmo
– 125 –
Noções de inferência estatística
fenômeno. Deve-se ressaltar ainda que o valor do desvio diminui à medida
que o número de amostras empregadas para o cálculo da tendência central
aumenta. A redução da instabilidade relativa pode ser demonstrada matemati-
camente quando consideramos que Var (a) = s2, conforme as propriedades das
medidas de tendência central (média) e de dispersão (desvio-padrão):
Var a Var
a a a
n n
Var a a an
n
� ����( ) = + +…+
= + +…+( )1 2
2 1 2
1
���������� �Equação1
Ao considerar as amostras a a a
n1 2
, ,¼ , se as observações experimentais
forem independentes, temos:
Var a a a Var a Var a Var a Equação
n n
� � ) ( ) ( ����������
1 2 1 2
+ +( ) = + +…+( ) ��2
Então:
Var a
n
Var a Var a Var a Equaç
n
� ) ( ) ( �����������( ) = + +…+( )
1
2 1 2
ãão�3
Porém, como as variâncias são iguais (Var(a1) = Var(a2) = Var(an)),
pois trata-se da mesma resposta sendo estudada e Var(a) = s2, logo:
������������� � �������������������������Var a
n
rs
s
n
( ) = ( ) =1
2
2
2
����������������� �Equação4
Então, a instabilidade (desvio-padrão) observada em um conjunto
de médias obtidas de n indivíduos será s n/ . Note que “s” expressa a
variação média entre indivíduos e s n/ a variação média entre valores de
médias. Numa distribuição de médias obtidas de “n” de elementos recolhi-
dos aleatoriamente (n ≥ 120) teríamos, portanto, o intervalo de confiança,
conforme pode ser observado a seguir:
������������� , * �������������������������
,
at
s
n
a
s
n
a
gl
± = ±
2
1 96 ������� �Equação5
Entretanto, na experimentação, o valor médio encontrado se baseia
em um número restrito de observações. Como o valor de 1,96 se refere à
distribuição de valores médios de grandes grupos (n ≥ 120), e o desvio da
distribuição de médias aumenta à medida que a amostra diminui, uma cor-
reção no valor de z = 1,96 deverá ser feita para garantir a definição precisa
de uma área central de 95% (intervalo de confiança para “n” amostras).
Bioestatística
– 126 –
Nesse sentido, a distribuição de médias verificadas referentes a 25
amostras possuirá um desvio-padrão maior (s√25) do que para 150 amostras
(s√150), com menor instabilidade relativa. Logo, tendo em vista estas afirma-
ções, obviamente a distribuição normal possuirá maior dispersão e os 95% das
médias possíveis se encontrará em um intervalo maior que o de -1,96 a 1,96,
no caso, de -2,262 a 2,262. Adicionalmente, os valores referentes à variável
padronizada “z” (considerando o tamanho amostral) podem ser visualizados
na tabela “t” de Student, função dos graus de liberdade (n-1).
5.3 Testes para inferência sobre uma amostra
Um experimento é conduzido para uma determinada planta medi-
cinal (camomila – Matricaria chamomilla) específica do cerrado. Após
a realização de uma coleta de amostras, a altura das amostras da refe-
rida planta foi medida. Nesse sentido, foi feita uma estimativa da altura
média populacional das plantas medicinais e sua respectiva estimativa do
intervalo de confiança, para estudar se a média encontrada é equivalente à
média apresentada em outros estudos encontrados na literatura. Mas então
como responder a essas questões? Quais são as possibilidades de teste
que se possui para responder se a média encontrada é equivalente à média
apresentada em outros estudos teóricos? Quais são as suposições dos tes-
tes? Observe o fluxograma a seguir:
Figura 5.1 – Suposições dos testes para uma amostra
A variância populacional
é conhecida?
A população respeita
uma distribuição
normal?
Teste “Z”
Teste “T”
Utilizar métodos
não paramétricos
Fonte: elaborada pelo autor.
– 127 –
Noções de inferência estatística
Porém, após definir anteriormente o que é um intervalo de confiança,
também denominado intervalo de respostas típicas, definiremos o inter-
valo de confiança da média, na seção a seguir.
5.4 Teste “Z”
Incialmente são reportados os valores da variável altura da planta
medicinal (camomila – Matricaria chamomilla). Essencialmente, deve ser
lembrado que a variância amostral geralmente não é visualizada na prá-
tica. No entanto, teoricamente, consideremos que a variância (população)
seja igual a 2,25 e, consequentemente, o desvio-padrão seja de 1,5. Logo, é
necessário conhecer se os dados da respectiva variável respeitam uma distri-
buição normal de probabilidade. Nesse sentido, o “quantile - quantile plot”
(“Q-Q plot”) e o teste de Shapiro-Wilk foram empregados. No gráfico de
“Q – Q plot” e por meio do teste de Shapiro-Wilk, pode-se verificar que
existem evidências de que a amostra da planta medicinal possui distribuição
normal (nível de 5% de significância, p = 0,1858) – não foi rejeitada a hipó-
tese nula para o pressuposto de normalidade dos dados (Figura 5.2).
Figura 5.2 – Vetor de dados planta A
Fonte: elaborada pelo autor.
Para construir o intervalo de confiança da média (Figura 5.3), deve-se
conhecer a margem de erro (equação 6). Como a altura é normalmente distri-
buída e a variância populacional é conhecida, a margem de erro é dada por:
��������������������������� ��������������Erro z z
n
Equa
a( ) =
2
s
çção�6
Bioestatística
– 128 –
Figura 5.3 – Intervalo de confiança da média
Fonte: elaborada pelo autor.
Dessa forma, o intervalo de confiança é dado por: ẋ - Erro (z) < μ < ẋ + Erro (z).
Então, a estimativa pontual para a média populacional é de 2,946 e, com 95%
de confiança, a média populacional está entre [2,53; 3,36]. Para utilizar o teste
“z”, suponha que na pesquisa anterior a média encontrada foi de 3,32. Pode-se
afirmar que as médias são iguais?
Hipóteses:
2 hipótese nula: μ = 3,32;
2 hipótese alternativa: μ ≠ 3,32.
Temos a seguinte estatística de teste:
z
n
=
−
√
∝
σ
Equação7
x.
A estatística de teste “z” possui uma distribuição normal. Logo, por
meio do valor de “z” calculado, a decisão referente à rejeição da hipótese
nula pode ser tomada. A seguir, são realizados os cálculos com o auxílio
do software “R”.
Figura 5.4 – Cálculo da estatística de teste “z” e o valor de probabilidade
Fonte: elaborada pelo autor.
– 129 –
Noções de inferência estatística
Após determinar a estatística de teste, emprega-se a função
pnorm() para calcular o valor de probabilidade acumulada até o ponto
“z”. Deve-se ter muita atenção aqui, pois caso valor de “z” fosse posi-
tivo, deveria ser feito o cálculo de [2 * pnorm z( )( )]. O valor é multiplicado
por 2, pois o teste é bilateral e a curva da normal é simétrica. Observe
a importância de definir bem suas hipóteses. Logo, rejeitaria-se a hipó-
tese nula na situação de teste de hipótese unilateral. Entretanto, uma
vez que foi observado um p-valor calculado de 0,078, não será rejei-
tada a hipótese nula (teste bilateral), pois existem evidências de que
a altura média encontrada com a nossa amostra é equivalente à altura
média observada na literatura, a partir de um computador em conexão
com internet, por meio da instalação de um pacote de funções para
realizar os cálculos (“BSDA”) (Figura 5.4).
5.5 Teste “T”
Em uma segunda situação, caso a variância não fosse conhecida, qual
seria a decisão e o procedimento adotado? Conforme a figura 5.1, aplica-se
o teste “T”. Neste caso, a mudança basicamente reside sobre a estatística
de teste e a distribuição de probabilidade a ser utilizada – a distribuição
de “t” de Student. A diferença entre a distribuição normal padronizada e
a distribuição “t” de Student é que esta é diferente para tamanhos amos-
trais diferentes. A sua forma é um pouco mais larga, refletindo uma maior
variabilidade. No entanto, à medida que o tamanho amostral aumenta, a
distribuição “t” de Student se aproxima da normal. Os valores das duas
distribuições são idênticos para tamanhos amostrais maiores que 2000
observações, mas dependendo da referência adotada tem sido considerado
que para amostras maiores que 30 parece ser razoável adotar o teste “z” ao
invés do t, pois é diferença é muito pequena.
Para determinar o valor de “t”, basta identificar o valor de signifi-
cância adotado e o respectivo número de graus de liberdade. O valor de
“t” reside no valor observado na casela comum à coluna (nível de signi-
ficância) e linha (graus de liberdade).
Bioestatística
– 130 –
Figura 5.5 – Cálculo do teste “z” em ambiente R
Fonte: elaborada pelo autor.
Considerando o exemplo relacionado com a planta medicinal, em
que não é observada a variância da população, a variável altura apresenta
distribuição normal com estimativa para a média populacional na ordem
de 2,946. Logo, ao elaborar os intervalos de confiança para estimativa da
média e compará-la com a de estudos anteriores, tem-se que as hipóteses
continuam as mesmas, mas a estatística de teste e a margem de erro são alte-
radas. Adicionalmente, temos que tn-1 possui distribuição t de Student com
n-1 graus de liberdade. A seguir é destacada a margem de erro para variáveis
(com distribuição normal) e a variância populacional não conhecida:
���������������������������������� �������
;
Erro t t
s
n
a
n
( ) =
−
2
1
������������������ �Equação9
Onde s é a estimativa do desvio-padrão e ta n
2
1; - é o valor crítico
da distribuição t com o nível de significância de a
2
e com n-1 graus
de liberdade. Dessa maneira, o intervalo de confiança é dado por:
x Erro t x Erro t− ( ) < < + ( )� �µ . A partir das linhas de comando executadas, os
valores da estatística de teste e de probabilidade observados foram res-pectivamente de t = -1,7587 e p = 0,084 (49 graus de liberdade). Logo, a
partir do valor de probabilidade encontrado, não se recomenda a rejeição
da hipótese nula, considerando 5% do nível de significância (hipóteses:
H0: μ=3,32; H1: μ≠3,32).
– 131 –
Noções de inferência estatística
Estatística de teste:
t
µ
s
n
n− =
−( )
( )
1
Equação8
x.
Tabela 5.2 – Distribuição “t” de Student
Fonte: www.conteudo.icmc.usp.br.
Adicionalmente, existem evidências de que a altura média encon-
trada em nosso estudo é equivalente à altura média do estudo anterior.
Na figura 5.6 temos a hipótese alternativa especificada, o intervalo de 95%
de confiança e a respectiva média amostral. Para a condução de testes uni-
laterais, é necessário alterar o argumento “alternative”.
Bioestatística
– 132 –
Figura 5.6 – Aplicação do teste “t” em ambiente R
Fonte: elaborada pelo autor.
5.6 Teste para inferência sobre duas amostras
Os testes de inferência, tendo em vista a comparação de duas amos-
tras, são clássica e massivamente definidos na literatura. Com o intuito de
tomada de decisão em relação a hipóteses construídas sobre duas amostras,
é necessário colher os objetivos do respectivo teste de hipótese selecionado
e os pressupostos que envolvem cada teste. Nesta parte do capítulo, serão
apresentados conceitos referentes a métodos para comparações de parâme-
tros de média que respeitam uma distribuição normal de probabilidade. Na
figura 5.7, de maneira geral, são apresentados testes adequados, conside-
rando o que é mais frequentemente encontrado em pesquisas científicas.
No geral, o objetivo desses testes é estabelecer a comparação de valo-
res médios para uma determinada variável quantitativa que segue uma dis-
tribuição normal de probabilidade, referente a níveis ou categorias de uma
variável qualitativa (ex.: glicose entre sexos, nacionalidades, tratamentos
dietéticos etc.). Quando as amostras são pareadas, temos a recomenda-
ção para condução de um teste “t” pareado, em que são extraídas duas
medições de uma mesma unidade experimental; porém, com mais de duas
medições obtidas, recomenda-se a aplicação de uma análise longitudinal
(não é o escopo desta disciplina). Por outro lado, para amostras não pare-
adas, em que temos uma medição extraída de cada unidade experimental
dividida em duas amostras, recomenda-se a aplicação de um teste “t” para
amostras independentes, ou, no caso de mais de dois níveis ou catego-
rias da variável qualitativa, a realização de uma análise de variância para
– 133 –
Noções de inferência estatística
um fator. Neste capítulo serão tratados testes para duas amostras inicial-
mente e, na sequência, alguns casos relacionados à análise de variância
para comparação de tratamentos. Inicialmente, os testes paramétricos para
amostras independentes serão apresentados.
Figura 5.7 – Suposições dos testes para duas amostras para variáveis qualitativas
versus variáveis quantitativas
Qualitativa
vs.
Quantitativa
Apresenta
distribuição
normal.
Amostras
pareadas:
Qualitativa:
possui mais
de 2 níveis
Qualitativa:
possui mais
de 2 níveis
Teste “T”
Teste “T”
pareado
Análise
longitudinal*
Anova
(1 fator)
Não
Não
Não
Sim
Sim
Sim
*Não será tratado pela disciplina.
Fonte: elaborada pelo autor.
5.7 Teste “t” (amostras independentes)
Para reportar o teste “t” a partir de amostras independentes será uti-
lizado o experimento a respeito de estudo observacional em mulheres que
realizavam um tratamento para fertilização. Inicialmente, as idades das
mulheres foram obtidas frente aos tipos de infertilidade apresentados pelos
pacientes. Após a realização do tratamento, houve um acompanhamento
das mulheres por dois anos e, no final desse período, foi computado sobre
quais delas engravidaram ou não. Considera-se que o propósito do estudo
foi avaliar a influência da idade sobre a variável qualitativa gravidez e
a presença de relação entre idade e o tipo de infertilidade. Na figura 5.8
Bioestatística
– 134 –
pode-se verificar como foi executada a importação dos dados e o estudo da
hipótese de normalidade para a idade computada das mulheres.
Figura 5.8 – Importação de dados e verificação do pressuposto de normalidade dos dados
Fonte: elaborada pelo autor.
Como verificado, a idade das mulheres mostrou uma distribuição
normal. Nesse sentido, para estudar o efeito da idade sobre a gravidez,
recomenda-se o uso do teste “t”. A variável gravidez apresenta dois níveis
(engravidar e não engravidar) e as amostras são independentes, uma vez
que é obtida apenas uma medição por unidade experimental (paciente). Para
executar o teste “t”, inicialmente deve-se verificar se as variâncias são iguais
(pressuposto de homoscedasticidade). Previamente à execução do teste, os
dados são explorados por meio de um gráfico boxplot (Figura 5.9).
Logo, é possível verificar na figura 5.9 que, observando as medianas
dos grupos, eles são possivelmente diferentes. Adicionalmente, para as
mulheres com o tipo I de infertilidade, pode-se observar que a mediana da
idade é maior em termos absolutos do que para as mulheres com infertili-
dade dos tipos II e III. Temos na sequência então o exemplo de aplicação
do teste “t” para analisar o efeito da idade sobre a gravidez.
Figura 5.9 – Gráficos boxplot para as variáveis gravidez e infertilidade
– 135 –
Noções de inferência estatística
Fonte: elaborada pelo autor.
Hipóteses:
2 H0 – as idades são estatisticamente iguais entre grupos
(µG = µNG);
2 H1 – as idades são estatisticamente diferentes entre grupos
(µG ≠ µNG).
Estatística de teste para variâncias populacionais iguais (sA
2 = sB
2):
����������������� �
� �
t
x x µ µ
S
n
Graus de Liberdade
A B A B
P
A
=
−( )− −( )
2
++
S
n
Equação
P
B
2
10����������������������� �
A respeito da equação 10, nA e nB remetem às amostras dos grupos
A e B, �x
A
e x
B
médias amostrais dos grupos A e B, µA e µB médias popu-
lacionais dos grupos A e B, e sp
2 (variância respectiva):
s
x x
np
A A B B
A
2
2 2
=
∑ −( ) + ∑ −( )
−−( )+ −( )1 1
11
n
Equação
B
x. x.
Bioestatística
– 136 –
Para variâncias populacionais diferentes, tem-se que:
t
µ µ
S
GL
A B A B=
−( )− −( )
AA
A
B
B
n
S
n
Equação
2 2
12
+
x. x.
Logo, dado que previamente verifica-se a hipótese de igualdade de
variâncias, antes de realizar o teste “t”, computa-se e a estatística de teste
“F”, sendo que:
Hipóteses: H0: sA
2 = sB
2 ; H1: sA
2 ≠ s
B
2 .
Estatística de teste:
����������������������������������������� � ��������F
S
S
= 1
2
2
2
������������������������������ �Equação13
Onde s
1
2 é a maior das duas variâncias e os graus de liberdade do
numerador são n1-1 e n2-1.
Figura 5.10 – Teste de hipótese para variâncias iguais: pré-requisito para realização
do teste “t” para amostras independentes
Fonte: elaborada pelo autor.
Nota-se na figura 5.10 que, como o p-valor é maior que 0,05, não se
verificam evidências para refutar a hipótese nula (variâncias iguais).
Figura 5.11 – Teste “t” para amostras independentes (ambiente “R”)
Fonte: elaborada pelo autor.
– 137 –
Noções de inferência estatística
Ao considerar o exemplo conduzido, com valor de probabilidade
igual a 0,1058, não existe evidência para rejeitar H0. Logo, pode-se
entender que as pacientes que engravidaram possuíam 29,92 anos de
idade em média, enquanto as pacientes que não conseguiram engravidar
tinham 28,38 anos de idade em média, o que é significativamente dife-
rente (nível de 5% de significância).
5.8 Teste “t” pareado (amostras dependentes)
Nesta seção teremos os testes de observações (amostras) dependen-
tes, ou também denominados “pareados”. Uma das maneiras de entender
o conceito de dependência é com exemplos. Consideremos um exemplo
no qual retiram-se medidas de massa corporalantes ou depois da condu-
ção de um protocolo para perda de peso. A figura 5.11 revela as linhas de
comando utilizadas, o respectivo conjunto de dados e a testagem do pres-
suposto de normalidade (distribuição normal). Após a testagem da hipó-
tese de normalidade sobre o conjunto de dados para a variável massa,
deve-se administrar o teste “t” pareado para testar a hipótese de estudo.
A seguir são apresentadas as hipóteses e sua estatística de teste, levando
em conta que as amostras se encontram normalmente distribuídas, sendo
que “d” corresponde à média das diferenças, sd é o desvio-padrão das
diferenças e µd é a média populacional das diferenças.
Hipóteses:
2 H0: µd = µPRÉ - µPÓS=0;
2 H1: µd = µPRÉ - µPÓS≠0;
���������������� � �����������������������������t
d µ
s
n
n
d
d
− =
−
1
EEquação�14
Figura 5.12 – Teste “t” para amostras dependentes (pareadas)
Bioestatística
– 138 –
Fonte: elaborada pelo autor.
Em ambiente “R”, nota-se que como o p-valor é menor que 0,05,
pode-se rejeitar a hipótese nula, ou seja, não há evidências de que os pesos
antes ou após a dieta são iguais. Além disso, verifica-se também que a
média das diferenças é de 7,19. Em síntese, conclui-se que os indivíduos
perdem 2,05kg em média com a dieta aplicada.
Exemplos
Exemplo 1. Um veterinário avaliou o nível de tiroxina sérica de 55
cães machos adultos normais. Considerando os valores obtidos da média
(ẋ = 2,04 mcg/100ml) e do desvio-padrão (s = 0,78 mcg/100ml) como
boas estimativas populacionais, podemos dizer:
a) que 95% dos cães nesta categoria, em qualquer amostra reali-
zada, estarão com nível sérico de tiroxina de 2,04±1,96(0,78),
ou seja, de 0,51 a 3,57 mcg/100ml (intervalos de respostas típi-
cas ou intervalo de confiança).
b) Caso outro pesquisador repita o estudo utilizando o mesmo
número de animais (n = 55), o valor médio de tiroxina sérica será
– 139 –
Noções de inferência estatística
possivelmente 2 04 2 006
0 78
55
, ,
,
± , sendo 2,006 o valor “t” corres-
pondente a 55-1=54 graus de liberdade, ou seja, entre 1,83 e
2,25 mcg/100ml (intervalo de confiança da média).
Exemplo 2. Em todo e qualquer teste estatístico expressa-se como
elemento principal a variação mais provável entre indivíduos, por meio da
estimativa de desvio-padrão ou variância, onde a variação é total. Como
exemplo, tomaremos dois grupos experimentais de 5 elementos A (72; 75;
70; 71; 68) e 5 elementos B (72; 67; 72; 70; 66). Logo, temos que a vari-
ância entre indivíduos será:
s
x
x
n
x
x
n
n np
A
A
A
B
B
B
A B
2
2
2
2
2
1 1
=
∑ −
( )
+ ∑ −
( )
−( )+ −( )
=�
�
25374
356
5
24113
347
5
8
2 2
−
( )
+ −
( )
s
p
2 26 8 31 2
8
7 25=
+
=
, .
,
Passemos às comparações entre as médias dos grupos A e B, utili-
zando o intervalo de confiança da diferença ẋA - ẋB. Considerando que
a estimativa é calculada a partir de 8 graus de liberdade e as variâncias
populacionais são iguais, temos que o intervalo de confiança será:
( )± +A B GL
P
A
P
B
t
S
n
S
n
− =
2 2
x. x.
71 2 69 4 2 306
7 25
8
7 25
8
, , ,
, ,
−( )± + = �
1 80 3 89, .±
Ou seja, em 95% das respostas típicas testando os grupos A e B, a
diferença entre suas médias oscila de -2,09 a 5,69, intervalo que inclui o
Bioestatística
– 140 –
valor 0. Logo, o grupo A apresenta média equivalente ao grupo B. Adicio-
nalmente, pelo teste “t”, temos que:
S
n
S
n
A B
P
A
P
B
=
−( )
+
= =
2 2
1 80
1 68
1 071
,
,
,
x.x.
Logo, pelo fato de o valor de “t” tabelado (2,306) ser maior
que o valor calculado de “t” (1,071), indica-se que os grupos possuem
médias equivalentes.
Exemplo 3. No combate a verminoses, na tentativa de selecionar
um antígeno identificador da Schistosomíase, foram testados dois antí-
genos (A e B) em 11 pacientes, um em cada braço, e após oito minutos a
área de reação epidérmica foi medida em cm2 (Tabela 5.3). Considerando
as 11 observações da nova variável d, ∑ = ∑ =d e d8 08 6 512, , teremos:
dmédio = 0,73 e sdiferenças = 0,24. Logo o intervalo de confiança da dmédio será:
0 7345
0 2413
10
0 7345 0 162110,
,
, , .±
( )
√
= ±
t
Tabela 5.3 – Área de reação epidérmica em cm2 segundo o antígeno utilizado de forma
subcutânea e o paciente
Indivíduo Antígeno A Antígeno B Diferença d=A-B
1 3,58 2,96 0,62
2 1,67 0,62 1,05
3 2,7 2,08 0,62
4 3 2,7 0,3
5 0,88 0,03 0,85
6 0,97 0,41 0,56
7 2,2 1,14 1,06
8 3,9 3,2 0,7
9 2,85 1,93 0,92
10 2,5 1,6 0,9
11 1,3 0,8 0,5
Fonte: Sampaio (2010).
– 141 –
Noções de inferência estatística
Sendo assim, o provável valor de dmédio é de 0,5424 a 0,8966, demons-
trando sempre uma superioridade de área do antígeno A, de 0,57 a 0,89
cm2 maior que o antígeno B. Se o valor zero estivesse incluído neste inter-
valo, isto significaria que em algumas situações o antígeno B apresentaria
área superior à de A. Para que a diferença média dmédio fosse significativa,
a condição matemática seria:
t
d
s
n
tabelado
medio
diferenças
£� �
Temos:
�
,
,
, .t = =
0 7345
0 2413
11
10 095
Como o valor de “t” tabelado para n-1 graus de liberdade é de 2,228,
o valor “t” calculado foi superior não só a este nível de 5%, mas aos níveis
de 1% (3,169) e 0,1% (4,587). Nesse sentido, concluímos que o antígeno
A provoca reação epidérmica mais extensa que o antígeno B, com proba-
bilidade de erro inferior a 0,1% (p < 0,001).
Para o caso de uma variável explicativa possuir mais de dois níveis
e as observações serem dependentes, é adequado empregar a análise de
variância para medidas repetidas, porém, não abordaremos esse conte-
údo neste capítulo. Em suma, neste capítulo você teve acesso a conceitos
e noções sobre a área de inferência estatística e sobre como comparar
grupos experimentais com o uso do software “R”. Para aprofundar seus
conhecimentos, revise seus conceitos e explore em outros livros-texto e
em exemplos disponíveis na internet.
Atividades
Leia o enunciado para as questões de 1 a 5:
Os testes de hipóteses são usados em diversas áreas. Na bioesta-
tística, a construção de hipóteses deve sempre preceder a aplica-
Bioestatística
– 142 –
ção de testes. Ao considerar a hipótese nula de que a ingestão de
gorduras poli-insaturadas diariamente pode reduzir os níveis de
LDL e a hipótese alternativa de que o consumo de gorduras poli-
-insaturadas na alimentação diária pode reduzir os níveis séricos
de LDL, responda a seguir:
1. Conforme apresentado, os tipos de erro cometidos na tomada de
decisão sobre o efeito do consumo de gorduras poli-insaturadas
na alimentação diária são:
a) erros tipo I e II;
b) erro tipo A e B;
c) erros tipo B e D;
d) erros tipo I e A;
e) nenhuma das anteriores;
2. Em complemento à questão anterior, a tomada de decisão (infe-
rência) é fundamental a diversas áreas, como a bioestatística.
Nesse sentido, as informações a seguir são corretas exceto:
a) O erro tipo I implica na rejeição da hipótese nula.
b) O erro tipo I consiste na rejeição da hipótese nula quando esta
deveria ser verdadeira.
c) O erro tipo II implica na aceitação da hipótese nula.
d) O erro tipo II consiste na aceitação da hipótese nula quando
esta deveria ser rejeitada.
e) Nenhuma das anteriores.
3. A tomada de decisão sobre a importância do consumo de gorduras
poli-insaturadas é resultado de diversas etapas. Quais são elas?
a) Estabelecimento de hipóteses, determinação da estatística de
teste, cálculo do valor de probabilidade.
b) Estabelecimento de hipóteses, determinação da estatística de
teste, cálculo do valor de probabilidade e tomada de decisão.
– 143 –
Noções de inferência estatística
c) Determinação da estatística de teste, cálculo do valor de pro-
babilidade e tomada de decisão.
d) Determinação da estatística de teste, cálculo do valor
de probabilidade
e) Estabelecimento de hipóteses, determinação da estatística de
teste, cálculo do valor de probabilidade e tomada de decisão.
4. Uma das etapas do teste de hipóteses consiste na elaboração das
hipóteses de estudo. Neste período, o pesquisador deveconhecer
amplamente o problema para elaborar suas hipóteses de estudo,
ou seja, o que é esperado sobre o questionamento ou problema
proposto. Neste horizonte, as hipóteses elaboradas podem ser
classificadas em hipóteses unilaterais ou bilaterais. Como elas
podem ser definidas?
a) Nas hipóteses unilaterais pressupõe-se que as hipóteses nulas
estabelecem valores maiores ou menores que um valor predeter-
minado e nas hipóteses bilaterais é observado se valores médios
obtidos experimentalmente são diferentes ou iguais.
b) Nas hipóteses bilaterais pressupõe-se que as hipóteses nulas
são maiores ou menores que um valor predeterminado para uma
variável conhecida e nas unilaterais é observado se determina-
dos valores médios são diferentes ou iguais.
c) Nas hipóteses bilaterais pressupõe-se que as hipóteses alterna-
tivas são maiores ou menores que um valor predeterminado para
uma variável conhecida.
d) A hipótese alternativa nas hipóteses unilaterais estabelece que
a média das respostas experimentais é maior que um valor pre-
determinado e nas hipóteses bilaterais é observado se valores
médios obtidos experimentalmente são diferentes.
e) Nenhuma das anteriores.
5. As gorduras poli-insaturadas estão presentes em alimentos
como peixes, azeite e castanhas. Estudos experimentais e popu-
lacionais mostraram que indivíduos que adotam naturalmente
Bioestatística
– 144 –
na dieta este tipo de alimento ao longo da vida possuem maior
expectativa de vida, menor incidência de infarto e menores
níveis de LDL. Este tipo de dieta é adotado em países mediterrâ-
neos. Um estudo populacional foi desenvolvido com indivíduos
de duas cidades de países diferentes (Évora, em Portugal; e Foz
do Iguaçu, no Brasil) com a mesma idade, níveis de LDL e regis-
tro prévio de seus hábitos alimentares. Quais seriam respectiva-
mente as hipóteses nula e alternativa?
a) Hipótese unilateral: hipótese nula – os valores de colesterol
LDL são iguais entre indivíduos das duas cidades; hipótese alter-
nativa – os valores de colesterol LDL são diferentes entre indiví-
duos das duas cidades.
b) Hipótese bilateral: hipótese nula – os valores de coleste-
rol LDL são iguais entre indivíduos das duas cidades; hipótese
alternativa – os valores de colesterol LDL são diferentes entre
indivíduos das duas cidades.
c) Hipótese bilateral: hipótese alternativa – os valores de coles-
terol LDL são iguais entre indivíduos das duas cidades; hipó-
tese nula – os valores de colesterol LDL são diferentes entre
indivíduos das duas cidades.
d) Hipótese unilateral: hipótese nula – os valores de coleste-
rol LDL são iguais entre indivíduos das duas cidades; hipótese
alternativa – os valores de colesterol LDL são diferentes entre
indivíduos das duas cidades.
e) Hipótese bilateral: hipótese nula – os valores de coleste-
rol LDL são diferentes entre indivíduos das duas cidades;
hipótese alternativa – os valores de colesterol LDL são iguais
entre indivíduos das duas cidades.
6. Uma granja de aves tipo rhode produz 3000 ovos por dia, os
quais são classificados e vendidos de acordo com o peso. Ovos
industriais são assim classificados porque são mais baratos, por
possuírem menos de 48 g. Se a granja produz ovos com peso
médio de 53 g e desvio-padrão de 6,4 g, ela poderia atender o
– 145 –
Noções de inferência estatística
pedido de um restaurante e de uma confeitaria que pertencem
a uma mesma empresa, a qual deseja comprar 600 unidades
desse tipo por dia?
a) Atenderia o pedido, pelo menos em parte.
b) Atenderia completamente o pedido do empreendimento e ainda
sobraria uma quantidade representativa de ovos industriais.
c) Atenderia completamente o pedido do empreendimento exa-
tamente como o solicitado.
d) O pedido não poderia ser atendido pelo fornecedor.
e) Nenhuma das anteriores.
7. Frequentemente ouvimos notícias sobre estudos que apresentam
resultados curiosos em notícias de nosso dia a dia. Geralmente
essas informações e notícias são reportadas por jornalistas e sites
que, sem o devido conhecimento sobre a área estatística e capa-
cidade crítica sobre tais pesquisas, por vezes acabam por veicular
conclusões erroneamente e não sintetizar devidamente as infor-
mações sobre os resultados observados em pesquisas. Esse fenô-
meno atualmente é bem conhecido em diversas áreas, produzindo
confusão junto à população, o que é conhecido como “notícias
falsas” ou “fake news”. Tempos atrás, afirmava-se que o consumo
de ovos diariamente poderia elevar os níveis de colesterol sérico
LDL. Mais recentemente, vários fatores foram elucidados e hoje
o ovo é um alimento que cada vez mais faz parte do dia a dia na
mesa dos brasileiros, com elevado potencial nutricional para die-
tas com foco em perda de peso, evitando a degradação proteica.
Um determinado estudo não produziu resultados positivos com 8
indivíduos, e outro, com uma amostra multicultural, recrutou 731
indivíduos, mostrando resultados positivos sobre parâmetros clí-
nicos. Na sua opinião, o que ocorreu? Se aumentarmos o tamanho
amostral, o desvio-padrão se altera?
a) Não ocorrerá nada, os parâmetros encontram-se inalterados;
b) O aumento do tamanho amostral reduzirá o intervalo de con-
fiança da média, logo, com maior confiança.
Bioestatística
– 146 –
c) O aumento do tamanho amostral reduzirá o intervalo de
confiança da média.
d) O aumento da amostra aumentará o intervalo de confiança
da média.
e) Nenhuma das anteriores.
Enunciado para questões de 8 a 10:
A digestibilidade de duas espécies de forrageiras do cerrado,
obtidas em locais diferentes dos respectivos pastos, foram res-
pectivamente de:
Dados das espécies forrageiras
Capim elefante (n = 7) 69 72 66,8 70,5 73 67,8 63 -
Brachiaria (n = 8) 78 75,2 77,0 73,9 74,0 72,0 76,3 68,5
8. Ao comparar as digestibilidades médias das duas forrageiras,
foram obtidos os seguintes resultados e tomada de decisão.
a) Capim elefante < Brachiaria, confirma-se a hipótese nula.
b) Capim elefante = Brachiaria, rejeita-se a hipótese nula.
c) Capim elefante > Brachiaria, confirma-se a hipótese nula.
d) Capim elefante < Brachiaria, rejeita-se a hipótese nula.
e) Nenhuma das anteriores;
9. Caso outras 7 amostras de capim elefante tivessem sido coleta-
das naquele mesmo local e na mesma época, qual seria o valor
da digestibilidade média dessas amostras?
a) 68,8±2,6.
b) 67,87±2,62.
c) 68,87±2,62.
d) 68,00±2,62.
e) Nenhuma das anteriores.
– 147 –
Noções de inferência estatística
10. Apesar de 8 amostras terem sido colhidas, seria possível fazer
um prognóstico entre quais valores a digestibilidade da Brachia-
ria teria para qualquer amostra colhida no mesmo local?
a) 67,07% a 80,65%.
b) 68,07% a 81,65%.
c) 68,07% a 80,65%.
d) 67,07% a 80,55%.
e) Nenhuma das anteriores.
6
Estudo de Dispersão
de Frequência
e Análise da
Concordância de
Variáveis Quantitativas
e Qualitativas
6.1 Estudo de Dispersão de Frequência
As respostas obtidas na experimentação em animais e humanos
geralmente são quantitativas. Considerando fatores circunstanciais,
como o tempo, amostra e infraestruturas disponíveis (instalações
físicas, materiais, equipamentos de medição etc.), um delineamento
adequado pode ser definido para analisar as respostas biológicas.
As respostas qualitativas exigem uma estratégia diferenciada de aná-
lise por sua natureza. Nas análises envolvendo experimentos com
animais, caso o experimento seja planejado para se obter respostas
qualitativas de cada animal por efeito de tratamentos impostos pelo
pesquisador, é preciso criar um critério de variabilidade de respostas
observadas dentro de cada tratamento. Como as respostas são qua-
litativas, a abordagem de análise mais indicada envolveria métodos
não paramétricos (ZAR, 1984; SAMPAIO, 2010).
Bioestatística
– 150 –
Existem situações, entretanto nas quais as respostas qualitativas são
julgadas pela frequência em que elas ocorrem dentro de um subuniverso
estudado. Isso ocorrerá em basicamente dois grandes grupos deestudo de
dispersão de frequência:
a) Variável estudada apresenta-se dicotomicamente (sim ou não,
presença ou ausência, animais positivos ou negativos etc.) indi-
cará apenas um resultado percentual de ocorrência da resposta
alvo. Como exemplo, podemos citar a ocorrência de brucelose
em bovinos de um município (positivo ou negativo);
b) Variável estudada, ainda qualitativa, é pesquisada em grupos
diferentes e se deseja conhecer se a dispersão das respostas
observadas (dicotômicas ou não) se apresenta igualmente para
todos os grupos, ou se a dispersão parece variar dependendo
do grupo onde a resposta foi estudada. Essa situação está mais
ligada à ação planejadora do pesquisador do que na situação
anterior onde, pela operação de levantamento, não está implícita
a imposição de grupos experimentais ou tratamentos. Por exem-
plo, em uma criação leiteira, estuda-se se a retenção de placenta
está associada ou ocorre mais frequentemente em algum grau
de parentalidade sanguínea para vacas paridas, percebe-se que
a resposta de retenção de placenta é dicotômica (sim ou não) e
podem existir mais de dois graus de sangue discriminados pelo
pesquisador para verificar se existe diferença no percentual de
animais paridos com retenção entre aqueles graus de sangue,
estes estudo são denominados de tabelas de contingência, apre-
sentadas à seguir (ZAR, 1984; SAMPAIO, 2010).
Figura 6.1 – Estudo de dispersão de frequência: tabelas de contingência
Fonte: elaborada pelo autor.
– 151 –
Estudo de Dispersão de Frequência e Análise da Concordância de Variáveis
Quantitativas e Qualitativas
6.2 Tabelas de Contingência
Enquanto nos levantamentos estuda-se tão somente a frequência de
evento dicotômico dentro de um universo amostral, as tabelas de contin-
gência envolvem o estudo de frequência de eventos dicotômicos ou não,
mas que trazem consigo, naturalmente ou pressuposta pelo pesquisador,
uma distribuição esperada.
Suponhamos que em uma fazenda de exploração leiteira tenha havido
180 nascimentos no último ano. Para esse tipo de exploração o evento mais
desejável é de produtoras do plantel. A segregação genética para sexos de
1:1 é bem conhecida, deverá prevalecer e portanto, estaremos esperando
90 fêmeas e 90 machos entre bezerros nascidos. Se observássemos que
realmente nasceram 90 machos e 90 fêmeas, nada de novo teria aconte-
cido que ameaçasse a esperada segregação de nascimentos na proporção
1 macho para 1 fêmea (1:1).
Caso o evento observado fosse entretanto de 92 fêmeas e 88
machos, consideraríamos a mesma segregação, já que os desvios ocor-
ridos entre as frequências observadas e esperadas foram muito peque-
nos. Supostamente, se 120 fêmeas e apenas 60 machos, esses desvios
nos pareceriam mais substanciais e alternativamente julgaríamos: ou
algo muito difícil de acontecer está ocorrendo ou alguma coisa pode
estar efetivamente alterando a proporção esperada de 1:1. Nesse sen-
tido, para julgarmos um evento como esse por meio da avaliação dos
desvios observados, é necessário:
c) Estabelecer as hipóteses de testagem e um índice para medir a
magnitude de desvios (Equação 01, Índice afastamento qui-qua-
drado – χ2), por meio do índice afastamento de qui-quadrado (χ2);
Hipóteses:
2 H0 – Hipótese nula: não existe associação entre as variáveis,
não há discrepância entre as frequências esperada e obser-
vada (� �obs tab
2 2� ).
Bioestatística
– 152 –
2 H1 – Hipótese alternativa: há associação entre as variáveis, há dis-
crepância entre as frequências esperada e observada (χobs
2 > χtab
2 ).
calculado
i
linhas
j
Colunas
ij ij
ij
n E
E
2
1 1
2
EEquação01
Onde nij é a frequência observada, E
n n
nij
i j� � �
��
a frequência esperada
e χobs
2
segue uma distribuição de qui-quadrado com k-1 graus de liberdade
para um total k de grupos, ilustrados na tabela 6.1. A exemplo do cálculo
do desvio padrão, os desvios foram elevados ao quadrado, pois sua soma
simples resultaria no valor 0, e relativizados pela frequência esperada perti-
nente, logo o índice obtido é adimensional (ZAR, 1984; SAMPAIO, 2010).
Exemplo 1. Considerando a mesma fazenda de pecuária leiteira, a
primeira situação em que se verifica 92 fêmeas e 88 machos, o índice de
afastamento seria:
�1
2
2 292 90
90
88 90
90
0 088�
�� �
�
�� �
� ,
Na segunda situação em que se verifica 92 fêmeas e 88 machos, o
índice de afastamento seria:
�2
2
2 2120 90
90
60 90
90
20 0�
�� �
�
�� �
� ,
Tabela 6.1 – Tabela de Contingência 2 x 2
Variável 1
Variável 2
Nivel A Nivel B Total
Nivel A N
11
N
12
N
1+
Nivel B N
21
N
22
N
2+
Total N
+1
N
+2
N
++
Fonte: elaborada pelo autor.
– 153 –
Estudo de Dispersão de Frequência e Análise da Concordância de Variáveis
Quantitativas e Qualitativas
Logo, o valor do índice de afastamento qui-quadrado para o nas-
cimento de bezerros da fazenda na primeira situação é menor que
na segunda situação (χ1
2 < χ2
2). Parece claro que a primeira situação
denuncia desvios meramente casuais e na segunda eles já parecem
substancialmente grandes.
d) Analisar a distribuição desse índice de modo a identificar o valor
em que os desvios seriam elevados demais para serem interpre-
tados como casuais, tornando-se discrepante da frequência espe-
rada para determinada resposta.
Figura 6.2 – Distribuição de qui-quadrado: Teste de χ2 (aceitação e rejeição de uma
hipótese nula)
Fonte: http://www.portalaction.com.br/22-teste-qui-quadrado-para-independência (2021).
O estudo da distribuição dos valores de χtabelado
2
obtidos em vários
levantamentos relacionados ao sexo, se a proporção for realmente 1:1,
nos conduzirá ao encontro mais frequente de valores zero ou próximos de
zero, a frequência diminuindo à medida que os valores de �tabelado
2 aumen-
tam. Além disso, essa distribuição irá depender do número de grupos estu-
dados onde o valor mínimo do índice é zero (gl = k - 1). As variações
na proporção de nascimentos entre fêmeas e machos levarão diferentes e
maiores valores de χcalculado
2
, mas cada vez menos frequentes. Os valores
próximos a zero indicarão desvios meramente causais, dentro do critério
de tipificar sempre 95% das respostas possíveis (p<0,05) (ZAR, 1984).
Logo, deve-se localizar o valor crítico de χtabelado
2 como aquele que engloba
Bioestatística
– 154 –
sob a curva do gráfico uma área que corresponda a 95% da área total a par-
tir do valor inicial zero. Em síntese, isso se traduz que estudos de propor-
ções entre sexos que estiverem além deste ponto, sugerirão um fenômeno
muito improvável (5% dos casos) ou o colocando em dúvida a proporção
inicial considerada (SAMPAIO, 2010).
Tabela 6.2 – Tabela de qui – quadrado (χ2)
Fonte: www.ime.unicamp.br/~cnaber/Tabela%20da%20Qui-quadrado.pdf (2021).
O estudo de áreas pode ser feito com o domínio da função matemá-
tica da distribuição de probabilidade de χ2 e do processo de integração.
Os valores limites e áreas podem ser quantificadas para o nível de erro
estipulado (5%) e tabeladas conforme o número de graus de liberdade
envolvidos no estudo (tabela 6.2). Para “k” grupos independentes os graus
de liberdade correspondem a k-1, logo o valor tabelado que congrega 95%
– 155 –
Estudo de Dispersão de Frequência e Análise da Concordância de Variáveis
Quantitativas e Qualitativas
dos eventos possíveis da proporção de nascimentos por sexo é da ordem
de 3,84, 5% de erro, que corresponde obter valores superiores a este limite
em cinco de 100 estudos realizados (ZAR, 1984).
Logo, na primeira situação proposta anteriormente o valor de qui-
-quadrado ( 1
2 0 088, ) revela que os desvios foram realmente casuais, não
significativo, pelo que o índice é taxado de não significativo, confirmando
a hipótese nula. Por outro lado, na segunda situação, o índice é superior ao
tabelado (�2
2 20 0� , ), mostrando uma elevada discrepância entre as frequ-
ências observadas e esperadas (CRAWLEY, 2013).
Exemplo 2. Em outro exemplo (tabela 6.3), para grupos indepen-
dentes, a pelagemde coelhos de determinada raça possui 4 cores (branco,
cinza, preto e malhado), onde a proporção esperada é respectivamente
de 9:3:3:1. Em uma propriedade são estudados em torno de 480 filhotes
registrados conforme a tabela 6.2. Tem-se o objetivo verificar a discrepân-
cia entre as frequências esperada e observada de filhotes da propriedade:
�2
2
2 2 2 2260 270
270
98 90
90
87 90
90
35 30
30
2 014�
�� �
�
�� �
�
�� �
�
�� �
� ,
Tabela 6.3 – Pelagem de filhotes de coelho
Pelagem
Frequência
Observada Esperada
Branco 260 270
Cinza 98 90
Preto 87 90
Malhado 35 30
Total 480 480
Fonte: elaborada pelo autor.
Como existem 4 tipos de pelagem, temos então 3 graus de liberdade
(k-1=3). O valor tabelado para 5%, conforme a tabela 6.2, é de 7,815.
Como o índice de afastamento qui-quadrado calculado é inferior ao valor
tabelado, não há discrepância entre a frequência observada e esperada
Bioestatística
– 156 –
entre as cores de filhotes de coelhos, portanto quaisquer variações entre
a frequência observada e esperada na propriedade criadora de coelhos
ocorre ao acaso.
Exemplo 03. Em diferentes contextos esportivos, é comumente
observada a organização das competições em categorias em que o critério
adotado é o ano de nascimento. Apesar da intenção positiva de se promo-
ver uma forma de disputa justa entre os participantes, este critério de agru-
pamento pode induzir diferenças de idade, que podem alcançar quase 24
meses dentro da mesma categoria etária. Essa diferença relativa de idade
pode levar a possíveis vantagens de desempenho e participação, favore-
cendo os atletas nascidos mais próximos ao início do ano de seleção, fenô-
meno denominado “Efeito da Idade Relativa” (EIR). Na prática, um indi-
víduo nascido em janeiro apresenta 11 meses a mais de desenvolvimento
psicofísico que outro nascido em dezembro, proporcionando uma vanta-
gem em termos psicofísicos e de tempo de prática. Diante do exposto, o
presente exemplo tem como objetivo mostrar e avaliar a presença do EIR
de forma global nas categorias juvenil, júnior e adulta quando agrupados
por trimestre (primeiro trimestre, T1 – nascidos(as) em janeiro, fevereiro
e março; segundo trimestre, T2 – nascidos em abril, maio e junho; terceiro
trimestre, T3 – nascidos em julho, agosto e setembro e quarto trimestre,
T4 – outubro, novembro e dezembro) para ambos os sexos em campe-
onatos mundiais, com o uso do teste de qui-quadrado. Espera-se que a
proporção de nascimentos seja igual para cada trimestre.
As hipóteses estabelecidas para o estudo da dispersão de frequência
por trimestres de nascimento na modalidade handebol são:
2 H0 – Hipótese nula: não há discrepância entre as frequências
esperada e observada de trimestres de nascimento na modali-
dade handebol (� �obs tab
2 2� );
2 H1 – Hipótese alternativa: há discrepância entre as frequências
esperada e observada de trimestres de nascimento na modali-
dade handebol (χobs
2
> χtab
2
).
– 157 –
Estudo de Dispersão de Frequência e Análise da Concordância de Variáveis
Quantitativas e Qualitativas
Tabela 6.4 – Estatística de teste qui-quadrado e p-valores para distribuições de
trimestres de nascimento nas categorias juvenis, juniores e adultos (feminino
e masculino) da modalidade esportiva de handebol (*Indica discrepâncias
significativas com valor de p < 0,001)
Categoria (Sexo)
Trimestre e Campeonato
T1 T2 T3 T4
Adulto (Masculino) 537 491 486 401
Adulto (Feminino) 572 548 465 406
Júnior (Masculino) 349 312 258 206
Júnior (Feminino) 385 288 259 212
Juvenil (Masculino) 300 247 243 157
Juvenil (Feminino) 353 299 242 188
Fonte: https://www.ihf.info/competitions (2021).
Adulto Masc
,
,
,
,
2
2 2537 478 75
478 75
491 478 75
478 75
486 4478 75
478 75
2,
,
�
�� �
�
401 478 75
478 75
20 13
2,
,
, *
Adulto Fem
,
,
,
,
2
2 2572 497 75
497 75
548 497 75
497 75
465 4997 75
497 75
406 497 75
497 75
35 21
2 2,
,
,
,
, *
Júnior Masc
,
,
,
,
2
2 2349 497 75
497 75
312 497 75
497 75
258 4497 75
497 75
206 497 75
497 75
41 73
2 2,
,
,
,
, *
Júnior Masc
,
,
,
,
2
2 2349 281 25
281 25
312 281 25
281 25
258 2281 25
281 25
206 281 25
281 25
41 73
2 2,
,
,
,
, *
Júnior Fem
2
2 2 2385 286
286
288 286
286
259 286
286
212 286
286
55 97
2
, *
Juvenil Masc
,
,
,
,
2
2 2300 236 75
236 75
247 236 75
236 75
243 2236 75
236 75
157 236 75
236 75
44 63
2 2,
,
,
,
, *
Bioestatística
– 158 –
Juvenil Fem
,
,
,
,
,2
2 2353 270 5
270 5
299 270 5
270 5
242 270 55
270 5
188 270 5
270 5
56 33
2 2
,
,
,
, *
Figura 6.3 – Teste de qui-quadrado: software “R”
Fonte: elaborada pelo autor.
Os índices de afastamento indicam uma diferença entre as frequências
esperada e observada na distribuição de trimestres de nascimento em todas
as categorias. Para verificar se há diferenças entre trimestres, aplicam-se tes-
– 159 –
Estudo de Dispersão de Frequência e Análise da Concordância de Variáveis
Quantitativas e Qualitativas
tes de proporções 2 a 2, que não são o foco desta unidade de estudo. A partir
da aplicação desses testes verificamos se há a presença do EIR.
Na categoria juvenil, em ambos os sexos foi verificado uma maior
proporção pelos menos às margens da significância decrescente do pri-
meiro ao quarto trimestre (T1, T2, T3 e T4) (Feminino – T1 vs. T2, p = 0,049;
T1 vs. T3, p = 0,004; T1 vs. T4, p < 0,001; T2 vs. T3, p = 0,061; T2 vs.
T4, p < 0,001; T3 vs. T4, p = 0,047; e Masculino – T1 vs. T2, p = 0,07; T1
vs. T3 e T1 vs. T4, p < 0,001; T2 vs. T3, p = 0,03; T2 vs. T4, p < 0,001;
T3 vs. T4, p = 0,02).
Para a categoria Junior, a análise de proporções revelou que em
ambos os sexos o T1 foi significativamente superior à T3 e T4 (Femi-
nino e Masculino – T1 vs. T3, T1 vs. T4, p < 0,001), T2 em relação à T4
(Feminino e Masculino – T2 vs. T4, p < 0,001) e especificamente o T1
significativamente diferente ao T2 no masculino (T1 vs. T2, p < 0,001).
Porém, na categoria júnior masculina foi verificada uma proporção maior
de nascidos no T3 quando comparado ao T4 (p = 0,047) e às margens da
significância de T2 para com T4 (p = 0,06).
Na categoria adulta do sexo feminino uma maior proporção signi-
ficativa de nascidos nos três primeiros trimestres em relação ao último
trimestre (T1 vs. T4, p < 0,001, T2 vs. T4. p = 0,004; T3 vs. T4, p = 0,007).
Por outro lado, no sexo masculino foi verificada uma maior frequência de
nascidos nos dois primeiros trimestres quando comparado aos dois últimos
trimestres (T1 vs. T3, p < 0,001; T1 vs. T4, p < 0,001; T2 vs. T3, p = 0,017;
e T2 vs. T4, p < 0,001). Após as análises, de uma forma geral, nas análises
gerais foi verificado uma forte presença do EIR em todas as categorias e
em ambos os sexos. Na figura 6.3 é mostrado a aplicação do teste de qui –
quadrado no software “R”.
6.3 Limitações do uso do χ2
Nesta subseção, são abordados aspectos relacionados com as limi-
tações de uso do teste de qui-quadrado. O estudo de dispersão de frequ-
ências é realizado a partir de registros absolutos. Nesse sentido, podem
ser verificadas algumas limitações:
Bioestatística
– 160 –
a) O índice de afastamento qui-quadrado possui uma configu-
ração que impede que qualquer frequência teórica assuma o
valor zero, implicando em uma indeterminação, onde o divi-
sor seria igual a zero. Por outro lado, as frequências esperadas
muito próximas de zero superestimam o valor de χ2 e podem
ser um indicador para agrupamento de classes, compactamos
classes vizinhas adotando um critério racional, até que a soma
de frequência seja maior que 1.
b) As situações experimentais com frequências totais reduzidas,
não poderão ter suas dispersões devidamente estudadas e com-
paradas. Caso as observações de um grupo forem distribuídas
em k classes de respostas, o ideal seria obter 15*k indivíduos
para este grupo. Assim, para o valor mínimo de k = 2 devería-
mos contar com 30 indivíduos por grupo.
c) Como a distribuição dos valores de χ2 é contínua e as frequên-
cias estudadas são variáveisdiscretas, um ajuste para corrigir
pequena diferença no cálculo da área sob a curva da distribuição
pode ser efetuada, logo o teor de ajuste proposto é:
�calculado
i
linhas
j
Colunas
ij ij
ij
n E
E
2
1 1
2
0 5
�
�� �
�
� �
� �
,
A alteração proposta só diminui discretamente o valor final de χ2 e,
portanto, quando sem o ajuste do valor de χ2 não tiver sido significativo ou
então for muito maior que o tabelado, a correção de continuidade não afe-
tará a conclusão inicialmente tomada. Por outro lado, o valor significativo
de χ2 estiver próximo ao valor tabelado, seria interessante procedermos à
correção, cujo valor ajustado de χ2 seria igual a:
�calculado
i
linhas
j
Colunas
ij ij
ij
n E
E
2
1 1
2
0 5 17 21 0
�
�� �
�
� �
� �
� �
, ,55
21
25 21 0 5
21
13 9 0 5
9
5 9 0 5
9
3 888
2 2 2 2� �
�
� �� �
�
� �� �
�
� �� �
�
, , ,
,
O valor anterior do índice de afastamento era de 5,079, mostrando a
significância dos desvios observados, superior ao valor tabelado de 3,84
com 1 grau de liberdade. O valor ajustado é superior ao tabelado, confir-
mando a associação entre a fertilidade e diluente.
– 161 –
Estudo de Dispersão de Frequência e Análise da Concordância de Variáveis
Quantitativas e Qualitativas
6.4 Análise da Concordância de Variáveis
Quantitativas e Qualitativas
6.4.1 Coeficiente de Kendall
Em muitas situações temos duas ou mais variáveis (quantitativas ou
ordinais) e desejamos avaliar se existe associação entre elas. Em algu-
mas situações temos variáveis categóricas e desejamos avaliar se existe
associação entre elas. Outras vezes tem-se julgadores, juízes ou critérios
de avaliação diferentes e deseja-se avaliar se existe concordância entre
eles. Quando as variáveis são contínuas é comum o uso do coeficiente de
correlação de Pearson para avaliar se existe associação linear entre duas
variáveis, determinado intrinsicamente pelos valores dos dados amostrais
observados. Entretanto, se existe tendência de que altos valores de uma
determinada variável X se associem com valores da variável Y, então para
dois pares de observações quaisquer (xi, yi) e (xj, yj), em que i ≠ j, se xi > xj é
provável que yi > yj. Quando isso ocorre, pode se dizer que os dois pares
são concordantes. Portanto, concordância implica que as diferenças (xi, xj) e
(yj, yj) têm o mesmo sinal, ou seja, a razão: q
y y
x x
j i
j i
�
�
�
é positiva. Se a razão
“q” for negativa temos uma discordância entre os dois pares e se q for
igual a zero ou infinito, temos um “empate”.
Considerando que, numa amostra aleatória de n pares, tenha-se: nc
pares concordantes; nd pares discordantes e nt empates. Logo, o coefi-
ciente de concordância de Kendall amostral é definido por:
n n
n n n
n n
n
n n
n n
c d
c d t
c d c d
2
1
2
1
�
Para o calcular o coeficiente de Kendall, inicialmente temos que
construir os pares e avaliar quantos são concordantes, quantos são discor-
dantes e quantos tem empates como é ilustrado a seguir. Os dados a seguir
referem-se a um experimento para verificar o efeito de uma droga (X) no
crescimento de um determinado tumor. Foram usadas 7 doses diferentes
Bioestatística
– 162 –
de X e para cada dose observou-se a percentagem (Y) de animais que
desenvolveram o tumor. Os dados observados foram:
Tabela 6.5 – Efeito de uma droga no crescimento tumoral
Dose (X) 0,05 0,5 5,0 20 50 100 300
Postos (x) 1 2 3 4 5 6 7
Percentagem (Y) 1 0 4,9 44,2 30 86,5 56,9
Posto (Y) 2 1 3 5 4 7 6
R Si I
2
1 1 0 1 1 1 1
Fonte: elaborada pelo autor.
Logo, pares (x, y) concordantes:
(0,05;1) com: (5;4,9); (20;44,2); (50;30); (100;86,5); (300; 56,9)
(0,05;0) com: (5;4,9); (20;44,2); (50;30); (100;86,5); (300; 56,9)
(5;4,9) com: (20;44,2); (50;30); (100;86,5); (300;56,9)
(20;44,2) com: (100;86,5); (300;56,9)
(50;30) com: (100;86,5); (300;56,9)
Pares (x, y) discordantes:
(20;44,2) com: (50;30)
(100;86,5) com: (300;56,9)
(0,05;1) com: (0,05;0)
Sendo assim, temos 18 pares concordantes e três pares discordantes e
nenhum empate. O coeficiente de Kendall será dado por:
,n n
n n n
c d
c d t
18 3
21
0 714�
Os resultados obtidos indicam descritivamente que há associação
positiva entre a dosagem da droga e o desenvolvimento do tumor.
– 163 –
Estudo de Dispersão de Frequência e Análise da Concordância de Variáveis
Quantitativas e Qualitativas
6.4.2 Teste de Hipótese – Coeficiente
de Kendall para duas variáveis
Seja �� o coeficiente de associação populacional entre as variáveis
X e Y. Então é possível testar a hipótese nula contra as alternativas como
mostrado nos casos a seguir.
H contraH Ia0 0 0
H contraH IIa0 0 0
H contraH IIIa0 0 0
A distribuição de �� sob a hipótese nula é tabelada para alguns tama-
nhos de amostra e não depende do conhecimento das distribuições de
probabilidade das variáveis aleatórias X e Y. Para o cálculo da probabili-
dade de significância utiliza-se a distribuição exata (amostras menores e
sem empates) ou a aproximação normal (amostras grandes e/ou empates).
Nesse caso, sob a hipótese nula �� é aproximadamente normal com média
igual a zero e variância dada por:
Var
n
n n
2 2 5
9 1
�
Considerando o exemplo anterior, a probabilidade de significância
para o teste unilateral, isto é, H0 0:� � contra Ha :� � 0 é igual a:
PH0
0 714 0 015, ,�
Logo, a probabilidade de significância para o teste unilateral seria:
P P N P NH H H0 0 0
0 714 0 1 0 714
0 1005
0 1 2 25, , ,
,
, , 0 012,�
Enquanto para o teste bilateral será: p = 2*(0,012) = 0,024, valores
próximos daqueles obtidos utilizando-se a distribuição exata.
Bioestatística
– 164 –
6.4.3 Coeficiente de concordância de
Kappa (Variáveis Qualitativas)
As situações apresentadas anteriormente envolvem a classificação de
objetos com base em variáveis quantitativas. Existem situações nas quais
se trabalha com variáveis categóricas nominais ou ordinais. Nesse caso,
há a necessidade de definir os coeficientes apropriados para esses tipos de
variáveis. Como exemplo, supondo que dois cardiologistas realizaram de
forma independente 200 classificações de eletrocardiogramas como nor-
mais, com possíveis anormalidades e anormalidades bem definidas, com
resultados detalhados a seguir:
Tabela 6.6 – Classificação de eletrocardiogramas
C
ar
di
ol
og
is
ta
X
Categorias
Cardiologista Y
Normal Possível
Anormalidade
Anormalidade
Definida Total
Normal 90 30 0 120
Possível
Anormalidade 0 20 20 40
Anormalidade
Definida 10 10 20 40
Total 100 60 40 200
Fonte: elaborada pelo autor.
A tabela de resultados é um caso particular de uma tabela do tipo:
Tabela 6.7 – Resultados
Ju
iz
o
u
cr
ité
ri
o
X
Categoria
Juiz ou critério Y
1 2 ... r Total
1 n11 n12 ... n1
2 n21 n22 ... n2
... r nr1 nr2 ... nr
Total n.1 n.2 ... nr n... = n
Fonte: elaborada pelo autor.
– 165 –
Estudo de Dispersão de Frequência e Análise da Concordância de Variáveis
Quantitativas e Qualitativas
Sejam
P P X i Y j p P X i p P Y j i jIJ i j ,. . 1 22, , .r
Nesse caso, questiona-se se há concordância entre as classificações
realizadas entre os dois cardiologistas. Logo temos que:
2 H0: a concordância ou discordância entre os dois cardiologistas
é puramente aleatória;
2 H1: há concordância positiva ou discordância entre os dois car-
diologistas, ou seja, a concordância ou discordância não é pura-
mente aleatória.
Sob a hipótese nula as concordâncias que aparecem nos dados são
atribuídas ao acaso, ou seja,
p P X i Y j p pii i i. .
Logo, a proporção esperada de concordâncias ao acaso estimada
pelos dados observados é igual a:
p p
.
. .p
n
n
n
n
n n
ne
i
r
i i
i
r
i j
i
r
i j
1 1 1
2
� ��
A proporção observada de concordâncias pela tabela de dados é:
p n
ni
r
ii
0
1
�
Portanto, para testar a hipótese nula pode-se comparar os valores
de pe�, p0� . Quanto mais próximos forem esses valores mais indicação se
tem que a hipótese nula é verdadeira. Logo, a estatística ou coeficiente de
Kappa para concordância em análises qualitativas é dado por:
K pp
p
e
e
0
1
� �
�
�
O Coeficiente de Kappa (K�) pode assumir valores entre �
�
�
�
��
�
�
��
p
p
e
e
1
até 1.
Quanto mais próximo de 1 maior a indicação de concordância positiva
Bioestatística
– 166 –
entre avaliadores ou critérios. Inversamente, quando o coeficiente se
encontra mais próximo de �
�
�
�
��
�
�
��
p
p
e
e
1
de discordância entre avaliadores ou
critérios estabelecidos, quanto mais próximo de zero maior a indicação
que a concordância ou discordância é puramente aleatória ou ao acaso.
Adicionalmente, a variância do coeficiente de Kappa é dada por:
k
e
e e
i
r
i i i i
n p
p p p p p p2 2
1
1
1 �
. . . .
� � �� � �
E sob a hipótese nula a estatística
Z K
K
��
�
tem distribuição aproximada
normal com média zero e variância igual a 1.
,pe
120
200
100
200
40
200
60
200
40
200
40
200
0 40�
,po
90
200
20
200
20
200
0 65�
, ,
,
,K p p
p
e
e
0
1
0 65 0 40
1 0 40
0 417
� �
�
�
k
e
e e
i
r
i i i i
n p
p p p p p p2 2
1
1
1
1
200 1� . . . . 0 4
0 4 0 4 120
200
100
200
120 100
200
40 60
2002
2
,
, , . .
..
.
.
,
200
100
200
40 40
200 200
80
200
0 00225� � �� � �
Z K
K
,
,
,�
0 417
0 05
8 34
�
Logo, é significativo ao nível de 5%, concluindo-se que existe con-
cordância entre os dois cardiologistas para as classificações realizadas nos
eletrocardiogramas.
Neste capítulo, o leitor foi apresentado a conceitos relacionados ao
estudo de dispersão de frequência e coeficiente para análise de concor-
dância entre duas variáveis de ordem quantitativa e qualitativa. A partir
disso, o usuário amplia seus conhecimentos buscando novos exemplos
aplicados à sua área de atuação.
– 167 –
Estudo de Dispersão de Frequência e Análise da Concordância de Variáveis
Quantitativas e Qualitativas
Atividades
1. Dados retrospectivos de casos de tumor testicular em cães exa-
minados no atendimento gratuito à comunidade pelo Hospital
Veterinário da UFMG nos últimos dez anos (344 animais com
problemas testiculares) revelaram, quando se consideravam
algumas faixas etárias, o seguinte resultado:
Faixa etária Amostragem Animais com tumor
Até 3 anos 82 6
De 3 a 6 anos 63 9
De 6 a 9 anos 50 7
De 9 a 12 anos 70 23
De 12 a 15 anos 45 25
De 15 a 18 anos 34 24
Identifique a resposta medida nessa pesquisa e a classifique
quanto à categoria e faça a análise do ensaio.
2. Para saber se a frequência de tumor está associada com a idade
do animal, você deverá fazer uma hipótese nula. Qual é ela e
porque temos que partir da mesma para analisarmos os dados?
3. Se não houvesse associação entre idade e frequência de tumor
em cães, quantos animais entre 3 e 6 anos deveriam apresen-
tar aquela patogenia?
4. Um apicultor percebeu que toda vez que capturava um novo
enxame e o instalava diretamente no núcleo de produção de sua
granja, havia uma grande chance dessa nova colmeia não se conso-
lidar por motivos desconhecidos, mas que ele imaginava que fosse
devido à competição acirrada com as demais colônias dos núcleos.
Assim sendo, ele decidiu instalar em uma área isolada daquela
primeira um núcleo que chamou de núcleo de colonização, onde
apenas novos enxames capturados eram instalados, lá permane-
cendo até que estivessem plenamente, quando eram então transfe-
ridos para o núcleo de produção. Com este manejo ele alegou que
conseguia muito mais consolidação de colmeias naquele núcleo.
Bioestatística
– 168 –
De 45 enxames que passaram pelo núcleo de colonização e foram
posteriormente transferidos para a produção, 8 não lograram se
desenvolver plenamente. Entretanto, dos 55 novos enxames colo-
cados diretamente no núcleo de produção, 33 conseguiram se con-
solidar e entrar em fase produtiva. Pelos resultados obtidos. O que
você recomendaria a um apicultor a procura de um meio mais
efetivo de implantar uma colmeia produtiva?
5. Um estudante do curso de graduação em medicina veteriná-
ria, pretendendo montar um negócio alternativo para renda
extra durante seu curso, montou um experimento para avaliar
a fecundidade de três diferentes grupos de coloração de caná-
rios. O preço de mercado é mais alto para variantes de coloração
recessiva de maior dificuldade em se obter a partir de cruzamen-
tos específicos. O objetivo do estudante é direcionar a criação
para variedades mais prolíferas e de maior preço para venda.
Os dados da tabela abaixo apresentam os diferentes resultados
obtidos entre as diferentes colorações.
Distribuição de ovos fertilizados ou não entre diferentes
colorações de plumagem em canários.
Coloração Mutante Ovos férteis Ovos inférteis Total Ovos férteis [%]
Branco (Recessivo – bb) 515 1287 1802 28,6
Amarelo Nevado
(Dominante – Ab) 506 665 1171 43,2
Amarelo Intenso
(Dominante – AA) 58 70 128 45,3
Vermelho Intenso
(Dominante – VV) 205 93 298 68,8
Total 1284 2115 3399
Em caso de haver distinção entre as colorações quanto à prolifi-
cidade calcule se há diferença entre aves de coloração recessivas
e aves de coloração dominantes.
6. Em um determinado experimento farmacológico, foram obser-
vados o consumo de oxigênio e a pressão do ventrículo esquerdo
de um grupo de 7 cães (grupo controle).
– 169 –
Estudo de Dispersão de Frequência e Análise da Concordância de Variáveis
Quantitativas e Qualitativas
Cão 1 2 3 4 5 6 7
Consumo de oxigênio (X) 78 92 116 90 106 78 99
Pressão ventricular (Y) 32 33 45 30 38 24 44
Logo, calcule determine os coeficientes de Spearman e Kendall.
7. Duzentos e dez (210) empregados de uma empresa foram ava-
liados de acordo com dois critérios distintos. O critério A refere-
-se a nota que foi dada ao empregado pelo seu supervisor ime-
diato. Maiores notas indicavam melhor desempenho. O critério
B refere-se a nota que o empregado obteve num teste de aptidão
profissional aplicado por um psicólogo. Maiores escores nesse
teste indicavam maior aptidão do empregado para a função que
estava desempenhando na empresa. As notas de ambos os cri-
térios foram categorizadas e cada empregado foi então classifi-
cado em uma de três categorias de desempenho: Bom, Adequado
e Inadequado. Os resultados estão mostrados no Quadro 6.1.
O objetivo é avaliar se existe concordância entre os resultados
de classificação desses dois critérios de avaliação.
Quadro 6.1 – Classificação dos empregados de acordo com os dois critérios de avaliação
CRITÉRIO
Critério B
Total
Bom Adequado Inadequado
Critério A
Bom 45 36 15 96
Adequado 18 37 14 69
Inadequado 6 13 26 45
Total 69 86 55 210
Usando o coeficiente Kappa, avalie se há ou não concordância
significativa entre os resultados obtidos pelos dois critérios.
Escreva claramente suas hipóteses nula e alternativa e calcule a
probabilidade de significância do teste em ambiente R.
8. Considerando-se que os empregados dessa empresa são rotinei-
ramente avaliados pelo critério A, de acordo com os resultados
obtidos por você em (a) e (b), você indicaria a troca do critério
Bioestatística
– 170 –
A pelo critério B para ser usado como um recurso rotineiro
de avaliação dos empregados dessa empresa? Justifique clara-
mente sua resposta.
9. Dez estudantes recém-formados em bioestatística prestaram
um exame geral na área em que se graduaram. O procedi-
mento adotado de atribuição de nota final ao exame foi o
seguinte: Todos os exames foram corrigidos por 2 profes-
sores, de forma independente, da área de Estatística. Cada
professor fez a classificação dos estudantes que prestaram
o exame, sendo que na classificação 1 representa o melhor
escore (ou o melhor resultado) e o rank 10 o pior resultado.
As classificações obtidas estão dadas a seguir:
Classificação
Estudante
1 2 3 4 5 6 7 8 9 10
Professor 1 5 3 8 9 2 7 6 1 4 10
Professor 2 7 4 6 2 3 9 8 5 1 10
Há alguma evidência de que há concordância de julgamento
entre os dois professores?
10. Oito indivíduos fizeram duas provas: (1) língua portuguesa –
compreensão de textos, e, (2) habilidade matemática. As notas
obtidas pelos estudantes estão na tabela a seguir.Verifique se
a há concordância entre os resultados dos testes. Verifique se
um estudante que tem uma nota boa em compreensão de textos
teria também uma boa nota em habilidade matemática.
Provas
Estudante
1 2 3 4 5 6 7 8
Habilidade matemática 90 60 45 48 58 72 25 85
Compreensão de textos 60 91 85 81 90 76 93 80
7
Análise de variância
7.1 Princípios de experimentação
O planejamento de experimentos é uma área da estatística
muito empregada por pesquisadores, pois por meio da sua exe-
cução as variáveis de maior influência no desempenho de um
determinado cenário ou processo podem ser conhecidas/testa-
das. Neste caso, a análise de variância (“Analysis of Variance
– ANOVA”) deve ser empregada/construída de acordo com os
princípios básicos de planejamento de experimentos.
Bioestatística
– 172 –
Neste campo, as variáveis explicativas qualitativas são denominadas
“fatores”, e suas categorias “níveis”, “tratamentos” ou “grupos”. Caso a
variável explicativa seja de ordem quantitativa, possuindo interferência
direta sobre a variável resposta, é denominada “covariável”. Os parâme-
tros são frequentemente chamados de efeitos; logo, existem modelos de
efeitos fixos, aleatórios e mistos. Conforme o tipo de desenho experi-
mental, propõe-se um modelo composto por parâmetros fixos, aleatórios
e mistos, por meio da análise de variância. A classificação dos efeitos é
determinada pelos níveis dos fatores. Caso os níveis do fator apresentem-
-se como fixos (Ex.: fator tratamento – níveis controle e tratamento; perí-
odo de testagem – pré e pós-tratamento), o efeito denomina-se “fixo”, uma
vez que as conclusões obtidas serão aplicadas somente aos níveis detalha-
dos; logo, temos uma análise de modelos fixos. Por outro lado, podería-
mos escolher “n” níveis aleatoriamente e de forma independente de uma
população “N”; logo, as conclusões obtidas podem ser estendidas para
toda a população, e temos que o efeito é aleatório (Ex.: Fator – Laborató-
rio, Níveis – 10 laboratórios). Neste capítulo, nos concentraremos apenas
na análise de modelos fixos.
Dentre os princípios básicos do processo experimental, destacam-se:
(1) replicação de unidades experimentais; (2) aleatoriedade de unidades
experimentais; (3) blocagem de unidades experimentais; (4) uniformidade
das unidades experimentais; (5) uniformidade na aplicação de tratamen-
tos; e (6) uniformidade do meio. A replicação em experimentação possui
importância para a estimativa do erro experimental, fundamental à veri-
ficação de se as diferenças observadas são de fato significativas. Além
disso, este comportamento permite a obtenção de uma estimativa mais
precisa para o fator experimental estudado. Adicionalmente, os métodos
empregados requerem que os erros experimentais constituam-se em vari-
áveis aleatórias distribuídas independentemente, bem como a condução
experimental realizada por meio de réplicas, obtidas aleatoriamente para
garantir a distribuição igual dos fatores que interferem sobre as análises.
Para aumentar a precisão dos experimentos, os pesquisadores costumam
planejar os experimentos em blocos, um recurso muito importante. Em
alguns cenários, pode-se controlar e avaliar um fator conhecido que inter-
fere sobre a resposta estudada, mas que não se tem interesse em estudar.
– 173 –
Análise de variância
Adicionalmente, previamente à aplicação de tratamentos, tem-se a neces-
sidade de uniformidade ou homogeneidade das características das unida-
des experimentais (seres humanos ou animais) na composição amostral,
a garantia de exposição igual aos tratamentos e a uniformidade de condi-
ções do meio durante a aplicação dos tratamentos.
No planejamento experimental é fundamental a busca pela confiabi-
lidade dos resultados. Logo, antes de conduzir os experimentos, os obje-
tivos e os critérios devem estar claramente definidos. Nesse sentido, é
necessário definir:
2 qual a variável resposta a ser estudada;
2 quais variáveis envolvidas e que interferem no experimento;
2 quais os níveis das variáveis selecionadas para o estudo;
2 qual o tamanho amostral;
2 se há vantagem em realizar o procedimento de blocagem;
2 qual método de análise dos resultados será empregado.
Anteriormente, foi relatado que a variância é fundamental para alcan-
çarmos os objetivos da maioria das investigações científicas (testagem de
hipóteses). Os experimentos perfazem fatores variados que nem sempre
são controlados em sua plenitude, além de situações experimentais testa-
das, oscilações de idade da amostra, sexo, temporalidade, ou ainda instala-
ções sendo incorporadas no cálculo da variância. A seguir, são mostrados
alguns exemplos de aplicação da análise de variância.
7.2 Delineamento inteiramente ao
acaso – análise de variância
7.2.1 Experimentos com um único fator
A análise de variância para fator único é a técnica utilizada quando
a única variável explicativa é categórica, para quaisquer quantidades de
níveis (Ex.: Tratamento A, B, C e D). Para um único fator, como visto
Bioestatística
– 174 –
anteriormente, o emprego do teste “t” de Student forneceria a mesma res-
posta que a observada por meio da análise de variância. O modelo da
análise de variância é mostrado a seguir:
y
i a níveis
j n repetiçõesij i ij
= + +
= ( )
= ( )
µ τ ε ��
, ,�.. �
, ,.. �
1 2
1 2
Sendo que:
2 µ – parâmetro comum para todos os níveis chamados de
média geral;
2 t
i – parâmetro original do i-ésimo nível do fator (efeito de cada
nível), chamado de efeito do i-ésimo nível;
2 e
ij – erro aleatório, que incorpora todas as fontes de variabili-
dade incluindo o erro de medição, variabilidades decorrentes a
fatores não controlados e diferenças entre unidades experimen-
tais em geral.
Logo, as hipóteses são:
2 H0: t t t
1 2
0= =…= =
�
�
a (não há diferença entre tratamentos)
2 H0: ti
¹ 0 (há diferença para pelo menos um dos tratamentos)
Entretanto, para a condução da análise de variância, as suposições
de presença de uma distribuição normal de probabilidade, normalidade e
homoscedasticidade devem ser testadas e verificadas. Em linhas gerais,
a homoscedasticidade atesta que a oscilação da variável resposta não
depende dos tratamentos impostos, em que a hipótese nula sugere que as
variâncias dos mesmos tratamentos são iguais, como o teste de Bartlett.
Por regra, a não verificação destas suposições teóricas não permite a con-
dução da análise de variância. Os erros são independentemente distribu-
ídos com média zero e variância s2, o que implica que cada observação
deve ser mutuamente independente e y N
ij I
~ ,µ τ σ+( )2 .
Em síntese, a análise de variância estuda como os graus de liberdade
e a soma dos quadrados totais de todos os resultados em um determi-
nado estudo estão distribuídos entre todas as fontes de variação existentes,
– 175 –
Análise de variância
sobre a resposta analisada. Em geral, os experimentos testam hipóteses
sobre os valores médios de uma determinada resposta nos tratamentos.
Para este caso, a variabilidade total é particionada em fonte de variação de
tratamentos e termo do erro, conforme esquematizado a seguir:
��������� ������������ �SQ SQ SQ Equação
TOTAL TRATAMENTOS ERRO
= − 1
Após o cômputo da soma dos quadrados para cada fonte de variação,
seguida da obtenção da relação entre a respectivas somas de quadrados e
o número de graus de liberdade da fonte de variação particionada, subse-
quentemente, a estatística “F” é obtida por meio da divisão entre a variân-
cia de tratamentos e a variância do erro (razão de variâncias, fórmula 7). A
partir do escore “F”, é determinado se há ou não diferença entre tratamentos
por meio dos valores da distribuição de valores de “F” segundo os graus de
liberdade. A seguir, a tabela de análise de variância é mostrada para apenas
um fator (tabela 7.1, onde “k” é o número de tratamentos do fator; “n” o
tamanho amostral total; “ri” o número de réplicas do respectivo nível “i”;
“Ti” réplicas do nível “i”; e “xi” cadaelemento amostral “i”).
Tabela 7.1 – Tabela de análise de variância
Fonte de
variação GL Soma dos quadrados Variância Estatística
“F”
Total n-1 SQ x
x
nT i
i= ∑ −
∑( )2
2
-
F
MQT
MQE
=Tratamentos k-1 SQ
T
r
x
nTRAT
I
i
i=
∑
−
∑( )2
2
MQT
SQ Trat
k
=
( )
−1
Erro n-k SQ SQ SQ
ERRO T TRAT
= − MQE
SQ Erro
N k
=
( )
−
Fonte: elaborada pelo autor.
Razão de variâncias:
������������� �������������� �F
MQT
MQE
Equação= 2
Hipóteses para a estatística “F”:
Bioestatística
– 176 –
2 H0: Média1= Média 2= Média3= Médiak;
2 H1: Há pelo menos uma das médias diferente entre si.
Para conduzir as análises no software “R”, deve-se usar o comando
“aov()”, como realizado na figura 7.1. Note que não é apresentado o soma-
tório dos quadrados total. Ao recuperar o exemplo da variável resposta
“idade” e explicativa de “tipo de infertilidade”, a partir dos comandos a
seguir, consegue-se toda a tabela de análise de variância calculada, inclu-
sive o p-valor do teste e sua respectiva estatística de teste. Como o p-valor
é igual a 0,006, há evidências para rejeitar H0; logo, existe pelo menos
uma diferença entre os níveis do fator (tipo de infertilidade).
Para identificar quais são os níveis que se diferem, sucede-se algum
teste que permita comparação par a par. Existem diversos testes de com-
parações múltiplas, mas será utilizado nesse exemplo o teste de Tukey.
O teste de Tukey é o mais utilizado entre os diversos testes que estão dis-
poníveis. O comando para executá-lo é mostrado também a seguir.
Figura 7.1 – Análise de variância e teste de comparações múltiplas de médias
(ambiente “R”)
Fonte: elaborada pelo autor.
Com as comparações múltiplas, pode-se notar que a idade das pacien-
tes do tipo I de infertilidade é significativamente diferente dos tipos II,
sem diferenças entre os tipos de infertilidade, sendo as pacientes que apre-
sentaram o tipo I de infertilidade em média 3,57 anos mais jovens que as
pacientes que apresentaram o tipo II de infertilidade.
– 177 –
Análise de variância
Exemplo 1. Com o objetivo de estudar o efeito de seis concentrações
de um determinado componente semelhante ao algodão sobre a resistência à
tensão de um tecido de natureza sintética, foram coletadas seis réplicas para
cada uma das seis concentrações do componente semelhante ao algodão.
Os dados são apresentados a seguir, na tabela 7.2. Já a figura 7.2 mostra a
resistência para cada uma das concentrações, onde visualmente é verificada
uma maior resistência para a concentração do componente em 30%.
Figura 7.2 – Resistência à tensão para as respectivas concentrações de um componente
semelhante ao algodão no tecido sintético
Fonte: elaborada pelo autor.
Previamente à condução das análises para testar a hipótese da exis-
tência de diferenças entre níveis de concentração do componente para a
resistência à tensão, é necessário a verificação das suposições de homoge-
neidade de variâncias e normalidade (figura 7.3).
Tabela 7.2 – Resistência à tensão para as concentrações de um componente semelhante
ao algodão
Concentração [%]
Réplicas
1 2 3 4 5 6
15 7 7 15 11 9 12
Bioestatística
– 178 –
Concentração [%]
Réplicas
1 2 3 4 5 6
20 12 17 12 18 18 17
25 14 18 18 19 19 18
30 19 25 22 19 23 25
35 7 10 11 15 11 15
40 8 11 11 12 11 14
Fonte: elaborada pelo autor.
Figura 7.3 – Testagem das suposições de normalidade e homoscedasticidade
Fonte: elaborada pelo autor.
Para testar a normalidade e homogeneidade, foram empregados res-
pectivamente os testes de Shapiro-Wilk e Bartlett. Após os testes, veri-
ficou-se que a variável resposta possuía uma distribuição normal (não
rejeição da hipótese nula) e homogeneidade entre as variâncias entre
tratamentos (não rejeição da hipótese nula). A figura 7.3 mostra os resul-
tados obtidos. Após a verificação dos pressupostos, sucede-se a análise
de variância (Figura 7.4).
– 179 –
Análise de variância
Figura 7.4 – Análise de variância: delineamento inteiramente ao acaso (fator único)
Fonte: elaborada pelo autor.
Os resultados obtidos na análise de variância mostraram a existên-
cia de diferenças entre tratamentos, evidenciados pela estatística “F”
(F5,30=18,59; p<0,001). Logo, manifesta-se a necessidade de testes de
comparações múltiplas para evidenciar entre quais concentrações de
algodão ocorrem diferenças. Após o teste de comparações múltiplas,
verificou-se uma menor resistência para uma concentração de 15% de
algodão em relação às concentrações de 20%, 25% e 30% de algodão
(p<0,05), da concentração de 20% de algodão em relação à concentra-
ção de 30% de algodão (p<0,05), da concentração de 25% em relação
às concentrações de 35% e 40% (p<0,05) e da concentração de 30% em
relação às concentrações de 35% e 40% (p<0,05).
Figura 7.5 – Testes para comparações múltiplas de Tukey
Fonte: elaborada pelo autor.
Bioestatística
– 180 –
7.2.2 Delineamento de blocos ao acaso
Para alguns cenários experimentais, a variabilidade proveniente de
fatores não conhecidos ou não controláveis pode afetar substancialmente
os resultados obtidos na execução dos experimentos. A casualização ou
aleatorização é uma técnica experimental que protege os resultados desse
inconveniente. Em muitos cenários experimentais, é possível diminuir a
variabilidade explicada pelo erro. Caso a fonte de variação seja conhecida
e controlável, pode-se utilizar blocagem. Com este recurso, a blocagem
permite distribuir a fonte de variação a ser controlada igualmente entre os
tratamentos, diminuindo assim a variância do erro.
Para exemplificar a técnica de blocagem, consideremos o caso em que
temos como objetivo medir a atividade eletromiográfica que é influenciada
por características individuais (percentual de gordura corporal, arquitetura
muscular, nível de condicionamento físico, espessura da pele, estado de
hidratação etc.). No estudo da atividade muscular em humanos participan-
tes de diferentes protocolos de treinamento, a blocagem dos indivíduos
permitirá distribuir igualmente as fontes de variação influentes sobre a
resposta medida. Se temos 20 indivíduos submetidos a diferentes regimes
de treinamento (A, B e C) em ordem aleatória, neste caso conduziremos
um exemplo de experimento com blocos completamente aleatorizados,
em que o indivíduo é o bloco, onde cada unidade experimental passa por
todas as situações experimentais (tratamentos), controlando possíveis
interferências da amostra nos resultados. A seguir, apresenta-se modelo
para a análise de variância em blocos completamente aleatorizados:
y
i a níveis
j b blocosij i J ij
= + + +
= ( )
= ( )
µ τ β ε ��
, ,�.. �
, ,.. �
1 2
1 2
� �Equação3
Sendo que:
2 µ – parâmetro comum para todos os níveis chamados de média geral;
2 t
i – parâmetro original do i-ésimo nível do fator (efeito de cada
nível), chamado de efeito do i-ésimo nível;
2 b
J – efeito do j-ésimo bloco;
– 181 –
Análise de variância
2 e
ij – erro aleatório, que incorpora todas as fontes de variabi-
lidade incluindo o erro de medição, variabilidades decorrentes
de fatores não controlados e diferenças entre unidades bj
¹ 0
experimentais em geral.
Hipóteses:
Efeitos dos níveis do fator:
2 H0: t t t
1 2
0= =…= =
�
�
a (não há diferença entre tratamentos);
2 H1: ti
¹ 0 (há diferença para pelo menos um dos tratamentos).
Efeitos dos blocos (os blocos devem ser testados, pois não é neces-
sário continuar com a blocagem nos próximos experimentos se não forem
significativos):
2 H0: bj
= 0 (ausência de diferença entre blocos);
2 H1: (há diferença para pelo menos um dos blocos).
Logo, supõe-se que os erros assumem o pressuposto de normalidade;
os erros são independentemente distribuídos com média zero e variân-
cia (s2 ) constante. A análise de variância, por definição, é o estudo da
variação, derivada da partição da variabilidade total em componentes de
variabilidade, e pode ser medida pela soma dos quadrados totais. A parti-
ção da variabilidade total (SQT ) é a soma da variabilidadedentro de cada
nível do fator (SQ
Trat
) com a variabilidade contida nos blocos (SQ
bloco
) e a
variabilidade no erro aleatório (SQ
erro
):
��������� ��������SQ SQ SQ SQ Equa
TOTAL TRATAMENTOS BLOCOS ERRO
= + + çção�4
Tabela 7.3 – Tabela de análise de variância em blocos casualizados
Fonte de
variação GL Soma dos quadrados Variância Estatística
“F”
Total n-1 SQ x
x
nT i
i= ∑ −
∑( )2
2
- -
Bioestatística
– 182 –
Fonte de
variação GL Soma dos quadrados Variância Estatística
“F”
Tratamentos k-1 SQ
T
r
x
nTrat
I
i
i=
∑
−
∑( )2
2
MQT
SQ Trat
k
=
( )
−1
MQT
MQE
Blocos b-1 SQ a y y
Bloco
i
b
j
= −( )
=
∑
1
2
MQB
SQ Bloco
b
=
( )
−1
MQB
MQE
Erro n-k SQ SQ SQ
ERRO T TRAT
= − MQE
SQ Erro
N k
=
( )
−
-
Fonte: elaborada pelo autor.
2 A hipótese nula (H0) é rejeitada para tratamentos se F0 > Fa-1, (a-1) (b-1);
2 A hipótese nula (H0) é rejeitada para os blocos se F0 > Fb-1, (a-1) (b-1).
Após a devida a apresentação, é conduzido um exemplo a seguir em
ambiente “R” por meio de uma análise de variância em blocos ao acaso.
Neste exemplo, queremos estudar o que ocorre durante o emprego de
um regime de treinamento com a utilização de vibração. Considerando
que o indivíduo afeta as respostas de atividade eletromiográfica e de
força muscular, como decisão experimental, um grupo de pesquisadores
decidiu estabelecer o indivíduo como “bloco”, para melhorar a precisão
experimental. Neste estudo, foram recrutados 15 indivíduos que reali-
zaram três regimes de treinamento em dias diferentes: (A) realização
de ações musculares sem vibração – Controle; (B) condução de ações
musculares com vibração com intensidade I (3 milímetros e 20 Hz) –
SVA e (C) condução de ações musculares com vibração de intensidade II
(5 milímetros e 20Hz). A ordem de aplicação dos tratamentos foi aleato-
rizada e foram quantificadas a taxa de produção de força (TPF), o valor
máximo de força alcançado (Fpico), a taxa de elevação da atividade ele-
tromiográfica (TEMG) e o pico de atividade eletromiográfica (EMG-
pico) para estudar os efeitos dos regimes de treinamento. Os dados cole-
tados são apresentados a seguir:
– 183 –
Análise de variância
Tabela 7.4 – Dados de atividade eletromiográfica e força muscular obtidos durante
os tratamentos
Tratamento Bloco EMGpico [%) TEMG [%/s] Fpico [N] TPF [N/s]
Controle Ind01 74,97 183,85 170,93 412,67
Controle Ind02 90,00 194,44 205,14 798,70
Controle Ind03 80,72 114,46 176,09 596,55
Controle Ind04 99,97 161,75 144,20 569,80
Controle Ind05 114,46 172,71 201,22 720,52
Controle Ind06 79,19 165,48 165,30 496,67
Controle Ind07 77,28 142,92 190,50 392,51
Controle Ind08 84,77 246,37 142,19 636,96
Controle Ind09 140,82 385,20 159,26 638,00
Controle Ind10 127,34 150,87 176,64 700,60
Controle Ind11 83,89 235,88 200,79 820,74
Controle Ind12 98,22 153,80 178,20 695,23
Controle Ind13 89,34 261,70 185,73 708,66
Controle Ind14 100,76 365,67 176,39 819,16
Controle Ind15 92,58 171,86 174,94 524,30
SVA Ind01 137,38 473,25 203,50 1217,29
SVA Ind02 78,15 275,42 211,16 1026,12
SVA Ind03 85,47 224,61 177,54 596,42
SVA Ind04 90,55 223,38 136,45 549,33
SVA Ind05 87,97 233,88 204,43 732,68
SVA Ind06 106,75 781,08 184,30 1342,63
SVA Ind07 77,29 126,15 165,64 400,48
SVA Ind08 114,22 344,29 169,09 750,01
SVA Ind09 108,45 301,77 179,74 720,05
Bioestatística
– 184 –
Tratamento Bloco EMGpico [%) TEMG [%/s] Fpico [N] TPF [N/s]
SVA Ind10 100,93 128,45 181,52 709,87
SVA Ind11 71,03 255,80 221,39 1088,37
SVA Ind12 68,49 165,28 183,37 773,27
SVA Ind13 160,40 734,20 198,92 988,72
SVA Ind14 107,53 683,69 203,89 1123,98
SVA Ind15 69,21 272,39 179,33 743,88
SVB Ind01 139,48 576,07 214,54 1242,50
SVB Ind02 81,73 198,69 216,84 746,43
SVB Ind03 70,89 161,46 193,72 778,27
SVB Ind04 143,02 463,41 143,58 703,43
SVB Ind05 80,17 467,06 228,65 727,24
SVB Ind06 92,20 344,17 185,15 1108,82
SVB Ind07 86,85 215,34 195,17 561,34
SVB Ind08 110,83 395,37 161,76 793,20
SVB Ind09 69,83 160,32 160,96 478,62
SVB Ind10 108,38 243,26 193,89 764,99
SVB Ind11 111,43 262,67 200,34 841,93
SVB Ind12 127,01 124,05 191,21 802,75
SVB Ind13 113,42 490,77 169,87 660,06
SVB Ind14 100,29 455,06 177,09 1608,11
SVB Ind15 116,04 473,26 173,92 876,64
Fonte: elaborada pelo autor.
Aparentemente, conforme os gráficos boxplot, verificam-se valores
maiores para os tratamentos com vibrações mecânicas, para as variá-
veis estudadas. Para construirmos o exemplo em ambiente “R”, os dados
foram colocados em formato de quadro de dados (dataframe) e importa-
dos; logo, temos que:
– 185 –
Análise de variância
Figura 7.6 – Importação e exploração dos dados de atividade eletromiográfica e força
Fonte: elaborada pelo autor.
Bioestatística
– 186 –
Para todas as variáveis estudadas, foram verificados os pressupostos de
normalidade e homogeneidade de variâncias (figura 7.7). Entretanto, deve
ser ressaltado que um recurso foi empregado para respeitar tais pressupos-
tos. Muitas vezes, a variável resposta estudada viola estes pressupostos em
um primeiro momento, porém, com a aplicação de logaritmo (“log()”), a
escala da variável estudada é alterada (diminuída), possibilitando a verifi-
cação dos pressupostos de normalidade e homoscedasticidade (não viola-se
hipótese nula) e a respectiva utilização da técnica de análise de variância.
Figura 7.7 – Testagem das suposições de normalidade e homoscedasticidade para as
variáveis estudadas
– 187 –
Análise de variância
Fonte: elaborada pelo autor.
Figura 7.8 – Análise de variância: delineamento em blocos ao acaso (fator único –
tratamentos) para as variáveis estudadas
Fonte: elaborada pelo autor.
Após a aplicação da análise de variância, verificou-se efeito de tra-
tamento para TPF (F2,28=6,647, p=0,004), Fpico (F2,28=4,259, p=0,024)
Bioestatística
– 188 –
e TEMG (F2,28=6,732, p=0,004). Porém, não houve efeito de tratamento
para EMGpico (F2,28=0,466, p=0,633). Logo, manifesta-se a necessidade
da realização de testes de comparações múltiplas para verificação de onde
encontram-se tais efeitos do referido regime de treinamento.
Figura 7.9 – Testes para comparações múltiplas de Tukey para as variáveis estudadas
Fonte: elaborada pelo autor.
Após a condução dos testes de comparações múltiplas, verificou-se que
os protocolos de treinamento com adição de vibrações de intensidade I (SVA)
e II (SVB) possuem diferenças significativas para com o tratamento controle
(sem vibrações), para as variáveis TPF (SVA vs. Controle, p=0,01; SVB vs.
Controle, p=0,01), Fpico (SVA vs. Controle, p=0,05; SVB vs. Controle, p=0,03)
e TEMG (SVA vs. Controle, p=0,011; SVB vs. Controle, p=0,008). Nesse sen-
tido, é possível concluir que a adição de vibrações mecânicas ao treinamento de
força aumentou o desempenho físico significativamente durante as sessões, de
forma independente aos parâmetros de vibração adotados, ou seja, não foram
verificadas alterações entre regimes de treinamento com vibrações.
7.2.3 Experimentos fatoriais
Os experimentos fatoriais envolvem pelo menos dois fatores: o fator
A, com “i” níveis (i=1, 2, ..., a), e o fator B, com “j” níveis (j=1, 2, ..., b)
– 189 –
Análise de variância
para k repetições (k=1, 2, ..., n). Neste tipo de experimento, pode-se estu-
dar o efeito da interação entre os fatores sobre a variável resposta, em que
a ordem das observações é aleatória. Logo, temos o modelo para este tipo
de experimento delineado inteiramente ao acaso:
���������� ������������� �y a Equação
ij i J ij ij
= + + +( ) +µ τ τα ε 5
Sendo que:
2 µ – parâmetro comum para todos os níveis chamados de média geral;
2 t
i – parâmetro original do i-ésimo nível do fator A, denominado
efeito do i-ésimo nível A;
2 a
J – parâmetro original do j-ésimo nível do fator B, denominado
efeito do i-ésimo nível B;
2 τα( )
ij – constitui-se no efeito da interação entre os fatores A e B.
2 e
ij – erro aleatório, que incorpora todas as fontes de variabili-
dade, incluindo o erro de medição, variabilidadesdecorrentes de
fatores não controlados.
Hipóteses:
Efeitos dos níveis do fator A:
2 H0: t t t
1 2
0= =…= =
�
�
a (não há diferença para pelo menos um
nível do fator A);
2 H1: ti
¹ 0 (há diferença para pelo menos um nível do fator A).
Efeitos dos níveis do fator B:
2 H0: a a a
J1 2
0= =…= =� (não há diferença para pelo menos um
nível do fator B);
2 H1: aJ ¹ 0 (há diferença para pelo menos um nível do fator B).
Testa-se o efeito da interação entre os fatores A e B:
2 H0: τα( ) =
ij
� 0 (não há interação entre os dois fatores estudados);
Bioestatística
– 190 –
2 H1: τα( ) ≠
ij
0 (há interação entre os fatores A e fator B).
Novamente, supõe-se que os erros assumem os pressupostos: (1)
normalidade, (2) os erros são independentemente distribuídos com média
zero e variância constante, e (3) as observações são independentes e nor-
malmente distribuídas. Conforme destacado, a análise de variância deriva
da partição da variabilidade total em componentes de variabilidade e pode
ser medida pela soma dos quadrados totais (SQ
T
). Logo, temos na decom-
posição da variabilidade total em: variabilidade do fator A (SQ
A
), variabi-
lidade do fator B (SQ
B
), variabilidade da interação entre os fatores (SQ
AB
)
e variabilidade no erro aleatório (SQ
ERRO
), conforme sintetizado a seguir:
��������� �������� �SQ SQ SQ SQ SQ Equação
TOTAL A B AB ERRO
= + + + 6
Assim, desdobrando os cálculos, tem-se a tabela 7.5 a seguir (“k” – o
número de tratamentos; “n” o tamanho amostral total; “ri” número de repe-
tições do nível “i”; “yi” repetições do nível “i”; e “yi” cada elemento “i”
amostral), para experimentos de interação entre fatores.
Tabela 7.5 – Tabela de análise de variância com interação de fatores experimentais
Fonte de
variação
Graus de
liberdade Soma dos quadrados Variância “F”
Total n-1 SQ y y
T
i
a
j
n
ijk
= −( )
= =
…∑∑
1 1
2
- -
Fator A a-1 SQ bn y y
A
i
a
i
= −( )
=
… …∑
1
2 SQ
a
A
-1
MQ
MQE
A
Fator B b-1 SQ an y y
B
i
b
i
= −( )
=
… …∑
1
2 SQ
b
B
-1
MQ
MQE
B
Interação (a-1)(b-1) SQ y y y y
AB
i
a
j
n
ij I j
= − − −( )
= =
∑∑
1 1
2
.. . . ...
SQ
a b
AB
−( ) −( )1 1
MQ
MQE
AB
Erro abn-1
SQ
ERRO
=
SQ SQ SQ SQ
T B B AB
- - -
SQ Erro
ab n
( )
−( )1 -
Fonte: elaborada pelo autor.
– 191 –
Análise de variância
Após a devida apresentação conceitual, um exemplo no software R é
conduzido a seguir. Neste exemplo, temos que um engenheiro está proje-
tando baterias para utilizar em dispositivos que serão expostos a tempera-
turas extremas. O profissional possui três tipos diferentes de materiais para
construção das baterias para alimentação dos dispositivos. O problema prin-
cipal do engenheiro é descobrir o efeito do tipo de material e da temperatura
sobre o estado de vida útil da bateria, com a finalidade de fundamentar a
tomada de decisão sobre qual a melhor maneira para projetar as baterias.
Os dados obtidos são reportados a seguir, sendo organizados em formato de
“dataframe” em Microsoft Excel® e importados para o software R.
Figura 7.10 – Importação dos dados de durabilidade de baterias
Fonte: elaborada pelo autor.
Bioestatística
– 192 –
A partir dos dados obtidos, são construídos gráficos boxplot entre
a variável resposta de durabilidade das baterias e o tipo e a temperatura.
É possível visualmente observar que a bateria do tipo 3 à temperatura
de 15 graus Fahrenheit mostra maior durabilidade em média. Por outro
lado, observa-se que as baterias do tipo 1 a uma temperatura de 125 graus
Fahrenheit fornecem menor durabilidade. É possível observar ainda uma
grande variabilidade no desempenho das baterias.
Figura 7.11 – Exploração dos dados de durabilidade de baterias
Fonte: elaborada pelo autor.
– 193 –
Análise de variância
Em seguida, após a testagem das hipóteses de normalidade e homosce-
dasticidade para a durabilidade de vida útil das baterias, verificou-se que a
variável resposta respeita tais pressupostos, conforme é verificado a seguir,
possibilitando o uso da análise de variância para os fatores estudados.
Figura 7.12 – Testagem das suposições de normalidade e homoscedasticidade
Fonte: elaborada pelo autor.
Após suceder a análise de variância para um delineamento de interação
entre os fatores experimentais, observa-se um efeito significativo sobre a
variável resposta para fatores de temperatura e tipo de baterias (p < 0.001),
bem como uma interação significativa entre tais fatores (p = 0,014). Logo, há
a necessidade de aplicação de testes de comparações múltiplas para eviden-
ciar o local onde encontram-se tais diferenças, por meio do teste de Tukey.
Figura 7.13 – Análise de variância: delineamento de interação de fatores experimentais
Fonte: elaborada pelo autor.
Nota-se que após a aplicação do teste de Tukey, diferenças signi-
ficativas na durabilidade média da bateria entre os tipos de baterias de
1 e 3 foram encontradas (p=0,001). A durabilidade média da bateria
difere significativamente em todas as comparações entre temperaturas.
Pode-se ainda verificar as comparações múltiplas para as interações,
ou seja, fixando os tipos de materiais e comparando as temperaturas. A
figura 7.14, fornece tais os resultados obtidos nas comparações.
Bioestatística
– 194 –
Figura 7.14 – Testes para comparações múltiplas de Tukey
Fonte: elaborada pelo autor.
– 195 –
Análise de variância
Neste mesmo exemplo, seria possível também a condução de um
desenho experimental fatorial com o recurso de blocagem – seria como
incluir um terceiro fator com o interesse de diminuir a variabilidade expli-
cada pelo erro ou a precisão experimental. Caso se deseje realizar um
experimento fatorial com muitos fatores, é aconselhável que se reduza
todos os fatores a dois níveis, para trabalhar de acordo com a metodologia
do experimento fatorial (2k).
Existem ainda outras configurações experimentais para o uso da aná-
lise de variância. Nós sugerimos ao leitor que sinta-se livre e encorajado
para explorar outros tipos de planejamentos experimentais, suas vanta-
gens e desvantagens de utilização.
Atividades
1. A análise de variância é amplamente empregada em diversas
áreas para estudo da variação de respostas obtidas experimental-
mente. Há vários tipos de análises para estudo da variação. Quais
as suposições necessárias para realização da análise de variância?
a) Distribuição normal de dados e variabilidade.
b) Homogeneidade de variâncias e variabilidade.
c) Amostra representativa e distribuição normal de dados.
d) Normalidade e homoscedasticidade.
e) Nenhuma das anteriores.
2. Consideremos a aplicação de quatro dietas diferentes com a fina-
lidade de estudar seu efeito sobre a resposta de colesterol sérico
HDL, em que os indivíduos foram alocados aleatoriamente em
cada um dos grupos. Neste sentido, questiona-se ao leitor as fon-
tes ou partições da variância na condução das análises.
a) Tratamento e erro.
b) Total, tratamento e erro.
Bioestatística
– 196 –
c) Total = tratamento + erro.
d) Tratamentos + erro.
e) Nenhuma das anteriores.
3. Considere a situação anterior de estudo do HDL frente às
dietas implementadas. Tendo em vista a tabela de análise de
variância, quais são os passos para analisar se há ou não dife-
rença entre os tratamentos?
4. A análise de variância é conduzida em softwares como o “R”.
Na execução dos testes, quais termos devem ser usados?
a) anova(x~y), “x”, respostas; “y”, tratamentos.
b) analisisv(x~y), “x”, respostas; “y”, tratamentos.
c) aov(x~y), “x”, respostas; “y”, tratamentos.
d) anava(x~y) , “x”, respostas; “y”, tratamentos.
e) aov(x~y, data=dados), “x”, respostas; “y”, tratamentos.
5. Na condução da análise de variância em bloco e com interação
de fatores experimentais, frequentemente são utilizados softwa-
res como o software “R”. Para realizar estas análises, quais são
os comandos empregados?
a) anova(x~y + bloco), “x”, respostas; “y”, tratamentos;
anova(x~y*z), “x”, respostas; “y” e “z”, tratamentos.
b) analisisv(x~y+ bloco), “x”, respostas; “y”, tratamentos;
analisisv(x~y*z), “x”, respostas; “y” e “z”, tratamentos.
c) aov(x~y + bloco), “x”, respostas; “y”, tratamentos; aov(x~y*z),
“x”, respostas; “y” e “z”, tratamentos.
d) anava(x~y + bloco, data=dados), “x”, respostas; “y”, tratamen-
tos; aov(x~y*z, data=dados), “x”, respostas; “y” e “z”, tratamentos.
e) aov(x~y + bloco, data=dados), “x”, respostas; “y”, tratamentos;
aov(x~y*z, data=dados), “x”, respostas; “y” e “z”, tratamentos.
6. Um determinado pesquisador conduziu um delineamento intei-
ramente casualizado desbalanceado, que avaliou quatro grupos:
– 197 –
Análise de variância
A (5 repetições), B (7 repetições), C (8 repetições) e D (6 repeti-
ções). Qual método estatístico seria adequado para testagem da
hipótese de diferença de médias?
7. Tendo vista os princípios básicos de experimentação, o que
deve ser respeitado para conduzir um experimento inteira-
mente casualizado?
8. Após o estudo deste capítulo, descreva quais as vantagens do
procedimento de blocagem no planejamento experimental.
9. A seguir estão registradas as produções médias diárias de
cabras leiteiras (litros/dia), segundo a estação do ano em que o
parto ocorreu e a ordem de parto. A diferença mínima signifi-
cativa para compará-las entre si foi de 4 litros/dia. Logo, pedi-
mos aos leitores que, cientes dos conhecimentos trabalhados
no capítulo, discutam os resultados.
Ordem do parto
Ocorrência do parto
Período de seca Período de chuva
Primíparas 7 16
Multíparas 18 23
10. Uma determinada fábrica de ração para porcos, Duroc, deseja
testar composições de rações com três níveis proteicos (10,
15 e 20%), sendo mensurado o peso no abate após 6 meses de
engorda. Nos grupos experimentais testados, a amostra alocada
foi de 12 animais de ambos os sexos (composição igual). Os
animais machos alcançam pesos mais elevados no abate, logo,
nesse caso, o sexo pode ser uma fonte de variação do experimento.
Os resultados obtidos de peso médio (kg) são os seguintes:
Sexo
Concentração proteica na ração
10% 15% 20%
Machos 78 93 98
Fêmeas 64 79 83
Considerando o valor da diferença mínima significativa para compa-
ração de médias 13,5kg, pede-se que os resultados sejam discutidos.
8
Métodos não
paramétricos para
comparação de
duas populações
A maioria dos resultados experimentais é de natureza quan-
titativa, podendo ser sumarizada por meio de medidas de tendên-
cia central e de dispersão, geralmente associadas a um tipo parti-
cular de distribuição de probabilidade, neste caso a distribuição
normal de probabilidade. Até o presente momento, foram apre-
sentados métodos paramétricos de comparação para as respostas
estudadas. Entretanto, algumas respostas quantitativas podem
não ser distribuídas normalmente, ainda que submetidas a algum
tipo de transformação. Estas variáveis possuem uma elevada ins-
tabilidade relativa, não podendo ser estudadas por métodos para-
métricos, desenvolvidos para variáveis que possuem distribuição
normal de probabilidade e homogeneidade de variâncias compu-
tadas entre grupos. Logo, os testes não paramétricos estudam as
posições relativas dos resultados obtidos quando observados em
Bioestatística
– 200 –
conjunto. Nestes métodos, uma ordenação dos resultados do mais baixo
ao mais elevado é conduzida, somada à identificação dos tratamentos. Ao
estabelecer o ordenamento, a subjetividade em atribuir graus de quantifi-
cação da variável resposta e a grande instabilidade das respostas são con-
troladas, relativizando a amplitude observada. Entretanto, a perda do deta-
lhamento da variável resposta com o uso de métodos não paramétricos é
em hipótese menos eficiente. Neste capítulo e no próximo apresentaremos
métodos não paramétricos clássicos.
Figura 8.1 – Testes não paramétricos clássicos
Fonte: elaborada pelo autor.
No capítulo 8 serão apresentados testes não paramétricos com 2
níveis para o fator estudado, tanto para amostras pareadas quanto para
amostras independentes (testes de Mann-Whitney e de Wilcoxon). No
capítulo 9 serão apresentados testes para mais de 2 níveis, considerando
tanto amostras pareadas quanto não pareadas.
8.1 Teste de Mann-Whitney
Na presença de apenas dois grupos experimentais (X; Y), porém
sem o pareamento de respostas (amostras independentes), com tamanhos
iguais ou diferentes, tem sido sugerida a aplicação do teste de Mann-Whi-
tney. Considera-se dois grupos independentes com tamanhos “m” e “n”,
constituindo-se no número total (N) de observações a soma de elementos
de ambos os grupos (N = m + n). Para a condução do teste, tem sido suge-
– 201 –
Métodos não paramétricos para comparação de duas populações
rida a reunião de todos os elementos amostrais de ambos os grupos expe-
rimentais e a ordenação dos postos do menor para o maior e sua respectiva
soma (W X
X
i
n
i
=
=
∑
1
; W Y
Y
i
n
i
=
=
∑
1
). No caso de empates entre as observações
amostrais, estas devem receber o valor médio das ordenações correspon-
dentes. Logo, para comparação dos grupos, tem-se as seguintes hipóteses:
a) Hipótese nula: H0 – a variável “Y” é estocasticamente igual a “X”;
Sob a hipótese nula, a esperança e a variância para as variáveis
são dadas por:
EW
n N
EW
m N
X Y
( ) ; ( )=
+( )
=
+( )1
2
1
2
Var W Var W
nm N
X Y
( ) ( )= =
+( )1
12
b) Hipótese alternativa (caso 1): H1 – a variável “Y” é estocastica-
mente maior que “X”;
No caso 1, a hipótese nula será rejeitada para valores grandes de
estatística de teste (WX ), ou seja, valores de estatística de teste
acima do valor crítico. A probabilidade de significância é defi-
nida como p P W W
X obs
= ≥
, onde Wobs é o valor da estatís-
tica de teste e a probabilidade “p” é determinada sob a hipótese
nula para p < 0,05.
c) Hipótese alternativa (caso 2): H1 – a variável “Y” é estocastica-
mente menor que “X”;
No caso 2, a hipótese nula será rejeitada para valores peque-
nos de estatística de teste (WX ), ou seja, valores de estatística
de teste acima do valor crítico. A probabilidade de significância
é definida como p P W W
X obs
= ≤
, onde Wobs é o valor da
estatística de teste e a probabilidade “p” é determinada sob a
hipótese nula para p < 0,05.
Bioestatística
– 202 –
d) Hipótese alternativa (caso 3): H1 – a variável “Y” é estocastica-
mente diferente de “X”;
No caso 3, a hipótese nula será rejeitada para valores pequenos
e grandes de estatística de teste (W
X
), ou seja, valores de estatís-
tica de teste acima e abaixo dos valores críticos. Porém, a proba-
bilidade de significância é definida como p P W W
X obs
= ≤
2 , se
W W
obs X
= ( )� ou p P W W
Y obs
= ≤
2 , se W W
obs s
= ( )� , onde Wobs X( )e
W
obs Y( ) correspondem ao valor da estatística de teste e a probabili-
dade “p” é determinada sob a hipótese nula para p < 0,05. Para as
hipóteses traçadas, as estatísticas de Mann-Whitney são usadas
para determinar os valores críticos para a rejeição da hipótese
nula ou as probabilidades de significância:
W W
n n
W W
m m
XY X YX Y
= −
+( )
= −
+( )1
2
1
2
;
As distribuições das estatísticas de Mann-Whitney são tabeladas.
Para amostras diferentes entre grupos, deve-se separar as ordenações do
grupo menor (n1), computando a respectiva soma dos postos (M), no caso
de grupos com número de elementos amostrais iguais, a soma dos postos
de cada grupo deve ser calculada. Em seguida, deve-se calcular a estatís-
tica “T” no caso de n1 < n2:
T n n n M= + +( )−1 1 2
1 �
O menor valor encontrado entre M e T (para n1 < n2) ou o menor valor
de soma dos postos – M (para n1 = n2), deve ser comparado ao valor crítico
(tabelado) em função do tamanho dos grupos (tabela 8.1). Caso o valor
da estatística de teste for menor ou igual comparado ao tabelado, haverá
diferenças significativas entre grupos experimentais. Caso os valores críti-
cos da estatística de teste não sejam encontrados na tabela 8.1, os mesmos
podem ser estimados por meio da seguinte equação:T
n n n
n n n n
=
+ +( )
−
+ +( )
−
1 1 2
1 2 1 2
1
2 1 96
1
12 0 5
,
,
– 203 –
Métodos não paramétricos para comparação de duas populações
Tabela 8.1 – Valores críticos de “T” para o teste não paramétrico de Mann-Whitney,
conforme o tamanho dos grupos comparados (nível de 5% de significância)
Grupo Maior
Grupo Menor
2 3 4 5 6 7 8 9 10 11 12 13
4 - - 10 - - - - - - - - -
5 - 6 11 17 - - - - - - - -
6 - 7 12 18 26 - - - - - - -
7 - 7 13 20 27 36 - - - - - -
8 3 8 14 21 29 38 49 - - - - -
9 3 8 15 22 31 40 51 63 - - - -
10 3 9 15 23 32 42 53 65 78 - - -
11 4 9 16 24 34 44 55 68 81 96 - -
12 4 10 17 26 35 46 58 71 85 99 115 -
13 4 10 18 27 37 48 60 73 88 103 119 137
14 4 11 19 28 38 50 63 76 91 106 123 141
15 4 11 20 29 40 52 65 79 94 110 127 145
20 5 14 24 35 48 62 77 93 110 128 147 167
25 6 16 28 42 56 72 89 107 126 146 167 189
Fonte: Sampaio (2010).
8.2 Caso de empate entre observações amostrais
Nas situações de ocorrência de empate entre observações amostrais,
emprega-se o cômputo de posto médio (soma-se as ordenações e divide-se
pelo número de empates ocorridos entre as observações) na ordenação e
atribuição de postos da amostra. Neste caso, as estatísticas de teste para
empates nas observações são:
W X
X
i
n
i
* *=
=
∑
1
W Y
Y
i
m
i
* *=
=
∑
1
Bioestatística
– 204 –
Sendo Xi
* e Yi
* os postos das observações de cada grupo e “n” e “m”
as amostras referentes (respectivamente) a cada grupo. Nesse sentido, a
esperança (média) e variância amostral de cada grupo são (d
i
– representa
o número de observações iguais da amostra conjunta e – número de valo-
res distintos):
EW
n N
e E W
m N
X Y
( )* *=
+( ) ( ) =
+( )1
2
1
2
Var W Var W
nm N nm d d
N NX Y
i
e
i i
( )* *= ( ) =
+( )
−
−( )
−( )
=∑1
12 12 1
1
3
Para o cálculo dos valores de probabilidade nos casos de empate entre
as observações amostrais, recomenda-se a utilização da aproximação da dis-
tribuição da estatística de teste pela distribuição normal, reportada a seguir.
8.3 Aproximação normal
Utiliza-se a aproximação normal na condição em que as amostras
independentes são grandes e, portanto, convergem para uma distribuição
normal de probabilidade (iguais ou acima de 10 observações). Porém,
para se realizar a mesma aproximação normal (semelhante à padroniza-
ção de variáveis explicitada anteriormente) para amostras inferiores à 10
observações, deve-se empregar uma correção no cálculo dos valores de
probabilidade, conforme descrito a seguir:
N
W E W
Var W
0 1,( ) ≈
− ( )
( )
Correção de continuidade (amostras < 10), sendo “W” uma variável
aleatória discreta e “Z” uma variável padronizada:
P W x P Z
x E W
Var W
≤
= ≤
+( )− ( )
( )
0 5,
– 205 –
Métodos não paramétricos para comparação de duas populações
P W x P Z
x E W
Var W
≥
= ≥
−( )− ( )
( )
0 5,
Exemplo 1. Para exemplificar o emprego do teste de Mann-Whitney,
consideremos a premissa de que um fabricante de produtos alimentícios
desidratados afirma que o conteúdo do corante tartrazina da marca concor-
rente (B) é maior que o da marca local (A). Ao considerar que as variáveis
“m” e “n” são aleatórias, representando cada um dos respectivos conteúdos
de corante para as marcas concorrente e local, para solucionar a questão
levantada um laboratório quantificou o conteúdo do corante em miligramas
para 5 amostras das duas marcas. Os valores obtidos são reportados a seguir:
Tabela 8.2 – Dados referentes ao conteúdo do corante tartrazina
Amostras 1 2 3 4 5
Marca “A” 800 1.200 1.400 900 1.000
Marca “B” 1.100 1.300 1.500 700 1.600
Fonte: elaborada pelo autor.
Face às sentenças, temos as seguintes hipóteses:
2 H0: a variável “n” é estocasticamente igual a “m”, ou seja, os
produtos da marca “B” tendem a ter um conteúdo de corante
tartrazina semelhante ao da marca “A”.
2 H1: a variável “n” é estocasticamente maior que “m”, ou seja,
os produtos da marca “B” tendem a ter um conteúdo de corante
tartrazina semelhante ao da marca “A”.
Para realizar as análises, ordena-se observações conjuntamente do
menor ao maior valor, colocando os postos correspondentes às observações:
Tabela 8.3 – Determinação dos postos
Observações 700 800 900 1000 1100 1200 1300 1400 1500 1600
Posto 1 2 3 4 5 6 7 8 9 10
Marca B A A A B A B A B B
Fonte: elaborada pelo autor.
Bioestatística
– 206 –
Caso a afirmação contida no enunciado seja correta, obviamente
espera-se que a soma dos postos para a marca “B” seja maior. Quanto
maior a soma dos postos da marca B (W), maior será a chance de rejeição
da hipótese nula:
W
A
= + + + + =2 3 4 6 8 23 ;
W
B
= + + + + =1 5 7 9 10 32 ;
p P W P W
n N
P W
B B B
= ≥
= −
+( )
≥ −
( )
= ≥
32
1
2
32
5 6
2
17 == − ≤
= − =1 16 1 0 789 0 2103P W
B
, ,
Como a probabilidade de significância é alta, a hipótese nula não
deveria ser rejeitada (lembrar que a probabilidade de significância nos dá
uma estimativa da probabilidade de estarmos rejeitando a hipótese nula
incorretamente, ou seja, quando ela é de fato verdadeira – erro tipo I do
teste). No software “R” temos:
Figura 8.2 – Importação do banco de dados e teste de Mann-Whitney
Fonte: elaborada pelo autor.
Exemplo 2. Uma psicopedagoga de uma escola municipal estudou a
subjetividade do modo de brincar de crianças de uma turma de 24 alunos
(12 meninos e 12 meninas) no que diz respeito ao grau de criatividade, a
partir de uma escala própria, previamente validada. Há a necessidade de
– 207 –
Métodos não paramétricos para comparação de duas populações
verificar se há diferença entre meninos e meninas para o grau de criativi-
dade. Os valores obtidos são mostrados na tabela a seguir.
Tabela 8.4 – Classificação de criatividade de crianças
Meninos 8,6 6,9 7,2 6,7 11,3 6,5 11,8 4,5 14,1 10,4 4,1 5,0
Meninas 5,5 4,0 2,2 5,8 1,6 0,7 0,9 1,8 2,6 3,6 2,0 1,5
Fonte: elaborada pelo autor.
Para efeito desta solução vamos considerar como Y (n=12) o grau
observado no grupo dos meninos e como X (m=12) o grau de criatividade
das meninas. Logo, temos as hipóteses:
2 H0: a variável “Y” é estocasticamente igual a “X”;
2 H1: a variável “Y” é estocasticamente diferente de “X”.
Tabela 8.5 – Determinação dos postos para os dados obtidos
Observações Postos Observações Postos
0,7 1 5,0 13
0,9 2 5,5 14
1,5 3 5,8 15
1,6 4 6,5 16
1,8 5 6,7 17
2,0 6 6,9 18
2,2 7 7,2 19
2,6 8 8,6 20
3,6 9 10,4 21
4,0 10 11,3 22
4,1 11 11,8 23
4,5 12 14,1 24
Fonte: elaborada pelo autor.
Em outras palavras, sob a hipótese nula, o grau de criatividade obser-
vado em meninos tende a gerar valores similares ao grau de criatividade
observado em meninas. Por outro lado, na hipótese alternativa, o grau de
Bioestatística
– 208 –
criatividade observado em meninos tende a gerar valores diferentes ao
grau de criatividade observado em meninas.
W
x
= + + + + + + + + + + + =1 2 3 4 5 6 7 8 9 10 14 15 84
W
y
= + + + + + + + + + + + =11 12 13 16 17 18 19 20 21 22 23 24 216
SomadosPostos� � =
( )
=
24 25
2
300
A probabilidade de significância do teste é:
p P W P N P N
x
= ≤
= ( ) ≥
+( )−
= (2 84 2 0 1
84 0 5 150
300
2 0 1,
,
, )) ≥ −
≈3 78 0 002, ,
Sendo que:
E W Var W
x x( ) = ( )
= ( ) = ( )( )( ) =
12 25
2
150
12 12 25
12
300;
No ambiente “R”, temos:
Figura 8.3 – Importação de dados e teste de Mann-Whitney
– 209 –
Métodos não paramétricos para comparação de duas populações
Fonte: elaborada pelo autor.
Exemplo 3. O comportamento do treinador no processo de treinamento
possui papel fundamental no sucesso competitivo dos atletas. Para avaliar o
comportamento de treinadores, são propostas escalas de avaliação conduzi-
das sob a perspectiva (visão) de treinadores e atletas, compreendendo dife-
rentes dimensões do processo de treinamento, denominadas escalas de com-
portamento do treinador na visão do treinador (ECT-T) e do atleta (ECT-A).
A ECT-A e a ECT-T são questionárioscompostos de 40 questões cada que
abordam a frequência de comportamentos específicos, e são pontuados em
uma escala Likert de 7 pontos, onde 1 representa “nunca” e 7 “sempre”.
Figura 8.4 – Importação do banco de dados
Fonte: elaborada pelo autor.
Bioestatística
– 210 –
As questões avaliam seis dimensões do comportamento do treinador,
sendo elas: Treinamento Físico (TF) – provisão pelos treinadores do plane-
jamento e treinamento físico para o treinamento e competição; Treinamento
Técnico (TT) – “feedback” do treinador, demonstrações visuais e verbais e
aconselhamentos; Preparação Mental (PM) – envolvimento do treinador em
ajudar os atletas a serem mais resistentes, focados e autoconfiantes; Estabe-
lecimento de Objetivos (EO) –envolvimento do treinador na identificação,
desenvolvimento e monitoramento dos objetivos dos atletas; Reforço Pes-
soal Positivo (RPP) –proximidade, disponibilidade e compreensão do trei-
nador; Reforço Pessoal Negativo (RPN) – atitudes do treinador como o uso
do medo, gritos quando está com raiva e desconsideração das opiniões dos
atletas. Logo, para estudar o comportamento de treinadores de basquetebol,
um cientista do esporte aplicou questionários em atletas e treinadores.
Figura 8.5 – Testes de Wilcoxon em ambiente “R” para as diferentes dimensões
avaliadas pelas escalas de comportamento de treinadores
– 211 –
Métodos não paramétricos para comparação de duas populações
Fonte: elaborada pelo autor.
Ao comparar as respostas obtidas, exceto para a dimensão de estabele-
cimento de objetivos, onde foram verificadas diferenças moderadas entre a
perspectiva de atletas e treinadores (EO, z = 17, p = 0,013), não foram veri-
ficadas alterações significativas para as medianas das demais dimensões da
ECT (TF, z = 44, p = 0,67; TT, z= 44, p = 0,67; PM, z = 37, p = 0,34; RPP, z =
46, p = 0,79; RPN, z = 70, p = 0,14). De forma geral, os dados sugerem que
os treinadores de basquetebol de base estão sendo percebidos pelos atletas
da mesma maneira que se enxergam, pois apresentaram resultados similares
para as dimensões TF, TT, PM, RPP e RPN. Entretanto, verificou-se dife-
rença entre a percepção do treinador e dos atletas sobre do estabelecimento
dos objetivos, aspecto que pode efetivamente prejudicar o rendimento da
equipe durante os treinamentos e competições.
8.4 Teste de Wilcoxon de postos sinalizados
O teste de Wilcoxon de postos sinalizados foi desenhado para compa-
ração de respostas caracterizadas pelo pareamento de respostas obtidas no
tempo, por meio de procedimentos de aliquotagem – retirada de respostas
de uma mesma unidade experimental. Ao considerar uma amostra com “N”
pares de elementos, em cada par um elemento amostral recebe um trata-
mento ou situação controle e um experimental, portanto, com “N” pares de
dados (x y i N
i i
; , , , , ,= …1 2 3 ), sendo xi a resposta medida para o grupo con-
trole e yi a resposta medida para o grupo experimental. No teste de Wilco-
xon para postos sinalizados, considera-se o sinal das diferenças e os valores
obtidos nas diferenças numéricas entre os elementos dos dois grupos.
Para a condução dos testes, inicialmente deve ser obtida a diferença
par a par (| |Z
i
) entre as respostas (Z y x
i i i
= − ). Os postos devem ser orde-
nados e atribuídos a partir das diferenças de forma crescente, do menor ao
maior valor observado. Para as ordenações das diferenças onde ocorrem
Bioestatística
– 212 –
empates, se o empate ocorrer entre diferenças de mesmo sinal, as diferen-
ças com empates devem ordenadas sequencialmente; por outro lado, se
empates ocorrerem em diferenças com sinais opostos, a ordenação deve
ser feita pela ordenação média (soma-se as ordenações e divide-se pelo
número de empates ocorridos entre as observações). O sinal observado
nas diferenças entre os pares de dados deverá constar também nos postos
ordenados. Em seguida, os postos positivos e negativos devem ser soma-
dos separadamente (W x W y
x
i
N
i y
i
N
i
= =
=
+
=
−
∑ ∑
1 1
; ). Logo, como hipóteses, temos
sob a hipótese nula que a distribuição da hipótese nula da variável “y”
(tratamento) é igual à variável “x”. Para a hipótese alternativa, temos que
a distribuição da variável “y” (tratamento) tende a gerar valores maiores
do que a variável “x”. Em síntese, podem ser apresentadas como:
2 Hipótese nula (H0): H0 – a variável “Y” é estocasticamente
igual a “X”;
2 Hipótese alternativa (HA): HA – a variável “Y” é estocastica-
mente diferente de “X”.
A probabilidade de significância do teste será dada como
P W r
H X0
≥
, onde “r” é o valor amostral observado de WX , pode ser
obtido por meio de tabelas próprias ou da aproximação à distribuição
normal, por meio do cálculo da esperança (média) e variância amostral.
Por meio da tabela, considera-se o valor de somatório que for menor
(desconsiderando o sinal) – será o valor calculado da estatística de teste
(“W”). O valor da estatística de teste deve ser comparado com o valor
crítico de “W” (ver tabela 8.6), determinado conforme o número de pares
de dados e nível de significância selecionado. Para os casos em que o
valor de “W” calculado for menor que de “W” crítico, haverá diferenças
significativas entre níveis do fator estudado (W W
calculado crítico
< ).
Tabela 8.6 – Valores de “W” para o teste de Wilcoxon de postos sinalizados, segundo
o número de pares estudados e o nível do erro tipo I
Número de pares
de dados
Probabilidade do erro tipo I
0,05 0,01
6 0 -
– 213 –
Métodos não paramétricos para comparação de duas populações
Número de pares
de dados
Probabilidade do erro tipo I
0,05 0,01
7 2 -
8 4 0
9 6 2
10 8 3
11 11 5
12 14 7
13 17 10
14 21 13
15 25 16
16 30 20
17 35 23
18 40 28
19 46 32
20 52 38
21 59 43
22 66 49
23 73 55
24 81 61
25 89 68
26 98 76
27 107 84
28 116 92
29 126 100
30 136 109
Fonte: Sampaio (2010).
Por meio da aproximação à distribuição normal, deve-se computar a
esperança (Esperança [Wx]) e a variância amostral (Variância [Wx]) pre-
Bioestatística
– 214 –
viamente, considerando a ausência e a presença de empates nas observa-
ções. No caso sem empates, temos:
E W
N N
X( ) =
+( )1
4
�
Var W
N N N
X( ) =
+( ) +( )1 2 1
24
��
Para os casos com empates, temos o respectivo cálculo da esperança
e variância, onde " "d
0
é o número de diferenças (Z
i
) iguais a zero, “e”
o número de valores distintos de diferenças (Zi ) e " "d
i
a frequência do
i-ésimo valor distinto de Z
i
:
E W N N d d
X
*( ) = +( )− +( )
1
4
1 1
0 0
Var W
N N N d d d d
X
i
e
i*
[ ]
( ) =
+( ) +( )
− +( ) +( )
−
−
=∑1 2 1 1 2 1
24
0 0 0 1
2 dd d
i i( ) +( )1
48
�
Para o cômputo da probabilidade de significância pela aproximação à
distribuição normal, tem-se que:
N
W E W
Var W
0 1,( ) ≈
− ( )
( )
Exemplo 4. Um treinador de atletismo para as provas de salto pre-
tende estudar o impacto da carga de treinamento de uma sessão prévia a
uma competição para suceder a utilização de procedimentos de recupera-
ção para 6 atletas juvenis. Para isso, o treinador monitorou o desempenho
por meio da avaliação da altura de saltos verticais antes e após a referida
sessão de treino que antecede a competição. Assim, à luz dos resultados
obtidos, reporte qual seria a recomendação ao treinador.
Tabela 8.7 – Altura de saltos vertical pré e pós-sessão
Momento
Altura do salto (melhor
desempenho de três saltos)
1 2 3 4 5 6
Pré-sessão 38,0 45,3 43,0 47,5 39,7 42,1
– 215 –
Métodos não paramétricos para comparação de duas populações
Momento
Altura do salto (melhor
desempenho de três saltos)
1 2 3 4 5 6
Pós-sessão 34,5 40,7 41,2 43,1 35,2 35,8
|Diferença| 3,5 4,6 1,8 4,4 4,5 6,3
Postos 2 5 1 3 4 6
ΣVs 21
Fonte: elaborada pelo autor.
Logo, temos as seguintes hipóteses:
2 H0: o desempenho de saltos verticais após a sessão de treinamento
tende a ser semelhante ao desempenho de saltos verticais pré-sessão;
2 H1: o desempenho de saltos verticais após a sessão de treinamento
tende aser diferente ao desempenho de saltos verticais pré-sessão.
Figura 8.6 – Importação do banco de dados e aplicação do teste de Wilcoxon em
ambiente “R”
Fonte: elaborada pelo autor.
Bioestatística
– 216 –
Logo, a partir das análises, temos que após a sessão de treinamento o
desempenho de saltos verticais reduziu significativamente, sinalizando a
necessidade de procedimentos de recuperação dos atletas.
Exemplo 5. Para avaliar o efeito de um tratamento conduzido com
base no método pilates sobre a incontinência urinária de esforço (perda
involuntária de urina aos esforços quando a pressão intravesical supera a
pressão intrauretral). A proposta do método pilates é fortalecer a muscu-
latura do assoalho pélvico por meio de exercícios específicos. Para este
estudo, foi realizada a avaliação de um grupo de 18 idosas antes e após o
tratamento e a variável avaliada foi a força de contração da musculatura
do assoalho pélvico, testada pelo toque intravaginal. Este estudo foi rea-
lizado por fisioterapeutas especialistas em uroginecologia e experientes
neste tipo de avaliação. Para classificar a força de contração dessa muscu-
latura, respeitou-se o sistema a seguir:
Tabela 8.8 – Sistema de classificação
Grau Visualização da contração
em posição ginecológica Resposta à palpação
0 Ausente Ausente
1 Ausente Reconhecível
2 Débil Reconhecível
3 Presente Sem resistência
4 Presente Com resistência <5s
5 Presente Com resistência >5s
Fonte: elaborada pelo autor.
Os dados foram:
Idosa 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
Antes 2 3 3 4 4 5 4 4 2 2 1 0 0 5 3 2 1 1
Após 3 5 4 4 3 5 5 5 3 4 4 2 3 4 5 5 3 4
A resposta estudada é do tipo discreta com distribuição de probabi-
lidade não normal. As amostras são pareadas e com 2 níveis para o fator
momento (antes e depois do tratamento). Neste sentido, recomenda-se a
aplicação do teste não paramétrico de Wilcoxon para pares ordenados. O
estudo objetiva a avaliação do efeito do tratamento baseado no método
– 217 –
Métodos não paramétricos para comparação de duas populações
pilates sobre a incontinência urinária de esforço em idosas. A resposta
estudada é a força de contração da musculatura do assoalho pélvico, numa
escala de 0 a 5. Logo, estabelecendo a diferença entre os valores antes e
após, bem como o ordenamento de postos, como hipóteses temos:
2 H0: o tratamento baseado em pilates não afeta a força de contra-
ção da musculatura do assoalho pélvico.
2 H1: o tratamento baseado em pilates afeta a força de contração
da musculatura do assoalho pélvico.
Tabela 8.9 – Diferença entre valores e ordenamento de postos
Idosa 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
Antes 2 3 3 4 4 5 4 4 2 2 1 0 0 5 3 2 1 1
Após 3 5 4 4 3 5 5 5 3 4 4 2 3 4 5 5 3 4
|dif.| 1 2 1 0 -1 0 1 1 1 2 3 2 3 -1 2 3 2 3
Postos 6 12 6 1,5 6 1,5 6 6 6 12 16,5 12 16,5 6 12 16,5 12 16,5
Fonte: elaborada pelo autor.
Assim, temos o cálculo da esperança e variância para postos ordena-
dos (com empates):
VS = 156.
VR = 6 + 6 = 12
E VS N N d d
= +( )− +( )
= +( )− +( )
=
1
4
1 1
1
4
18 18 1 1 1 1
0 0
885
Var VS N N N d d d
= +( ) +( )
− +( ) +( )
−
1
24
1 2 1 1 2 1
1
40 0 0 88
1
12654 6
24
0 125 52
1
3
i
e
i i i
d d d
=
∑ −( ) +( )
=
−
− =, 66 88,
Cálculo da probabilidade de significância:
p N p N0 1
156 0 5 85
526 88
0 1 3 11 0,
,
,
, ,( ) ≤
+( )−
= ( ) ≤ −
≈ ,, 0009 (rejeita-se a hipótese nula).
Logo, após a realização das análises, verificou-se que o tratamento
baseado no método pilates afeta a força de contração da musculatura do
assoalho pélvico, e, portanto, pode contribuir para o tratamento da incon-
tinência urinária de esforço. Em ambiente “R”, temos:
Bioestatística
– 218 –
Figura 8.7 – Importação do banco de dados e aplicação do teste de Wilcoxon em
ambiente “R” (computado sem os postos empatados)
Fonte: elaborada pelo autor.
Após a apresentação dos testes de Mann-Whitney e de Wilcoxon para
postos sinalizados e condução dos exemplos, sugere-se ao leitor refazer
– 219 –
Métodos não paramétricos para comparação de duas populações
os exemplos e buscar novos conforme sua área de interesse para conso-
lidação da aprendizagem. No capítulo 9 serão explorados os testes de
Kruskal-Wallis e de Friedman para mais de dois níveis.
Atividades
Uma dose capaz de infectar baseada na bactéria Staphylococcus
aureus foi administrada em 13 amostras de leite de origens diferentes que
comprovadamente não apresentavam contaminação prévia pelo patógeno
em questão. Cada amostra de leite foi particionada em duas alíquotas e,
em cada uma delas, aleatoriamente, foram aplicadas nisina ou lactopero-
xidase. O objetivo era verificar o controle do patógeno (tóxico ao sistema
digestório) na fabricação do queijo frescal a partir das amostras de leite
coletadas. Depois de efetuada a produção, foram retiradas amostras dos
queijos produzidos para preparação das placas de cultura. Após acomoda-
ção em estufa, unidades formadoras de colônias (UFC) foram contabiliza-
das, conforme descrito a seguir:
Origem do leite UFC (Nisina) UFC
(Lactoperoxidase)
1 3 5
2 87 45
3 128 93
4 Incontável 125
5 23 27
6 65 42
7 250 38
8 90 22
9 12 17
10 178 63
11 39 11
12 203 47
13 8 15
Bioestatística
– 220 –
1. Caracterize a resposta obtida para cada placa cultivada.
2. Ao observar as características da resposta estudada, recomende
a estratégia de análise de dados.
3. Execute a análise recomendada na questão anterior e verifique se
há diferença entre os inibidores do patógeno.
4. Ao considerar um novo experimento, se um pesquisador cole-
tasse 13 amostras de leite com diferentes níveis de contamina-
ção do patógeno e conduzisse um experimento igual ao reali-
zado anteriormente, discuta se seria possível concordar com o
procedimento adotado.
(Enunciado para questões de 5 a 9) O efeito da administração de
selênio é conhecido por estimular a resposta imunológica em ani-
mais, particularmente em aves. Um pesquisador tem como obje-
tivo saber se a forma de administração deste substrato (inorgânico
ou orgânico) altera a resposta imunológica. Para isso, instalou um
experimento em ambiente uniforme, onde havia 16 conjuntos,
cada um com seis pintinhos machos da linhagem cobb, com um
dia de idade, já vacinados. A ração fornecida era a mesma para
todos os conjuntos, mas em 8 deles foi adicionado 0,15 mg de
selênio inorgânico. Nos outros 8 conjuntos foi adicionado 0,15
mg de selênio orgânico. Considerando que a distribuição dos
pintinhos foi feita aleatoriamente, 14 dias após a vacinação foi
mensurada a concentração de anticorpos. Os resultados obtidos
encontram-se na tabela a seguir, e correspondem à análise de um
pool retirado de três pintinhos, pois a análise realizada exige um
volume que, se retirado de uma só ave, levaria à morte.
Tratamentos
0,15mg de selênio inorgânico 0,15mg de selênio orgânico
1/670 512
1860 98
538 530
863 445
– 221 –
Métodos não paramétricos para comparação de duas populações
Tratamentos
0,15mg de selênio inorgânico 0,15mg de selênio orgânico
250 200
612 471
559 158
629 490
5. Com base no enunciado anterior, responda às seguintes questões.
a) Determine a média e o desvio padrão de cada grupo. Se em
algum deles o valor do coeficiente de variação for maior que
50% e/ou não for observada homoscedasticidade, discuta se uma
análise paramétrica seria recomendável.
b) Na alternativa de uma análise não paramétrica, discuta qual é a
estratégia recomendada.
6. Conduza a análise do experimento recomendada, verificando se
a fonte de fornecimento do selênio realmente influencia a res-
posta imunológica de aves comerciais.
7. Discuta se a forma ofertada de selênio aumentou a resposta imu-
nológica das aves.
8. Apresente um quadro final caracterizando os dois grupos expe-
rimentais, onde possamos observar os valores de mediana,
mínimo, máximo, além da eventual diferença significativa.
9. O procedimentode utilizar um pool de três aves faz com que a
variação observada entre as unidades experimentais aumente ou
diminua? Explique o raciocínio.
10. Um biólogo tem como objetivo estudar os hábitos e como o
caranguejo do mangue se dispersa no manguezal com relação
ao regime hídrico do mangue (inundável ou não inundável).
Sua unidade experimental era uma área de 4m2. Neste espaço,
contava-se o número de tocas encontradas (resposta medida). Se
entre os dois ambientes fosse encontrado um maior número de
tocas, isto refletiria em um habitat preferencial, considerando-se
Bioestatística
– 222 –
que se tratava da mesma espécie. Para isso, foi preciso identi-
ficar áreas inundáveis (pelas marés). Ele estudou 19 áreas da
região alvo, sendo 10 inundáveis e 9 não inundáveis. Analise o
experimento com base nos resultados obtidos nessas contagens,
conforme reportado a seguir:
Área Alagável Seca
1 15 13
2 32 8
3 20 1
4 65 10
5 23 5
6 41 3
7 18 20
8 45 11
9 53 9
10 43 -
9
Métodos não
paramétricos para
comparação de
várias populações
Muitas vezes pesquisadores e profissionais deparam-se com
situações em que os fatores estudados possuem mais de dois
níveis. Quando é possível assumir que a distribuição de proba-
bilidade da variável estudada é normal e com homogeneidade
de variâncias em todos os tratamentos, emprega-se a análise de
variância paramétrica para a comparação de médias. No entanto,
temos situações nas quais o conjunto de dados não provém de
distribuições normais e as amostras não são grandes para o uso
da análise de variância. Nesses casos, são empregados os testes
não paramétricos. Assim, em continuidade ao capítulo 8, serão
apresentados métodos não paramétricos que viabilizam tais com-
parações, também por meio do ordenamento de postos (Teste de
Kruskal-Wallis para amostras independentes e teste de Friedman
para amostras pareadas), conforme evidenciado na figura 9.1.
Bioestatística
– 224 –
Figura 9.1 – Testes não paramétricos clássicos
Fonte: elaborada pelo autor.
A seguir são apresentadas as respectivas fundamentações teóricas
para realização dos testes, estatística de teste e condução dos testes de
comparações múltiplas.
9.1 Teste de Kruskal-Wallis
Para os testes apresentados neste capítulo, será assumido que o efeito
de tratamentos afeta apenas as respostas, ou seja, a locação das distribui-
ções envolvidas, assumindo que alguma ordenação nos tratamentos ten-
deria a ter respostas iguais entre alguns dos tratamentos (mas não entre
todos) ou respostas diferentes entre todos os tratamentos. Ao considerar-
mos elementos amostrais retidos aleatoriamente, as respostas dos trata-
mentos são variáveis aleatórias dadas por:
Tratamento x x x DistribuiçãoF
n
� :� � � ��� � �1
11 12 1 1
¼
Tratamento x x x DistribuiçãoF
n
� :� � � ��� � �2
21 22 2 2
¼
¼�
TratamentoS x x x DistribuiçãoF
S S Sn S
� :� � � ��� � �
1 2
¼
Logo, entendendo que as distribuições de cada tratamento (F
i
) são
contínuas, desconhecidas e que os grupos são independentes, temos as
seguintes hipóteses traçadas para comparações de tratamentos:
– 225 –
Métodos não paramétricos para comparação de várias populações
2 H0: as medianas das distribuições dos tratamentos são iguais;
2 H1: as medianas das distribuições dos tratamentos não são
todas iguais, ou seja, há alguma diferença entre as medianas
dos tratamentos.
Após estabelecer as hipóteses a serem estudadas, sucede-se o pro-
cedimento de ordenação dos elementos amostrais, considerando uma
amostra aleatória para “s” tratamentos. Assim, temos os postos Rij (“i”
tratamentos, ”j” observações) ordenados no teste de Kruskal-Wallis da
seguinte maneira:
Tabela 9.1 – Ordenamento dos postos das amostras nos tratamentos
Tratamentos
1 2 3 S
R
11
R
21
R
31
R
s1
R
12
R
22
R
32
R
s2
. . . .
R
n1
R
n2
R
n3
R
sn
R
1
R
2
R
3
R
s
Fonte: elaborada pelo autor.
No teste de Kruskal-Wallis, o ordenamento dos postos ocorre
somente nas colunas dos tratamentos. Na tabela 9.1, a última linha cor-
responde ao somatório dos postos em cada tratamento, e o somatório
total dos postos é dado por:
R R i s
i
j
ni
IJ
= =( )
=
∑
1
1 2� , , .
Logo, a média dos postos é dada por:
R
n
R i s
i
j
ni
IJ.
, , .= =( )
=
∑
1
1 2
1
Bioestatística
– 226 –
Quando os tratamentos divergem em magnitude entre si, diferenças
substanciais são esperadas para a soma dos postos (n – amostra por trata-
mento, N – conjunto amostral total). Por outro lado, para a hipótese nula,
espera-se que as somas dos postos para os tratamentos sejam próximas,
semelhantes à média global dos postos, dadas por:
R
N
ij
=
+ 1
2
9.2 Estatística de Kruskal-Wallis
No caso em que há empates (valores iguais de postos no mesmo tra-
tamento “s”), para a tomada de decisão sobre as hipóteses traçadas sobre
as medianas dos postos, William Kruskal e Allen Wallis propuseram a
seguinte estatística de teste:
K
N N
n R
N
I
S
i i
=
+( )
−
+( )
=
∑
12
1
1
21
2
Tabela 9.2 – Valores críticos de X2 segundo os graus de liberdade do estudo (s -1) e o
nível de significância
Graus de
liberdade
Probabilidade de encontrar valores maiores (erro tipo I)
0,20 0,10 0,05 0,02 0,01 0,001
1 1,64 2,71 3,84 5,41 6,64 10,83
2 3,22 4,60 5,99 7,82 9,21 13,82
3 4,64 6,25 7,82 9,84 11,34 16,27
4 5,99 7,78 9,49 11,67 13,28 18,46
5 7,29 9,24 11,07 13,39 15,09 20,52
6 8,56 10,64 12,59 15,03 16,81 22,46
7 9,80 12,02 14,07 16,62 18,48 24,32
8 11,03 13,36 15,51 18,17 20,09 26,12
9 12,24 14,68 16,92 19,68 21,67 27,88
10 13,44 15,99 18,31 21,16 23,21 29,59
Fonte: Sampaio (2010).
– 227 –
Métodos não paramétricos para comparação de várias populações
A distribuição da estatística “K” pode ser obtida a partir apenas do
conhecimento dos tamanhos amostrais dos tratamentos estudados. A tabela
9.2 mostra a distribuição exata de “K”, uma aproximação da distribuição
qui-quadrado com a perda de um grau de liberdade. De forma alternativa,
a estatística de teste pode ser expressa por meio do desmembramento das
diferenças elevadas ao quadrado (caso de ausência de empates de obser-
vações). Logo, temos:
K
N N
n R
N
N N
R
nI
S
i i
I
S
i=
+( )
−
+( )
=
+( )
( )
= =
∑ ∑
12
1
1
2
12
11
2
1
2
[
ii
N]− +( )3 1
K
N N
R
n
N
I
S
i
i
=
+( )
( )
− +( )
=
∑
12
1
3 1
1
2
[ ]
Sendo R
i
a soma dos postos, ni a amostra em cada um dos tratamentos
e N a amostra total (N n
i
k
i
=
=
∑
1
). Adicionalmente, outro desdobramento tem
sido empregado para estudar a estatística K, levando em consideração a
variância amostral, conforme destacado por Sampaio (2010):
K
N N
n R
N
S
R
n
N N
I
S
i i
I
S
i
i
=
+( )
−
+( )
=
( )
−
= =
∑ ∑
12
1
1
2
1
1
2
2
1
2
( ]
++( )
1
4
2
�
Sendo a variância (S 2) dada por:
S
N N
2
1
12
=
+( )
Nas situações de ocorrência de empates entre postos de observações
por tratamento, há a necessidade de “ajustes” (cF) no cômputo da estatís-
tica de teste, onde é empregada a média dos postos do tratamento e não
mais a soma dos postos no respectivo tratamento (R
i
).
K
N N cF
n R
N
I
S
i i
=
+( )
−
+( )
=
∑
12
1
1
21
2
.
Bioestatística
– 228 –
cF
d d
N N
i
e
i i
i i
= −
−( )
−( )
=∑1 1
3
3
Sendo o fator de correção baseado na frequência dos empa-
tes (e – valores distintos observados na amostra conjunta; di – a
frequência de valores/empates observados), modificando também a
variância amostral.
S
N N cF
2
1
12
=
+( )
Em síntese, para o uso do teste de Kruskal-Wallis, o leitor deve
ordenar os postos do menor valor para o maior valor e, ocorrendo
valores com “empates”, a ordenação média deverá substituir as orde-
nações correspondentes – calcula-se a soma dos postos respectivos
a cada tratamento, a média dos postos e em seguida o cômputo da
estatística de teste. Uma vez que a estatística de teste se distribui
em aproximaçãoà distribuição de qui-quadrado, se o valor calculado
for igual ou superior ao valor crítico de qui-quadrado encontrado na
tabela 9.2, será verificada a existência de diferenças significativas
entre os tratamentos estudados.
9.3 Comparações múltiplas
Após a rejeição da hipótese nula por intermédio do teste de Kruskal-
-Wallis, objetiva-se identificar onde encontram-se tais diferenças. Para
cada comparação, calcula-se as diferenças entre tratamentos por meio da
média dos postos dos tratamentos (R R
i j
- ). Essas diferenças poderão ser
testadas pela utilização do teste “t”, calculando-se para cada diferença de
ordenações entre tratamentos “N – s” graus de liberdade, onde N repre-
senta o conjunto amostral e “s” os tratamentos.
t
R R
S
N K
N s n n
i j
i j
=
−
− −
−
+
2 1 1 1
– 229 –
Métodos não paramétricos para comparação de várias populações
Tabela 9.3 – Distribuição de “t” segundo os graus de liberdade do erro e a probabilidade
do erro tipo I (bicaudal)
Graus de
liberdade
Probabilidade de encontrar valores maiores (erro tipo I)
0,90 0,70 0,30 0,10 0,05 0,01 0,001
1 0,158 0,510 1,963 6,314 12,706 63,657 636,619
2 0,142 0,445 1,385 2,920 4,303 9,925 31,598
3 0,137 0,424 1,250 2,353 3,182 5,841 12,941
4 0,134 0,414 1,190 2,132 2,776 4,604 8,610
5 0,132 0,408 1,156 2,015 2,571 4,032 6,859
6 0,131 0,404 1,134 1,943 2,447 3,707 5,959
7 0,130 0,402 1,119 1,895 2,365 3,499 5,405
8 0,130 0,399 1,108 1,860 2,306 3,355 5,041
9 0,129 0,398 1,100 1,833 2,262 3,250 4,781
10 0,129 0,397 1,093 1,812 2,228 3,169 4,587
11 0,129 0,396 1,088 1,796 2,201 3,106 4,437
12 0,128 0,395 1,083 1,782 2,179 3,055 4,318
13 0,128 0,394 1,079 1,771 2,160 3,012 4,221
14 0,128 0,393 1,076 1,761 2,145 2,977 4,140
15 0,128 0,393 1,074 1,753 2,131 2,947 4,073
16 0,128 0,392 1,071 1,746 2,120 2,921 4,015
17 0,128 0,392 1,069 1,740 2,110 2,898 3,965
18 0,127 0,392 1,067 1,734 2,101 2,878 3,922
19 0,127 0,391 1,066 1,729 2,093 2,861 3,883
20 0,127 0,391 1,064 1,725 2,086 2,845 3,850
21 0,127 0,391 1,063 1,721 2,080 2,831 3,819
22 0,127 0,390 1,061 1,717 2,074 2,819 3,792
23 0,127 0,390 1,060 1,714 2,069 2,807 3,767
24 0,127 0,390 1,059 1,711 2,064 2,797 3,745
25 0,127 0,390 1,058 1,708 2,060 2,787 3,725
26 0,127 0,390 1,058 1,706 2,056 2,779 3,707
Bioestatística
– 230 –
Graus de
liberdade
Probabilidade de encontrar valores maiores (erro tipo I)
0,90 0,70 0,30 0,10 0,05 0,01 0,001
27 0,127 0,389 1,057 1,703 2,052 2,771 3,690
28 0,127 0,389 1,056 1,701 2,048 2,763 3,674
29 0,127 0,389 1,055 1,699 2,045 2,756 3,659
30 0,127 0,389 1,055 1,677 2,042 2,750 3,646
40 0,126 0,388 1,050 1,684 2,021 2,704 3,551
60 0,126 0,387 1,046 1,671 2,000 2,660 3,460
120 0,126 0,386 1,041 1,658 1,980 2,617 3,373
∞ 0,126 0,385 1,036 1,645 1,960 2,576 3,291
Fonte: Sampaio (2010).
A partir do cômputo da estatística “t” de Student nas comparações,
deve-se identificar o valor da estatística de teste para os respectivos graus
de liberdade, para determinar o valor de probabilidade referente à compa-
ração. Em ambiente “R”, sugere-se instalar os pacotes estatísticos gratui-
tos “PMCMR” e “PMCMRplus” para uso do teste de comparações múlti-
plas de Nemenyi. A seguir são apresentados exemplos de uso do teste de
Kruskal-Wallis e do teste de comparações múltiplas.
Exemplo 1. Em um estudo sobre o efeito de dietas sobre a massa
corporal de ratos Wistar, foram distribuídos aleatoriamente 25 animais em
quatro grupos de dietas. Após 12 semanas, mediu-se a massa corporal, que
foi computada para verificar se houve alguma alteração. Os dados obtidos
e os respectivos postos são reportados entre parênteses na tabela 9.4.
Tabela 9.4 – Alteração de massa corporal após 12 semanas de dieta
Tratamentos
Tratamento A Tratamento B Tratamento C Tratamento D
277 (22) 221 (6) 268 (21) 222 (7)
225 (10) 251 (20) 285 (23) 296 (24)
226 (11) 217 (5) 207 (3) 227 (12)
– 231 –
Métodos não paramétricos para comparação de várias populações
Tratamentos
Tratamento A Tratamento B Tratamento C Tratamento D
184 (1) 205 (2) 240 (16) 224 (9)
210 (4) - 232 (13) 250 (19)
234 (14) - 235 (15) 247 (17)
248 (18) - 301 (25) -
223 (8) - - -
Fonte: elaborada pelo autor.
Logo, as hipóteses são:
2 H0: as medianas das distribuições dos tratamentos são iguais
(Mediana Mediana Mediana Mediana
A B C D
= = =
�
);
2 H1: há alguma diferença entre as medianas dos tratamentos
(Mediana
i
¹ 0).
Somatório dos postos de cada tratamento: (åR
i
): A = 88; B = 33;
C = 116; D = 88.
Média de postos de cada tratamento: (R
i
): A� = 11; B = 8,25; C = 16,57;
D =14,66.
Média global de postos: (R..): 13
Estatística de teste:
K =
( )
−( ) + −( ) + −( ) + −( )12
25 26
8 11 13 4 8 25 13 7 16 57 13 6 14 66 13
2 2 2 2
, , ,
= 4 2,
A probabilidade de significância do teste empregando a distribuição
qui-quadrado com 3 graus de liberdade (graus de liberdade = tratamen-
tos -1 = 4 – 1, figura 9.2) é de 0,2407 (aproximadamente), logo, a hipó-
tese nula de igualdade entre as medianas das dietas para ganho de massa
corporal não deveria ser rejeitada. Assim, em ambiente “R”, temos na
figura 9.2 a mesma análise.
Bioestatística
– 232 –
Figura 9.2 – Importação do banco de dados e aplicação do teste de Kruskall-Wallis
para verificação da diferença de medianas dos tratamentos
Fonte: elaborada pelo autor.
Exemplo 2. Amostras de pilhas de diferentes marcas foram selecio-
nadas aleatoriamente para estudar se há diferença de vida útil entre as
marcas disponíveis. As pilhas foram avaliadas experimentalmente por
meio do tempo de duração em horas. A seguir são detalhadas as respostas
e os postos ordenados.
As hipóteses são:
2 H0: as medianas das distribuições dos tratamentos são iguais
(Mediana Mediana Mediana
1 2 3
= =
�
);
2 H1: há alguma diferença entre as medianas dos tratamentos
(Medianas
i
¹ 0).
Tabela 9.5 – Vida útil em horas de diferentes marcas de baterias
Marcas
Marca “1” (n = 5) Marca “2” (n = 4) Marca “3” (n = 4)
63,1 (5) 74,0 (12,5) 72,3 (11)
– 233 –
Métodos não paramétricos para comparação de várias populações
Marcas
Marca “1” (n = 5) Marca “2” (n = 4) Marca “3” (n = 4)
54,2 (1,5) 70,4 (8,5) 69,2 (7)
57,0 (3) 71,5 (10) 70,4 (8,5)
54,2 (1,5) 67,6 (6) 74,0 (12,5)
60,0 (4) - -
R
1
15= R
2
37= R
3
39=
R
1
3= R
2
9 25= , R
3
9 75= ,
Média global de postos (R
..
): 7
Fonte: elaborada pelo autor.
Estatística de teste:
K =
( )
−( ) + −( ) + −( )
=
12
13 14
5 3 7 4 9 25 7 4 9 75 7 8 604
2 2 2
, , ,
Logo, temos a probabilidade de significância:
p P K P= ≥
= ≥
≈8 604 8 604 0 0136
2
2, , ,c
Assim, a partir da estatística de teste e probabilidade de significância,
a hipótese nula de igualdade entre as medianas dos tratamentos deveria
ser rejeitada em favor da hipótese alternativa, sugerindo a necessidade
de aplicação de um teste de comparações múltiplas para verificação das
diferenças entre cada marca de pilha. Em ambiente “R” temos a mesma
análise, conforme mostrado na figura 9.3.
Figura 9.3 – Importação do banco de dados e aplicação do teste de Kruskall-Wallis
para verificação da diferença de medianas dos tratamentos
Bioestatística
– 234 –
Fonte: elaborada pelo autor.
Após comparar as diferentes marcas de pilhas, verificou-se diferenças
significativas entre a marca “1” e a marca “3” (p=0,035), às margens da sig-
nificância entre a marca “1” e marca “2” (p=0,056), e sem diferença entre a
marca “2” e a marca “3” (p=0,984). Em suma, a marca “1” possui uma vida
útil registrada em horas corridas menor que as marcas “2” e “3” (Figura 9.3).
9.4 Comparação de vários tratamentos
pareados: caso de blocos aleatorizados
completos (Teste de Friedman)
Este teste ocorre na presença de mais de dois grupos ou tratamentos
pareados em que é possível caracterizar a existência de blocos, aleatoria-
mente administrados, porém sob o prisma não paramétrico (figura 9.1).
Ao considerar que o efeito de tratamentos administrados afeta apenas etão somente as respostas, neste caso, a hipótese alternativa propõe que há
alguma diferença entre as medianas das distribuições das respostas nos dife-
rentes tratamentos, supondo então a existência de uma ordenação entre os
tratamentos. Assim, a média de seus postos nos diferentes blocos é dada por:
R
R R R
b
R
b
ondeR éo postoemcadatratament
i
i i i i
ij
=
+ +…+
=1 2 1 � � � � � � � � oo
– 235 –
Métodos não paramétricos para comparação de várias populações
Logo, a ordenação dos tratamentos é efetuada dentro de cada bloco
(b) em conformidade com as observações amostrais obtidas (da observa-
ção de menor valor para a observação de maior valor). No caso de dife-
rença entre tratamentos (s), isso se reflete em diferença entre os valores de
somatório dos postos (R
i
) levando à rejeição da hipótese nula. Por outro
lado, para a hipótese nula, o somatório dos postos de cada tratamento
tende a estar próximo à média geral de postos (R
..
, a seguir).
R
bs
s s s
j
b
..
=
+( )
=
+
=
∑
1 1
2
1
21
9.5 Estatística de Friedman
A estatística de teste sob a hipótese nula tem uma distribuição de
qui-quadrado (aproximadamente) com perda de um grau de liberdade. De
forma semelhante à estatística de Kruskal-Wallis, as hipóteses estatísticas
para o teste de Friedman são:
2 H0: as medianas das distribuições dos tratamentos são iguais
(Mediana Mediana Mediana
s1 2
= =…=
�
);
2 H1: há alguma diferença entre as medianas dos tratamentos
(Medianas
i
¹ 0).
Logo, temos a estatística de teste de Friedman para a situação de
ausência de empates em cada bloco:
c
0
2
1
2
12
1
1
2
=
+( )
−
+
=
∑
b
s s
R
s
I
S
i.
Ou, ainda, pode ser novamente escrita:
c
0
2
1
212
1
3 1=
+( )
− +( )
=
∑bs s
R b s
I
S
i
No caso da presença de empates de observações amostrais dentro dos
blocos (empates ocorridos em todos os blocos), deve-se empregar postos
Bioestatística
– 236 –
médios na ordenação dos elementos amostrais contidos em cada bloco,
com uma correção da estatística de teste:
c
0
2
1
2
112
1
1
2
1=
+( )
−
+
= −
=
=∑
∑b
s s cF
R
s
ondecF
I
S
i
j
b
i
.
; ==∑ −( )
−( )
1
3
2 1
e
ij ij
j d d
bs s
2 dij = número de observações no bloco que são iguais ao j-ésimo
valor;
2 ej = número de observações distintas no bloco j.
De forma parecida ao teste de Kruskal-Wallis, a variância dos postos
é dada por:
S
s s
casossemempatesnosblocos2
1
12
=
+( )( )� � � � �
S
s s cF
casoscomempatesnosblocos2
1
12
=
+( ) ( )� � � � �
Em suma, para aplicar o teste de Friedman, os elementos amostrais
dentro de cada bloco devem ser ordenados. Observando o cômputo de valo-
res médios para empates nos postos, deve-se somar as ordenações para cada
respectivo tratamento, determinar o valor da estatística de teste (valor calcu-
lado de qui-quadrado), seguido da comparação para com o valor crítico de
qui-quadrado (tabelado, ver tabela 9.2). Caso o valor de estatística de teste
calculado configure-se maior ou igual ao valor tabelado da distribuição de
qui-quadrado, verificar se há diferença entre ordenações dos tratamentos,
sucedendo-se a necessidade de testes de comparações múltiplas.
9.6 Comparações múltiplas
Para cada par de tratamentos, calcula-se as diferenças, onde R
i
e R
j
são a média dos postos dos respectivos tratamentos:
d R R
i j
= − ;
– 237 –
Métodos não paramétricos para comparação de várias populações
Logo, para a comparação de diferentes tratamentos (p), a diferença
mínima significativa (dms) será dada por:
dms z
s s
b
p
=
+( )
a
2
1
6
Em ambiente “R”, deve-se instalar os pacotes estatísticos gratuitos
“PMCMR” e “PMCMRplus” para uso do teste de comparações múltiplas
de Nemenyi. A seguir são apresentados exemplos de uso do teste de Frie-
dman e do teste de comparações múltiplas de Nemenyi.
Exemplo 3. Uma empresa de bebidas deseja conhecer a preferência
de seus clientes por diferentes tipos de vinhos. Foram selecionadas 12
pessoas para experimentar vinhos tintos, brancos e rosé aleatoriamente,
observando um intervalo adequado para não interferir sobre as avaliações.
Logo, para as comparações, temos as hipóteses:
2 H0: as medianas das distribuições das preferências para os tipos
de vinhos são iguais;
2 H1: há alguma diferença entre as medianas das distribuições das
preferências para os tipos de vinhos.
Tabela 9.6 – Preferência por diferentes tipos de vinhos
Indivíduos Vinho branco Vinho tinto Vinho rosé
1 10 7 8
2 8 5 5
3 7 8 6
4 9 6 4
5 7 5 4
6 9 7 5
7 5 9 3
8 6 7 7
9 5 4 6
10 10 6 4
Bioestatística
– 238 –
Indivíduos Vinho branco Vinho tinto Vinho rosé
11 4 7 4
12 7 3 3
Fonte: elaborada pelo autor.
c
2
2
1
2
12
1
1
2
6 0455=
+( )
−
+
=
=
∑
b
s s
R
s
I
S
i.
,
PH
0 2
2 6 0455 0 048c ≥
=, ,
Figura 9.4 – Importação do banco de dados e aplicação do teste de Friedman
– 239 –
Métodos não paramétricos para comparação de várias populações
Fonte: elaborada pelo autor.
Após a aplicação do teste de Friedman, verificou-se a existência de
diferença significativa entre as medianas das distribuições de preferências
por diferentes tipos de vinhos (Figura 9.4). Logo, após suceder os testes de
comparações múltiplas de Nemenyi, demonstrou-se que houve diferença
na preferência maior dos clientes por vinho branco do que por vinho rosé.
Figura 9.5 – Teste de comparações múltiplas de Nemenyi em ambiente “R”
Fonte: elaborada pelo autor.
Exemplo 4. Um produtor rural deseja cultivar aveia em sua proprie-
dade. Antes de iniciar o cultivo, decidiu encomendar um estudo para com-
parar as distribuições de produção para quatro variedades de aveia em
diferentes tipos de solo. Neste exemplo, cada tipo de solo constitui-se no
bloco e as variedades de aveia nos tratamentos. A seguir é reportada na
tabela 9.7 a produtividade de aveia em toneladas por hectare para as varie-
dades de aveia nos 5 tipos de solo.
Bioestatística
– 240 –
Tabela 9.7 – Produtividade de aveia em toneladas por hectare para diferentes tipos de
solo e seus respectivos postos entre parênteses
Tipos de solo Tipo “1” Tipo “2” Tipo “3” Tipo “4”
1 6,00 (1) 6,21 (2) 7,52 (3) 7,76 (4)
2 6,48 (2) 6,72 (3) 6,73 (4) 6,00 (1)
3 6,96 (1) 7,28 (2) 6,44 (4) 7,32 (3)
4 6,40 (1) 6,72 (2) 7,76 (4) 6,96 (3)
5 6,74 (2) 6,28 (1) 7,76 (3,5) 7,76 (3,5)
Total (postos) 7 10 18,5 14,5
Média (postos) 1,4 2 3,7 2,9
Fonte: elaborada pelo autor.
c
3
2
1
2
12
1
1
2
4 9592=
+( )
−
+
=
=
∑
b
s s cF
R
s
I
S
i.
,
PH
0 3
2 4 9592 0 1748c ≥
=, ,
Após aplicar o teste de Friedman, a produtividade observada em
diferentes tipos de aveia em solos diferentes não revelou diferenças sig-
nificativas (c32 4 9592 0 1748= =, ; ,p ). Logo, qualquer tipo de aveia pode ser
recomendado ao produtor rural para o cultivo com a finalidade de alcançar
uma melhor produtividade.
Figura 9.6 – Importação do banco de dados e aplicação do teste de Friedman
– 241 –
Métodos não paramétricos para comparação de várias populações
Fonte: elaborada pelo autor.
Após a apresentação dos conteúdos e exemplos referentes aos testes
não paramétricos de Kruskal-Wallis e de Friedman, sugere-se aos leitores
a reprodução dos exemplos apresentados neste capítulo, tanto manual-
mente quanto no software “R”, para entendimento e fixação dos concei-
tos. Nós sugerimos ao leitor que se sinta livre e encorajado para explorar
outros exemplos e o entendimento dos planejamentos experimentais, suas
vantagens e desvantagens de utilização.
Atividades
1. A propagação de piolho em aves será associada em geral às con-
dições climáticas e à densidade populacional dos hospedeiros.
Foram estudadas duas cidades diferentes no estado do Paraná,
onde havia granjas com manejo intensivo de aves (galpões de
confinamento) e outras com manejo extensivo (aves com acesso
permanente ao verde).Cada granja forneceu uma ave em idade
de abate, escolhida ao acaso, como unidade experimental, e nela
foi realizada a contagem do número de piolhos presentes. Para
isso, a ave precisou ser abatida e depenada a seco. Observe os
resultados obtidos de contagem por município e manejo.
Contagem do número de piolhos presentes
Município A (>UR) Município B (<UR)
Extensivo Intensivo Extensivo Intensivo
0 8 3 20
Bioestatística
– 242 –
Contagem do número de piolhos presentes
Município A (>UR) Município B (<UR)
Extensivo Intensivo Extensivo Intensivo
1 20 6 15
3 7 2 33
0 9 10 33
0 3 4 14
5 9 8 30
2 10 2 28
2 5 13 17
a) Embora os resultados sejam discretos, seria possível sua norma-
lização? Justifique.
b) Qual é a estratégia de análise para esta situação?
c) Execute a análise sugerida em ambiente “R”.
2. Caso em determinado município houvesse um manejo menos
frequente, poderíamos ter, por exemplo, apenas cinco granjas de
manejo extensivo no município B:
a) Em quê isso afetaria a estratégia de análise? Explique.
b) Em quê isso afetaria a comparação de médias? Explique.
c) Caso houvesse resultados dos dois sistemas, mas apenas de um
município, você utilizaria a mesma análise? Comente.
3. Uma cooperativa de beneficiamento e comercialização de leite
recebe a produção de quatro grandes regiões de um mesmo
município. Esta cooperativa possui um laboratório capaz de
medir a qualidade do leite que recebe de seus associados. Os
produtos chegam em carros-pipa na usina de processamento,
trazendo uma amostra composta de leite de algumas fazendas.
O laboratório analisa a contagem de coliformes a 30 °C, C de
Staphylococcus aureus a 45 °C, e realiza outras análises que
caracterizam a qualidade microbiológica do leite. A contagem
– 243 –
Métodos não paramétricos para comparação de várias populações
de Staphylococcus aureus foi realizada em um estudo para veri-
ficar se havia diferença de contaminação entre as quatro regi-
ões, com a intenção de priorizar seu controle preventivamente
em locais com maior potencial de contaminação. Os resultados
observados estão a seguir (contagem em diluições de 102). Faça
a análise do ensaio em ambiente R e interprete os resultados.
Contagem de Staphylococcus aureus
Repetição Região A Região B Região C Região D
1 1 0 27 0
2 135 260 20 0
3 140 590 1 0
4 0,1 140 40 11000
5 3350 23000 530 2150
6 1010 6300 0,2 0
7 190 3 4 41
8 4 0 3 7
9 370 0 0,2 8,5
10 9,5 0,2 0,2 65
11 40 200 10 20
12 2320 905 0,2 20
4. Um produto de homeopatia à base da planta “timbó”, que possui
propriedades diuréticas, foi utilizado com finalidade de reduzir
o peso de postura e eclosão de ovos de teleóginas. Verificou-se
a resposta obtida como percentual de eclosão de ovos. Faça a
análise do ensaio em ambiente R e interprete os resultados.
Percentual de eclosão de ovos de teleóginas
Controle Timbó Timbó + selênio Timbó + cobre
90 60 58 80
80 45 63 65
95 75 49 70
Bioestatística
– 244 –
Percentual de eclosão de ovos de teleóginas
Controle Timbó Timbó + selênio Timbó + cobre
98 85 80 55
85 50 70 68
5. O glicerol é uma substância muito utilizada como crioprote-
tor no congelamento de sêmen de diversas espécies. Contudo,
é sabido de seu potencial destrutivo, sendo positivamente cor-
relacionado com a concentração que é adicionada no diluidor.
Apesar deste conhecimento, não há disponível atualmente outro
material crioprotetor que o substitua. Assim, há pesquisas volta-
das para determinar qual concentração de glicerol é menos pre-
judicial. Neste estudo, foi empregado o garanhão como unidade
experimental, com seu sêmen sendo coletado e dividido em alí-
quotas, que foram distribuídas entre todos os tratamentos. A via-
bilidade das células espermáticas foi dada pela sua motilidade
após o descongelamento.
Motilidade de células espermáticas para
diferentes concentrações de glicerol
Animais Tratamento I
(3,5% de glicerol)
Tratamento II
(4,5% de glicerol)
Tratamento III
(5,5% de glicerol)
1 40 45 33
2 32 40 45
3 30 35 20
4 45 32 30
5 33 39 52
6 45 50 23
7 20 30 42
8 30 39 33
9 52 65 45
10 23 23 20
11 42 60 30
– 245 –
Métodos não paramétricos para comparação de várias populações
Motilidade de células espermáticas para
diferentes concentrações de glicerol
Animais Tratamento I
(3,5% de glicerol)
Tratamento II
(4,5% de glicerol)
Tratamento III
(5,5% de glicerol)
12 30 53 30
13 43 56 52
14 23 63 23
15 20 30 42
16 30 30 30
a) Faça a análise estatística segundo a estratégia recomendada.
b) É possível perceber o efeito prejudicial do crioprotetor à medida
que a concentração aumenta?
6. É necessário estar preparado para transformar os resultados da
análise não paramétrica em conclusão prática. Como o leitor
apresentaria os resultados para caracterizar o potencial de cada
concentração? Discuta.
7. Cavalos empregados na modalidade esportiva de hipismo
podem apresentar alterações no aparelho locomotor decorren-
tes de injúrias ou luxações ocorridas em eventos competitivos.
A partir deste cenário, um novo tratamento está sendo testado,
avaliando-se o grau de claudicação a cada 24 horas (sensibi-
lidade à palpação do tendão flexor digital superficial) por um
médico veterinário, que utiliza uma avaliação subjetiva da sen-
sibilidade: 5 = sensibilidade máxima, 0 = sem sensibilidades.
Os cavalos aqui considerados tiveram lesões simples e equiva-
lentes. Veja os resultados a seguir:
Sensibilidade à palpação do tendão flexor
digital superficial pelo tempo
Cavalos 24h 48h 72h 96h
1 4 4 3 2
2 3 4 3 1
Bioestatística
– 246 –
Sensibilidade à palpação do tendão flexor
digital superficial pelo tempo
Cavalos 24h 48h 72h 96h
3 3 3 2 1
4 3 3 2 2
5 2 2 1 0
6 3 3 2 3
7 4 3 3 2
8 5 3 2 0
9 4 3 3 1
10 3 2 1 0
11 4 3 4 1
Está implícito que o pesquisador deseja saber a partir de que
tempo após a aplicação diária do tratamento a claudicação arre-
fece, ou seja, qual o tempo mínimo para o tratamento aplicado
para mostrar efetividade.
a) Qual a estratégia de análise para os dados apresentados? Justifique.
b) Esse número de animais estudados parece ser suficiente? Comente.
8. Execute a análise sugerida no primeiro item.
9. Exprima as conclusões a respeito dos resultados obtidos. Em
seguida, apresente uma outra situação que exigiria a aplicação
desta mesma técnica de análise, preferencialmente em sua área
experimental ou conexa.
10. O Brasil é um dos maiores exportadores de produtos agrícolas
do mundo. Logo, há a necessidade constante de aprimoramento
genético de animais. Em experimento conduzido por um médico
veterinário, seis concentrações de um diluente de sêmen foram
testadas em 12 amostras de sêmen obtidas de touros da raça pardo
suíça. Após o procedimento de homogeneização, cada amostra
foi dividida em seis alíquotas, preparadas posteriormente com
uma das seis concentrações, em teste do diluente (C1, C2, C3,
– 247 –
Métodos não paramétricos para comparação de várias populações
C4, C5, C6). Os resultados para a resposta vigor (0, 1, 2, 3, 4, 5)
foram medidos 6 horas após a diluição e conservação em tem-
perada adequada. Faça a análise do experimento e comente os
resultados obtidos.
Resposta de vigor para concentrações do diluente
Touros C1 C2 C3 C4 C5 C6
1 4 5 1 2 3 1
2 5 4 3 1 3 1
3 5 4 5 3 4 0
4 4 3 4 3 2 3
5 5 5 3 4 2 2
6 4 5 3 2 1 1
7 3 5 2 2 0 2
8 4 5 2 1 1 4
9 3 4 4 1 2 1
10 5 5 4 3 2 1
11 4 4 0 2 3 0
12 5 4 3 4 2 2
Total da
ordenação (åRi)
63 62 43 33 28 23
Média da
ordenação 5,25 5,17 3,54 2,75 2,33 1,92
Mediana 4 4,5 3 2 2 1
Médias seguidas de letras distintas diferem pelo teste de Friedman
(p < 0,05), r = repetições, b = blocos, t = tratamentos.
10
Aplicação de conceitos
e desenvolvimento
de exemplos práticos
no software “R”
Após apresentarmos diversos conceitos em bioestatística,
chegou o momento de desenvolvermos exemplos práticos para
consolidar o aprendizado obtido nesta obra. Os exemplos con-
duzidos neste capítulo serão detalhados passo a passo em suas
premissas e cálculos, bem como os comandos executáveisem
ambiente “R” e suas respectivas interpretações. É recomendável
que estes exemplos sejam estudados e reproduzidos pelo leitor
Bioestatística
– 250 –
para entendimento das técnicas estatísticas. Nos exemplos realizados, será
apresentado ainda o banco de dados e sua forma de composição ou coleta
de dados. Logo, os exemplos reais a serem mostrados a seguir irão perfa-
zer os seguintes temas e assuntos:
[1] Análise exploratória de dados – desempenho de atletas
de velocidade.
[2] Associação e relacionamento de variáveis – monitora-
mento da carga no futebol.
[3] Inferência estatística – análise do campeonato europeu de
handebol feminino de 2020.
[4] Métodos não paramétricos – efeito da desidratação em
lutadores amadores.
Adicionalmente, os bancos de dados são ofertados para que os usu-
ários possam treinar a realização de suas próprias análises. O leitor pode
ainda desenvolver e treinar as análises com seus próprios dados, uma
excelente forma de consolidação do aprendizado.
Exemplo 1. Análise exploratória de dados – Avaliação de desem-
penho em testes de 50 metros de atletas de velocidade
A avaliação do desempenho de atletas submetidos a regimes de trei-
namento direcionados a provas de velocidade no atletismo é fundamental
para treinadores. Em geral, estas avaliações são realizadas por meio do
registro do tempo decorrido para percorrer uma distância preestabelecida,
em que podem ser computados parâmetros médios de velocidade, acelera-
ção, força, potência e impulso alcançados, utilizando cronômetros, placas
sensíveis ao contato e células fotoelétricas. Apesar de serem parâmetros
úteis aos treinadores, estes dispositivos não são capazes de revelar as osci-
lações e o que fato ocorreu durante a tarefa. Para superar essa limitação, os
pesquisadores na área esportiva frequentemente recorrem ao uso de câme-
ras de alta velocidade e de softwares para reconstrução bidimensional ou
tridimensional do desempenho dos indivíduos testados, para obtenção de
medidas acuradas durante a tarefa. Porém, além de ser um recurso extre-
mamente caro, a logística de preparação do equipamento, a exigência de
pessoal treinado para realização das medições e o tempo para realização
– 251 –
Aplicação de conceitos e desenvolvimento de exemplos práticos no software “R”
do procedimento de processamento tornam inviável seu emprego durante
a prática diária. Ne tem sido utilizados dispositivos do tipo “encoder”,
permitindo a determinação de parâmetros cinemáticos e cinéticos instan-
tâneos durante a tarefa, conforme evidenciado na figura 10.1.
Figura 10.1 – Exemplo de gráfico de velocidade em função do tempo em uma tarefa
de “sprint” ou corrida de 30 metros obtido com uso de um encoder
Fonte: elaborada pelo autor.
Logo, para selecionar corretamente os melhores atletas para parti-
cipação de uma competição de 100 m rasos, um treinador decidiu ava-
liar e classificar o desempenho de seus atletas para não incorrer em erros
e entender o impacto das sessões de treinamento. Para isso, o treinador
administrou testes de 50 m com um dispositivo do tipo encoder. Os indi-
víduos foram orientados previamente a desenvolver sua corrida em no
máximo três repetições, sendo retido o melhor desempenho observado
para tomada de decisão, a respeito da participação na competição e do
processo de treinamento. Após a realização das medições, os resultados
para as variáveis obtidas são apresentados a seguir (Velocidade máxima,
Vmax [m/s]; aceleração máxima, Amax [m/s2]; força máxima, Fmax [N];
força máxima relativizada pela massa do indivíduo, Fmaxrel [N/Kg]; pico
Bioestatística
– 252 –
de potência, Pmax [W]; pico de potência relativizado pela massa do indi-
víduo, Pmaxrel [W/kg]; tempo para alcançar o pico de potência, TPmax
[s] e tempo total). Logo, importando o conjunto de dados, temos conforme
a figura 10.2 o banco de dados em ambiente R.
Figura 10.2 – Importação do banco de dados das variáveis de Vmax [m/s], Amax [m/
s2], Fmax [N], Fmaxrel [N/Kg], Pmax [W], Pmaxrel [W/kg] e TPmax [s] obtidas pelos
atletas no teste de 50 metros
Fonte: elaborada pelo autor.
Ao observar o desempenho observado nos testes (figuras 10.2, 10.3
e 10.4), foi possível verificar que o indivíduo 4 apresentou o melhor
(menor) tempo total nos testes (6,760 segundos), bem como o melhor
pico de aceleração, força máxima (absoluta e relativa), potência (abso-
luta e relativa) e o segundo melhor tempo para alcançar o pico de potên-
cia (0,850 segundo).
O pior desempenho é verificado para o indivíduo 1, que possui o
maior tempo total, menor força (absoluta e relativa), potência (absoluta
e relativa), tempo para alcançar o pico de potência, aceleração máxima,
apesar de não apresentar o maior valor de velocidade máxima (terceiro
menor valor). É interessante ressaltar que variabilidade relativa (%), das
variáveis quantificadas foi menor que 10%, denotando a consistência
interindivíduo e a homogeneidade do grupo de atletas, algo de suma
importância ao direcionamento do processo de treinamento e seleção de
atletas para torneios. Os parâmetros descritivos para cada variável são
apresentados na figura 10.3.
– 253 –
Aplicação de conceitos e desenvolvimento de exemplos práticos no software “R”
Figura 10.3 – Análise descritiva das variáveis de desempenho em sprints de 50 metros
Fonte: elaborada pelo autor.
A seguir são explorados os gráficos de dispersão para as variáveis
de velocidade máxima [m/s], aceleração máxima [m/s2], força máxima
[N], força máxima relativa [N/Kg], potência máxima [W], potência
máxima relativa [W/kg] e tempo para alcançar a potência máxima [s]
obtidos pelos atletas no teste de 50 metros, bem como seus respectivos
comandos em ambiente “R”.
Figura 10.4 – Gráficos de dispersão das variáveis estudadas
Bioestatística
– 254 –
Fonte: elaborada pelo autor.
Exemplo 2. Associação e relacionamento de variáveis: marcado-
res de monitoramento da carga no futebol
O futebol é um esporte coletivo que movimenta vultuosas somas de
recursos financeiros. No processo de treinamento, os atletas são expostos
a muitos jogos e sessões de treino. Um grande desafio aos profissionais
relacionados à comissão técnica reside na tarefa de otimização do desem-
penho concomitantemente à prevenção e à redução do número de lesões.
Logo, é de interesse destes profissionais a adoção de métodos de diagnós-
– 255 –
Aplicação de conceitos e desenvolvimento de exemplos práticos no software “R”
tico que possibilitem o controle do processo de treinamento de forma indi-
vidualizada, rápida e prática. Nesse sentido, é bem conhecido o aumento
principalmente da demanda física dos jogos, que abrangem ações intensas
e excêntricas, as quais estão associadas a danos musculares e consequen-
tes processos inflamatórios. Esses processos inflamatórios são verificados
pela proliferação de fagócitos, pelo aumento da síntese de proteínas, como
a Proteína C-reativa (PCR). O aumento das concentrações de PCR e o
aparecimento do processo inflamatório têm sido associados ao aumento
local da temperatura muscular.
Figura 10.5 – Estudo do grau de associação e do relacionamento entre a variável PCR
[%] em função do TskHZn [%]
Fonte: elaborada pelo autor.
Neste contexto, a análise de concentrações plasmáticas de PCR
tem se tornado uma medida muito importante para determinação do
Bioestatística
– 256 –
quadro inflamatório dos atletas no futebol, entretanto, esta medida é
invasiva, necessitando de coletas sanguíneas. Por outro lado, câmeras
sensíveis ao calor têm sido utilizadas para estudar o processo infla-
matório para controle do processo de treinamento, um procedimento
não invasivo, com várias potencialidades e rápido, tema de estudo em
evidência nas ciências do esporte.
Figura 10.6 – Gráfico de dispersão da variável de PCR [%] em função da TskHZn [%]
Fonte: elaborada pelo autor.
Logo, a comissão técnica de um time de futebol iniciou um estudo
exploratório sobre a relação entre os dois métodos de medição para dimi-nuir custos e tempo. O objetivo era associar e relacionar os níveis relati-
vos da proteína C reativa (PCR) e da temperatura da pele dos membros
inferiores (Tsk-HZn) de atletas de futebol em três jogos. Para isso, foram
determinados valores basais para PCR e Tsk-HZn (valores iniciais). Após
5 dias foram efetuadas medições de PCR e de Tsk-Hzn, após a realização
de 3 jogos com 10 atletas de futebol. A seguir é exibido o banco de dados
e sua respectiva importação para o ambiente “R”.
– 257 –
Aplicação de conceitos e desenvolvimento de exemplos práticos no software “R”
Para estudar a relação das variáveis de Tsk-HZn [%] em função das
variáveis fisiológicas CRP [%], modelos de regressão linear foram ajusta-
dos, computado o coeficiente de determinação (R2) e estabelecido o grau
de associação por meio do coeficiente de correlação de Spearman (ρ) (tri-
vial, ρ ≤ 0.25; fraco, ρ = 0.26 – 0.50; moderado, ρ = 0.51 – 0.75; e forte,
ρ = 0.76 – 1.00). Concomitantemente, sucedeu-se a verificação da significân-
cia estatística dos modelos (intercepto [“a”] e coeficiente de regressão [“b”]).
Por meio do ajuste dos modelos, encontrou-se que a variável CRP
[%] pode ser adequadamente explicada pela variável Tsk-HZn [%].
O intercepto e o coeficiente de regressão obtido foram significati-
vos para o modelo ajustado (CRP [%] = 6.481 + 0.871Tsk-HZn [%];
R2 = 0.87, “α” e “β”, p < 0.001). Para cada aumento de uma unidade da
variável Tsk-HZn [%], o valor da variável CRP [%] é multiplicado em
0,871 vezes. Adicionalmente, as variáveis estudadas mostraram forte
grau de associação (CRP [%] vs. Tsk-HZn [%] – ρ = 0.91 [0.85; 0.94],
p < 0.001), manifestando-se como colineares. As figuras 10.5 e 10.6
mostram as saídas obtidas nas análises e os gráficos de dispersão.
Em seguida, o breve estudo exploratório verificou que os métodos de
medição estão altamente associados, possibilitando que a partir da tempe-
ratura observada em zonas quentes seja estimada a concentração de PCR,
diminuindo os custos e tornando mais prático o processo de monitora-
mento pós-jogo no futebol.
Exemplo 3. Métodos paramétricos e não paramétricos: análise
do desempenho observado nas partidas disputadas no campeonato
europeu de handebol feminino de 2020
A busca pela excelência em modalidades esportivas coletivas, assim
como no handebol, tem feito com que treinadores e comissões técnicas
procurem meios e ferramentas para a análise do desempenho em jogos de
equipes de alto nível e para a identificação das variáveis necessárias para
alcançar o sucesso. Entre os anos 1995 e 2001, foram discutidas e implan-
tadas modificações importantes nas regras do jogo, como a “regra do jogo
passivo” relacionada com falta de objetividade no ataque e a “saída de
jogo após o gol”. Essencialmente a partir deste movimento e outras altera-
ções subsequentes (como a mais recente regra do sétimo jogador), o jogo
tornou-se mais rápido, dinâmico e complexo, alterando a intensidade das
Bioestatística
– 258 –
ações dos jogadores. Neste sentido, a escassez de informações oriundas de
análises de desempenho sobre as variáveis que diferenciam equipes ven-
cedoras das perdedoras dificulta o planejamento de treinos e competições
para melhora do desempenho em competições de alto nível, ou mesmo
como referência para equipes, treinadores e jogadores em desenvolvi-
mento. Adicionalmente, com a ausência de público presencial em instala-
ções esportivas em consequência da pandemia global de Sars-cov-2, faz-se
necessário o estudo do desempenho observado nos jogos das competições
desenvolvidas nestas condições. Para isso, foram coletadas informações
de 43 jogos oficiais do Campeonato Europeu Feminino adultos de 2020,
com dados disponibilizados no website da Federação Europeia de Hande-
bol (https://women2020.ehf-euro.com/home/). Logo após a tabulação de
dados para variáveis de ordem coletiva, foram testadas as hipóteses para
normalidade, homoscedasticidade e diferença entre perdedores e vencedo-
res nas partidas. Assim, como nos exemplos anteriores, o banco de dados
é fornecido como material de apoio.
Figura 10.7 – Comparação entre equipes perdedoras e ganhadoras para o número de
lançamentos por equipe
Fonte: elaborada pelo autor.
– 259 –
Aplicação de conceitos e desenvolvimento de exemplos práticos no software “R”
O handebol é uma modalidade que envolve um número grande de
finalizações por lançamentos. Logo, após testar a hipótese de normalidade
(W = 0,98; p = 0,32) e homoscedasticidade (χ2 = 0,11; p = 0,73) verificou-se
que ambas foram respeitadas (utilizando a função “log()” para redução da
escala) e sucedeu-se a realização de uma análise de variância. O leitor deve
perceber que nesse caso poderia perfeitamente ser executado um teste “t”
para amostras independentes. Após as análises, foram verificadas diferenças
significativas para o número de lançamentos realizados por vencedores e
perdedores das partidas (44,42 ± 4,28 vs. 46,81 ± 4,76; F = 6,02, p = 0,016),
em que a estatística “F” (razão de variâncias) é conclusiva.
Figura 10.8 – Comparação entre equipes perdedoras e ganhadoras para perda de
posse de bola (“turnover”)
Fonte: elaborada pelo autor.
No contexto da modalidade, a variável “turnover”, ou perda de posse
de bola, é de suma importância, uma vez que a conservação da posse de
bola para a realização das finalizações é um dos princípios-chave. Nesse
sentido, após testar os pressupostos de normalidade (W=0,98; p=0,26) e
Bioestatística
– 260 –
homogeneidade de variâncias (χ2=1,83; p=0,17), verificou-se que a variá-
vel coleta respeitava tais pressupostos, possibilitando a condução de uma
análise de variância ou um teste “t” de Student para amostras indepen-
dentes. Logo, verificou-se a existência de diferenças significativas entre
o número de perdas de posse de bola de equipes vencedoras e perdedoras
(13,77±3,92 vs. 11,21±3,17; F=11,06, p=0,001).
Figura 10.9 – Comparação entre equipes perdedoras e ganhadoras para o número de
passes realizados
Fonte: elaborada pelo autor.
Assim como em todas as outras modalidades esportivas coletivas,
no handebol o passe é fundamental, constituindo-se em uma forma de
comunicação não verbal entre jogadores de uma mesma equipe. Após
estudar a hipótese normalidade (W=0,96; p=0,02) na distribuição dos
dados e homogeneidade de variâncias entre grupos (χ2=0,407; p=0,52),
verificou-se que pelo menos uma delas não foi respeitada. Logo, como
– 261 –
Aplicação de conceitos e desenvolvimento de exemplos práticos no software “R”
temos amostras não pareadas, com a violação do pressuposto de norma-
lidade e 2 níveis para variável estudada, sugere-se o emprego do teste de
Mann-Whitney por meio do ordenamento de postos. Subsequentemente,
a aplicação deste teste mostrou diferenças significativas entre vencedo-
res e perdedores para o número de passes realizados (837,3±115,19 vs.
763,19±104,32; W=1213,5; p=0,012).
Figura 10.10 – Comparação entre equipes perdedoras e ganhadoras para os erros
de passe
Fonte: elaborada pelo autor.
Assim como verificado na variável anterior, para os erros de passe
também foi violado o pressuposto de normalidade dos dados (W=0,86;
p<0,001), sem violar o pressuposto de homogeneidade de variâncias
(χ2=1,028; p=0,31), sugerindo-se a aplicação do teste de Mann-Whitney
para comparação de medianas. Na sequência à sua aplicação, verificou-se
diferenças significativas entre vencedores e perdedores para o número de
erros de passe (9,4±3,68 vs. 8,23±3,14; W=1175,5; p=0,03).
Bioestatística
– 262 –
Figura 10.11 – Comparação entre equipes perdedoras e ganhadoras para a
distância percorrida
Fonte: elaborada pelo autor.
Por outro lado, para a variável de distância percorrida pelas equi-
pes, a normalidade (W=0,99; p=0,77) e a homoscedasticidade (χ2=0,394;
p=0,52) foram respeitadas, evidenciando a possibilidade de utilização de
uma análise de variância. Logo, com sua aplicação, foi possível verificar
diferenças significativas entre as equipesperdedoras e vencedoras nas par-
tidas (32,39±1,21 vs. 31,79±1,1; F=5,777, p=0,018).
Figura 10.12 – Comparação entre equipes de perdedores e ganhadores para a posse de bola
– 263 –
Aplicação de conceitos e desenvolvimento de exemplos práticos no software “R”
Fonte: elaborada pelo autor.
Para a variável posse de bola também verificaram-se diferenças sig-
nificativas entre vencedores e perdedores nas partidas por meio da análise
de variância (51,79±5,12 vs. 48,21±5,12; F=10,54, p=0,001), uma vez
respeitados os pressupostos para sua utilização (W=0,99; p=0,75; χ2=0,01;
p=0,99). Adicionalmente, para a eficiência de ataque também foram evi-
denciadas diferenças entre vencedores e perdedores nos jogos (42,55±4,46
vs. 51,85±5,88; F=71,7, p<0,001), respeitando-se também tais pressupos-
tos para análises (W=0,99; p=0,84; χ2=0,19; p=0,65).
Figura 10.13 – Comparação entre equipes perdedoras e ganhadoras para a
eficiência de ataque
Bioestatística
– 264 –
Fonte: elaborada pelo autor.
Por fim, com base nos testes de hipóteses, foi possível verificar um
maior número de lançamentos e eficiência de ataque para as equipes ven-
cedoras, enquanto verificou-se um maior número de perdas de posse de
bola (turnovers), passes, erros de passes, posse de bola e distância per-
corrida para as equipes perdedoras. Isso sinaliza que as equipes vencedo-
ras possivelmente são mais objetivas (menos passes, mais lançamentos)
quando estão com a posse de bola direcionada à meta adversária, desgas-
tando-se menos fisicamente durante o jogo (distância percorrida), come-
tendo menos erros de passes e lançamentos. Estas informações são extre-
mamente importantes para o entendimento da dinâmica atual do jogo.
Exemplo 4. Métodos paramétricos e não paramétricos: efeito da desi-
dratação sobre o desempenho de força em lutadores de judô amadores
As competições nas artes marciais são equalizadas em suas condi-
ções de disputa por meio da adoção de categorias definidas pelo valor de
massa apresentado pelos indivíduos. A alocação de indivíduos nas cate-
gorias é efetuada por meio da realização de procedimentos de determi-
nação da massa dias antes das lutas, uma vez que a força passiva (força
peso) é determinante no resultado dos embates. Nesse sentido, os atletas
de artes marciais como o judô, em geral costumam concentrar-se em cate-
gorias inferiores ao seu peso normal, induzindo procedimentos agressivos
como o jejum e a desidratação para perder massa corporal antes da pesa-
gem, recuperando em seguida sua massa normal antes das competições.
– 265 –
Aplicação de conceitos e desenvolvimento de exemplos práticos no software “R”
Entretanto, é bem conhecido que estes procedimentos de perda abrupta de
massa corporal levam a uma redução da capacidade de produção de força.
Tabela 10.1 – Variáveis de desempenho físico nos momentos pré-desidratação, pós-
desidratação e pré-competição (x s± )
Teste Variáveis Pré-desidratação Pós-desidratação Pré-competição
Preensão
manual
PF (N) 91,84±34,48 84,01±35,73 76,17±34,42
RFD (N.s-1) 235,0± 80,2 136,1± 43,4 184,4± 116,2
RFD200 (N.s -1) 239,8±130,8 145,3±57,65 144,2± 109,7
Tração de
membros
inferiores
PF(N) 860,38±369,60 787,73±392,59 890,26±316,81
RFD (N.s-1) 3197,68±2811,01 2338,02±1890,02 2774,50±2141,19
RFD200 (N.s -1) 1796,88±1348,86 1055,20±1188,56 1917,45±1135,48
Massa Massa (kg) 85,21±11,79 78,58±13,76 87,79±18,15
Fonte: elaborada pelo autor.
O objetivo deste exemplo é avaliar o efeito do processo de desidra-
tação sobre as respostas de força em atletas de judô, em um experimento
delineado inteiramente ao acaso. Entendendo essas premissas, um expe-
rimento foi conduzido com a hipótese de que a realização do procedi-
mento de desidratação reduz o desempenho de força, sendo recuperado
com a retirada das restrições de ingestão de água e alimentos após a
pesagem, previamente à competição.
Na sequência, os 12 judocas saudáveis recrutados foram submetidos
a medições das respostas de força (testes de preensão manual e tração de
membros inferiores) inicialmente (controle), após a execução do procedi-
mento de jejum e desidratação (pós-desidratação) e pré-competição com
a recuperação da ingestão de água e alimentos (lutas). Para os testes de
força de preensão manual e tração de membros inferiores, os dinamôme-
tros digitais foram customizados para preensão e tração manual, sendo
previamente calibrados (capacidade de 2000N, amostragem de 1 KHz).
A partir destes dispositivos, foram obtidas curvas força-tempo (figura
10.14), onde foram extraídas variáveis de pico de força, que corresponde
ao maior valor de força na curva força-tempo, e taxa de produção de força
(TPF Força
Tempo
=
∆
∆
), que é a maior variação de força obtida no tempo.
Bioestatística
– 266 –
Figura 10.14 – Curva força-tempo durante um teste de tração de membros inferiores
Fonte: elaborada pelo autor.
Inicialmente, o banco de dados foi importado (figura 10.15) e as vari-
áveis estudadas foram descritas em termos de média e desvio padrão, con-
forme descrito na tabela 10.1. Para avaliar as respostas, os pressupostos de
normalidade e homoscedasticidade foram verificados por meio dos testes
de Shapiro-Wilk e Bartlett, respectivamente, para todas as variáveis quan-
tificadas. Caso algum dos pressupostos fosse violado, foi executada uma
transformação logarítmica (aplicação de logaritmo neperiano) e realiza-
dos novamente os testes para verificação dos pressupostos mencionados.
Figura 10.15 – Importação do banco de dados e declaração de variáveis
– 267 –
Aplicação de conceitos e desenvolvimento de exemplos práticos no software “R”
Fonte: elaborada pelo autor.
Para as variáveis que respeitam os pressupostos testados anterior-
mente, foi empregada uma análise de variância (fator momento) para ava-
liar a existência de diferenças entre momentos. Para as variáveis que não
respeitam os pressupostos testados, foi aplicado o teste não paramétrico
de Friedman. Caso os valores da estatística c2 (qui-quadrado) fossem sig-
nificativos, foi empregado o teste de comparações múltiplas de Nemenyi
(neste caso, o leitor também poderia empregar testes de Wilcoxon).
Para isso, deve ser instalado e chamado na linha de comandos o pacote
“PMCMRplus” (Figura 10.16).
Figura 10.16 – Análise das variáveis de desempenho nos testes de preensão manual
Bioestatística
– 268 –
Fonte: elaborada pelo autor.
Para a massa corporal, foi verificada a existência de diferenças
entre as medianas dos momentos de avaliação (c22 16 615= , , p < 0,001).
Entre os momentos controle e pós-desidratação, foi verificada uma
redução significativa da massa corporal do grupo estudado (p = 0,001),
– 269 –
Aplicação de conceitos e desenvolvimento de exemplos práticos no software “R”
seguida de aumento significativo entre os momentos pós-desidratação
e pré-competitivo (p = 0,001), sem alterações entre os momentos con-
trole e pré-competição (p = 0,99) e com moderada instabilidade da
resposta (13,83% - 20,67%).
Nos testes de força de tração de membros inferiores, as variáveis
obtidas a partir da curva força-tempo não apresentaram alterações signifi-
cativas entre os momentos de avaliação (PFtração, F2,33 = 0,545, p = 0,585;
TPFtração, F2,33 = 0,423; p < 0,659; TPF200tração, c22 1 166= , , p = 0,558).
Adicionalmente, foi verificado que as variáveis de força oriundas do teste
de tração de membros inferiores mostraram grande instabilidade relativa,
oscilando entre 35,58% e 132,9%.
Figura 10.17 – Análise das variáveis de desempenho nos testes de tração de
membros inferiores
Bioestatística
– 270 –
Fonte: elaborada pelo autor.
Nos testes de força de preensão manual, as variáveis PFmanual
(F2,33 = 0,742; p < 0,484), TPF200manual (c22 3 5= , , p = 0,174) não
apresentaram alterações significativas entre os momentos de avaliação.
Porém, a TPFmanual mostrou diferenças entre os momentos de avalia-
ção (c22 6 5= , , p = 0,038), verificou-se uma redução significativa entre
o momento de avaliação inicial (controle)e o momento pós-desidratação
(p = 0,038), sem alterações entre o momento controle e pré-competição
(p = 0,158) e pós-desidratação e pré-competição (p = 0,813). As variáveis
de força de preensão manual mostraram demasiada instabilidade rela-
tiva, verificada entre 31,87% e 115,10%. A figura 10.18 mostra os valores
médios das variáveis obtidas nos testes de força de preensão manual e tra-
ção de membros inferiores em diferentes momentos da experimentação.
Figura 10.18 – Valores médios das variáveis de pico de força e taxa de produção
de força nas tarefas de preensão manual e tração de membros inferiores († indica
diferenças entre momentos)
– 271 –
Aplicação de conceitos e desenvolvimento de exemplos práticos no software “R”
Fonte: elaborada pelo autor.
Bioestatística
– 272 –
Para membros inferiores, o procedimento de desidratação não afetou
o desempenho de força dos judocas. Entretanto, os resultados dos testes
de força de preensão manual em diferentes momentos mostraram que o
procedimento de desidratação alterou o desempenho de força explosiva
(taxa de produção de força), porém, não é possível afirmar que a capaci-
dade de produção de força explosiva foi recuperada para as lutas, pois o
desempenho encontrado não se manifestou como superior ao momento de
avaliação pós-desidratação. No judô, um esporte onde a força de preensão
manual é preponderante para a realização dos golpes e determinante para
o resultado da luta, a informação obtida é essencial a treinadores e atletas.
Por fim, após a apresentação dos exemplos neste capítulo, reco-
menda-se que o leitor se sinta livre e encorajado para reproduzir os
exemplos contidos neste documento e explorar outros bancos de dados,
de forma a consolidar o aprendizado experimentado neste documento.
Espera-se que este curso tenha motivado substancialmente o interesse
do pelo campo da bioestatística.
Gabarito
Bioestatística
– 274 –
1. Explorando conceito básicos em Bioestatística
1. B.
2. D.
3. E.
4. D.
5. E.
6. D.
7. A.
8. B.
9. B.
2. Aplicando conceitos: introdução
pacote de análise de dados Microsoft
Excel® ao software estatístico “R”
1. C, “>”, alerta do programa; “+” significa que o comando digi-
tado é incompleto.
2. C, para verificar a hipótese de normalidade no software R,
emprega-se o comando “shapiro.test(x)”
3. D, os objetos no software R consistem de fatores, matrizes, veto-
res e listas.
4. C, para realizar a importação de quadros de dados, deve-se
empregado o comando read.table(nome do arquivo) para arqui-
vos em extensão .txt e read.csv2(nome do arquivo) para arqui-
vos em Excel em que os dados são separados por vírgulas.
5. D, para solicitar exemplos de como se emprega determinado comando,
deverá ser utilizado o comando example (comando desejado).
6. D.
7. A.
– 275 –
Gabarito
8. A.
9. A.
10. D.
11. B.
3. Distribuição normal de probabilidade
e aplicações
1. B, as distribuições são classificadas como discretas e contínuas.
2. A, teorema central do limite fundamenta a distribuição normal
de probabilidade.
3. D, a função de densidade que descreve os valores de probabilidade
na distribuição normal é f x exp x1
2
1
22 2
2 .
4. B, é importante o conhecimento da distribuição de proba-
bilidade, de média igual a 0, desvio padrão igual a 1 (por
serem padronizados), para sua determinação dos escores “z”
emprega-se a relação �z
x
s
i�
�� �� .
5. D, os escores “z” padronizados são Adriana, z=2,6; André,
z=1,83; Renata, z=0,8; Pedro, z=-0,33.
6. E, o intervalo de respostas típicas para homens e mulheres é de
68,24 a 91,76; 55,2 a 74,8;
7. B, os escores z padronizados para mulheres 52,125 a 77,875kg;
e homens 64,55 a 95,45kg;
8. D, observando a tabela os valores da variável “z” são iguais
a 1,01 e 2,47.
9. B, A maior dos animais (95%) produz entre 8,12kg a 19,88kg.
10. C, A maioria dos bezerros machos (95%) apresentará pesos ao
nascer entre 23±1,96*3, ou seja, de 17,12 a 28,88kg.
Bioestatística
– 276 –
4. Associação e relacionamento de variáveis
1. C, as variáveis correlacionadas são de característica contínua,
com valores em frações.
2. B, como as duas variáveis são de ordem continua espera-se que
a distribuição dos dados seja normal. Logo, o teste de correlação
recomendado é o de Pearson.
3. A, a atividade eletromiográfica explica moderadamente a res-
posta de torque muscular, com um valor de ordem 0,65.
4. D, no estudo de modelos lineares simples, a correlação entre
as duas variáveis do modelo é igual à raiz quadrada do coefi-
ciente de determinação (R2), quando obtemos um modelo com
R2=0,95 ele é muito mais confiável em termos preditivos que
com R2=0,85. Existe uma subjetividade aliada ao interesse do
pesquisador neste tipo de avaliação. Uma correlação de 42%
mesmo que significativa não despertaria esse interesse. As asso-
ciações definidas por r ≥ 0,75 são mais atraentes por darem
subsídios mais seguros para o mecanismo biológico que rege a
variação das duas respostas estudadas e independentes.
5. C, verifica-se forte associação entre a dose de uma droga e per-
centual de animais que desenvolvem tumores (ρ=0,8928).
6. C, a probabilidade de significância para o teste unilateral é
igual a 0,006, indicando que existe uma associação positiva
significativa entre a dosagem da droga e o desenvolvimento
do tumor. Quanto maior a dose espera-se que maior será o
percentual de animais que desenvolvem o tumor. Para o teste
bilateral seria 0,012. Usando a aproximação normal tem-se
que p=P[ρ≥0,8928]=P[N(0,1)≥2,19]=0,014.
7. D, verificou-se forte associação entre os juízes que proferem
notas que como variáveis não possuem distribuição normal.
8. E, Se a falta de ajuste (com 2 gl) não foi significativa, não houve
desvio de linearidade e se o efeito linear foi significativo, deve-
mos aceitar o modelo como sendo linear.
– 277 –
Gabarito
9. B, a falta de ajuste significativo desclassifica a alternativa de
linearidade. O fato de o efeito linear também ser significativo só
traduz o fato de que se matematicamente definirmos a melhor
reta para os pontos experimentais, ela terá inclinação grande
(significativa) mas o modelo não representa bem aqueles pontos.
Um novo modelo deverá ser sugerido a partir destes.
10. C, provavelmente o efeito é curvilíneo (parabólico) e uma reta
aplicada à distribuição de pontos nesse formato redundaria em um
modelo quase paralelo ao eixo horizontal. Nesse caso, um novo
modelo de ordem superior (quadrático) deverá ser investigado.
5. Noções de inferência estatística
1. A. Os erros para a tomada de decisão são os de tipo 1 e 2.
2. E. O erro tipo I é definido pela rejeição da hipótese nula
quando de fato deveria ser verdadeira. O erro tipo II é o
inverso – onde há confirmação da hipótese nula quando na
verdade deve ser refutada.
3. B. As etapas envolvem a construção de hipóteses, cálculo
da estatística de teste e do valor de probabilidade, seguido da
tomada de decisão.
4. D. Teste unilateral: H0: μ ≥3,32; H1: μ<3,32; teste bilateral: H0:
μ=3,32; H1: μ≠3,32.
5. B. Hipótese nula – os valores de colesterol LDL são iguais entre
indivíduos das cidades; hipótese alternativa – os valores de coles-
terol LDL são diferentes entre indivíduos das cidades (bilateral).
6. Conforme vimos anteriormente, o valor-alvo de ovos industriais
é de x=48gramas, em escore “z” pela expressão z= (48-53)/6,4=-
0,78, com valor de probabilidade pela tabela normal padronizada
de 0,2823 (28,23%) das respostas individuais possíveis, em con-
formidade com a unidade II. A probabilidade de obtermos res-
postas abaixo de 48 g seria de 21,77% (0,5 – 0,2823 = 0,2177).
Bioestatística
– 278 –
Nesse sentido, esses 21,77% de 3000 ovos produzidos pela
granja representam 653,1 ovos. Assim, é possível atender a
demanda produzida.
7. B. Ao aumentar o número de observações, nem a média nem o
desvio-padrão de uma variável são afetados, pois são inerentes à
resposta medida. Porém, o valor médio possui maior confiança
pela redução de seuintervalo (x±s t√n) devido à elevação do
tamanho da amostra e à diminuição do valor de “t”.
8. Teste t para amostras independentes = (68,87-74,36) /√(10,334/7+
+10,334/8) = -5,49/1,66=-3,29. Na tabela “t” com 6 + 7 = 13
graus de liberdade t = 2,160. Como o valor de “t” calculado
(3,299) foi maior que o de “t” tabelado (2,160), as duas médias
de digestibilidade são estatisticamente diferentes (nível de 5%
de significância). O capim Brachiaria apresenta maior digestibi-
lidade que o capim elefante.
9. C. A média de 7 amostras estaria provavelmente no intervalo de
68,87±t*s/√7, onde os valores de t e s poderiam ser 2,447 e 3,40
(valores para 7 graus de liberdade) ou mais precisamente 2,160 e
3,21 (referentes à avaliação conjunta das forrageiras, com 13 graus
de liberdade). O intervalo seria 68,87±2,62 (66,25% a 71,49%).
10. C. É interessante notar que se deseja informação sobre valores
individuais, então médios. Considerando que o valor médio de
digestibilidade (74,36%) obtido pela amostragem de Brachiaria
e seu desvio-padrão (3,05% ou também mais precisamente seu
valor mais provável 3,21%), a maior parte dos resultados obti-
dos (95% deles) estaria no intervalo 74,36±1,96*3,2, ou seja,
de 68,07% a 80,65%.
6. Estudo de Dispersão de Frequência e
Análise da Concordância de Variáveis
Quantitativas e Qualitativas
1. A resposta medida é quantitativa, discreta, descontinuada (fluxo
de resposta), apresenta distribuição não normal, muito instável
– 279 –
Gabarito
(média = 15,66; desvio – padrão = 9,20; cv% = 58,73%) e nomi-
nal (tipo intervalar). O ensaio possui delineamento longitudinal
com amostras independentes.
Determinação da frequência esperada (Fe – negrito).
Faixa etária Amostragem Animais com
tumor
Animais sem
tumor
Até 3 anos 82 6 [22,40] 76 [59,59]
De 3 a 6 anos 63 9 [17,21] 54 [45,78]
De 6 a 9 anos 50 7 [13,66] 43 [36,33]
De 9 a 12 anos 70 23 [19,12] 47 [50,87]
De 12 a 15 anos 45 25 [12,29] 20 [32,7]
De 15 a 18 anos 34 24 [9,28] 10 [24,71]
Total 344 94 250
Cálculo do Índice de afastamento qui-quadrado:
� 2
2 2 26 22 4
22 4
9 17 21
17 21
7 13 66
13 66
23 19 12
�
�� �
�
�� �
�
�� �
�
��,
,
,
,
,
,
, ��
�
�� �
�
�� �
�
�� �
�
2 2 2 2
19 12
25 12 29
12 29
24 9 29
9 29
76 59 59
59 59,
,
,
,
,
,
,
554 45 78
45 78
43 36 33
36 33
47 50 87
50 87
20 322 2 2�� �
�
�� �
�
�� �
�
�,
,
,
,
,
,
,77
32 7
10 24 71
24 71
77 54
2 2� �
�
�� �
�
,
,
,
, �
� 2
2 2 26 22 4
22 4
9 17 21
17 21
7 13 66
13 66
23 19 12
�
�� �
�
�� �
�
�� �
�
��,
,
,
,
,
,
, ��
�
�� �
�
�� �
�
�� �
�
2 2 2 2
19 12
25 12 29
12 29
24 9 29
9 29
76 59 59
59 59,
,
,
,
,
,
,
554 45 78
45 78
43 36 33
36 33
47 50 87
50 87
20 322 2 2�� �
�
�� �
�
�� �
�
�,
,
,
,
,
,
,77
32 7
10 24 71
24 71
77 54
2 2� �
�
�� �
�
,
,
,
, �
, ,Xcalculado tabelado
2
0 05 5
277 54 11 54, ;X
A frequência observada por faixa etária de tumores difere
da esperada, logo as variáveis de faixa etária e presença de
tumor estão associadas (rejeita-se a hipótese nula de indepen-
dência de variáveis).
2. Hipóteses
H0: As variáveis de faixa etária e presença de tumor são indepen-
dentes (não estão associadas);
H1: As variáveis de faixa etária e presença de tumor não são
independentes (associadas).
3. Caso a hipótese nula de associação entre a faixa etária e a presença de
tumores seja rejeitada, a frequência de ocorrência de tumores em cães
para animais de 3 a 6 anos de idade deverá ser maior que 17,21 cães.
Bioestatística
– 280 –
4.
2 T1 – Captura e alocação direta para produção (antiga ação);
2 T2 – Captura, núcleo de colonização e posteriormente transferi-
dos para produção.
Determinação da frequência esperada (Fe – negrito):
Tratamentos
Desempenho pleno de enxames
Amostra
[+] [-]
Tratamento [T1] 33 [38,5] 22 [16,5] 55
Tratamento [T2] 37 [31,5] 8 [13,5] 45
Frequência Observada 70 30 100
Tratamentos:
Hipótese:
2 H0: A frequência observada não difere da frequência esperada;
2 H1: A frequência observada difere da frequência esperada.
Cálculo do Índice de afastamento qui-quadrado:
� 2
2 2 2 237 31 5
31 5
8 13 5
13 5
33 38 5
38 5
22 16 5
1
�
�� �
�
�� �
�
�� �
�
�� �,
,
,
,
,
,
,
66 5
5 82
,
,� �
2 3, ,Xcalculado tabelado
2
0 05 1
25 8 84, ;X
Após o cálculo do índice de afastamento de qui-quadrado, veri-
ficou-se a rejeição da hipótese nula em favor da hipótese alterna-
tiva. Logo, recomenda-se ao apicultor a adoção do procedimento
de captura de enxames, criação de um núcleo de colonização para,
em seguida, serem transferidos para os núcleos de produção.
– 281 –
Gabarito
5.
Determinação da frequência esperada (Fe – negrito):
Coloração Mutante Ovos férteis Ovos inférteis Total Ovos férteis [%]
Branco (Recessivo – bb) 515[680,72] 1287[1121,37] 1802 28,6
Amarelo Nevado
(Dominante – Ab) 506[442,35] 665[728,64] 1171 43,2
Amarelo Intenso
(Dominante – AA) 58[48,35] 70[79,64] 128 45,3
Vermelho Intenso
(Dominante – VV) 205[112,57] 93[185,43] 298 68,8
Total 1284 2115 3399
Hipótese:
2 H0: A distribuição de frequência observada não difere da frequên-
cia esperada;
2 H1: A distribuição de frequência observada difere da frequên-
cia esperada.
, ,calculado tabelado
2
0 05 3
2204 61 7 82, ;XX
Logo, rejeita-se a hipótese nula em favor da hipótese alternativa.
Adicionalmente, há diferença entre aves de coloração recessiva
e aves de coloração dominantes:
Coloração
Fertilidade dos ovos
Amostragem
[+] [-]
Coloração recessiva 515 [680,72] 1287 [1121,27] 1802
Coloração dominante 769 [603,27] 828 [993,72] 1597
Frequência observada 1284 2115 3399
Hipótese:
2 H0: A frequência observada não difere da frequência esperada;
2 H1: A frequência observada difere da frequência esperada.
Bioestatística
– 282 –
, ,Xcalculado tabelado
2
0 05 1
2137 99 3 84, ;X
Após o cálculo do índice de afastamento qui-quadrado, verificou-
-se que há diferenças entre a frequência observada e esperada de ovos de
colorações recessiva e dominante sobre a fertilidade dos mesmos.
6. Postos calculados abaixo.
Cão A B C D E F G
Consumo de oxigênio (X) 78 92 116 90 106 78 99
Postos (X) 1,5 4 7 3 6 1,5 5
Pressão ventricular (Y) 32 33 45 30 38 24 44
Postos (Y) 3 4 7 2 5 1 6
R Si I
2
2,25 0 0 1 1 0,25 1
Os coeficientes de Spearman (rho = 0,9009; p=0,005) e Kendall
(tau = 0,7807; p=0,015) indicam elevada associação positiva entre pos-
tos das variáveis consumo de oxigênio e pressão ventricular.
– 283 –
Gabarito
7.
A concordância entre critérios de avaliação é positiva e razoá-
vel (K=0,263, “FAIR AGREEMENT”), logo, a hipótese nula
foi rejeitada (p<0.001).
8. Não, pois a concordância entre os critérios apesar de significa-
tiva é razoável para ser usado como um recurso rotineiro de ava-
liação dos empregados da empresa.
9.
A concordância entre professores é puramente aleatória, logo,
a hipótese nula não foi rejeitada (p=0.216).
Bioestatística
– 284 –
10.
Os resultados obtidos indicam moderada discordância (tau = – 0,571;
p = 0,061) para o desempenho observado nos testes de habilidade
matemática e compreensão de textos, conforme destacado a seguir.
7. Análise de variância
1. D. As suposições para realização da análise de variância perfa-
zem a presença da distribuição normal de probabilidade e homo-
geneidade ou igualdade de variâncias entre grupos.
2. C. Variação total = tratamento + erro.
3. Determinação da soma dos quadrados para cada uma das fontes
de variação, quadrado médio ou variância das partições, escore
F para identificação de diferenças entre tratamentos e verifica-
ção se o valor de “F” exceder o valor crítico (tabelado) há dife-
rença entre situações experimentais, caso contrário não possuem
diferença entre si.
4. E. O termo “aov()” é empregado para análise de variância, onde
“x” corresponde à resposta, “y” aos tratamentos.
5. E. O comando “aov()” é empregado na análise de variância em
blocos e interação de fatores experimentais, onde os argumentos
são “x” para as respostas estudadas, “y” e “z”para os fatores
estudados, e “bloco” para a variável controlada e a identificação
do conjunto de dados.
– 285 –
Gabarito
6. Considerando as características da estrutura do teste “t” de Stu-
dent, com 22 graus de liberdade (5+7+8+6), a comparação menos
precisa ocorrerá entre os tratamentos A (5) e D (6), por simples-
mente envolver menores amostras. Por outro lado, a comparação
com maior consistência ocorre entre os tratamentos B e C.
7. A implantação deste delineamento exige uniformidade da amos-
tra, do meio de experimentação, para que, ao final do experi-
mento, caso diferenças ocorram entre grupos, sejam atribuídas
tão somente ao efeito de tratamento.
8. O delineamento experimental em blocos possibilita o controle
de uma ou mais fontes de variação que interferem diretamente
sobre a variável resposta, diminuindo a variância do erro e
melhorando a precisão experimental para com o delineamento
inteiramente casualizado.
9. Há diferenças significativas na comparação entre as médias das
estações, favorecendo o período chuvoso, para ambas as ordens
de parto. Por outro lado, a diferença observada para as primí-
paras é visivelmente maior que a para as multíparas. Logo, em
relação à interação entre estação e ordem de parto, já que as
multíparas possuem maior resistência a condições climáticas, a
diferença entre as ordens de parto foi sempre significativa, sendo
maior no período de seca.
10. Foram verificadas diferenças significativas entre os sexos em todas
as concentrações de proteínas, sendo maior que a diferença mínima
significativa de 13,5kg. As diferenças foram mantidas estáveis,
indicando que o efeito de sexo não depende do nível proteico.
8. Métodos não paramétricos para
comparação de duas populações
1. A resposta estudada é em Unidades Formadoras de Colônia
(UFC). As UFC possuem distribuição de probabilidade não
normal. As amostras de leite foram aliquotadas em dois grupos
(previamente contaminados com o patógeno), em que um grupo
Bioestatística
– 286 –
recebeu nisina e outro lactoperoxidase, para verificar o controle
sanitário na produção de queijos.
2. As amostras obtidas são pareadas e o fator experimental
momento possui 2 níveis. Nesse sentido, dadas as características
da resposta, recomenda-se o emprego neste caso do teste não
paramétrico de Wilcoxon para pares ordenados. Como hipóte-
ses, temos:
2 H0: os produtos não diferem quanto ao número de UFC (T Ttab
calc
>
0 05 13, ;
)
2 H1: os produtos diferem quanto ao número de UFC (T Ttab
calc
£
0 05 13, ; )
Logo, para T Ttab
calc
>
0 05 13, ;
, não se rejeita a hipótese nula, ou seja, os
produtos não diferem quanto ao número de UFC.
3.
Origem
do leite
UFC
(nisina)
UFC
(lactoperoxidase) |Diferença| Postos
1 3 5 -2 1
2 87 45 42 8
3 128 93 35 7
4 Incontável 125 875 13
5 23 27 -4 2
6 65 42 23 5
7 250 38 212 12
8 90 22 68 9
9 12 17 -5 3
10 178 63 115 10
11 39 11 28 6
12 203 47 156 11
13 8 15 -7 4
VS = 81
VR = 10
– 287 –
Gabarito
E VS
N N
=
+( )
=
+( )
=
1
4
13 13 1
4
45
Var VS N N N
= +( ) +( )
=
=
1
24
1 2 1
182 27
24
204 75
*
,
Ttab
0 05 13
17
, ;
=
T
calc
= 81
4. Não seria possível concordar com o procedimento adotado.
A contaminação em diferentes níveis poderia levar a condi-
ções diferentes das obtidas anteriormente. Logo, a confiabi-
lidade da medida seria questionável para a resposta de UFC
nos tratamentos. A ausência de controle da contaminação das
unidades experimentais poderá introduzir um fator de confu-
são sobre a resposta medida.
5.
a)
x
x
n
i
n
i= =∑ 1
xt1
0 00149 1860 538 863 250 612 559 629
8
663 8751=
+ + + + + + +( )
=
,
,
xt2
512 98 530 445 200 471 158 490
8
363=
+ + + + + + +( )
=
s =
−( )
=∑ i
n
i
x x
n
1
2
st1 549 43= , ;
Bioestatística
– 288 –
st2 178 65= ,
cv
t
%
,
,
* , %
1
549 43
663 87
100 82 76= =
cv
t
%
,
* , %
2
178 65
363
100 49 21= =
O coeficiente de variação (%) no tratamento 1 foi superior a 50%, não
apresentando homoscedasticidade entre os tratamentos (s s
t t1 2
¹ ). Nesse
sentido, a transformação radicial seria recomendada, sucedendo uma aná-
lise dos pressupostos de normalidade e homoscedasticidade.
b) Na alternativa de uma análise não paramétrica, na qual não há uma
distribuição normal de probabilidade, com amostras independen-
tes e de 2 níveis, será empregado o teste de Mann-Whitney.
6. A transformação radicial alterou a magnitude do cv%, porém o
tratamento permanece superior a 50%, não apresentando homos-
cedasticidade (s s
t t1 2
¹ ) entre tratamentos. Logo, sucede-se o
teste de Mann-Whitney a seguir:
Tratamentos
0,15mg de selênio inorgânico 0,15mg de selênio orgânico
[1] 0,00149 (1,00) [9] 512 (22,62)
[16] 1860 (43,12) [2] 98 (9,89)
[11] 538 (23,19) [10] 530 (23,02)
[15] 863 (29,37) [6] 445 (21,09)
[5] 250 (15,81) [4] 200 (14,14)
[13] 612 (24,73) [7] 471 (21,70)
[12] 559 (23,64) [3] 158 (12,56)
[14] 629 (25,07) [8] 490 (22,13)
Após a transformação radicial, destacada entre parênteses na
tabela anterior:
– 289 –
Gabarito
xt1
1 00 43 12 23 19 29 37 15 81 24 73 23 64 25 07
8
23 2=
+ + + + + + +( )
=
, , , , , , , ,
, 44
st1 11 88= , ;
cv
t
%
,
,
* , %
1
11 88
23 24
100 51 12= =
xt2
22 62 9 89 23 02 21 09 14 14 21 70 12 56 22 13
8
18 3=
+ + + + + + +( )
=
, , , , , , , ,
, 99
st2 5 28= ,
cv
t
%
,
,
* , %
2
5 28
18 39
100 28 74= =
Ws
inorganico
= + + + + + + + =1 16 11 15 5 13 12 14 87
Ws T
organico
= + + + + + + + = =( )9 2 10 6 4 7 3 8 49 49
0 05 8 8
�
, , ,
Somados postos� � =
+( )
=
16 16 1
2
136
E Ws W
inorganico xy
=
+( )
= = − =
8 16 1
2
68 87 36 51;
E Ws W
organico yx
=
+( )
= = − =
8 16 1
2
68 49 36 13;
Var Ws Var Ws
inorganico organico
=
=
+( )
=
8 8 16 1
12
90 6
*
, 66
(n≠m; escolher entre nmenor e tcritico)
P x a P N
a E X
Var x
≤
= ( ) ≤
+( )−
( )
0 1
0 5
,
,
Bioestatística
– 290 –
P Ws P N
inorganico
≥
= ( ) ≥
−( )−
=87 0 1
87 0 5 68
90 66
,
,
,
PP N 0 1 1 94 0 0262, , ,( ) ≥
=
P x a P N
a E X
Var x
≥
= ( ) ≥
+( )−
( )
0 1
0 5
,
,
P Ws P N P N
organico
≤
= ( ) ≥
+( )−
=49 0 1
49 0 5 68
90 66
,
,
,
00 1 1 94 0 0262, , ,( ) ≥ −
=
7. A resposta imunológica das aves é aumentada com o uso do
selênio inorgânico na ração.
8.
Medida
Tratamentos
0,15mg de selênio
inorgânico
0,15mg de selênio
orgânico
Média 66,398 363,00
Desvio padrão 549,43 178,66
CV% 82,76 49,21
Mediana 585,5 458
Máximo 1860 530
Mínimo 0,0015 98
Estatística de teste 51 13
p-valor 0,0262
t t
a m n, , , , ,
=
0 05 8 8 49
9. A utilização de um pool de três aves, decorre de quando o mate-
rial de um só animal se mostra insuficiente para análise labora-
torial. A reunião consiste em um pool que representa réplicas
de cada tratamento. No caso do exercício, o pool foi a média de
3 aves, então, nesse sentido, tende a diminuir a variabilidade
de medida da concentração de anticorpos.
– 291 –
Gabarito
10. O estudo segue delineamento inteiramente ao acaso, em que a
resposta medida é o número de tocas por área nas condições
alagável e seca. Logo, temos as seguintes hipóteses:
2 H0: o número de tocas não difere entre as áreas seca e alagável;
2 H1: o número de tocas difere entre as áreas seca e alagável.
Área Alagável (Postos) Seca (Postos)
1 15 (9) 13 (8)
2 32 (14) 8 (4)
3 20 (11,5) 1 (1)
4 65 (19) 10 (6)
5 23 (13) 5 (3)
6 41 (15) 3 (2)
7 18 (10) 20 (11,5)
8 45 (17) 11 (7)
9 53 (18) 9 (5)
10 43 (16) -
Soma (T) 142 47,5
Média 14,25 5,28
Ttab
0 05 9 10
65
, , ,
=
Tcrítico = nmenor (n1 + n2 + 1) – Tmenor = 9(9+10+1) – 47,5 = 132,5
Entre Tmenor = 47,5 e Tcrítico = 132,5, escolhe-se o menor.
Logo, como o Tmenor = 47,5 < 65, rejeita-se H0 (Tescolhido ≥ Ttabelado, não
se rejeita a hipótese nula). Logo, há diferença entreo número de tocas em
ambiente alagado em relação ao ambiente seco – os caranguejos produ-
zem mais tocas em ambiente alagadiço.
Bioestatística
– 292 –
2 Caso 1: se m = n, escolhe-se a menor soma de postos e com-
para-se com Ttaba,m,n;
2 Caso 2: na ≠ nb, escolhe-se entre nmenor e tcritico; em que:
47,5 < Ttaba,m,n , rejeita-se H0.
Tescolhido ≥ Tcritico, não se rejeita H0.
9. Métodos não paramétricos para
comparação de várias populações
1.
a) Entendendo a propagação de piolhos como dependente das
condições climáticas (covariável), o número de piolhos por ave
poderia ser normalizado pelo valor de umidade relativa (UR)
previamente registrada. No entanto, não se sabe se esta covari-
ável foi registrada no experimento, garantindo correção de pos-
síveis problemas na equidade de condições entre tratamentos.
b) Considerando que as amostras são independentes e há 4 grupos
experimentais, recomenda-se a aplicação do teste de Kruskall-
-Wallis para identificação de possíveis diferenças entre trata-
mentos. Caso afirmativo, aplica-se um teste de comparações
entre medianas (teste não paramétrico de Nemenyi).
c)
– 293 –
Gabarito
Para as comparações sobre as respostas de contagem de piolhos
presentes nos galpões de manejo intensivo e extensivo de aves
com diferentes valores de umidade relativa (UR), verificou-se
que há diferença entre os manejos intensivos e extensivos, tanto
em maior como em menor UR, e por fim entre os manejos inten-
sivo com menor UR e extensivo com maior UR.
2.
a) Caso a comparação das amostras nas granjas fosse indepen-
dente, a estratégia não seria alterada (teste de Kruskall-Wallis),
caso as composições das granjas fossem dependentes entre si,
seria empregado o teste não paramétrico de Friedman.
b) A comparação par a par é efetuada por meio da determinação
da diferença mínima significativa (dms) e da comparação de
medianas observadas nos tratamentos.
c) Para amostras independentes e dois níveis deve ser empregado
o teste de Mann-Whitney ou o teste de comparações múltiplas
de Nemenyi.
3. Análise do ensaio:
Bioestatística
– 294 –
Após as análises, não foram verificadas diferenças de contami-
nações por Staphylococcus aureus entre regiões para as amostras
de leite (c0 05 32 4 2193 0 2387
, ,
, , ,= =p ).
4. Análise do ensaio:
Após as análises, verificou-se diferença entre tratamentos para o
percentual de eclosão de ovos de teleóginas da planta diurética
timbó. Após a aplicação de testes de comparações múltiplas, foi
verificado que houve diferença significativa entre o tratamento
controle o tratamento somente com a planta timbó e planta timbó
adicionada de selênio.
– 295 –
Gabarito
5.
a) Para amostras dependentes, mais de 2 níveis, emprega-se o teste
não paramétrico de Friedman
Tratamento I – ΣRi = 27,5; Xt1 = 1,718; Mdt1 = 1,75;
Tratamento II – ΣRi = 42,5; Xt1 = 2,65; Mdt1 = 3;
Tratamento III – ΣRi = 29; Xt1 = 1,81; Mdt1 = 1,5;
c
Calc ibt t
R b t2 212
1
3 1
12
16 3 3 1
=
+( )
∑
− +( )( )
=
+( )*
227 5 42 5 29 3 16 4
12
192
3403 5 192 20 71872 2 2, , , ,+ +( )− ( )( ) = ( )− =
c
0 05 2
2 5 99
, ,
,=
Logo, c c
Calc tab
2 2> , rejeita-se a hipótese nula, há diferença entre trata-
mentos.
r r
z
t ti j
a− =
−( )
=
−( )
= → − =
1
0 05
3 3 1
0 0083 0 5 0 0083 0 4917
,
, , , ,
dms
z
t t
bt t
a=
−( )
+( )
= =
1
1
6
2 4 5 6 13 44, * , ,
r r
i j
− > ( )13 57, *
r r ns
i j
− ≤ ( )13 57,
Tratamento I – Tratamento II = 15> 13,44* (p = 0,002)
Tratamento I – Tratamento III = 1,5 ≤ 13,44 ns (p = 0,962)
Tratamento II – Tratamento III =13,5 > 13,44* (p = 0,045)
b) À medida que se aumenta a concentração de glicerol, não é pos-
sível verificar um efeito prejudicial do crioprotetor. A concen-
tração de 3,5% de glicerol mostrou uma motilidade superior em
relação às concentrações de 4,5% e 5,5% de glicerol.
6. A concentração de glicerol de 3,5% mostra uma motilidade
superior em relação às concentrações de 3,5% e 5,5%, não
são diferentes.
Bioestatística
– 296 –
7.
a) Considerando a natureza da resposta estudada (contagem), pare-
amento de amostra e mais de 2 níveis, recomenda-se a aplicação
do teste não paramétrico de Friedman.
b) Sim, considerando que o tamanho amostral igual a 5 possui um
poder de 80% para o teste. Logo, a amostra de 11 animais é satis-
fatória para as análises.
8. Para as análises e cômputo da estatística de teste, temos:
c
Calc ibt t
R b t2 212
1
3 1
12
11 4 5
34=
+( )
∑
− +( )( )
=
( )*
111 5 165 20 9267, ,( )− =
c
0 05 3
2 7 82
, ,
,=
Logo, para c c
Calc
2
0 05 3
2>
, , , verifica-se a existência de diferença entre momentos.
r r
z
t t
za
1 2 1
0 05
4 4 1
0 00416 0 5 0 00416 0 4958 2 6− =
−( )
=
−( )
= → − = =
,
, , , , , 33( )
dms
z
t t
bt t
a=
−( )
+( )
= =
1
1
6
263 6 05 15 9115* , ,
r r
i j
− > ( )15 91, *
r r ns
i j
− ≤ ( )15 91,
∑ −∑ = ( )R R ns
h h24 48
5�
∑ −∑ = ( )R R ns
h h24 72
15 5,
∑ − ∑ = ( )R R *h h24 96
25 5,
∑ −∑ = ( )R R ns
h h48 72
10 5,
– 297 –
Gabarito
∑ − ∑ = ( )R R *h h48 96
20 5,
∑ −∑ = ( )R R ns
h h72 96
10�
9. O tratamento para lesões em cavalos mostrou uma redução da
sensibilidade em 96h em relação ao momento de início do trata-
mento (24h) e em relação a 48h de início do tratamento.
10.
c
Calc
2 2 2 3 2 2 212
12 6 7
63 62 43 33 28 23 3 12 6 281 24=
( )
+ + + + +( )− ( )( ) = −
*
, 2252 35 24 2 2= >, ;Ç ÇCalc tab
c
tab
2 11 07= ,
dms
z
t t
bt t
a=
+( )
+( )
= =
1
1
6
2 93 9 16 26 85, * , ,
r r
z
t t
z
i j
a− =
−( )
= → − = =( )
1
0 0017 0 5 0 0017 0 4983 2 93, , , , ,
r r
i j
− > ( )26 85, *
r r ns
i j
− ≤ ( )26 85,
DMS = 26,85
C1 – C2: 63 – 62 = 1 (ns)
C1 – C3: 63 – 43 = 20 (ns)
C1 – C4: 63 – 33 = 30 (p<0,05) *
C1 – C5: 63 – 28 = 35 (p<0,05) *
C1 – C6: 63 – 23 = 40 (p<0,05) *
C2 – C3: 62 - 43 = 19 (ns)
Bioestatística
– 298 –
C2 – C4: 62 - 33 = 29 (p<0,05) *
C2 – C5: 62 - 28 = 34 (p<0,05) *
C2 – C6: 62 - 23 = 39 (p<0,05) *
C3 – C4: 43 - 33 = 10 (ns)
C3 – C5: 43 - 28 = 15 (ns)
C3 – C6: 43 - 23 = 20 (ns)
C4 – C5: 33 - 28 = 5 (ns)
C4 – C6: 33 - 23 = 10 (ns)
C5 – C6: 28 - 23 = 5 (ns)
A resposta de vigor medida seis horas após a diluição e conserva-
ção em temperatura adequada nas concentrações de diluente 1 e 2
diferiu significativamente das concentrações 4, 5 e 6 de diluente.
Referências
Bioestatística
– 300 –
CRAWLEY, M. J. The R book. San Francisco: John Wiley & Sons, 2013.
PAGANO, M.; GAUVREAU, K. Princípios de bioestatística. 2. ed. São
Paulo: Pioneira Thompson Learning, 2004.
SAMPAIO, I. B. M. Estatística aplicada à experimentação animal.
Belo Horizonte: FEPMVZ, 2010.
SHAHBABA, B. Biostatistics with R. New York: Springer, 2012.
SIQUEIRA, A. L.; TIBÚRCIO, J. D. Estatística na área da saúde: con-
ceitos, metodologia, aplicações e prática computacional. Belo Horizonte:
Coopmed, 2011.
TRIOLA, M. F. Introdução à estatística. 10. ed. Rio de Janeiro:
LTC, 2011.
ZAR, J. H. Biostatistical analysis. New Jersey: Prentice-Hall, 1984.
G
RU
PO
SER ED
U
CACIO
N
AL
gente criando o futuro
ISBN 978-65-86557-92-3
9 786586 557923
BIOESTATÍSTICA
BIO
ESTATÍSTICALEANDRO VINHAS DE PAULA
LEANDRO VINHAS DE PAULA
BIOESTATÍSTICA
Em cursos da área biológica e da saúde, sempre ouvimos os alunos falando que
escolheram essa área para fugir da matemática. Mas, ao ingressar no curso,
percebem que a matemática está presente e faz uma grande diferença conhecer
a aplicação dela para avançar e evoluir na carreira profissional.
A matemática possui diversas ferramentas de análises estatísticas que podem e
devem ser usadas para trazer confiabilidade aos dados coletados e apresentados
na área biológica.
Toda vez que vemos, por exemplo, uma pesquisa para algum cargo público,
sempre vem destacado: “Esta pesquisa tem margem de erro de dois pontos
percentuais, para mais ou para menos”. Por que então não usamos essas
ferramentas para mostrar a margem de erro em artigos científicos da área
biológicae da saúde? É aqui que a bioestatística entra para brilhar.
Podemos usar fórmulas para definir o tamanho da amostra que será coletada de
determinado organismo em um fragmento florestal; ou usar uma equação pra
definir qual a margem de confiança dos resultados apresentados. Que tal pegar
os dados que você coletou e colocou na planilha do Excel, de uma forma que
fica difícil de explicar, e transformar em um gráfico autoexplicativo? É aqui que a
bioestatística fará toda a diferença na sua formação.
Compreender a aplicação da estatística para dados biológicos é fundamental
para a sua formação. Logo, este livro irá contribuir para a difusão do ensino
da bioestatística e ajudará na formação dos futuros pesquisadores das áreas
biológica e da saúde.