As medidas resumo são utilizadas para obter uma síntese de informações sobre os dados em estudo, um resumo de como os dados em análise se comportam em vários aspectos importantes. Essas medidas são muito usadas em Análise Descritiva e em Análise Exploratória. A Análise Descritiva é o ramo que se dedica a descrever e resumir dados provenientes de amostras ou censos. A Análise Exploratória também é usada para descrever e resumir dados, porém foca em obter de informações que subsidiem uma melhor aplicação de modelos e métodos inferenciais em dados amostrais (leia o artigo O que é a Estatística?). Este artigo se dedica a tratar sobre as medidas de tendência central: média, mediana e moda.
A média aritmética, medida mais conhecida, é calculada como a soma dos valores de um conjunto numérico dividida pela quantidade de valores. A média representa um valor típico, que poderia substituir os outros sem cometer muito erro, algo como um centro de gravidade. Porém, quando há valores extremos, muito grandes ou muito pequenos, a média pode ser destorcida para um valor de pouca representatividade para o conjunto. Nesses casos, pode-se usar a mediana.
A mediana é o valor central de um conjunto de números. Por exemplo, considere os números de 1 a 5, a mediana é 3; considerando os números de 1 a 6, a mediana é 3,5, média dos valores centrais 3 e 4. A mediana será o valor central se quantidade de valores for ímpar ou será a média dos dois valores centrais se a quantidade for par. Considere ainda os números de 1 a 5, a média também é 3 (igual à mediana). Caso troquemos apenas o número 5 por um bem maior, por exemplo 100, a média saltará para 22 enquanto a mediana continuará em 3. Por isso, dizemos que a mediana é uma medida mais robusta que a média. Uma medida, um método ou um modelo é mais robusto quando o seu resultado é pouco afetado por variações nas condições iniciais.
A moda é simplesmente o valor mais frequente do conjunto numérico. Considere a sequência {1, 2, 2, 3, 4, 5}, a moda é 2 (valor que mais se repete). Por fazerem mais sentido na maioria das situações, a média e a mediana são bem mais usadas do que a moda, porém esta pode ser obtida para dados qualitativos (não numéricos). Considere uma pesquisa sobre as condições de saúde da população de algum bairro e que algumas pessoas não souberam responder o seu próprio tipo sanguíneo. Existem técnicas estatísticas que requerem que os dados de cada indivíduo estejam completos e, para usá-las, você precisa imputar um valor que faça sentido caso não queira descartar toda a informação de uma pessoa que tenha dados faltantes. Não dá para tirar uma média do tipo sanguíneo, mas você pode imputar tipo sanguíneo mais frequente (moda) nos dados dessas pessoas e continuar sua análise.
Existem outras formas de calcular a média. A média geométrica e a média harmônica são usadas em algumas aplicações de Física, Finanças, Ciência Sociais, etc. Há também a média aparada ou truncada, em que descartamos um percentual dos menores e dos maiores valores e calculamos a média dos valores centrais. Você pode calcular a “média aparada 10%” de um conjunto de valores descartando os 10% maiores e os 10% menores e calcular a média utilizando os 80% centrais. Esta medida é usada, em termos simples, quando há a presença de valores extremos tanto nos menores quanto nos maiores valores da distribuição. A média aparada também é considerada uma medida mais robusta do que a média aritmética. Normalmente, corta-se até 25% de cada lado da distribuição de valores.
Essas são as medidas resumo de tendência central. Descreveremos mais medidas em artigos posteriores.
Achou interessante para um amigo? Compartilhe!
Ficou com alguma dúvida? Deixe nos comentários!
Quer receber mais artigos como esse, deixe seu e-mail na lateral ou no final da página.
Estatístico e cientista de dados. Apaixonado por aprender e compartilhar conhecimento nas áreas de estatística, economia, finanças e investimentos. Experiência com modelagem estatística e econométrica para a previsão de demanda no transporte rodoviário de passageiros e ferroviário de cargas; análise econômico-financeira de seguros ferroviários; planejamento amostral para pesquisas de campo e construção de modelos de Machine Learning para a análise de propensão de compra, risco de crédito e detecção de fraude.