A média (média) é calculada somando todos os valores em um conjunto de dados e depois dividindo a soma pelo número total de valores. Representa a tendência central dos dados.
Fórmula: Média = (Σx) / n
Onde:
- Média é a média
- Σx é a soma de todos os valores no conjunto de dados
- n é o número total de valores no conjunto de dados
A mediana é o valor central em um conjunto de dados quando os valores são organizados em ordem crescente.
Se houver um número par de valores, a mediana será a média dos dois valores intermediários.
Fórmula (número ímpar de valores): Mediana = valor médio
Fórmula (Número par de valores): Mediana = (Valor na posição n/2 + Valor na posição (n/2 + 1)) / 2
O mínimo é o menor valor em um conjunto de dados.
Fórmula: Mínimo = Menor Valor
O máximo é o maior valor em um conjunto de dados.
Fórmula: Máximo = Maior Valor
O intervalo é a diferença entre os valores máximo e mínimo em um conjunto de dados. Ele fornece uma medida da dispersão ou variabilidade dos dados.
Fórmula: Faixa = Máximo - Mínimo
O intervalo médio é a média dos valores máximo e mínimo em um conjunto de dados.
Fórmula: Médio = (Máximo + Mínimo) / 2
A contagem representa o número total de valores em um conjunto de dados.
A soma é o total de todos os valores em um conjunto de dados.
Fórmula: Soma = Σx
Onde:
- Σx é a soma de todos os valores no conjunto de dados
Um percentil representa o valor abaixo do qual cai uma determinada porcentagem dos dados. Muitas vezes é usado para identificar pontos de dados específicos em uma distribuição.
Um quartil divide um conjunto de dados em quatro partes iguais, com cada parte contendo 25% dos dados. Os quartis são frequentemente usados para avaliar a dispersão dos dados.
A soma dos quadrados é a soma dos quadrados das diferenças entre cada ponto de dados e a média. É um componente chave no cálculo da variância e do desvio padrão.
Fórmula: Soma dos Quadrados = Σ(x - Média)²
Onde:
- Σ representa o símbolo de soma
- x é cada ponto de dados
- Média é a média (média) do conjunto de dados
O desvio padrão mede a quantidade de variação ou dispersão em um conjunto de dados. Indica quão distantes os pontos de dados estão da média.
Fórmula: Desvio Padrão = √(Σ(x - Média)² / (n - 1))
Onde:
- √ representa a raiz quadrada
- Σ representa o símbolo de soma
- x é cada ponto de dados
- Média é a média (média) do conjunto de dados
- n é o número total de valores no conjunto de dados
A variação é uma medida da propagação ou dispersão de um conjunto de dados. É a média das diferenças quadradas entre cada ponto de dados e a média.
Fórmula (Variância Populacional): Variância (σ²) = Σ(x - Média)² / N
Onde:
- Σ representa o símbolo de soma
- x é cada ponto de dados
- Média é a média (média) do conjunto de dados
- N é o número total de valores na população
Observação: ao trabalhar com uma amostra de dados, use a fórmula de variância amostral, que divide por (N - 1) em vez de N. Essa correção leva em conta o viés amostral.
O escore Z mede quantos desvios padrão um ponto de dados está da média em uma distribuição normal padrão. É usado para padronizar os dados e avaliar sua posição em relação à média.
Fórmula: Z-Score = (x - Média) / Desvio Padrão
Onde:
- x é o ponto de dados
- Média é a média (média) do conjunto de dados
- Desvio padrão é o desvio padrão do conjunto de dados
O intervalo interquartil é o intervalo entre o primeiro quartil (Q1 - percentil 25) e o terceiro quartil (Q3 - percentil 75) em um conjunto de dados. Ele fornece uma medida da distribuição dos 50% intermediários dos dados.
Fórmula: AIQ = Q3 - Q1
Onde:
- Q1 é o primeiro quartil (percentil 25)
- Q3 é o terceiro quartil (percentil 75)
O coeficiente de variação é uma medida relativa da variabilidade e é expresso em percentagem. É usado para comparar o desvio padrão dos dados com a sua média, tornando-o útil para avaliar a variabilidade relativa entre conjuntos de dados com médias diferentes.
Fórmula: CV = (desvio padrão/média) * 100%
A assimetria mede a assimetria da distribuição de probabilidade de uma variável aleatória com valor real. Indica se os dados estão distorcidos para a direita ou para a esquerda.
Uma inclinação positiva indica que a cauda da distribuição está inclinada para a direita (inclinada para a direita), o que significa que há valores mais extremos no lado direito da distribuição.
Uma inclinação negativa indica que a cauda da distribuição está inclinada para a esquerda (inclinada para a esquerda), o que significa que há valores mais extremos no lado esquerdo da distribuição.
A curtose mede a "cauda" da distribuição de probabilidade de uma variável aleatória com valor real. Indica a presença e o grau de outliers nos dados.
Uma curtose positiva (leptocúrtica) indica caudas pesadas e um pico, o que significa que os dados têm valores mais extremos e são mais pontiagudos do que uma distribuição normal.
Uma curtose negativa (platicúrtica) indica caudas leves e uma distribuição mais plana, o que significa que os dados têm menos valores extremos e são mais achatados do que uma distribuição normal.
A covariância mede o grau em que duas variáveis mudam juntas. Indica se as variáveis possuem relação linear positiva ou negativa.
Fórmula: Cov(X, Y) = Σ((X - Média(X)) * (Y - Média(Y))) / (n - 1)
Onde:
- Σ representa o símbolo de soma
- X e Y são variáveis
- Média (X) e Média (Y) são as médias de X e Y, respectivamente
- n é o número total de observações
Se a covariância for positiva, indica uma relação positiva (X tende a aumentar quando Y aumenta).
Se a covariância for negativa, indica uma relação negativa (X tende a diminuir quando Y aumenta).
O coeficiente de correlação mede a força e a direção da relação linear entre duas variáveis. É uma versão normalizada da covariância que varia de -1 a 1.
Fórmula: r = Cov(X, Y) / (Desvio Padrão(X) * Desvio Padrão(Y))
Onde:
- Cov(X, Y) é a covariância entre X e Y
- Desvio Padrão (X) e Desvio Padrão (Y) são os desvios padrão de X e Y, respectivamente
Se |r| está próximo de 1, indica uma relação linear forte, com r positivo indicando uma correlação positiva e r negativo indicando uma correlação negativa. Se |r| está próximo de 0, indica uma relação linear fraca ou inexistente.
Última atualização: 19 de janeiro de 2024
Emma Smith possui mestrado em inglês pela Irvine Valley College. Ela é jornalista desde 2002, escrevendo artigos sobre a língua inglesa, esportes e direito. Leia mais sobre mim nela página bio.