Estatística para Data Science Parte 1/8

Alysson Guimarães
Data Hackers
Published in
29 min readJul 20, 2023

--

Nessa nova série Estatística para Data Science, vou abordar diversos tópicos importantes para um cientista de dados. E nesse primeiro post vou falar sobre os seguintes temas:

  • O que é probabilidade
  • Soma de Probabilidades (Eventos Disjuntos)
  • Soma de Probabilidades (Eventos Conjuntos)
  • Independência
  • Regras do produto e da soma
  • Probabilidade Condicional
  • Teorema de Bayes

O que é Probabilidade

A probabilidade é uma medida numérica que quantifica a chance de um evento ocorrer. Ela descreve a incerteza associada a um determinado fenômeno e permite que possamos fazer previsões e tomar decisões com base nessa incerteza. A probabilidade é amplamente utilizada em diversas áreas, incluindo ciência de dados, estatística, matemática, engenharia, economia e muito mais.

Existem diferentes abordagens para definir a probabilidade, sendo duas das mais comuns a abordagem clássica e a abordagem frequentista.

1. Abordagem Clássica: Nesta abordagem, a probabilidade é calculada com base na razão entre o número de eventos favoráveis e o número total de eventos possíveis. Por exemplo, ao lançar um dado justo de seis faces, a probabilidade de obter um número específico, como o número 3, é de 1/6, pois há apenas uma face com esse número e seis faces ao todo.

2. Abordagem Frequentista: Nesta abordagem, a probabilidade é calculada com base na frequência relativa de um evento em um grande número de repetições de um experimento. Por exemplo, se lançarmos uma moeda várias vezes, a probabilidade de obter cara é a proporção de vezes em que obtivemos cara em relação ao número total de lançamentos.

Além disso, a probabilidade pode ser expressa em uma escala de 0 a 1, em que 0 indica impossibilidade absoluta e 1 indica certeza absoluta.

Digamos que, de uma turma de 10 crianças numa escola, você precise escolher algumas para formar um time. Dessas 10, 3 sabem jogar futebol. Qual a probabilidade de a criança escolhida saber jogar futebol ?

𝑃(𝑠𝑜𝑐𝑐𝑒𝑟) = evento / espaço amostral = 310 = 0.3

As 3 crianças que sabem jogar fazem parte da amostra do evento de interesse, e fazem parte da população, a turma de 10 alunos.

Vejamos alguns outros exemplos de aplicação da probabilidade:

1. Lançamento de uma moeda: A probabilidade de obter cara ou coroa em um único lançamento de uma moeda justa é de 1/2 ou 0,5.

2. Evento climático: A probabilidade de chover em um determinado dia pode ser expressa como 0,3, o que indica que há uma chance de 30% de ocorrer chuva nesse dia.

3. Teste médico: Suponha que um teste médico para detectar uma doença tenha uma sensibilidade de 95% e uma especificidade de 90%. Isso significa que a probabilidade de um resultado positivo ser verdadeiro (indicando a presença da doença) é de 95%, enquanto a probabilidade de um resultado negativo ser verdadeiro (indicando a ausência da doença) é de 90%.

Esses são apenas alguns exemplos simples para ilustrar o conceito de probabilidade. À medida que os cenários se tornam mais complexos, técnicas estatísticas mais avançadas, como a teoria das probabilidades, a teoria das distribuições e o cálculo probabilístico, podem ser aplicadas para calcular e interpretar a probabilidade com mais precisão.

Complemento de Probabilidade

O complemento de um evento em probabilidade é o evento que consiste em todos os resultados que não pertencem ao evento original. Em outras palavras, é o conjunto de todos os resultados possíveis que não satisfazem a condição do evento original. O complemento de um evento A é denotado por A’ ou complemento de A. A probabilidade do complemento de um evento A é calculada subtraindo-se a probabilidade de A do valor 1 (probabilidade total).

A fórmula para calcular o complemento de um evento A é:

P(A’) = 1 — P(A)

Exemplos do conceito de complemento de probabilidade:

  1. Lançamento de um dado: Considere o evento A de obter um número par em um lançamento justo de um dado de seis faces. Os números pares possíveis são 2, 4 e 6. Portanto, a probabilidade de A é 3/6 = 1/2 (ou 0,5). O complemento de A (evento A’) é obter um número ímpar. Os números ímpares possíveis são 1, 3 e 5. Assim, a probabilidade de A’ é 3/6 = 1/2 (ou 0,5). Note que a probabilidade de A e A’ somam 1, pois são eventos complementares.
  2. Lançamento de uma moeda: Suponha o evento A de obter cara em um lançamento justo de uma moeda. A probabilidade de A é 1/2 (ou 0,5). O complemento de A (evento A’) é obter coroa. A probabilidade de A’ também é 1/2 (ou 0,5), pois a moeda tem apenas dois lados possíveis.
  3. Evento climático: Considere o evento A de chover em um determinado dia. A probabilidade de A pode ser 0,3 (ou 30%). O complemento de A (evento A’) é não chover, e a probabilidade de A’ seria 1–0,3 = 0,7 (ou 70%).

Ao trabalhar com probabilidade, o complemento é uma ferramenta útil para calcular a probabilidade de um evento ocorrer quando não temos diretamente sua probabilidade disponível. É importante lembrar que a probabilidade de um evento e seu complemento sempre somam 1, já que um dos dois eventos deve ocorrer necessariamente.

Soma de Probabilidades em Eventos Disjuntos (Disjoint Events)

A soma das probabilidades de eventos disjuntos é um conceito fundamental em probabilidade. Quando temos eventos disjuntos, significa que eles não podem ocorrer simultaneamente, ou seja, se um evento acontece, o outro não pode ocorrer ao mesmo tempo. Nesse caso, a probabilidade da união desses eventos é igual à soma das probabilidades individuais de cada evento.

Formalmente, se tivermos eventos disjuntos A e B, a probabilidade da união de A e B é dada por:

P(A ∪ B) = P(A) + P(B)

Essa fórmula se estende para mais de dois eventos disjuntos. Se tivermos eventos disjuntos A1, A2, …, An, a probabilidade da união de todos esses eventos é dada por:

P(A1 ∪ A2 ∪ … ∪ An) = P(A1) + P(A2) + … + P(An)

Aqui estão alguns exemplos para ilustrar o conceito de soma de probabilidades para eventos disjuntos:

1. Lançamento de um dado: Considere o evento A de obter um número par em um lançamento justo de um dado de seis faces, e o evento B de obter um número ímpar. Esses eventos são disjuntos, pois não é possível obter um número que seja simultaneamente par e ímpar. A probabilidade de A é 3/6 = 1/2 (ou 0,5), e a probabilidade de B também é 3/6 = 1/2 (ou 0,5). A probabilidade da união de A e B (obter um número par ou ímpar) é P(A ∪ B) = P(A) + P(B) = 1/2 + 1/2 = 1.

2. Eventos climáticos: Suponha que temos três eventos disjuntos: A de chover, B de nevar e C de fazer sol em um determinado dia. Se a probabilidade de A (chover) for 0,3, a probabilidade de B (nevar) for 0,2 e a probabilidade de C (fazer sol) for 0,5, então a probabilidade da união desses eventos (ocorrer chuva, neve ou sol) é P(A ∪ B ∪ C) = P(A) + P(B) + P(C) = 0,3 + 0,2 + 0,5 = 1.

A soma das probabilidades para eventos disjuntos é uma propriedade fundamental que nos permite calcular a probabilidade de ocorrência de pelo menos um desses eventos. É importante ressaltar que essa propriedade se aplica somente a eventos disjuntos, ou seja, eventos que não podem ocorrer simultaneamente. Caso os eventos não sejam disjuntos, é necessário levar em consideração as interseções entre eles para calcular as probabilidades corretamente.

A soma de probabilidades em eventos disjuntos é uma técnica importante em data science e machine learning para calcular a probabilidade de ocorrência de eventos que são mutuamente exclusivos. Essa técnica é útil em várias áreas, incluindo classificação de dados, análise de risco e detecção de anomalias.

Em data science e machine learning temos alguns exemplos de sua aplicação:

  1. Classificação binária: Considere um problema de classificação binária em que temos dois eventos disjuntos, como “classe 0” e “classe 1”. Ao construir um modelo de machine learning para classificar dados em uma dessas duas classes, a soma das probabilidades previstas para cada classe deve ser igual a 1. Isso ocorre porque a probabilidade total de todas as possíveis classes deve ser de 1. Portanto, ao fazer uma previsão, o modelo atribuirá uma probabilidade para cada classe e, em seguida, a soma dessas probabilidades será normalizada para 1.
  2. Análise de risco: Na análise de risco, é comum ter eventos disjuntos que representam diferentes cenários de risco. Por exemplo, em um modelo de crédito, podemos ter eventos disjuntos como “inadimplência” e “pagamento em dia”. A probabilidade de ocorrência desses eventos disjuntos pode ser calculada separadamente e, em seguida, utilizada para estimar o risco total associado a um indivíduo ou uma transação.
  3. Detecção de anomalias: A detecção de anomalias é um campo em que identificamos eventos que são significativamente diferentes do comportamento normal. Podemos ter eventos disjuntos que representam “comportamento normal” e “anomalias”. A soma das probabilidades desses eventos disjuntos pode ser utilizada para determinar a probabilidade total de um ponto de dados ser uma anomalia, permitindo a classificação eficiente de pontos de dados não usuais.

Em resumo, a soma de probabilidades em eventos disjuntos desempenha um papel fundamental em data science e machine learning ao permitir o cálculo da probabilidade total de eventos exclusivos. Isso é essencial para a construção de modelos, a tomada de decisões baseada em risco e a detecção de padrões incomuns nos dados.

Soma de Probabilidades em Eventos Conjuntos (Joint Events)

A soma de probabilidades em eventos conjuntos refere-se à probabilidade da ocorrência de dois eventos simultaneamente. Quando temos eventos conjuntos, a probabilidade da união desses eventos é calculada considerando a probabilidade de cada evento individual, levando em conta a possível interseção entre eles.

Para dois eventos A e B, a probabilidade da união desses eventos é dada por:

P(A ∪ B) = P(A) + P(B) — P(A ∩ B)

Essa fórmula leva em consideração que a probabilidade da interseção entre A e B é contada duas vezes (uma vez em P(A) e outra vez em P(B)). Portanto, subtraímos a probabilidade da interseção para evitar duplicação.

Aqui estão alguns exemplos para ilustrar o conceito de soma de probabilidades em eventos conjuntos:

  1. Lançamento de um dado: Considere o evento A de obter um número par e o evento B de obter um número maior que 4 em um lançamento justo de um dado de seis faces. A probabilidade de A é 3/6 = 1/2 (ou 0,5), a probabilidade de B é 2/6 = 1/3 (ou aproximadamente 0,3333). A interseção entre A e B ocorre quando obtemos um número par maior que 4, ou seja, apenas o número 6. Portanto, a probabilidade de A ∩ B é 1/6 (ou aproximadamente 0,1667). A probabilidade da união de A e B é então: P(A ∪ B) = P(A) + P(B) — P(A ∩ B) = 0,5 + 0,3333–0,1667 = 0,6666.
  2. Eventos climáticos: Suponha que temos dois eventos: A de chover e B de fazer sol em um determinado dia. Se a probabilidade de A (chover) for 0,3 e a probabilidade de B (fazer sol) for 0,5, e a probabilidade da interseção entre A e B (ocorrer chuva e fazer sol) for 0,1, então a probabilidade da união desses eventos (ocorrer chuva ou fazer sol) é:

P(A ∪ B) = P(A) + P(B) — P(A ∩ B) = 0,3 + 0,5–0,1 = 0,7

A soma de probabilidades em eventos conjuntos nos permite calcular a probabilidade da ocorrência de pelo menos um dos eventos. É importante lembrar que essa propriedade se aplica somente a eventos conjuntos, ou seja, eventos que podem ocorrer simultaneamente. Caso os eventos não sejam conjuntos, a fórmula da soma de probabilidades não pode ser aplicada diretamente, e outros métodos, como a teoria da probabilidade condicional, podem ser necessários para calcular as probabilidades corretamente.

A soma de probabilidades em eventos conjuntos é uma técnica importante em data science e machine learning para calcular a probabilidade de ocorrência de eventos que estão interligados ou relacionados de alguma forma. Essa técnica é amplamente aplicada em várias áreas, como classificação multiclasse, análise de dependência e detecção de padrões complexos.

Aqui estão alguns exemplos de como a soma de probabilidades em eventos conjuntos é utilizada em data science e machine learning:

  1. Classificação multiclasse: Em problemas de classificação com mais de duas classes, a soma de probabilidades em eventos conjuntos é usada para atribuir probabilidades às diferentes classes. Cada classe representa um evento conjunto específico, e a probabilidade de um ponto de dados pertencer a cada classe é calculada. Ao fazer uma previsão, o modelo atribui probabilidades a todas as classes e, em seguida, normaliza essas probabilidades para que a soma total seja igual a 1.
  2. Análise de dependência: A soma de probabilidades em eventos conjuntos é útil para analisar a dependência entre variáveis em um conjunto de dados. Por exemplo, ao analisar a relação entre duas variáveis, como “idade” e “renda”, podemos calcular a probabilidade conjunta de diferentes combinações de valores dessas variáveis. Essa análise de dependência ajuda a identificar associações ou relações significativas entre as variáveis e é usada em várias técnicas, como tabelas de contingência e coeficientes de correlação.
  3. Detecção de padrões complexos: Em alguns casos, é necessário identificar padrões complexos que envolvem a ocorrência simultânea de vários eventos. A soma de probabilidades em eventos conjuntos é usada para calcular a probabilidade de ocorrência desses padrões complexos. Por exemplo, em uma análise de séries temporais, podemos estar interessados na probabilidade de um conjunto específico de eventos ocorrer em um determinado período de tempo. A soma das probabilidades desses eventos conjuntos ajuda a quantificar a probabilidade total do padrão ocorrer.

Em resumo, a soma de probabilidades em eventos conjuntos desempenha um papel fundamental em data science e machine learning, permitindo calcular a probabilidade de ocorrência de eventos relacionados ou interdependentes. Essa técnica é amplamente utilizada na classificação multiclasse, análise de dependência e detecção de padrões complexos, fornecendo informações valiosas para a tomada de decisões e a compreensão dos dados.

Independência

A independência é um conceito fundamental em probabilidade e estatística que descreve a relação entre dois eventos. Dois eventos são considerados independentes se a ocorrência (ou não ocorrência) de um evento não afeta a probabilidade do outro evento ocorrer.

Em outras palavras, se A e B são eventos independentes, a probabilidade de ambos ocorrerem é igual ao produto das probabilidades individuais de cada evento. Matematicamente, isso pode ser expresso como:

P(A ∩ B) = P(A) * P(B)

Aqui estão alguns exemplos para ilustrar o conceito de independência:

  1. Lançamento de uma moeda e lançamento de um dado: Considere os eventos A de obter cara em um lançamento justo de uma moeda e B de obter um número par em um lançamento justo de um dado de seis faces. Esses eventos são independentes, pois o resultado do lançamento da moeda não tem influência no resultado do lançamento do dado e vice-versa. A probabilidade de obter cara é 1/2, e a probabilidade de obter um número par no dado é 3/6 = 1/2. A probabilidade de ocorrer cara e um número par ao mesmo tempo é P(A ∩ B) = P(A) * P(B) = 1/2 * 1/2 = 1/4.
  2. Utilizando novamente o exemplo da moeda, qual é a probabilidade de cair cara cinco vezes ? Dado que são eventos independentes e que cada probabilidade é de 1/2, podemos estender a regra do produto para:

P(H) = (1 / 2)^5 = 1/32

Seguindo o mesmo exemplo, qual a probabilidade de ao jogar um dado, obter 10 números seis ?

P(10–6) = (1/6)^10 = 1.6538171687920194e-08

Evento climático: Suponha que tenhamos dois eventos: A de chover em um determinado dia e B de fazer sol no mesmo dia. Se a probabilidade de A (chover) for 0,3 e a probabilidade de B (fazer sol) for 0,7, e supondo que esses eventos sejam independentes, a probabilidade de ocorrer chuva e fazer sol no mesmo dia é:

P(A ∩ B) = P(A) * P(B) = 0,3 * 0,7 = 0,21

A independência entre eventos é uma suposição importante em muitos modelos probabilísticos e estatísticos. No entanto, é essencial ter cuidado ao assumir a independência, pois nem sempre é uma suposição válida. Em alguns casos, a dependência entre eventos pode ser significativa e afetar os resultados de uma análise estatística. Portanto, é importante avaliar a independência dos eventos com base no contexto específico e nos dados disponíveis antes de fazer suposições sobre a independência.

A probabilidade de ambos ocorrerem (ou não ocorrerem) é igual ao produto de suas probabilidades devido a regra do produto. Ela é usada para calcular a probabilidade de dois eventos independentes ocorrerem simultaneamente.

P(A ∩ B) = P(A) * P(B)

Já a regra da soma é usada para calcular aunião de dois (ou mais) eventos ocorrerem. Sejam A e B dois eventos quaisquer, a probabilidade de pelo menos um deles ocorrer é dada pela soma das probabilidades individuais dos eventos, subtraindo a probabilidade da interseção entre eles para evitar duplicação.

P(A ∪ B) = P(A) + P(B) — P(A ∩ B)

Ela leva em consideração a possibilidade de existir uma interseção entre os eventos, que deve ser corretamente contabilizada para evitar a duplicação da probabilidade.

Essas regras são amplamente utilizadas em probabilidade e estatística para calcular a probabilidade de eventos compostos e são fundamentais para análises probabilísticas mais complexas. É importante ter em mente que essas regras são válidas apenas em determinadas condições, como a independência entre eventos para a regra do produto e a disjunção ou interseção adequada entre eventos para a regra da soma.

Um exemplo clássico utilizado para entendimento de probabilidades é o Problema do Aniversário ou Birthday Problem. Ele é um famoso problema probabilístico que envolve a probabilidade de duas pessoas em um grupo compartilharem o mesmo dia de aniversário. O problema é surpreendente, pois a intuição inicial pode levar a estimativas incorretas da probabilidade.

Para entender o problema do aniversário com 30 pessoas, vamos considerar o seguinte cenário:

Suponha que tenhamos um grupo de 30 pessoas. Queremos calcular a probabilidade de pelo menos duas pessoas nesse grupo compartilharem o mesmo dia de aniversário.

Para resolver esse problema, podemos usar a regra da soma e o conceito de complemento de probabilidade. Vamos calcular a probabilidade de nenhuma das 30 pessoas ter o mesmo aniversário e, em seguida, subtrair essa probabilidade de 1 (probabilidade total) para obter a probabilidade de pelo menos duas pessoas compartilharem o mesmo aniversário.

A probabilidade de uma pessoa ter uma data de aniversário específica é de 1/365 (desconsiderando os anos bissextos). Portanto, a probabilidade de nenhuma das 30 pessoas ter o mesmo aniversário é:

P(NC) = (365/365) * (364/365) * (363/365) * … * (336/365)

Essa probabilidade P(NC) ou P(Nenhum Compartilhado) é calculada levando em consideração a probabilidade condicional de cada pessoa ter uma data de aniversário diferente das demais.

No início do cálculo, assumimos que a primeira pessoa escolhida tem qualquer uma das 365 datas de aniversário possíveis (probabilidade de 365/365 = 1). Em seguida, queremos calcular a probabilidade de que a segunda pessoa escolhida tenha um aniversário diferente da primeira pessoa. A probabilidade de escolher uma data de aniversário diferente é de 364/365, pois há apenas uma data de aniversário que é igual à da primeira pessoa.

Para a terceira pessoa, queremos que ela tenha um aniversário diferente das duas primeiras. A probabilidade condicional de escolher uma data de aniversário diferente é de 363/365, pois existem apenas duas datas de aniversário que são iguais às das duas primeiras pessoas.

Esse padrão continua para todas as 30 pessoas: a probabilidade condicional de cada pessoa ter um aniversário diferente das pessoas anteriores é calculada dividindo o número de datas de aniversário possíveis que são diferentes das datas já selecionadas pelo número total de datas de aniversário disponíveis.

Assim, multiplicamos as probabilidades condicionais de cada pessoa ter um aniversário diferente das demais para obter a probabilidade de nenhuma das 30 pessoas ter o mesmo aniversário.

Neste exemplo, a expressão (365/365) * (364/365) * (363/365) * … (363/365) é usada para calcular essa probabilidade específica para um grupo de 30 pessoas. Cada termo na multiplicação representa a probabilidade condicional de cada pessoa ter um aniversário diferente das pessoas anteriores, dado que elas já escolheram datas de aniversário únicas.

É importante notar que esse cálculo assume que todas as datas de aniversário são igualmente prováveis e que os aniversários são independentes entre as pessoas. Em situações da vida real, essas suposições podem não ser totalmente válidas, mas o problema do aniversário é um exemplo clássico que ilustra as propriedades probabilísticas interessantes e não intuitivas relacionadas à probabilidade de compartilhamento de aniversários em grupos.

Agora, para obter a probabilidade de pelo menos duas pessoas compartilharem o mesmo aniversário, subtraímos essa probabilidade de 1:

P(C) = 1 — P(NC)

Sendo C “Compartilhado” e NC “Nenhum Compartilhado”.

Calculando essas probabilidades usando a fórmula acima, descobrimos que a probabilidade de pelo menos duas pessoas compartilharem o mesmo aniversário em um grupo de 30 pessoas é aproximadamente 0,7063, ou seja, cerca de 70,63%.

Essa probabilidade pode parecer surpreendentemente alta, pois intuitivamente esperamos que seja muito menor com apenas 30 pessoas. No entanto, devido ao grande número de combinações possíveis de pares de aniversários em um grupo, a probabilidade acaba sendo considerável.

O problema do aniversário demonstra como a probabilidade pode ser contraintuitiva em certas situações e ressalta a importância de usar cálculos probabilísticos corretos para evitar conclusões enganosas.

7. Probabilidade Condicional

A probabilidade condicional é uma medida de probabilidade que se baseia em um evento ocorrer, dado que outro evento já ocorreu. Ela descreve a probabilidade de um evento A acontecer, dado que um evento B já ocorreu. A probabilidade condicional é expressa como P(A|B), lida como “a probabilidade de A dado B”.

A fórmula para a probabilidade condicional é dada por:

P(A|B) = P(A ∩ B) / P(B)

Onde:

  • P(A ∩ B) representa a probabilidade da ocorrência conjunta dos eventos A e B, ou seja, a interseção de A e B.
  • P(B) é a probabilidade do evento B ocorrer.

A probabilidade condicional nos permite atualizar nossas estimativas de probabilidade com base em informações adicionais. Ela é especialmente útil quando há dependência entre eventos.

Aqui estão alguns exemplos para ilustrar a probabilidade condicional:

Exemplo 1: Lançamento de dados Considere o lançamento de um dado justo. Evento A é obter um número par (2, 4 ou 6), e evento B é obter um número maior que 3 (4 ou 6). A probabilidade de obter um número par (A) dado que o número obtido é maior que 3 (B) é de 2/3, pois dos dois números maiores que 3 (4 e 6), dois são pares.

P(A|B) = P(A ∩ B) / P(B) = (1/6) / (2/6) = 2/3

Exemplo 2: Teste médico Suponha que um teste médico para uma doença específica tenha uma taxa de precisão de 95%. Evento A é ter a doença e evento B é o resultado do teste ser positivo. A probabilidade de ter a doença (A) dado um resultado positivo no teste (B) depende da taxa de falsos positivos e verdadeiros positivos do teste.

Se a taxa de falsos positivos for de 5%, significa que 5% das pessoas saudáveis terão resultados positivos. Se a prevalência da doença na população for de 1%, podemos calcular a probabilidade condicional usando a fórmula:

P(A|B) = P(A ∩ B) / P(B) = P(A) * P(B|A) / [P(A) * P(B|A) + P(A’) * P(B|A’)]

Onde:

  • P(A’) é a probabilidade complementar de A, ou seja, a probabilidade de não ter a doença.
  • P(B|A) é a probabilidade de um resultado positivo no teste dado que a pessoa tem a doença.
  • P(B|A’) é a probabilidade de um resultado positivo no teste dado que a pessoa não tem a doença.

Neste exemplo, se substituirmos os valores correspondentes na fórmula, obteremos a probabilidade condicional de ter a doença dado um resultado positivo no teste.

P(A|B) = (0.01 * 0.95) / [(0.01 * 0.95) + (0.99 * 0.05)]

P(A|B) = 0.0095 / (0.0095 + 0.0495) = 0.0095 / 0.059

P(A|B) ≈ 0.161

A probabilidade condicional é uma ferramenta poderosa para fazer inferências e tomar decisões com base em informações disponíveis. Ela nos ajuda a atualizar nossas estimativas de probabilidade e levar em consideração eventos prévios para tomar decisões mais informadas.

No exemplo de jogar duas moedas, considere que a primeira moeda foi lançada e deu cara. Agora, queremos determinar a probabilidade de a segunda moeda também dar cara, dado esse resultado da primeira moeda.

Aqui, estamos interessados na probabilidade condicional de obter cara na segunda jogada, dado que a primeira jogada resultou em cara. Vamos denotar o evento A como a primeira moeda dar cara e o evento B como a segunda moeda dar cara.

Podemos usar a fórmula da probabilidade condicional para calcular esse valor:

P(B|A) = P(A ∩ B) / P(A)

A probabilidade de A ∩ B representa a probabilidade de ambos os eventos A e B ocorrerem, ou seja, a probabilidade de a primeira e a segunda moedas darem cara. No caso de jogar uma moeda justa, a probabilidade de cara em cada jogada é de 1/2. Portanto, a probabilidade de A ∩ B é (1/2) * (1/2) = 1/4.

A probabilidade de A é a probabilidade de a primeira moeda dar cara, que também é 1/2.

Substituindo esses valores na fórmula, obtemos:

P(B|A) = (1/4) / (1/2) = 1/2

Em termos práticos, podemos interpretar isso como: se sabemos que a primeira moeda deu cara, não há influência do resultado da primeira jogada no resultado da segunda jogada. Portanto, a probabilidade de obter cara na segunda jogada é a mesma de qualquer outro lançamento de moeda individualmente, ou seja, 1/2.

Esse exemplo ilustra como a probabilidade condicional pode ser usada para atualizar a probabilidade com base em informações prévias. No contexto de data science e machine learning, a probabilidade condicional é aplicada em várias tarefas, como classificação, previsão e tomada de decisões com base em informações condicionais disponíveis.

A probabilidade condicional desempenha um papel importante em data science e machine learning, fornecendo informações úteis para análise, modelagem e tomada de decisões. Aqui estão algumas aplicações do uso de probabilidade condicional nesses campos:

  1. Classificação: A probabilidade condicional é amplamente usada em algoritmos de classificação, como o Naive Bayes. Esses algoritmos estimam a probabilidade de um ponto de dados pertencer a uma determinada classe com base em características observadas. A probabilidade condicional é fundamental para calcular essas estimativas, permitindo que o modelo tome decisões de classificação com base em probabilidades condicionais.
  2. Recomendação personalizada: Em sistemas de recomendação, a probabilidade condicional é usada para personalizar recomendações com base em preferências anteriores. Por exemplo, em um sistema de recomendação de filmes, a probabilidade condicional pode ser usada para estimar a probabilidade de um usuário gostar de um filme específico com base em filmes que ele já assistiu e classificou anteriormente.
  3. Análise de risco e detecção de fraudes: A probabilidade condicional desempenha um papel fundamental na análise de risco e detecção de fraudes. Por exemplo, em seguros, a probabilidade condicional é usada para estimar a probabilidade de um sinistro ocorrer com base em fatores de risco conhecidos. Da mesma forma, na detecção de fraudes, a probabilidade condicional é usada para identificar comportamentos suspeitos com base em padrões anteriores de atividade fraudulenta.
  4. Processamento de linguagem natural: Em tarefas de processamento de linguagem natural, a probabilidade condicional é usada para modelar a probabilidade de uma sequência de palavras dada uma sequência de palavras anterior. Isso é utilizado em algoritmos de modelagem de linguagem, tradução automática e correção ortográfica, onde a probabilidade condicional é usada para estimar a probabilidade de uma palavra ocorrer com base no contexto anterior.
  5. Redes Bayesianas: As redes Bayesianas são modelos probabilísticos que representam relacionamentos entre variáveis através de um grafo acíclico direcionado. A probabilidade condicional é essencial para construir e inferir em redes Bayesianas, pois as probabilidades condicionais são especificadas para cada variável dada a combinação de valores em suas variáveis pais.

Em resumo, a probabilidade condicional é uma ferramenta essencial em data science e machine learning. Ela permite modelar e calcular a probabilidade de eventos com base em informações contextuais, ajudando na classificação, recomendação personalizada, análise de risco, detecção de fraudes, processamento de linguagem natural e muito mais. A capacidade de calcular probabilidades condicionais permite que os modelos sejam mais precisos e informados na tomada de decisões.

Teorema de Bayes

O Teorema de Bayes é um conceito fundamental em probabilidade e estatística que descreve como atualizar a probabilidade de um evento dado um novo conjunto de informações. Ele é usado para calcular probabilidades condicionais de forma inversa, ou seja, estima a probabilidade de um evento A ocorrer, dado que um evento B já ocorreu.

O Teorema de Bayes é expresso pela seguinte fórmula:

P(A|B) = [P(B|A) * P(A)] / P(B)} = [P(B|A) * P(A)]) / [P(A) * P(B|A) + P(A’) * P(B|A’)]

Onde:

  • P(A|B) é a probabilidade do evento A ocorrer dado o evento B.
  • P(B|A) é a probabilidade do evento B ocorrer dado o evento A.
  • P(A) e P(B) são as probabilidades marginais dos eventos A e B, respectivamente.

O Teorema de Bayes é frequentemente utilizado quando queremos atualizar nossas estimativas de probabilidade com base em novas informações ou evidências. Ele nos permite calcular a probabilidade posterior de um evento A ocorrer, dado que um evento B já ocorreu, levando em consideração a probabilidade prévia de A e a probabilidade condicional de B dado A.

Um exemplo clássico (já visto acima) de aplicação do Teorema de Bayes é o teste de diagnóstico médico. Suponha que uma doença rara tem uma taxa de prevalência de 1% na população. Um teste para essa doença tem uma taxa de precisão de 95%, ou seja, a probabilidade de um resultado positivo no teste dado que a pessoa tem a doença é de 95%. No entanto, o teste também tem uma taxa de falsos positivos de 5%, ou seja, a probabilidade de um resultado positivo no teste dado que a pessoa não tem a doença é de 5%.

Agora, vamos supor que uma pessoa fez o teste e obteve um resultado positivo. A pergunta é: qual é a probabilidade de a pessoa realmente ter a doença?

Podemos aplicar o Teorema de Bayes para responder a essa pergunta. Vamos definir os eventos da seguinte forma:

  • A: A pessoa tem a doença.
  • B: A pessoa obteve um resultado positivo no teste.

Temos as seguintes probabilidades:

  • P(A) = 0.01 (probabilidade de uma pessoa ter a doença)
  • P(A’) = 0.99 (probabilidade de uma pessoa não ter a doença)
  • P(B|A) = 0.95 (probabilidade de um resultado positivo dado que a pessoa tem a doença)
  • P(B|A’) = 0.05 (probabilidade de um resultado positivo dado que a pessoa não tem a doença)

Podemos calcular a probabilidade posterior de a pessoa ter a doença usando o Teorema de Bayes:

P(A|B) = [P(B|A) * P(A)] / [P(B|A) * P(A) + P(B|A’) * P(A’)]

P(A|B) = [0.95 * 0.01] / [0.95 * 0.01 + 0.05 * 0.99]

P(A|B) ≈ 0.161

Portanto, dado um resultado positivo no teste, a probabilidade de a pessoa realmente ter a doença é de aproximadamente 16.1%.

A probabilidade de estar doente é chamado de prior. O evento, ou seja, o diagonóstico positivo é chamado de evento. Enquanto que a probabilidade de estar doente dado o disgnóstico positivo é chamado de posterior.

Esse exemplo ilustra como o Teorema de Bayes permite atualizar nossas estimativas de probabilidade com base em novas informações. Ele é amplamente utilizado em várias áreas, como medicina, ciência de dados, aprendizado de máquina, processamento de linguagem natural, entre outros, para fazer inferências e tomar decisões baseadas em evidências condicionais.

O Teorema de Bayes é uma ferramenta poderosa em data science e machine learning, permitindo a atualização de probabilidades com base em novas informações. Aqui estão alguns exemplos de como o Teorema de Bayes é aplicado nessas áreas:

  1. Classificação Bayesiana: O Teorema de Bayes é fundamental na abordagem de classificação bayesiana, onde a probabilidade de um ponto de dados pertencer a uma determinada classe é estimada com base em probabilidades condicionais. O Teorema de Bayes é usado para calcular a probabilidade posterior de uma classe dado um conjunto de características observadas. Por exemplo, na classificação de e-mails como spam ou não spam, o Teorema de Bayes é aplicado para calcular a probabilidade de um e-mail ser spam dado o conteúdo do e-mail.
  2. Filtragem Bayesiana: O Teorema de Bayes é usado em filtros bayesianos, como o filtro de Kalman e o filtro de partículas, que são amplamente utilizados em sistemas de rastreamento, previsão e fusão de sensores. Esses filtros aplicam o Teorema de Bayes para atualizar estimativas e incertezas com base em observações e modelos probabilísticos.
  3. Recomendação personalizada: Em sistemas de recomendação, o Teorema de Bayes é usado para calcular a probabilidade de um usuário gostar de um determinado item com base em suas preferências anteriores e no feedback de outros usuários. Por exemplo, em um sistema de recomendação de filmes, o Teorema de Bayes é aplicado para atualizar as probabilidades de preferência de um usuário com base nas classificações que ele atribuiu a filmes anteriores e nas classificações médias dos filmes pela comunidade.
  4. Processamento de linguagem natural: Na área de processamento de linguagem natural, o Teorema de Bayes é usado em várias tarefas, como classificação de documentos, detecção de spam, correção ortográfica e tradução automática. Por exemplo, na classificação de documentos, o Teorema de Bayes é aplicado para calcular a probabilidade de um documento pertencer a uma determinada categoria com base nas palavras presentes no documento.
  5. Detecção de anomalias: O Teorema de Bayes é usado na detecção de anomalias para identificar pontos de dados que são estatisticamente incomuns em relação a um conjunto de dados. O Teorema de Bayes é aplicado para calcular a probabilidade de um ponto de dados ser uma anomalia com base na distribuição estatística dos dados normais.

Esses são apenas alguns exemplos de como o Teorema de Bayes é aplicado em data science e machine learning. Ele fornece uma estrutura matemática para atualizar probabilidades com base em novas evidências e é usado em uma ampla variedade de tarefas, desde classificação e filtragem até recomendação personalizada e detecção de anomalias.

Um exemplo muito famoso que ajuda a entender o teorema de bayes é o problema de Monty Hall.

O problema de Monty Hall é um famoso quebra-cabeça probabilístico baseado em um jogo de TV chamado “Let’s Make a Deal” (Vamos fazer um acordo), apresentado por Monty Hall. O problema é assim formulado:

Suponha que você esteja em um jogo onde há três portas: A, B e C. Atrás de uma dessas portas, há um prêmio (por exemplo, um carro), e as outras duas portas estão vazias. Você escolhe uma das portas (digamos, a porta A). Em seguida, o apresentador Monty Hall, que sabe onde o prêmio está, abre outra porta (digamos, a porta C) que revela que não há prêmio atrás dela.

Aqui está o dilema: o apresentador Monty Hall oferece a você a chance de mudar sua escolha para a outra porta não aberta (porta B). Você deve mudar sua escolha? Isso aumenta suas chances de ganhar o prêmio?

A resposta surpreendente é que, sim, você deve mudar sua escolha. A probabilidade de ganhar o prêmio é maior se você mudar sua escolha para a outra porta. Isso pode ser explicado usando o Teorema de Bayes.

Inicialmente, a probabilidade de o prêmio estar atrás de qualquer uma das três portas é de 1/3 para cada porta. Suponha que você escolha a porta A. Existem duas situações possíveis:

  1. O prêmio está atrás da porta A (probabilidade de 1/3): Se você não mudar sua escolha, você ganhará o prêmio.
  2. O prêmio está atrás de uma das outras duas portas (porta B ou porta C) (probabilidade de 2/3): Se você mudar sua escolha, você perderá o prêmio, pois o apresentador Monty Hall revelará a porta sem prêmio (por exemplo, porta C) e você terá que abrir a outra porta sem prêmio (porta B).

Agora, vamos calcular as probabilidades considerando as duas situações:

  • Se você não mudar sua escolha, sua probabilidade de ganhar é 1/3.
  • Se você mudar sua escolha, sua probabilidade de ganhar é 2/3.

Portanto, é mais vantajoso mudar sua escolha, pois a probabilidade de ganhar o prêmio é maior (2/3) em comparação com a probabilidade de não mudar (1/3).

Isso pode ser entendido de forma intuitiva: inicialmente, a probabilidade de você escolher a porta correta é de 1/3, enquanto a probabilidade de o prêmio estar em uma das outras duas portas é de 2/3. Quando o apresentador Monty Hall abre uma porta sem prêmio, essa informação atualiza a probabilidade de que o prêmio esteja na porta não aberta, que é a porta B. Portanto, mudar sua escolha aumenta suas chances de ganhar o prêmio.

O problema de Monty Hall é um exemplo intrigante de probabilidade condicional e ilustra como o contexto e a atualização de informações podem afetar as probabilidades em um cenário aparentemente simples.

Outro bom exemplo que ajuda a entender o teorema de bayes é sua aplicação na detecção de spam.

O teorema permite calcular a probabilidade de um email ser spam, dado um conjunto de palavras ou características observadas no email.

Aqui está como o Teorema de Bayes é aplicado na detecção de spams:

Definindo as probabilidades iniciais:

  • P(Spam): Probabilidade de um email ser spam.
  • P(Não Spam): Probabilidade de um email não ser spam.
  • Essas probabilidades podem ser estimadas com base em dados históricos de emails classificados como spam e não spam.

Construindo um modelo de palavras:

  • Um conjunto de palavras ou características é selecionado para construir um modelo de spam.
  • Por exemplo, palavras como “oferta”, “grátis”, “promoção” podem ser fortes indicadores de spam.
  • O modelo atribui uma probabilidade para cada palavra ou característica, tanto para emails classificados como spam quanto para não spam.
  • Essas probabilidades podem ser estimadas usando técnicas estatísticas, como frequência relativa ou frequência inversa do documento (TF-IDF).

Calculando a probabilidade de ser spam dado as palavras observadas:

  • Dado um email com um conjunto de palavras, calculamos a probabilidade de ser spam usando o Teorema de Bayes.
  • P(Spam|Palavras) = (P(Palavras|Spam) * P(Spam)) / P(Palavras)
  • P(Palavras|Spam): Probabilidade de observar as palavras no email, dado que é spam.
  • P(Palavras): Probabilidade de observar as palavras independentemente de ser spam ou não.
  • O denominador P(Palavras) é uma constante que normaliza as probabilidades.

Comparando as probabilidades:

  • A probabilidade P(Spam|Palavras) é comparada com a probabilidade P(Não Spam|Palavras).
  • Se P(Spam|Palavras) > P(Não Spam|Palavras), o email é classificado como spam. Caso contrário, é classificado como não spam.

Exemplo: Suponha que, com base em dados históricos, temos as seguintes probabilidades:

Exemplo: Suponha que, com base em dados históricos, temos as seguintes probabilidades:

  • P(Spam) = 0,4 (40% dos emails são spam).
  • P(Não Spam) = 0,6 (60% dos emails não são spam).
  • P(Palavra|Spam) = 0,8 (80% das palavras em emails spam são “oferta”).
  • P(Palavra|Não Spam) = 0,2 (20% das palavras em emails não spam são “oferta”).
  • Suponha que o email contenha a palavra “oferta”.

Usando o Teorema de Bayes, podemos calcular:

  • P(Spam|Palavra) = (P(Palavra|Spam) * P(Spam)) / P(Palavra)
  • P(Spam|Palavra) = (0,8 * 0,4) / P(Palavra)

Para calcular P(Palavra), precisaríamos levar em conta todas as palavras observadas no email e calcular a probabilidade de ocorrerem em spam ou não spam. Essa etapa envolve um modelo mais complexo e cálculos adicionais.

Com base nas probabilidades e no cálculo acima, podemos decidir se o email é spam ou não spam, comparando a probabilidade P(Spam|Palavra) com a probabilidade P(Não Spam|Palavra).

É importante notar que o Teorema de Bayes é apenas uma das abordagens para a detecção de spam e existem outras técnicas e algoritmos mais avançados que podem ser usados em conjunto para obter melhores resultados.

Naive Bayes

O Naive Bayes é um algoritmo de classificação amplamente utilizado em aprendizado de máquina e mineração de dados. Ele é baseado no Teorema de Bayes e faz suposições simplificadoras sobre a independência condicional das características.

Aqui está uma explicação do Naive Bayes e como ele funciona:

Suposição de independência condicional:

  • O Naive Bayes assume que todas as características relevantes para a classificação são independentes entre si, dado o valor da classe. (Ex. a ocorrencia de palavras “oferta” e “ganhar” num email. Essa ocorrência é claramente dependente, não independente)
  • Essa suposição simplificadora permite que o algoritmo calcule facilmente as probabilidades condicionais necessárias para a classificação.

Probabilidade condicional:

  • O Naive Bayes usa a probabilidade condicional para estimar a probabilidade de uma instância pertencer a cada classe.
  • Ele calcula a probabilidade de cada classe dado os valores das características da instância.

Treinamento:

  • Durante a fase de treinamento, o Naive Bayes estima as probabilidades condicionais a partir dos dados de treinamento.
  • Para cada classe, são calculadas as probabilidades condicionais das características.

Classificação:

  • Durante a fase de classificação, o Naive Bayes usa as probabilidades condicionais estimadas para determinar a classe mais provável para uma nova instância.
  • Ele calcula a probabilidade de cada classe para a instância e seleciona a classe com a maior probabilidade.

Exemplo:

De 100 emails, 20 ou 20% são spams e 80 ou 80% não são spams.

Dentre os 20% emails que são spams, 0.7 a palavra “lottery” e 0.75 possuem a palavra “winning”.

Dentre os 80% que não são spams, 0.125 possuem a palavra “lottery” e 0.1 possuem a palavra “winning”

Temos que:

P(spam) = 0.2
P(lottery | spam) = 0.7
P(winning | spam) = 0.75
P(not spam) = 0.8
P(lottery | not spam) = 0.125
P(winning| not spam) = 0.1

P(spam | lottery) = P(spam) * P(lottery | spam) * P(winning | spam) / P(spam) * P(lottery | spam) * P(winning | spam) + P(not spam) * P(lottery | not spam) * P(winning | not spam)

Logo, a probabilidade do email ser spam, dado que tem “lottery” e “winning” em seu conteúdo é de:

P(spam | lottery & winning) = 2.7 * 0.7 * 0.75 / (2.7 * 0.7 * 0.75) + (0.8 * 0.125 * 0.1) = 0.913

Ou seja, nesse exemplo fictício, temos que a probabilidade de um email que contém as palavras “winning” e “lottery” é de 91%.

Probabilidade em Machine Learning

Probabilidade e probabilidade condicional são aplicadas em várias tarefas de machine learning, sendo algumas delas reconhecimento de imagem (image recognition) e análise de sentimentos (sentiment analysis).

Reconhecimento de imagem:

  • Probabilidade: Na tarefa de reconhecimento de imagem, a probabilidade é usada para estimar a chance de uma imagem pertencer a determinadas classes.
  • Por exemplo, um modelo de reconhecimento de imagem pode calcular a probabilidade de uma imagem ser um gato, um cachorro ou um pássaro.
  • Essas probabilidades são geralmente calculadas usando técnicas como redes neurais convolucionais (CNNs) e softmax para atribuir probabilidades às diferentes classes.
  • Probabilidade condicional: A probabilidade condicional é usada para modelar a relação entre os pixels de uma imagem e as classes associadas.
  • Por exemplo, um modelo de reconhecimento de imagem pode estimar a probabilidade condicional de um pixel dado que a imagem pertence a uma determinada classe.
  • Essa informação é usada para aprender padrões e características discriminativas nas imagens que ajudam na classificação correta.

Análise de sentimentos:

  • Probabilidade: Na análise de sentimentos, a probabilidade é usada para estimar a chance de uma determinada frase ou documento ser positivo, negativo ou neutro.
  • Por exemplo, um modelo de análise de sentimentos pode calcular a probabilidade de uma avaliação de produto ser positiva ou negativa.
  • Essas probabilidades podem ser usadas para determinar a polaridade do sentimento associado ao texto analisado.
  • Probabilidade condicional: A probabilidade condicional é usada para modelar a relação entre as palavras ou características linguísticas e as polaridades dos sentimentos.
  • Por exemplo, um modelo de análise de sentimentos pode estimar a probabilidade condicional de uma palavra ser encontrada em uma avaliação positiva ou negativa.
  • Essa informação é usada para aprender quais palavras são fortemente associadas a sentimentos positivos ou negativos, ajudando na classificação do sentimento.

Em ambas as tarefas, a probabilidade e a probabilidade condicional são essenciais para o treinamento dos modelos e a tomada de decisões. Essas probabilidades são usadas para estimar a confiança das previsões e ajustar os parâmetros dos modelos para maximizar a probabilidade de previsões corretas.

Além disso, a probabilidade condicional também é usada em técnicas de processamento de linguagem natural, como modelos de linguagem baseados em cadeias de Markov e algoritmos de tradução automática, onde a probabilidade condicional de uma sequência de palavras pode ser usada para estimar a probabilidade de uma sequência de tradução ser correta.

Em resumo, a probabilidade e a probabilidade condicional desempenham um papel fundamental em várias tarefas de machine learning, incluindo reconhecimento de imagem e análise de sentimentos, ajudando a tomar decisões confiáveis e a obter resultados precisos.

Siga o meu perfil e se inscreva para receber para acompanhar os próximos posts da série.

Licença

Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)

--

--

Alysson Guimarães
Data Hackers

Data Scientist. MBA Competitive Intelligence, Bachelor of Business Administration.