Introdução - O Que é Mineração de Dados

É uma técnica auxiliada por um computador usada em análises para processar e interpretar grandes datasets

A mineração de dados extrai um significado ou conhecimento valioso dos datasets.

Através desses processos:

Coleta de dados: captura de dados de diferentes fontes, ex: feedback do cliente, pagamentos e pedidos de compra
Data warehousing: armazenagem dos dados em um grande database ou data warehouse
Análise de dados: processamento, armazenamento e análise dos dados usando software e algoritmos complexos

A Mineração de dados é um ramo da análise de dados ou uma Estratégia de análise usada para encontrar padrões ocultos ou desconhecidos.

O que é

Dados: Elemento bruto, sem contexto
- 25 é um dado inteiro
Informação: é o dado organizado que possui um significado
- 25º Graus Celsius
Conhecimento: É a informação assimilada e interpretada permitindo a compreensão e aplicação pra resolver problemas e gerar novas descobertas
- 25º Graus Celsius no período da tarde, irá fazer calor

Imagem

Processo Acadêmico
9 etapas lineares
Foco no processo de descoberta de conhecimento
Mais detalhado e sequencial e não tão flexível quando é necessário voltar para etapas anteriores

Usa-se ambos conforme a necessidade

Problemas Comuns:

Impactos:

Modelos enviesados
Baixa acurácia
Decisões incorretas
80% do tempo dos projetos de análise de dados é feito durante o pré-processamento, devido ao custo da qualidade de dados
60% do tempo é melhoria sobre melhoria na acurácia com dados limpos

Garbage in, garbage out - dados ruins geram modelos ruins.

TODO: validar isso aqui

Assimetria: ‘skyness’ - mede o grau de “inclinação”
- Negativa: cauda esquerda
- Positiva: cauda à direita
Curtose: Mede o achatamento
- Alta: Distribuição pontiaguda (leptocúrtica)
- Baixa: Distribuição achatada (praticúrtica)
- Mesocúrtica

Técnicas para trabalhar com subconjuntos representativos

Aleatória simples
Estratificada: Preserva proporções de sub-grupos
- Exemplo: Grãos de café de diferentes tipos
Sistemática: Olha como cada ponto se compara com o ponto seguinte.
- Faz uma “mini clusterização” em pontos semelhantes

Imbalance Class