O que é Data Mining?

O que é Data Mining?

Data Mining, ou Mineração de dados é parte de um processo muito amplo, uma peça fundamental do que é chamado de Busca de Conhecimento em Banco de dados (Knowledge Discovery in Database – KDD). Talvez o termo Data Mining você não conheça, mas a Big Data sim, certo? Ambos tem uma relação, já que o Big Data é uma versão “potencializada” da mineração de dados. A principal diferença entre ambos é a escala de dados em que cada um irá trabalhar, uma disparidade entre a amostragem.

Há uma definição de Mineração de Dados que é muito boa e essencial para compreender outros conceitos fundamentais. Vamos para essa definição: “Data Mining, ou Mineração de dados é a busca de informações valiosas em grandes bancos de dados. É um esforço de cooperação entre homens e computadores. Os homens projetam bancos de dados, descrevem problemas e definem seus objetivos. Os computadores verificam dados e procuram padrões que casem com as metas estabelecidas pelos homens“. Encontrei essa definição num PDF da PUC-RIO sobre o assunto.

Essa definição é interessante porque logo de cara traz o seguinte trecho “mineração de dados é a busca de informações valiosas em grandes bancos de dados”. Para compreender o papel prático da Mineração de Dados é fundamental que você saiba a diferença entre dados e informações. Podem parecer a mesma coisa, mas são elementos completamente distintos. Somado a eles também temos que acrescentar a definição de conhecimento.

No livro Data Mining (GEN LTC / 2015) os três termos são definidos perfeitamente, usando como base o clássico exemplo da hierarquia piramidal. A escala é a seguinte: dados na base, informação no centro e conhecimento no topo.

A definição de cada um deles é a seguinte, seguindo o que é proposto no livro Data Mining é o seguinte:

Dados: podem ser interpretados como itens elementares, captados e armazenados por recursos da Tecnologia da Informação. São cadeias de símbolos e não possuem semântica (significado). Seu propósito é expressar fatos do mundo real de forma a serem tratados no contexto computacional.

• Informações: representam os dados processados, com significados e contextos bem definidos. Diversos recursos de tecnologia da Informação são utilizados para processar dados e obter informações.

• Conhecimento: no topo da pirâmide está o conhecimento, que corresponde a um padrão ou conjunto de padrões cuja formulação pode envolver e relacionar dados e informações.

Seja por meio de análise pelo puro e simples fator humano ou com técnicas que aliam a tecnologia, como no caso do Data Mining, o objetivo é transformar dados em conhecimento. Esse conhecimento é valiosíssimo para as empresas, já que fornecem um panorama aprofundado sobre o que pode gerar ainda mais lucro e direcionamento de abordagens que a companhia pode seguir. De acordo com a pesquisa Global Data and Analytics Survey, da PwC, 39% das companhias se identificam como altamente direcionadas por dados, sendo que 36% delas conseguem prever melhor do que as demais empresas os próximos passos a serem tomados.

Costuma-se dizer que afirmar que dados é o principal ativo da humanidade da era moderna, mas, na verdade o que realmente importa é o conhecimento que pode ser extraído desses dados, uma espécie de garimpagem. É com base nesse conhecimento que uma empresa consegue, por exemplo, prever se você irá querer ou não comprar um determinado produto.

Diversos setores podem se beneficiar do Data Mining, um dos principais é o de marketing. Com essa garimpagem de dados, transformando dados em conhecimento, as empresas conseguem adotar campanhas cada vez mais segmentadas, aumentando o retorno.

O profissional gabaritado para liar com essa análise de dados é o Cientista de Dados, constantemente citada como profissão do futuro, título reconhecido até pelo Fórum Econômico Mundial, que, com base em mais de 300 empresas pesquisadas, chegou ao resultado que 85% das empresas pretendem expandir seu uso de Big Data e Analytcis até 2022.

No Brasil a média salarial de um Cientista de Dados é de US$ 9.000, podendo chegar a US$ 20.000, nos próximos anos a expectativa é que a base salarial se torne ainda mais interessante. Lembrando que não há uma graduação específica para um Cientista de Dados, os interessados nessa profissão, de acordo com Nilson Ramalho, CEO da Faculdade Impacta, devem buscar cursos que tenham Estatística, Análise Exploratória de Dados, Inteligência Artificial, Mineração de Dados, Machine Learning, Banco de Dados Estruturados e não estruturados, Desempenho de Negócios  e Big Data, em suas estruturas curriculares.

 

Você também deve ler!

O que é criptografia?

Qual a diferença entre o conector P2 e o P3?

O que é o código CVV do cartão de crédito e débito?

O que é HDMI ARC ?

MP3, WAV, FLAC, AIFF… conheça os principais formatos de áudio

USB-C: Tudo o que você precisa saber

SIM Swap: entenda como funciona o golpe de clonagem do chip

Qual a diferença entre Ultra HD e 4K?

Qual a diferença entre o Chrome e o Chromium?

O que é intranet e pra que ela serve?

Sobre o Autor

Editor-chefe no Hardware.com.br, aficionado por tecnologias que realmente funcionam. Segue lá no Insta: @plazawilliam Elogios, críticas e sugestões de pauta: william@hardware.com.br
Leia mais
Redes Sociais:

Deixe seu comentário

X