Você já deve ter escutado o termo Big Data por aí e se perguntou: que raio de coisa é essa?
Mesmo sem saber, você também já deve ter notado que é um assunto que está bastante em alta no últimos tempos e vem ganhando popularidade mais rápido que qualquer outro tema no mundo da tecnologia.
Mas o que é Big Data?
Provavelmente você não vai encontrar uma definição formal para Big Data no dicionário. Mas podemos considerá-lo como uma coleção de conjuntos de dados tão grandes e complexos que gerenciá-los por ferramentas tradicionais de banco de dados é inviável.
Em outras palavras, Big Data consiste em um grande volume de dados diversos que estão sendo gerados em alta velocidade. Esses dados não podem ser gerenciados e processados usando softwares e aplicações tradicionais. O Big Data requer o uso de um novo conjunto de ferramentas, aplicações e estruturas para processar e gerenciar dados.
Características do Big Data
Mas e como saber quando estou lidando com Big Data?
O Big Data pode ser identificado através de algumas características específicas. Essas características são popularmente conhecidas como os Três Vs do Big Data, são eles: Volume, Velocidade e Variedade.
Volume:
Refere-se à quantidade de dados em que se está trabalhando. Com o avanço da tecnologia e a invenção de novas mídias e redes sociais, a quantidade de dados gerados diariamente cresce muito mais rápido do que se possa imaginar. Esses dados estão espalhados por diferentes lugares, em diferentes formatos e variando de Gigabytes para Terabytes, Petabytes, Exabytes e subindo exponencialmente.
Pra termos uma noção, dados são gerados quando você: faz ligações, troca mensagens, realiza transações bancárias, envia e-mails, acessa sites ou plataformas de busca ou jogos online, passa em uma catraca, bate o ponto no serviço, usa o cartão de crédito ou o de débito, realiza compras online, realiza compras na loja física, login, logout, enfim… Deu para entender, certo?
Ao ler esse post, por exemplo, você está gerando dados!
É importante lembrar que esses dados não são produzidos somente por humanos. Existem grandes quantidades de dados sendo fornecidos por máquinas, como: servidores, dados de APIs, filas de mensagens, logs diversos e por aí vai.
Velocidade:
O segundo V é relacionado com a rapidez com que os dados são gerados. Diferentes softwares possuem diferentes requisitos. No mundo competitivo atual, tomadores de decisão precisam de informações na menor quantidade de tempo possível – preferencialmente em tempo real. Nos diferentes campos e diferentes áreas da tecnologia, vemos dados sendo gerados em diferentes velocidades. Como o pessoal que usa dados do mercado financeiro, tweets e ações no Facebook (curtidas, comentários e compartilhamentos, por exemplo).
Pense no Uber e imagine como seria caso o app não conseguisse mostrar aonde está a exata localizado do motorista, bem como, mostrar a estimativa de quanto tempo o motorista irá levar para chegar ao seu local. É muito possível que o aplicativo seria um total fracasso ou apenas mais um na indústria, certo?
Quer um exemplo melhor?
Vamos imaginar a rotina de um investidor da bolsa de valores. Imagine caso o investidor não conseguisse acompanhar a bolsa em tempo real. Em outras palavras, ele iria precisar esperar o dia passar para saber se ganhou dinheiro ou perdeu. Nesse meio tempo, ele poderia ter tomado diversas decisões, como retirar o seu dinheiro ou investir ainda mais.
Variedade:
Refere-se aos diferentes formatos em que os dados estão sendo gerados ou armazenados. Diferentes aplicações geram dados em diferentes formatos, como: textos, números, imagens, áudios, vídeos, dados estruturados e, também, dados não estruturados.
Em muitos casos, grandes volumes de dados não estruturados são gerados separadamente de dados estruturados, sendo que ambos se complementam. Até o avanço das tecnologias em Big Data, a indústria não possuía ferramentas poderosas e confiáveis que pudesse trabalhar com tamanho volume de dados não estruturados que vemos atualmente. E isso é fundamental!
No mundo de hoje, organizações não dependem só de dados estruturados oriundos do banco de dados da empresa. Elas estão sendo forçadas a consumir grandes quantidades de dados que são gerados também externamente a empresa. Dados comportamentais de fluxo de cliques e redes sociais, por exemplo. Só assim para conseguir acompanhar o mercado e se manter competitivo.
Tipos de dados
Os dados existem em diversos formatos, mas podem ser classificados em duas categorias: estruturados e não estruturados.
- Os dados estruturados são dados que possuem uma estrutura pré-definida e que muitas vezes são de natureza relacional ou se assemelham a um modelo relacional. Dados estruturados podem ser facilmente gerenciados e consumidos usando ferramentas tradicionais. Incluem-se nesta categoria os bancos de dados relacionais, dados de sistemas CRM, arquivos XML, etc.
- Os dados não estruturados, por sua vez, são os dados que não têm um modelo bem definido ou que não se encaixam no mundo relacional. E-mails, imagens, áudios, feeds, arquivos PDF, documentos digitalizados e entre outros são exemplos dessa categoria.
Fontes do Big Data
Aí você deve estar se perguntando: como encontrar os benditos dados?
Assim como os formatos de armazenamento dos dados evoluíram, as fontes para encontrá-los também e sua expansão é constante. Existe a necessidade de armazenar os dados em uma ampla variedade de formatos. Grandes fontes de dados podem ser classificadas em seis categorias diferentes:
- Dados da Empresa: arquivos simples, e-mails, documentos do Word, planilhas, apresentações, páginas / documentos HTML, documentos PDF, XMLs, formatos herdados, etc.
- Dados transacionais: muitas empresas possuem alguns tipos de aplicações que envolvem a realização de diferentes tipos de transações, como aplicativos da Web, aplicativos móveis, sistemas de CRM, entre outros. Para suportar as transações dessas aplicações, geralmente há um ou mais bancos de dados relacionais com uma infraestrutura de back-end.
- Mídias Sociais: existe uma grande quantidade de dados sendo gerados em plataformas e redes sociais como o Twitter, Facebook, etc. As redes sociais geralmente envolvem principalmente formatos de dados não estruturados.
- Dados gerados por máquinas: em geral, possuem volumes de informações que ultrapassam a capacidade de geração de dados por seres humanos. Incluem-se nesta categoria dados de dispositivos médicos, vídeos de vigilância, satélites, torres de telefones celulares, maquinaria industrial e outros.
- Dados públicos: são dados que estão disponíveis publicamente, como dados de organizações governamentais, institutos de pesquisa, departamentos meteorológicos, dados do Censo, Wikipédia, etc.
- Dados de arquivo: com o baixo custo de hardware e o crescimento da armazenagem nas nuvens, nenhuma organização quer descartar esses dados. Pelo contrário, querem armazenar tantos dados quanto possível. Incluem-se nesta categoria documentos digitalizados, registros de ex-funcionários, projetos concluídos, transações bancárias antigas, etc.
Como começar os estudos na área?
A análise de dados pode ser vista como uma evolução da análise e gestão de negócios, pois é uma atividade que permite aos tomadores de decisão das empresas optarem por caminhos mais assertivos. O que reduz significativamente os riscos para uma organização, por trazer o fator estatístico para pautar as decisões estratégicas.
Você pode iniciar sua entrada na área com esta formação Data Analytics ou Análise de Dados da TT. Você vai aprender SQL, PW BI e Storytelling e descobrir se essa área é pra você!
Agora,se você quer evoluir para a área de Ciência de Dados, além de ter afinidade com a matemática e o pensamento lógico, o cientista de dados precisa estar familiarizado com os bancos de dados relacionais e os NoSQL, dominar a linguagem SQL para realizar consultas e análises em bancos de dados relacionais, dominar a linguagem Python para manipular de Dados e ainda conhecer Machine Learning.
Uma forma de entender mais sobre esses conceitos e aproximar-se da profissão é iniciando os estudos na área na formação completa Data Science ou Ciência de Dados da TargetTrust.
Bom, por enquanto é isso. Acredito que você tem decisões importantes para fazer, quanto ao seu primeiro passo na área.
Espero que esse post tenha ajudado você nesse sentido! Não esqueça de nos acompanhar nas redes sociais: @targettrust.
Outros assuntos interessantes:
As oportunidades em TI são muitas. Você é capaz de aproveitá-las?
[2021] 11 Linguagens de Programação para garantir emprego SEMPRE