Big Data: Ferramentas e Aplicabilidade

Big Data: Ferramentas e Aplicabilidade

Natanael Galdino natan.gald@

IESSA

Resumo:O Big Data representa a vasta quantidade de informa??o gerada diariamente atrav?s dos mais diversos dispositivos eletr?nicos e o tratamento anal?tico dessa informa??o atrav?s de diversas ferramentas Tecnol?gicas, com o intuito de se obter padr?es, correla??es e percep??es que podem auxiliar em tomadas de decis?es nas mais diversas ?reas. Com o a populariza??o da internet e o advento de diversos dispositivos tecnol?gicos, a gera??o de dados cresceu exponencialmente nos ?ltimos anos. Com isso, e atrav?s de intelig?ncias tecnol?gicas h? tempos existentes como Business Intelligence, foram concebidas outras ferramentas destinadas a trabalhar com tipos diferentes de dados, principalmente aqueles n?o poss?veis de serem administrados em sistemas relacionais. Este artigo se destina, atrav?s de uma revis?o de literatura, a esclarecer pontos relevantes sobre Big Data como suas principais ferramentas e solu??es, al?m de casos de uso bem sucedidos. Para isso foram utilizados como fontes livros, artigos publicados, v?deos explicativos e revistas que auxiliam na compreens?o dessa tecnologia. Palavras Chave: Big Data Analytics - NOSQL - Processamento - Dados - Clusters

1. INTRODU??O A quantidade de dados gerados pela humanidade nos ?ltimos anos aumentou

de forma exponencial. Segundo uma pesquisa recente (IBM , 2013), no ano 2000, 25%(vinte e cinco por cento) dos dados eram digitalizados, no ano de 2007, esse numero saltou para 93% (noventa e tr?s por cento), e no ano de 2013, foi para 98% (noventa e oito por cento). Esse crescimento, devido principalmente a fatores como aumento do acesso a dispositivos eletr?nicos e a populariza??o da internet, est? gerando uma revolu??o no tratamento de dados.

A aplicabilidade do Big Data est? no tratamento desse volume de dados, que vem de variadas fontes e que demandam alta velocidade de processamento, na busca por um valor (Taurion, 2013).

Esse valor, obtido atrav?s de correla??es entre dados, pode se dar atrav?s de descoberta de padr?es, prefer?ncias de usu?rios, aumento no n?mero de vendas em determinada ?poca do ano, descoberta de cura de doen?as, entre diversos outros benef?cios aplic?veis a diversas ?reas de estudo.

Por ser um assunto relativamente novo, muitos artigos que mencionam o tema, o fazem de maneira conceitual e sem abranger alguns detalhes, que v?o al?m de conceitos pontuais. A parte pr?tica de Big Data ? um ponto importante a ser mencionado para um maior entendimento. Nesse sentido esse artigo tem por objetivos: Apontar as principais diferen?as entre os modelos tradicionais de tratamento de dados e os modelos de Big Data; apresentar ferramentas mais importantes de uso do big data que ajudam a esclarecer melhor como o Big Data funciona na sua ess?ncia; discorrer sobre de tr?s casos de uso de sucesso que confirmam a efici?ncia e o impacto que essa nova tecnologia tem proporcionado ? sociedade. Para tal, foram usadas diversas fontes de pesquisa, como livros, revistas, v?deos explicativos, sites, artigos publicados.

2. ENTENDENDO O BIG DATA O aumento exponencial dos dados no decorrer dos anos atrav?s do advento da

internet e de diversos dispositivos como celulares e computadores ocasionou uma revolu??o no que tange a gest?o da informa??o. Segundo Santanch? (2014), o Big Data, embora tratado por muitos como solu??o, em si ? um problema, pela quantidade e diversidade de dados, que ser? resolvido atrav?s das ferramentas de Big Data Analytics.

A origem dos dados vem basicamente de Web e redes sociais (dados de fluxo de cliques, blogs, posts, feeds de not?cias), dados de transa??es (compras de cart?o de cr?dito, registros de liga??es e de reclama??es nas empresas) dados de biometria (identifica??o autom?tica, DNA, impress?es digitais, reconhecimento facial) dados gerados por pessoas (privados e que devem ser protegidos por legisla??o, como documentos eletr?nicos, exames e registros m?dicos, liga??es telef?nicas) e dados machine to machine (gerados diretamente por maquinas, como sensores, dispositivos de GPS e medidores). (Intel, 2015).

Os cinco VS, Volume (quantidade de dados acumulados), Variedade (meios de propaga??o e tipos de dados), Velocidade (taxa de transmiss?o de dos dados), Veracidade (se os dados s?o confi?veis) e Valor (resultado obtido no uso das

ferramentas de Big Data) denotam o objetivo de manter as plataformas e sistemas em harmonia de tal forma que gerem o resultado esperado. (Veja, 2013).

Os dados s?o qualificados em tr?s categorias: dados estruturados, pertencentes a um SGBD relacional com esquema relacional associado, dados semiestruturados, que s?o irregulares ou incompletos n?o necessariamente de acordo com um esquema, compreens?veis por maquinas mas n?o por seres humanos, como documentos HTML e logs de web sites , e dados n?o estruturados, sem estrutura pr?via nem possibilidade de agrupamento em tabelas, como v?deos, imagens e emails.(Intel 2015)

O desafio para as ferramentas de Big Data ? entre outros a manipula??o de dados semiestruturados e n?o estruturados no intuito de extrair valor destes atrav?s de correla??es e outros processamentos de an?lise e ent?o compreend?-los para que tragam valor ao determinado meio aplic?vel.

O tratamento dos dados ? realizado com o apoio de algoritmos inteligentes, que s?o sequencias de instru??es que permitem que se chegue a uma conclus?o sobre que tipo de a??o tomar. Esses algoritmos, s?o a "rede neural" do sistema e podem servir para fins diversos dependendo do prop?sito buscado pela corpora??o. Uma empresa pode compreender melhor o comportamento de um cliente, um m?dico pode saber se o paciente de uma clinica necessitar? ser internado em determinado per?odo ou de que maneira, ? poss?vel reduzir despesas dentro de uma empresa. A Amazon usa a intelig?ncia de algoritmos para indicar produtos aos seus clientes. A Netflix segue o mesmo caminho indicando s?ries conforme as s?ries j? assistidas por seus clientes.

Cezar Taurion(2013), em seu livro Big Data, faz uma analogia em que as ferramentas de Big Data, representar?o para as corpora??es e para a sociedade a mesma import?ncia que o microsc?pio representou para a medicina. Uma ferramenta de an?lise onde se pode extrair informa??es, prever incidentes e ter a capacidade de corrigi-los quando existentes, ou at? mesmo evit?-los.

Os algoritmos de sistemas preditivos, que com base em dados processados "predizem" um fato com grandes probabilidades de ocorrer, s?o um grande desafio a ser superado nessa lacuna que existe entre aplicabilidade em tempo real, e an?lise de dados anteriores para se tomar decis?es. Os sistemas relacionais de bancos de dados, h? tempos aplicados em empresas e rendendo sucesso nesse ponto, tornam-se incapazes tanto de trabalhar com o imenso n?mero de informa??es quanto fazer an?lises preditivas e em tempo real. Nesse conceito a streaming computing, que trabalha com dados em tempo real e grande fluxo de dados, como, em sistemas de tr?nsito, que monitoram o tr?fego de ve?culos em determinada cidade, e que transmitem ao usu?rio qual a melhor rota a ser tomada para chegar ao seu destino, atrav?s de seus algoritmos, traz solu??es pr?ticas e r?pidas aos seus usu?rios. (Taurion, 2013).

No entanto, deve-se seguir o princ?pio de que n?o existe a melhor ferramenta, mas sim a que melhor se ad?qua as necessidades da corpora??o. Para algumas corpora??es, o uso de ferramentas tradicionais SQL, com sistemas preventivos, que comparam vendas em per?odos do ano, para projetar promo??es, por exemplo, j? s?o suficientes para o negocio. Portanto, h? que se considerar as necessidades de negocio para adotar a ferramenta apropriada e que traga o resultado esperado.

3. SISTEMAS TRADICIONAIS X SISTEMAS DE BIG DATA ANALYTICS O gerenciamento de informa??es h? tempos ? um conceito adotado em

corpora??es que desejam aperfei?oar seus processos atrav?s de m?tricas de recolhimento e tratamento de dados.

A diferen?a no processamento de dados de modelos tradicionais (SQL) para modelos de Big Data Analytics, come?a pela diferen?a entre escalabilidade vertical e horizontal.

Na escalabilidade vertical, usada em sistemas SQL, para poder ter um melhor poder de processamento, investe-se em m?quinas com tecnologias mais avan?adas e consequentemente mais caras, assim aprimorando o processamento dos dados. Na escalabilidade horizontal, usa-se computa??o paralela em que maquinas de n?vel intermedi?rio "commodities", que s?o usadas em conjunto para processar uma quantidade de dados que apenas uma delas seria incapaz de processar, assim, reduzindo custos e possibilitando o processamento de grandes volumes de dados. (Coelho, 2004).

Nos modelos tradicionais, o conceito de Business Intelligence, que em s?ntese, ? uma t?cnica de gerenciamento de neg?cios orientado ? an?lise de informa??es, com o intuito de conhecer fatos que afetam positiva ou negativamente o neg?cio, sendo um forte auxiliar nas tomadas de decis?es.

A ferramenta ETL (Extra??o, Transforma??o e Carregamento), seguindo o principio do Business Intelligence, ? uma tecnologia usada em muitas corpora??es, e que faz a coleta de dados de todos os tipos e formatos, transforma-os, atrav?s de algoritmos, aplicando princ?pios de correla??es entre esses dados e carrega-os em um ambiente de visualiza??o, em que administradores da alta ger?ncia, podem visualiz?los, podendo extrair informa??es que os permitir?o a??es de melhoria nos processos organizacionais.

No processo de an?lise de informa??es, a ferramenta OLAP (Processo anal?tico Online), auxilia na tomada de decis?es atrav?s de cubos multidimensionais que oferecem diferentes perspectivas sobre informa??es da empresa como regi?es e per?odos em que determinados produtos s?o mais vendidos, padr?es de consumo dos clientes, entre outras analises. (Intel, 2016);

A quantidade de dispositivos somada aos diversos formatos de arquivos, e a necessidade da extrair de valor dos mesmos, mostrou a limita??o dos modelos relacionais, que serviam bem para o tratamento de dados estruturados, mas n?o possibilitavam o tratamento de dados semiestruturados ou n?o estruturados. Esse motivo foi um dos principais motivadores da busca de ferramentas NOSQL, que trabalham com bancos de dados n?o relacionais. Al?m da maior quantidade de dados, sistemas NOSQL s?o preparados para trabalhar em sistemas inst?veis em rela??o aos modelos RMDBS (Sistema de gest?o de Bancos de dados Relacionais), tendo um processamento mais complexo. Ainda no modelo NOSQL, os dados oriundos de diversos dispositivos desde aparelhos m?biles at? servidores, s?o replicados em clusters onde s?o processados atrav?s de ferramentas Analytics, e posteriormente visualizados atrav?s de gr?ficos, dashboards, entre outras ferramentas de an?lise, tal qual no modelo ETL, tamb?m usado nos modelos relacionais. O processo conhecido

como retroalimenta??o, em que dados j? processados s?o novamente usados em um segundo processamento contribui para manter informa??es atualizadas e confi?veis. (Intel, 2015)

3.1. PROPRIEDADES ACID E CAP Essas estruturas definem o comportamento da base de dados. Nos modelos

relacionais, busca-se manter as propriedades Acid (Atomicidade1, Consist?ncia2, Isolamento3 e Durabilidade4. No entanto em modelos n?o relacionais, onde o fluxo de dados ? maior, torna-se imposs?vel mant?-las, surgindo ent?o as propriedades Cap (Consistency, Availability e Partition Tolerance). Sendo poss?vel escolher apenas duas, a corpora??o dever? escolher se prefere um sistema sempre dispon?vel, tolerante a falhas, ou consistente, em que todos os usu?rios ter?o a mesma informa??o ao mesmo tempo. Em redes sociais como Facebook, por exemplo, o tempo de visualiza??o pode ser diferente entre usu?rios, portanto, a consist?ncia pode ser colocada em segundo plano em detrimento da disponibilidade e toler?ncia a falhas. J? em lojas de comercio eletr?nico como a Amazon, abrir m?o da consist?ncia, pode implicar vender produtos com estoque esgotado aos clientes, gerando atrasos, cancelamentos e prejudicando a imagem da empresa, ent?o deve-se abrir m?o da toler?ncia a falhas ou disponibilidade, para manter o sistema sempre consistente a todos os usu?rios. (Intel,2015)

Ao anular as propriedades Acid, os sistemas obter?o as propriedades Base:

1) Basically Avaliable: Dados ser?o replicados e ser?o sempre consistentes; 2) Soft State: Dados inconsistentes ser?o tratados posteriormente; 3) Eventually Consistent: Garante a consist?ncia em algum momento.

Existe um conceito, ainda novo no mercado que trata sobre modelos NewSql, os quais mant?m o modelo ACID ao mesmo tempo que buscam manter o rendimento de banco de dados NOSQL, os quais com o decorrer dos anos, devem ser aprimorados at? se tornarem padr?es, melhorando assim a todos os pontos do sistema, sem que seja necess?rio abdicar de nenhum, como ocorre no modelo CAP. (Intel,2015)

A seguir apresenta-se a imagem ilustrativa da propriedade CAP, com e o exemplo de bancos de dados NoSQL como Cassandra, CouchDB e Riak que s?o tolerantes a falhas e sempre dispon?veis, e bancos de dados Nosql como MongoDB, Hbase e BigTable, que s?o consistentes e tolerantes a falhas.

1 Atomicidade: Toda transa??o deve ser bem sucedida, ou n?o ser realizada, (Intel, 2015); 2 Consist?ncia: O banco de dados deve permanecer consistente ao realizar uma opera??o, (Intel, 2015); 3 Isolamento: V?rias opera??es s?o executadas ao mesmo tempo sem interfer?ncia de uma em outra, (Intel, 2015); 4 Durabilidade: Transa??es completas devem persistir e n?o ser alteradas, (Intel, 2015).

................
................

In order to avoid copyright disputes, this page is only a partial summary.

Google Online Preview   Download