Por Pedro Matos (*)
Num mundo, onde a tecnologia não pára de nos surpreender com novas aplicações de modelos de Machine Learning e Data Science, onde os vários dispositivos IoT (sensores, dispositivos móveis, drones, etc.) enviam dados que necessitam de ser ingeridos, processados e armazenados rapidamente e onde as aplicações de negócio armazenam milhões de registos de dados para serem processados analiticamente, torna-se essencial os engenheiros de dados utilizaram novas técnicas , ferramentas e serviços a fim de desenhar, implementar e monitorizar os fluxos de processamento de dados destas aplicações.
Em modelos tradicionais de BI, um engenheiro de dados concentra-te em T-SQL e SQL Server, ou, utiliza ferramentas de integração como o SSIS ou Azure Data Factory, para desenhar processos de ETL. Mas com o crescimento exponencial de dados e o aumento de diversidade dos seus tipos (estruturados, semiestruturados ou não estruturados), as ferramentas tradicionais não têm a capacidade de corresponder às necessidades dos analistas de dados e do negócio. Para tal, o engenheiro de dados tem que adicionar ao seu conhecimento novas técnicas, ferramentas e serviços para corresponder às necessidades atuais que dependem de soluções modernas e inovadoras. Para ajudar os engenheiros de dados, Azure oferece várias tecnologias como por exemplo Azure HDInsight, Azure Databricks, Azure Synapse Analytics e Azure Data Factory que estão associadas aos vários benefícios da Cloud, tais como, disponibilidade elevada, escalabilidade, agilidade, monitorização, governança e segurança.
Vemos então, que novas tecnologias, trazem com elas responsabilidades que se traduzem em tarefas que a adicionar às funções dos engenheiros de dados. Vejamos alguns exemplos.
Desde a criação de um simples processo de ETL através de data flows em Azure Data Factory ou a utilização de um Azure Data Lake para a criação de um delta lake com camadas bronze, silver e gold para serem consumidos por Azure Databricks, o engenheiro dados desenha e implementa soluções de armazenamento e transformação de dados para serem utilizados pelos vários processos analíticos.
As aplicações de hoje recolhem dados estruturados em ficheiros CSV, JSON, Parquet entre outros. O engenheiro de dados tem que ter a capacidade de utilizar várias linguagens de programação para além de SQL, como é o caso de PySpark, para processar vários tipos de estrutura de dados.
No universo Data Science, um engenheiro de dados não vai estudar e decidir qual o modelo de Machine Learning apropriado essa é uma tarefa de um engenheiro ML, mas é ele que vai utilizar técnicas de Data Cleaning para limpar os dados e criar os datasets a serem consumidos pelos cientistas de dados com a utilização de serviços como Azure Machine Learning Studio. Para além disto, o engenheiro de dados ajudará no Deployment dos processos analíticos criados pelo estudo de um cientista de dados.
E como último exemplo, um engenheiro de dados implementa a segurança dos dados, disponibilidade e a eficiência do custo da solução, para garantir a satisfação dos nossos Stakeholders. Para isso, temos que criar estratégias de auditoria, de privacidade e monitorização através das ferramentas que a Cloud nos oferece, como é o caso de Azure Advisor, Azure Security e Azure Monitor, disponíveis no portal Azure. Sem esquecer que os próprios serviços conferem capacidades de monitorização internas dos seus processos como é o caso das ferramentas Azure Data Factory e Azure Synapse Analytics.
Ampla é a variedade de conceitos, tarefas, ferramentas e tecnologias necessárias na engenharia de dados na Cloud. Mas é o que torna o conceito de Data Engineer tão interessante e desafiante. Ter a capacidade de compreender, participar e trabalhar em conjunto com vários agentes desta área e criar uma solução de dados, desde as fontes dos mesmos até aos processos analíticos, que serão consumidos pelos vários stakeholders do mundo de BI e Data Analytics.
(*) Business Intelligence Senior Consultant da GSTEP
Pergunta do Dia
Em destaque
-
Multimédia
20 anos de Halo 2 trazem mapas clássicos e a mítica Demo E3 de volta -
App do dia
Proteja a galáxia dos invasores com o Space shooter: Galaxy attack -
Site do dia
Google Earth reforça ferramenta Timelapse com imagens que remontam à Segunda Guerra Mundial -
How to TEK
Pesquisa no Google Fotos vai ficar mais fácil. É só usar linguagem “normal”
Comentários