Big Data on AWS
Saiba como trabalhar com o Amazon EMR, Amazon Redshift, Amazon Kinesis, Amazon Athena e o restante da plataforma de big data da AWS para processar dados e criar ambientes de big data.
Cursos Autorizados AWS
Instrutores qualificados e com experiência na área
Abordagem prática de aprendizagem
Material completo, atualizado e dinâmico
Saiba mais sobre o treinamento
Este treinamento prático “mão na massa” ao mundo Big Data oferece uma abordagem exclusiva para ajudá-lo a agir sobre os dados (Data Mining) para obter ganhos reais nos negócios. O foco não é o que uma ferramenta pode fazer, mas o que você pode fazer com a saída da ferramenta. Obtenha as habilidades necessárias para armazenar, gerenciar, processar e analisar grandes quantidades de dados, desenvolver modelos utilizando técnicas de Machine Learning (Regressão Logística, Redes Neurais, SVM, Random Forest, Gradient Boosting, XGBoost, entre outros). Tudo isso sobre todo Ecossistema Hadoop (HDFS, YARN/MapReduce, Hive, Spark, Pig, Sqoop, entre outros) e serviços disponíveis da AWS (Clusters, Lambda, Machine Learning, entre outros).
Neste curso, você aprenderá sobre soluções de big data baseadas na nuvem, como o Amazon EMR, Amazon Redshift, Amazon Kinesis e o restante da plataforma de big data da AWS. Demonstraremos o uso do Amazon EMR para processar dados utilizando o amplo ecossistema de ferramentas do Hadoop, como Hive e Hue. Também ensinaremos a criar ambientes de big data, trabalhar com o Amazon DynamoDB, Amazon Redshift, Amazon QuickSight, Amazon Athena e Amazon Kinesis, e a como usufruir das práticas recomendadas para projetar ambientes de big data seguros e econômicos.
CARGA HORÁRIA: 20 horas
Recomenda-se alguma experiência com linguagens de programação (R, Python, SAS, entre outras) e conhecimentos básicos em estatística.
- Arquitetos de soluções;
- Administradores de SysOps;
- Cientistas de dados;
- Analistas de dados.
Introdução ao Big Data:
- O que é?
- Onde é utilizado e por quem?
- Como gerar valor com essa tecnologia?
- Overview Aplicações de Machine Learning (Cenários Reais).
Arquitetura Big Data (Laboratórios 01 e 02):
- Visão geral do Ecossistema Big Data;
- Hadoop
- Teradata + SAS
- Configuração de Cluster Hadoop;
- Ferramentas de monitaramento do Cluster (Ganglia e CloudWatch);
- Configuração/tipo do Cluster otimizado para diferentes aplicações de Big Data;
- Otimização de custos utilizando AWS EMR Spot;
- Ferramentas para Mineração e Visualização dos dados.
- Zeppelin
- Jupyter
Processamento de Grande Volume de Dados (Laboratório 03):
- Tipos de armazenamento dos dados;
- Csv
- Parquet
- Json
- Extração, Transformação e Carga dos Dados (ETL).
- Conversão de CSV para Parquet
- Conversão de tipo de dado (numerico, string, data, timestamp)
- Particionamento
- Armazenamento (S3 | RedShift | RDS | Teradata)
Mineração dos Dados – Data Mining (Laboratório 04):
- Introdução ao Aprendizado de Máquina (Machine Learning):
- Tipos de Dados
- Visualização dos Dados
- Tratamento dos Dados
- Seleção de Variáveis
- Modelos Supervisionados
- Naive Bayes
- Regressão Linear
- Regressão Logística
- Árvore de Classificação/Regressão
- Random Forest | Gradient Boosting | XGBoost
- Redes Neurais
- Modelos Não Supervisionados (Clusterização)
- K-means
- Hierarquico
- Fuzzy
- DBSCAN
- Avaliação de Desempenho dos Modelos
- Implantação de Modelos
- Escoragem On-line
- Escoragem Batch
Case de Negócio (Laboratório 05):
- Neste laboratório é dado ao aluno um caso real de aplicação de problema de Big Data e utilizaremos todas as ferramentas apresentadas no curso para resolver o problema. No final medimos o valor gerado ao negócio por cada solução:
- Entendimento do problema de negócio
- Desenvolvimento do Modelo
- Avaliação do modelo
- Aplicação
- Entrega