Treinamento Data Science com Python

Instalar e preparar o ambiente para o treinamento Data Science com Python
Introduction to Python
Data Analysis With Pandas
Data Visualization with Matplotlib and Seaborn
Advanced Resources
Machine Learning
Projects
Melhorias

Instalar e preparar o ambiente para o treinamento Data Science com Python

Instalar Anaconda

Anaconda é uma ferramenta/plataforma para Data Science que permite gerir as distribuições de Python para os sistemas operacionais Windows, Linux e MAC. Então, por favor, instale o Anaconda. Neste tutorial, você vai encontrar os passos necessários para instalar o Anaconda no seu sistema operacional. Ao instalar o Anaconda, você estará instalando um ambiente para Data Science com todas as ferramentas necessárias como Python e suas principais bibliotecas, Jupyter Notebook e Spyder.

Sugestões de leitura:

How to check your Anaconda version

Download dos dataframes do treinamento

Os dataframes que serão utilizados no treinamento estão aqui. Faça o download dos dataframes para o seu computador (ou Github ou Google Drive).

Jupyter Notebook

Jupyter Notebook é um ambiente computacional web, interativo para criação de documentos “Jupyter Notebooks”. O documento é um documento JSON com um esquema e contém uma lista ordenada de células que podem conter código, texto, fórmulas matemáticas, plotagens e imagens. A extensão dos notebooks é “.ipynb”. Vamos criar nossos programas Python utilizando principalmente o Jupyter Notebook.

Sugestões de leitura:

Por que Python

Eis aqui algumas razões:

Because Python is a widely used high-level and general-purpose programming language;
Open-source;
Fácil de aprender;
Ferramenta Analítica poderosa;
Intuitiva;
Alta demanda e popularidade;
Aumento exponencial de usuários e comunidade Python;
Aumento da produtividade.

Sugestões de leitura:

Principais bibliotecas Python para Data Science

Pandas - Análise e transformação de dados. É uma das bibliotecas mais populares do Python;
SciPy (Scientific Python) - Rica em funcionalidades para Álgebra Linear, Transformaçes de Fourier, Otimização e muitas outras funçes matemáticas;
NumPy (Numerical Python) - Uma bibliotecas mais importantes do Python. Muito utilizada para Álgebra Linear, Transformadas de Fourier e geração de números aleatrios. Muitas outras bibliotecas do Python foram escritas em Numpy.
Matplotlib;
- As referências a seguir apresentam uma vasta variedade de gráficos e exemplos usando Matplotlib:
  - Matplotlib Examples;
  - datavizproject - Vale a pena olhar rapidamente os tipos de gráficos possíveis de produzir com Matplotlib.
Scikit-learn - Biblioteca para Machine Learning: clustering, Regressão (Linear, Logistic, Ridge, LASSO e outras), classificação, redução de dimensionalidade (Principal Components Analysis, Factor Analysis), Redes Neurais e etc;
Seaborn - Outra biblioteca para data visualization. Veja aqui os tipos de gráficos que esta biblioteca é capaz de fazer.

Embora não seja escopo deste curso, gostaria de citar outras importanes bibliotecas para Data Science e Inteligência Artificial:

Keras - Keras é uma API de redes neurais de alto nível e fácil de usar, capaz de rodar sobre o Tensorflow. Para aqueles interessados em Redes Neurais, Deep Learning e Inteligência Artificial, sugiro ler este artigo onde o autor mostra como implementar modelos Deep Learning usando Keras.
Tensorflow - O Tensorflow é uma biblioteca de código aberto que ajuda os cientistas de dados a desenvolver e treinar modelos de aprendizado de máquina utilizando paralelismo computacional.

Outras ferramentas de Data Science

Google Colab

Se você tem uma conta do Google, você pode executar o Python usando o Google Colab. Esta é uma interessante alternativa para usar o Python on-lines sem qualquer instalação. Adicionalmente, você pode integrar o Google Colab com o GitHub ou Google Drive para guardar seus projetos de Data Science. Você pode usar o Jupyter Notebook no Google Colab , permitindo que você use a GPU Tesla K80, ou seja, 12 GB de memória RAM.

Sugestões de leitura:

Github

Fonte

GitHub é uma plataforma de hospedagem de código para colaboração e controle de versão, permitindo que as equipes de desenvolvimento trabalhem juntos.

Sugestões de leitura:

Docker

Fonte

Docker é uma alternatia mais eficiente à virtualização que garante maior facilidade na criação e administração de ambientes isolados chamados de containers, tendo por objetivo disponibilizar software/soluções para o usuário final de forma mais rápida.

Sugestões de leitura:

Objetivos do Treinamento

Objetivo Geral:

Machine Learning é a principal ferramenta para a Inteligência Artificial e é um dos campos científicos mais amplamente estudados atualmente. Uma quantidade considerável de literatura foi publicada sobre Machine Learning. Nosso objetivo neste treinamento é fornecer os aspectos mais importantes do Machine Learning usando o Python.

Neste treinamento vamos estudar e aprender:

Sugestões de leitura:

Lei de Pareto e Data Science

Afirma que 80% dos efeitos provêm de 20% das causas.

Surgiu da observação de Andrew e Jonathan depois de constatarem que os 20% mais talentosos entregavam 80% dos resultados em toda a indústria de vendas. Desta forma, Andrew e Jonathan viram a necessidade de um negócio que recruta de forma diferente, concentrando-se apenas nos 20% melhores da força de trabalho de vendas.

A seguir, outros exemplos da aplicação da Lei de Pareto:

80% da riqueza da Itália pertencia a apenas 20% da população;
20% dos melhores funcionários geram 80% dos resultados;
20% dos consumidores geram 80% das receitas/lucros;

Em nosso caso, estou interessado e focado em transmitir-lhes 20% dos conteúdos realmente relevantes de Data Science que lhe possibilite analisar dados e construir modelos de Machine Learning em 80% das vezes... O que você acha disso?

Sugestões de leitura:

Princípio de Pareto: 80/20

Porque a Lei de Pareto é muito importante no aprendizado de Data Science e Python?

Python é uma linguagem muito versátil. Com isso quero dizer que há várias maneiras de fazer a mesma tarefa. Se tentarmos explorar todas as formas de fazer a tarefa XPTO, perderemos muito tempo. Portanto, vou me concentrar no que é mais importante.

O que eu espero

Fatos importantes

Machine Learning

"Information is the oil of the 21st century, and analytics is the combustion engine." - Peter Sondergaard, SVP, Garner Research;

Neste capítulo, vamos estudar as ferramentas, técnicas e algoritmos de Machine Learning que podem ser aplicados para resolver problemas de negócio. * No entanto, gostaria de frisar que Machine Learning é a parte mais sexy do trabalho! Gostaria de lembrar, mais uma vez, que 80% do trabalho está concentrada na parte mais difícil, que é o da preparação e tratamento dos dados. É esta parte do trabalho que realmente define se você é ou não um bom Cientista de Dados.

O foco deste capítulo será:

Linear, Logistic Regression, Decision Tree, Random Forest, Support Vector Machine and XGBoost algorithms for building Machine Learning models;
Understand how to solve Classification and Regression problems in Machine Learning;
Ensemble Modeling and techniques like Bagging and Boosting;
Learn how to reduce dimensions using Feature Engineering, Principal Component Analysis (PCA) and t-SNE;
Understand and use Preprocessing Methods from scikit-learn (To help with this chapter, follow: https://scikit-learn.org/stable/auto_examples/preprocessing/plot_all_scaling.html#sphx-glr-auto-examples-preprocessing-plot-all-scaling-py);
How to evaluate your Machine Learning models and improve them through Feature Engineering;
Learn Unsupervised Machine Learning Techniques like k-means clustering and Hierarchical Clustering;

Sugestão de leitura:

The 10 Statistical Techniques Data Scientists Need to Master

CRISP-DM PROCESS

Fonte

CRISP-DM (Cross-Industry Process for Data Mining) é uma metodologia amplamente utilizada e estruturada para o planejamento e desenvolvimento de um projeto de Data Mining.

1BU - BUSINESS UNDERSTANDING

Esta fase é dedicada a entender o que se deseja alcançar a partir de uma perspectiva de negócios. O objetivo deste estágio do processo é descobrir fatores importantes que possam influenciar o resultado do projeto. Há várias metodologias que podem ajudá-lo nesta fase. Sugiro a utilização da metodologia SMART para ajudá-lo nesta fase.

Quais os principais outputs desta fase?

Estebelecer claramente os objetivos do Projeto;
Produzir o Project Plan (Recursos, limitações, suposições, riscos e etc);
Definir critérios de sucesso do Projeto;

2DU - DATA UNDERSTANDING

O foco desta fase está na coleta e exploração dos dados. Lembre-se de que a precisão dos modelos de ML depende da quantidade e qualidade dos dados.

Exploratory Data Analysis

Também conhecido por EDA, nesta fase nosso foco está na exploração do dataframe, descobrir relações e descrever os dados em geral. Utilize-se das técnicas de Data Visualization para detectar relações relevantes entre as variáveis, desequilíbrios de classes e identificar variáveis mais importantes.

3DP - DATA PREPARATION

Nesta fase o Cientista de Dados vai investir 80% do seu tempo, pois esta fase é dedicada a coletar, preparar, transformar e limpar dados: remover duplicatas, corrigir erros, lidar com Missing Values, normalização, conversões de tipo de dados e etc.

3DP_Feature Engineering

Nesta fase temos 2 objetivos: corrigir problemas nas variáveis e derivar novas variáveis.

É uma atividade que requer muita criatividade, intuição, conhecimento dos dados e do problema a ser resolvido;
Não há um guia ou livros para nos ajudar a projetar e selecionar bons atributos;
Muitas vezes o Data Scientist deve consultar o Business Analyst para fazer sentido com os dados;
O principal objetivo da Feature Engineering é reduzir a complexidade do modelo;
Geralmente aplicar transformaçes como "raiz quadrada", "elevar à 3 potência" ou "log" em certas colunas melhora a qualidade das predições uma vez que estas transformações corrigem a distribuição das variáveis.
Transfor e alterar tipos das variáveis;
Portanto, Feature Engineering tem 2 objetivos/fases:
- Fase 1: O foco desta fase é corrigr possveis problemas de preenchimento das variáveis. Por exemplo, considere a variável 'Sexo' com os seguintes preenchimentos: m, M, Male, Men, Man, mALE, MALE, tudo isso para designar o sexo masculino. Isto é um problema de preenchimento e nesta fase vamos corrigir esses problemas.
- Fase 2: Criar mais atributos a partir dos atributos disponíveis.
3DP_Missing Values Handling

Nosso foco nesta fase é identificar e tratar os Missing Values que neste curso são chamados de NaN (Not a Number). A tarefa de tratar os NaN são também chamados de Imputing Missing Values. Quando estamos diante de uma variável com grande número de NaN's (tanto numricas quanto categóricas) uma prática interessante é construir uma variável indicadora para indicar se aquele registro é ou não um NaN. Veremos isso mais tarde na prática.

3DP_Outliers Handling

Nosso foco aqui é identificar e tratar os Outlier. Tratar outliers significa, por exemplo, descartá-lo/deletá-lo ou imputá-lo usando Média/Mediana/Moda. Outra alternativa é aplicar o Máximo para os Outliers superiores e Mínimo para os outliers inferiores. O Gráfico de Boxplot pode ajudar nesta fase. Uma outra alternativa interessante é usar K-Means para agrupar as observaçes da variável. Neste caso, ter-se-à um cluster com os outliers, tanto superiores quanto inferiores.

3DP_Data Transformation

Significa colocar as variáveis numa mesma escala. Há várias transformações que podem ser aplicadas nesta fase. Principais transformações que podem ser aplicadas nas variáveis:

StandardScaler

$Y_{i}=\dfrac{X_{i}-mean(X)}{stdev(X)}$
MinMaxScaler

$Y_{i}=\dfrac{X_{i}-min(X)}{max(X)-min(X)}$
KBinsDiscretizer
MaxAbsScaler

$Y_{i}=\dfrac{X_{i}-mean(X)}{stdev(X)}$

$W_{i}= abs(Y_{i})$
RobustScaler

$Y_{i}=\dfrac{X_{i}-Q_{1}(X)}{Q_{3}(X)-Q_{1}(X)}$
Normalizer
- Aplica as normas L1 ou L2. A norma L2 é default no scikit-learn.

Obs.: As funções matemáticas desta sessão foram escritas com a ajuda do site: https://www.codecogs.com/eqnedit.php?latex=\mathcal{W}(A,f)&space;=&space;(T,\bar{f}).

3DP_Feature Selection ou Dimensionality Reduction

Selecionar os melhores atributos/variáveis para o(s) modelo(s) de ML. Pode-se utilizar Random Forest para avaliar a importância de cada atributo/variável para o modelo.

Sugestão de leitura:

Rescaling Data for Machine Learning in Python with Scikit-Learn

4M - MODELING

Algoritmos diferentes podem ser aplicados ao mesmo problema. Sugiro aplicar o maior número de algoritmos possveis e escolher o que entregar melhor resultados.

Supervised Learning

[Incluir figura!!!]

Referência

Unsupervised Learning

[Incluir figura!!!]

Referência

Machine Learning Map

Source: Choosing the right estimator

Modeling With Python

Amostras de treinamento e teste

Nesta fase o Cientista de Dados deve selecionar aleatoriamente as amostras de treinamento e teste (ou validação) dos modelos de ML. Geralmente usamos 70% da amostra para treinamento e o restante, 30%, para teste/validação. Outras opções são usar os percentuais 80/20 ou 75/25.

Fonte

Train the Model

Treinar o modelo com os dados significa encontrar o melhor (ou a melhor combinação de algoritmos de ML) que explica o fenômeno sob estudo. Vamos discutir esse tópico com mais detalhes mais tarde.

As informaçes do dataframe devem estar convenientemente organizadas da seguinte forma:

Fonte

Parameter Tuning

Esta fase tem por objetivo otimizar o melhor modelo de ML da fase anterior. Os hiperparâmetros de modelos podem incluir: número de etapas de treinamento, taxa de aprendizado, valores de inicialização e distribuição, etc.

Ensemble Methods

Ensemble Methods envolve a utilização de mais de um algoritmo de ML são treinados para resolver o mesmo problema e combinados para obter melhores resultados.

Source: Building an Ensemble Learning Model Using Scikit-learn

As figuras para Ensemble podem ser encontradas aqui: https://github.com/MathMachado/DSWP/blob/master/Material/Boosting%2C%20Bagging%2C%20and%20Stacking%20%E2%80%94%20Ensemble%20Methods%20with%20sklearn%20and%20mlens.7z ou aqui: https://medium.com/@rrfd/boosting-bagging-and-stacking-ensemble-methods-with-sklearn-and-mlens-a455c0c982de.

Os tipos de ensemble no scikit-learn são:

Boosting
- Colocar a figura aqui
Stacking
- Colocar a figura aqui
Bagging
- Colocar a figura aqui

Sugestão de leitura:

5MSE - MODEL SELECTION AND EVALUATE

Nesta fase identificamos e aplicamos as melhores métricas (Accuracy, Sensitivity, Specificity, F-Score, AUC, R-Sq, Adj R-SQ, RMSE (Root Mean Square Error)) para avaliar o desempenho/acurácia/performance dos modelos de ML. Treinamos os modelos de ML usando a amostra de treinamento e avaliamos o desempenho/acurácia/performance na amostra de teste/validação.

Eu comprei o curso: https://www.udemy.com/course/machine-learning-in-python-random-forest-adaboost/. Dá pra aproveitar alguma coisa?

6D - Deployment

Implementa o modelo (ou conjunto de modelos nos casos de Emsembles Methods).

Introduction to Python

Nomes de variáveis

As variáveis no Python devem começar com letras (A-Z/a-z) ou underscore(_)
As variáveis Python não devem conter símbolos especiais como, por exemplo, !, @, #, $, %, .
Palavras reservadas do Python não podem ser usadas como nomes de variáveis.

Nomenclatura sugerida para Nomes de variáveis no Python

A nomenclatura (sugerida e adotada neste treinamento) identifica o tipo de variável:

Data Analysis With Pandas

Data Analysis with Pandas
- Index & Selection
- Missing Values Handling
- Combining Dataframes: concat() and append()
- Combining Dataframes: merge & join()
- Aggregations & Grouping
- Pivot Tables
- [Sampling Strategies](Sampling Strategies.ipynb)

Data Visualization with Matplotlib and Seaborn

Data Visualization With Matplotlib

Advanced Resources

[Python RegEx - Regular Expressions](Python RegEx - Regular Expressions.ipynb)
Modules
Fake Data
[Classes and Methods](Classes and Methods.ipynb)
[Statistics and Probability](https://github.com/MathMachado/DSWP/blob/master/Notebooks/Statistics and Probability.ipynb) - Finalizar!

Machine Learning

Projects

A seguir, vos apresento os projetos/estudos de caso:.

Name		Name	Last commit message	Last commit date
Latest commit History 50 Commits
Dataframes		Dataframes
Material		Material
Notebooks		Notebooks
Projetos		Projetos
.gitignore		.gitignore
README.md		README.md

GastaoDM/DSWP

Folders and files

Latest commit

History

Repository files navigation

Treinamento Data Science com Python

Instalar e preparar o ambiente para o treinamento Data Science com Python

Instalar Anaconda

Sugestões de leitura:

Download dos dataframes do treinamento

Jupyter Notebook

Sugestões de leitura:

Por que Python

Sugestões de leitura:

Principais bibliotecas Python para Data Science

Outras ferramentas de Data Science

Google Colab

Sugestões de leitura:

Github

Sugestões de leitura:

Docker

Sugestões de leitura:

Objetivos do Treinamento

Objetivo Geral:

Neste treinamento vamos estudar e aprender:

Sugestões de leitura:

Lei de Pareto e Data Science

Sugestões de leitura:

Porque a Lei de Pareto é muito importante no aprendizado de Data Science e Python?

O que eu espero

Fatos importantes

Machine Learning

Sugestão de leitura:

CRISP-DM PROCESS

1BU - BUSINESS UNDERSTANDING

Quais os principais outputs desta fase?

2DU - DATA UNDERSTANDING

3DP - DATA PREPARATION

Sugestão de leitura:

4M - MODELING

Supervised Learning

Unsupervised Learning

Machine Learning Map

Modeling With Python

Sugestão de leitura:

5MSE - MODEL SELECTION AND EVALUATE

6D - Deployment

Introduction to Python

Nomes de variáveis

Nomenclatura sugerida para Nomes de variáveis no Python

Data Analysis With Pandas

Data Visualization with Matplotlib and Seaborn

Advanced Resources

Machine Learning

Projects

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages