Os códigos são um trabalho da faculdade sobre regressões lineares, foram usadas OLS Regression (Ordinary Least Squares), Ridge regression e PLS(Partial Least Squares).
- R: Análise Exploratória e Geomapa
- Python: Análise Exploratória e modelos preditivos
O desmatamento por pessoa que aconteceu em 2010:
O resultado das regressões:
A previsão dos modelos apesar de errarem o tanto de desmatamento, acertou quase todos os países que perdem ou ganham florestas.
Os dados do desmatamento são retirados do site "Our World in Data", dos seus artigos sobre florestas e desmatamento. Esses textos foram importantes à análise exploratória, com perguntas chaves ao entendimento das informações e à busca do problema. Depois da exploração dos dados, foi feito um tratamento neles para aplicar modelos de regressão linear e fazer uma análise preditiva sobre o desmatamento. São 6 datasets, cada um tratando de aspectos diferentes do desmatamento, como: comportamento, causas e consquências. Os seis são;
- Forest;
- Forest Area;
- Brazil Loss;
- Vegetable Oil;
- Soybean Use;
- Population;
Modelos de regressão são muito sensíveis a outliers, portanto, é necessário ver como esse dados se comportam. Logo, boxplot é uma ótima ferramenta para detectar esses pontos fora da curva.
Percebe-se que os dados não são muito comportados, mas não é tão simples remover os outliers do dataset. Isso porque, caso ocorra essa remoção de maneira qualquer, essas informações não representariam a verdade sobre o desmatamento. Os únicos valores que poderão ser removidos são os "Not a Number"(NaN).
O gráfico em área, mostra a porcentagem global de floresta dos países. Poucas entidades contém certa de 67% das florestas do mundo.
O desmatamento do mundo acontece na casa de milhões de hectares por ano e o país que mais desmata é o Brasil.
O Brasil é o foco do desmatamento no mundo, porque é segundo país no rank com mais área de floresta, tem um clima ameno e tem leis menos punitivas ao desmatamento que em outras nações.
O principal causador da destrução das florestas brasileiras são os pastos.
Na produção de soja, China e Estados Unidos são os que mais produzem e não perdem floresta. Além disso, os países que mais desmatam não tem produção de soja, apenas o Brasil, cujas plantações são o que menos causam desmatamento. Então, a produção de soja não é um fator relevante ao desflorestamento mundial.
A produção de óleos é bem mais relevante ao desmatamento, considerando que vários dos países que mais desmatam tem uma alta produção de óleos vegetais.
Juntando os dados mais relevantes ao desmatamento global, é formado o dataset com: Conversão líquida de floresta, área, população e produção de óleo.
Entidade | Código | Ano | Conversão líquida de floresta | Área % | População | Produção de óleo(toneladas) |
Russia | RUS | 2010 | -41030 | 19.85 | 142849468 | 3007851 |
... | ... | ... | ... | ... | ... | ... |
Maldives | MDV | 1990 | 0 | 0 | 223159 | 1224 |
O dataset tem 260 linhas e os preditores para prever a Conversão líquida de floresta são: área, população e produção de óleo.
Devido a pouca quantidade de dados, além dos outliers não poderem ser removidos de maneira qualquer, será necessário uma normalização pela população de cada país. Isso é um procedimento padrão quando se trata de nações, o modelo irá prever o desmatamento por pessoa. Com essa normalização, os dados são bem mais comportados, como mostra o boxplot abaixo, então os outliers poderão ser removidos.
Apesar de serem mais comportados em questão de outliers, os dados continuam bem difíceis para modelos de regressão e sobraram 234 linhas na matriz.
Depois de definir os preditores e remover os outliers, é necessário fazer uma análise estatística para ver como os dados se comportam e o tipo de tratamento necessário para eles.
Os valores de distorção mostrados na tabela são bem altos, então uma transformação nesses dados se torna necessária. Nos dados com valores positivos, é aplicada uma transformação logarítmica para corrigir a distorção. Já na conversão líquida de floresta, como os valores são negativos, uma transformação Yeo-Johnson deve ser aplicada.
A figura é um plot de pares das colunas do dataset principal. A diagonal mostra o histograma dos dados que sofreram uma transformação logarítmica. Os outros plots são apenas um scatterplot de como uma informação se relaciona a outra.
A matriz de correlação diz quanto uma coluna da matriz está correlacionada com outra. Isso é importante porque caso existam colunas altamente correlacionadas, não será possível fazer a regressão linear. X é a matriz de preditores e y é matriz de saída.
A equação acima é a regressão linear em notação matricial. Essa fórmula mostra porque não é possível fazer a regressão quando as colunas são altamente correlacionadas, pois o produto abaixo não é invertível.
A matriz de correlação dos preditores do desmatamento:
É importante ressaltar que cada coluna de uma matriz é uma dimensão dessa matriz, assim é impossivel visualizar os dados da matriz quando existem mais de 3 colunas. Então, a PCA (Principal Component Analysis) é um método para resolver esse problema de visualização. Isso porque, a PCA analísa as colunas e mantém as duas com maior variância, porque preserva as informações originais dos dados e cria uma visualização fidedigna da matriz original.
O eixo 0 é a Área de floresta e o eixo 1 é a produção de óleo.
A PCA escolheu como componentes principais a área de floresta e a produção de óleo. Portanto, esses preditores irão à regressão linear.
Somente com duas componentes os dados tem quase 100% de variância.
Após todo o pré-processamento de dados e a aplicação da PCA, é possível aplicar modelos de regressão linear. Serão aplicados os modelos OLS(Ordinary Least Squares) regression, Ridge regression e PLS(Partial Least Squares) regression. Como os dados são uma série temporal do desmatamento, os dados de teste e de treino foram separados pelo tempo. Foram separados os dados de 1990 e 2000 para prever o desmatamento por pessoa de 2010.
Devido aos dados não serem adequados às regressões, os modelos não foram capazes de se adequar devidamente e todos tiveram os mesmos resultados:
O desmatamento por pessoa que aconteceu em 2010:
O resultado das regressões:
Os dados foram bem desafiadores para o modelo de regressão devido sua quantidade de outliers e a pouca quantidade de linhas na matriz. Os modelos tiveram perfomances iguais apesar de usarem métodos diferentes e, talvez, para esse dataset um modelo robusto contra outliers possa ter um resultado bem melhor. Por fim, a regressão foi capaz de acertar a maior parte dos locais que ocorrem desmatamento.