Skip to content

luanicaro/Desmatamento

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

24 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

header

Os códigos são um trabalho da faculdade sobre regressões lineares, foram usadas OLS Regression (Ordinary Least Squares), Ridge regression e PLS(Partial Least Squares).

Tecnologias

  • R: Análise Exploratória e Geomapa
  • Python: Análise Exploratória e modelos preditivos

Resultados

O desmatamento por pessoa que aconteceu em 2010:

mapaprevisto

O resultado das regressões:

desmatamentoprevisto

A previsão dos modelos apesar de errarem o tanto de desmatamento, acertou quase todos os países que perdem ou ganham florestas.

Análise exploratória

Os dados do desmatamento são retirados do site "Our World in Data", dos seus artigos sobre florestas e desmatamento. Esses textos foram importantes à análise exploratória, com perguntas chaves ao entendimento das informações e à busca do problema. Depois da exploração dos dados, foi feito um tratamento neles para aplicar modelos de regressão linear e fazer uma análise preditiva sobre o desmatamento. São 6 datasets, cada um tratando de aspectos diferentes do desmatamento, como: comportamento, causas e consquências. Os seis são;

  • Forest;
  • Forest Area;
  • Brazil Loss;
  • Vegetable Oil;
  • Soybean Use;
  • Population;

Tratamento dos Dados

Modelos de regressão são muito sensíveis a outliers, portanto, é necessário ver como esse dados se comportam. Logo, boxplot é uma ótima ferramenta para detectar esses pontos fora da curva.

boxplot

Percebe-se que os dados não são muito comportados, mas não é tão simples remover os outliers do dataset. Isso porque, caso ocorra essa remoção de maneira qualquer, essas informações não representariam a verdade sobre o desmatamento. Os únicos valores que poderão ser removidos são os "Not a Number"(NaN).

Quais os países com maior área de floresta?

O gráfico em área, mostra a porcentagem global de floresta dos países. Poucas entidades contém certa de 67% das florestas do mundo.

área

Quanto desmatamento acontece?

Desmatamento

O desmatamento do mundo acontece na casa de milhões de hectares por ano e o país que mais desmata é o Brasil.

Porque o Brasil? Como?

O Brasil é o foco do desmatamento no mundo, porque é segundo país no rank com mais área de floresta, tem um clima ameno e tem leis menos punitivas ao desmatamento que em outras nações.

brazil_loss

O principal causador da destrução das florestas brasileiras são os pastos.

Produção de soja de vários países.

soja

Na produção de soja, China e Estados Unidos são os que mais produzem e não perdem floresta. Além disso, os países que mais desmatam não tem produção de soja, apenas o Brasil, cujas plantações são o que menos causam desmatamento. Então, a produção de soja não é um fator relevante ao desflorestamento mundial.

Produção de óleos vegetais

óleos

A produção de óleos é bem mais relevante ao desmatamento, considerando que vários dos países que mais desmatam tem uma alta produção de óleos vegetais.

Definindo os preditores

Juntando os dados mais relevantes ao desmatamento global, é formado o dataset com: Conversão líquida de floresta, área, população e produção de óleo.

Entidade Código Ano Conversão líquida de floresta Área % População Produção de óleo(toneladas)
Russia RUS 2010 -41030 19.85 142849468 3007851
... ... ... ... ... ... ...
Maldives MDV 1990 0 0 223159 1224

O dataset tem 260 linhas e os preditores para prever a Conversão líquida de floresta são: área, população e produção de óleo.

Removendo os outliers

Devido a pouca quantidade de dados, além dos outliers não poderem ser removidos de maneira qualquer, será necessário uma normalização pela população de cada país. Isso é um procedimento padrão quando se trata de nações, o modelo irá prever o desmatamento por pessoa. Com essa normalização, os dados são bem mais comportados, como mostra o boxplot abaixo, então os outliers poderão ser removidos.

boxplot2

Apesar de serem mais comportados em questão de outliers, os dados continuam bem difíceis para modelos de regressão e sobraram 234 linhas na matriz.

scatter

Análise mono e bi-variada

Depois de definir os preditores e remover os outliers, é necessário fazer uma análise estatística para ver como os dados se comportam e o tipo de tratamento necessário para eles.

Captura de tela de 2021-12-28 15-35-13

Os valores de distorção mostrados na tabela são bem altos, então uma transformação nesses dados se torna necessária. Nos dados com valores positivos, é aplicada uma transformação logarítmica para corrigir a distorção. Já na conversão líquida de floresta, como os valores são negativos, uma transformação Yeo-Johnson deve ser aplicada.

A figura é um plot de pares das colunas do dataset principal. A diagonal mostra o histograma dos dados que sofreram uma transformação logarítmica. Os outros plots são apenas um scatterplot de como uma informação se relaciona a outra.

análise png

Matriz de correlação

A matriz de correlação diz quanto uma coluna da matriz está correlacionada com outra. Isso é importante porque caso existam colunas altamente correlacionadas, não será possível fazer a regressão linear. X é a matriz de preditores e y é matriz de saída.

CodeCogsEqn (7)

A equação acima é a regressão linear em notação matricial. Essa fórmula mostra porque não é possível fazer a regressão quando as colunas são altamente correlacionadas, pois o produto abaixo não é invertível.

CodeCogsEqn (8)

A matriz de correlação dos preditores do desmatamento:

Captura de tela de 2021-12-28 16-38-19

PCA (Principal Component Analysis)

É importante ressaltar que cada coluna de uma matriz é uma dimensão dessa matriz, assim é impossivel visualizar os dados da matriz quando existem mais de 3 colunas. Então, a PCA (Principal Component Analysis) é um método para resolver esse problema de visualização. Isso porque, a PCA analísa as colunas e mantém as duas com maior variância, porque preserva as informações originais dos dados e cria uma visualização fidedigna da matriz original.

newplot

O eixo 0 é a Área de floresta e o eixo 1 é a produção de óleo.

A PCA escolheu como componentes principais a área de floresta e a produção de óleo. Portanto, esses preditores irão à regressão linear.

Variancia

variancia

Somente com duas componentes os dados tem quase 100% de variância.

Resultados

Após todo o pré-processamento de dados e a aplicação da PCA, é possível aplicar modelos de regressão linear. Serão aplicados os modelos OLS(Ordinary Least Squares) regression, Ridge regression e PLS(Partial Least Squares) regression. Como os dados são uma série temporal do desmatamento, os dados de teste e de treino foram separados pelo tempo. Foram separados os dados de 1990 e 2000 para prever o desmatamento por pessoa de 2010.

Devido aos dados não serem adequados às regressões, os modelos não foram capazes de se adequar devidamente e todos tiveram os mesmos resultados:

CodeCogsEqn (9)

CodeCogsEqn (10)

CodeCogsEqn (11)

Plot da regressão

regressao

Mapas

O desmatamento por pessoa que aconteceu em 2010:

mapaprevisto

O resultado das regressões:

desmatamentoprevisto

Conclusão

Os dados foram bem desafiadores para o modelo de regressão devido sua quantidade de outliers e a pouca quantidade de linhas na matriz. Os modelos tiveram perfomances iguais apesar de usarem métodos diferentes e, talvez, para esse dataset um modelo robusto contra outliers possa ter um resultado bem melhor. Por fim, a regressão foi capaz de acertar a maior parte dos locais que ocorrem desmatamento.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published