Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Correções nos metadados #15

Open
6 of 23 tasks
turicas opened this issue Oct 14, 2020 · 8 comments
Open
6 of 23 tasks

Correções nos metadados #15

turicas opened this issue Oct 14, 2020 · 8 comments
Assignees

Comments

@turicas
Copy link
Owner

turicas commented Oct 14, 2020

  • candidatura:

    • renomear colunas para ficar padronizado, ex: s/nome_municipio/municipio/
    • sigla_uf_nascimento possui valor NAO DIVULGAVEL, trocar para None
    • atualizar schema/candidatura.csv
    • atualizar schema-eleicoes-brasil-candidatura.csv (arquivo de metadados completo, para ser importado no Brasil.IO)
  • filiacao:

    • coluna municipio está com valores trocados da coluna nome
    • atualizar schema/filiacao.csv se necessário
  • receita:

    • nome_doador/nome_doador_originario estão em branco e o campo de CPF/CNPJ correspondente está como -1. Verificar se não deveria ser None e corrigir
    • renomear colunas para ficar padronizado, ex: s/numero_sequencial_candidato/numero_sequencial/
    • fazer schema-eleicoes-brasil-receita.csv (arquivo de metadados completo, para ser importado no Brasil.IO)
    • atualizar schema/receita.csv
  • despesa:

    • renomear colunas para ficar padronizado, se necessário
    • fazer schema-eleicoes-brasil-despesa.csv (arquivo de metadados completo, para ser importado no Brasil.IO)
    • atualizar schema/despesa.csv, se necessário
  • votacao-zona:

    • verificar possibilidade/necessidade de renomear tabela para votacao
    • renomear colunas para ficar padronizado, se necessário
    • fazer schema-eleicoes-brasil-votacao.csv (arquivo de metadados completo, para ser importado no Brasil.IO)
    • atualizar schema/votacao.csv, se necessário
  • documentar metodologia da tabela socio

@turicas
Copy link
Owner Author

turicas commented Nov 5, 2020

Colunas ainda a verificar (receitas e despesas):

headers/despesa-candidatos-2014-suplementar.csv:6:"Sequencial Candidato",,"Sequencial do candidato na base de dados da Justiça Eleitoral"

headers/despesa-contratadas-partidos-2018.csv:31:"SQ_CANDIDATO_FORNECEDOR",,"Sequencial do candidato fornecedor, quando fornecedor candidato"

headers/receita-candidatos-2018.csv:55:SQ_RECEITA,,Sequencial de identificação do registro da receita declarada pelo prestador de contas
headers/receita-originarios-candidatos-2018.csv:21:"SQ_RECEITA",,"Sequencial de identificação do registro da receita declarada pelo prestador de contas"
headers/receita-originarios-partidos-2018.csv:17:"SQ_RECEITA",,"Sequencial de identificação do registro da receita declarada pelo prestador de contas"

headers/despesa-partidos-2012.csv:5:"Sequencial Diretorio",,
headers/despesa-partidos-2014.csv:6:"Sequencial Diretorio",,
headers/receita-partidos-2012.csv:5:"Sequencial Diretorio",,
headers/receita-partidos-2014.csv:6:"Sequencial Diretorio",,


headers/despesa-comites-2012.csv:5:"Sequencial Comite",,
headers/despesa-comites-2014.csv:6:"Sequencial Comite",,
headers/receita-comites-2014.csv:6:"Sequencial Comite",,


headers/receita-candidatos-2018.csv:46:SQ_CANDIDATO_DOADOR,,"Sequencial do candidato doador, quando a esfera partidária do doador for municipal"
headers/receita-comites-2014.csv:15:"Sigla UE doador",,
headers/receita-partidos-2018.csv:37:"SQ_CANDIDATO_DOADOR",,"Sequencial do candidato doador, quando a esfera partidária do doador for municipal"
headers/receita-partidos-2018.csv:46:"SQ_RECEITA",,"Sequencial de identificação do registro da receita declarada pelo prestador de contas"


headers/despesa-contratadas-partidos-2018.csv:9:"SQ_PRESTADOR_CONTAS",,"Sequencial de identificação do prestador de contas junto à Justiça Eleitoral"
headers/despesa-pagas-candidatos-2018.csv:13:"SQ_PRESTADOR_CONTAS",,"Sequencial de identificação do prestador de contas junto à Justiça Eleitoral"
headers/despesa-pagas-partidos-2018.csv:9:"SQ_PRESTADOR_CONTAS",,"Sequencial de identificação do prestador de contas junto à Justiça Eleitoral"
headers/despesa-partidos-2014-suplementar.csv:6:"Sequencial do Prestador de conta",,
headers/despesa-partidos-2016.csv:6:"Sequencial do Prestador de conta",,"Sequencial da direção partidária na base de dados da Justiça Eleitoral"
headers/receita-candidatos-2018.csv:13:SQ_PRESTADOR_CONTAS,,Sequencial de identificação do prestador de contas junto à Justiça Eleitoral
headers/receita-originarios-candidatos-2018.csv:13:"SQ_PRESTADOR_CONTAS",,"Sequencial de identificação do prestador de contas junto à Justiça Eleitoral"
headers/receita-originarios-partidos-2018.csv:9:"SQ_PRESTADOR_CONTAS",,"Sequencial de identificação do prestador de contas junto à Justiça Eleitoral"
headers/receita-partidos-2014-suplementar.csv:6:Sequencial prestador conta,,
headers/receita-partidos-2016.csv:6:"Sequencial prestador conta",,"Sequencial da direção partidária na base de dados da Justiça Eleitoral"
headers/receita-partidos-2018.csv:9:"SQ_PRESTADOR_CONTAS",,"Sequencial de identificação do prestador de contas junto à Justiça Eleitoral"

@rhenanbartels
Copy link
Collaborator

rhenanbartels commented Nov 6, 2020

Talvez precisamos revisar a coluna SG_UE.

- receita-comites-2004.csv "SG_UE","codigo_unidade_eleitoral"

- despesa-comites-2006.csv "SG_UE","sigla_unidade_federativa"

@rhenanbartels
Copy link
Collaborator

rhenanbartels commented Nov 6, 2020

Com relação ao Sequencial Prestador de Contas

O que percebi: para os arquivos de candidatos, existe o campo *Sequencial Candidato, já nos arquivos de partidos/comites dos respectivos anos, existe o campo **Sequencia Prestador de Contas. Acho que podemos colocar *numero_sequencial_prestador_contas

existe o campo NR_CNPJ_PRESTADOR_CONTA que está como cnpj e cnpj_orgao
Talvez poderíamos trocar tudo com Prestador de Contas para *_prestador_contas

2018/2020

Estou com a impressão que o termo Prestador de Contas mudou de significado em 2018 e 2020

Tanto nos arquivos de receita/despesa de 2018 de Candidatos e Partidos, só existe o campo Prestador de Contas

Nome em comum

Podemos usar o nome *_prestador_contas como comentado acima, mas o ideal seria termos (injetarmos) uma coluna identificando o tipo de prestador (que poderemos definir a partir do nome do arquivo).

@turicas
Copy link
Owner Author

turicas commented Nov 7, 2020

Faltam:

  • Corrige SG_UE (normalizar todos para codigo_unidade_eleitoral)
  • Sigla UE doador
  • Prestador de contas
$ grep -rHn ,, headers/ | grep -iv data | grep -iv hora
headers/despesa-partidos-2014-suplementar.csv:6:Sequencial do Prestador de conta,,
headers/receita-partidos-2018.csv:9:SQ_PRESTADOR_CONTAS,,Sequencial de identificação do prestador de contas junto à Justiça Eleitoral
headers/receita-partidos-2014-suplementar.csv:6:Sequencial prestador conta,,
headers/candidatura-1994-BR.csv:25:PLACEHOLDER,,Placeholder para que o número de colunas fique de acordo
headers/receita-partidos-2016.csv:6:Sequencial prestador conta,,Sequencial da direção partidária na base de dados da Justiça Eleitoral
headers/receita-originarios-partidos-2018.csv:9:SQ_PRESTADOR_CONTAS,,Sequencial de identificação do prestador de contas junto à Justiça Eleitoral
headers/despesa-pagas-candidatos-2018.csv:13:SQ_PRESTADOR_CONTAS,,Sequencial de identificação do prestador de contas junto à Justiça Eleitoral
headers/receita-comites-2014.csv:15:Sigla UE doador,,
headers/receita-candidatos-2018.csv:13:SQ_PRESTADOR_CONTAS,,Sequencial de identificação do prestador de contas junto à Justiça Eleitoral
headers/receita-originarios-candidatos-2018.csv:13:SQ_PRESTADOR_CONTAS,,Sequencial de identificação do prestador de contas junto à Justiça Eleitoral
headers/despesa-pagas-partidos-2018.csv:9:SQ_PRESTADOR_CONTAS,,Sequencial de identificação do prestador de contas junto à Justiça Eleitoral
headers/despesa-partidos-2016.csv:6:Sequencial do Prestador de conta,,Sequencial da direção partidária na base de dados da Justiça Eleitoral
headers/despesa-contratadas-partidos-2018.csv:9:SQ_PRESTADOR_CONTAS,,Sequencial de identificação do prestador de contas junto à Justiça Eleitoral

@rhenanbartels
Copy link
Collaborator

rhenanbartels commented Nov 9, 2020

Parece que nos arquivos de Comitê de 2006 (receita/despesa) os campos SG_UE, NO_UE se referem a Unidade Federativa.

Fazendo uma inspeção no arquivo do TSE:

cat 2006/Comitê/Despesa/DespesaComitê.CSV | cut -f4 -d";" | sort -u
"AC"
"AL"
"AM"
"AP"
"BA"
"BR"
"CE"
"DF"
"ES"
...

e o LEIOUTE (em anexo) de 2006 diz:

  • SG_UE - Unidade da federa��o;
  • NO_UE - Nome da unidade da federa��o do doador;
    leiaoute_2006.txt

@turicas
Copy link
Owner Author

turicas commented Nov 18, 2020

Erro ao rodar despesa:
ValueError: dict contains fields not in fieldnames: 'numero_sequencial_diretorio', 'esfera_orgao'

(essas colunas estão nos headers mas não no schema)

@rhenanbartels
Copy link
Collaborator

Erro ao rodar despesa:
ValueError: dict contains fields not in fieldnames: 'numero_sequencial_diretorio', 'esfera_orgao'

(essas colunas estão nos headers mas não no schema)

Adicionei as colunas no schema em 6520a87

@turicas
Copy link
Owner Author

turicas commented Dec 14, 2020

Algumas decisões de nomenclatura:

  • Unidade Eleitoral: pode ser representando um país, estado ou município. "codigo" vira codigo_unidade_eleitoral e "nome" vira unidade_eleitoral.
  • Unidade Federativa: "codigo" vira sigla_unidade_federativa e "nome" vira unidade_federativa
  • Unidade Eleitoral Superior: pode ser representando a unidade federativa (superior ao município), nesse caso fica igual à unidade federativa

Em anos de eleições municipais, para receita teremos preenchidos:

  • sigla_unidade_federativa: sigla da UF do município em questão
  • codigo_unidade_eleitoral: código TSE do município em questão

Já anos de eleições majoritárias, para receita teremos:

  • sigla_unidade_federativa: sigla da UF em questão
  • codigo_unidade_eleitoral: (em branco)

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants