Python 6 - IO - Conjunto de Problemas

Escreva um script para fazer o seguinte com Python_06.txt
- Abrir e ler o conteúdo.
- Converter para maiúsculas cada linha
- Imprimir cada linha no STDOUT
Modifique o script do problema anterior para escrever o conteúdo em um novo arquivo chamado "Python_06_uc.txt"
Abra e imprima o complemento reverso de cada sequência em Python_06.seq.txt. Cada linha está no seguinte formato: seqName\tsequence\n. Certifique-se de imprimir a saída no formato fasta, incluindo o nome da sequência e uma observação na descrição de que este é o complemento reverso. Imprima no STDOUT e capture a saída em um arquivo com redirecionamento de linha de comando '>'.
- Lembre-se de que é sempre uma boa ideia começar com um conjunto de teste para o qual você conhece a saída correta.
Abra o arquivo FASTQ Python_06.fastq e percorra cada linha do arquivo. Conte o número de linhas e o número de caracteres por linha. Faça com que seu programa relate o:
- número total de linhas
- número total de caracteres
- comprimento médio da linha
Escreva o seu primeiro parser FASTA. Este é um script que lê um arquivo FASTA e armazena cada registro FASTA separadamente para fácil acesso para análises futuras.

Coisas a serem lembradas:

abra seu arquivo
leia cada linha
sua linha é uma linha de cabeçalho? é uma linha de sequência?
um único registro FASTA tem uma linha de sequência ou várias linhas de sequência?

DICAS: use I/O de arquivo, instruções if e dicionários para escrever o seu primeiro parser FASTA. Algumas outras funções e métodos úteis são find, split e concatenação de string.

No final, seu script deve retornar o seguinte:

fastaDict = { 'seq1' : 'AAGAGCAGCTCGCGCTAATGTGATAGATGGCGGTAAAGTAAATGTCCTATGGGCCACCAATTATGGTGTATGAGTGAATCTCTGGTCCGAGATTCACTGAGTAACTGCTGTACACAGTAGTAACACGTGGAGATCCCATAAGCTTCACGTGTGGTCCAATAAAACACTCCGTTGGTCAAC' , 'seq2' : 'GCCACAGAGCCTAGGACCCCAACCTAACCTAACCTAACCTAACCTACAGTTTGATCTTAACCATGAGGCTGAGAAGCGATGTCCTGACCGGCCTGTCCTAACCGCCCTGACCTAACCGGCTTGACCTAACCGCCCTGACCTAACCAGGCTAACCTAACCAAACCGTGAAAAAAGGAATCT' , 'seq3' : 'ATGAAAGTTACATAAAGACTATTCGATGCATAAATAGTTCAGTTTTGAAAACTTACATTTTGTTAAAGTCAGGTACTTGTGTATAATATCAACTAAAT' , 'seq4' : 'ATGCTAACCAAAGTTTCAGTTCGGACGTGTCGATGAGCGACGCTCAAAAAGGAAACAACATGCCAAATAGAAACGATCAATTCGGCGATGGAAATCAGAACAACGATCAGTTTGGAAATCAAAATAGAAATAACGGGAACGATCAGTTTAATAACATGATGCAGAATAAAGGGAATAATCAATTTAATCCAGGTAATCAGAACAGAGGT' }

Você vai gerar algumas listas de genes que são salvos em arquivos, adicionar seus conteúdos a conjuntos e compará-los.

Gerar Listas de Genes:

Obter todos os genes:

Acesse o Ensembl Biomart.
No menu suspenso, selecione "Ensembl Genes 98" (ou a versão mais atual)
No menu suspenso, selecione "Alpaca Genes"
No lado esquerdo, clique em Atributos
Expanda GENE:
Desmarque "transcript stable ID".
Clique em Resultados (canto superior esquerdo)
Exporte todos os resultados para "Arquivo" "TSV" --> GO
Renomeie o arquivo para "alpaca_all_genes.tsv"

Na mesma janela do Ensembl, siga os passos abaixo para obter genes que foram rotulados com o termo de Gene Ontology "proliferação de células-tronco". Para obter informações adicionais sobre a proliferação de células-tronco, verifique proliferação de células-tronco

Clique em "Filtros"
Em "Gene Ontology", marque "Nome do termo Go" e insira "proliferação de células-tronco"
Clique em Resultados (canto superior esquerdo)
Exporte todos os resultados para "Arquivo" "TSV" --> GO
Renomeie o arquivo para "alpaca_stemcellproliferation_genes.tsv"

Na mesma janela do Ensembl, siga os passos abaixo para obter genes que foram rotulados com o termo de Gene Ontology "pigmentação". Para obter informações adicionais sobre pigmentação, verifique pigmentação

Clique em "Filtros"
Em "Gene Ontology", marque "Nome do termo Go" e insira "pigmentação"
Clique em Resultados (canto superior esquerdo)
Exporte todos os resultados para "Arquivo" "TSV" --> GO
Renomeie o arquivo para "alpaca_pigmentation_genes.tsv"

Abra cada um dos três arquivos e adicione os IDs de gene a um conjunto. Um conjunto por arquivo.

A. Encontre todos os genes que não são genes de proliferação celular.
B. Encontre todos os genes que são genes de proliferação de células-tronco e genes de pigmentação.
Nota Certifique-se de NÃO adicionar o cabeçalho ao conjunto.

Agora, vamos fazer isso novamente com fatores de transcrição.

Volte para a janela do Ensembl Biomart
Desmarque o "Nome do Termo GO"
Selecione "Acesso ao Termo GO"
Insira esses dois IDs de acesso que, na maioria dos organismos, serão todos os fatores de transcrição
- GO:0006355 é "regulação da transcrição dependente de DNA”.
- GO:0003677 é "ligação ao DNA"
Clique em Resultados (canto superior esquerdo)
Exporte todos os resultados para "Arquivo" "TSV" --> GO
Renomeie o arquivo para "alpaca_transcriptionFactors.tsv"

Abra esses dois arquivos: 1) o arquivo de lista de genes de fatores de transcrição e 2) o arquivo de lista de genes de proliferação celular. Adicione cada um a um conjunto, Um conjunto por arquivo

A. Encontre todos os genes que são fatores de transcrição para a proliferação celular

Agora faça o mesmo na linha de comando com o comando comm. Talvez seja necessário ordenar cada arquivo primeiro.

Extra: Expandindo um exercício do Conjunto de Problemas 5 sobre composição de nucleotídeos

obtenha o arquivo bruto Python_06.seq.txt
em um script, abra este arquivo
itere sobre cada linha neste arquivo (seqName\tsequence\n)
- para cada sequência:
  - calcule e armazene a contagem de cada caractere de nucleotídeo único em um dicionário
  - relate o nome, o total de cada contagem de nucleotídeos e o conteúdo de GC

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Python_06_problemset.md

Python_06_problemset.md

Python 6 - IO - Conjunto de Problemas

Extra: Expandindo um exercício do Conjunto de Problemas 5 sobre composição de nucleotídeos

Files

Python_06_problemset.md

Latest commit

History

Python_06_problemset.md

File metadata and controls

Python 6 - IO - Conjunto de Problemas

Extra: Expandindo um exercício do Conjunto de Problemas 5 sobre composição de nucleotídeos