# Parte 1: controle de qualidade das sequências # Criado em 15/08/2014 # Modificado em 27/11/2014 # Autor: Leandro Lima <llima@ime.usp.br> # Vamos continuar usando o diretório padrão # utilizado na parte 0 do pipeline cd $mydir # 'cd' muda o diretório de trabalho para $mydir # FERRAMENTAS # Agora vamos criar um diretório específico # para guardar as ferramentas mkdir tools cd tools # FASTQC - Ferramenta para olhar verificar a qualidade geral das sequências # Mais informações sobre o programa podem ser encontradas aqui: # http://www.bioinformatics.babraham.ac.uk/projects/fastqc/ wget http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.2.zip unzip fastqc_v0.11.2.zip cd FastQC/ chmod +x fastqc # Adicionando permissão de execução FASTQC=$mydir/tools/FastQC/fastqc # Criando um diretório para o fastqc cd $mydir/results mkdir 1_fastqc cd 1_fastqc # Rodando o fastqc para os diferentes arquivos de sequências $FASTQC $R1 $FASTQC $R2 $FASTQC $SINGLE # Abra os arquivos "html" gerados para dar uma olhada nas estatísticas geradas. # Nesse tutorial não iremos a fundo em todas essas informações, mas é interessante # passar por todas elas e tentar entender o que é cada medida. # É desejável que para todas as medidas, haja um "sinal verde", mas não é isso que # ocorre geralmente. Vou chamar atenção principalmente para a medida "Per base # sequence quality", que mostra a qualidade média das bases por posição nas sequências. # Por causa do processo de leitura das bases, é esperado que as bases iniciais tenham # uma qualidade melhor, e que depois a qualidade vá caindo. Por enquanto, não vamos # remover nenhuma sequência, mas poderemos filtrá-las lá na frente, no processo. # Algumas pessoas cortam/quebram a sequência para que ela fique somente com a # parte que tem mais qualidade. No entanto, isso vai confundir os programas # que forem remover sequências repetidas (duplicadas), lá na frente, neste # pipeline. Portanto, deixaremos as sequências inalteradas. Nas próximas # etapas, iremos usar a medida de qualidade do genótipo (genotype quality), # que une várias medidas numa só, levando em consideração, além da qualidade # do alinhamento, a qualidade da base.
Acesse aqui o pipeline completo: http://www.estudarcomputacao.com/2014/09/pipeline-de-exoma-completo-parte-0.html