Estudar Computação: Pipeline de exoma completo - parte 1 (FastQC e qualidade das sequências)

quinta-feira, 27 de novembro de 2014

Pipeline de exoma completo - parte 1 (FastQC e qualidade das sequências)

# Parte 1: controle de qualidade das sequências
# Criado em 15/08/2014
# Modificado em 27/11/2014
# Autor: Leandro Lima <llima@ime.usp.br>

# Vamos continuar usando o diretório padrão
# utilizado na parte 0 do pipeline

cd $mydir # 'cd' muda o diretório de trabalho para $mydir

# FERRAMENTAS
# Agora vamos criar um diretório específico
# para guardar as ferramentas
mkdir tools
cd tools

# FASTQC - Ferramenta para olhar verificar a qualidade geral das sequências
# Mais informações sobre o programa podem ser encontradas aqui:
# http://www.bioinformatics.babraham.ac.uk/projects/fastqc/

wget http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.2.zip
unzip fastqc_v0.11.2.zip
cd FastQC/
chmod +x fastqc # Adicionando permissão de execução
FASTQC=$mydir/tools/FastQC/fastqc

# Criando um diretório para o fastqc
cd $mydir/results
mkdir 1_fastqc
cd 1_fastqc

# Rodando o fastqc para os diferentes arquivos de sequências
$FASTQC $R1 
$FASTQC $R2 
$FASTQC $SINGLE

# Abra os arquivos "html" gerados para dar uma olhada nas estatísticas geradas.
# Nesse tutorial não iremos a fundo em todas essas informações, mas é interessante
# passar por todas elas e tentar entender o que é cada medida.
# É desejável que para todas as medidas, haja um "sinal verde", mas não é isso que
# ocorre geralmente. Vou chamar atenção principalmente para a medida "Per base
# sequence quality", que mostra a qualidade média das bases por posição nas sequências.
# Por causa do processo de leitura das bases, é esperado que as bases iniciais tenham
# uma qualidade melhor, e que depois a qualidade vá caindo. Por enquanto, não vamos
# remover nenhuma sequência, mas poderemos filtrá-las lá na frente, no processo.
# Algumas pessoas cortam/quebram a sequência para que ela fique somente com a
# parte que tem mais qualidade. No entanto, isso vai confundir os programas
# que forem remover sequências repetidas (duplicadas), lá na frente, neste
# pipeline. Portanto, deixaremos as sequências inalteradas. Nas próximas
# etapas, iremos usar a medida de qualidade do genótipo (genotype quality),
# que une várias medidas numa só, levando em consideração, além da qualidade
# do alinhamento, a qualidade da base.

Acesse aqui o pipeline completo: http://www.estudarcomputacao.com/2014/09/pipeline-de-exoma-completo-parte-0.html

Estudar Computação

super_banner_728x90

Páginas

quinta-feira, 27 de novembro de 2014

Pipeline de exoma completo - parte 1 (FastQC e qualidade das sequências)