FASTQ: различия между версиями

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
[непроверенная версия][непроверенная версия]
Содержимое удалено Содержимое добавлено
Нет описания правки
Метки: с мобильного устройства из мобильной версии
Нет описания правки
Метки: с мобильного устройства из мобильной версии
Строка 5: Строка 5:


Формат FASTQ не стандартизирован и различные аппаратно-программные системы обработки информации, использующие его для входных/выходных данных могут иметь различия (например разные системы кодирования показателя качества элементов последовательности). <ref>drive5 Bioinformatics software and services. FASTQ files https://www.drive5.com/usearch/manual/fastq_files.html</ref>
Формат FASTQ не стандартизирован и различные аппаратно-программные системы обработки информации, использующие его для входных/выходных данных могут иметь различия (например разные системы кодирования показателя качества элементов последовательности). <ref>drive5 Bioinformatics software and services. FASTQ files https://www.drive5.com/usearch/manual/fastq_files.html</ref>

[[Категория:Биоинформатика]]


== Формат ==
== Формат ==

Версия от 09:24, 14 декабря 2019

Формат FASTQ - это текстовый формат данных, используемый для представления биологической последовательности (обычно нуклеотидной последовательности) и показателей качества каждого элемента последовательности. И элемент последовательности, и показатель качества кодируются для краткости одним символом ASCII [1].

Первоначально он был разработан в Wellcome Trust Sanger Institute для объединения отформатированной последовательности FASTA и данных о качестве элементов, но недавно стал стандартом де-факто для хранения результатов высокоэффективаных инструментов секвенирования, таких как анализаторы генома Illumina [2].

Формат FASTQ не стандартизирован и различные аппаратно-программные системы обработки информации, использующие его для входных/выходных данных могут иметь различия (например разные системы кодирования показателя качества элементов последовательности). [3]

Формат

Документ FASTQ обычно использует четыре строки на каждую последовательность.

  • Строка 1 начинается с символа «@», за ней следует идентификатор последовательности и необязательное описание (например, строка заголовка FASTA).
  • Строка 2 - это необработанные символы последовательности.
  • Строка 3 начинается с символа «+» и является необязательной, после чего снова следует тот же идентификатор последовательности (и любое описание).
  • Строка 4 кодирует значения качества для последовательности в строке 2 и должна содержать то же количество символов, что и строка последовательности.
@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

Примечания