FASTQ: различия между версиями

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
[непроверенная версия][непроверенная версия]
Содержимое удалено Содержимое добавлено
Нет описания правки
оформление {{biotech-stub}}
Строка 1: Строка 1:
{{Значимость|2019-12-13}}
{{Значимость|2019-12-13}}
'''Формат FASTQ''' - это текстовый формат данных, используемый для представления биологической последовательности (обычно нуклеотидной последовательности) и показателей качества каждого элемента последовательности. И элемент последовательности, и показатель качества кодируются для краткости одним символом [[ASCII]] <ref>FASTQ Format Specification http://maq.sourceforge.net/fastq.shtml</ref>.
'''Формат FASTQ''' - текстовый формат данных, используемый для представления биологической последовательности (обычно нуклеотидной последовательности) и показателей качества каждого элемента последовательности. Элементы последовательности и их показатели качества кодируются для краткости одиночными символами [[ASCII]] <ref>[http://maq.sourceforge.net/fastq.shtml FASTQ Format Specification]</ref>.


Первоначально он был разработан в Wellcome Trust Sanger Institute для объединения отформатированной последовательности [[FASTA]] и данных о качестве элементов, но недавно стал стандартом де-факто для хранения результатов [[Методы секвенирования нового поколения|высокоэффективаных инструментов]] [[Секвенирование|секвенирования]], таких как анализаторы генома [[Illumina]] <ref>FASTQ files explained https://support.illumina.com/bulletins/2016/04/fastq-files-explained.html</ref>.
Первоначально формат был разработан в ''Wellcome Trust Sanger Institute'' для объединения отформатированной последовательности [[FASTA]] и данных о качестве элементов, но затем он стал стандартом де-факто для хранения результатов [[Методы секвенирования нового поколения|высокоэффективаных инструментов]] [[Секвенирование|секвенирования]], в частности для анализаторов генома корпорации [[Illumina]] <ref>[https://support.illumina.com/bulletins/2016/04/fastq-files-explained.html FASTQ files explained]</ref>.


Формат FASTQ не стандартизирован и различные аппаратно-программные системы обработки информации, использующие его для входных/выходных данных могут иметь различия (например разные системы кодирования показателя качества элементов последовательности). <ref>drive5 Bioinformatics software and services. FASTQ files https://www.drive5.com/usearch/manual/fastq_files.html</ref>
Формат FASTQ не стандартизирован и различные аппаратно-программные системы обработки информации, использующие его для входных/выходных данных могут иметь некоторые различия (например разные системы кодирования показателя качества элементов последовательности). <ref>[https://www.drive5.com/usearch/manual/fastq_files.html drive5: Bioinformatics software and services. FASTQ files]</ref>


== Формат ==
== Формат ==
Строка 27: Строка 27:


==Вариации==
==Вариации==
*Формат Sanger позволяет кодировать показатель качества [[Phred]] от 0 до 93 используя симовлы ASCII от 33 до 126.
*Формат Sanger позволяет кодировать показатель качества [[Phred]] от 0 до 93 используя символы ASCII от 33 до 126.
*Формат [[Solexa]]/Illumina 1.0 позволяет кодировать показатели качества Solexa/Illumina от -5 до 62 используя симовлы ASCII от 59 до 126.
*Формат [[Solexa]]/Illumina 1.0 позволяет кодировать показатели качества Solexa/[[Illumina]] от -5 до 62 используя символы ASCII от 59 до 126.


== Примечания ==
== Примечания ==
{{примечания}}
{{примечания}}

{{biotech-stub}}

[[Категория:Биоинформатика]]
[[Категория:Биоинформатика]]

Версия от 22:29, 11 мая 2020

Формат FASTQ - текстовый формат данных, используемый для представления биологической последовательности (обычно нуклеотидной последовательности) и показателей качества каждого элемента последовательности. Элементы последовательности и их показатели качества кодируются для краткости одиночными символами ASCII [1].

Первоначально формат был разработан в Wellcome Trust Sanger Institute для объединения отформатированной последовательности FASTA и данных о качестве элементов, но затем он стал стандартом де-факто для хранения результатов высокоэффективаных инструментов секвенирования, в частности для анализаторов генома корпорации Illumina [2].

Формат FASTQ не стандартизирован и различные аппаратно-программные системы обработки информации, использующие его для входных/выходных данных могут иметь некоторые различия (например разные системы кодирования показателя качества элементов последовательности). [3]

Формат

Документ FASTQ обычно использует четыре строки на каждую последовательность.

  • Строка 1 начинается с символа «@», за ней следует идентификатор последовательности и необязательное описание (например, строка заголовка FASTA).
  • Строка 2 - это необработанные символы последовательности.
  • Строка 3 начинается с символа «+» и является необязательной, после чего снова следует тот же идентификатор последовательности (и любое описание).
  • Строка 4 кодирует значения качества для последовательности в строке 2 и должна содержать то же количество символов, что и строка последовательности.
@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

Байт, представляющий качество, варьируется от 0x21 (самое низкое качество; '!' в ASCII) до 0x7e (самое высокое качество; '~' в ASCII). Ниже приведены символы значения качества в порядке возрастания качества слева направо (ASCII):

!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~

Исходные файлы Sanger FASTQ также позволяли разбивать строки последовательности и качества на несколько строк файла, но это, как правило, не рекомендуется, поскольку может затруднить синтаксический анализ из-за неудачного выбора «@» и «+» в качестве маркеров (эти символы также могут встречаться в строке качества).

Вариации

  • Формат Sanger позволяет кодировать показатель качества Phred от 0 до 93 используя символы ASCII от 33 до 126.
  • Формат Solexa/Illumina 1.0 позволяет кодировать показатели качества Solexa/Illumina от -5 до 62 используя символы ASCII от 59 до 126.

Примечания