FASTQ: различия между версиями

[непроверенная версия]

Содержимое удалено Содержимое добавлено

Линейный

Текущая версия от 10:14, 12 февраля 2023

Формат FASTQ — текстовый формат данных, используемый для представления биологической последовательности (обычно нуклеотидной последовательности) и показателей качества каждого элемента последовательности. Элементы последовательности и их показатели качества кодируются для краткости одиночными символами ASCII^[1]. Применяется в биоинформатике.

Первоначально формат был разработан в Wellcome Trust Sanger Institute для объединения отформатированной последовательности FASTA и данных о качестве элементов, но затем он стал стандартом де-факто для хранения результатов высокоэффективных инструментов секвенирования, в частности для анализаторов генома корпорации Illumina^[2].

Формат FASTQ не стандартизирован и различные аппаратно-программные системы обработки информации, использующие его для входных/выходных данных, могут иметь некоторые различия (например, разные системы кодирования показателя качества элементов последовательности).^[3]

Формат

Документ FASTQ обычно использует четыре строки на каждую последовательность.

Строка 1 начинается с символа «@», за ней следует идентификатор последовательности и необязательное описание (например, строка заголовка FASTA).
Строка 2 — это необработанные символы последовательности.
Строка 3 начинается с символа «+» и является необязательной, после чего снова следует тот же идентификатор последовательности (и любое описание).
Строка 4 кодирует значения качества для последовательности в строке 2 и должна содержать то же количество символов, что и строка последовательности.

@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

Байт, представляющий качество, варьируется от 0x21 (самое низкое качество; '!' в ASCII) до 0x7e (самое высокое качество; '~' в ASCII). Ниже приведены символы значения качества в порядке возрастания качества слева направо (ASCII):

!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~

Исходные файлы Sanger FASTQ также позволяли разбивать строки последовательности и качества на несколько строк файла, но это, как правило, не рекомендуется, поскольку может затруднить синтаксический анализ из-за неудачного выбора «@» и «+» в качестве маркеров (эти символы также могут встречаться в строке качества).

Вариации

Формат Sanger позволяет кодировать показатель качества Phred от 0 до 93, используя символы ASCII от 33 до 126.
Формат Solexa/Illumina 1.0 позволяет кодировать показатели качества Solexa/Illumina от −5 до 62, используя символы ASCII от 59 до 126.

Примечания

↑ FASTQ Format Specification (неопр.). Дата обращения: 13 декабря 2019. Архивировано 13 декабря 2019 года.
↑ FASTQ files explained (неопр.). Дата обращения: 13 декабря 2019. Архивировано 13 декабря 2019 года.
↑ drive5: Bioinformatics software and services. FASTQ files (неопр.). Дата обращения: 13 декабря 2019. Архивировано 2 декабря 2019 года.

[1] FASTQ Format Specification (неопр.). Дата обращения: 13 декабря 2019. Архивировано 13 декабря 2019 года.

[2] FASTQ files explained (неопр.). Дата обращения: 13 декабря 2019. Архивировано 13 декабря 2019 года.

[3] rive5: Bioinformatics software and services. FASTQ files (неопр.). Дата обращения: 13 декабря 2019. Архивировано 2 декабря 2019 года.

[1]

[2]

[3]

@@ Строка 1: / Строка 1: @@
-{{Значимость|2019-12-13}}
+{{Значимость|дата=2019-12-13}}
 '''Формат FASTQ''' — текстовый формат данных, используемый для представления биологической последовательности (обычно нуклеотидной последовательности) и показателей качества каждого элемента последовательности. Элементы последовательности и их показатели качества кодируются для краткости одиночными символами [[ASCII]]<ref>{{Cite web |url=http://maq.sourceforge.net/fastq.shtml |title=FASTQ Format Specification |access-date=2019-12-13 |archive-date=2019-12-13 |archive-url=https://web.archive.org/web/20191213105200/http://maq.sourceforge.net/fastq.shtml |deadlink=no }}</ref>. Применяется в [[Биоинформатика|биоинформатике]].
 Первоначально формат был разработан в ''Wellcome Trust Sanger Institute'' для объединения отформатированной последовательности [[FASTA]] и данных о качестве элементов, но затем он стал стандартом де-факто для хранения результатов [[Методы секвенирования нового поколения|высокоэффективных инструментов]] [[Секвенирование|секвенирования]], в частности для анализаторов генома корпорации [[Illumina]]<ref>{{Cite web |url=https://support.illumina.com/bulletins/2016/04/fastq-files-explained.html |title=FASTQ files explained |access-date=2019-12-13 |archive-date=2019-12-13 |archive-url=https://web.archive.org/web/20191213105202/https://support.illumina.com/bulletins/2016/04/fastq-files-explained.html |deadlink=no }}</ref>.
-Формат FASTQ не стандартизирован и различные аппаратно-программные системы обработки информации, использующие его для входных/выходных данных могут иметь некоторые различия (например разные системы кодирования показателя качества элементов последовательности).<ref>{{Cite web |url=https://www.drive5.com/usearch/manual/fastq_files.html |title=drive5: Bioinformatics software and services. FASTQ files |access-date=2019-12-13 |archive-date=2019-12-02 |archive-url=https://web.archive.org/web/20191202063947/http://drive5.com/usearch/manual/fastq_files.html |deadlink=no }}</ref>
+Формат FASTQ не стандартизирован и различные аппаратно-программные системы обработки информации, использующие его для входных/выходных данных, могут иметь некоторые различия (например, разные системы кодирования показателя качества элементов последовательности).<ref>{{Cite web |url=https://www.drive5.com/usearch/manual/fastq_files.html |title=drive5: Bioinformatics software and services. FASTQ files |access-date=2019-12-13 |archive-date=2019-12-02 |archive-url=https://web.archive.org/web/20191202063947/http://drive5.com/usearch/manual/fastq_files.html |deadlink=no }}</ref>
 == Формат ==
@@ Строка 27: / Строка 27: @@
 == Вариации ==
-* Формат Sanger позволяет кодировать показатель качества [[Phred]] от 0 до 93 используя символы ASCII от 33 до 126.
+* Формат Sanger позволяет кодировать показатель качества [[Phred]] от 0 до 93, используя символы ASCII от 33 до 126.
-* Формат [[Solexa]]/Illumina 1.0 позволяет кодировать показатели качества Solexa/[[Illumina]] от −5 до 62 используя символы ASCII от 59 до 126.
+* Формат [[Solexa]]/Illumina 1.0 позволяет кодировать показатели качества Solexa/[[Illumina]] от −5 до 62, используя символы ASCII от 59 до 126.
 == Примечания ==

FASTQ: различия между версиями

Текущая версия от 10:14, 12 февраля 2023

Формат

Вариации

Примечания

Навигация

Поиск