Changes

From kogic.kr
m
no edit summary
&nbsp;총 144Gb의 짧은 paired-end DNA raw 판독은 SRA2204706으로부터 얻었다. 어댑터 시퀀스는 Trimmomatic v0.36 [12 (ILLUMINACLIP&nbsp;: 2&nbsp;: 30&nbsp;: 10 LEADING&nbsp;: 5 TRAILING&nbsp;: 5 SLIDINGWINDOW&nbsp;: 4&nbsp;: 20 HEADCROP&nbsp;: 15 MINLEN&nbsp;: 60)을 이용한 시퀀싱된 raw 판독으로부터 트리밍되었고, 벡터 및 미생물 오염에 대한 스크리닝은 Refseq의 맞춤형 데이터베이스를 사용하여 수행 하였다. 전처리 후, 총 137Gb의 클린된 판독 값이 얻어졌다.&nbsp;<br/> &nbsp;1개와 3개의 플로우 셀을 사용한 PromethION 나노 포어 시퀀싱의 결과로 총 80.7 및 193Gb raw 판독 값(27x 및 64x 적용 범위)이 얻어졌다. 트랜스 포터 모델과 함께 Guppy v2.1.3을 사용하여 PromethION raw data 염기 해독(base-calling)을 수행 하였다. raw 판독에서 어댑터 시퀀스 제거는 Porechop v0.2.4 (Porechop, RRID&nbsp;: SCR 016967)를 사용하여 수행되었다 [13]. 또한 PacBio Sequel 시퀀싱에서 92.2 및 187.9Gb raw 판독을 획득하여 30x 및 62x 적용 범위에서 결과를 얻었다 (표 1).
[[File<img style="null" src=http://in.kogic.kr/images/4/48/Table1.jpg|RTENOTITLE]]>
'''긴 판독 서열 기반 드 노보 게놈 어셈블리'''
&nbsp;wtdbg2 v2.3 (WTDBG, RRID&nbsp;: SCR 017225) [14]을 사용하여 27x 및 64x PromethION raw read에 대한 드노보 어셈블리를 수행 하였다. 정확도를 비교하기 위해, PacBio Sequel의 30x 및 62x의 범위를 갖는 2세트의 raw 판독 값도 동일한 어셈블러를 사용하여 사용되었다. 어셈블러에 대한 파라미터는 여러 번의 시험으로 각 시퀀싱 플랫폼에 대해 최적으로 설정되었습니다 [15]. 긴 판독 값으로자가 오류를 수정하기 위해 Racon v1.3.2 [16]를 적용하여 합의 시퀀스를 생성했습니다. 어셈블리의 정확성을 높이기 위해 Pilon v1.23 (Pilon, RRID&nbsp;: SCR 014731) [17]을 사용하여 48.2x 커버리지 짧은 판독 값으로 컨센서스 시퀀스를 연마했습니다. 오랫동안 읽힌 게놈 어셈블리의 완전성을 평가하기 위해, 인간을위한 기본 AUGUSTUS 모델을 갖는 BUSCO v3.0.2 (BUSCO, RRID&nbsp;: SCR 015008) [18]를 사용하여 4,104 개의 단일 카피 직교 유전자의 존재와 부재를 찾아 냈습니다. 포유류 OrthoDB v9.<br/> PromethION 장시간 판독 데이터에 대한 염색체 규모 어셈블리를 구성하기 위해 Hi-C 리드가있는 맵 어셈블리가 SALSA2 v2.2를 사용하여 수행되었습니다 [19]. 중복 된 Hi-C 판독 값은 BBTools suite v38.32의 clumpify.sh 프로그램을 사용하여 제거되었습니다 (Bestus Bioinformaticus Tools, RRID&nbsp;: SCR 016968) [20]. 조립 된 게놈에 Hi-C 판독 값을 매핑하는 것은 Arima-Genomics [21]가 제공 한 파이프 라인을 사용하여 수행되었습니다. 27x 및 64x PromethION 시퀀싱에서 오랫동안 읽은 어셈블리는 2,757 및 2,827Mb의 총 어셈블리 크기를 산출했으며, contig N50은 각각 7.6 및 16.7Mb입니다 (표 2).<br/> 30 배 및 62 배의 커버리지에서 PacBio 시퀀싱의 어셈블리는 총 어셈블리 크기가 2,800 및 2,815 Mb이며, contig N50은 각각 11.1 및 17.9 Mb입니다. 어셈블리에 Hi-C 판독 값을 추가하면 스캐 폴드 N50 길이의 PromethION 길이가 3.4 배에서 4.3 배로 증가했습니다 (27 배율의 경우 32.7Mb, 64 배율의 경우 56.4Mb). PacBio 어셈블리의 경우, 스캐 폴드 N50 길이의 경우 2.2 배에서 3.3 배로 증가했습니다 (30 배 범위의 경우 38.1Mb, 62 배 범위의 경우 59.3Mb). Hi-C가있는 PromethION 및 PacBio 어셈블리에서 가장 긴 스캐 폴드는 Hi-C가없는 어셈블리 길이의 2 배입니다.
[[File<img style="null" src=http://in.kogic.kr/images/f/fb/Table2.jpg|RTENOTITLE]]>
=== '''PromethION과 PacBio의 어셈블리 비교''' ===
&nbsp;64x 적용 범위에서 시퀀스 된 읽기를 사용하여 Hi-C 매핑 정보가없는 PromethION과 PacBio 어셈블리 간의 비교는 비슷한 품질을 보여주었습니다. N50과 관련하여 64 배속 범위의 PromethION 어셈블리는 각각 30 배 및 62 배 범위의 PacBio 어셈블리와 비교하여 1.5 배 및 0.93 배 더 긴 N50을 산출했습니다 (그림 1a). 가장 긴 콘티 그를 비교할 때 64 배속 범위의 PromethION 어셈블리는 30 배 및 62 배 범위의 PacBio 어셈블리와 비교하여 1.7 배 및 1.1 배 길이 증가했습니다 (그림 1b). 스캐 폴드의 수를 비교하면 30x 범위의 PacBio 어셈블리는 64x 범위의 PromethION 어셈블리 (3,725)에 비해 가장 적습니다 (2,443) (표 2).
[[File<img style="null" src=http://in.kogic.kr/images/5/52/Figure1.jpeg|RTENOTITLE]]>
Figure1:&nbsp;KOREF의 PromethION 및 PacBio 어셈블리에 대한 (A) N50 길이와 (B) 가장 긴 contig 또는 스캐 폴드 길이 비교. Contig는 Hi-C 데이터가없는 어셈블리에 해당하고 스캐 폴드는 Hi-C 데이터가있는 어셈블리에 해당한다.
Hi-C 매핑 정보가 어셈블리 구성에 추가되었을 때 64x 커버리지에서 PromethION 어셈블리는 56.4Mb의 N50과 175.2Mb의 가장 긴 스캐 폴드 길이로 최고의 통계를 나타 냈습니다. Hi-C 맵핑 정보를 갖는 27x 커버리지에서의 PromethION 어셈블리는 N50에 대해 32.7Mb를 생성하였으며, 이는 Hi-C를 갖는 30x 및 62x 커버리지 PacBio 어셈블리와 비교할 만했다; N50에 대해 각각 0.85 및 0.55 배 (표 3).
[[File<img style="null" src=http://in.kogic.kr/images/6/60/Table3.jpg|RTENOTITLE]]>
BUSCO의 평가 결과를 비교할 때 짧은 판독으로 연마 된 모든 조립품의 품질이 우수했다. ∼92&nbsp;% 완성 된 이종상 동성 유전자, <1.1&nbsp;% 완성되고 복제 된 이종상 동성 유전자. 어셈블리의 정확도를 현재 표준 인 KOREF (KOREFS)의 단일 어셈블리와 비교하면 둘 다 ~ 99.8&nbsp;% 정확도를 나타 냈다 (표 4). 정확도 비교는 Pomoxis의 평가 조립 프로그램을 사용하여 수행되었다 [22].
[[File<img style="null" src=http://in.kogic.kr/images/4/42/Table4.jpg|RTENOTITLE]]>
== '''결론''' ==
395
edits

Navigation menu