Chromosome-scale assembly comparison of the Korean Reference Genome KOREF from PromethION and PacBio with Hi-C mapping information. Kim, H. S., Jeon, S., Kim, C., Kim, Y. K., Cho, Y. S., Kim, J., . . . Bhak, J. (2019). Gigascience, 8(12).

From kogic.kr
Revision as of 13:10, 6 July 2020 by Aa (talk | contribs)
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

PromethION 및 PacBio의 한국 표준 게놈 KOREF와 Hi-C 매핑 정보의 염색체 규모 어셈블리 비교.

초록

배경

 단일 분자 및 포어 기반 시퀀서에 의해 생성된 긴 DNA 판독은 짧은 판독 DNA 단편보다 어셈블리 및 구조적 변이 발견에 더 적합하다. 드노보 어셈블리(De novo assembly)의 경우 Pacific Biosciences (PacBio) 및 Oxford Nanopore Technologies (ONT)가 선호된다. 그러나 PacBio의 SMRT 시퀀싱은 전체 인간 게놈 어셈블리에 2019년 기준 30x 적용 범위에 대해 비용이 많이 들고 4 만 달러 이상이 소요된다. 반면 ONT PromethION 시퀀싱은 동일한 적용 범위에 대한 PacBio 가격의 1/12이다. 이 연구의 목적은 품질에 관하여 ONT PromethION과 PacBio의 SMRT 시퀀싱의 비용 효율성을 비교하는데 있다.

결과

 우리는 PromethION과 PacBio에 의해 생성된 시퀀싱 데이터를 사용하여 전체 게놈 드 노보 어셈블리 및 비교를 수행하여 한국어 기준 게놈인 KOREF의 개선된 버전을 구성했다. PromethION을 사용하면 64x 적용 범위 (193Gb, 3 개의 플로우 셀 시퀀싱)의 시퀀스 판독을 사용하는 어셈블리에서 N50이 16.7Mb이고 총 게놈 길이가 2.8Gb인 3,725개의 contig가 발생했다. 62x 적용 범위 (188Gb, 2,695 contigs 및 17.9Mb의 N50)에서 PacBio를 사용하여 구성된 KOREF 어셈블리와 비슷했다. Hi-C에서 파생된 장거리 매핑 데이터를 적용할 때 64배 적용 범위에 대해 훨씬 더 높은 품질의 어셈블리를 달성하여 N50이 56.4Mb인 3,179개의 스캐폴드를 만들었다.

결론

 기공 기반 PromethION 접근 방식은 고품질의 염색체 규모의 인간 게놈 어셈블리를 저렴한 비용으로 긴 최대 연속 길이 및 스캐폴드 길이로 제공했으며, 비슷한 품질 측정에서 PacBio보다 비용 효율적이었다.

키워드

 한국 참조 게놈, KOREF, PromethION, Hi-C, 나노 포어 시퀀싱, 단일 분자 시퀀싱

자료 설명

 차세대 시퀀싱은 강력한 시퀀싱 기술이며, 최근 유전체학의 추세는 단일 분자 시퀀싱 방법을 사용하여 어셈블리와 구조적 변이 발견을 위해 비용 효율적인 긴 DNA 판독을 사용하는 것이다. Oxford Nanopore Technologies (ONT) 및 Pacific Biosciences (PacBio) 플랫폼은 Illumina의 짧은 단편화 된 판독에 비해 짧은 런타임 및 긴 판독 길이의 장점을 가지고 있다 [1, 2]. 불행히도 두 방법 모두 높은 염기 해독 오류율(base-calling error rates)을 가진다[2 , 3]. 그러나 짧은 판독 기반 어셈블리의 서열을 보완하고 자가 오류를 정정해주는 생물 정보학 파이프 라인은 효과적인 방법이 되고 있으며, 긴 판독 기반 어셈블리의 전체 정확도는 개인 참조 게놈 구축에 필요한 수준에 점차 근접하고 있다[ 4 ]. 뛰어난 성능에도 불구하고 2019년 기준 PacBio의 단일 분자 실시간 (SMRT) 시퀀싱은 전체 인간 게놈 어셈블리에 필요한 유효 적용 범위에 비해 비싸고, 30x 범위(SMRT 세포 당 약 6Gb의 raw reads(미가공 판독)으로부터 15 SMRT 세포 포함)에 대해 4 만 달러 이상의 비용이 소요된다[5-7]. 반면, 나노포어 기반 단일 분자 시퀀싱이자 ONT의 긴 판독 플랫폼인 PromethION은 동일한 판독 량에 대해 PacBio 가격의 1/12로 매우 경제적이며 평균 및 최대 판독 길이가 훨씬 길다[8]. 두 가지 방법은 약간의 유사점을 가지고 있지만 ONT는 소형 폼 팩터 장치로 최소량의 시약을 사용한다는 점에서 근본적으로 다르며, 크기와 비용의 이점을 고려할 때 광범위한 응용 분야를 위한 유망한 미래 기술로 활용될 수 있다. 이 연구에서는 시퀀싱 데이터의 저범위 및 고범위에서 PromethION와 PacBio의 벤치마크 시험을 수행하였으며, 기존의 고품질 한국 기준 게놈인 KOREF를 벤치 마크로 사용하여 Hi-C에 의한 very long-range 유전자 매핑 정보를 long-read 기술과 결합한 이점을 조사하였다.

ONT PromethION R9.4.1 플랫폼을 이용한 전장 게놈 시퀀싱 

 인간 KOREF 세포주 [10]는 10 % 열-불활성화 태아 소 혈청으로 RPMI-1640 배지에서 5 % CO2, 37 ℃에서 배양되었다. DNA는 DNeasy 혈액&조직 키트 (Qiagen, Hilden, Germany)를 사용하여 세포로부터 추출하였다. KOREF 세포 (5 x106)를 300g에서 5 분 동안 원심 분리하고; 펠렛화 된 세포를 200 μL의 인산 완충 식염수에 현탁시키고 DNA를 제조자의 지시에 따라 추출 하였다. 대형 DNA를 보존하고 DNA 단편을 정제하기 위해 게놈 DNA Clean & Concentrator 키트 (Zymo research, Irvine, CA, USA)를 사용했다. 바이오 분석기 시스템 (Agilent, Santa Clara, CA, USA)에 1 μL의 정제된 DNA를 러닝시킴으로써 DNA 품질 및 크기를 평가 하였다. Qubit 형광 계 (Thermo Fisher Scientific, Carlsbad, CA, USA)상에서 dsDNA BR 분석을 사용하여 DNA의 농도를 평가 하였다.
 DNA 복구 (NEBNext 포르말린-고정, 파라핀-함유 [FFPE] DNA 복구 혼합물, NEB M6630) 및 엔드 프렙(NEBNext End Repair/dA-tailing,NEB E7546)은 1μg 인간 게놈 DNA를 사용하여 수행되었다. 1 μL DNA CS, 3.5 μL FFPE 복구 완충액, 2 μL FFPE DNA 복구 혼합액, 3.5 μL Ultra II End-prep 반응 완충액 및 3 μL Ultra II End-prep 효소 혼합물을 47 μL DNA 샘플에 첨가 하였다. 최종 혼합물을 20 ℃에서 5 분 동안 인큐베이션 한 후 65 ℃에서 5 분 동안 인큐베이션하고, 60 μL AMPure XP 비드를 사용하여 클린 업 하고, Hula 믹서에서 5 분 동안 실온에서 인큐베이션 한 다음, 200 μL의 70 % 에탄올로 2 회 세척 하였다. 펠렛을 30 초 동안 건조시킨 후, 뉴클리아제가 없는 61μL의 물에서 DNA를 용출시켰다. 1μg 이상의 DNA가 함유되었는지를 확실히 하기 위해서 Qubit에 의해 1μL를 정량화하였다. 
 어댑터 ligation은 5 μL의 어댑터 혼합물 (AMX, SQK-LSK109 ligation 시퀀싱 키트 1D, 옥스포드 나노 포어 기술, 영국 옥스포드, 영국), 25 μL ligation 완충액 (LNB, SQK-LSK109) 및 10 μL NEBNext Quick T4 DNA를 비드-클린업한 60 μLDNA DNA에 첨가하고, 이후에 부드럽게 섞고 실온에서 10분간 인큐베이션 하여 수행하였다. 
 어댑터가 ligation된 DNA의 클린업은 40μL의 AMPure XP 비드를 첨가하고, 실온에서 5 분간 인큐베이션 하고, 펠렛을 250μL L 단편 완충제 (LFB, SQK-LSK109)에 2회 재현탁시켜 수행하였다. ligation과 정제가 이루어진 DNA는 25 μL의 용출 완충제 (ELB, SQK-LSK109)에 재현탁시켰고, 실온에서 10 분 동안 인큐베이션 한 후, 비드를 펠렛화하고 상층액(이전의 시퀀싱 혼합물)을 새로운 Ep-pendorf Lobind 튜브로 옮겼다. 500μg 이상의 DNA가 함유되었는지를 확실히 하기 위해서 Qubit에 의해 1μL를 정량화하였다. 
 라이브러리를 로딩하기 위해, 75 μL의 시퀀싱 버퍼(SQB, SQKLSK109)를 51 μL의 로딩 비드(LB, SQKLSK109)와 혼합하고,이 혼합물을 24 μL DNA 라이브러리에 첨가 하였다. 이 라이브러리를 천천히 피펫팅하여 혼합하고, 인렛 포트를 통해 150 μL의 샘플을 로딩하였다.

PacBio Sequel 플랫폼을 이용한 전장 게놈 시퀀싱 

 게놈 DNA는 인간 KOREF 혈액 샘플로부터 Qiagen Blood & Cell Culture DNA Kit (cat No. 13323, Qiagen, Hilden, Germany)를 사용하여 추출하였다. 라이브러리 준비를 위한 input으로 총 5 μg의 샘플을 사용했다. SMRTbell 라이브러리는 SMRTbell R Express 템플릿 준비 키트 (101-357-000, Pacific Biosciences, CA, USA)를 사용하여 구축되었다. 큰 삽입 라이브러리를 위하여 작은 조각들을 BluePippin 사이즈 선택 시스템을 사용해 제거했다. 서열 분석 프라이머 v4를 SMRTbell 주형에 어닐링 한 후, DNA 폴리머라제를 복합체에 결합시켰다 (Sequel Binding kit 2.0, Pacific Biosciences, CA, USA). 시퀀싱 전에 과량의 프라이머 및 폴리머 라제를 제거하기 위해 AMPure Purification을 사용하여 복합체를 정제하였다. SMRTbell 라이브러리는 Sequel Sequencing Kit v2.1을 사용하는 SMRT 셀 (PacBio)을 사용하여 시퀀싱되었으며 Sequel (PacBio) 시퀀싱 플랫폼을 사용하여 각 SMRT Cell 1M v2에 대해 10시간의 movies가 캡쳐되었다.

Illumina HiSeq을 이용한 짧은 판독 시퀀싱

 Illumina HiSeq 2000 플랫폼을 이용한 짧은 paired-end raw 판독은 이전 연구물인 No. 번호 SRR2204706에서 획득 하였다.

Hi-C chromosome conformation captured reads sequencing

 Arima-HiC 키트 (A160105 v01, SanDiego, CA, USA)를 사용하여 장거리 Hi-C 염색체 입체 형태 캡쳐 데이터를 생성하고, 이중 제한 효소를 염색질 분해에 사용 하였다. Hi-C 분석을위한 KOREF 세포주 샘플을 제조하기 위해, 세포를 제조사의 지시에 따라 수확하고 가교시켰다. 백만개의 가교 된 세포가 Hi-C 프로토콜의 input으로서 사용되었다. 즉, 가교 된 세포나 핵의 염색질을 가용화 한 후 제한효소 A1와 A2를 사용하여 소화시켰다. 이어서, 소화 된 말단을 바이오닐화 된 뉴클레오티드를 사용하여 표지하고, ligation생성물을 만들기 위해 말단을 ligation시켰다. ligation 생성물을 정제하고, 단편화하고, AMpure XP 비드를 사용하여 크기별로 선택 하였다. 이어서 바이오티닐화된 절편을 농축 비드를 사용하여 농축시키고, 하이퍼-준비 키트(KAPA Biosystems, Inc.)의 개정된 워크 플로우를 사용하여 말단 복구, dA-꼬리, 어댑터 ligation에 관한 일루미나 호환 시퀀싱 라이브러리를 구축하였다. 이어서, 비드가 결합한 라이브러리를 증폭시키고, AMpure XP 비드를 사용하여 증폭 산물을 정제하고 심층 시퀀싱을 수행 하였다.

짧은 및 긴 서열 판독 절차

 총 144Gb의 짧은 paired-end DNA raw 판독은 SRA2204706으로부터 얻었다. 어댑터 시퀀스는 Trimmomatic v0.36 [12 (ILLUMINACLIP : 2 : 30 : 10 LEADING : 5 TRAILING : 5 SLIDINGWINDOW : 4 : 20 HEADCROP : 15 MINLEN : 60)을 이용한 시퀀싱된 raw 판독으로부터 트리밍되었고, 벡터 및 미생물 오염에 대한 스크리닝은 Refseq의 맞춤형 데이터베이스를 사용하여 수행 하였다. 전처리 후, 총 137Gb의 클린된 판독 값이 얻어졌다. 
 1개와 3개의 플로우 셀을 사용한 PromethION 나노 포어 시퀀싱의 결과로 총 80.7 및 193Gb raw 판독 값(27x 및 64x 적용 범위)이 얻어졌다. 트랜스 포터 모델과 함께 Guppy v2.1.3을 사용하여 PromethION raw data 염기 해독(base-calling)을 수행 하였다. raw 판독에서 어댑터 시퀀스 제거는 Porechop v0.2.4 (Porechop, RRID : SCR 016967)를 사용하여 수행되었다 [13]. 또한 PacBio Sequel 시퀀싱에서 92.2 및 187.9Gb raw 판독을 획득하여 30x 및 62x 적용 범위에서 결과를 얻었다 (표 1).

긴 판독 서열 기반 드 노보 게놈 어셈블리

 wtdbg2 v2.3 (WTDBG, RRID : SCR 017225) [14]을 사용하여 27x 및 64x PromethION raw read에 대한 드노보 어셈블리를 수행 하였다. 정확도를 비교하기 위해, PacBio Sequel의 30x 및 62x의 범위를 갖는 2세트의 raw 판독 값도 동일한 어셈블러를 사용하여 사용되었다. 어셈블러에 대한 파라미터는 여러 번의 시험으로 각 시퀀싱 플랫폼에 대해 최적으로 설정되었습니다 [15]. 긴 판독 값으로자가 오류를 수정하기 위해 Racon v1.3.2 [16]를 적용하여 합의 시퀀스를 생성했습니다. 어셈블리의 정확성을 높이기 위해 Pilon v1.23 (Pilon, RRID : SCR 014731) [17]을 사용하여 48.2x 커버리지 짧은 판독 값으로 컨센서스 시퀀스를 연마했습니다. 오랫동안 읽힌 게놈 어셈블리의 완전성을 평가하기 위해, 인간을위한 기본 AUGUSTUS 모델을 갖는 BUSCO v3.0.2 (BUSCO, RRID : SCR 015008) [18]를 사용하여 4,104 개의 단일 카피 직교 유전자의 존재와 부재를 찾아 냈습니다. 포유류 OrthoDB v9.
PromethION 장시간 판독 데이터에 대한 염색체 규모 어셈블리를 구성하기 위해 Hi-C 리드가있는 맵 어셈블리가 SALSA2 v2.2를 사용하여 수행되었습니다 [19]. 중복 된 Hi-C 판독 값은 BBTools suite v38.32의 clumpify.sh 프로그램을 사용하여 제거되었습니다 (Bestus Bioinformaticus Tools, RRID : SCR 016968) [20]. 조립 된 게놈에 Hi-C 판독 값을 매핑하는 것은 Arima-Genomics [21]가 제공 한 파이프 라인을 사용하여 수행되었습니다. 27x 및 64x PromethION 시퀀싱에서 오랫동안 읽은 어셈블리는 2,757 및 2,827Mb의 총 어셈블리 크기를 산출했으며, contig N50은 각각 7.6 및 16.7Mb입니다 (표 2).
30 배 및 62 배의 커버리지에서 PacBio 시퀀싱의 어셈블리는 총 어셈블리 크기가 2,800 및 2,815 Mb이며, contig N50은 각각 11.1 및 17.9 Mb입니다. 어셈블리에 Hi-C 판독 값을 추가하면 스캐 폴드 N50 길이의 PromethION 길이가 3.4 배에서 4.3 배로 증가했습니다 (27 배율의 경우 32.7Mb, 64 배율의 경우 56.4Mb). PacBio 어셈블리의 경우, 스캐 폴드 N50 길이의 경우 2.2 배에서 3.3 배로 증가했습니다 (30 배 범위의 경우 38.1Mb, 62 배 범위의 경우 59.3Mb). Hi-C가있는 PromethION 및 PacBio 어셈블리에서 가장 긴 스캐 폴드는 Hi-C가없는 어셈블리 길이의 2 배입니다.

PromethION과 PacBio의 어셈블리 비교

 64x 적용 범위에서 시퀀스 된 읽기를 사용하여 Hi-C 매핑 정보가없는 PromethION과 PacBio 어셈블리 간의 비교는 비슷한 품질을 보여주었습니다. N50과 관련하여 64 배속 범위의 PromethION 어셈블리는 각각 30 배 및 62 배 범위의 PacBio 어셈블리와 비교하여 1.5 배 및 0.93 배 더 긴 N50을 산출했습니다 (그림 1a). 가장 긴 콘티 그를 비교할 때 64 배속 범위의 PromethION 어셈블리는 30 배 및 62 배 범위의 PacBio 어셈블리와 비교하여 1.7 배 및 1.1 배 길이 증가했습니다 (그림 1b). 스캐 폴드의 수를 비교하면 30x 범위의 PacBio 어셈블리는 64x 범위의 PromethION 어셈블리 (3,725)에 비해 가장 적습니다 (2,443) (표 2).

Figure1: KOREF의 PromethION 및 PacBio 어셈블리에 대한 (A) N50 길이와 (B) 가장 긴 contig 또는 스캐 폴드 길이 비교. Contig는 Hi-C 데이터가없는 어셈블리에 해당하고 스캐 폴드는 Hi-C 데이터가있는 어셈블리에 해당한다.

Hi-C 매핑 정보가 어셈블리 구성에 추가되었을 때 64x 커버리지에서 PromethION 어셈블리는 56.4Mb의 N50과 175.2Mb의 가장 긴 스캐 폴드 길이로 최고의 통계를 나타 냈습니다. Hi-C 맵핑 정보를 갖는 27x 커버리지에서의 PromethION 어셈블리는 N50에 대해 32.7Mb를 생성하였으며, 이는 Hi-C를 갖는 30x 및 62x 커버리지 PacBio 어셈블리와 비교할 만했다; N50에 대해 각각 0.85 및 0.55 배 (표 3).

BUSCO의 평가 결과를 비교할 때 짧은 판독으로 연마 된 모든 조립품의 품질이 우수했다. ∼92 % 완성 된 이종상 동성 유전자, <1.1 % 완성되고 복제 된 이종상 동성 유전자. 어셈블리의 정확도를 현재 표준 인 KOREF (KOREFS)의 단일 어셈블리와 비교하면 둘 다 ~ 99.8 % 정확도를 나타 냈다 (표 4). 정확도 비교는 Pomoxis의 평가 조립 프로그램을 사용하여 수행되었다 [22].

결론

 본 연구는 Hi-C 맵핑 정보와 함께 ONT의 PromethION long read를 사용하여 한국 기준 게놈 KOREF의 고품질 어셈블리를 만들고, 이를 PacBio 시퀀싱 및 동일한 샘플의 어셈블리와 비교하고 있다. PromethION 64x시퀀싱의 결과와 PacBio 62x시퀀싱의 결과를 비교하면, 전자가 PacBio 비용의 1/12으로 높은 연속성과 완전성을 제공한다는 것을 알게 되었습니다. 또한, Hi-C 맵핑 정보를 결합한 27x PromethION 시퀀싱의 결과는 30x 커버리지 PacBio 시퀀싱 데이터와 견줄만한 결과를 보였다. 따라서 현재 long-read 기술로 염색체 규모의 어셈블리를 생성하는데 있어 ONT의 PromethION 시퀀싱은 품질과 비용 효율성 면에서 PacBio의 좋은 대안이 될 수 있다. simple pore 기반의 긴 판독 시퀀싱은 개인 게놈 프로젝트와 암 게놈 분석에 있어 기존의 짧은 판독 시퀀싱 만으로는 쉽게 알 수 없었던 구조적 변이와 카피 수 변이를 위해 드 노보 어셈블리를 필요로 하는 시퀀싱 및 차후의 생물정보학 분석법을 획기적으로 향상시킬 수 있다.

뒷받침 데이터 및 자료의 가용성

NCME GenBank의 PromethION 및 PacBio의 원시 장기 판독 서열 데이터는 프로젝트 수탁 번호 PRJNA549351로 제공된다. KOREF의 모든 게놈 어셈블리는 KOREF 웹 사이트 (http://koref.net)에서 제공된다. 다른 지원 데이터 및 코드는 GigaScience GigaDB 리포지토리에서 사용할 수 있다 [23].

약어

bp : 염기쌍; BUSCO : 범용 단일 카피 오솔 로그 벤치마킹; FFPE : 포르말린 고정, 파라핀 포매; Gb : 기가베이스 쌍; GC : 구아닌-시토신; Mb : 메가베이스 쌍; NCBI : 생명 공학 정보를위한 국립 센터; ONT : 옥스포드 나노 포어 기술; PacBio : 태평양 생명 과학; SMRT : 단일 분자 실시간.

경쟁 이익

Y.S.C. J.B.는 Clinomics Inc. J.B.와 Y.S.C의 CEO이다. 회사에 지분이 있다. 다른 저자들은 경쟁 관계가 없다고 선언하는 바이다.

자금 조달

이 연구는 울산 과학 기술원 U-K BRAND Research Fund (1.190007.01)에 의해 지원되었다. 울산 과학 기술 연구원 울산시 연구 기금 (1.190033.01)이 자금을 지원하는 연구 프로젝트 PromethION 기계를 사용한 KOREF 시퀀싱을위한 내부 자금.

참고

1. McCarthy A. Third generation DNA sequencing: Pacific Biosciences’ single molecule real time technology. Chem Biol. 2010;17(7):675–6. [PubMed] [Google Scholar]

2. Laver T, Harrison J, O'Neill PA, et al. .. Assessing the performance of the Oxford Nanopore Technologies MinION. Biomol Detect Quantif. 2015;3:1–8. [PMC free article] [PubMed] [Google Scholar]

3. Chin C-S, Alexander DH, Marks P, et al. .. Nonhybrid, finished microbial genome assemblies from long-read SMRT sequencing data. Nat Methods. 2013;10(6):563–9. [PubMed] [Google Scholar]

4. Fu S, Wang A, Au KF. A comparative evaluation of hybrid error correction methods for error-prone long reads. Genome Biol. 2019;20(1):26. [PMC free article] [PubMed] [Google Scholar]

5. Pacific Biosciences - AllSeq, AllSeq https://allseq.com/knowledge-bank/sequencing-platforms/pacific-biosciences/. Assessed on 13th October 2019 [Google Scholar]

6. University of Washington PacBio Sequencing Services. https://pacbio.gs.washington.edu/. Assessed on 13th October 2019. [Google Scholar]

7. Prices | DNA Technologies Core, UC Davis Genome Center. https://dnatech.genomecenter.ucdavis.edu/prices. Assessed on 13th October 2019. [Google Scholar]

8. Oxford Nanopore Technologies. https://nanoporetech.com/products/comparison/. Assessed on 13th October 2019. [Google Scholar]

9. Cho YS, Kim H, Kim HM, et al. .. Corrigendum: An ethnically relevant consensus Korean reference genome is a step towards personal reference genomes. Nat Commun. 2017;8:16168. [PMC free article] [PubMed] [Google Scholar]

10. KOREF Korean Reference Genome. http://koref.net. Assessed on 13th October 2019. [Google Scholar]

11. KOREF short read data ftp://ftp.sra.ebi.ac.uk/vol1/srr/SRR220/006/SRR2204706. [Google Scholar]

12. Bolger AM, Lohse M, Usadel B. Trimmomatic: A flexible trimmer for Illumina sequence data. Bioinformatics. 2014;30(15):2114–20. [PMC free article] [PubMed] [Google Scholar]

13. Porechop, adapter trimmer for Oxford Nanopore reads. https://github.com/rrwick/Porechop. Assessed on 13th October 2019. [Google Scholar]

14. Ruan J, Li H. Fast and accurate long-read assembly with wtdbg2. bioRxiv. 2019:530972, doi:10.1101/530972. [CrossRef] [Google Scholar]

15. KOREF PromethION paper. https://github.com/macarima/KOREF_PromethION_paper. Assessed on 13th October 2019. [Google Scholar]

16. Racon, ultrafast consensus module for raw de novo genome assembly of long uncorrected reads. https://github.com/isovic/racon. Assessed on 13th October 2019. [Google Scholar]

17. Walker BJ, Abeel T, Shea T, et al. .. Pilon: An integrated tool for comprehensive microbial variant detection and genome assembly improvement. PLoS One. 2014;9(11):e112963. [PMC free article] [PubMed] [Google Scholar]

18. Simão FA, Waterhouse RM, Ioannidis P, et al. .. BUSCO: Assessing genome assembly and annotation completeness with single-copy orthologs. Bioinformatics. 2015;31(19):3210–2. [PubMed] [Google Scholar]

19. Ghurye J, Pop M, Koren S, et al. .. Scaffolding of long read assemblies using long range contact information. BMC Genomics. 2017;18(1):527. [PMC free article] [PubMed] [Google Scholar]

20. BBMap, short read aligner and other bioinformatics tools. https://sourceforge.net/projects/bbmap/. Assessed on 13th October 2019. [Google Scholar]

21. Arima Genomics mapping pipeline. https://github.com/ArimaGenomics/mapping_pipeline. Assessed on 13th October 2019. [Google Scholar]

22. Pomoxis, bioinformatics tools for nanopore research. https://nanoporetech.github.io/pomoxis/. Assessed on 13th October 2019. [Google Scholar]

23. Kim H, Jeon S, Kim C, et al. .. Supporting data for “Chromosome-scale assembly comparison of the Korean Reference Genome KOREF from PromethION and PacBio with Hi-C mapping information.”. GigaScience Database. 2019. 10.5524/100654. [CrossRef] [Google Scholar]