An ethnically relevant consensus Korean reference genome is a step towards personal reference genomes.

From kogic.kr
Revision as of 10:58, 6 July 2020 by Aa (talk | contribs)
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

Contents

한국 참조 게놈은 민족적으로 관련성이 있는 공감대이며, 개인 참조 게놈을 향한 단계이다.

Yun Sung Cho , Hyunho Kim , Hak-Min Kim , Sungwoong Jho , JeHoon Jun , Yong Joo Lee , Kyun Shik Chae , Chang Geun Kim , Sangsoo Kim , Anders Eriksson , Jeremy S Edwards , Semin Lee , Byung Chul Kim , Andrea Manica , Tae-Kwang Oh , George M Church , Jong Bhak 

 

초록

인간의 게놈은 일상적으로 보편적인 기준과 비교된다. 그러나, 이 전략은 인종적으로 관련되거나 개인적인 참조를 사용하여 보다 효율적으로 탐지될 수 있는 인구 고유의 게놈 및 개인 게놈의 변화를 놓칠 수 있다. 여기 우리는 시퀀싱 및 매핑 방법을 결합 하여 개인 및 민족 참조를 구축하기 위한 한국의 참조 게놈 (KOREF)의 하이브리드 어셈블리를 보고한다. 또한 우리는 한국의 개인 게놈 프로젝트에서 추가로 추출한 40개의 민족 동질 게놈으로부터 수백만 개의 변종에 대한 정보를 제공함으로써 합의된 변종 참조를 구축한다. 우리는 민족적으로 관련된 합의 참조가 효율적인 변이 탐지에 도움이 될 수 있음을 발견했다. 인체 조립품의 체계적 비교는 조립품 품질의 중요성을 보여주며, 민족 및 개인적 게놈 구조 변화를 포괄적으로 매핑하는 신기술의 필요성을 제시한다. 대규모 인구 게놈 프로젝트의 시대에, 인간 기준 게놈뿐만 아니라 민족별 게놈 어셈블리의 활용은 모든 인간 게놈 다양성의 매핑을 가속화 할 것이다.

 

도입

주로 백인 및 아프리카계 조상을 기준으로 하는 표준 인간 기준(현 GRCh38)은 정확하고 정확하며 광범위하다. 해부학 적으로 현대인의 상대적으로 장기 유효 인구 규모가 작기 때문에 (~ 10,000 정도로 작은 것으로 추정 됨) 이러한 참조는 대부분의 목적에 적합하며 연구 및 생물 의학 응용 분야에서 일상적으로 사용된다. 그러나, 이러한 보편적 참조로 특정 집단-특이 적 변이체를 놓칠 수 있으며, 저주파 및 구조적 변이체를 포함하여 인간 다양성을 매핑하려는 현재의 연구 노력은 민족적으로 관련된 참고 자료로 부터 이익을 얻을 것이다 5,6. 2001 년 인간 참조 게놈의 초안을 발표 한 이후 (참조 7), 시퀀싱 기술은 빠르게 발전했다. 2007년에는 백인 남성의 복시 게놈을 상어 시퀀싱 기술(HuRef)8을 사용하여 배열하고 조립했다. 나중에 중국어 (YH), ​​아프리카 (2009), 백인 (HsapALLPATHS1, 여기서 NA12878_Allpaths, 2011) 및 몽골어 (2014)의 게놈은 Illumina의 짧은 판독 서열 분석 데이터를 사용하여 구축되었다 (9,10,11).  2014 년, Illumina 짧은 판독 및 인덱싱 된 박테리아 인공 염색체 (BAC) 클론을 사용하여 참조 유도 된 완전한 hydatidiform 몰 게놈 (CHM1_1.1)을 조립 하였다. 2015년, 포스미드 풀링을 사용하여 단독 시퀀스 데이터와 함께 해플로티프로 해결된 복제 YH 게놈을 조립했다13. 이러한 어셈블리는 유전체 연구에 유용하고 중요하지만 일반 목적 표준 참조 게놈14로 간주하기에는 충분한 정확도나 전반적인 품질은 아니다. 

최근 장거리 시퀀싱 및 매핑 방법의 가용성이 증가함에 따라 인종 그룹 및 심지어 개인 게놈, 특히 질병 관련 구조 변형 (SV)에 대한 참조 생성에 중요한 영향을 미친다. 장거리 데이터는 비계 크기를 늘리고, 효과적으로 격차를 좁히고, 복잡한 영역을 해결하고, SVs15,16,17,18,19,20,21,22를 식별함으로써 비교적 저렴한 비용으로 식별하여 게놈 조립을 개선할 수 있다. 주목할만한 접근 방식은 복잡한 DNA 영역을 해결하고 게놈 간극을 메우기 위해 단일 분자 실시간 시퀀싱 기술 (SMRT)과 고도의 병렬 라이브러리 준비 및 짧은 판독 (합성 긴 판독)의 로컬 어셈블리이다. 예를 들어, 단일 1배체형 인간 게놈은 단일 분자 장기 판독 서열 분석 (CHM1_PacBio_r2 및 CHM13)을 사용하여 구축되었다. 장기 판독 방법은 광학 매핑과 나노 채널 기반 게놈 매핑이라는 두 가지이며 처리량 매핑 방법으로 보완 및 검증 할 수 있다. 가장 대표적인 경우는 NA12878 (ASM101398v1, 여기서는 NA12878_single이라고 함) 과 HX1 (중국인 개인) 게놈이며, 이 게놈은 단일 분자 판독 값과 단일 분자 게놈 맵 21,22를 결합하여 하이브리드로 조립되었다. 처리량이 많고 짧은 판독 값과 장거리 매핑 또는 시퀀싱 데이터를 포함하며 하이브리드 어셈블리를 통합한 어셈블리는 품질을 향상시켜 복잡한 게놈 영역의 검증 및 조정으로 훨씬 더 긴 스캐 폴드를 제공 할 수 있다 19, 20, 21, 22.

정확한 템플릿을 제공하는 참조 게놈(reference genome) 프로젝트와 보완하여, Personal Genome Project (PGP)23와  1,000 Genomes Project (1KGP)24,25와 같은 인구 게놈 프로젝트는 많은 생물의학 연구 프로젝트에 기본이 되는 귀중한 변이 정보를 제공한다. PGP는 유전자 변이와 관련된 다양한 기능적 결과를 이해하는 데 중요한 개인 게놈, 건강 및 특성 데이터를 공개적으로 공유하기 위해 2005년에 시작되었다. 최근 영국과 네덜란드의 대규모 인구 게놈 프로젝트가 착수되어 인구별 희귀 유전자 변이와 질병을 유발하는 변이를 식별하고 있다 26,27.single reference 및 인구집단에서 파생된 게놈 변이 유형과 frequencies (variome)는 게놈학의 기둥이다.

여기서, 우리는 하이브리드 시퀀싱 과 매핑 데이터를 활용하여 PGP의 일부로 생성 된 한글 기준 (KOREF) 게놈 (KOREF_S : 단일 참조 어셈블리 및 KOREF_C : 단일 참조 + 합의 변수)의 두 가지 버전을 보고한다. KOREF는 GRCh38을 보완하기 위해 또 다른 고품질 동아시아 참조를 제공한다. KOREF는 2006 년에 한국 과학 기술부 (National Science and Technology)에 의해 시작되어 국가 게놈 및 변이체 참조를 생성했다. 짧은 판독에 내재 된 문제를 처리하기 위해, 우리는 여러 가지 기술(짧고 긴 페어링 엔드 시퀀스, 합성 및 단일 분자의 긴 판독, 광학 및 나노채널 게놈 맵)의 데이터를 사용하여 남성 기증자인 KOREF_S(그림 1)의 고품질 하이브리드 어셈블리를 구축한다. 또한, 한국 PGP(Korean Passistance KOREF_C) 28의 40개의 높은 전체 게놈(짧은 판독에 기초한)의 정보를 통합하여, 인구 전체의 일치된 한국 레퍼런스인 KOREF_C를 생성한다. 우리는 KOREF_C의 게놈 구조를 다른 인간 게놈 어셈블리와 비교하여 민족 별 특정 빈도가 높은 구조적 변형을 포함하여 많은 구조적 차이를 발견한다. 중요하게도, SV의 식별은 사용 된 시퀀싱 플랫폼 과 어셈블리 품질에 의해 크게 영향을 받으므로, 민족 및 개인 게놈 구조를 종합적으로 맵핑하기 위해 오랫동안 읽은 서열 및 고품질 어셈블리가 필요하다는 것을 시사한다. 다민족 PGP 데이터와 함께, 향후 많은 저비용 개인, 국가 및 민족 게놈 참조자료들이 단일 뉴클레오타이드 변이 (SNV) 와 SV 모두에서 모든 인간 게놈 다양성을 맵핑 하는데 가속화할 것이다. 

그림 1: KOREF 조립 절차에 대한 개략적인 개요

(a) Short and long insert size libraries by Illumina whole-genome sequencing strategy. (b) Contig assembly using K-mers from short insert size libraries. (c) Scaffold assembly using long insert size libraries. (d) Super-scaffold assembly using OpGen whole-genome mapping approach. (e) Gap closing using PacBio long reads and Illumina TSLR. (f) Assembly assessment using BioNano consensus maps. (g) Chromosome sequence building using whole-genome alignment information into the human reference (GRCh38). (h) Common variants substitution using 40 Korean whole-genome sequences.




결과

대표적인 게놈 공여자 선택

우리는 16 명의 한국인 자원 봉사자들을 모집했는데, 이들은 게놈 데이터 사용에 대한 사전 동의 (소규모 국가 별 적응이 있는 PGP 프로토콜을 기반으로)에 서명하고 공개적으로 발표하는데 동의했다. 말초 혈액에서 DNA를 추출한 후 (보충 표 1), 우리는 Infinium Omni1 쿼드 칩을 사용하여 각 자원자를 유전자형으로 제작했다. HPGMAP 3 단계의 86 개 일본어, 84 개 중국어, 112 개 백인 및 113 개 아프리카 인 유전자형 데이터 뿐만 아니라 KPGP 데이터베이스의 추가 34 개 전체 게놈 서열을 사용하여 pairwise 유전자 거리의 다차원 스케일링 플롯을 구축했다 (참조 : 29; 보충) 그림 1). 한국의 16 개 표본은 모두 인구가 밀집되어 하나의 민족 집단을 나타낸다. 유전 적 거리의 중심성, 참가자의 연령, 부모의 샘플 가용성, 지속적인 혈액 샘플 기증의 가용성 및 G 밴드 핵형의 정상 성과 같은 매개 변수 목록을 고려하여 건강한 남성 기증자를 KOREF_S로 선택했다 (보충 그림 2). ). 참고 자료를 공급하기 위해 KOREF_S 공여자의 혈액으로 불멸화 된 세포주를 구성하고 한국 세포주 은행에 기탁했다 (KCLB, # 60211).

KOREF_S 조립

우리는 다른 초안 참조 게놈 프로젝트 (9,10,11,13,30)에서 채택한 것과 동일한 접근법을 사용하여 Illumina HiSeq2000 및 HiSeq2500 플랫폼에서 짧은 판독 시퀀싱 데이터를 얻었다. 서로 다른 조각 크기 (170, 500 및 700 bp의 짧은 인서트 크기, 2, 5, 10, 15 및 20 Kb의 긴 인서트 크기)를 갖는 24 개의 라이브러리에서 총 964 Gb의 페어 드 엔드 DNA 판독 값이 생성되었다. 총 시퀀싱 깊이 범위는 ~ 311 배 (보충 표 2 및 3)이다. K-mer 분석으로부터, KOREF_S의 크기는 ~ 3.03 Gb 인 것으로 추정되었다 (보충 표 4). 총 68,170 개의 스캐 폴드 (≥200 bp)가 생성되었으며, 총 길이는 2.92 Gb로 거의 20 Mb (19.85 Mb)의 N50 길이에 도달하고 1.65 %의 갭만 포함한다 (표 1 및 보충 그림 3). 대략적으로, 게놈 초안(N90)의 약 90 %가 각각 3.09 Mb보다 큰 178 개의 스캐 폴드로 덮여 있으며, 염색체 6에서 80 Mb (81.9) 이상으로 가장 크다.

표 1 조립 단계에 따른 KOREF 빌드 통계.

스캐 폴드를 추가로 확장하기 위해, 우리는 이전에 제안 된 바와 같이 높은 처리량의 전체 게놈 광학 매핑 기기를 사용했다 18, 우리는 고 분자량 DNA를 추출하여 67 개의 고밀도 MapCard에서 745.5 Gb의 단일 분자 제한 맵 (평균 크기 360 Kb의 약 2 백만 개의 분자)을 생성하여 240 배 광학 맵 적용 범위를 제공했다 (보충 표 5 및 6). 스캐 폴드를 결합시키기 위해, 단일 분자 광학 맵을 규소 제한 효소 소화에서 제한 맵으로 변환 된 조립 된 스캐 폴드와 비교 하였다. 결과적으로 총 67 개의 스캐 폴드 (> 200 Kb)가 합쳐졌다 (보충 표 7). 이로 인해 스캐 폴드 N50 길이가 19.85에서 25.93 Mb로 증가했다 (표 1). 또한 KOREF_S에 대해 PacBio SMRT (~ 31.1 Gb, ~ 10 배 범위, 보충 그림 4 및 보충 표 8)와 Illumina TruSeq 합성 장독 (TSLR, ~ 16.3 Gb, ~ 5.3-)의 두 가지 유형의 Long Reads를 생성했다. 접힘 범위; 보충 그림 5 및 보충 표 9). 두 유형을 동시에 사용하여 예상 게놈 크기의 1.75 %에서 1.06 %로 격차가 감소하고 최종 스캐 폴드 N50 길이가 25.93에서 26.08μMb로 약간 증가했다 (표 1). 낮은 양의 긴 판독 (mate-pairs 와 비교할 때 판독 수의 1.2 % 만)이 스캐 폴드 길이가 약간 증가한 이유 중 하나라고 추측한다 (보충 표 10).

Scaffolds는 일반적으로 잘못 조립된다 14,16. 우리는 나노 채널 기반 게놈 매핑 데이터를 생성하여 KOREF_S의 품질을 신중하고 체계적으로 평가했다 (150 Kb 이상의 단일 분자 맵의 ~ 145 Gb). N50 길이가 1.12 Mb (보충 표 11) 인 2.8 mappingGb의 게놈지도에 맵핑 데이터를 모았다. KOREF_S 스캐 폴드 영역 (≥10.Kb)의 총 93.1 %가 이 게놈 맵으로 덮여 있어 연속성을 확인했다 (보조 그림 6).  KOREF_S 스캐 폴드의 오조립을 정확히 찾아 내기 위해 게놈지도 (정렬 신뢰도가 20 이상인 3,216 건)의 KOREF_S 및 GRCh38에 대한 모든 정렬 결과를 수동으로 확인했다. KOREF_S에서 7 개의 잘못 조립 된 영역이 감지되어 수정을 위해 분할되었다 (보조 그림 6). 다음으로 KOREF_S와 GRCh38의 전체 유전자 정렬을 수행하여 가능한 염색체 간 또는 염색체 내 전위 (오조립된 시퀀스의 표시)을 검출했다. 총 280개의 KOREF_S scapolds (180Kb)가 GRCh38 염색체 염기서열 (non-gaps)의 93.5%를 차지하였다. 우리는 대규모의 염색체 또는 염색체 내 전좌가 발견하지 못했다. 또한, 정밀한 평가로서, 짧고 긴 판독 데이터를 KOREF_S 스캐 폴드 (self-to-self alignment)에 정렬했다. 스캐 폴드 서열 (> 2 Kb)의 총 98.85 %가 20 배 이상으로 커버되었다. 우리는 전체 게놈 정렬 정보 (염색체 위치 및 GRCh38 염색체에서 스캐 폴드의 순서 정보)를 사용하여 KOREF_S의 스캐 폴드를 염색체에 할당하여 KOREF_S 염색체 서열 (총 길이의 ~ 3.12 Gb; 표 1)을 얻었다.

KOREF_C 구성 및 게놈 주석

최근 듀이 외 연구진은 low-coverage 유럽, 아프리카 및 동아시아 참조 게놈의 민족별 주요 대립형질(allele) (1KGP부터의 single base substitutions)을 대체하여 구축한 주요 대립형질(allele) 참조 서열5를 사용하여 질병 관련 variant loci에 대한 genotype accuracy가 훨씬 향상되었음을 입증했다. 우리는 40개의 KPGP high-depth(평균 31배 mapped reads) 전장 게놈(whole genomes)에서 흔히 발견되는 SNV와 작은 삽입(insertions) 또는 deletions (indels)로 서열(sequences)를 대체함으로써 KOREF_S에 대해서도 동일한 접근방식을 따랐다. 이것은 개별적인 편견을 제거했고, 따라서 한국 인구의 공통 변이를 합의 참조(consensus reference)로 더 잘 나타낸다(KOREF_C; 보충표 12). 한국의 40가지 고퀄리티 short read Korean genome data에서 흔히 볼 수 있는 약 200만 변이(1,951,986개, 219,728개)가 통합되었다. 또한, KOREF_S의 미토콘드리아 DNA(mtDNA)는 독립적으로 배열되고 조립되어 구조상 GRCh38과 유사한 16,570 bp의 미토겐이 생성되었다. 총 34개의 KOREF_S mtDNA 포지션이 GRCh38(보조표 13)과 달랐다. KOREF_S의 mtDNA는 동아시아에서 흔한 D4e haploggroup에 배정될 수 있는 반면 GRCh38 mtDNA는 유럽 haploggroup H에 속한다.

KOREF_C GC 내용 및 분포는 가장 퀄리티가 낮은 아프리카 assembly를 제외한 other human assembly와 유사했다.(보조 그림 7). 우리는 de novo prediction 과 homology-based alignments을 통합하여 반복적인 요소에 대해 KOREF_C에 주석을 달았다. 반복요소는 KOREF_C(보조표 14)의 1.51Gb(47.13%)를 차지해 GRCh38(1.59gb)보다 약간 적었다. 반면 KOREF_C에는 next-generation sequencing short reads만으로 assembly된 몽골 게놈(1.36gb)보다 반복이 많았다. KOREF_C(보조표 15와 '방법' 부분)의 protein-coding genes는 2만400여 개로 예상했다. KOREF_C를 다른 human assembly(GRCh38, CHM1_1.1, HuRef, African, Mongolian, and YH)과 비교하여 총 875.8Kb KOREF_C sequences( (≥100 bp of fragments) 를 새로운 것으로 정의하였다(보조표 16 및 방법 섹션).

other human genomes 과 KOREF_C  비교

assembly statistics와 GRCh38 genome, segmentally duplicated regions 및 repetitive sequences(표 2, 보충표 17–19)의 회복률을 비교하여, 공개적으로 이용가능한 9개 human genome assemblies (CHM1_PacBio_r2, CHM1_1.1, NA12878_single, NA12878_Allpaths, HuRef, Mongolian, YH_2.0, African and KOREF_C)의 품질을 평가했다. 그 결과, KOREF_C는 short-read기반의 de novo assemblies 보다 더 근접하지만,(26.46 Mb of N50), long-read 기반의 assemblies에 필적하는 것으로 나타났다(26.83 Mb of N50 for NA12878_single; 26.90 Mb of N50 for CHM1_PacBio_r2); KOREF_C는 heterogeneous sequencing와 mapping technologies을 종합해 hybrid assembled 했지만, KOREF_C sequences의 대다수는 next-generation sequencing short reads에서 파생되었다. 그러나, KOREF_C의 contig 사이즈는 short reads의 연속성 정보(continuity information)가 낮기 때문에, long-read 기반의 assemblies와 비교하면 작다(N50의 47.86Kb, L50의 17,749; 보충표 17). KOREF_C는 다른 long-read assemblies와 비교 가능한 GRCh38 recovery rate을 보였다(표 2 및 부록 표 18). KOREF (KOREF_S scaffolds)는 다른 short-read기반의 de novo assemblies 보다 효율적이지만 two PacBio long-read assemblies 보다 더 적은 중복되고 반복되는 영역을 복구했다(부록 표 19). 특히, 더 높고 깊은 long-read assembly CHM1_PacBio_r2는 GRCh38 뿐만 아니라, 거의 부분적으로 가장 많이 중복된 영역을 복구하여, 이러한 도전적인 유전적 영역을 복구하기 위해서는 long-read information가 중요하다는 것을 알 수 있다. 또한, 기증자의 두 하플로타입 사이의 구조적 다형성(structural polymorphisms)은 assembly 품질 15,31에 영향을 미치는 가장 중요한 요인 중 하나이다. 따라서, haploid assembly인 CHM1_PacBio_r2는 diploid source를 이용한 다른 어셈블리보다 segmentally duplicated regions에 대한 게놈 회복력이 우수할 것으로 기대되었다. 또한, single haplotype genome (CHM1)의 재시퀀싱 데이터(re-sequencing data)를 human assemblies 에 매핑하여 assembly 품질을 비교했다(부록 그림 8). 이상적으로는, human assembly가 전체 게놈을 잘 회복했다면, CHM1에는 heterozygous variants가 없어야 한다. CHM1_PacBio_r2는 전체 인간 게놈 해결에서 가장 정확(heterozygous variants가 가장 적음)하였으며, KOREF_C는 short-read기반의 assemblies 중에서 가장 정확하였다. 이러한 결과는 de novo assemblies에 기반한 short reads가 전체 게놈 시퀀스를 정확하게 해결하는 데 필요한 전력을 감소시켰다는 것을 입증한다14.

표 2 assembly quality의 체계적 비교.

또한 각 human assembly에서 검출된 RefSeq (ref. 32) 단백질 코딩 유전자의 수를 비교하여 gene content assessments를 실시하였다(표 2 및 보충표 20). RefSeq 유전자는 CHM1_1.1(18,040)에서 가장 잘 회복된 유전자로, 이 참조를 지침으로 사용하여 assembled되었다. KOREF_C는 de novo assembled genomes 중 온전한 RefSeq 유전자를 가장 많이(1만7758개) 함유하고 있으며, 심지어 long-read  기반의 assemblies(약 1만7657개)보다도 많았다. 특히 single-molecule long reads과 게놈 지도를 결합해 하이브리드화한 NA12878_단일 게놈은 온전한 단백질 코딩 유전자(protein-coding genes)의 수가 6610개로 아프리카 게놈(9,167)보다 훨씬 적었다. NA12878_single은 코딩 영역에서 프레임 이동(frame-shift)이 많은 것을 확인했다. 이는 시퀀싱 깊이(46 × 적용 범위)가 낮아 오류 수정 단계로는 수정할 수 없었던 PacBio 1-mulule long read의 높은 오류율로 설명할 수 있다.

구조적 변이 비교

우리는 GRCh38과 비교하여 이 8개의 human assemblies 에서 대형 삽입(large insertions), 삭제 및 반전(deletions and inversions,) 등의 SV를 조사하였다(paired-end read data가 없었기 때문에 이 분석에는 HuRef가 사용되지 않았다). 우리의 분석은 assembly quality이 주로 시퀀싱 플랫폼(즉, sequence read lengths)에 의해 결정된다는 것을 보여주었고, 따라서 mis-assemblies하면 잘못된 SV가 발생할 수 있다는 것을 고려해야 했다. 두 개의 코카시안 샘플(CHM1 및 NA12878)은 short-read sequences 와 long reads을 사용하여 assembled되었으므로 assembly quality  SV 식별 사이의 연관성을 검사할 수 있다. CHM1 샘플의 민족성은 오토솜34 및 미토콘드리아 DNA 시퀀스에서 ancestry-sensitive DNA markers를 사용하여 백인인 것으로 확인되었다(부록 그림 9). 가능한 misassembles 에서 도출될 수 있는 SV는 앞에서 제시한 대로 paired-end reads 대비 aligned single-end read 비율(S/P 비율)을 비교하여 필터링했다('방법' 섹션 참조).

KOREF_C에서는 GRCh38과 비교하여 총 6,397개의 insertion(>50 bp), 3,399개의 deletion(>50 bp), 42개의 nversion이 발견되었으며, 총 9,838개의 SV가 발견되었다. 이는 몽골(12,830 SV) 및 아프리카(10,772 SV) 어셈블리보다 약간 적지만 CHM1 및 NA12878 어셈블리(약 5,179 SV; 표 3, 부록 표 21 및 22)에서 발견된 어셈블리보다 크다. 특히 YH_2.0(5,027 SV)은 다른 아시아 의회와 비교하여 코카서스 의회에서 발견된 것과 유사한 수의 SV를 가지고 있었다. 이러한 어셈블리에서 발견된 SV의 길이 분포는 Alu element insertions 및 deletions15,35로 인해 200–400 bp 크기 범위에서 피크인 유사한 패턴(보조 그림 10 및 11)을 보였다. 반복 지역(repeat regions)의 SV 부분은 short-read 기준 assemblies69.6~81.9%)가 long-read assemblies(67.7–68.7%; 표 3 및 보충 표 23)보다 높았다. 반면, segmentally duplicated regions의 SV 부분은 short-read assemblies(3.9~12.6%, 표 3 및 보충표 24)보다  long-read assemblies(21.4~29.0%)에서 훨씬 높았다.

표 3 GRCh38과 비교한 8개의 인간 어셈블리의 SV 요약.

KOREF_C SV 중  insertion의 93.8%,  deletion의 70.4%가 public SV databases에서 발견되지 않아 새로운 것으로 정의되었다(표 3, 부가 그림 10, 보충 표 25 및 '방법' 섹션). KOREF_C의 새로운  SV의 부분은 다른 human assemblies에서 발견된 것과 유사하지만 다른 short-read only de novo assemblies보다 작았다. 시퀀싱 플랫폼에 관계없이 모든 어셈블리는 CHM1의 PacBio SMRT 판독값을 인간 참조 게놈(여기서 CHM1_mapping이라고 함)15에 매핑하여 발견한 것보다 더 많은 수의 새로운 SV을 보였다. 특히 같은 샘플의 PacBio long reads을 이용해 assembled한 CHM1_PacBio_r2 역시 새로운 SV의 부분이 훨씬 높았다. 우리는 fragments의 N50 길이와 새로운 SV의 부분(R2=0.44; 그림 2a) 사이의 상관관계를 발견했다. CHM1_mapping에 의해 human assemblies 의 SV를 SV와 비교했을 때 SV의 일부(약 12.51%)만 공유되었다(표 3 및 보충 표 26). CHM1_PacBio_r2와 CHM1_mapping 사이의 SV 공유 부분(8.85%)은 작았고, NA12878_single: 8.32%, NA12878_Allpaths: 5.27%)은 상당히 달랐다. assembly quality (N50 length)와 공유 부분(R2=0.71; 그림 2b) 사이에 상관관계가 있었다. 이러한 결과는 동일한 표본에 대해서도 long-read mapping 과 de novo assembly 기반 whole-genome alignment methods 사이에 큰 차이가 있었음을 시사한다.

그림 2: human assemblies 중 SV

(a) fragments의 N50 length(scaffolds or contigs)와 새로운 SV의 fraction 사이의 상관 관계. (b) CHM1 PacBio read mapping method과 공유한  fragments의N50 length와 SV의 fraction 사이의 상관 관계. (c) human assembly sets 간의 독점 공유 SV. 이 그림에서는 표시된 어셈블리에 의해서만 공유되는 SV(반복적으로 50% 적용)를 고려했다. (d) 9개의 human assemblies가 공유한 SV의 예. 회색 영역은 모든 어셈블리에 공유된 구조적 차이를 나타내며, 수평선은 homologous 시퀀스 영역을 나타낸다.

인간 게놈은 인구 특징적 시퀀스와 population stratified copy number variable regions6,36을 포함한다. 따라서, 우리는 인종적으로 관련된 인 human assemblies이 유사한 게놈 구조를 공유해야 한다고 가정했다. human assemblies 사이의 게놈 구조를 조사하기 위해 human assemblies에서 공유하는 SV를 그룹화했다(그림 2c). 대부분의 SV(61.6% 이상)는 어셈블리에 따라 다르다(부록 표 27). 단 두 개의 어셈블리가 공유한 SV를 고려할 때, 두 개의 아시아 게놈(KOREF_C and Mongolian)이 가장 많은 SV를 공유했다(보조 그림 12). 그러나 YH_2.0은 KOREF_C 및  Mongolian assemblies와 소수의 SV만 공유하였다. 특히 YH_2.0과 African genomes은 SV를 풍부하게 공유했는데, 이는 유사한 ethnic genomes 의 게놈 구조 유사성이 높아야 한다는 가정으로는 설명할 수 없다. PacBio long-read sequences를 사용하는 Caucasian assemblies인 CHM1_PacBio_r2 및 NA12878_single은 동일한 sample’s assemblies (NA12878 assemblies and CHM1 assemblies)보다 더 많은 SV를 공유했다. three assemblies에 의해서만 공유되는 SV의 경우, African, NA12878_Allpaths, YH_2.0은 공유 SV의 수가 가장 많은 반면, three Asian genomes 은 공유 SV의 수가 더 적었다(그림 2c 및 부록 그림 12). 그러나, 반복적(repetitive)이고 세분화된 중복 영역(segmentally duplicated regions)에서 검출된 SV를 제외했을 때, three Asian assemblies가 shared insertions의 수가 가장 많은 반면,  African, NA12878_Allpaths, YH_2.0은 전혀 insertions을 공유하지 않았다(부록 그림 13). 이러한 결과는 시퀀싱 플랫폼(sequencing platform)과 assembly quality에 의해 SV 식별이 심각한 영향을 받았음을 나타낸다. 따라서 우리는 게놈 구조 차이의 더 나은 특성화를 위해 assembly quality과 SV 식별을 개선하기 위해 long-read sequencing methods이 필요하다고 제안한다.

이러한 한계를 감안하여, 우리는 민족별로(ethnic group) 공통적으로 공유되는 SV를 계속 식별하였다. 이를 위해 KPGP, 1KGP, Human Genome Diversity Project (HGDP)37,Pan-Asian Population Genomics Initiative (PAPGI)에서 한국인 5명, 동아시아인 4명, 백인 4명, 아프리카인 1명의  whole-genome re-sequencing data를 사용하여 SV의 S/P 비율을 확인했다. 먼저, 우리는 all human assemblies가 공유하는 하나의 SV를 발견했다(그림 2d). 이 SV는 re-sequencing data에서도 흔히 볼 수 있었다(re-sequencing data 14개 중 13개). three Asian assemblies가 공유한 110개의 SV 중 10개의 비아시안 게놈(five non-Asian assemblies and five re-sequencing data, P value <0.05, Fisher’s exact test; Supplementary Table 28)에 비해 11개의 아시안 게놈 (one Mongolian assembly, one Chinese assembly and nine Asian re-sequencing data)에서 18개가 자주 발견됐다. 시퀀싱 플랫폼(sequencing platform)과 assembly quality의 이질성으로 인해 SV 분석에는 한계가 있었지만, 이러한 결과는 동일한 민족 집단 내에서 게놈 구조가 더 유사하다는 것을 나타낼 수 있으며, 대규모 비교 유전체학(large-scale comparative genomics)을 효율적으로 수행하기 위해서는 민족적으로 관련성이 있는 참조 게놈(reference genomes)이 필요하다는 것을 암시한다.

KOREF에 매핑 된 변형 비교

참조 게놈에 없는 민족성 특이적 게놈 서열은 게놈 변이의 정확한 검출에 중요할 수 있다22. 현재의 인간 참조 서열이 공통 및 희귀 질환 위험 변이체38 둘 다를 함유하는 것으로 공지되어 있고, 변이체 식별을 위해 현재 인간 참조의 사용은 희귀 질환 위험 대립 유전자의 검출을 복잡하게 할 수 있다 5.

각 모집단 (백인, 아프리카인, 동아시아인 및 한국인)의 5 개 전체 게놈에 대한 재 시퀀싱 데이터를 사용하여 KOREF_S, KOREF_C, GRCh38 및 합의된 아시아 GRCh38을 사용하여 탐지된 변이체 (SNV 및 소규모 indel) 수를 비교했다 (GRCh38_C, Dewey et al.의 아시아 주요 대립 유전자 참조5의 이행이지만 우리 연구를 위한 작은 인델 포함; 보충 표 29과 30). 사용된 참조에 따라 변형의 수가 상당히 다르다는 것을 발견했다. KOREF_C를 참조로 사용했을 때 모든 개인 (백인, 아프리카 및 동아시아)의 변이 수가 감소했다. 그러나 KOREF (KOREF_S 및 KOREF_C)의 실제 염기 (갭이 없는) 수가 적으면 유전자형 재구성의 정확도에 영향을 줄 수 있으므로 KOREF, GRCh38 및 GRCh38_C (보충 표 31)가 공유하는 지역 내에서만 변이 번호를 비교했다. 예상대로, KOREF_C를 GRCh38과 비교하여 참조로 사용했을 때 모든 아시아 게놈 (중국인 2 명, 일본인 2 명, 몽골 인 5 명, 한국인 2 명)의 동형 접합체 변이체 수가 크게 감소했다 (SNV의 35.5 % 및 인델의 43.9 %가 남아 있음). (그림. 3a,b);); 반대로, 백인과 아프리카 게놈에서 동형 접합체 변이체의 수는 거의 감소하지 않았다. 동형 접합 SNV의 경우, GRCh38_C와 KOREF_C 사이에서 유사한 패턴이 관찰되었다. 그러나 GRCh38_C를 기준으로 사용했을 때 동형 접합체의 수는 KOREF_C를 기준으로 사용했을 때 보다 많았다. 이는 1KGP 데이터의 낮은 시퀀싱 깊이로 인해 KOREF_C와 비교할 때 GRCh38_C를 대체하는 공통 인델이 적었기 때문이라고 추측한다. 한국인이 아닌 아시아 인에서 발견되는 동형 접합체 변이체의 수는 한국인에서 발견된 것과 유사하여 KOREF가 다른 동아시아 게놈에 사용될 수 있음을 시사한다. 한편, 이형 접합체 SNV의 수는 KOREF에서 약간 더 높았으며, 이는 전술한 바와 같이 CHM1 재 시퀀싱 데이터의 매핑 결과와 일치한다 (보충 그림. 8).). 그러나, 본 발명자들의 분석을 비 반복 영역으로 제한할 때 이형 접합 SNV의 수가 유사하다는 것을 확인하였다. 이형 접합 인델의 수는 또한 사용된 참조에 관계없이 거의 일정 하였다 (그림. 3c,d).

그림 3 : 참조 게놈에 따른 변이 차이.

KOREFs, GRCh38 및 GRCh38_C가 공유하는 지역 내의 변이체 (SNV 및 소량의 indel) 수는 세 가지 다른 인종 그룹 (아프리카 : Mandenka, Yoruba, San, Mbuti 및 Dinka; 백인 : Sardinian, 프랑스어 및 CEPH/Utah (CEU) 3 명, 동아시아인 : 몽골인, 중국인 2 명, 일본인 5 명, 한국인 5 명). (a) 동형 접합 SNV의 수. (b) 동형 접합 작은 인델의 수. (c) 이형 접합 SNV의 수. (d) 이형 접합 작은 인델의 수. (e) 공유수준이 다른 변이의 수 (GRCh38 및 KOREF_C에 의해 참조됨). (f) 공유수준이 다른 참조-특정 변이체의 수.

다르게 불리는 변이 (GRCh38에서는 발견되었지만 KOREF_C에서는 발견되지 않은 변이)에 초점을 맞추면서 모집단 간의 변이 수 (즉, 변이 번호 측면에서 인구 계층화)에 차이가 있음을 발견했다. 구체적으로 변이체를 호출하는 KOREF_C를 사용할 때 (Supplementary Table 32) 모집단 간의 변이체의 차이가 더 두드러졌다. 20 개의 전장 게놈에서 변이체 (> 6 개체)라고하는 공통적으로 공유된 KOREF_C의 수는 훨씬 적었지만, 개별-특이 적 변이체를 포함하여 변이체가 아닌 덜 공통된 KOREF_C 수는 더 많았다 (Fig. 3e,f). 또한, 구체적으로 호출된 KOREF_C의 수는 10 명의 아시아인이 비아시아인 10명 보다 상당히 적었다. 이 결과는 KOREF_C의 합의 변형 구성 요소를 반영하고 GRCh38에 아시아 특정 서열이 없음을 확인해준다 5. 구체적으로 지칭되는 변이체의 GRCh38의 대다수 (92.3 %)는 단일-뉴클레오티드 다형성 데이터베이스 (dbSNP) 39 (Supplementary Table 32)에서 발견된 반면, KOREF_C의 소위 변이체 (56.17 %)는 공지된 것으로 정의되었다. 반복적 및 부분적으로 복제된 영역의 변이체가 배제될 때, 구체적으로 변이 된 KOREF_C의 훨씬 더 큰 분율 (86.21 %)이 알려져 있었으며 (Supplementary Table 33), KOREF_C에서 발견된 새로운 변이체의 대부분은 반복성의 불완전성 및 부분적으로 복제된 영역에 의해 발생된 것으로 나타났다. 따라서, KOREF가 동일한 민족 게놈에 대해 효율적인 변이체 검출에 유리하지만, 유전자형을 올바르게 재구성하기 위해 더 긴 서열 판독을 사용하여 KOREF를 개선할 필요가 있다고 결론 내렸다.

또한, 주요 변이체 (KOREF_S 대 KOREF_C)를 참조하여 치환 후 확인된 변이체의 수가 민족성 차이가 훨씬 높았다 (KOREF_S 대 GRCh38; Fig. 3a,b). 또한 KOREF_S를 사용할 때 동아시아인의 동형 접합체 변이체 수는 GRCh38 (87.0 %의 동형 접합 SNV 및 77.9 %의 동형 접합성 인델이 남아 있음)에 비해 KOREF_S를 사용한 경우에 약간만 감소한 반면 KOREF_C를 사용할 때 크게 감소했다 (36.1 % 동형 접합 SNV 및 동형 접합 삽입의 44.5 %가 남았다). 반면 KOREF_S를 사용할 때 GRCh38을 사용할 때 보다 동아시아 지역이 아닌 동종 접합체 변이체의 수가 증가했다. 이러한 결과는 전체 게놈 변이 수준에서 집단 내 변이가 변이체 수 측면에서 집단 간 변이보다 높으며, 호모 사피엔스가 유전적으로 유의미한 변종이 없는 한 집단이라는 개념을 뒷받침한다.

민족별 참조 및 기능 마커

또한, 사용된 참조에 따라, 유전자 영역에서 상이한 수의 동의어가 아닌 SNV (nsSNV) 및 작은 인델이 발견됨을 발견하였다 (Supplementary Tables 34 and 35). 앞서 언급한 10 개의 동아시아 전체 게놈에서 GRCh38 대신 KOREF_C를 기준으로 사용했을 때 동형 접합 nsSNV (평균 3,644에서 1,280) 및 인델 (평균 95에서 40)의 수가 가장 감소했다. 반면 5 명의 백인 (3,467에서 2,098의 nSNV, 89에서 65의 델라) 및 5 명의 아프리카 인 (4,216에서 3,007의 nSNV, 134에서 109의 nSN)에서 더 작은 감소가 관찰되었다. KOREF_C를 참조로 사용했을 때 동형 접합 변이체에 의해 예측된 기능적으로 변형 된 (또는 손상된) 유전자 또한 동아시아인 사이에서 가장 크게 감소했다 (동아시아 인 평균 490 명에서 246 명, 백인 448 명에서 362 명, 아프리카 인 448에서 415; Supplementary Table 36). 특히, 10 개 동아시아 인에서 GRCh38에서만 발견되었지만 KOREF_C에서는 발견되지 않은 기능적으로 변형된 유전자는 여러 질병 용어 (심근 경색, 고혈압 및 질병에 대한 유전 적 소인)와 후각 및 맛 전달 경로가 풍부했다(Supplementary Tables 37 and 38). 또한, 질병 및 표현형 관련 변이체로 알려진 13 개의 nsSNV가 GRREF38에 대해 호출되었지만 KOREF_C는 아니다 (Supplementary Table 39). GRCh38과 KOREF_C 모두에 대한 짧은 판독 정렬을 수동으로 확인하여 이러한 유전자좌를 확인했다 (Supplementary Fig. 14).

토론

대규모 인구 게놈 프로젝트의 시대에 GRCh38과 함께 민족 별 기준 게놈을 활용하면 변이를 탐지하는 데 추가적인 이점을 얻을 수 있다. 이는 각 인종 그룹이 단일 뉴클레오티드 다형성 및 더 큰 구조적 편차를 포함하여 특정 변이 레퍼토리를 갖기 때문이다 6,40. 인구 계층화 (대립 유전자 빈도의 체계적인 차이)는 질병 관련 유전자좌가 아닌 개체군의 기본 구조로 인해 연관성이 발견 될 수 있는 연관 연구에 문제가 될 수 있다41. 신규 서열 및 카피 수 가변 영역과 같은 민족-특이 적 게놈 영역은 정확한 유전자형 재구성에 영향을 줄 수 있다. KOREF를 사용하여 카피 수 가변 영역에서 더 나은 유전자형 재구성의 예를 보여준다 (Supplementary Fig. 15). 따라서, 우리의 민족성 특정 참조 게놈 인 KOREF는 동아시아 인의 질병 관련 변이를 탐지하는 데 유용할 수 있다.

Sanger 시퀀싱을 기반으로 한 De novo 어셈블리는 여전히 너무 비싸서 일상적으로 사용할 수 없다. 우리는 최신 시퀀싱과 생물 정보학 방법을 결합하여 적은 비용으로 비교적 고품질의 De novo 어셈블리를 생산할 수 있음을 증명했다. 또한 광학 및 나노 기술이 초기 조립품의 유효성을 검사하면서 대형 스캐폴드의 크기를 확장할 수 있음을 보여주었다. 우리는 게놈 어셈블리를 기반으로 한 구조적 차이의 식별이 어셈블리 품질에 크게 영향을 받는다는 것을 발견했으며, 게놈 구조의 포괄적 인지도를 더 잘 이해하기 위해서는 다양한 집단의 추가 개인으로부터 새로운 기술과 높은 어셈블리 품질이 필요하다는 것을 시사했다. 또한 GRCh38의 동일한 좌표계를 통해 다른 개인을 비교하여 이전에 확립된 방대한 양의 지식과 주석을 활용할 수 있어야한다. 따라서 추가적인 생물학적 통찰력을 얻기 위해 GRCh38에 추가 참조를 우선적으로 보충하여 이러한 주석을 개인 또는 민족 참조 게놈으로 전달하는 방법을 조사하는 것이 중요하다. KOREF는 인간 기준을 대체할 수 없으며, 의도하지 않으며, 중심 영역 및 텔 로머 영역과 같은 일부 게놈 영역과 많은 간격이 크게 불완전하다. 그러나 KOREFs는 대규모 게놈 프로젝트를 위한 빠르고 효율적인 변이 호출 및 개별 및 민족 별 변이 탐지 측면에서 동아시아 개인 게놈의 정렬을 개선하는 데 여전히 유용할 수 있다.

연구방법

샘플 준비

이 연구에 참여한 모든 기증자들은 서면 동의서에 참여하기로 동의했으며, 게놈 연구 재단의 기관 검토위원회 (KOREF의 IRB-201307-1 및 IRB-201501-1 및 KOPG의 20101202-001)는 이 연구에 대한 승인을 제공했다. 유전자형, 서열 분석 및 맵핑 데이터에 사용된 게놈 DNA 및 RNA를 샘플 공여자의 말초 혈액으로부터 추출하였다. 우리는 16 명의 기증자가 특정 유전적 편향이 있는지 확인하기 위해 16 명의 한국 남성 참가자와 Infinium Omni1 쿼드 칩을 사용하여 유전자형 분석 실험을 수행했습니다. 이 연구에서는 Illumina HiSeq2000 / 2500을 사용하여 총 45 개의 한국 전체 게놈 (변이체 대체에 40 개, 변이체 비교에 5 개)을 사용했다. 16 명의 공여자와의 비교를 위해, KPGP로부터의 34 개의 한국 전장게놈 서열 및 86 개의 일본인, 84 명의 중국인, 112 명의 백인 및 113 명의 아프리카 인이 HAPMAP 3 단계의 유전자형 데이터를 사용하였다. PLINK42, 90,462 및 72,578 공유 뉴클레오티드 위치를 사용하여 MAF (<5 %), 유전자형 분석 속도 (<1 %) 및 LD (R2≤0.2)를 필터링 한 후 3 개의 인종 그룹 (동아시아 인, 백인)에 대한 유전 적 거리를 계산하는 데 사용했다. 아프리카 인)과 동아시아 그룹 (한국인, 중국인 및 일본인)이 각각 3명이다. B-cell line으로 변형된 Epstein–Barr virus (EBV) 세포주는 KOREF_S 기증자의 혈액43으로부터 약간의 수정(modification)과 함께 구축되었다. 요약하면, 말초 혈액 단핵 세포를 Ficoll-Paque Plus (GE Healthcare, UK) 밀도 구배 원심 분리에 의해 정제하였다. EBV 감염의 경우, 세포를 EBV 생산자 세포주 B95-8로부터 소비된 상청액과 함께 1 시간 동안 예비 배양 한 후, 10-20 % 태아 소 혈청, 2mM · L- 글루타민, 100μU를 함유하는 RPMI-1640에서 배양하였다. ml-1 페니실린, 0.1mg / ml-1 스트렙토 마이신, 0.25μg / ml-1 암포 테리 신 B (모두 미국 뉴욕 그랜드 아일랜드 소재의 Gibco). EBV- 변형된 B- 세포를 4 × 105-1 × 106 세포 ml-1의 농도로 유지하고 필요에 따라 확장시켰다.

게놈 시퀀싱 및 스캐 폴드 어셈블리

KOREF_S의 드노보 어셈블리를 위해, 다양한 인서트 크기 (170 bp, 500 bp, 700 bp, 2 Kb, 5 Kb, 10 Kb, 15 Kb 및 20 Kb)를 가진 24 개의 DNA 라이브러리 (각 인서트 크기 당 3 개의 라이브러리)가 구축되었다. Illumina 샘플 준비 프로토콜에 따라. 판독 길이가 100 bp 인 HiSeq2500 (3 개의 20 라이브러리) 및 HiSeq2000 (기타)을 사용하여 라이브러리를 시퀀싱했다. 이중 복제된 PCR, 오염된 시퀀싱 및 접합 어댑터와 품질이 낮은 (<Q20) 판독 값이 필터링되어 높은 정확도의 판독 값만 남아 한국인 게놈을 어셈블리했다. 또한 짧은 인서트 크기 및 긴 인서트 크기 판독 값을 각각 90 bp 및 49 bp로 트리밍하여 양쪽 끝의 poly-A tail 및 저품질 시퀀스를 제거했다. 짧은 인서트 크기 라이브러리 (<1Kb)로부터 K-mer 분석에 의한 오류 정정된 판독 쌍은 SOAPdenovo2를 사용하여 K-mer 정보에 기초하여 별개의 컨티그로 조립되었다 (참조 30). 그런 다음 모든 라이브러리의 읽기 쌍을 사용하여 -F 옵션 (스캐 폴드의 간격 채우기)을 사용하여 기본 옵션을 사용하여 SOAPdenovo2의 scaff 명령을 사용하여 짧은 삽입 크기에서 긴 삽입 크기 라이브러리까지 단계적으로 스캐폴드로 콘티그를 연결했다. 가장 긴 N50 길이의 스캐폴드를 얻기 위해 다양한 K-mer 값 (29, 39, 49, 55, 59, 63, 69, 75 및 79)으로 한국 게놈 (KOREF_S)을 조립하고 마지막으로 K에서 파생 된 어셈블리를 선택했다. 가장 긴 contig N50 길이를 갖는 = 55. 스캐폴드의 간격을 줄이기 위해 짧은 인서트 크기 판독 값을 상호 반복적으로 사용하여 간격을 두 번 닫았다.

슈퍼 스캐 폴드 어셈블리

우리는 전체 게놈 광학 매핑 데이터를 사용하여 KOREF_S의 제한 맵을 생성하고 스캐 폴드를 18개의 수퍼 스캐 폴드로 조립한다. 먼저, 13 개의 제한 효소가 한국 게놈 초안 어셈블리와의 호환성에 대해 평가되었으며, SpeI 효소는 한국 게놈 분석에 적합한 것으로 간주되었다. 고 분자량 DNA를 추출하고 67 개의 고밀도 MapCard에서 4,217,937 개의 단일 분자 제한 맵 (과잉시 각 맵 카드의 62,954 분자)을 생성했다. 그 중에서, 평균 크기가 ~ 360 Kb 인 250 Kb를 초과하는 2,071,951 분자가 게놈 어셈블리를 위해 수집되었다. OpGen18의 Genome Builder 생물 정보학 도구를 사용하여 광학 매핑 데이터를 스캐 폴드와 비교했다. 스캐 폴드에서 제한 효소 부위 사이의 거리는 광학 맵에서 광학 단편의 길이와 매칭되었고, 매칭 된 영역은 슈퍼-스캐 폴드에 연결되었다. 이 단계에서는 200Kb를 초과하는 스캐 폴드만 사용되었다. 또한 KOREF_S 빌딩에 대해 PacBio Long Read 및 TSLR의 두 가지 유형의 Long Read를 생성했다. PacBio 긴 판독은 Pacific Biosciences RSII 기기 (P4C2 화학, 78 SMRT 세포; P5C3 화학 및 51 SMRT 세포)를 사용하여 생성되었으며, TSLR은 Illumina HiSeq2500에 의해 시퀀싱되었다. 긴 읽기는 기본 옵션과 함께 PBJelly2 프로그램44를 사용하여 추가 스캐 폴딩 및 갭 폐쇄 프로세스에서 동시에 사용되었다.

조립 평가 및 염색체 구축

스캐 폴드의 대규모 평가를 위해 5 개의 irysChip에서 나노 채널 기반 게놈 매핑 데이터 (150 Kb를 초과하는 단일 분자 맵의 ~ 145∼Gb)를 생성하고 BioNano Genomics Irys를 사용하여 매핑 데이터를 2.8 Gb의 합의 게놈 맵으로 조립했다. 게놈 매핑 시스템. 컨센서스 게놈 맵을 irysView 소프트웨어 패키지 21 (버전 2.2.1.8025)을 사용하여 KOREF_S 스캐 폴드 및 GRCh38과 비교했다. KOREF_S 스캐 폴드에서 잘못 조립 된 부분을 자세히 확인하기 위해 컨센서스 게놈 맵의 정렬 결과를 KOREF_S 스캐 폴드 및 인간 참조에 수동으로 확인했다. 더 작은 분해능 평가를 위해 BWA-MEM45 (버전 0.7.8)를 기본 옵션으로 사용하여 필터링 된 모든 단문 및 장문 판독을 스캐 폴드에 정렬했다. 우리는 염색체 간 또는 염색체 내 재 배열을 탐지하기 위해 기본 비교 매개 변수 (매핑 된 앵커 수 ≥7)가있는 SyMap46을 사용하여 KOREF_S 스캐 폴드 (≥10 Kb)와 인간 기준 (소프트 반복 마스크) 사이에 전체 게놈 정렬을 수행했다. 전체 게놈 정렬 결과를 모두 수동으로 확인했다.
 

KOREF_S의 염색체 서열을 구축하기 위해, 먼저 최종 스캐 폴드 (≥10 Kb)의 전체 게놈 정렬 정보 (염색체 위치 및 순서 정보)를 GRCh38 염색체에 사용했다. 그런 다음 매핑되지 않은 스캐 폴드를 매핑 된 앵커 번호 ≥4 옵션을 사용하여 GRCh38 염색체에 다시 정렬했다. BLASR47을 사용하여 작은 길이의 스캐 폴드 (200 bp 내지 10 Kb)를 GRCh38 염색체에 정렬하고, 맵핑 품질 = 254 인 정렬 만 사용 하였다. 이 염색체 구축 과정에 사용되지 않은 스캐 폴드 (총 88.3Mb 서열)는 배치되지 않은 염색체 (chrUn)에 위치했다. 정렬 된 스캐 폴드 사이의 갭은 인간 참조 서열의 길이 정보에 기초하여 추정되었다. 일부 스캐 폴드 위치가 겹쳐지면 스캐 폴드 사이의 간격 크기로 10이 사용된다. 우리는 GRCh38에서와 같이 KOREF_S 염색체 서열의 양쪽에 텔 로머 영역으로 10 Kb 간격을 추가했다. KOREF_S의 미토콘드리아 서열을 Nextera XT 샘플 준비 키트를 사용하여 독립적으로 시퀀싱 한 다음 K = 64 인 ABySS (참조 48) (버전 1.5.1)를 사용하여 조립 하였다. Mitochondrial DNA의 Haplogroup은 MitoTool를 사용하여 할당되었다49.

KPGP 데이터베이스로부터의 40 개의 한국어 전체 게놈 서열을 기본 옵션과 함께 BWA-MEM을 사용하여 KOREF_S 염색체에 정렬하여 KOREF_S의 개별-특이적 서열 편향을 제거하고 KOREF_C를 생성 하였다. 40 명의 한국인의 SNV와 소규모 인델은 게놈 분석 툴킷 (GATK, 버전 2.3.9) 50을 사용하여 해석되었다. 매핑 품질을 향상시키기 위해 IndelRealigner를 수행했으며, GATK의 TableRecalibration 알고리즘을 사용하여 기본 품질 점수를 다시 보정했다. 40 개의 한국 게놈에서 흔히 발견되는 변이체가 KOREF_S 서열을 대체하기 위해 사용되었다. SNV 치환의 경우, 각 위치의 대립 유전자 비율을 계산 한 다음 KOREF_S 서열과 가장 빈번한 대립 유전자가 다른 경우에만 KOREF_S 서열을 가장 빈번한 대립 유전자로 대치했다. indel 대체를 위해, 우리는 40 개의 한국 전체 게놈 (80 haploid) 중 40 개가 넘는 haploid에서 발견 된 indel만을 사용했다. 성 염색체의 경우, Y 염색체에는 25 개의 수컷 (25 haploids) 전체 게놈을, X 염색체 비교에는 15 개의 암컷 전체 게놈 (30 haploid)을 사용했다.

게놈 주석KOREF_C는 반복적 인 요소 및 단백질 코딩 유전자에 대해 주석을 달았다. 반복 요소 주석의 경우 Tandem Repeats Finder (버전 4.07) 51, Repbase (버전 19.02) 52, RepeatMasker (버전 4.0.5) 53 및 RepeatModeler (버전 1.0.7) 54를 사용하여 KOREF_C에서 탠덤 반복 및 트랜스 포저블 요소를 검색했다. 단백질-코딩 유전자 예측을 위해, 동일성 95 기준을 갖는 Megablast55를 사용하여 KOREF_C에 대해 Ensembl 데이터베이스 79에서 단백질-코딩 유전자의 뉴클레오티드를 검색함으로써 상 동성-기반 유전자 예측을 먼저 수행 하였다. 일치 된 서열은 KOREF_C에서의 위치에 기초하여 클러스터링되었고, 유전자 모델은 엑손 레이트 소프트웨어 56 (버전 2.2.0)를 사용하여 예측되었다. 우리는 또한 드 노보 유전자 예측을 수행했다. 예측 된 유전자의 발현을 증명하기 위해, TruSeq RNA 샘플 준비 키트 (v2) 및 HiSeq2500을 사용하여 KOREF_S 샘플의 3 가지 상이한 타임 라인 전체 전사체 데이터를 시퀀싱 하였다. 우리는 AUGUSTUS57 (버전 3.0.3)을 사용하여 통합 된 전 사체 데이터를 갖는 단백질-코딩 유전자를 예측 하였다. 우리는 50 개의 아미노산보다 짧은 유전자와 정지 코돈을 갖는 가능한 유사 유전자를 걸러 냈다. 우리는 NCBI에서 영장류 (인간, 보노보, 침팬지, 고릴라 및 오랑우탄) 단백질 서열에 대해 드 노보 예측 유전자를 검색하고 정체성과 범위가 50 % 미만인 경우 드 노보 예측 유전자를 걸러 냈다. 어셈블리 품질 비교를 위해 RefSeq (참조 32) 인간 단백질 코딩 유전자 및 반복 요소에 대한 상동성 기반 검색만 사용했다. DupMasker programme58을 사용하여 상 동성 기반의 세그먼트 중복 영역 검색을 수행하였다. 휴먼 어셈블리의 GRCh38 게놈 복구 속도를 계산하기 위해 LASTZ59 (버전 1.03.54) 및 Kent 유틸리티 (Jim Kent가 작성 함)를 사용하여 각 어셈블리 (KOREF_S 최종 콘티 그, KOREF_S 최종 스캐 폴드 및 기타 어셈블리)와 GRCh38 간의 전체 게놈 정렬을 수행했다. GRCh38자가 정렬 옵션이있는 UCSC 60) (-단계 19 --hspthresh 3000 --gappedthresh 3000 --seed = 12of19 --minScore 3000 --linearGap 매체). MAF 파일을 생성 한 후 mafTools61에서 mafPairCoverage를 사용하여 게놈 복구 속도를 계산했다.

새로운 KOREF_C 시퀀스의 양을 추정하기 위해 기본 옵션과 함께 BWA-MEM을 사용하여 짧은 인서트 크기와 긴 메이트 쌍 라이브러리 시퀀스를 GRCh38에 정렬 한 다음 SAMtools62 (버전 0.1.19) 및 Picard (버전 1.114, http를 사용하여 매핑되지 않은 읽기를 추출했다. : //picard.sourceforge.net) 프로그램. BLAST를 기본 옵션으로 사용하여 박테리아 게놈 및 곰팡이 게놈의 Ensembl 데이터베이스를 검색하여 가능한 미생물 오염을 걸러 냈다. 나머지 판독은 기본 옵션과 함께 BWA-MEM을 사용하여 순차적으로 다른 인간 게놈 어셈블리 (CHM1_1.1, HuRef, African, Mongolian 및 YH)에 정렬 된 다음 Picard의 MarkDuplicate 프로그램을 사용하여 중복 된 판독을 제거했다. u -f 4 옵션과 함께 SAMtools view 명령을 사용하여 정렬 결과를 매핑되지 않은 BAM 파일로 추출했다. Picard의 SamToFastq 프로그램을 사용하여 매핑되지 않은 BAM 파일에서 매핑되지 않은 최종 해독을 추출했다. 마지막으로, 다른 인간 게놈 어셈블리에 대한 매핑되지 않은 판독 값이 KOREF_C에 정렬되었다. 길이가 100 bp 이상이고 매핑되지 않은 판독 값이 3 회 이상인 영역은 KOREF_C에서 새로운 것으로 간주된다.

변이체와 게놈 비교

1KGP, HGDP 및 PAPGI 프로젝트에서 총 15 개의 전체 게놈 재시퀀싱 데이터 결과 (백인 5 명, 아프리카 5 명, 동아시아 5 명)가 다운로드되었다. 재시퀀싱 데이터 (백인 5 명, 아프리카 인 5 명, 동아시아 인 5 명 및 KPGP 출신 5 명)를 필터링 한 다음(Q20 기준 및 PCR 중복 판독 값으로 낮은 품질) 필터링되지 않은 스캐 폴드인 GRCh38 및 GRCh38_C로 기본 옵션과 함께 BWA-MEM을 사용하여 KOREF (KOREF_S 및 KOREF_C)에 매핑했다. GRCh38_C 염색체 생성하기 위해, 동아시아 인의 공통 변이체 (2,043,259 SNV 및 197,885 작은 indel)를 1KGP 데이터베이스에서 수집하여 GRCh38 서열을 대체하는 데 사용했다. 불일치하고 부분적으로 조립 된 반복 영역에서 변이체를 배제하기 위해 변이체 (SNV 및 작은 삽입-결실)는 GATK를 사용하여 염색체 서열에 대해서만 해독되었다. SnpEff63을 사용하여 변이체에 이름을 붙이고, 생물학적 기능 변경은 PROVEAN64를 사용하여 예측되었다. 우리는 기능이 변경됨에 따라 정지 코돈 변경 및 프레임 시프트 삽입을 유발하는 모든 nsSNV를 고려했다. WebGestalt65 및 ClinVar66을 사용하여 농축 테스트 및 변형 주석을 수행했다. 변형을 dbSNP39 (버전 144)와 비교하여 알려진 변형 정보에 이름을 붙였다.

인간 게놈 어셈블리 중 SV를 검출하기 위해 LASTZ를 사용하여 각 어셈블리와 GRCh38 사이에 전체 게놈 정렬을 수행했다. 그런 다음 SOAPsv 패키지를 사용하는 동적 프로그래밍 알고리즘을 기반으로 전체 게놈 정렬 결과를 수정하고 다시 정렬했다. 어셈블리에서 각 SV 영역에 대한 S / P 비율과 GRCh38을 비교하여 가능한 오 조립에서 파생 될 수있는 SV를 필터링했다. 실제 SV는 충분한 페어 드 엔드 읽기로 처리되는 반면, 가짜 SV는 잘못 매핑 된 단일 엔드 읽기로 처리됩니다. SOAPsv 패키지의 S / P 비율 필터링 단계는 SOAPdenovo에 의해 조립 된 시퀀스에 대해서만 설계 되었기 때문에 이전에 발표 된 알고리즘 35에 따라 S / P 비율 필터링 시스템을 구현했다. 피셔의 정확한 테스트를 수행하여 각 SV의 S / P 비율과 전체 게놈의 S / P 비율이 유의하게 다른지 여부를 테스트하여 P 값을 계산했다 (P value <0.001). 우리는 GRREF38과 KOREF_C에 대한 KOREF_S short and long read의 매핑 상태를 점검함으로써 일반적으로 공유된 SV가 잘못된 조립으로 인한 것이 아님을 확인했다. CHM1의 PacBio SMRT 판독 값을 인간 기준 게놈에 매핑함으로써 SV는 발간 된 논문에서 GRCh37에 대해 발견 된 리프트 오버 SV 결과에 의해 도출되었다 15. 다른 게놈 어셈블리와 사용 가능한 데이터베이스의 SV를 비교할 때 SV가 상호 적으로 50 % 적용되고 동일한 SV 유형을 갖는 경우 SV가 동일한 것으로 간주했다. 신규 SV는 dbVar, 게놈 변이체 데이터베이스 (DGV) 67, 역 트랜스 포손 삽입 다형성 데이터베이스 (dbRIP) 68, dbSNP146, Mills69 및 1000 게놈 3 상 데이터베이스에서 발견되지 않은 것으로 결정되었다.

데이터 가용성

한국 참조 게놈 프로젝트는 LWKW00000000 가입으로 DDBJ / ENA / GenBank에 기탁되었다. 이 백서에 설명 된 버전은 LWKW01000000이다. KOREF 및 KPGP에 대한 원시 DNA 및 RNA 서열 판독이 NCBI 서열 판독 아카이브 데이터베이스 (SRA292482, SRA268892)에 제출되었다. KOREF의 불멸화 세포주는 한국 세포주 은행 (KCLB, # 60211)에 기탁되었다. 다른 모든 데이터는 합리적인 요청에 따라 저자로부터 얻을 수 있다. 향후 모든 KOREF 업데이트는 www.koreanreference.org에서 제공 될 예정이다.

추가 정보

 이 기사를 인용하는 방법 : Cho, Y. S. et al. 민족적으로 적절한 컨센서스 한국 참조 게놈은 개인 참조 게놈을 향한 발걸음이다. Nat. 코뮌. 7, 13637 doi : 10.1038 / ncomms13637 (2016).

발행인 참고 사항 : Springer Nature는 게시된 지도 및 기관 소속의 관할권 주장과 관련하여 중립을 유지한다.

 

  • 2017 년 10 월 9 일이 기사의 원본 버전에는 해당 저자 George Church의 이메일 주소에 오류가 포함되어 있다. 올바른 이메일은 gchurch@genetics.med.harvard.edu이다. 기사의 HTML 및 PDF 버전에서 오류가 수정되었다.

​참조

Reich D. et al. . Reduced neutrophil count in people of African descent is due to a regulatory variant in the Duffy antigen receptor for chemokines gene. PLoS Genet. 5, e1000360 (2009). - PMC - PubMed

Green R. E. et al. . A draft sequence of the Neandertal genome. Science 328, 710–722 (2010). - PMC - PubMed

Sheehan S., Harris K. & Song Y. S. Estimating variable effective population sizes from multiple genomes: a sequentially markov conditional sampling distribution approach. Genetics 194, 647–662 (2013). - PMC - PubMed

Schiffels S. & Durbin R. Inferring human population size and separation history from multiple genome sequences. Nat. Genet. 46, 919–925 (2014). - PMC - PubMed

Dewey F. E. et al. . Phased whole-genome genetic risk in a family quartet using a major allele reference sequence. PLoS Genet. 7, e1002280 (2011). - PMC - PubMed
.
.

See all 69 refernences (https://pubmed.ncbi.nlm.nih.gov/27882922/)

 

​감사의 말

This work was supported by the Ministry of Trade, Industry & Energy (MOTIE, Korea) under Industrial Technology Innovation Programs (‘Pilot study of building of Korean Reference Standard Genome map’, No.10046043; ‘Developing Korean Reference Genome’, No.10050164; and ‘National Center for Standard Reference Data’, No.10063239) and Industrial Strategic Technology Development Program (‘Bioinformatics platform development for next-generation bioinformation analysis’, No.10040231). This work was also supported by the Korea Research Institute of Bioscience and Biotechnology (KRIBB) under ‘Bioinformatics pipeline construction for de novo assembly’ programme. We thank KRIBB people, especially Drs Woonbong Kim and Kyu-Tae Chang. This work was also supported by ‘Software Convergence Technology Development Program’ through the Ministry of Science, ICT and Future Planning (S0177-16-1046). This work was also supported by the Reference genome building and application for large scale population genomics Research Fund (1.160003.01) of Ulsan National Institute of Science & Technology (UNIST). This work was also supported by the Ulsan city’s Genome Korea Project. This work was also supported by the Research Fund (14-BR-SS-03) of Civil-Military Technology Cooperation Program. Part of KPGP was supported by KT (Korea Telecom) Personal Genome Project grant. Korea Institute of Science and Technology Information (KISTI) provided us with Korea Research Environment Open NETwork (KREONET) which is the internet connection service for efficient information and data transfer. We thank Mr Jinup Goh of TheragenEtex for support. We thank INSPUR Co., Ltd., and BIT Co., Ltd. for their technical support. We thank Maryana Bhak for editing.