Difference between revisions of "KoVariome: Korean National Standard Reference Variome database of whole genomes with comprehensive SNV, indel, CNV, and SV analyses."

From kogic.kr
(Created page with " [https://www.ncbi.nlm.nih.gov/pubmed/?term=Kim%20J[Author]&cauthor=true&cauthor_uid=29618732 Jungeun Kim],<sup>#</sup><sup>1</sup> [https://www.ncbi.nlm.nih.gov/pubmed/?...")
 
m
 
Line 1: Line 1:
  
[https://www.ncbi.nlm.nih.gov/pubmed/?term=Kim%20J[Author]&cauthor=true&cauthor_uid=29618732 Jungeun Kim],<sup>#</sup><sup>1</sup>&nbsp;[https://www.ncbi.nlm.nih.gov/pubmed/?term=Weber%20JA[Author]&cauthor=true&cauthor_uid=29618732 Jessica A. Weber],<sup>#</sup><sup>2</sup>&nbsp;[https://www.ncbi.nlm.nih.gov/pubmed/?term=Jho%20S[Author]&cauthor=true&cauthor_uid=29618732 Sungwoong Jho],<sup>#</sup><sup>1</sup>&nbsp;[https://www.ncbi.nlm.nih.gov/pubmed/?term=Jang%20J[Author]&cauthor=true&cauthor_uid=29618732 Jinho Jang],<sup>3,</sup><sup>4</sup>&nbsp;[https://www.ncbi.nlm.nih.gov/pubmed/?term=Jun%20J[Author]&cauthor=true&cauthor_uid=29618732 JeHoon Jun],<sup>1,</sup><sup>5</sup>&nbsp;[https://www.ncbi.nlm.nih.gov/pubmed/?term=Cho%20YS[Author]&cauthor=true&cauthor_uid=29618732 Yun Sung Cho],<sup>5</sup>&nbsp;[https://www.ncbi.nlm.nih.gov/pubmed/?term=Kim%20HM[Author]&cauthor=true&cauthor_uid=29618732 Hak-Min Kim],<sup>3,</sup><sup>4</sup>&nbsp;[https://www.ncbi.nlm.nih.gov/pubmed/?term=Kim%20H[Author]&cauthor=true&cauthor_uid=29618732 Hyunho Kim],<sup>5</sup>&nbsp;[https://www.ncbi.nlm.nih.gov/pubmed/?term=Kim%20Y[Author]&cauthor=true&cauthor_uid=29618732 Yumi Kim],<sup>5</sup>&nbsp;[https://www.ncbi.nlm.nih.gov/pubmed/?term=Chung%20O[Author]&cauthor=true&cauthor_uid=29618732 OkSung Chung],<sup>1,</sup><sup>5</sup>&nbsp;[https://www.ncbi.nlm.nih.gov/pubmed/?term=Kim%20CG[Author]&cauthor=true&cauthor_uid=29618732 Chang Geun Kim],<sup>6</sup>&nbsp;[https://www.ncbi.nlm.nih.gov/pubmed/?term=Lee%20H[Author]&cauthor=true&cauthor_uid=29618732 HyeJin Lee],<sup>1</sup>&nbsp;[https://www.ncbi.nlm.nih.gov/pubmed/?term=Kim%20BC[Author]&cauthor=true&cauthor_uid=29618732 Byung Chul Kim],<sup>7</sup>&nbsp;[https://www.ncbi.nlm.nih.gov/pubmed/?term=Han%20K[Author]&cauthor=true&cauthor_uid=29618732 Kyudong Han],<sup>8</sup>&nbsp;[https://www.ncbi.nlm.nih.gov/pubmed/?term=Koh%20I[Author]&cauthor=true&cauthor_uid=29618732 InSong Koh],<sup>9</sup>&nbsp;[https://www.ncbi.nlm.nih.gov/pubmed/?term=Chae%20KS[Author]&cauthor=true&cauthor_uid=29618732 Kyun Shik Chae],<sup>6</sup>&nbsp;[https://www.ncbi.nlm.nih.gov/pubmed/?term=Lee%20S[Author]&cauthor=true&cauthor_uid=29618732 Semin Lee],<sup>3,</sup><sup>4</sup>&nbsp;[https://www.ncbi.nlm.nih.gov/pubmed/?term=Edwards%20JS[Author]&cauthor=true&cauthor_uid=29618732 Jeremy S. Edwards],<sup><img style="null" src=https://www.ncbi.nlm.nih.gov/corehtml/pmc/pmcgifs/corrauth.gif></sup><sup>10</sup>&nbsp;and&nbsp;[https://www.ncbi.nlm.nih.gov/pubmed/?term=Bhak%20J[Author]&cauthor=true&cauthor_uid=29618732 Jong Bhak]<sup><img style="null" src=https://www.ncbi.nlm.nih.gov/corehtml/pmc/pmcgifs/corrauth.gif></sup><sup>1,</sup><sup>3,</sup><sup>4,</sup><sup>5</sup>
+
[https://www.ncbi.nlm.nih.gov/pubmed/?term=Kim%20J [Author]&cauthor=true&cauthor_uid=29618732 Jungeun Kim],<sup>#</sup><sup>1</sup>&nbsp;[https://www.ncbi.nlm.nih.gov/pubmed/?term=Weber%20JA [Author]&cauthor=true&cauthor_uid=29618732 Jessica A. Weber],<sup>#</sup><sup>2</sup>&nbsp;[https://www.ncbi.nlm.nih.gov/pubmed/?term=Jho%20S [Author]&cauthor=true&cauthor_uid=29618732 Sungwoong Jho],<sup>#</sup><sup>1</sup>&nbsp;[https://www.ncbi.nlm.nih.gov/pubmed/?term=Jang%20J [Author]&cauthor=true&cauthor_uid=29618732 Jinho Jang],<sup>3,</sup><sup>4</sup>&nbsp;[https://www.ncbi.nlm.nih.gov/pubmed/?term=Jun%20J [Author]&cauthor=true&cauthor_uid=29618732 JeHoon Jun],<sup>1,</sup><sup>5</sup>&nbsp;[https://www.ncbi.nlm.nih.gov/pubmed/?term=Cho%20YS [Author]&cauthor=true&cauthor_uid=29618732 Yun Sung Cho],<sup>5</sup>&nbsp;[https://www.ncbi.nlm.nih.gov/pubmed/?term=Kim%20HM [Author]&cauthor=true&cauthor_uid=29618732 Hak-Min Kim],<sup>3,</sup><sup>4</sup>&nbsp;[https://www.ncbi.nlm.nih.gov/pubmed/?term=Kim%20H [Author]&cauthor=true&cauthor_uid=29618732 Hyunho Kim],<sup>5</sup>&nbsp;[https://www.ncbi.nlm.nih.gov/pubmed/?term=Kim%20Y [Author]&cauthor=true&cauthor_uid=29618732 Yumi Kim],<sup>5</sup>&nbsp;[https://www.ncbi.nlm.nih.gov/pubmed/?term=Chung%20O [Author]&cauthor=true&cauthor_uid=29618732 OkSung Chung],<sup>1,</sup><sup>5</sup>&nbsp;[https://www.ncbi.nlm.nih.gov/pubmed/?term=Kim%20CG [Author]&cauthor=true&cauthor_uid=29618732 Chang Geun Kim],<sup>6</sup>&nbsp;[https://www.ncbi.nlm.nih.gov/pubmed/?term=Lee%20H [Author]&cauthor=true&cauthor_uid=29618732 HyeJin Lee],<sup>1</sup>&nbsp;[https://www.ncbi.nlm.nih.gov/pubmed/?term=Kim%20BC [Author]&cauthor=true&cauthor_uid=29618732 Byung Chul Kim],<sup>7</sup>&nbsp;[https://www.ncbi.nlm.nih.gov/pubmed/?term=Han%20K [Author]&cauthor=true&cauthor_uid=29618732 Kyudong Han],<sup>8</sup>&nbsp;[https://www.ncbi.nlm.nih.gov/pubmed/?term=Koh%20I [Author]&cauthor=true&cauthor_uid=29618732 InSong Koh],<sup>9</sup>&nbsp;[https://www.ncbi.nlm.nih.gov/pubmed/?term=Chae%20KS [Author]&cauthor=true&cauthor_uid=29618732 Kyun Shik Chae],<sup>6</sup>&nbsp;[https://www.ncbi.nlm.nih.gov/pubmed/?term=Lee%20S [Author]&cauthor=true&cauthor_uid=29618732 Semin Lee],<sup>3,</sup><sup>4</sup>&nbsp;[https://www.ncbi.nlm.nih.gov/pubmed/?term=Edwards%20JS [Author]&cauthor=true&cauthor_uid=29618732 Jeremy S. Edwards],<sup><img style="null" src=https://www.ncbi.nlm.nih.gov/corehtml/pmc/pmcgifs/corrauth.gif></sup><sup>10</sup>&nbsp;and&nbsp;[https://www.ncbi.nlm.nih.gov/pubmed/?term=Bhak%20J [Author]&cauthor=true&cauthor_uid=29618732 Jong Bhak]<sup><img style="null" src=https://www.ncbi.nlm.nih.gov/corehtml/pmc/pmcgifs/corrauth.gif></sup><sup>1,</sup><sup>3,</sup><sup>4,</sup><sup>5</sup>
  
 
== Contents ==
 
== Contents ==
&nbsp;[[[KoVariome:hide, indel, CNV, and SV analyses.|hide]]]&nbsp;  
+
 
 +
&nbsp;[[[KoVariome:hide, indel, CNV, and SV analyses.|hide]]]&nbsp;
 +
 
 
*[http://in.kogic.kr/KoVariome:_Korean_National_Standard_Reference_Variome_database_of_whole_genomes_with_comprehensive_SNV,_indel,_CNV,_and_SV_analyses.#.EC.B4.88.EB.A1.9D 1초록]  
 
*[http://in.kogic.kr/KoVariome:_Korean_National_Standard_Reference_Variome_database_of_whole_genomes_with_comprehensive_SNV,_indel,_CNV,_and_SV_analyses.#.EC.B4.88.EB.A1.9D 1초록]  
 
*[http://in.kogic.kr/KoVariome:_Korean_National_Standard_Reference_Variome_database_of_whole_genomes_with_comprehensive_SNV,_indel,_CNV,_and_SV_analyses.#.EC.84.9C.EB.A1.A0 2서론]  
 
*[http://in.kogic.kr/KoVariome:_Korean_National_Standard_Reference_Variome_database_of_whole_genomes_with_comprehensive_SNV,_indel,_CNV,_and_SV_analyses.#.EC.84.9C.EB.A1.A0 2서론]  
Line 115: Line 117:
 
'''Figure 1'''
 
'''Figure 1'''
  
 
+
<img style="null" src=http://in.kogic.kr/images/b/bc/Fig1.jpg>
  
 
KPGP 변이 현황은&nbsp; 친족 관계가 아닌 50명을 대상으로 분석한 결과다. &nbsp;
 
KPGP 변이 현황은&nbsp; 친족 관계가 아닌 50명을 대상으로 분석한 결과다. &nbsp;
Line 135: Line 137:
 
'''Figure 2'''
 
'''Figure 2'''
  
 
+
<img style="null" src=http://in.kogic.kr/images/6/63/Fig2.jpg>
  
 
KoVariome의 유전적 특징. (A) KoVariome의 2차원 분류. 1000GP 데이터에서 관측된 SNV와 인델은 minor allele frequencies (MAF); ’1000GP Common’: MAF >=5% in all five continents, ‘1000GP Low frequency’: MAF>=0.1% in any continent, and ‘1000GP Rare’; MAF < 0.1% in all five continents 기준으로 분류되었다. 5개의 대륙 인구는 아프리카(AFR), 유럽(EUR), 아메리카 원주민(AMR), 남아시아(SAS), 동아시아(EAS)를 포함했다. 두 번째 그룹은 KoVariome의 변이 수, 즉 'Frequency in KoVariome'(>=3)과 'Rare in KoVariome'(<3)으로 분류되었다. (B) 벤 다이어그램은 SNV(왼쪽)와&nbsp; indel(오른쪽) 모두에 대해 특정 대륙에서 농축된 변이(variants enriched)의 수를 나타낸다. enrichment은 dds ratio > 3 and p-value < 0.05 근거한 Fisher’s exact test 의해 분석되었다. 한국 인구 중 enriched variants의 총 수는 벤 다이어그램의 하얀색 공간에 표시된다. 대륙 인구 약자 옆에 있는 숫자는 해당 1000GP 대륙 그룹의 총 enriched variants 수를 나타낸다. 각 타원 내의 숫자는 KOR와 특정 대륙에서 농축(enriched )된 변이의 수(왼쪽)와 대표 대륙에서 독점적으로 농축된 변이의 수(오른쪽)를 나타낸다. (C) 각 게놈 영역에서 관측된 Rare variant ratios (RVRs)은 다음과 같다. RVR은 희귀한 변형의 수를 KoVariome의 frequent variants의 수로 나누어 계산하였다.
 
KoVariome의 유전적 특징. (A) KoVariome의 2차원 분류. 1000GP 데이터에서 관측된 SNV와 인델은 minor allele frequencies (MAF); ’1000GP Common’: MAF >=5% in all five continents, ‘1000GP Low frequency’: MAF>=0.1% in any continent, and ‘1000GP Rare’; MAF < 0.1% in all five continents 기준으로 분류되었다. 5개의 대륙 인구는 아프리카(AFR), 유럽(EUR), 아메리카 원주민(AMR), 남아시아(SAS), 동아시아(EAS)를 포함했다. 두 번째 그룹은 KoVariome의 변이 수, 즉 'Frequency in KoVariome'(>=3)과 'Rare in KoVariome'(<3)으로 분류되었다. (B) 벤 다이어그램은 SNV(왼쪽)와&nbsp; indel(오른쪽) 모두에 대해 특정 대륙에서 농축된 변이(variants enriched)의 수를 나타낸다. enrichment은 dds ratio > 3 and p-value < 0.05 근거한 Fisher’s exact test 의해 분석되었다. 한국 인구 중 enriched variants의 총 수는 벤 다이어그램의 하얀색 공간에 표시된다. 대륙 인구 약자 옆에 있는 숫자는 해당 1000GP 대륙 그룹의 총 enriched variants 수를 나타낸다. 각 타원 내의 숫자는 KOR와 특정 대륙에서 농축(enriched )된 변이의 수(왼쪽)와 대표 대륙에서 독점적으로 농축된 변이의 수(오른쪽)를 나타낸다. (C) 각 게놈 영역에서 관측된 Rare variant ratios (RVRs)은 다음과 같다. RVR은 희귀한 변형의 수를 KoVariome의 frequent variants의 수로 나누어 계산하였다.
Line 147: Line 149:
 
'''Table 2'''
 
'''Table 2'''
  
'''ClinVar annotation of the KoVariome frequent SNVs.'''
+
'''ClinVar annotation of the KoVariome frequent SNVs.''' <thead> </thead>
<thead> </thead>  
+
 
 
{|
 
{|
 
|-
 
|-
Line 256: Line 258:
 
'''Figure 3'''
 
'''Figure 3'''
  
 
+
<img style="null" src=http://in.kogic.kr/images/8/82/Fig3.jpg>
  
 
Individual variants describing functional effects. (A) 1000GP 및 KoVariome의 frequency에 근거한 individual variants의 분류. 회색은 '1000GP common'과 '1000GP Low frequency'로 분류된 개Individual variants의 부분을 나타낸다. 파란색은 ‘Frequent in KoVariome’에 분류된 individual variants의 부분을 나타낸다. 빨간색은 1000GP와 KoVariome 'Rare in Both'의 rare variants을 나타낸다. (B) 'Rare in Both'의 Individual variants은 gene coordinates로 분류되었다. 기능적으로 중요한 rare variants의 부분을 보다 명확하게 나타내기 위해, 비코딩 영역에 있는 희귀 변형의 98%를 나타내지 않았다. (C) 각 개인에 대한 pathogenic variants의 수 이다. &nbsp;빨간색과 파란색 막대&nbsp;각각은&nbsp;이전에 dbSNP에 보고된 pathogenic variants의 수와 새로운 것을 나타낸다.
 
Individual variants describing functional effects. (A) 1000GP 및 KoVariome의 frequency에 근거한 individual variants의 분류. 회색은 '1000GP common'과 '1000GP Low frequency'로 분류된 개Individual variants의 부분을 나타낸다. 파란색은 ‘Frequent in KoVariome’에 분류된 individual variants의 부분을 나타낸다. 빨간색은 1000GP와 KoVariome 'Rare in Both'의 rare variants을 나타낸다. (B) 'Rare in Both'의 Individual variants은 gene coordinates로 분류되었다. 기능적으로 중요한 rare variants의 부분을 보다 명확하게 나타내기 위해, 비코딩 영역에 있는 희귀 변형의 98%를 나타내지 않았다. (C) 각 개인에 대한 pathogenic variants의 수 이다. &nbsp;빨간색과 파란색 막대&nbsp;각각은&nbsp;이전에 dbSNP에 보고된 pathogenic variants의 수와 새로운 것을 나타낸다.
Line 262: Line 264:
 
'''Table 3'''
 
'''Table 3'''
  
'''Statistics of individual SNVs.'''
+
'''Statistics of individual SNVs.''' <thead> </thead>
<thead> </thead>  
+
 
 
{|
 
{|
 
|-
 
|-
Line 317: Line 319:
 
'''Table 4'''
 
'''Table 4'''
  
'''Known pathogenic rare variants associated with disease.'''
+
'''Known pathogenic rare variants associated with disease.''' <thead> </thead>
<thead> </thead>  
+
 
 
{|
 
{|
 
|-
 
|-
Line 600: Line 602:
 
'''Figure 4'''
 
'''Figure 4'''
  
 
+
<img style="null" src=http://in.kogic.kr/images/5/57/Fig4.jpg>
  
 
KoVariome에서 발견된 구조적 변이의 특성. (A) boxplot은 변이 타입에 따라 한국 개인별 변이 수를 나타낸다. (n = 50). 상자의 lower and upper hinges 는 25th&nbsp; 및 75th 백분위수에 해당하며 whiskers은 hinges에서 연장된 1.5x inter-quartile range (IQR) 나타낸다. 변이의 약어: inversions (INV), intra-chromosomal translocation (ITX), insertions (INS), and deletions (DEL) (B) 개별 게놈에 존재하는 변이의 길이. A의 변이 타입 및 boxplot definition 정의를 참조. (C) KoVariome에서 변이의 Frequency. (D) 상단 그래프는 특정 길이 범위에서 식별 된 SV의 수를 나타낸다. KoVariome 특정 변이는 Database of Genomic Variants (DGV)의 SV 70%와 상호 중첩 비교하여 정의되었다. 하단 그래프는 변이에 분포된 repeats 부분을 나타낸다. Repeat classes는 UCSC Genome bioinformatics에서 제공하는 반복 주석(repeat annotations0에 의해 정의되었다. Simple repeats 에는 microsatellites 및 low complexity (e.g., AT-rich)이 모두 포함되었다. repeats 약어:short interspersed element (SINE), long interspersed element (LINE), and long terminal repeat (LTR).
 
KoVariome에서 발견된 구조적 변이의 특성. (A) boxplot은 변이 타입에 따라 한국 개인별 변이 수를 나타낸다. (n = 50). 상자의 lower and upper hinges 는 25th&nbsp; 및 75th 백분위수에 해당하며 whiskers은 hinges에서 연장된 1.5x inter-quartile range (IQR) 나타낸다. 변이의 약어: inversions (INV), intra-chromosomal translocation (ITX), insertions (INS), and deletions (DEL) (B) 개별 게놈에 존재하는 변이의 길이. A의 변이 타입 및 boxplot definition 정의를 참조. (C) KoVariome에서 변이의 Frequency. (D) 상단 그래프는 특정 길이 범위에서 식별 된 SV의 수를 나타낸다. KoVariome 특정 변이는 Database of Genomic Variants (DGV)의 SV 70%와 상호 중첩 비교하여 정의되었다. 하단 그래프는 변이에 분포된 repeats 부분을 나타낸다. Repeat classes는 UCSC Genome bioinformatics에서 제공하는 반복 주석(repeat annotations0에 의해 정의되었다. Simple repeats 에는 microsatellites 및 low complexity (e.g., AT-rich)이 모두 포함되었다. repeats 약어:short interspersed element (SINE), long interspersed element (LINE), and long terminal repeat (LTR).
Line 614: Line 616:
 
'''Figure 5'''
 
'''Figure 5'''
  
 
+
<img style="null" src=http://in.kogic.kr/images/6/63/Fig5.jpg>
  
 
KoVariome의 copy number variations의 속성. (A) Korean population의 CNV 수 및 specific length range의 repeats&nbsp; 부분. 보존된 CNV는 70%의 상호 중첩으로 Database of Genomic Variants (DGV) 를 검색하여 정의되었다. 그림 4B의 repeats 약어를 참조. Korean enriched CNV는 1000GP에 보고된 CNV를 검색하여 식별되었다. No.는 KoVariome에서 예측된 CNV의 수를 나타낸다. heatmap는 특정 1000GP 대륙 그룹에서 CNV 비율과 비교하여 CNV의 승산비를 나타낸다. OMIM database를 검색하여 관련 유전자를 식별하였다. 대륙 그룹의 약어: European (EUR), African (AFR), Native American (AMR), South Asian (SAS), and East Asian (EAS).
 
KoVariome의 copy number variations의 속성. (A) Korean population의 CNV 수 및 specific length range의 repeats&nbsp; 부분. 보존된 CNV는 70%의 상호 중첩으로 Database of Genomic Variants (DGV) 를 검색하여 정의되었다. 그림 4B의 repeats 약어를 참조. Korean enriched CNV는 1000GP에 보고된 CNV를 검색하여 식별되었다. No.는 KoVariome에서 예측된 CNV의 수를 나타낸다. heatmap는 특정 1000GP 대륙 그룹에서 CNV 비율과 비교하여 CNV의 승산비를 나타낸다. OMIM database를 검색하여 관련 유전자를 식별하였다. 대륙 그룹의 약어: European (EUR), African (AFR), Native American (AMR), South Asian (SAS), and East Asian (EAS).
Line 620: Line 622:
 
'''Table 5'''
 
'''Table 5'''
  
'''Copy number variations conserved in 50 Korean individuals.'''
+
'''Copy number variations conserved in 50 Korean individuals.''' <thead> </thead>
<thead> </thead>  
+
 
 
{|
 
{|
 
|-
 
|-

Latest revision as of 10:31, 6 July 2020

[Author&cauthor=true&cauthor_uid=29618732 Jungeun Kim],#1 [Author&cauthor=true&cauthor_uid=29618732 Jessica A. Weber],#2 [Author&cauthor=true&cauthor_uid=29618732 Sungwoong Jho],#1 [Author&cauthor=true&cauthor_uid=29618732 Jinho Jang],3,4 [Author&cauthor=true&cauthor_uid=29618732 JeHoon Jun],1,5 [Author&cauthor=true&cauthor_uid=29618732 Yun Sung Cho],5 [Author&cauthor=true&cauthor_uid=29618732 Hak-Min Kim],3,4 [Author&cauthor=true&cauthor_uid=29618732 Hyunho Kim],5 [Author&cauthor=true&cauthor_uid=29618732 Yumi Kim],5 [Author&cauthor=true&cauthor_uid=29618732 OkSung Chung],1,5 [Author&cauthor=true&cauthor_uid=29618732 Chang Geun Kim],6 [Author&cauthor=true&cauthor_uid=29618732 HyeJin Lee],1 [Author&cauthor=true&cauthor_uid=29618732 Byung Chul Kim],7 [Author&cauthor=true&cauthor_uid=29618732 Kyudong Han],8 [Author&cauthor=true&cauthor_uid=29618732 InSong Koh],9 [Author&cauthor=true&cauthor_uid=29618732 Kyun Shik Chae],6 [Author&cauthor=true&cauthor_uid=29618732 Semin Lee],3,4 [Author&cauthor=true&cauthor_uid=29618732 Jeremy S. Edwards],10 and [Author&cauthor=true&cauthor_uid=29618732 Jong Bhak]1,3,4,5

Contents

 [[[KoVariome:hide, indel, CNV, and SV analyses.|hide]]] 

초록

단일 민족의 하이 커버리지(High-coverage) 전장유전체분석(whole-genome sequencing) 데이터는 인구집단 특성 유전변이의 유용한 카달로그를 제공할 수 있으며, pathogenic genetic variant를 보다 정확하게 식별하는데 사용할 수 있는 중요한 자원을 제공한다. 한국인 인구에 대한 종합적인 분석을 보고하고, Korean National Standard Reference Variome (KoVariome)를 제시한다.  Korean Personal Genome Project (KPGP)의 일환으로, 현재 한국인들에게 존재하는 benign ethnicity-relevant genetic variation를 특성화하기 위해 건강한 50명의 개인으로부터 전장유천체분석 데이터 5.5 terabases를 사용하여, KoVariome 데이터베이스를 구축했다. KoVariome는 총 12.7M single-nucleotide variants(SNVs), 1.7M short insertions and deletions (indels), 4K structural variations (SVs) 3.6K copy number variations (CNVs)가 포함한다. 그 중 2.4M (19%) SNV and 0.4M (24%) indel은 새로운 것으로 밝혀졌다. 또한 우리는 한국인에게서 질병 유발 변이를 우선 순위를 매길 때, 1,000 Genomes Project에서 원래 제거되지 않은 1,271 coding-SNV를 필터링하는데 사용되는. 3.8M SNV와 0.5M indel의 selective enrichment 을 발견했다.KoVariome health record는 개인의 게놈의 정확한 해석과 유전 변이의 정확한 특징화를 위한 고퀄리티 민족 변이 데이터의 가치를 입증하면서  한국인의 새로운 질병 유발 변이(disease-causing variant)를 식별하는 데 사용된다. 

서론

human reference genome1은 과학적 성과의 이정표였으며 생의학 연구 및 개인화 된 건강 관리의 기초를 제공한다. 인간 게놈의 완성은 인류 전체의 유전적 변이를 이해하고 목록화하려는 우리의 공동 노력의 시작을 알렸다. 국제햅맵프로젝트는 질병과 관련된 유전자 변이를 목록화 하기위한 노력의 일환으로 human haplotypes을 백만 개 이상의 single nucleotide polymorphisms (SNP)으로 분해했다. 그 후, 다른 대규모 게놈 연구에서 360M copy number variations (CNVs)4 및 6.4M small insertions and deletions (indels)5을 확인했다. 이러한 노력은 당뇨병, 암, 심장 질환과 같은 복잡한 질병의 유전적 근거를 조사 약 1,800개의 genome-wide association (GWA) 연구의 토대를 마련했다. 이러한 GWA 연구에서 진단 도구로 사용할 수 있는 광범위한 질병 관련 allele가 밝혀졌지만,  대부분은 낮은 질병위험과 관련이 있으며, 질병에 대해 더 예측하기 쉬운 rare variant의 검출에 다시 초점을 맞추게 되었다.

병원성 희귀 변이체(pathogenic rare variant)를 식별하기 위해, 질병 코호트는 다양한 인종 집단에서  common and low frequency variant를 제거하기위해 건강한 대조군으로부터 생성된 집단 규모 변이와 비교한다. 결과적으로, 민족과 관련된 변이를 특징 직기 위해 수많은 인구 게놈 연구가 수행되었다. 이러한 노력 중 가장 큰 것 중 하나인,1,000 Genomes Project (1000GP)는 2,504명의 건강한 개인으로부터 SNP, indel, and structural variation (SVs)를 포함한 총 88M 유전자 변형을 보고했으며, 5대륙에서 26인종을 샘플링하여 인구 계층화를 해결했다. ; 아프리카 (AFR), 동아시아 (EAS), 유럽 (EUR), 남아시아 (SAS) 및 아메리카 (AMR). 보다 최근에,Exome Aggregation Consortium (ExAC)는  8 개의 염기쌍마다 하나의 엑솜(exonic) 변이의 resolution 가진 60,706 명의 개인으로부터 천만 개의 인간 유전자 변이체를 발표했다. 10,000명의 개인의 high coverage sequencing data (more than 30x)분석에 따르면  human reference genome 에 새로운 시퀀스인 새롭게 분석한 각 게놈은 약 0.7MB 추가된 것을 보여주며, 기존의 human variation data set13에 평균 8,579개의 새로운 SNV를 기여했다. 이전에 논의된 것과 같은 대규모 variome 연구는 인구의 변이에 대한 우리의 이해를 크게 증가시켰지만, 인구 구성은 여전히 유럽인에 편중되어 있다. (54.97% ExAC에서 54.97%, Telenti 에서 78.55% 등). 결론적으로, 많은 집단이 더 많은 표적 집단에 대한 작은 variome 연구를 시작했다. (말레이시인 , 네덜란드인 (GoNL) , 덴마크인, 일본인 (1KGPN) , 핀란드 및 영국) 이 연구에서 발견된 다수의 집단별 변이는 집단 이질성 및 계층화에 대한 포괄적인 데이터베이스를 만드는 데 있어 단일 집단 변수의 중요성을 강조한다. SV는 또한 유전자의 다양성에 크게 기여하는 인구집단에서 유전적 변이의 중요한 유형이다. SV에는 large insertions (INSs), deletions (DELs), inversions (INVs), translocations,  CNVs20이 포함된다. 그러나 SNV 및 small indel과 달리, SV 식별은 여전히 ​​어려운 일이다. 게놈 복잡성 및 short-read sequencing technologies21의 한계 때문이다. SV를 해결하기 위한 현재의 노력은   whole genome sequencing(WGS) 데이터로에서 여러 인구 규모의 SV 및 CNV를 알렸으며, 이러한 분석은 고탄수화물 식단의 인구에서 amylase gene duplication와 같은 인구 특정한 특성을 특징짓고, 혈우병 A, 헌터 증후군, 자폐증, 정신 분열증 및 크론 병 같은 특정 질병에 대한 연관성을 밝혀냈다. 그럼에도 불구하고, 건강한 개인에서 확인된 SV는 질병과 연관성 없는 개인 및 인구-특징 SV를 상당히 많이 포한한다. 종합해보면, 이러한 결과는 질병 관련 특성을 분석하고 정밀 의학 진단 마커를 식별하기 위해 인구특성 SV 및 CNV 프로파일을 구성하는 것의 중요성을 입증한다.

한국인 인구는 동아시아의 단일 민족 집단으로 간주되며 , 이때문에 상대적으로 적은 수의 표본으로 하이 커버리지 인구 변이를 생산 할 수 있다. 한국 최초의 전체 게놈 서열이 2009 년에 보고된 이래, 지난 10년 동안 저비용 차세대 시퀀싱(NGS) 기술을 사용하여 한국 인구에 대한 추가 변이 연구가 수행되었다. 제 2 형 당뇨병, 혈우병, 암 및 기타 희귀 질환을 가진 환자를 포함하는 질병 코호트에 샘플링이 집중되었지만, 1,000 명 이상의 한국인의 두 가지 엑손(exonic) 변이가 보고되었다. 따라서 이러한 연구는 질병 변이(disease variants) 로부터  양성, 인구통계학적 유전적변이를 분석하는데 적합하지 않다.  Personal Genome Project (PGP)17의 한국 센터로서, Korean Personal Genome Project (KPGP or PGP-Korea)는 전세계 연구자들이 접근할 수 있는 종합적인 게놈, phenomic 및 enviromic dataset를 제공함으로써, 한국인 민족관련 유적전변이를 특성화하기 위해 Korean Bioinformation Center (KOBIC)에 의해  2006년에 출범되었다. 2009년 KPGP가 NGS 데이터를 포함한 국내 최초의 게놈을 발표한 이후, 2016년 현재 완성 게놈 수는 60개로 늘어났니다. 이 모집단은 한국인 참조표준 게놈 (KOREF_C)의 첫번째 합의를 구축하는데 사용되었고, 2017년 초에 KOREF_C의 추적성(traceability), 불확실성, 일관성을 평가하여,  한국민족게놈서열에 대한 참조표준으로 등록되었다.한국인 전체의 게놈변이를 특정짓기 위해, 주요 질병에 관련된 임상 진단이나 가족력이 있는 KPGP 코호트내 친족이 아닌 건강한 50명의 WGS데이터를 선정하고, 분석하였다. 이 보고서에서는 KoVariome의 일반적인 특징을 설명하고 12.7M SNV, 1.7M indel, 4K SV, 3.6K CNV를 포함한 4가지 유형의 게놈 변이를 모두 특징짓는다. 게놈변이의 종합적인 데이터베이스와 해당 메타데이터는 지속적으로 업데이트 될 것이며, 연구자들이 질병의 유전적 근거를 찾음으로써 게놈공동체에 귀중한 자원이 될 것이다. 

결과 및 논의

한국인 표준변이 구축: KoVariome

KPGP의 한 부서로 Korean variome data center (KOVAC)는 2010년부터 WGS 및 whole exome sequencing (WES) 데이터를 생성하기 위해 자원 봉사자를 모집하고 있다. 현재 KoVariome (버전 20160815)은 신체적 특성, 습관, 알레르기, 가족력 및 19가지질병(보조표 S1)과 관련된 신체 상태에 대한 설문지에 응답 한 친족관계가 아닌 50 명의 한국인 WGS데이터를 기반으로 구축되었다. 개인당 평균 31× 배의 커버리지를 포함하는 총 5.5 TB의 고품질 paired-end WGS data가 생성되었다(표 1과 보충표 S2. 각 개인의 WGS 데이터는 평균저으로 human reference genome(hg19)의 95 %를 차지한다. 이 데이터에서 우리는 한국인 개인당 약 3.8M SNV (3.7 – 3.9M 사이)와 0.5M indel (0.4-0.7M)를 확인했다. autosomal SNV의 hetero-to-homozygosity ratio 은1.49 였으며, 이는 이전의 보고된 데이터와 일치한다. indel loci의  길이 분포 는 대칭적이었고, 대다수의 indel 크기는  six bases보다 짧았다. (94.8% for insertions, 97.8% for deletions).(보조 그림 S1B).  개인당 10,394 (0.22%)  non-synonymous changes 포함한 coding regions에서 약 20,097 (0.53 %) SNV 및 258 (0.05 %) indel을 식별했다. (Table 1)

Table 1

Statistics of KoVariome.

Sample information for KoVariome
 No. of samples (Male/Female) 50 (31/19)
 Total NGS yield 5.5 tera bases
 Average sequenced depth 31x
 Average mapped read rates 95%
SNVs
    Total No. of SNVs 12,735,004
    No. of known variants in 1000GPa 8,967,464
    No. of known variants in dbSNPb 10,286,599
    Average No. of SNV per sample 3,813,311
    Average No. of Coding SNVsc 20,097
    Average No. of non-synonymous SNVsc 10,394
    Average No. of SNVs with high effectsc 287
Indels
    Total No. of indels 1,743,117
    No. of known variants in 1000GPa 848, 471
    No. of known variants in dbSNPb 1,307,000
    Average No. of indel per sample 503,553
    Average No. of Coding indelsc 258
    Average No. of LOF indelsc 157

Variants deposited ina 1000GP and bthe dbSNP (ver. 146). cpredicted with SNPEff.

새로운 KoVariome SNV는 개별 샘플을 하나씩 추가하여 계산되었으며(그림 1A), 새로운 SNV의 수는 로그 적으로 감소하여 9번째 기증자 이후로 고갈되었다. 개인당 1.2K (2.03%) coding-SNV 포함하여 총 59K 새로운 SNV를 관찰했다. KoVariome 개인의 관련성을 평가하기 위해, pairwise genetic distance of KoVariome with those of family data를 비교했다.(그림 1B) 30가족의 WGS 데이터는 KPGP 데이터베이스에서 다운로드되었는데, 여기에는 일란성쌍둥이 2명, 부모-자식 14쌍, 형재자매 7명, 조부모-손자 5명, 삼촌-조카 6명, 3명의 사촌이 포함되어 있다. KoVariome에서와 동일한 방법을 사용하여 가족 SNV를 분석하고 두 그룹 간의 유전적 거리를 비교했다.(Methods 참조) KoVariome 개인들 사이의 유전적 거리는 일란성 쌍둥이(4.8e-4), 형제자매(6.7e-4), 부모-자식(6.8e-4), 삼촌-조카(7.7e-4), 조부모-손자(7.8e-4), 사촌(8.2e-4)와 같은 가족 데이터에서 발견된 것보다 더 높았다. 이는 샘플 수집 단계 및 현재 KoVariome에 유전적 편향이 존재하지 않았음을 입증한다. 이전 보고서에 따르면, 한국인, 중국인 일본인 사이의 변이의 the multidimensional scaling (MDS)은 그룹 간의 지리적 및 역사적 연관성에도 불구하고 세 인종(그림 S2)가 명확하게 분리되어 있음을 보여 주었다. 이러한 분석은 집단의 인구통계학적 변이로부터 질병 변이를 분석하기위한  KOREF 및 KoVariome 참조자원의 필요성을 강화한다.

Figure 1

KPGP 변이 현황은  친족 관계가 아닌 50명을 대상으로 분석한 결과다.  

(A)novel SNV allele의 축적 .novel SNV allele  수는 KoVariome에서 이전에 생성된 SNV와 비교하여 새로 식별된 nucleotides로 정의되었다

(B) 가족 관계에 따른 유전적 거리 축약:일란성 쌍둥이(MT), 부모와 자식(PC), 형제(Br), 조부모  손자(GPC), 삼촌 조카(UN), 사촌(Co).

KoVariome에서 SNV 및 indel 정확도 테스트

KoVariome SNV와 indel은 35명의 the AxiomTM Genome-ASI 1 Array with WGS data에서 얻은 유전자형 결과와 비교하며, 예측의 정확성을 평가하였다. 총 503,694 SNV 위치가 비교되었고, 여기에서 평균 0.9993 정밀도 (범위 : 0.9984–0.9996)와 0.9980 recall (범위: 0.9817–0.9994)를 얻었다(보조표 S3). 게다가 WGS and Axiom array calls에 의해 the SNVs called 의 일치도는 99.65% (ranged: 98.62–99.87%)로 나타났다. 유사한 variome 연구와 비교했을때, 이 유전자형 정확도는 덴마크인구연구의 high-depth trio data보다 약간 낮았지만 (99.8%), intermediate depths로 분석된 네덜란드 인구 SNV (99.4–99.5%)보다 높았다. SNV calls의 정확도는 게놈 전체에서 분석되었으며, 총 499,889 (99.24 %)의 SNV는 0.99보다 높은 유전자형 일치 성을 보인 반면, SNV의 0.4 %는 0.95(보조표 S4) 미만의 유전자형 정확도를 나타냈다. 유사한 수준의 유전자형 일치성이 게놈의 반복영역(repetitive regions) (99.56% of SNVs with the genotype correspondence >0.95)에서 관찰되었으며, 이는 SNV calling 정확성이 게놈의 반복영역(repetitive regions)에서 감소되지 않음을 시사한다. 

indel variant calls with the 1,981 indel markers on the AxiomTM Genome-ASI 1 Array 정확성 또한 비교했다. 유전자형 비교한 결과, indel의 평균 정확도는 98.49 %였는데, 이는 SNV(보조표 S3)에서 관찰된 것보다 약간 낮으며, 덴마크 데이터에 보고된 indels의 false positive (FP) 비율에 필적하는 것으로 나타났다. genomic loci의 경우, 1,343 (91.11%) 개의 indel은 array data와 완벽한 유전자형 일치를 보였으며, 1,446개의 (98.10%) indel의 정확도는 90%보다 높았다.(보조 그림 S3).

KoVariome의 Genome-wide features 

친족이 아닌 50명의 한국인  변이를 통합함으로써, 예비 KPGP 데이터(8.5M)에서 이전에 보고된 SNV 수의 약 1.5배인, 100bp(표 1)보다 짧은 12.7M SNVs and 1.7M small indel를 식별했다. 두 유형의 변이 모두 주로  non-coding영역에 (약 98%)에 분포했으며, 여기에는 intergenic와 intron 영역(보조표 S6)이 포함된다. dbSNP (ver. 146)에는 약 10.3M (81.10%) SNV와 1.3M (76.47%) indel이 존재했고, 2.4M SNVs와 0.4M indels는 새로운 것이 였다(표 1). 1000GP variome(보조표 S6)에서 총 9M (70.42 %) SNV 및 0.8M (48.68 %) indel이 발견되었으며, 대립형질유전자(allele)빈도에 따라, SNV의 4.6M (51.03%)  및 4.4M (48.82%)는 각각 ‘1000GP common’ 및 ‘1000GP low frequency’ 로 분류하였다(그림 2). 주목해야 할 것은 13,584 (0.15%) KoVariome SNV는 MAF < 0.1%인 1000GP continental groups에서는 거의 관찰되지 않았다. 이와 유사한 분포는 indel에서도 관찰되었는데, KoVariome indels의 64.2% 및 5.8%는 각각 ‘1000GP common’ (0.5M) 및 ‘1000GP low frequency’ (0.3M)로 분류되었다. 오직 10개의 indel만이 ‘1000GP rare’ 카테고리로 분류되었다. ‘1000GP common’카테고리의 거의 모든 변이는 또한 KoVariome에서 자주 관찰되었으며, 4.5M (98.33%) SNVs, 0.5M (93.37%) indels이 이 클래스에 해당한다.(그림 2A 및 보충표 S6) 그러나 놀랍게도, 1000GP low frequency’의 변이 거의 절반가량은 ‘frequent in KoVariome’로 분류 되었다. 이는 일반적 변이와 비일반적인 변이에 대한 인구집단에 명확한 편차가 상당히 존재함을 나타낸다. 5개의 continental 1000GP groups의 대립 유전자 빈도(Allele frequency)를 KoVariome와 비교했다. 인구 계층화를 시사하는, 적어도 하나의 유럽인집단이나 한국인구에서 통계학적으로 풍부한 총 3.4M (77.19%) SNV와 0.2M (74.21%) indel을 관찰 했다.인구계층화를 더욱 탐구하기 위해, 각 유럽인집단에서 독특한 풍부한(enriched) 변이와 유럽 그룹간에 공통된 풍요한(enriched) 변이를 식별했다. 한국인에서 총 three million (2.7M) SNV와 156K indel이 자주 발견되었다. 그 중 2.5M (95.20%) SNV, 143K (94.47%) indel은 한국인 특유의 enrichments를 나타냈고, 다른 enriched variants 는 다른 유럽 대륙과 공유했다. 예상대로, 5개 유럽대륙집단 중에서 EAS는 한국인과 가장 많은 수의 enriched variant (89.5K SNP 및 5.3K indel)을 공유했다.

Figure 2

KoVariome의 유전적 특징. (A) KoVariome의 2차원 분류. 1000GP 데이터에서 관측된 SNV와 인델은 minor allele frequencies (MAF); ’1000GP Common’: MAF >=5% in all five continents, ‘1000GP Low frequency’: MAF>=0.1% in any continent, and ‘1000GP Rare’; MAF < 0.1% in all five continents 기준으로 분류되었다. 5개의 대륙 인구는 아프리카(AFR), 유럽(EUR), 아메리카 원주민(AMR), 남아시아(SAS), 동아시아(EAS)를 포함했다. 두 번째 그룹은 KoVariome의 변이 수, 즉 'Frequency in KoVariome'(>=3)과 'Rare in KoVariome'(<3)으로 분류되었다. (B) 벤 다이어그램은 SNV(왼쪽)와  indel(오른쪽) 모두에 대해 특정 대륙에서 농축된 변이(variants enriched)의 수를 나타낸다. enrichment은 dds ratio > 3 and p-value < 0.05 근거한 Fisher’s exact test 의해 분석되었다. 한국 인구 중 enriched variants의 총 수는 벤 다이어그램의 하얀색 공간에 표시된다. 대륙 인구 약자 옆에 있는 숫자는 해당 1000GP 대륙 그룹의 총 enriched variants 수를 나타낸다. 각 타원 내의 숫자는 KOR와 특정 대륙에서 농축(enriched )된 변이의 수(왼쪽)와 대표 대륙에서 독점적으로 농축된 변이의 수(오른쪽)를 나타낸다. (C) 각 게놈 영역에서 관측된 Rare variant ratios (RVRs)은 다음과 같다. RVR은 희귀한 변형의 수를 KoVariome의 frequent variants의 수로 나누어 계산하였다.

KoVariome-specific variants 해석

민족별 변이를 특징 짓는 것은 인구집단 간의 인구통계학적 차이를 이해하는 것이 필요하며, 특정 그룹에서 낮은 빈도로 군집된 변이를 필터링하는데 사용할 수 있다. KoVariome에는 1000GP variome(보조표 S6)에서 관찰 되지 않은 3.8M SNVs와  0.9M indels이 있었다. 3.8M SNV의 1/3(1.1M, 29.16%), 0.4M(40.88%)의 indel은  ‘frequent in KoVariome’ 로 분류되었다.(그림 2A). KoVariome 에서 특징적인 15,279개의 non-synonymous SNV와 480개의 frame-shift indel 중 각각 11,746개(76.88%)와 397개(82.71%)는 KoVariome (n < 3)에서 드물었지만, 3,533개의 SNV는 KoVariome에서는 자주 관찰된 반면(적어도 3배이상) 1000GP variome 에서는 전혀 관찰되지않았다. 

이러한KoVariome-specific frequent variants의 가능한 임상적 관련성을 파악하기 위해서, SNV의 genomic loci와 ClinVar database를 비교했고, 질병정보와 관련 가능성 있는 6가지  pathogenic loci를 식별했다(표 2). pathogenic SNV 가능성있는 2개는  (rs386834119 and rs1136743)는 autosomal recessive (AR) 질병과 연관되어 있으며, 그러므로, 모든 KoVariome SNV는 이 위치에서 이형 접합체(heterozygotes)이기 때문에, 어떠한 표현형(phenotype)도 에상되지 않았다. 또한 RAD51D에서 암 가능성과 연관된 SNV의  KoVariome allele(남자3명, 여자2명)를 관찰하였는데, 그것은 이전에 난소, 유방, 대장, 폐, 췌장 및 전립선암의 발병 위험을 증가시키는 것으로 보고되었다. Allele를 pathogenic로 확실히 분류하기 위해서는 비록 추가적인 데이터가 필요하지만, allele가 a canonical splice site를 방해함으로써 RAD51D 유전자를 절단한다는 주장이 제기되었다. KoVariome에는 암 발병률이 없는 5개의 eterozygous rs200564819 alleles가  있으므로(표 2, 표 S1), 이 변이들은 한국인에게 위험성이 높지 않을 수 있다. 그러나 인구별 질병 관련 마커의 효과를 확인하기 위해서는 데이터베이스 크기를 증가시켜야 할 것이다. 게다가 KoVariome 모집단에서 이전에 fibrodysplasia ossificans progressive (FOP) 및 Van der Woude syndrome (VWS)와 관련된 것으로 보고된 각각 2개의 pathogenic missense SNVs (rs121912678 and rs20016664)를 관찰하였다(표 2). rs121912678 SNV(chr2:g158630626C>G)는 ExAc 데이터베이스에서 거의 관찰되지 않았지만(MAF = 0.0002), 이 위치에서 C>T 돌연변이는 the activin receptor type I (ACVR1)43을 본질적으로 활성화하여 FOP 질병을 일으킬 것으로 예측되었다. C>G 돌연변이때문에  ACVR1에서의 R206P의 pathogenicity 은 아직 알려져 있지 않지만, KPGPP 조사에서 FOP phenotypes, skeletal malformation, or progressive extraskeletal ossification가 없는 KoVariome에서는 이 allele의 높은 MAF(0.14) 때문에 양성일 가능성이 높다고 제안한다. 마지막으로 인터페론 조절 인자 6(IRF6) 유전자의 400번째 아미노산은 a hot spot of VWS, orofacial clefting disorders로 알려져 있다. VWS에 대해 2가지 pathogenic variants, R400W44 and R400Q45, 가 보고 되었지만, KoVariome에서 자주 볼 수 있는 바와 같이 chr1 : 209961970C> G에 의해 발생 된 pathogenicity of R400P은 아직 확인되지 않았다. 이 질병의 AD 유전 패턴(AD inheritance pattern )에도 불구하고, 총 14개의 heterozygous SNV는 VWS 증상에 대한 표현형(phenotype )을 갖지않고 결과적으로 R400P substitution는 양성(benign)인 것처럼 보인다. KoVariome 특유의 빈번한 변이는 인구 규모의 건강 데이터를 사용하여 특정 질병의 pathogenic loci를 식별하고, 인구 계층화 때문에 주석을 달지 않은 benign variants을 정확하게 식별하는 것이 중요하다는 것을 보여준다.

Table 2

ClinVar annotation of the KoVariome frequent SNVs. <thead> </thead>

Chr. Position Ref Alt rs Noa Gene Codon Changes Disease Inheritance Typeb Noc MAFd
17 33,445,518 A C rs200564819* RAD51D Splice-site Familial breast-ovarian cancer 4 n.a 5 0.05
1 161,599,571 T C rs2290834 FCGR3B I106V Neutrophil-specific antigens na1/na2 UNKNOWN 3 0.15
8 100,844,596 G T rs386834119 VPS13B Splice-site Cohen syndrome AR 13 0.26
2 158,630,626 C G rs121912678 ACVR1 R206P Fibrodysplasia ossificans progressive AD 14 0.14
1 209,961,970 C G rs200166664 IRF6 R400P Van der Woude syndrome AD 14 0.14
11 18,290,859 C T rs1136743 SAA1 A70V Systemic amyloidosis AR 22 0.66

AR: autosomal recessive; AD: autosomal dominant; Chr.: chromosome; Ref. reference allele; Alt. alternative allele.

aKoVariome frequent SNVs with the Reference SNP cluster IDs (rs number) in ClinVar. We were only included pathogenic or likely pathogenic (*) SNVs.

bInheritance types were searched against OMIM database with rs numbers and phenotypes represented in ClinVar database. ‘n.a.’ represents there are no data in the OMIM database. ‘UNKNOWN’ represents inheritance type for corresponding phenotype was not reported in OMIM database.

cNo. of alternative allele in Korean population, dminor allele frequencies (MAF) in KoVariome.

 

rare variants 게놈 분포

우리는 4 개의 SNV 클래스에서 SNV의 비율을 조사했다.(1000GP Common, 1000GP Low Frequency, 1000GP Rare, KoVariome Specific; Supplementary Fig. S4). 분석 결과 coding SNV의 높은 부분은 '1000GP rarea' 클래스에서 풍부한 반면,  non-coding에서 SNV 는 다른 모든 변이 클래스에서 유사하게 분포된 것으로 나타났다. '1000GP rare' 클래스에서 non-synonymous SNV의 비율은 다른 클래스에서 관찰된 것의 두 배 이상이었다. 이러한 패턴은 모집단 46에서 deleterious allele를 신속하게 제거하기 위한 purifying selection이 있을 수 있지만, 이 클래스의 적은 수의 변이(981)때문에 frame-shift indels에서 이 패턴을 식별할 수는 없었다. KoVariome에서 purifying selection의 경향을 분석하기 위해, rare variant ratios(RVR)을 ‘frequent in KoVariome’ 클래스의 SNV 수로 나눈 ‘rare in KoVariome' 클래스의  SNV 수로 정의했다. 그런 다음 우리는 여러 유전체 영역에 걸친 RVR을 비교했다(그림 2C). SNV와 indel 모두에서, intergenic region의 RVR은 가장 낮았으며(0.66), 다른 non-coding regions(0.66–0.87)에서 유사한 수준의 RVR이 관찰되었다. 돌연변이가 게놈 전체에 걸쳐 무작위로 발생한다는 가정 하에, non-coding 영역에서 RVR의 낮은 비율은 모집단에서 selection pressures 이 없거나 약한 neutral selection을 제안한다. 반대로, frame-shift indel에서 가장 높은 RVR(1.45)은 한국 인구에서 이러한 변이에 대해 어느 정도 purifying selection이 이루어졌음을 시사한다. 더욱이 non-synonymous(1.16)과 splice-site(1.33) SNV에서 intergenic region에 비해 약 2배 많은 RVR이 관찰되었다. coding region의 SNV는 단백질 기능에 유해할 수 있지만, non-synonymous 및 splice-site SNV에 대한 selection pressure은 예상대로 rame-shift indel보다 약간 낮은 것으로 보인다.

한국 개인 중 질병 유발 변이 해석

개별 게놈의 Rare SNV는 일반 변이보다 병원성(pathogenic)이 더 높다. 유전적 변이들은 지리적으로 집단화된 것으로 알려져 있기 때문에, 인구 계층화를 특징짓는 것은 질병을 유발하는 변이들을 식별하기 위한 중요한 첫걸음이다. 이 개념으로 '1000GP common', '1000GP low prequency' 또는 'prequency'로 분류된 SNV를 걸러낸 후 각 개인에서 rare SNV를 검사하였다. 개인당 평균 3.8M SNV에서 1000GP variome 또는 KoVariome을 사용하여 각각 3.4M(88.70%)과 0.4M(9.39%) SNV를 걸러냈다(그림 3A와 표 3). 전체적으로 KoVariome은 1,231개(12.25%, 중위수 값)의 non-synonymous는 SNV와 40개(24.01%)의 splice-site SNV를 한국 인구의 일반적인 변이으로 걸러내도록 허용하여 질병 유발 변이을 정확히 찾아내는 능력이 크게 향상되었다

Figure 3

Individual variants describing functional effects. (A) 1000GP 및 KoVariome의 frequency에 근거한 individual variants의 분류. 회색은 '1000GP common'과 '1000GP Low frequency'로 분류된 개Individual variants의 부분을 나타낸다. 파란색은 ‘Frequent in KoVariome’에 분류된 individual variants의 부분을 나타낸다. 빨간색은 1000GP와 KoVariome 'Rare in Both'의 rare variants을 나타낸다. (B) 'Rare in Both'의 Individual variants은 gene coordinates로 분류되었다. 기능적으로 중요한 rare variants의 부분을 보다 명확하게 나타내기 위해, 비코딩 영역에 있는 희귀 변형의 98%를 나타내지 않았다. (C) 각 개인에 대한 pathogenic variants의 수 이다.  빨간색과 파란색 막대 각각은 이전에 dbSNP에 보고된 pathogenic variants의 수와 새로운 것을 나타낸다.

Table 3

Statistics of individual SNVs. <thead> </thead>

Statistics of individual variants No. of SNVs (%)
1000GP common and 1000GP low frequency SNPs 3.4 M (88.70)
Frequent SNVs in KoVariome 0.4M (9.39)
1000GP rare and KoVariome rare SNVs 47,957 (1.26)
Statistics of individual rare SNVs
Protein-Coding 326 (40.72)
    Synonymous SNVs 107 (13.37)
    Non-synonymous SNVs 219 (27.36)
    Splice-site SNVs 7 (0.87)
RNA-Coding 80 (9.93)
Other statistics
Median No. of pathogenic rare SNVsa 137 (65.06)

aPathogenicity of the rare SNVs were predicted by at least one program among SIFT, Polyphen2, PROVEAN, MetaSVM, and MetaLE.

필터링 후 국내 기부자는 4만7957명(1.26%)의 rare SNV의 중위수를 기록했고, 이 중 대부분 (98.33%) 은 non-coding 지역에 있었다. 이 중 개인당 평균 219개(67.17%)의 non-synonymous SNV와 개인당 7개(0.87%)의 splice-site SNV를 관찰했다(그림 3B와 표 2). 평균적으로, 이러한 SNV 중 166개(73.45%)가 dbSNP(ver. 146)에 존재했지만 1000GP variome에는 존재하지 않았다(그림 3C). 한국인 50명에게 배포된 12,445개의 non-synonymous rare SNV 중에서 적어도 하나의 computational algorithm에 의해 예측된 7,645개의 병원성(pathogenic) 또는 아마도 병원성(pathogenic) SNV를 확인했다(methods section, 표 S7 참조). KoVariome에서 pathogenic  rare SNV는 모두 38명(0.5%)만이 homozygotes이고, 나머지(99.5%)는 heterozygotes였다. 또 기증자 중 29명(58%)은 homozygous pathogenic rare SNV를 갖고 있지 않았다. 이러한 pathogenic rare-SNV에 대한 임상 정보를 얻기 위해, 우리는 CleinVar 데이터베이스를 기준으로 이러한 SNV의 genomic loci 를 찾아았다. ClinVar에서 발견된 rare SNV는 총 127개였으며, 이 중 53개는 명확한 임상적으로 의미를 보였다. ClinVar에서는 각각 8명(6.39%)과 13명(10.24%)이 양성 및 양성일 가능성이 높은 으로 분류되었으며 , 특정 질병에는 치명적이지 않았다. 반대로 각각 29명(22.83%)과 3명(2.36%)은 병원성, 병원성일 가능성이 높았다(표 4). 이러한 rare SNV는 inheritance pattern에 따라 병균성(pathogenicity)에 기여하며, Online Mendelian Inheritance Man(OMIM) 데이터베이스를 사용하여 inheritance pattern에 대한 manual investigation는 8개의 SNV loci(표 4)에 대한  inheritance types 을 식별하지 못했지만, specific loci에 대한 7개의 AD 및 17개의 AR SNV를 식별했다.17개의 AR SNV는 모두 KoVariome에서 heterozygous이었기 때문에 이러한 loci에 표현형을 할당할 수 없었다. pathogenic rare AD SNV를 가진 기증자 그룹 내에서, 우리는 설문지에서 target diseases과 관련된 phenotypes이나 가족력를 조사했다. 우리는 KPGP 참여자들에서 rs121918673 allele와 관련된 II형 당뇨병의 가족력을 확인했다. 그러나 rs121918673 allele를 가진 한 기증자는 당뇨병 환자가 아니었으며 이 질병에 대한 가족력은 보고되지 않았다. 또한, 한 기증자는 speroactosis와 AD가 연관되어 있는 rs1212749 allele에 대해 heterozygous이었고, 이 기증자는 관련 증상을 보고했지만 빈혈은 없었다(보조표 S1과 S7). 그러나 spherocytosis은 무증상부터 용혈성 빈혈에 이르는 heterogenetic symptoms을 가지고 있는 것으로 임상적으로 알려져 있다. 이러한 예는 정밀 건강 관리의 일상적인 요소로서 유전적 변이의 질병 관련성을 평가하기 위한 중요한 자원으로서 모집단별 특이변이 데이터베이스의 유용성을 강조한다.

Table 4

Known pathogenic rare variants associated with disease. <thead> </thead>

Individual ID rs No. Genotype Codon change Inheritance typea gene ClinVarTraits
KPGP-00001 rs563607795 A/G L385P n.a. SLC19A3 Thiamine metabolism dysfunction syndrome
KPGP-00001 rs199769221* G/C R116P AD PRSS1 Hereditary pancreatitis
KPGP-00032 rs387907164 T/C C32R AR KIAA1530 UV-sensitive syndrome 3
KPGP-00033 rs119490107 C/A D234Y UNKNOWN RAD54B Carcinoma of colon
KPGP-00039 rs199476197 A/C H331P AR CYP4V2 Bietti crystalline corneoretinal dystrophy
KPGP-00088 rs28940280 G/A D279N AR CLN5 Ceroid lipofuscinosis neuronal 5
KPGP-00122 rs587782989 C/T R464H AD CCDC88C Spinocerebellar ataxia 40
KPGP-00124 rs142808899 C/T G303R AR DHCR7 Smith-Lemli-Opitz syndrome
KPGP-00127 rs111033744 A/G Y100C AR GALT Galoctosemia
KPGP-00127 rs137852972 T/C N88S AD BSCL2 Silver spastic paraplegia syndrome
KPGP-00129 rs137853022 C/T R696Q AR IKBKAP Familial dysautonomia
KPGP-00129 rs386833823* G/A S238F AR SLC7A7 Lysinuric protein intolerance
KPGP-00131 rs200088377 G/A P191L n.a. IL17RD Delayed puberty
KPGP-00136 rs121908099 G/A R405Q AR CYP27A1 Cholestanol storage disease
KPGP-00136 rs750218942 C/G Splice-site AR XPA Xeroderma pigmentosum
KPGP-00136 rs727502791 G/A R158* AD MFAP5 Aortic aneurysm (familial thoracic 9)
KPGP-00136 rs545215807 G/A G109S AR ACADVL VLCAD deficiency
KPGP-00139 rs387907033 G/C G401A AR SYT14 Spinocerebellar ataxia
KPGP-00139 rs748486078 G/A S95L UNKNOWN IL17F Candidiasis
KPGP-00144 rs119480073 C/T R801 AR LPIN1 Myoglobinuria
KPGP-00144 rs104895438 G/A A612T AD NOD2 Sarcoidosis
KPGP-00205 rs121913050 G/A R153H UNKNOWN ERCC4 XFE progeroid syndrome
KPGP-00220 rs121918673 G/C S439R AD HNF1B Diabetes mellitus type 2
KPGP-00266 rs104894085 G/A Q258* AR STAR Cholesterol monooxygenase deficiency
KPGP-00227 rs121909569 A/G S148P AD, AR SERPINC1 Antithrombin III deficiency
KPGP-00228 rs121434426 G/A Q356* UNKNOWN FANCG Fanconi anemia
KPGP-00232 rs121909385 T/C L623P AR SLC12A3 Familial hypokalemia hypomagnesemia
KPGP-00233 rs672601312 G/T E127* AR ISG15 Immunodeficiency 38 with basal ganglia calcification
KPGP-00233 rs749462358 C/T E924K n.a. ASPM Not provided
KPGP-00245 rs137854500 C/T D1289N AR ABCA1 Tangier disease
KPGP-00254 rs201968272 G/A R237Q AR DDX11 Warsaw breakage syndrome
KPGP-00325 rs121912749 C/T G130R AD SLC4A1 Spherocytosis type 4

Abbreviations: Chr. chromosome; Ref. reference allele; Alt. alternative allele; AD: autosomal dominant; AR: autosomal recessive.

*The clinical significance of SNV locus was defined as likely pathogenic in the ClinVar database.

aInheritance type were searched against OMIM database with rs numbers and phenotypes in the ClinVar database. ‘n.a.’ represents there are no data in the OMIM database. ‘UNKNOWN’ represents inheritance type for corresponding phenotype was not reported in OMIM database.

 

KoVariome의 구조적 변이

BreakDancer(BreakDancer) 및 Pindel programs (보조표 S8)을 사용하여 450 INV, 354intra-chromosomal translocations (ITXs), 478 INS, 5,252 DEL을 포함한 평균 6,534개의 개별 SV를 예측했다. 명확한 브레이크 포인트가 있는 SV를 식별하기 위해 개인당 15 –32%의 spurious SV를 제거했다(Methods; Supplementary 그림 참조). S5 및 표 S8). 필터링 후 4,896개의 INV, 2,131개의 ITX, 12,171개의 INS, 20,981개의 DEL을 포함하여 40,179개의 non-redundant  SV를 획득했다. 한국 기부자 그룹 내에서는 개인이 3294명의 SV(중간값)를 보유하고 있었는데, 그 중 82.36%가 DELs(그림 4A)이었다. 개별 SV의 중앙 길이는 INV의 경우 2.3Kb, ITX의 경우 5.8Kb, INS의 경우 1.3Kb, DEL의 경우 342bp였다(그림 4B). SV의 높은 비율은 1KJPN17의 결과와 일치하는, 개별 게놈(그림 4C)에 한정되었다. 개인별 SV의 비중은 INS(92.51%)가 가장 높았고 INV(88.87%) ITX(68.93%) DEL(47.82%)이 뒤를 이었다(표 S8). SV의 상당 부분(98.5% INS 및 61% DEL)은 참신한 것으로, 이전에는 Database of Genomic Variants(DGV)에 축적되지 않았다. 전체적으로,  non-redundant combined SV는 크기가 최대 10M이었고 모든 클래스는 1 –2Kb 크기 범위에서 were enriched(그림 4D, 부록 그림 S6).

Figure 4

KoVariome에서 발견된 구조적 변이의 특성. (A) boxplot은 변이 타입에 따라 한국 개인별 변이 수를 나타낸다. (n = 50). 상자의 lower and upper hinges 는 25th  및 75th 백분위수에 해당하며 whiskers은 hinges에서 연장된 1.5x inter-quartile range (IQR) 나타낸다. 변이의 약어: inversions (INV), intra-chromosomal translocation (ITX), insertions (INS), and deletions (DEL) (B) 개별 게놈에 존재하는 변이의 길이. A의 변이 타입 및 boxplot definition 정의를 참조. (C) KoVariome에서 변이의 Frequency. (D) 상단 그래프는 특정 길이 범위에서 식별 된 SV의 수를 나타낸다. KoVariome 특정 변이는 Database of Genomic Variants (DGV)의 SV 70%와 상호 중첩 비교하여 정의되었다. 하단 그래프는 변이에 분포된 repeats 부분을 나타낸다. Repeat classes는 UCSC Genome bioinformatics에서 제공하는 반복 주석(repeat annotations0에 의해 정의되었다. Simple repeats 에는 microsatellites 및 low complexity (e.g., AT-rich)이 모두 포함되었다. repeats 약어:short interspersed element (SINE), long interspersed element (LINE), and long terminal repeat (LTR).

 

마지막으로 SV가 반복적인 요소에 대한 enriched 여부를 알아내기위해  SV를 분석했다. SV에서는 repeat types을 분류하고 다른 인구집단과 비교하여 한국 고유의 enrichment를 찾았다. SV 중 13%는 short interspersed elements(SINE)를 포함했고, 20%는  long interspersed elements (LINE)를 포함했으며, 3.4%는 DNA transposon을 포함했으며, 8.6%는 long terminal repeats(LTR)을 포함했다. 대부분의 SINE은 200 –300bp의 DEL에서 관찰되었으며, 이는 de novo assembled SVs16 및 예측된 SVs15와 일치한다. 이러한 결과는 SV가 1 –4Kb INV의 SINE과 4 –40Kb INV의 LINE에 대해 enriched  나타낸다(보조 그림). 또한, 단순 반복은 INS(그림 4D)와 3–5Kb ITX(보조 그림)에서 주로 관찰되었다. S6B).

KoVariome의 Copy number variations 

KoVariome을 구성하는 데 사용되는 높은 범위의 WGS 데이터는 하나의 게놈에서 CNV를 특징짓기에 충분한 데이터를 제공한다. FREEC program48은 게놈당 평균 199개의  deletion와 336개의 duplication을 예측했다(보조표 S9). spurious CNV를 필터링한 후(보조 그림). S7, 161.74(81.46%)의 deletion와 296.72(88.29%)의 duplication이 original call로부터 남아 있었다. 총 2,038개의 non-redundant deletion와 1,564개의 non-redundant duplication를 예측하였으며, unified  CNV의 길이는 약 5Kb-100Kb였다(그림 5A). DGV와 비교했을 때, 우리는 1,169개(57.36%)의 deletion와 846개(54.09%)의 duplication 포함한 3.6K의 알려진 CNV를 확인했다. CNV 영역의 반복 구성 분석 결과, 5K보다 작은 deletion와 10K보다 작은 duplication에는 인간 게놈의 전체 frequency에 비해 20배 더 많은 단순 반복이 포함되어 있는 것으로 나타났다. 또한, SINE은>600 Kb deletion에서 2배 더 빈번했다. 이러한 연관성은 SV의 repeat distribution와 다르다. unified CNV의 유전자를 조사하여 869개(46.47%)의 deletion와 1,105개(70.65%)의 duplication이 적어도 하나의 유전자를 포함하고 있는 것으로 밝혀졌다. 또 50명의 한국인 개인(표 5)의 경우  2건의 deletion과 3건 duplication만이 보존됐다. 흥미롭게도, 7개의 유전자가 포함된 염색체 10의 2M의 긴 유전자 블록이 KPGP 기증자들에게 평균 4.22번 duplicated된 것으로 밝혀졌다. 이러한 유전자들 중에는 G protein regulated inducer of neurite outgrowth 2 (GPRIN2)가 포함되어 있는데, 이는 뇌발달과 neurite outgrowth49과 관련이 있다. 이전의 보고서들은 아시아, 유럽, 요루바 인구(three-six copies)에서 이러한 duplication를 확인했지만, 침팬지, 오랑우탄 또는 고릴라22에서는 어떠한 duplication도 보고되지 않았다. 우리는 또한 1000GP(보조표 S10)에 보존된 444개의 CNV를 확인했는데, 이것은 아마도 동아시아인의 CNV를 공유하며 한국인들에게만 한정되어 있지 않을 것이다. 한국 인구에서 다음과 같은 기준을 사용하여 5개의 deletion와 9개의 duplication이 enriched 발견되었다;; i) odds ratio >10 comparing with CNV ratio in any continents, ii) p-values < 0.01, and iii) more than five individuals in KoVariome.  OMIM 데이터베이스를 기준으로 유전자를 찾아 Phenotypic features을 검사하였고, 알려진 표현형과 관련된 유전자를 포함하는 3개의 deletion와 3개의 duplication이 확인되었다(그림 5B). 골밀도 및 골다공증50과 관련된 UDP glucuronosyltransferase family 2 member B17 (UGT2B17)의 high copy number deletion가 우리 한국 개인들을 EUR, AFR, AMR 인구와 비교함으로써 관찰되었다. 이 결과는 스웨덴 남성 9.3%에 비해 한국 남성 66.7%가 deletion of this gene 했다고 보고한 이전 연구와 일치한다. 또한 acyl-CoA와 free fatty acids52의  세포 수준을 유지하는 기능을 하는 acyl-CoA thioesterase 1 (ACOT1)이 자주 deletion되는 것을 관찰했다. 한국인의 12%에서 hydroxycarboxylic acid receptor 2 (HCAR2)의 duplication 을 확인했는데, 이는 지질저하 효과(lipid-lowering effects)와 관련이 있다. NBPF15와 HERC2의 유전자 duplication은 CNV break point에 위치해 있기 때문에 제외했다. 이러한 CNV는 향후 연구에서 특정 표현형을 가진 한국 고유의 유전적 연관성을 검출하는데 유용할 것이며, 이는 CNV가 중요한 질병 관련 변이을 포함할 가능성이 있음에도 불구하고 SNV보다 덜 자주 분석되기 때문에 특히 중요하다.

Figure 5

KoVariome의 copy number variations의 속성. (A) Korean population의 CNV 수 및 specific length range의 repeats  부분. 보존된 CNV는 70%의 상호 중첩으로 Database of Genomic Variants (DGV) 를 검색하여 정의되었다. 그림 4B의 repeats 약어를 참조. Korean enriched CNV는 1000GP에 보고된 CNV를 검색하여 식별되었다. No.는 KoVariome에서 예측된 CNV의 수를 나타낸다. heatmap는 특정 1000GP 대륙 그룹에서 CNV 비율과 비교하여 CNV의 승산비를 나타낸다. OMIM database를 검색하여 관련 유전자를 식별하였다. 대륙 그룹의 약어: European (EUR), African (AFR), Native American (AMR), South Asian (SAS), and East Asian (EAS).

Table 5

Copy number variations conserved in 50 Korean individuals. <thead> </thead>

Chr. Start End CNV Types Average copy number Genesa
chr2 132,964,050 133,121,849 Dup. 4.02 MIR663B, FAM201B, ZNF806, ANKRD30BL
chr10 46,222,900 46,946,499 Del. 1.0 PTPN20, FAM35BP, AGAP4, FRMPD2B, FAM21C, BMS1P5
chr10 46,946,200 47,150,299 Dup. 4.22 NPY4R, GPRIN2, CH17-360D5.1, LINC00842, LOC102724593, HNRNPA1P33, SYT15
chr10 47,147,400 47,384,499 Del. 1.0 ANXA8, FAM35DP, LINC00842, FAM25C, AGAP9, FAM25G, BMS1P6
chr15 21,885,000 21,944,149 Dup. 6.4 LOC646214

aGenes in the identified CNV region. Chr. Chromosome; Dup. duplication; Del. deletions.

결론

질병을 유발하는 유전적 변이를 발견하기 위해, 연구자들은 특정 인종 집단 내에 존재하는 양성 유전적 변이를 포함하는 종합적인 population-specific databases에 의존한다. KoVariome 데이터베이스는 한국인 인구에 대한 이러한 필요를 충족시키기 위해 만들어졌으며, health metadata에 상응하는 50명의 건강하고 친족이 아닌 한국인 개인으로부터 5.5TB의 WGS 데이터를 포함하고 있다. 이 데이터베이스를 사용하여 4가지 변형 유형을 모두 특성화하고 12.7M SNV, 1.7M인델, 4K SV, 3.6K CNV를 식별하였으며, 그 중 상당수는 참신하거나 selectively enriched하였다. 가까운 지리적 근접성에도 불구하고, 한국 인구는 중국 및 일본 인구와 유전적으로 구별되는 것으로 나타났으며,  rare disease variant를 정확하게 식별하기 위한 Korean-specific variome 필요하다는 점을 강조한다. 따라서, KoVariome 내의 population-specific variant에 대한 종합적인 비교 분석을 사용하여 암, fibrodysplasia ossificans progressive, Van der Woude 증후군, II형 당뇨병, 척추후만증을 포함한 여러 질병에 대한 candidate loci, inheritance patterns, 및 유전적 위험을 예측하였다. 유전자 검사가 점점 더 일상적인 정밀 건강관리 구성요소가 되어감에 따라 KoVariome은 생물의학 연구원들과 건강 실무자들에게 매우 귀중한 자원이 될 것이며, 환자들이 질병 위험에 대한 가장 정확한 유전자 예측을 제시하도록 보장함으로써 환자에게 직접적인 혜택을 줄 것이다.

방법

샘플 수집 및 데이터 배포

Korean variome data center(KOVAC)는 2010년부터 Korea Personal Genome Project(KPGP: http://kpgp.kr)에 자원자를 모집했다. 본 연구에서 사용된 모든 방법은 관련 지침과 규정에 따라 수행되었으며, Genome Research Foundation (GRF)의  Institutional Review Board (IRB)의 승인을 받았다. 연구 참여에 대한 동의서는 대한생명윤리법에 따라 모든 참가자에게서 획득되었으며, 모든 실험 프로토콜은 GRF IRB의 승인을 받았다. 각 개인은 WGS용 혈액샘플을 제공하는 것 외에도 신체특성, 습관, 16개 알레르기에 대한 반응, 가족력, 19개 질환 등급과 관련된 신체조건에 대한 설문지(표 S1)에 응답했다. 유전자 DNA는 QIAamp DNA Blood Mini Kit(Qiagen, CA, USA)를 사용하여 추출되었으며, 69개의 WGS 라이브러리는TruSeq DNA sample preparation kits (Illumina, CA, USA)를 사용하여 구성되었다. 제조자의 지시에 따라 Illumina HiSeq sequencers를 사용하여 시퀀싱을 수행했다. KoVariome의 홈페이지는 http://variome.net이다. 친족이 아닌 건강한 한국인 50명의 WGS 데이터를 분석해 KOBIC(ftp://ftp.kobic.re.kr/pub/KPGP/))의 national FTP portal server를 통해 공개하고 GRF(http://pgi.re.kr)와 Variome.net을 통해 배포한 KoVariome 데이터베이스를 만들었다. 본 연구에서 분석한 모든 데이터는 NCBI SRA(PRJNA284338)에 등록되어 있으며 , 각 표본에 대한 접근은 부록 표 S2에 수록되었다.

SNV와 indel 분석

WGS 데이터는 Korean Research Institute of Standards and Science(KRISS) 기술위원회에서 평가한 프로토콜에 따라 처리됐다. 유전자 자원은 Genome reference human genome (GRCH37/hg19), reference genes, and repeat annotations를 포함한 Genome bioinformatics 는 UCSC에서 (http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/) 다운로드 되어 진다.  Raw DNA reads은 Sickle(https://github.com/najoshi/sickle))에 의해 정리되었다. 품질 점수는 >20, 읽기 길이는 >50 bp이다. Cleaned paired-end reads는 BWA54를 사용하여 human reference genome 에 매핑되었으며, 인델은 PCR duplicates를 제거한 후 재조정 및 재보정화되었다. 마지막으로, GATK UnifiedGenotyper(ver. GATK-Lite-2.39)9)55를 사용하여 각 개인에 대한 SNV와 엔델을 식별했다. 식별된 SNV의 품질을 개선하기 위해, i) read depth (DP)가 20배 이상, ii) mapping rate가 90% 이상이라는 SNV 충족 기준을 적용했다. 다음 기준을 사용하여 향후 분석에서 저품질 indel을 재고했다. i) 품질 점수 <27과 DP <6, ii) 매핑된 allel valance가 0.3 미만인 heterozygous indel.

변이의 Protein modeling

변이의 기능적 효과를 추론하기 위해 SnpEff-3.356을 구현했다. non-synonymous SNV의 유해한 영향은 유해한 non-synonymous SNVs57을 제공하는 포털 데이터베이스인, dbNSFP(ver. 2.9.1)를 검색하여 얻었다. 그런 다음 SIFT, Polypen2, PROVEAN, MetaaSVM 및 MetaLE을 사용하여 단백질 기능에 대한 각 변이의 영향을 예측하고, Interpro_domain 및 COSMIC(암에서 육체적 돌연변이의 카탈로그, ver. 71) 데이터베이스를 사용하여 추가 주석을 달았다. 이전에 보고된 SNV와 인델은 dbSNP 데이터베이스(ver. 146)를 사용하여 식별되었다. 이후 50bp 미만의 모든 변이는 이 데이터베이스에 저장되었다. ClinVar (ver. 20161101)42 및 OMIM(2016-11-22)59 데이터베이스를 검색하여 알려진 병원성 변이를 식별하였다.

유전적 거리 계산

두 표본 사이의 유전적 거리(pi)는 다음 공식을 사용하여 계산했다.

pi=D/N,

여기서 D는 두 표본 사이의 뉴클레오티드 차이이고 N은 비교된 위치의 수이다. 뉴클레오티드 차이의 합은 각 게놈 위치에 대한 두 표본 사이에서 계산되었으며, 이는 0내지 1의 범위였다. reference allele로 구성된 homozygous genotype이 uncalled site의 유전자형으로 채택되었다.

Multidimensional Scaling (MDS)분석

중국인 84명과 일본인 86명에 대한 유전자형 데이터는 HapMap project에서 얻었다. 총 1,387,956개의 SNV loci가 KoVariome과 병합되었다. PLINK 프로그램을 사용하여 MAF < 0.05, call rates < 0.05, linkage disequilibrium block의 SNP인  genomic loci를 제거했다. 총 117,521개의 SNP가 여과 후에도 남아 MDS 분석에 사용되었다. distance matrix method “canberra” 를 사용하여 R에서 Five dimensional component를 계산하고 MASS 패키지를 사용하여 MDS plots을 생성했다

SNV의 정확성

SNV 예측 정확도를 측정하기 위해, 35 individuals were genotyped with the AxiomTM Genome-Wide East Asian (ASI) 1 Array (Affymetrix, Inc.). 정확도와  recalls은 AxiomTM Genome-ASI 1 Array의 유전자형화 결과와 우리의 파이프라인으로 분석된 alternative allele의 존재와 부재로 구성된 분할표(contingency table )를 사용하여 분석되었다. call의 정밀도는 일치도를 분석하여 계산하였으며, 예측된 모든 SNV로부터 true positive predictions (TP) 으로 표시되었다. recall은 AxiomTM Genome-ASI 1 Array에 대표되는 유전자형 수로 나눈 TP로 정의되었다. 유전자형 정확도는 GATK 예측과 AxiomTM Genome-ASI 1 Array의 결과 사이의 유전형태의 일치성을 분석하여 측정하였다. indel  예측의 정확도는 GATK 예측과 AxiomTM Genome-ASI 1 Array의 유전자형을 비교하여 계산하였다

구조적인 변이

우리는 두 프로그램인 BD와 pindel을 적용하여 각각 discordant mate-pair and split-read information를 기반으로 게놈 전체 SV를 예측하였다. 각 개인을 위한 bam 파일에서, 100에서 1Kb 사이의 길이의 insertion과 deletion는 핀델(ver. 0.2.4t)에 의해 예측되었고, 1Kb보다 긴 것은 BD(ver. 1.4.5)64에 의해 예측되었다. 다음으로 hg19 reference genome 에서 nassembled genomic blocks (‘N’)을 구성하고 이러한 unassembled genomic  영역과 겹치는 SV를 조사했다. 이 분석으로부터, 우리는 이들 영역에서 spurious SV의 높은 부분을 발견했다(보조 그림). S5), 그 중 대다수가 >100M 초과한다. 다음 기준은 spurious SV를 걸러내기 위해 사용되었으며, i) reciprocally >10% overlaps between SVs and un-assembled genomic blocks, ii) ‘N’s more than 50% coverage of SVs, and iii) more than 2 un-assembled genomic blocks in the predicted SVs. 필터링 후, 우리는 모든 개인에서>70%를 서로 오버랩하는 SV를 클러스터링했다. Unified SV는 각 SV 클러스터의 평균 시작 및 종료 위치로 정의되었다. 각 SV의 새로움은 unified SV와 DGV65의 SV를 비교함으로써 70%의 상호 중복으로 정의되었다.

Copy number variations

CNV는 window size = 100, step size = 50, and breakpoint = 0.648을 사용하여 FREEC(ver. 10.6)로 예측되었다. spurious CNV는 길이 >1M에서 농축되었으며(그림 S7) 위의 SV 방법에 설명된 것과 동일한 기준을 사용하여 필터링되었다. Unified CNV는 >=70% 서로 중복된 개별 CNV를 통합하여 구축하였다. Unified CNV의 시작 위치와 종료 위치는 original call의 평균 위치로 정의되었다. 알려진 CNV는 DGV 데이터베이스에서 CNV와 비교하여 정의되었다.

Data resource access

http://variome.nethttp://kpgp.krhttp://koreangenome.org.