한국_게놈_프로젝트_임상_정보가_포함된_1,094_개의_한국_개인_게놈.docx‎

제목 : 한국 게놈 사업 : 임상 정보가 포함된 1,094 개의 한국인 개인 게놈 분석

짧은 제목 : 1천명 한국인 게놈정보

저자

전성원 ^{1, 2, †}, 박영준^{1,2,3, †}, 최연송^{1, 2, †}, 전연수 ^{1, 2}, 김승훈 ^{1, 2}, 장재영 ¹, 장진호 ^{1, 2}, Asta Blazyte ¹, 김창재 ^1,3, 김연경 ¹, 심정애 ¹, 김나영 ¹, 김여진 ¹, 박승구 ⁽¹⁾, 김정은 ⁴, 조윤성 ³, 박예신³, 김학민 ^1,2,3, 김병철 ³, 박능화^{5, 6}, 신은석 ⁷, 김병철³, Dan Bolser ³, Andrea Manica ⁽⁸⁾, Jeremy S.Edwards⁽⁹⁾, George Church^{(10), *}, 이세민 ^{1, 2, *}, 박종화 ^{1,2,3,4, *}

소속

¹울산 과학기술원 (UNIST), 한국 게놈산업기술 센터 (KOGIC), 울산, 44919

²울산 과학기술원, 생명과학부, 생명공학부 (UNIST), 울산, 44919

³Clinomics Inc, 울산, 44919

⁴개인 유전체학 연구소 (PGI), 게놈 연구 재단 (GRF), 오송, 28160, 대한민국.

⁵울산대학교병원, 울산 의과대학, 내과학 교실, 44033

⁶울산대학교병원, 울산 의과대학, 생의학 연구 센터, 44033

⁷울산병원, 울산의료원, 내과학 교실, 심장 의학부, 44686

⁸영국 캠브리지 CB2 3EJ, 다우닝스트리트, 캠브리지 대학교 동물학과.

⁹뉴 멕시코 대학교, 화학 및 화학 생물학, 뉴 멕시코 대학교 종합 암 센터, 앨버 커키, 미국 NM 87106.

¹⁰미국 매사추세츠 보스턴 보스턴 하버드 의과 대학 유전학과

^†이 저자들은이 작업에 동등하게 기여했습니다.

^*해당 : gchurch@genetics.med.harvard.edu (GC), seminlee@unist.ac.kr (SL) 및 jongbhak@genomics.org (JB)

짧은 요약(Teaser)

한국인 게놈 사업의 첫 결과인 1,094명의 전장게놈을 임상 정보와 분석 발표함.

초록

본연구는 79개의 정량화된 임상정보 데이터와 함께 1,094 개의 전장 게놈 (평균 해독깊이 31×)을 포함한 1천명 한국인 게놈 사업 (Korea1K)의 초기 단계를 제시한다. 우리는 3,900 만 개의 단염기다형(SNP)와 유일변이, 이중변이, 인델(indels)을 식별해냈다. 이런 다양한 유형의 게놈 변이를 기반으로 한 한국인 특이패턴도 발견했다. 전장 게놈 상관성 연구를 통해 임상정보를 분석하기 위해, 전장 게놈 서열을 사용해야할때의 효과를 보여 주었고, 이전에 동일한 연결불균형 블록(LD)에서 보고된 것보다 더 중요한 9개의 대립 유전자 후보를 확인했다. 또한 참조표준변치에로서의 Korea1K는 일반적으로 사용되는 1천명게놈데이터(1KGP) 패널보다 한국인에게 더 나은 비교 정확도를 보여준다. 임상적 유용성의 증거로서, 우리의 한국인 1,000명 변이체를 타 인족 변이체 세트와 비교할때, 한국것을 표준 패널로 사용하면 암 샘플의 선천적 변이들을 걸러내는데 더 효과적이다. 전반적으로 이 연구는 Korea1K가 미래의 임상 및 인족특이적인 유전자연구에 유용한 유전자형 및 표현형 자원이 될 수 있음을 보여준다.

연구배경

한국 인구 (예상되는 인구 규모는 약 8천5백만명)는 과거에 대규모 혼합 사건이 거의 없었으며 (1-4) 매우 균질 한 것으로 생각되었다. 그러나 이러한 주장에 대해서는 공식적인 조사가 거의 이루어지지 않았었다. 최초의 한국인 게놈 데이터(SJK)가 2008년에 발표된 이후, 최초의 한국 참조 게놈 서열(KOREF_S)(8)와 한국 게놈 변이 데이터베이스인(9) KoVariome의 기반을 형성한 40명의 관련없는 개인(KOREF_C)을 포함한 몇몇 한국 전체 게놈 서열과 엑솜(5, 6)은 보고된 적이 있다. 현재의 연구에 앞서, 한국인 개인의 적어도 100 개의 전체 게놈이 전 세계적으로 이용 가능했다(5, 10). 그러나 전 세계 인간 유전자 다양성을 특징 짓는 전세계 1000명 인간게놈 프로젝트 (다민족 1,000 게놈 프로젝트)에는 중국과 일본을 포함한 2,500 개 이상의 게놈이 포함되어 있지만 아직 한국 게놈정보는 포함되어 있지 않다 (11).

또한 UK10K(12), GoNL 프로젝트(13) 및 범 아프리카 게놈 (14)을 포함하는 인간 게놈 다양성의 범위를 확장하기 위해 생성되었던 몇몇 인간 variomes와 인종 별 표준 게놈 서열을 생성하려는 노력이 있었다. 2015년에 2,636개의 게놈을 시퀀싱함으로써 아이슬란드 population에서 강력한 창시자 효과의 결과가 입증되었다(15). 덴마크 population연구에서, 150 개의 trios가 참조 게놈을 de novo assemble하기 위해 사용되었으며, 그들은 주 조직 적합성 복합체 (MHC) 및 Y 염색체의 주요 영역을 포함한 구조적 변이 및 많은 복잡한 게놈 영역에 대한 상세한 데이터를 제공한다(16). 동아시아에서, 1KJPN 프로젝트는 1,070 개의 일본 게놈에 대한 데이터를 생성했으며(17), 또 다른 최근 데이터 세트는 2,234 개의 일본 전체 게놈 데이터(18)에서 일본 population의 selection signatures을 식별했다. 대조적으로, 원래 KoVariome 데이터베이스는 출판 당시 임상 정보가 없는 한국인 전체 게놈 서열이 50개에 불과했지만(9), 그 이후에는 샘플 크기가>100개로 증가했다. 수많은 populations에서 이러한 대규모 게놈 시퀀싱 프로젝트에도 불구하고, 생화학 및 임상 데이터는 거의 없으며 참가자의 유전자형-표현형 연관성에 관한 제한된 정보는 인구의 건강 및 질병 상태를 특성화 하기 위해 수집되었다.

여기에서, 우리는 1,094개의 한국인 전체 게놈으로 구성되고 1,007개의 게놈이 새로 생성되어 참가자의 혈액과 소변에서 체계적으로 획득한 임상 및 생화학적 측정 정보와 함께 생성된 데이터 세트를 소개한다. 이 Korea1K 세트는 한국 게놈 프로젝트(KGP)의 첫 단계 출시를 나타낸다. KGP는 하버드 의과 대학의 개인 게놈 프로젝트(PGP), 한국의 Standard Reference데이터를 위한 국가 센터, Clinomics Inc, 울산과학기술원의 한국게놈센터의 공동 프로젝트이다. 이러한 게놈은 Illumina Hi-Seq X10을 사용하여 높은 시퀀싱 깊이 (평균 ~ 31X)로 시퀀싱되었으며, 우리는 이 데이터를 single nucleotide variants (SNV), indels, copy number variations (CNV), transposable element (TE) 삽입, 그리고 한국인 population의 인간 백혈구 항원(HLA) 유형과 한국인 데이터를 다른 populations의 유사한 데이터와 대조하는 것을 특성화하기 위해 사용하였다. 게놈 데이터의 대부분 (984 개 샘플)은 울산 대학교 병원에서 측정된 79 개의 정량적 특성에 대한 임상 정보가 있는 자원 봉사자로부터 얻은 것이다. 이 큰 게놈 데이터 세트의 실용적인 유용성을 평가하기 위해, 79 개의 정량적 임상 특성의 정보를 사용하여 전장 유전체 연관성 분석(GWAS)을 수행했다. 우리는 또한 이전에 발표된 19개의 위암 환자 게놈을 분석하여 기준 패널로서 데이터 세트의 효과를 정량화했다 (19).

연구결과

Korea1K 데이터 세트의 단염기변이(SNVs) 및 삽결변이(indels)

1,007개의 혈액 또는 타액 샘플(임상 및 생화학적 정보를 갖는 984 샘플)로부터의 전체 게놈 서열 분석(WGS) 데이터를 평균 시퀀싱 depth 31x로 생성하고 KoVariome 데이터베이스(9)에서 추가의 87개의 혈액 또는 타액 샘플로부터의 시퀀싱 데이터(임상 정보없이)를 함께 모았다. 대체로 울산 광역시에서 온 916 명의 무관하고 건강한 개인을 포함한 1,094개의 완전한 게놈이 인간 게놈 참조 (hg38)와 비교되었다. 39.2M SNVs 및 7.6M indels이 데이터 세트에서 호출되었다(표 S1). 우리는 시퀀싱 배치 효과에 의한 위양성 변이들과 34 M SNVs and 4.8 M indels를 포함하는 변이들의 세트를 생성하는 관련된 개인으로부터 의 변이들을 필터링 했다. 우리는 한국인 population에서의 대립 유전자 빈도에 따라 다섯 개 종류로 변이들을 나누었다(singleton: 대립 유전자 수 = 1; doubleton: 대립 유전자 개수 = 2; rare: 대립 유전자 수 > 2와 대립 유전자 빈도≤0.01; common: 대립 유전자 빈도> 0.01 하지만 ≤0.05; very common: 대립 유전자 빈도> 0.05; 그림 1A). 우리의 대규모 데이터 세트의 힘을 강조하면서, 우리가 식별한 변이들의 약 절반이singleton이나 doubleton (allele count ≤ 2)으로 분류되었고, 놀랍게도 이들 중 70 % 이상이 dbSNP (v150) (20)에 보고되지 않았다. 반면에, 변이들의 20 % 미만이 very common으로 분류되었고 (대립 유전자 빈도> 0.05), 이러한 변이들의 94 % 이상이 이전에 dbSNP(v150)(20)에서 보고되었다. 매우 일반적인 SNV 의 총 96. 6%가 KoVariome와 겹쳤으며(9), 희귀 SNV의 12.4%만 비교했다(그림 S3). 대립 유전자 빈도>0.01을 갖는 변이들의 수는 다른 비-아프리카 계 인구(1KGP 비-아프리카 및 3.5KJPN)와 유사하지만 Korea1Kdml 매우 큰 샘플 크기 때문에 KoVariome보다 대립 유전자 빈도가≤ 0.01인 변이들이 훨씬 많았다(그림 S4). 최종 변이들 세트에 기초하여, 각각의 개체는 평균 ~ 4.42M 변이들 (3.58 M very common, 0.4 M common, 0.31 M rare, 0.46 M doubleton, and 0.85 M singleton variants)을 나타냈다.

다음으로, 우리는 각 변이체가 기능적 영향과 게놈에서의 위치에 기초하여 19 개의 다른 변이체 클래스 (즉, 유전자 간 및 intronic) 중 하나로 분류되었다(그림 S5). Korea1K 세트에서 기능 상실(LoF) 변형 (nonsense, non-stop, splicing site, and indel variants)은 다른 지역 클래스 보다 희귀, 두개변이(doubleton) 이나 singleton변형의 비율이 높았으며, 이러한 변형에 대한 선택의 정화 효과를 나타낸다. 또한, 관련이 없는 개인의 대립 유전자(사이트)주파수 스펙트럼을 사용하여 다른 게놈 영역에서 선택 압력 하의 분획을 추정했다(21). LoF 변이들은 음성 선택 하에서 가장 높은 비율의 부위를 가짐을 확인 하였다(그림 S6). 우리는 전체 유전자 세트에 동일한 비교 분석을 적용하였고 16개의 유전자가 높은 정제 선택 압력을 보였으며, 이는 게놈에 걸쳐 nonsynonymous 변이들에 대한 선택보다 훨씬 더 강하다는 것을 발견했다. 4개의 유전자가 양성 선택 압력을 암시하는 음성 값을 나타냈다(그림 S7). Indels와 관련하여 Korea1K 세트는 삽입(insertions)(2,155,644)보다 많은 삭제(deletions)(2,573,411)를 표시했으며, 이로 인해 변형 호출이 왜곡되어 발생할 수 있다(그림 S8). 단백질-코딩 영역의 indels는 길이에 기초하여 인-프레임 indel 중 더 높은 피크를 나타내어 정제 선택을 나타냈다(22)(그림 S9).

관련이 없는 개별 게놈 에서 새로 관측된 변이들의 발견률은 주어진 집단에서 게놈 다양성을 정량화 하는 방법이다(23). 관련이 없는 한국 게놈의 새로 관찰된, 비공유 변이들의 패턴은 5개의 대립 유전자-주파수 범주를 사용하여 조사되었다(그림 1B). 132개의 샘플(14.4%) 후에 포화된 매우 일반적인(대립 유전자 빈도>0.05) 변이들의 발견률은 916개의 건강한 무관한 샘플을 모두 분석한 후에도doubleton 이나 singleton변이체의 비율이 여전히 증가했다. 우리는 이전에 공개된 KoVariome과 관련이 없는 개인에서 새로 관찰된 변이들의 수를 비교했을 때 예기치 않게 Korea1K가 KoVariome보다 약간 더 새로운 변이들의 발견을 보였다(그림 S10, Korea1K: 101,866; KoVariome: 48,051 (50 번째 개체)). 이 증가는 변종 호출 파이프 라인 및 인간 게놈 참조의 최신 버전을 구현하여 발생했을 수 있다. 예상 한 바와 같이, 이는 한국인 population에서 매우 희귀 한 변이들을 충분히 포괄하기 위해 더 많은 서열 유전체가 필요하다는 것을 확인시켜 준다.

Korea1K 세트에는 266,081 개의 비동의 SNV (nsSNV)가 포함되어 있다. 그 중에서 118,417과 117,414는 각각 PolyPhen(24) (손상: 46,116; 아마도 손상: 72,301)과 SIFT(25) (해독: 117,414)에 의해 단백질 손상으로 분류되었다. 전체적으로 87,671개의 변이체가 두 프로그램 모두에 의해 단백질 손상으로 예측되었으며, 대립 유전자 빈도는 희귀한 주파수로 기울어졌으며, 양성 또는 허용되는 변이들은 공통 주파수로 기울어졌으며 다시 정제 선택을 나타냈다(그림 S11).

한국인의 미토콘드리아 및 염색체 Y 반수체 그룹을 조사한 결과 (그림 S12 및 S13), 보통 타입의 D(34.19%), B(13.89%) 및 M(13.80%) 미토콘드리아 및 O(73.49%), C(16.9%) 및 N(6.58%) 염색체Y이 확인되었다(26,27). O남성 haplogroup은 동아시아와 동남아시아에 널리 분포되어 있으며, C haplogroup은 동아시아와 동북아시아에 눈에 띄게 분포되어 있다(26). 우리는 또한 동아시아에서 다른 흔한 미토콘드리아 haplogroup 그룹(A, G, F)을 확인했다(28).

다른 인구와 비교되는 한국인의 게놈 기능

우리는 우리의 데이터 세트와 1KGP에 작은 크기의 변이 (SNP와 INDEL)와 주성분 분석 (PCA)를 사용하여 우리의 Korea1K 샘플의 유전적 특수성을 평가하였다. 이전에 보고 된 바와 같이, 전 세계 인구가 있는 주성분 PC1과 PC2는 별도의 동아시아 그룹을 보여 주었다(그림 2A). 한국인, 중국인 및 일본인은 다른 모든 개인에 비해 유전적으로 매우 유사하지만(29), 우리는 이 세 집단이 서로 뚜렷하게 군집되어 있음을 발견했다(그림 2B). 이 패턴은 K = 3인 ADMIXTURE 분석으로 복제되었다(그림 S14).

기능적으로 관련된 변이들을 조사하기 위해 Korea1K에서 발견된 1,048개의 ClinVar 병원성 변이들을 추출했다. 그 중에서도 한국 1K에서는 242개의 변이체가 0.1보다 큰 대립 유전자 빈도를 가졌으며 이는 병원성 변이들에 비해 높다(그림 S15). 또한 ClinVar에 주석이 달린 35개의 약물 반응 변이들이 발견되었으며(그림 S16), 이들 중 11개는 1KGP세트의 중국 또는 일본 개인과는 상당히 다른 대립 유전자 빈도를 보여 병원성 또는 약물을 해석 할 때 집단 별 데이터 세트의 중요성을 강조했다. 예를 들어, ADD1의 변이 rs4961은 다른 집단에 비해 Korea1K에서 가장 높은 빈도를 보였으며 유럽 연구에서 볼 수 있듯이 furosemide 및 spironolactone에 대한 고혈압 및 반응성과 관련이 있다(30, 31). 그러나 Korea1K 세트를 사용하는 GWAS에서 혈압과 유의한 연관성이 발견되지 않았다(자세한 내용은 GWAS 섹션 참조).

WGS 데이터가 복잡하거나 매우 가변적인 비 유전자 영역(16,17)에서 다양한 변이들을 식별할 수 있으므로 CNV, TE 삽입 및 HLA-1 haplotypes(보조 자료 및 방법 참조)를 식별했다. Korea1K는 1,441개의 CNV 유전자 지역을 포함하고 80%는 전체 1KGP 샘플에서 설정한 CNV와 겹치지만 세그먼트 복제 영역과 겹치지 않다. 4개의 공통 CNV(샘플 주파수> 0.05)는 1KGP 세트의 공통 CNV와 겹쳤고 2차 CNV caller(보충 자료)에 의해 검증되었으며, 5개의 단백질 코딩 유전자가 포함되었다(그림 S17 및 S18, 확장 데이터 표 S1). 4개의 일반적인 CNV 중에서 Korea1K는 식이지질가수분해에 관여하는 췌장 콜리파제 인 CLPS의 복제가 있었다.

Transposable Element(TE) 다형성의 경우, 한국인과 다른 집단 사이의 TE 삽입 패턴을 PCA로 조사 하였다(그림 S19, S20 및 표 S2). PC1과 PC2는 4개의 슈퍼 populations(아프리카 인, 아시아 인, 미국인 및 유럽인)이 서로 잘 분리되어 있는 반면 동아시아의 하위 population는 그렇지 않다는 것을 확인했다. 따라서, 게놈 다양성이 대립 유전자 빈도 분포에 명확하게 반영되었지만 특정 TE 삽입 패턴만으로는 동아시아에서 소집단을 미세하게 구별하기에 충분하지 않다(그림 S21 및 S22). 1KGP 세트에서 한국인과 26 명의 다른 모집단 사이에 상당히 다른 대립 유전자 빈도를 갖는 TE 삽입이 열거되었고, 예상대로, Korea1K는 비 동아시아 인에 비해 동아시아 population에 비해 차등 TE 삽입이 현저히 적었다(그림 2C, 2D 및 확장 데이터 표 S2). 또한 ALU와 SVA는 JPT, CHB 및 CHS에서 LINE보다 차이를 나타내는 TE 삽입의 비율이 더 높았는데, 아마도 TE 유형의 삽입률이 다르기 때문일 것이다.

또한 한국 1K의 HLA 유형을 유럽, 미국 및 아시아 HLA 주파수를 포함하는 공개 데이터베이스의 유형과 비교했다(그림 S23 및 S24). 우리의 HLA 대립 유전자 빈도 패턴은 공공 데이터베이스에서 한국어 샘플의 HLA haplotype 분포와 매우 유사했다. HLA 유형 A * 24 : 02, A * 26 : 01, A * 31 : 01, B * 40 : 02 및 B * 52 : 01은 일본 인구에 비해 한국 인구에서 대립 유전자 빈도가 유의하게 낮았다(피셔의 정확한 시험 각각의 P-값 3.61E-49, 7.09E-08, 1.34E-12, 9.61E-12 및 3.13E-42); A * 33 : 03 및 B * 44 : 03 유형은 대립 유전자 빈도가 높았다(Fisher의 정확한 테스트 P- 값 3.10E-46 및 1.00E-05). 비록 일본인은 유전적으로 한국인과 매우 유사하지만, 이들 집단의 HLA 유형 프로파일은 상당히 다르다. 그러나 아시아 인구의 유사점을 확인했다. 예를 들어, 유형 A * 33 : 03, A * 02 : 06 및 B * 58 : 01은 상대적으로 높은 대립 유전자 빈도를 보인 반면 유형 A * 02 : 01, A * 03 : 01, A * 01 : 01, A * 32 : 01, A * 68 : 01, B * 07 : 02, B * 44 : 02 및 B * 08 : 01은 아시아 인구(한국, 일본 및 다른 집단에 비해 중국 인구)에서 다른 그룹들 보다낮은 대립 유전자 빈도를 보인다.

임상적 특성에 기반한 GWAS

광범위한 게놈 적용 범위 덕분에 인구 규모 WGS 데이터는 정량적 특성 및 질병과 통계적으로 유의한 연관성을 식별하는데 칩 기반 접근 방식보다 효과적이다(12). 게놈에 대해 일치하는 임상 또는 표현형 데이터를 사용할 수 있으면 더욱 강력하다(32). Korea1K 세트에서, 우리는 한국 게놈 프로젝트 참가자들에게 제공된 건강 점검을 통해 984개 샘플 (확장 데이터 표 S3)로부터 측정된 79개의 정량적 임상 특성을 정량화 할 수 있었다. 우리는 984개 샘플 중 823개의 관련이 없는 개체로부터 79개의 정량적 특성 및 6,658,227개의 변이들 (6,658,227개의 변이들(SNVs) 및 726,012개의 indels; 마이너 대립 유전자 빈도[MAF]> 1 %)에 대한 관련 공변량과 첨가제 유전자 모델을 피팅하여 연관성을 분석했다. 분석 결과, GWAS를 통해 11개의 정량적 특성에 통계적으로 연결된 467개의 변이들(P <7.5 × 10-9, Bonferroni-corrected significance threshold)이 발생했다. 467개의 변이들은 8개의 염색체에서 15개의 독립적인 유전자 부위에 응집되었고, 이들 중 11개는 형질과 관련 된 이전에 보고된 변이들을 포함했다. 일반적으로 사용되는 Illumina Omni 2.5 휴먼 SNP 칩에는 11개의 인덱스 변형이 존재하지 않는다. (그림 3, 표 1, 그림 S25-S28, 확장 데이터 표 S4 및 S5). 보고된 변이들의 11개 유전자 부위 중 9개가 GWAS Catalog(33)에 보고된 변이들을 포함하고 있지만 이 연구에서는 인덱스 변이들이 새로 식별되었다. 15개의 독립적인 유전자 부위 중, MAMASTR에서 암 마커 (탄수화물 항원 19-9 및 탄수화물 항원)와 관련된 하나의 새로운 유전자 부위를 확인할 수 있다. 체지방률과 관련된 WDPCP에서도 새로운 유전자 부위가 발견되었다. triiodothyronine관련된 SERPINA7의 또 다른 신규 유전자 부위가 발견되었다.

우리는 또한 염색체 2에서 두 개의 유전자 부위를 발견했다(rsID: rs28946889, 특성: 총 빌리루빈, P- 값: 1.85E-23; rs662799, 중성 지방, 4.22E-10). 흥미롭게도, norvel 유전자 부위의 MAF는 우리가 이전에 보고된 이들 유전자와 유전자 부위에서 GWAS 변이들의 MAF를 비교할 때 이전에 보고된 것보다 현저히 낮았다(그림 S29). 이는 WGS 데이터의 대규모 변이가 전체 게놈 기반 GWA 연구를 통해 저주파 대립 유전자와 새로운 유전자 부위를 식별하는 데 도움이된다는 것을 의미한다.

Korea1K 대치 패널

Haplotype를 기반으로 하는 대치는 임상 목적으로 인간 유전자 변이를 포착하는 비용 효과적인 방법이다. 결정적으로, 모집단 별 참조 패널을 사용할 때 대치의 정확도가 향상된다(17). 먼저 Korea1K 데이터 세트를 사용하여 위상 기준 패널을 구성하고 SHAPEIT2(36)를 사용하여 Korea1K와 1KGP 패널의 조합을 구성했다. 3개의 기준 패널(Korea1K(n=1,059), 1KGP(n=2,504) 및 Korea1K+1KGP(재위상, n=3,563)) 에 대한 대치 정확도는 일치하는 정규 샘플에서 사전 위상 변이를 대치하여 평가했다. 한국 위암 환자 19명 중 이 테스트 세트는 Minimac3(37)을 사용하여 3개의 기준 패널로 대치되었다. 실제 유전자형과 대치된 유전자형의 용량 사이의 제곱 된 Pearson 상관계수를 비교하여 정확도를 평가하였다. Korea1K 패널은 1KGP 패널보다 낮은 대립 유전자 주파수에서 실제 유전자형과 더 나은 상관 관계를 보였으며, 결합된 Korea1K+1KGP 패널은 전체적으로 최고의 정확도를 보였으며, 이는 한국 SNV 데이터의 대치에 대한 Korea1K 세트의 유용성을 나타낸다(그림 4).

암 유전체학 연구를 위한 표준 패널인 Korea1K 데이터 세트

게놈 데이터베이스는 게놈 전체 임상 연구를 위한 참조 패널로 사용될 수 있다(38). 실제 사례 중 하나는 암 돌연변이 분석이다. 많은 암 관련 연구는 전체 calling세트에서 생식선 변이들을 여과하기 위해 일치하는 정상 대조군 샘플이 필요하다(39, 40). 그러나 동일한 암 환자의 정상적인 시퀀싱 데이터와 일치하는 것은 때때로 불가능하다. matched-normal 대한 대안으로서, 대규모의 변이 참조 패널은 잠재적으로 생식선 변이들을 걸러 내기 위해 암 유전체학 연구에 대한 제어 세트 역할을 할 수 있다(41).

민족별 노멀 패널로서의 Korea1K 데이터 세트의 힘을 추정하기 위해, 우리는 이전에 보고 된 한국 위암 데이터 세트에 대한 노멀 패널로서 Korea1K, 3.5KJPN(17) 및 1KGP(11)의 효과를 평가했다(19). 먼저 암과 일치하는 정상 조직의 WGS 데이터를 비교하여 진정한 체세포 및 생식선 변이들을 확인했다. 그런 다음, 시험 세트의 경우, 기준 패널의 대립 유전자 빈도 컷오프에 기초하여, 암 조직으로부터의 변이들을 임시 체세포 또는 생식선으로 분류 하였다. 표적 변이들이 참조 패널에서 컷오프 값보다 낮은 대립 유전자 빈도 값을 갖는 경우, 변이들은 임시 체세포 변이들로 분류되었다. 대립 유전자 빈도 값이 높으면 임시 생식선 변이들로 분류된다. 그 후, 여러 단계적 대립 유전자 빈도 컷오프를 기반으로 예측된 변이들의 범주를 실제 변이들의 범주와 비교하여 데이터 세트의 분류 성능에 대한 통계적 측정 값을 생성했다(그림 5).

3.5KJPN 세트가 가장 많은 변이들을 포함했지만 Korea1K 데이터 세트는 생식선 및 체세포 변이들의 예측 정확도가 가장 높았다(그림 5A; 대립 유전자 주파수 차단 0.01을 사용한 Korea1K: 96.42 %; 대립 유전자 주파수를 갖는 3.5KJPN 컷오프 0.01: 평균 93.83 %). 또한, Korea1K 세트는 3.5KJPN과 유사한 Matthews 상관계수 값을 가졌으며, 이는 유사한 분류 성능을 나타낸다(그림 5B; 0.01: 0.38의 대립 유전자 주파수 컷오프: 0.01: 0.38의 대립 유전자 주파수 컷오프: 3.5KJPN, 평균 0.37). 생식 계열 변이들은 Korea1K 세트를 사용하여 가장 높은 정확도로 예측되었으며(그림 5C), 체세포 변이들의 회복률은 낮았다(그림 S30). 한국인이 암을 앓고있는 샘플을 사용했기 때문에 Korea1K 데이터 세트에서 전체적으로 유사성이 증가했다. 이는 다른 데이터 세트보다 Korea1K 세트를 사용하여 더 많은 수의 진정한 체세포 변형이 필터링 되었다는 추측으로 이어진다. 그럼에도 불구하고 Cancer Gene Census(CGC) 데이터베이스의 암 관련 유전자 변이들의 밀도는 Korea1K 필터링 된 세트에서 가장 높았다(그림 S31). 또한 생식선 여과 기준을 대립 유전자 빈도가 1.5 %로 설정했을 때 Korea1K 세트는 CGC 유전자의 밀도가 가장 높았다. 3.5KJPN 및 1KGP에 리프트 오버 레퍼런스 패널을 사용했기 때문에 리프트 오버 가능한 지역에서만 Korea1K 변형과 동일한 접근 방식을 적용했으며 결과에 질적 변화가 없음을 확인했다(그림 S32-S34). 이러한 결과는 동일하거나 매우 밀접하게 관련된 민족 그룹의 암 게놈 분석을 위해 민족 별 특정 변이들의 데이터베이스를 사용함으로써 얻을 수 있는 이점을 강조한다.

쟁점

이 연구는 기존 KoVariome(9)과 임상 정보가 추가된 1,007개의 게놈이 혼합된 1,094명의 한국인(Korea1K)에 대한 포괄적인 WGS 분석을 제시한다. 우리의 분석에 따르면, 한국인 인구는 다른 동아시아인에 비해 유전적으로 동질적이며, 이는 아마도 지난 수천년 동안 지정학적 고립에 기인한 것이다. 그러나 한국인은 상당히 균질하지만 새로 관측된 변이들의 발견률 평가에서 한국인 인간 게놈 다양성을 판단하기 위해서는 1,000개가 넘는 표본이 필요하다고 추측한다.(132 샘플 이후에 대립 유전자 빈도> 0.05 변이들이 발견된 반면singleton and doubleton변이들의 비율은 모든 916개의 건강한 관련 없는 샘플을 분석 한 후에도 계속 증가했다). 임상 정보와 결합된 대량의 게놈 데이터에도 불구하고, CNV및 TE 분석은 특이하거나 독특한 것을 식별하지 못했다. 이것은 short-read DNA 시퀀싱 방법이 생체 정보학적으로 쉽게 해결할 수 없는 구조적 변이를 탐지하는데 고유한 어려움을 가지고 있기 때문에 앞으로 이러한 동일한 변이들과 표현형 사이의 새로운 연관성을 매핑하기 위해 동일한 샘플을 사용하여 장시간 판독 시퀀싱을 수행해야하기 때문일 수 있다. 또한, 울산의 인구는 100만 명이고 빠른 산업화로 인해 한반도 전역에서 거주하고 있지만, 우리의 표본은 대부분 울산 대도시 지역에서 온 것으로 한반도 전체를 반영 할 수는 없다. 종합하면, 대부분 울산에서 채취한 1,094의 표본 크기는 여전히 한국 인구를 대표하거나 잠재적 게놈 구조적 변화를 매핑하기에 충분하지 않다.

암 유전체학 연구를 위한 표준 패널로 Korea1K를 사용하는 것에 대한 우리의 조사는 향후 암 게놈 분석을 위한 효율적인 생식선 사전 여과 공정을 위한 작은 디딤돌이 될 수 있다. 그러나, 이러한 민족성-특이적 변이들 기반 필터링이 실제 임상 환경에서, 특히 희귀 또는 개별-특이적 변이 분석에서 암 게놈 분석에 얼마나 실질적인 이익을 줄 수 있는지는 여전히 의문이다. 그럼에도 불구하고, 여기에 구축된 대규모 한국 변이체 데이터베이스는 한국인의 다양한 암 및 기타 질병에 대한 연구에 잠재적으로 적용할 수 있으며 특정 유전자 분석 비용을 간접적으로 줄일 수 있다. 일반적인 건강 검진에서 파생된 임상 정보와 결합된 이러한 종류의 개인 전체 게놈 데이터 세트는 아마도 한국인을 위한 미래의 개인화 된 의료 응용을 위한 민족성 관련 기준 패널을 위한 좋은 모범 경로 일 것이다.

연구 기술 내용

샘플 수집 및 시퀀싱

두 개의 하위 프로젝트로 구성된 한국 울산 게놈 프로젝트에 참여한 모든 개인으로부터 사전동의서를 받았다. 모든 임상 정보는 울산대학병원에서 검토되었다. 이후 받은 총 696개 표본은 울산 대학교 병원 biobank에서 관장되었다. 추가적으로, 311개의 샘플은 우리가 수집했다. 한국 내 전역의 자발적 참여자들을 모아놓은 KoVariome (9)의 한국 샘플 87개에서 자료를 내려받았다. 샘플 수집 및 해독은 울산과학기술원(UNISTIRB-15-19-A, UNISTIRB-16-13-C)의 기관윤리심의위원회(IRB)에 의해 승인되었다. 유전자 DNA는 제조업체의 프로토콜에 따라 DNeasy Blood & Tissue 키트(Qiagen, 독일)를 사용하여 사람의 혈액 샘플에서 분리되었다. 타액 샘플의 유전자 DNA는 GeneAll Exgene TM clinic SV mini 키트를 사용하여 분리(isolated)되었다. 추출된 DNA는 Quant-iT BR 분석 키트(Invitrogen)를 사용하여 정량화했다. 적절한 크기의 fragments을 얻기 위해 Covaris S2 초음파 시스템을 사용하여 High-molecular-weight 게놈 DNA를 채취했다. 쌍단 판독용(paired-end reads) 350bp의 짧은 삽입물이 있는 라이브러리는 Illumina 기반 시퀀싱을 위한 제조업체의 프로토콜에 따라 TruSeq Nano DNA 샘플 준비 키트를 사용하여 준비되었다. 제품은 Bioanalyzer 2100(Agilent, Santa Clara, CA, 미국)을 사용하여 정량화되었으며, 기초 데이터는 Illumina Hi-Seq X10 platform (Illumina)을 사용하여 생성되었다. 클러스터는 PE 2 × 150-bp 사이클 시퀀싱 판독값을 사용해 재시퀀싱하여 생성되었다. 제조사의 지시에 따라 디폴트 파라미터가 있는 Illumina 실시간 분석(RTA) 프로그램(https://sapac.illumina.com/informatics/sequencing-data-analysis.html))을 사용하여 추가 영상 분석 및 베이스 호출을 수행했다. 판독값 내 베이스의 품질은FastQC(ver0.11.5 http://www.bioinformatics.babraham.ac.uk/projects/fastqc/)(표 S3)에 의해 확인되었다.

변이 호출

어댑터 오염은 전방 어댑터('GATCGAGAGAGACGTCTTCTCCAGTCCAGTCAC'), 리버스 어댑터('GATCGAGTCGGGTAGAAGAGTGT')를 사용하여, 트리밍 후 최소 50bp의 판독 길이(read length)로 Cutadapt (ver 1.9.1)(42)를 사용하여 제거했다. 그 후 다듬어진 판독값(trimmed reads)을 '-M' 옵션(43)과 함께 BWA-MEM(ver. 0.7.16a)을 사용하여 hg38 참조에 매핑했다. 매핑된 BAM 파일은 Sortsam 모듈과 함께 Picard(ver.2.14.0)를 사용하여 조정해 정렬되었다. Markduplicates 모듈과Picard(ver.2.14.0)를 사용하여 중복된 판독값을 표시했다. 매핑의 질은 the Genome Analysis Tool Kit (GATK)의 BaseRecalibrator 툴(ver. 3.7)(44)을 통해 재측정되었다. gVCF 파일은 GATK(44)의 HaplotypeCaller에 의해 '-stand_call_conf 30 -ERC GVCF' 옵션으로 다시 보정되었다. 단일염기서열 변이와 인델은 GATK(44)의 GenotypeGVCFs에 의해 gVCF 파일에서 공동으로 유전자형을 분석했다. 호출된 변이는 변수 효과 예측 변수 (VEP) ver. 92(45)를 사용하여 주석을 달았고, 그 일부는 Moon 외 스크립트를 사용하여 음성 선택(negative selection)에 따라 추정되었다. ('https://github.com/moon-s/fraction-under-selection')(21) 각 단백질-코딩 유전자에 대한 선택 압력 하에서 분수(fraction)를 추정하기 위해, 소수의 대립 유전자 개수가 적절한 SFS를 생성하지 못할 수 있기 때문에 250개 이상의 대체 대립유전자 수 합계를 가진 유전자를 선택했다. 다음의 변이들은 기능상실 변이에 할당되었다: "Frame_Shift_Del", "Fram_Shift_Del", "In_Fram_Del", "In_Frame_Ins", "Nonstop_Mutation" 또는 "Splice_Site". 유전자 복제수 변이, TE 삽입 및 HLA 입력에 대한 자세한 방법은 보충적 방법에 기재하였다.

일괄 처리(batch) 효과 제거

각 샘플은 그 시퀀싱 라이브러리 준비 프로토콜, 시퀀싱 회사 및 혈액 샘플 또는 라이브러리를 회사에 보내는 날짜에 따라 라벨이 부착되었다. 12개의 기술적 일괄 처리가 확인되었다. 일괄 처리 효과는 EIGENSOFT(ver 6.1.4)(46)를 사용해 다음 기준에 따라 변이 및 시료를 사용해 주성분 분석(PCA)을 통해 평가되었다.
변이인 경우:

경미한 대립 유전자 빈도(MAF)의 Biallelic SNVs ≥ 5%
Hardy-Weinberg Equilibrium (HWE) 시험의 P-values > 0.05
유전자형 결측비율 <0.01

그 후, 여과된 변이들은 PLINK (47, 약 1.9b)와 ‘--indep-pairwise 200 4 0.1’을 사용해 연계 불균형(LD)을 기반으로 101,326개의 단일염기서열 변이를 제거하였다. 개별 선택을 위해 PLINK(47)로 추정되는 IBD(ID-by-descent)에 기초하여 식별된 밀접하게 관련된 개인을 필터링했다. IBD 값이 0.125 이하인 모든 쌍을 추출(3촌 친족에 대응)하여 한 가족 그룹에 군집화했다. 친척 쌍이 남아 있지 않을 때까지 각 가족 집단은 다음과 같이 감소되었다.

가족군에서 짝의 수가 가장 많은 샘플은 제외되었다.
가족군에서 동일한 수의 쌍을 가진 샘플이 여러 개 있을 경우 LD로 된 단일염기서열 변이 중에서 누락된 호출이 가장 높은 샘플은 제외되었다.

일괄 처리 효과를 나타내는 변이를 식별하기 위해 다음과 같이 모든 변이에 대해 로지스틱 회귀 모델을 사용했다.

다른 모든 일괄 처리와 비교하여 일괄 처리별 변이인 경우에는 제외하였다.
각 일괄 처리를 다른 일괄 처리와 짝을 이루어 가능한 모든 조합이 이루어졌다. 어떤 조합에서든 유의적인 경우 변이는 제거되었다.

총 6,348,049개의 변이 위치가 기술적 집단(P-값 ≤ 0.01)과 유의하게 연관되어 원래 세트에서 제거되었다. 우리는 변이의 품질 분포를 구성하기 위해 공동 VCF 파일의 QD 값을 사용했다.

주요 성분 분석 및 1KGP 게놈 데이터와의 혼합(ADMIXTURE)

인구 간 게놈 구조는 밀접히 관련된 개인 없이 Korea 1K 표본과 1KGP으로부터 얻은 단일염기서열 변이의 PCA를 최초 PC 2대를 계획해 평가한 것이다. 다음 기준에 따라 Korea 1K 및 1KGP 세트에서 변이를 선정하여 통합하였다.

Biallelic SNVs 경미한 대립 유전자 빈도(MAF) ≥ 5%
Biallelic SNVs HWE P-value > 10^-6
Biallelic SNVs 유전자형 결측 비율 < 0.01

추출된 변이들은 PLINK(47)의 '--indep 50 5 2'를 사용하여 LD로 분화해 15만3633개의 장소를 산출했다. PCA는 EIGENSOFT 프로그램(46)을 사용하여 수행했다. 혼합 분석(ADMIXTURE(48)) 은 PCA와 동일한 변이를 기반으로 K=2에서 K=14까지 수행되었다. 우리는 K=3에 대한 ADMIXTRUE 그림을 그렸는데, K=3에 대한 교차 검증 오차율은 가장 작았다.

미토콘드리아 및 염색체 Y haplogroup 분석

미토콘드리아 haplogrep (ver. 2.1.13) (49, 50)을 통해 미토콘드리아 haploggroups를 확인하였고 Yfitter 툴(ver. 0.2) (51)을 사용하여 Y 염색체 haploggroups를 식별하였다. CrossMap(52)을 이용하여 hg38 조정을 hg19 조정으로 변환하여 Yfitter 프로그램의 입력 파일을 준비하였다(ver. 0.2.7).

연관성분석 연구

GWAS의 경우 다음 기준에 따라 개인 823명, 변이 6,658,227개, 특성(traits) 79개를 선정하였다.

개인의 경우:

임상적 특성을 검사한 개인
희귀 질환이 없는 개인
선택된 표본 내에 친족이 없는 개인

변이인 경우:

단일염기서열 변이 및 인델의 경미한 대립 유전자 빈도(MAF) ≥ 1%
단일염기서열 변이 및 인델의 HWE P-value > 10^-6
단일염기서열 변이 및 인델의 결측된 유전자형 비율 < 0.01

GWAS는 정량적 특성을 이용하여 독점적으로 수행되었다. GWA 분석은 부가 유전 모델에 따른 선형 회귀 분석을 사용하여 수행되었다. 연령, 나이², 성별, 체질량지수(BMI), 처음 10개의 주요 성분이 공변량으로 포함되었다. BMI는 BMI 자체와 비만의 정도에 대한 GWAS의 공변량에서 제외되었다. 게놈 전체의 유의 임계값은 본페로니 교정을 통해 7.51×10^-9 로 결정되었다(0.05/6,658,227)연구 전반의 유의성 임계값은 등식(0.05 / (시험된 특성 수 × 시험된 변이 수)을 사용하여 결정되었다. 변수는 PLINK(version 1.9) (47). 과 함께 '--clump-p1 0.00001 --clump-kb 1000 --clump-r2 0.1' 옵션을 사용하여 유전자 자리로 그룹화되었다. 각 유전자 자리에 대해 이전에 보고된 관심 특성과 연계해 가장 중요한 변이부터 순서대로 NHGRI GWAS catalog(33) (P-value ≤ 5×10^-8, ver 2018-12-07)를 이용해 시험하였다.

결측값 대체 패널 구조

Korea 1K imputation 참조 패널을 구축하기 위해, 결측된 유전자형 call의 비율이 <0.1이고 소수의 대립유전자 수(count)가 >1(singleton이 아님)인 총 28,692,913개의 상염색체 이중대립 변이(autosomal biallelic variants)와 함께 희귀질환을 가지고 있지 않은 건강한 개인 1,059명을 선정하였다. 변이는 SHAPEIT2(version v2.r904)(36)를 사용해 haplotype으로 단계별로 진행하였으며, Korea 1K 세트는 1KGP 참조 패널을 사용하여 re-phased imputation 패널을 구축하기 위해 구성되었다. Korea 1K와 1KGP의 대체 대립 유전자(alt allele)가 결합 단계에서 불일치할 경우 Korea 1K의 대체 대립 유전자(alt allele)를 선택했다. 참조 패널의 imputation 정확도를 평가하기 위해 위암에 걸린 19명의 관련 없는 한국인 환자들의 일치하는 정상 샘플을 NCBI(SRcP014574, SRA05772)에서 얻어 별도로 처리했다. 테스트 세트의 경우, 19명의 개인으로부터 Illumina Omni 2.5 칩에 존재하는 1,302,490개의 변이를 추출하고, SHAPEIT2(36)를 사용하여 사전에 단계적으로 처리된 1,243,087개의 단일염기서열 변이를 획득했다. Pre-phased된 시험 세트는 Minimac3 (ver2.0.1) (37). 결측값 대체(imputation) 정확도는 실제 유전자형과 imputed 유전자형 정량 사이에 squared Pearson correlation coefficients (R²)를 사용하여 추정했다.

보고된 암 환자 샘플의 처리 및 변이 분류

앞서 보고된 위암에 걸린 국내 개인 19명의 전체 유전자 해독 데이터는 NCBI(SRP014574 및 SRA05772)에서 입수해 "-M" 옵션으로 BWA-mem(ver 0.7.15)을 사용해 hg38에 매핑했으며 SAM 형식은 SAMtools(ver 1.4)(53)를 사용하여 BAM 형식으로 변환했다. BAM 파일은 SAMtools(ver 1.4)를 사용하여 분류되었으며, 중복된 판독(reads)은 Picard 도구의 Markduplicates 모듈을 사용하여 표시되었다. 기준품질 점수의 재조정 및 재측정은 GATK(44)를 이용하여 수행되었다(ver 3.7). 모든 표본의 변이는 GATK HaplotypypeCaller와 joint calling모드를 사용하여 호출되었다. 확인된 모든 변이는 Ensembl Variants Effect Predictor (VEP, ver 92.1)(45)를 사용하여 주석을 달았다. 또한, 해당 변이들은 암 유전자 인구조사(CGC) 데이터베이스(54)의 암 관련 유전자로 주석을 달았다. 만약 어떤 변이가 암에 걸린 사람의 표본에서만 확인되었다면, 우리는 그러한 변이를 체세포(somatic)처럼 다루었다. 3.5KJPN은 hg19 좌표를 가진 변이에 관한 정보만 제공하므로, UCSC 게놈 브라우저(55)의 리프트오버 도구(liftover tool)를 사용하여 hg38 coordination으로 전환되었다. 그 후, 우리는 유전자 위치와 대립 유전자 정보에 기초하여 Korea 1K와 3.5KJPN의 대립 유전자 빈도에 관한 정보를 주석을 단 변이들에 통합하였다. 주석을 단 변이들은 각 패널(Korea1K, 3.5KJPN, 1KGP)의 대립 유전자 빈도 차단(cutoffs)을 기준으로 잠정적 체세포(tentative somatic) 또는 생식 계열 변이(germline variants)로 분류되었다. 변이가 차단 값(cut-off value)보다 낮은 대립 유전자 빈도 값을 나타내거나 참조 패널에 나타나지 않은 경우, 변이는 잠정적 체세포 변이로 분류되었다. 그렇지 않다면, 그것은 잠정적 생식 계열 변이로 분류되었다. 그 후, 분류와 실제 세트를 비교하여 데이터 세트의 성능을 평가했다.

데이터 활용정보

원칙적으로, 모든 각각의 데이터는 과학 연구에 공개되고 자유롭게 이용될 것이다. 단기연기서열 변이들의 유전자 빈도 정보, 유전자 변이, 유전자 복제수 변이와 TE insertion은 http://1000genomes.kr 를 통해 볼 수 있을 것이다. 기초 유전자 데이터(raw sequencing data), 개인의 유전자형 정보, 임상적 특성 데이터는 울산과학기술원 내에 한국 게놈센터에 요청시 심의를 거쳐 가능한 한 쉽고 자유롭게 이용할수 있으며 한국인 게놈 프로젝트의 정보와 다른 공유할수 있는 데이터는 http://koreangenome.org를 통해 확인 가능하다.

감사의 말

이 프로젝트에 도움을 주신 모든 참가자들과 울산 시민분들께 감사드립니다. 또한, 이프로젝트를 지지해준 다음의 분들께도 감사드립니다. Dr. Mooyoung Jung, Gi-Hyun Kim, Cheol-ho Song, Il-Ho Park, Dr. Hong Rae Cho, Dr. Yusik Ham, Dr. Younghoon Park, Byungyeol Yoo, Jungchul Oh, Soojung Shin, Dr. Hyoung-oh Jeong, Suji Hong, Ju Yeon Park, Sangryoul Han, Sungwoong Jho, Eunjung Jun, and Seul Gi Hong, Boram Park. We thank the Korea Institute of Science and Technology Information (KISTI) provided us the Korea Research Environment Open NETwork (KREONET). 국가과학기술연구망(KREONET)을 제공해 주신 한국과학기술정보연구원 (KISTI)에게 감사합니다. NCSRD, KRISS, 김창근 박사님에게 감사드립니다. 이 작업은 UNIST의 U-K BRAND 연구기금(1.190007.01); UNIST의 울산도시연구기금(1.190033.01)의 연구사업, UNIST의 울산도시연구기금(1.200047.01)의 연구프로젝트, UNIST의 울산도시연구기금(2.180016.01)의 연구프로젝트의 지원을 받았습니다. 이 작업은 산업통상자원부(MOTIE)가 후원하는 기술혁신 프로그램(20003641, 국가참조표준데이터 개발 및 보급)에서도 지원받았습니다. 이 연구는 ㈜클리노믹스의 내부적인 자금 제공을 지원받았습니다. 울산대학병원 인체유래물은행은 참여자 696명의 DNA 표본과 임상 정보를 제공해주었습니다. (60SA2016001-002, 60SA2016001-003, 60SA2016001-005, 60SA2017002-001, 60SA2017002-004). 논문의 결론을 평가하는 데 필요한 모든 데이터는 논문 및/또는 보충 자료에 수록되어 있습니다. 이 논문과 관련된 추가 데이터는 작성자에게 요청할 수 있습니다.

저자 기여내용

S.J., Y.B., and J.B. wrote the manuscript. S.J., Y.B., Y.C., Y.J., S.K., Jaeyoung J., and Jinho J. conducted the data analysis. Y.K. and C.K. performed wet-lab experiments. J.S., N.K., and N. P. collected the samples and clinical information. S.J., Y.S.C., Y.P., B.K., E. S., B. C. K., G. C., S.L., and J.B. designed the study. S.J., Y.B., Y.C., Y.J., S.K., A. B., Y. J. K., S. G. P., J. K., H. K., D. B., A. M., J. S. E., S.L., and J.B. revised the manuscript. G.C., S.L., and J.B. jointly supervised the study.

이해충돌 선언

Y.B., C.K., Y.S.C., H.K., C.K., Y.P., B.K., and D. B. is an employee, and B.C.K. and J.B. are the CEOs of Clinomics Inc. H.K., B.C.K., J.B., and Y.S.C. have an equity interest in the company. S.J., Y.B., Y.C, Y.J., S.K., J.J., C.K., Y.K., J.S., N.K., Y.J.K., S.G.P., S.L., and J.B. are listed as inventors on a patent application related to the work. All other co-authors have no conflicts of interest to declare.

'Fig. 1 '새로운 변이들의 변이 통계와 발견 비율 (A) 대립 유전자의 빈도를 기준으로 분류된 모든 상염색 영역 내 Korea1K 데이터 세트의 변이 수. Singleton: 대립 유전자 수(count) =1; Doubleton 대립 유전자 수(count) =2; 희귀: 대립 유전자 수(count) > 2 및 대립 유전자 빈도 ≤ 0.01; 흔한: 대립 유전자 빈도 > 0.01 및 대립 유전자 빈도 ≤ 0.05; 매우 흔한: 대립 유전자 빈도 > 0.05. (B) 관련되지 않은 한국 게놈 샘플의 함수로서 새로운 변이의 수

'Fig. 2 '다른 모집단과의 비교. Results of principal component analysis of Korea1K and the 1KGP set of (A) worldwide populations and (B) East Asian samples. (A) 전 세계 인구 및 (B) 동아시아 표본 Korea 1K와 1KGP세트의 주요 요소 분석 결과 (C) Korea1K set와 모집단 사이에 상당히 다른 대립 유전자 빈도를 갖는 TE insertion의 수. (D) 상이한 TE insertion의 비율. 색상은 TE 하위 유형을 나타낸다. 모집단의 약어는 1KGP와 동일한 모집단 코드이다. (ACB: African Caribbean; ASW: African Ancestry SW; BEB: Bengali; CDX: Dai Chinese; CEU: CEPH; CHB: Han Chinese; CHS: Southern Han Chinese; CLM: Colombian; ESN: Esan; FIN: Finnish; GBR: British; GIH: Gujarati; GWD: Gambian Mandinka; IBS: Iberian; ITU: Telugu; JPT: Japanese; KHV: Kinh Vietnamese; LWK: Luhya; MSL: Mende; MXL: Mexican Ancestry; PEL: Peruvian; PJL: Punjabi; PUR: Puerto Rican; STU: Tamil; TSI: Toscani; YRI: Yoruba).

Fig. 3 '전장유전체연관성연구'(GWAS)'를통해보고된유전자자리의맨해튼플롯'.

각각의 색깔은 다른 임상적 특성을 나타낸다. 유전자 자리(loci)에서 가장 중요한 보고된 마커는 삼각형으로 표시된다. 점선은 게놈 전체의 유의성(7.5 × 10^-9)의 임계값을 나타낸다. 점선은 연구 전체의 유의성(9.5 × 10^-11)에 대한 임계값을 나타낸다.

Fig. 4 '결측값대체'('Imputation)성능평가'.X축은 Korea1K 세트의 대체 대립 유전자 빈도를 나타낸다. Y축은 단일염기서열 변이의 집계된 R² 값을 나타낸다. 우리는 모든 패널에 걸쳐 imputed된 결과에 의해 겹치는 단일염기서열 변이를 사용했다.

Fig. 5 Performance of the variant classification using different panels of normals다른정상패널을사용한변이분류의성능'. (A) 분류의 정확성. (B) Matthews 상관 계수(MCC) 값. (C) 생식 계열 회복률(Germline recovery rate). X축은 사용된 참조 패널과 대립 유전자 빈도 차단을 밑줄 표시 기호로 연결해 나타낸다. EAS, SAS, AMR, EUR, AFR은 각각 1KGP에서 동아시아, 남아시아, 미국, 유럽 및 아프리카 인구를 나타낸다.

Table 1 '이전에보고된유전자자리에있는색인변이특성목록'. 강조 표시된 행은 보고된 변이와 같은 연계 불균형 블록에 위치하고 높은 유의성 값을 가진 보고되지 않은 변이다. MAF는 작은 대립 유전자 빈도를 나타낸다.

Trait	Chromosome	Position	rsID	Gene symbol	P-value	MAF
Carbohydrate antigen 19-9	chr19	5,844,781	rs28362459	FUT3	1.83E-42	0.341
Total bilirubin	chr2	233,762,816	rs28946889	UGT1A6	1.85E-23	0.439
Lactate dehydrogenase	chr12	7,437,350	rs200382222	CD163L1	1.40E-21	0.186
Lipoprotein A	chr6	160,596,331	rs73596816	LPA	1.31E-19	0.038
Uric acid	chr11	64,593,747	rs121907892	SLC22A12	7.94E-15	0.013
Direct bilirubin	chr2	233,762,816	rs28946889	UGT1A6	6.43E-14	0.439
Lipoprotein A	chr6	160,607,693	rs41269888	LPA	4.30E-13	0.454
Amylase	chr1	103,348,267	rs878863022	N/A	1.01E-12	0.476
Carcinoembryonic antigen	chr9	133,257,129	rs2073823	ABO	2.53E-11	0.228
Total bilirubin	chr2	233,708,761	rs7583278	UGT1A6	2.89E-11	0.100
Neutral fat	chr11	116,792,991	rs662799	ZPR1	4.22E-10	0.315
Lipoprotein A	chr6	160,703,093	rs35289817	PLG	3.45E-09	0.203

보충 자료

Supplementary materials and methods

Fig. S1 Principal component analysis (PCA) plot using SNVs and Indels in Korea1K set.

Fig. S2 Boxplot of variants quality normalized by depth based on allele frequency category and existence in dbSNP v.150 before and after batch effect filtering.

Fig. S3 Percentage of overlapped SNVs with KoVariome.

Fig. S4 Number of variants from variome databases based on allele frequencies.

Fig. S5 Variants distribution based on variant location and allele frequency in Korea1K.

Fig. S6 Fraction under selection based on variants type.

Fig. S7 Fraction under selection based on genes.

Fig. S8 Length distribution of Indels.
Fig. S9 Length distribution of Indels in the coding region.

Fig. S10 Number of novel variants as a function of new unrelated individuals.

Fig. S11 Proportion of variants based on allele categories for A) PolyPhen and B) SIFT estimation.

Fig. S12 Mitochondrial haplogroup distribution in Korea1K.

Fig. S13 Chromosome Y haplogroup distribution in Korea1K.

Fig. S14 ADMIXTURE plot for Korea1K and 1KGP East Asians.

Fig. S15 ClinVar variants which have more than 10% of allele frequency in the Korea1K.

Fig. S16 Drug response variants found in Korea1K.

Fig. S17 Length distribution of copy number variations.

Fig. S18 Copy number variations in Korea1K.

Fig. S19 Transposable element (TE) insertion frequency distribution in Korea1K.

Fig. S20 PCA plot using Transposable element (TE) insertion.

Fig. S21 Transposable element (TE) insertion frequency distribution of Korea1K and 1KGP populations.

Fig. S22 Significance of TE insertion allele frequency difference.

Fig. S23 HLA allele distribution in Korea1K.

Fig. S24 Comparison of HLA type frequency to the public database.

Fig. S25 QQplots for the GWA tests of the 20 traits.

Fig. S26 QQplots for the GWA tests of the 20 traits.

Fig. S27 QQplots for the GWA tests of the 20 traits.

Fig. S28 QQplots for the GWA tests of the 19 traits.

Fig. S29 Minor allele frequency (MAF) of the most significant variant on the loci from GWA analysis.

Fig. S30 Performance of the variant classification using different panels of normals.

Fig. S31 Ratio of true somatic variants in CGC genes based on predicted somatic variants using a panel of normal.

Fig. S32 Performance of the variant classification using different panels of normal when the only lift-over possible region was applied.

Fig. S33 Performance of the variant classification using different panels of normal when the only lift-over possible region was applied.

Fig. S34 Ratio of true somatic variants in CGC genes based on predicted somatic variants using a panel of normal when the only lift-over possible region was applied.

Table S1 Variant count before and after removing batch effect.

Table S2 Number of Transposable element (TE) insertions before and after filtering.

Table S3 Average base quality by position in the read of sequencing data.

Extended data table S1 Copy number variations (CNVs) which contain genes and are overlapped with 1KGP CNVs.

Extended data table S2 Number of TE insertions which have significantly different allele frequency between Korea1K and the 1KGP populations.

Extended data table S3 Statistics of baseline information of the samples.

Extended data table S4 Information of the index and reported variants on 15 significantly associated loci.

Extended data table S5 List of the variants which have association significance P<1E-5.

References

1. V. Siska et al., Genome-wide data from two early Neolithic East Asian individuals dating to 7700 years ago. Sci Adv 3, e1601877 (2017).

2. H. P.-A. S. Consortium et al., Mapping human genetic diversity in Asia. Science 326, 1541-1545 (2009).

3. R. O. K. M. o. F. Affairs, Total number of overseas Koreans. (2017).

4. Databank, Population Total. (2018).

5. J. S. Seo et al., De novo assembly and phasing of a Korean human genome. Nature 538, 243-247 (2016).

6. S. Lee et al., Korean Variant Archive (KOVA): a reference database of genetic variations in the Korean population. Sci Rep 7, 4287 (2017).

7. S. M. Ahn et al., The first Korean genome sequence and analysis: full genome sequencing for a socio-ethnic group. Genome Res 19, 1622-1629 (2009).

8. Y. S. Cho et al., An ethnically relevant consensus Korean reference genome is a step towards personal reference genomes. Nat Commun 7, 13637 (2016).

9. J. Kim et al., KoVariome: Korean National Standard Reference Variome database of whole genomes with comprehensive SNV, indel, CNV, and SV analyses. Sci Rep 8, 5677 (2018).

10. D. Hong et al., TIARA: a database for accurate analysis of multiple personal genomes based on cross-technology. Nucleic Acids Res 39, D883-888 (2011).

11. T. G. P. Consortium, A global reference for human genetic variation. Nature 526, 68-74 (2015).

12. U. K. Consortium et al., The UK10K project identifies rare variants in health and disease. Nature 526, 82-90 (2015).

13. C. Genome of the Netherlands, Whole-genome sequence variation, population structure and demographic history of the Dutch population. Nat Genet 46, 818-825 (2014).

14. R. M. Sherman et al., Assembly of a pan-genome from deep sequencing of 910 humans of African descent. Nat Genet 51, 30-35 (2019).

15. D. F. Gudbjartsson et al., Large-scale whole-genome sequencing of the Icelandic population. Nat Genet 47, 435-444 (2015).

16. L. Maretty et al., Sequencing and de novo assembly of 150 genomes from Denmark as a population reference. Nature 548, 87-91 (2017).

17. M. Nagasaki et al., Rare variant discovery by deep whole-genome sequencing of 1,070 Japanese individuals. Nat Commun 6, 8018 (2015).

18. Y. Okada et al., Deep whole-genome sequencing reveals recent selection signatures linked to evolution and disease risk of Japanese. Nat Commun 9, 1631 (2018).

19. K. Yoon et al., Comprehensive genome- and transcriptome-wide analyses of mutations associated with microsatellite instability in Korean gastric cancers. Genome Res 23, 1109-1117 (2013).

20. S. T. Sherry et al., dbSNP: the NCBI database of genetic variation. Nucleic Acids Res 29, 308-311 (2001).

21. S. Moon, J. M. Akey, A flexible method for estimating the fraction of fitness influencing mutations from large sequencing data sets. Genome Res 26, 834-843 (2016).

22. T. G. Clark et al., Functional constraint and small insertions and deletions in the ENCODE regions of the human genome. Genome Biol 8, R180 (2007).

23. A. Telenti et al., Deep sequencing of 10,000 human genomes. Proc Natl Acad Sci U S A 113, 11901-11906 (2016).

24. I. Adzhubei, D. M. Jordan, S. R. Sunyaev, Predicting functional effect of human missense mutations using PolyPhen-2. Curr Protoc Hum Genet Chapter 7, Unit7 20 (2013).

25. N. L. Sim et al., SIFT web server: predicting effects of amino acid substitutions on proteins. Nucleic Acids Res 40, W452-457 (2012).

26. H. J. Jin et al., Y-chromosomal DNA haplogroups and their implications for the dual origins of the Koreans. Hum Genet 114, 27-35 (2003).

27. H. J. Jin, C. Tyler-Smith, W. Kim, The peopling of Korea revealed by analyses of mitochondrial DNA and Y-chromosomal markers. PLoS One 4, e4210 (2009).

28. M. Tanaka et al., Mitochondrial genome variation in eastern Asia and the peopling of Japan. Genome Res 14, 1832-1850 (2004).

29. Y. Wang, D. Lu, Y. J. Chung, S. Xu, Genetic structure, divergence and admixture of Han Chinese, Japanese and Korean populations. Hereditas 155, 19 (2018).

30. D. Cusi et al., Polymorphisms of alpha-adducin and salt sensitivity in patients with essential hypertension. Lancet 349, 1353-1357 (1997).

31. B. M. Psaty et al., Diuretic therapy, the alpha-adducin gene variant, and the risk of myocardial infarction or stroke in persons with treated hypertension. JAMA 287, 1680-1689 (2002).

32. C. Bycroft et al., The UK Biobank resource with deep phenotyping and genomic data. Nature 562, 203-209 (2018).

33. J. MacArthur et al., The new NHGRI-EBI Catalog of published genome-wide association studies (GWAS Catalog). Nucleic Acids Res 45, D896-D901 (2017).

34. T. W. Kang et al., Genome-wide association of serum bilirubin levels in Korean population. Hum Mol Genet 19, 3672-3678 (2010).

35. Y. J. Kim et al., Large-scale genome-wide association studies in East Asians identify new genetic loci influencing metabolic traits. Nat Genet 43, 990-995 (2011).

36. S. McCarthy et al., A reference panel of 64,976 haplotypes for genotype imputation. Nat Genet 48, 1279-1283 (2016).

37. S. Das et al., Next-generation genotype imputation service and methods. Nat Genet 48, 1284-1287 (2016).

38. Y. Dou, H. D. Gold, L. J. Luquette, P. J. Park, Detecting Somatic Mutations in Normal Cells. Trends Genet 34, 545-557 (2018).

39. K. Cibulskis et al., Sensitive detection of somatic point mutations in impure and heterogeneous cancer samples. Nat Biotechnol 31, 213-219 (2013).

40. T. S. Alioto et al., A comprehensive assessment of somatic mutation detection in cancer using whole-genome sequencing. Nat Commun 6, 10001 (2015).

41. S. Hiltemann, G. Jenster, J. Trapman, P. van der Spek, A. Stubbs, Discriminating somatic and germline mutations in tumor DNA samples without matching normals. Genome Res 25, 1382-1390 (2015).

42. M. Martin, Cutadapt Removes Adapter Sequences From High-Throughput Sequencing Reads. EMBnet.journal 17, (2011).

43. H. Li, R. Durbin, Fast and accurate short read alignment with Burrows-Wheeler transform. Bioinformatics 25, 1754-1760 (2009).

44. Ryan Poplin et al., Scaling accurate genetic variant discovery to tens of thousands of samples. bioRxiv, (2017).

45. W. McLaren et al., The Ensembl Variant Effect Predictor. Genome Biol 17, 122 (2016).

46. A. L. Price et al., Principal components analysis corrects for stratification in genome-wide association studies. Nat Genet 38, 904-909 (2006).

47. S. Purcell et al., PLINK: a tool set for whole-genome association and population-based linkage analyses. Am J Hum Genet 81, 559-575 (2007).

48. D. H. Alexander, J. Novembre, K. Lange, Fast model-based estimation of ancestry in unrelated individuals. Genome Res 19, 1655-1664 (2009).

49. M. Oven, PhyloTree Build 17: Growing the human mitochondrial DNA tree. Forensic Science International: Genetics Supplement Series 5, (2015).

50. H. Weissensteiner et al., HaploGrep 2: mitochondrial haplogroup classification in the era of high-throughput sequencing. Nucleic Acids Res 44, W58-63 (2016).

51. L. Jostins et al., YFitter: Maximum likelihood assignment of Y chromosome haplogroups from low-coverage sequence data. arXiv preprint arXiv:1407.7988, (2014).

52. H. Zhao et al., CrossMap: a versatile tool for coordinate conversion between genome assemblies. Bioinformatics 30, 1006-1007 (2014).

53. H. Li et al., The Sequence Alignment/Map format and SAMtools. Bioinformatics 25, 2078-2079 (2009).

54. J. G. Tate et al., COSMIC: the Catalogue Of Somatic Mutations In Cancer. Nucleic Acids Res 47, D941-D947 (2019).

55. W. J. Kent et al., The human genome browser at UCSC. Genome Res 12, 996-1006 (2002).

56. A. Abyzov, A. E. Urban, M. Snyder, M. Gerstein, CNVnator: an approach to discover, genotype, and characterize typical and atypical CNVs from family and population genome sequencing. Genome Res 21, 974-984 (2011).

57. M. G. Csardi, Package ‘igraph’. Last accessed 3, 2013 (2013).

58. D. R. Zerbino et al., Ensembl 2018. Nucleic Acids Res 46, D754-D761 (2018).

59. P. H. Sudmant et al., An integrated map of structural variation in 2,504 human genomes. Nature 526, 75-81 (2015).

60. V. Boeva et al., Control-FREEC: a tool for assessing copy number and allelic content using next-generation sequencing data. Bioinformatics 28, 423-425 (2012).

61. E. J. Gardner et al., The Mobile Element Locator Tool (MELT): population-scale mobile element discovery and biology. Genome Res 27, 1916-1929 (2017).

62. L. Rishishwar, C. E. Tellez Villa, I. K. Jordan, Transposable element polymorphisms recapitulate human evolution. Mob DNA 6, 21 (2015).

63. C. Genomes Project et al., A map of human genome variation from population-scale sequencing. Nature 467, 1061-1073 (2010).

64. A. Szolek et al., OptiType: precision HLA typing from next-generation sequencing data. Bioinformatics 30, 3310-3316 (2014).

65. F. F. Gonzalez-Galarza et al., Allele frequency net 2015 update: new features for HLA epitopes, KIR and disease and HLA adverse drug reaction associations. Nucleic Acids Res 43, D784-788 (2015).

Korean Genome Project: 1,094 Korean personal genomes with clinical information

Contents