Sequencing and analysis of the whole genome of Indian Gujarati male.

From kogic.kr

Author links open overlay panelSuhaniAlmalbSungwonJeoncMileeAgarwalbSwetaPatelbShivangiPatelbYoungjuneBhakcJeHoonJundJongBhakcdeHarishPadha

하이라이트(강조)

•구라자트 인디언 (IHGP01)의 전장유전체해독(Whole genome sequence).

•새로운 변이를 포함한 390만개 이상의 SNV와393,000 small InDels.

•건강 및 질병 관련성 및 약물유전체학 프로파일(pharmacogenomic profile)에 대한 분석

•미트콘드리아 및 Y-염색체 하플로그룹 분석

•human DNA databas에 141,000개의 새로운 유전자 변이가 추가되었다.

초록

이 논문은  Illumina HiSeq 2000 platform을 사용하여 생성된 총 74.93 Gb의 서열 데이터로 23.05×범위 내에서 시퀸싱된 구자라트 인디언(IHGP01)의 전장유전체해독 분석을 제시한다.  변이 분석 결과 390만개 이상의 단일 염기다형성(SNV)와 새로운 변이를 포함한 약 39만3000개의 small insertions 및 deletions (InDels)가 발견되었다. 알려진 변이는 건강 및 질병 관련성 및 약물유전체학 프로파일에 대해 분석되었다. 미토콘드리아와 Y-염색체 하플로그룹 분석은 아프리카를 떠나 중부 유럽으로, 그 후 아시아 대륙으로 이동 한 후  인도 아대륙의 서부로의 이주로, 대륙에 도착한 지 2만~2만5천년이 되지 않은 것을 분명히 보여주었다. 현재의 연구는 human DNA database에 141,000개의 새로운 유전자 변이를 추가했다. 이러한 새로운 변이에 대한 기능적 분석과 검증과 건강과 질병에 대한 그들의 역할의 발견은 이 아대륙 사람들을 이해하는 새로운 관점을 더할 것이다.

키워드

Whole-genome sequencing  전장유전체해독, Gujarati Indian male 구자라트 인디언 남성, Variant analysis 변이분석, Health profile 건강 프로파일, Human migration 인구 이동

소개

2003년에 처음 개발된 인간 참조 게놈(Human reference genome )은 6개국의 약 200명의 익명 개인으로부터 유래되었다. 중국, 프랑스, 독일, 영국, 일본 및 미국 [1] 참조 게놈(reference genome)은 개인의 유전자 구성을 나타내기 위해 임의의 개별 게놈을 비교할 수 있는 틀을 제공한다. 기술의 접근성과 경제성이 향상되고,   참조 데이터베이스가 충분히 풍부해짐에 따라, 개인의 게놈을 분석하는 것은 건강 및 관련 위험 요인에 대한 유전적 배경을 이해하는 것이 가능해졌다. 일정 기간 동안 완전한 개별 게놈 또는 선택적 부분(Exome sequence WES 등)이 분석되었다. 총체적으로 참조 데이터베이스는 인류의 발전에 있어 중요한 여러 측면을 밝혀냈다. 특히 Y염색체와 미토콘드리아 해플로그 그룹은 지난 10만 년 동안 고해상도 인간 이주 지도를 개발하는 데 도움을 주었다. 개별 게놈으로 우리는 이제 조상의 민족적 유대를 확인하고 그 특정 집단에 대한 이주 패턴을 개발하고 개인의 건강 프로필도 개발할 수 있게 되었다.

인도는 동남아시아로 가는 이동 경로에서 중심 위치를 차지하고 있으며, 12억 5천만 명의 인구로 세계 인구의 약 6분의 1을 차지하고 있다. 인도 인구는 지난 8만 년 동안 서로 다른 방향에서 오는 몇 개의 뚜렷한 이주 물결을 통해 발달한 것으로 여겨진다. 현대의 인도 인구는 그러한 인구의 혼합물로서, 지난 1000년 정도의 기간에 걸쳐서 최근에야 다양한 공동체로 분리되었다고 생각된다[2].

원래의 인간 참조 게놈은 이 아대륙으로부터 어떠한 대표성도 가지고 있지 않다는 점에 유의해야 한다. 그 후에 1000 genome project [3,4] 는 인도에서 온 일부 개인을 포함했지만, 전반적으로 현재 인간 변이의 데이터베이스는 여전히 이 아대륙에서 온 비례적 표현력이 부족하다. 참조 인간 데이터베이스를 완전히 대표하는 참조 데이터베이스를 만들려면 인도 아대륙에서 온 더 많은 변이가 추가되어야 한다. 2003년에는 Indian Genome Variation Consortium Project를 통해 인도 인구의 유전학에 대한 대규모 연구가 시작되었다. 이 프로젝트에서는, 1만 5천 명의 개인이 1000개 이상의 생명 의학적으로 중요한 유전자[5], [6], [7], (database URL; http://www.igvdb.res.in)에 대해 검진을 받았다. 그러나 이 프로젝트는 알려진 모델만 검색하고 새로운(이전에 보고되지 않은) 모델의 존재는 보고하지 않았다.

본 연구의 목적은 다음과 같다 : (1) 건강 및 질병에 대한 알려진 위험 요인에 대한 인도 개인의 완전한 서열 및 게놈 변이의 분석 (2) 이 개인에 존재하는 보고되지 않은 새로운 변이를 식별하고 이 개인에서 발견된 새로운 변이로 인간 변이 데이터베이스를 풍부하게 하게 한다; (3)미토콘드리아와 Y-염색체 하플로그 분석을 통해 이주의 경로와 이 개인의 조상이 인도에 입국하는 시간을 해독하려고 시도한다.

재료와 방법

샘플 선택 및 DNA 분리

인도 서부의 구자라트에 거주하는 62세의 교육받은 구자라티 남성(IHGP01)이 사전동의서에 서명하고 연구에 자원해 왔으며, 이는 기관윤리위원회의 승인을 받았다. 분명히 건강한 사람은 알려진 병이 없었다. 승인 후 혈액샘플(peripheral blood 10ml)은 헤파린침(heparinized needle)을 이용하여 회수하여 무균상태에서 항응고제(K2 EDTA) 사전코팅된 채취관에 채취하였다. 게놈 DNA는 페놀-클로로포름 프로토콜(phenol-chloroform protocol)을 사용하여 추출되었다[8,9]. 격리된 샘플에 대한 평가는 DNA의 품질, 수량 및 무결성 측면에서 수행되었다. DNA 품질과 양은 NanoDrop 2000 (Thermo Fisher Scientific Inc., USA)과Qubit 2.0 DNA Broad Range Assay (Invitrogen, USA)를 사용하여 측정되었다. 이 샘플은 또한 게놈 DNA의 품질을 결정하기 위해 1% 아가로즈 젤로 실행되었다.

생화학 분석 & 유전병 프로파일링

해모그램 프로파일링(haemogram profiling), 지질 프로파일링[총콜레스테롤, 중성지방, HDL(고밀도 리포프로틴), LDL(저밀도 리포프로틴), 생화학적 프로파일링(혈액 요소, 혈청 크레아티닌, 간 검사, 혈당, 소변 포도당) 등 기초 생화학적 분석은 제조업체의 프로토콜을 사용하여 수행되었다. 개인과 그의 친척에 대한 인구통계학적 세부사항과 질병 이력 프로파일링도 기록(부록표 S1)에 수록되었다.

세포 유전학적 분석

photographic representation을 통한 유전성 질환의 식별을 위한 Chromosomal aberration accounting은 karyotyping technique을 사용하여 수행되었다. Karyotype은 표준 기법을 적용하여 peripheral blood lymphocytes를 사용하였으며, 400–500 밴드 해상도의 GTG 밴딩을 실시하였다.  G-banded karyotyping chromosome imaging(보조 그림 S1)을 통한 세포 유전학의 분석에서 일관된 구조 및 수치적 염색체 이상이 검출되지 않았다.

라이브러리 구축 및 시퀀싱

분리된 게놈 DNA는 시퀀싱을 위해 Malaysian Genomics Resource Centre (MGRC) 베르하드로 보내졌다.  품질점검을 통과한 후 라이브러리 준비를 위해 분리된 샘플을 처리하였다.

라이브러리 구축

Covaris S220(Covaris Inc., USA)은 유전체 DNA를 350–500 bp의 목표 크기로 분할하는 데 사용되었다. 그 후 파편화된 DNA는 end-repaired 되고,  Illumina TruSeq 어댑터에 ligated되고 제조업체의 프로토콜에 따라TruSeq DNA Sample Preparation Kit (Illumina, USA)를 사용하여 PCR-enriched했다. 최종 시퀀싱 라이브러리는 Agilent Stratagene Mx3005P quantitative PCR (Agilent, USA)에서 KAPA 키트(KAPA Biosystem, USA)를 사용하여 정량화되었다. 또한, 라이브러리의 삽입(insert) 크기를 확인하는 데 Agilent Bioanalyzer High Sensitivity DNA Chip (Agilent, USA)을 사용했다.

전체 유전체 해독

얻어진 결과 라이브러리는 Illumina flow cell과  Illumina HiSeq 2000 platform (Illumina, USA)에서 202 cycles을 사용하여 시퀀싱되었다. HGP01 샘플의 시퀀서에는 총 75Gb의 원시 데이터(raw data)가 생성되었다.

정렬(Alignment) 및 변이 분석

전처리( Pre-processing)

binary BCL 파일 형식의 시퀀싱으로 생성된 원시 데이터는 먼저 일반 텍스트 QSEQ 형식 파일(plain-text QSEQ format files)을 변환된 다음, Illumina's BCL converter를 사용한 FASTQ 형식으로 변환되었다. 변환 후, 전처리( Pre-processing)가 실시되었다. 전처리에서는 2Ns(N bases representing uncalled nucleotides) 이상의 duplicated pair-end reads and reads가 필터링되었다. 이는 샘플에서 고품질 판독을 보장했다. IHGP01 샘플의 매핑 통계에 대한 세부사항은 보충표 S2에 제시되어 있다.

Mapping of reads

우리는 먼저  NGSQC toolkit v 2.3.3[10](with ‘-l 70 -s 20’ options cutoff read length for HQ = 70%, cutoff quality score = 20)를 사용하여 저품질 판독값을 필터링했다. 필터링 후 필터링된 판독치는 기본 옵션과 함께 BWA-MEM 0.7.8 [11]을 사용하여 hg19 인간 참조(hg19 human reference )에 정렬되었다. SAM 파일은 Samtools 0.1.19[12]를 사용하여 BAM 파일로 변환되었다. PCR duplicated reads는 Picard v1.9.2(http://broadinstitute.github.io/picard/))의 MarkDuplicate subroutine에 의해 제거되었다.variants call의 정확도를 높이기 위해 , GATK v2.3.9 [13]의  IndelRealigner 및 BaseRecalibration을 사용하였다. GATK Unified Genotyper는 '-heteriogency 0.0010 -dcov 200 -stand_call_conf 30.0 -stand_emit_conf 30.0' 옵션으로 호출했다. 양쪽 끝이 매핑되지 않은 판독값은 BLAST에 의해 프로파일링되어 NCBI RefSeq database로 검색되었다 [14].

변형의 식별 및 분류

단일 뉴클레오티드 다형성 (SNP), 단일 뉴클레오티드 삽입 및 삭제 (InDel), 구조적 변이 (SV), 카피 수 변이 (CNV) 및 다중 뉴클레오티드 변이와 같은 모든 유형의 변이체의 식별은 SnpEff 소프트웨어를 사용하여 수행되었다. SnpEff 버전 3.4 (빌드 2013-11-23), Pablo Cingolani]. SNP, InDels 및 multi-base Indels와 같이 식별 된 변종 클래스는 데이터를 dbSNP v137에 정렬하여 알려진 변형과 새로운 변형의 형태로 분류되었다.

변형 분석

OMIM, NCBI, SNPedia 등과 같은 데이터베이스에서 다양한 질병 범주와 관련된 350 + 유전자의 포괄적 인 목록을 선별하고 생성했다. 생성 된 유전자리스트는 신경계 장애, 심혈관 질환, 암, 당뇨병, 비만, 천식 및 알레르기와 같은 주요 질환과 관련된 유전자로 구성되었다. 또한, 약물 대사 및 영양 유전체학에 관여하는 유전자가 데이터 세트에 포함되었다. 

알려진 SNP

샘플의 코딩 영역에서 공지 된 SNP (IHGP01)는 OMIM, NCBI, SNPedia 등과 같은 여러 데이터베이스를 사용하여 생성 된 포괄적 인 유전자 목록을 사용하여 질병 관련 변이에 대해 분석하여 잠재적 위험 변이의 존재 여부를 평가했다.

새로운 SNP 

질병 관련 유전자의 코딩 영역에서 신규 변이체의 아미노산 위치는 NCBI를 사용하여 결정되었다. 이어서, 한 개의 신규 변이체는 SIFT 프로그램 [15,16]에 의해 평가되어 상당한 손상 / 유해 효과를 갖는 변이체를 예측 하였다.

결과

게놈 서열 및 인간 참조 데이터베이스에 대한 정렬

isolated human DNA 샘플 (IHGP01)을 Illumina HiSeq 2000을 사용하여 전체 게놈 시퀀싱 (WGS)에 적용 하였다. 분석을 위해 총 74.93 Gb의 서열 데이터 (길이 101 bp의 7 억 7,500 만 고품질 페어-엔드 판독)가 생성되었다. 판독의 전체 평균 품질 점수는 35였다. 판독 및 맵핑 통계를 포함하는 서열 데이터는 보충 표 S2에 요약되어있다. 이어서 생성 된 서열 데이터를 인간 게놈 참조 v37.1 (hg19)에 정렬시켰다. 생성 된 총 판독 중, 판독의 99.67 %가 인간 기준 게놈의 평균 23.05x 범위로 성공적으로 맵핑되었다. 또한 폭발 검색을 통해 매핑 되지 않은 판독 값을 NCBI RefSeq 데이터베이스 (보충 표 S3)로 프로파일링 했다.

변형 식별

샘플 IHGP01의 변이체 (SNP, Indels, CNV 및 SV 포함)를 식별하기 위해 인간 게놈 참조 v37.1 (hg19)과 정렬시켰다. IHGP01 게놈에서 총 3,918,159 개의 SNV 및 393,192 개의 Indel이 확인되었다. 새로운 변종의 추정치를 얻기 위해 SNV를 dbSNP 137 데이터베이스의 것과 비교했다. 총 3,761,932 (96.01 %) 중 SNV는 dbSNP 137 데이터베이스에 보고되었으며 나머지 156,227 SNV는 IHGP01 게놈에서 새로운 것으로 밝혀졌다. SNV를 추가 분류한 결과 10,455 개의 SNV가 비동의 돌연변이에 매핑되었으며, 5개의 변환되지 않은 영역 (UTR)에서 2780개, 3'UTR에서 22,305로 맵핑되었음을 보여 주었다. 유전자 좌에 대한 SNV의 상세 매핑이 수행되었으며,보충 표 S4에 제시되었다. SNV 외에 IHGP01 게놈에서는 총 393,192개의 짧은 인델(최대 ±20개 염기)이 확인되었으며, 이 중 17,359개(4.41%)가 새로운 인델로 표현되었으며, 220,289개가 유전자 간 영역에서 발견되었고, 인트론 지역에서 146건의 원인 프레임시프트와 14만4천5백4십명이 발견되었다. 

코딩 및 새로운 변형 및 그 중요성입니다.

코딩 영역 (cSNP)에서의 SNP는 아미노산의 치환을 초래할 수 있고 단백질 구조 와 기능을 변화시킬 수 있다. IHGP01 게놈에서 총 21,114 개의 cSNP 중 10,455는 비동의 치환 (nsSNP)으로 확인되었으며, 여기에는 10,322 개의 missense 치환 및 5294 개의 단백질 코딩 유전자에 매핑 된 96 개의 non-sense 치환이 포함된다.

분석 결과, 새로운 nsSNP (보충 표 S5)에서 최소 309 개의 돌연변이가 '확실히 손상‘된 것으로 밝혀졌다 [14,15]. 309 개의 SNP 중에서 1000 개의 게놈 데이터 세트에서 84 개의 SNP가 발견되었고 1000 개의 게놈에서 남아시아 샘플에서 79 개의 SNP가 발견되었으며, 이는 대부분의 변이체가 이전에는 보이지 않았음을 나타낸다.

몇 가지 신규 한 SNP를 약리학 적 관련성이 알려진 유전자의 단백질 코딩 영역에 위치시켰다. 몇 가지 예를 들면, (SYNE1 associated with spinocerebellar ataxia, autosomal recessive 8 and Emery-Dreifuss muscular dystrophy 4), IL4R (susceptibility to atopy), SULT1A2 (associated with sulfotransferase activity) 및 TLR9 (병원체 인식 및 활성화)에서 SNP가 발견되었다. MUC6 (21) 및 CDC27 (16)의 두 유전자에서 많은 새로운 돌연변이가 발견되었다. 이러한 새로운 돌연변이의 생리학적 의미는 평가할 필요가 있다.

미토콘드리아 DNA 및 Y- 염색체 1배 그룹 분석

미토콘드리아 염색체 분석은 모체의 난자를 통해서만 유전되기 때문에 모계 조상이 밝혀진다. 이주를 결정하기 위해 널리 사용되는 미토콘드리아 1배체형은 아프리카로의 인구 분산의 시간과 경로를 나타낸다 [[17], [18], [19], [20], [21]]. IHGP01 미토콘드리아 게놈 (16,569 bp)의 분석은 캠브리지 참조 서열 (rCRS)에 비해 41 개의 SNP를 가지고 있음을 보여 주었다 [18]. 미토콘드리아 DNA 서열의 1배체형 분석은 미토툴 (http://www.mitotool.org/)[22]을 사용하여 수행되었으며, 이는 W1 1배체 그룹이 IHGP01과 가장 관련이있는 1배 그룹 인 것으로 밝혀졌다. 이는 IHGP01 개인이 W1 haplogroup의 빈번한 발생이 보고되는 서인도 구자라트의 출신이라는 사실과 일치한다(http://www.eupedia.com/europe/Haplogroup_W_mtDNA.shtml; http : //www.thecid). com /) [23,24]. 아대륙에 1 번 haplogroup이 도착한 시간은 20,000 년 미만으로 추정되며, 이는 미토콘드리아 분석에 의해 밝혀진 다른 인간의 분산 패턴과 비교할 때 상대적으로 최근이다 [17] (그림 1a).

Fig. 1. IHGP01 게놈의 조상 이동 패턴. (a) ) Mitochondrial DNA (mt-DNA) haplogroup 분석 [Mitomap (http://www.mitomap.org)에 따르면] IHGP01 개인의 여성 조상은 약 70,000 년 전에 아프리카에서 이주하여 도달했다고 밝혔다 (L3). 약 20,000 년 전 중앙 아시아를 경유 한 인도 (W). (b) Y-chromosome haplogroup분석에 따르면 IHGP01 개체의 수컷 조상은 약 5 만년 전 (CT) 아프리카에서 이주하여 25,000 ~ 30,000 년 (R1)을 넘지 않는 중앙 아시아를 통해 인도에 도달했다고 한다.

유사하게,Y haplogroup그룹은 Y- 염색체 DNA 서열 SNP 지수 (https://isogg.org/tree/ISOGG_YDNA_SNP_Index.html) 및 IHGP01 개체에 대한 변이체를 사용하여 계산되었다. R1 일 배수 그룹은 IHGP01 샘플에 대해 측정되었으며, 이는 중앙 아시아로부터 인도-유럽인의 이주를 강조했다. 또한, mt DNA와 Y 염색체 둘 다에 대한 haplogroup 이동 패턴은 유사한 시간과 이동 경로를 따랐다 [25,26] (Fig. 1b).

카피 수 변이 분석

readDepth 프로그램을 사용하여 카피 수 변이 (CNV) 분석을 수행하였다. 이 프로그램은 적용 범위의 깊이를 측정하여 CNV를 탐지한다. 유전자 손실 및 유전자 획득 측면에서 CNV가 IHGP01 샘플에 대해 보고되었다. 2017 년 총 CNV 중에서 게놈은 총 1090 개의 결실 된 유전자와 927 개의 복제된 유전자를 포함했다. 이 분석은 게놈 변이체 데이터베이스 (DGV;http://projects.tcag.ca/variation/)와 비교할 때 각각 신규 결실 및 복제 CNV로서 603 및 58을 나타내었다 [27] (Supplementary Table S6).

건강 자료수집(profiling)의 SNP

질병 연관성

개체의 건강 프로파일을 갖기 위해, IHGP01 게놈에서 확인된 cSNP는 OMIM, SNPedia, HGMD 등과 같은 여러 데이터베이스를 사용하여 주석이 달렸다. 질병 감수성 또는 위험과 관련된 350 개의 플러스 유전자 및 그 변이체의 전체 목록이 수동으로 개발되었다. 또한, IHGP01 게놈의 모든 변이체를 분석하여 심혈관 질환 (CVD) 및 고혈압에 대한 감수성을 나타냈다 (Table 1). SNX19 유전자의 SNP 분석 (rs2298566; L878R)은 관상 동맥 심장 질환의 위험이 증가하고 임상적으로statins에 대한 더 나은 반응과의 연관성이 증가된 것으로 밝혀졌다 [28]. 또한,PON1에서 2 개의 SNP (Q192R; rs662 및 L55μM; rs854560)의 연관성이 심혈관 질환 [29] 및 관상 동맥 질환 [30,31]의 위험 증가와 관련이 있는 것으로 밝혀졌다. 고혈압 감수성 및 ICAM1 (rs5498; K469E)의 SNP에 영향을 미치는 AGT 유전자의 SNP (rs699; I1000V)는 말라리아에 대한 저항 증가와 상관 관계가 있는 이 게놈에서 검출되었다. 이 두 변이체는 552 명 이상의 인도인에 대한 연구에서 이전에 확인되었다 [32]. 게다가, 몇몇 다른 SNP는 남성의 정신 분열증 위험 증가 (ATF4; rs4894), 황반변성 (CFH; rs800292), 자간전증, 청력 손실 (NAT2) rs1799930), 대머리 (EDA2R; rs1385699) 및 쓴 맛 (TAS2R38; rs1726866)을 부여하는 능력이 또한 검출되었다. 질병 위험과는 반대로, 일부 SNP는 질병 예방과 관련이 있는 것으로 밝혀졌다. 치매 및 알츠하이머 질환의 위험이 낮은 CETP (rs5882; V422I)의 SNP와 유육종증의 위험이 감소된[33] ANXA11 (rs1049550; R230C)의 SNP가 IHGP01 게놈에서도 발견되었다 (Table 1).

Table 1. List of SNPs associated with disease and pharmacogenomics profile of IHGP01 individual. <thead> </thead>

Disease condition/Drug profile Chromosomal position Gene Genotype rsID Related outcome
Disease profile
Coronary heart disease 11, 130880747 SNX19 AC rs2298566 Increased risk of coronary heart disease; better response to statins
Cardiovascular disease (CVD) 7, 95308134 PON1 TC rs662 Higher risk for heart disease
7, 95316772 PON1 AT rs854560 Higher risk for heart disease; diabetic retinopathy
Hypertension 1, 230710048 AGT AG rs699 Increased risk of hypertension
Malarial infection 19, 10285007 ICAM1 AG rs5498 1.9× increased malaria risk
Schizophrenia 22, 39521510 ATF4 CC rs4894 1.78× increased risk for schizophrenia in males
Macular degeneration 1, 196673103 CFH AA rs800292 Increased risk of macular degeneration
Preeclampsia 5, 96895296 ERAP2 GT rs2549782 1.3× increased risk for preeclampsia in most populations
Preeclampsia 10, 68882104 STOX1 TC rs1341667 Increased risk for preeclampsia
Taste ability 7, 141972905 TAS2R38 GA rs1726866 Have ability to taste bitter
Baldness X, 66605144 EDA2R TT rs1385699 Increased risk of baldness
Dementia and Alzheimer's disease 16, 56982180 CETP GA rs5882 Lower risk of dementia and Alzheimer's disease
Sarcoidosis 10, 80166946 ANXA11 AA rs1049550 0.62× reduced risk for sarcoidosis
 
Pharmacogenomic profile
Enzyme metabolism 10, 94781859 CYP2C19 GA rs4244285 Poor metabolizer of clopidogrel used in the treatment of CVD and have higher risk for adverse cardiovascular events.
Enzyme metabolism 19, 15879621 CYP4F2 CT rs2108622 Involved in myocardial infarction, stroke and require higher warfarin dose
Carbonyl reductase 21, 36146408 CBR3 GA rs1056892 May have increased risk of cardiac toxicity after exposure to anthracyclines
Enzyme metabolism 1, 46813503 CYP4B1 CT rs4646487 May have increased risk for toxicity with treated with docetaxel and thalidomide
DNA repair protein 19, 45420395 ERCC1 GG rs11615 Mixed response with cisplatin but shows nephrotoxicity in case of cyclophosphamide
Lipoprotein metabolism 2,169154475 LRP2 CC rs2075252
Transmembrane transporter 6,160249250 SLC22A2 AC rs316019
Enzyme metabolism 8, 18400593 NAT2 GA rs1799930 Slow acetylators

 

약물유전체학적 프로파일

개인에게 존재하는 유전자 변이체(genetic variants)(SNP)는 약물 부작용의 예측을 위해 사용될 수 있고 또한 약물의 유효 처방 용량을 관리할 수 있다. IHGP01 개체의 약물유전체학적(pharmacogenomic) 프로파일을 이해하기 위해, 약동학 및 약력학 관련성과 관련된 공개된 문헌에 근거하여 게놈에 존재하는 변이체 (SNP)에 주석을 달았다 [34,35]. 분석 결과, 게놈은 다양한 약물의 대사 또는 반응과 관련된 몇 가지 SNP를 갖는 것으로 밝혀졌다.CYP2C19 의 SNP (rs4244285; CYP2C19 * 2 변이)는 클로피도그렐(clopidogrel)에 대한이 개인의 신진 대사를 방해하고 치료 중 이차 심혈관 사건의 위험 증가와 함께 활성 약물 대사 산물의 형성을 감소시켰다 [36,37]. 유사하게, 치료 동안 안트라 사이클린(anthracyclines) 노출은 CBR3 유전자 (rs1056892; V244 M)에서 SNP의 존재로 인해 심장 독성의 위험을 증가시킬 수 있다. 혈액 희석제로 사용되는 와파린은CYP4F2 유전자 (rs2108622; V433 M)에서 SNP의 존재로 인해 심근 경색을 치료하는 동안 경구로 투여될 때 더 높은 용량(higher dose)으로 필요할 수 있다. 이에 더하여, 몇 가지 SNP는 시클로 포스 파 미드 및 시스플라틴 노출 (ERCC1, rs11615;LRP2, rs2075252;SLC22A2, rs316019)의 경우 신 독성에 대한 평균 또는 감소된 위험과 관련이있는 것으로 밝혀졌다. NAT2 (rs1799930, G590A)의 경우, 개인은 느린 아세틸 레이터 (OMIM 데이터베이스 링크 :https://www.omim.org/entry/612182) 인 것으로 밝혀졌다 (Table 1).

새로운 변이의 NCBI 제출

이 개인에서 발견된 총 126,353 개의 새로운 SNP와 15,144 개의 새로운 Indel이 NCBI 데이터베이스에 성공적으로 제출되어 (Human Build 146; https://www.ncbi.nlm.nih.gov/SNP/snp_viewTable.cgi?handle=PADH- LAB_SPU) 인도 개인의 게놈 연구에서 상당한 기여를 했다.

다른 아시아 염기 서열 유전체와 비교

변이체 (SNP)의 비교 분석은 Pathan-Pakistani (PAP-PAK0004-UNK), 중국어 (YH2), 일본어 (PUB-JPN0003-UNK) 및 한국어 (PAP)가 있는 5 가지 다른 게놈 [Gujarat Indian genome (IHGP01)]을 사용하여 수행되었다. -KOR0001-KOR)] (Fig. 2)). 이들 5 개의 게놈에서 검출된 SNP의 중복은 IHGP01 SNP의 14.61 %가 독특하고, 37.88 %가 5 개의 서열화 된 게놈 모두에 의해 공유되었음을 나타내었다. 또한 IHGP01의 약 5.72 % SNP는 Pathan-Pakistani 게놈과 공유되었으며 변이의 2.33 %에서 2.85 %만이 다른 동아시아 게놈 (각각 한국 및 일본)과 공유되었다. 또한, IHGP01 변이체는 각 집단 (http://www.internationalgenome.org/category/population/)에 의해 1000 개의 게놈 (데이터 상 3)과 비교되어 중첩 및 비 오버랩 변이체를 세었다. 분석 결과 IHGP01 게놈은 남아시아 인과 가장 겹치고 동아시아 인과 겹치며 동아시아보다 유럽에 더 가깝다 (Fig. 3).

Fig. 2. 5 개의 게놈간에 겹치는 SNP 수의 벤 다이어그램. 다이어그램은 일부 아시아 인 인구를 나타내는 개별 게놈이 공유하는 SNP의 수를 나타낸다. IHP01, 인도 (구자라트) 샘플; PUB-JPN0003-UNK, 일본 샘플; PAP-KOR0001-KOR, 한국인 샘플; PAP-PAK0004-UNK, 파키스탄 샘플; YH2, 중국인 샘플

그림 3. IHGP01 Indian 샘플을 1000 개의 게놈 데이터 단계와 비교 한 Rplot3. 각 수퍼 모집단에 의해 1000 개의 게놈 데이터를 갖는 중첩 및 비 중첩 변이체의 수를 플롯팅 하였다. x 축은 1000 개 게놈의 수퍼 모집단이고 Y 축은 변형 수이다.

혼합과 PCA 플롯 분석

PCA 분석은 개별 게놈의 SNP 데이터 세트를 사용하여 다른 집단 내에서 및 다른 집단간에 유전적 변이의 패턴을 특성화한다. PCA 분석은 인류의 철새 패턴을 포함한 진화 역사에 대한 이해를 제공한다 [38]. 그림 4는 IHGP 01 Indian 샘플을 사용하여 human origin panel + PAPGI에서 처음 두 대의 PC를 예상하여 조상을 밝혔다. 또한, 우리의 샘플은 남아시아 샘플과 함께 클러스터 되었으며 동아시아보다 서아시아와 유럽에 훨씬 더 가깝다. 이는 도 3과 일치한다. 또한, 좌측 상단에 동아시아 출신 개인, 좌측 하단에 유라시아 출신, 우측 상단에 아프리카 출신의 개인 클러스터링 측면 코너가 관찰되었다. 따라서 결과는 마이그레이션, 지리적 격리 및 혼합을 포함한 기본 프로세스 측면에서 PCA 예측을 해석하기 위한 프레임 워크를 제공한다. 또한, 혼합 분석을 수행하여 PCA 분석의 예측을 재확인하였다. 혼합 분석을 통해 이산 개체군의 유전적 구조 차이를 이해할 수 있다. 이것은 알려지지 않은 조상을 가진 개인을 개별 집단으로 분류할 수 있게 하며 유전자 연관 연구에 필요한 전제 조건 중 하나입니다. 현재의 연구에서, 591,356 SNV에 기초하여 혼합물 분석이 수행되었다. STRUCTURE (K = 2에서 K = 4)의 군집이 분석을 위해 고려되었다. IHGP 01 게놈 조성물은 가변성 내에 있었고 유사한 이동 패턴을 따랐다 (도 5).

 

그림 4. IHGP 01 Indian 샘플을 사용한 Human Origin panel + PAPGI에서 처음 두  PC의 산포 PCA 플롯. 그림의 각 점은 전 세계 여러 인구 집단의 각 표본을 나타낸다. 각 색상은 그들이 속한 대륙을 나타낸다. PC1은 아프리카와 비-아프리카를 분리하고 PC2는 서쪽과 동쪽 유라시아를 분리했다.

그림 5. 구자라트 인디언 (IHGP01) 개체의 혼합 분석 (K = 2 ~ K = 4)은 유사한 철새 패턴에 따른 변동성에 속한다. IHGP01 개체의 혼합 분석은 591,356 SNV를 사용하여 HGDP 데이터 세트로부터의 19개 민족 게놈으로 수행되었다. 각 수직선은 하나의 개인을 나타내며, 부분 군의 구성원 계수를 나타내는 색상 세그먼트로 나뉘고 K는 인공 조상 수 (서브 그룹)을 나타낸다. (이 그림 범례에서 색상에 대한 참조를 해석하기 위해 독자는 이 기사의 웹 버전을 참조하시오.)

토의

 기술이 접근 가능하고 저렴해짐에 따라 개별 게놈 분석이 현실이 되었다. 이러한 운동의 결과는 개인의 유전적 배경과 건강에 대한 영향을 상당히 신뢰할 수 있기 때문에 개인에게 중요하다. 이 게놈은 CVD 및 고혈압에 대한 이 개체의 감수성 및 스타틴에 대한 우수한 반응을 보여 주었다. 이러한 질병 변이체 및 유전자 변이체의 상관관계는 신뢰할 만하지만, 상관관계는 절대적이지 않으며 질병 민감성 또는 약물 반응은 아직 확인되지 않은 다른 변이체에 의해 영향을 받을 수 있다. 인간 변이체 데이터베이스는 다양한 집단으로부터 점점 더 많은 데이터가 풍부해짐에 따라, 질병과 유전자 변이체 사이의 상관관계를 확립하는 기술은 예측을 막기 위해 매우 이른 시기에 유전자 스크리닝이 권장될 수 있는 수준으로 개선될 것으로 예상된다.

 개별 게놈의 서열 분석 및 분석은 참조 인간 게놈에서 지금까지 보고되지 않은 다수의 신규 변이체를 나타낸다. 이 구자라트 수컷 개체의 게놈에 대한 우리의 연구는 126,353개의 SNP와 15,144개의 indel과 같은 새롭고, 보고되지 않은 새로운 변이체를 만들어 냈으며, 이는 현재 NCBI 데이터베이스에 보관되어있다. 새로운 변종은 참조 인간 게놈의 NCBI 데이터베이스를 풍부하게 만들었다. 신규 변이체의 제한된 분석은 의학적으로 중요한 유전자의 코딩 영역에서 일부 변이체, 예를 들어 SYNE1, IL4R, TLR9, MUC6 및 CDC27을 나타냈다. 새로운 균주의 빈도는 인도 인구에서 볼 수 있다. 건강과 질병에서 이러한 변이체의 기능을 해독하기 위해 세부적인 연구가 수행될 때까지 의학적 중요성을 부여할 수 없다. 개별 게놈에 관한 미래의 연구가 참조 인간 게놈 변이체 데이터베이스에서 새로운 변이체를 만성화하고 보관하고 유전자 변이에 대한 이해를 풍부하게 하기를 희망한다. 이 연구는 인간 유전자 변이체 데이터베이스가 전 세계 인구의 약 1/6을 차지하는 인도 아대륙의 사람들에 대한 적절한 표현을 포함하지 않기 때문에 특히 중요하다. 불충분한 인구의 개별 게놈에 대한 더 많은 분석은 결국 전체 인구를 나타내는 인간 게놈 데이터베이스를 "완료"할 것이다.

 인류 (호모 사피엔스)는 약 8만에서 10 만 년 전에 아프리카를 여행하기 시작했으며, 일정 기간 전 세계로 퍼져 나갔으며 다른 경로를 따랐다. Y- 염색체 및 미토콘드리아 염색체는 감수성 상동 재조합에 참여하지 않기 때문에 이 기간 동안 보존된 상태로 유지되므로, 모계 및 모계 조상을 추적하기 위해 일상적으로 분석된다. 이 두 염색체의 일 배 체형의 분석은 조상과 모계 조상의 타임 라인과 경로를 보여준다. 인도 인구는 80,000년 동안 인도 대륙으로 여행하는 여러 인파가 혼합된 것이다. 이 개인의 조상은 15,000년에서 20,000년 전에 이곳에 도착했을 것이. 이는 북서부 지역의 인도인이 인도 남부에 비해 인도 대륙에 도착했다는 예측과 일치한다.

이해의 상충

저자는 이해의 상충이 없다는 것을 선언한다.

감사의 말

이 작업은 Gujarat State Biotechnology Mission (GSBTM 프로젝트 ID 496), Gujarat 정부 및 울산 게놈 한국 프로젝트 (800 게놈 시퀀싱) 연구 기금 (1.180017.01)에 의해 자금을 조달한 재정 지원 프로그램 (FAP)에 의해 지원을 받았다. UNIST (울산 과학 기술원) 우리는 Suhani Almal 박사에게 연구 연계성을 제공 한 인도 과학 및 산업 연구위원회 (CSIR) 협의회를 진심으로 감사의 말을 표한다. 샘플 시퀀싱에 대해 말레이시아 유전체학 자원 센터 Berhad (MGRC)에게도 감사드린다.


Pages with broken file links