Changes

← Older edit

Sequencing and analysis of the whole genome of Indian Gujarati male.

6,742 bytes removed, 10:19, 6 July 2020

m

no edit summary

Author links open overlay panel[https://www.sciencedirect.com/science/article/pii/S0888754318300892?via=ihub#! SuhaniAlmalb][https://www.sciencedirect.com/science/article/pii/S0888754318300892?via=ihub#! SungwonJeonc][https://www.sciencedirect.com/science/article/pii/S0888754318300892?via=ihub#! MileeAgarwalb][https://www.sciencedirect.com/science/article/pii/S0888754318300892?via=ihub#! SwetaPatelb][https://www.sciencedirect.com/science/article/pii/S0888754318300892?via=ihub#! ShivangiPatelb][https://www.sciencedirect.com/science/article/pii/S0888754318300892?via=ihub#! YoungjuneBhakc][https://www.sciencedirect.com/science/article/pii/S0888754318300892?via=ihub#! JeHoonJund][https://www.sciencedirect.com/science/article/pii/S0888754318300892?via=ihub#! JongBhakcde][https://www.sciencedirect.com/science/article/pii/S0888754318300892?via=ihub#! HarishPadha]

~~== Contents == [[[hide]]] ~~ *[http://in.kogic.kr/Sequencing_and_analysis_of_the_whole_genome_of_Indian_Gujarati_male.#.ED.95.98.EC.9D.B4.EB.9D.BC.EC.9D.B4.ED.8A.B8.28.EA.B0.95.EC.A1.B0.29 1하이라이트(강조)] *[http://in.kogic.kr/Sequencing_and_analysis_of_the_whole_genome_of_Indian_Gujarati_male.#.EC.B4.88.EB.A1.9D 2초록] *[http://in.kogic.kr/Sequencing_and_analysis_of_the_whole_genome_of_Indian_Gujarati_male.#.ED.82.A4.EC.9B.8C.EB.93.9C 3키워드] *[http://in.kogic.kr/Sequencing_and_analysis_of_the_whole_genome_of_Indian_Gujarati_male.#1._.EC.86.8C.EA.B0.9C 41. 소개] *[http://in.kogic.kr/Sequencing_and_analysis_of_the_whole_genome_of_Indian_Gujarati_male.#2._.EC.9E.AC.EB.A3.8C.EC.99.80_.EB.B0.A9.EB.B2.95 52. 재료와 방법] **[http://in.kogic.kr/Sequencing_and_analysis_of_the_whole_genome_of_Indian_Gujarati_male.#2.1._.EC.83.98.ED.94.8C_.EC.84.A0.ED.83.9D_.EB.B0.8F_DNA_.EB.B6.84.EB.A6.AC 5.12.1. 샘플 선택 및 DNA 분리] **[http://in.kogic.kr/Sequencing_and_analysis_of_the_whole_genome_of_Indian_Gujarati_male.#2.2._.EC.83.9D.ED.99.94.ED.95.99_.EB.B6.84.EC.84.9D_.26_.EC.9C.A0.EC.A0.84.EB.B3.91_.ED.94.84.EB.A1.9C.ED.8C.8C.EC.9D.BC.EB.A7.81 5.22.2. 생화학 분석 & 유전병 프로파일링] **[http://in.kogic.kr/Sequencing_and_analysis_of_the_whole_genome_of_Indian_Gujarati_male.#2.3._.EC.84.B8.ED.8F.AC_.EC.9C.A0.EC.A0.84.ED.95.99.EC.A0.81_.EB.B6.84.EC.84.9D 5.32.3. 세포 유전학적 분석] **[http://in.kogic.kr/Sequencing_and_analysis_of_the_whole_genome_of_Indian_Gujarati_male.#2.4._.EB.9D.BC.EC.9D.B4.EB.B8.8C.EB.9F.AC.EB.A6.AC_.EA.B5.AC.EC.B6.95_.EB.B0.8F_.EC.8B.9C.ED.80.80.EC.8B.B1 5.42.4. 라이브러리 구축 및 시퀀싱] ***[http://in.kogic.kr/Sequencing_and_analysis_of_the_whole_genome_of_Indian_Gujarati_male.#2.4.1._.EB.9D.BC.EC.9D.B4.EB.B8.8C.EB.9F.AC.EB.A6.AC_.EA.B5.AC.EC.B6.95 5.4.12.4.1. 라이브러리 구축] ***[http://in.kogic.kr/Sequencing_and_analysis_of_the_whole_genome_of_Indian_Gujarati_male.#2.4.2._.EC.A0.84.EC.B2.B4_.EC.9C.A0.EC.A0.84.EC.B2.B4_.ED.95.B4.EB.8F.85 5.4.22.4.2. 전체 유전체 해독] **[http://in.kogic.kr/Sequencing_and_analysis_of_the_whole_genome_of_Indian_Gujarati_male.#2.5._.EC.A0.95.EB.A0.AC.28Alignment.29_.EB.B0.8F_.EB.B3.80.EC.9D.B4_.EB.B6.84.EC.84.9D 5.52.5. 정렬(Alignment) 및 변이 분석] ***[http://in.kogic.kr/Sequencing_and_analysis_of_the_whole_genome_of_Indian_Gujarati_male.#2.5.1._.EC.A0.84.EC.B2.98.EB.A6.AC.28_Pre-processing.29 5.5.12.5.1. 전처리( Pre-processing)] ***[http://in.kogic.kr/Sequencing_and_analysis_of_the_whole_genome_of_Indian_Gujarati_male.#2.5.2._Mapping_of_reads 5.5.22.5.2. Mapping of reads] ***[http://in.kogic.kr/Sequencing_and_analysis_of_the_whole_genome_of_Indian_Gujarati_male.#2.5.3._.EB.B3.80.ED.98.95.EC.9D.98_.EC.8B.9D.EB.B3.84_.EB.B0.8F_.EB.B6.84.EB.A5.98 5.5.32.5.3. 변형의 식별 및 분류] ****[http://in.kogic.kr/Sequencing_and_analysis_of_the_whole_genome_of_Indian_Gujarati_male.#2.5.3.1._.EB.B3.80.ED.98.95_.EB.B6.84.EC.84.9D 5.5.3.12.5.3.1. 변형 분석] *****[http://in.kogic.kr/Sequencing_and_analysis_of_the_whole_genome_of_Indian_Gujarati_male.#2.5.3.1.1._.EC.95.8C.EB.A0.A4.EC.A7.84_SNP 5.5.3.1.12.5.3.1.1. 알려진 SNP] *****[http://in.kogic.kr/Sequencing_and_analysis_of_the_whole_genome_of_Indian_Gujarati_male.#2.5.3.1.2._.EC.83.88.EB.A1.9C.EC.9A.B4_SNP 5.5.3.1.22.5.3.1.2. 새로운 SNP ] *[http://in.kogic.kr/Sequencing_and_analysis_of_the_whole_genome_of_Indian_Gujarati_male.#3._.EA.B2.B0.EA.B3.BC 63. 결과] **[http://in.kogic.kr/Sequencing_and_analysis_of_the_whole_genome_of_Indian_Gujarati_male.#3.1._.EA.B2.8C.EB.86.88_.EC.84.9C.EC.97.B4_.EB.B0.8F_.EC.9D.B8.EA.B0.84_.EC.B0.B8.EC.A1.B0_.EB.8D.B0.EC.9D.B4.ED.84.B0.EB.B2.A0.EC.9D.B4.EC.8A.A4.EC.97.90_.EB.8C.80.ED.95.9C_.EC.A0.95.EB.A0.AC 6.13.1. 게놈 서열 및 인간 참조 데이터베이스에 대한 정렬] **[http://in.kogic.kr/Sequencing_and_analysis_of_the_whole_genome_of_Indian_Gujarati_male.#3.2._.EB.B3.80.ED.98.95_.EC.8B.9D.EB.B3.84 6.23.2. 변형 식별] **[http://in.kogic.kr/Sequencing_and_analysis_of_the_whole_genome_of_Indian_Gujarati_male.#3.3._.EC.BD.94.EB.94.A9_.EB.B0.8F_.EC.83.88.EB.A1.9C.EC.9A.B4_.EB.B3.80.ED.98.95_.EB.B0.8F_.EA.B7.B8_.EC.A4.91.EC.9A.94.EC.84.B1.EC.9E.85.EB.8B.88.EB.8B.A4. 6.33.3. 코딩 및 새로운 변형 및 그 중요성입니다.] **[http://in.kogic.kr/Sequencing_and_analysis_of_the_whole_genome_of_Indian_Gujarati_male.#3.4._.EB.AF.B8.ED.86.A0.EC.BD.98.EB.93.9C.EB.A6.AC.EC.95.84_DNA_.EB.B0.8F_Y-_.EC.97.BC.EC.83.89.EC.B2.B4_1.EB.B0.B0_.EA.B7.B8.EB.A3.B9_.EB.B6.84.EC.84.9D 6.43.4. 미토콘드리아 DNA 및 Y- 염색체 1배 그룹 분석] **[http://in.kogic.kr/Sequencing_and_analysis_of_the_whole_genome_of_Indian_Gujarati_male.#3.5._.EC.B9.B4.ED.94.BC_.EC.88.98_.EB.B3.80.EC.9D.B4_.EB.B6.84.EC.84.9D 6.53.5. 카피 수 변이 분석] **[http://in.kogic.kr/Sequencing_and_analysis_of_the_whole_genome_of_Indian_Gujarati_male.#3.6._.EA.B1.B4.EA.B0.95_.EC.9E.90.EB.A3.8C.EC.88.98.EC.A7.91.28profiling.29.EC.9D.98_SNP 6.63.6. 건강 자료수집(profiling)의 SNP] ***[http://in.kogic.kr/Sequencing_and_analysis_of_the_whole_genome_of_Indian_Gujarati_male.#3.6.1._.EC.A7.88.EB.B3.91_.EC.97.B0.EA.B4.80.EC.84.B1 6.6.13.6.1. 질병 연관성] ***[http://in.kogic.kr/Sequencing_and_analysis_of_the_whole_genome_of_Indian_Gujarati_male.#3.6.2._.EC.95.BD.EB.AC.BC.EC.9C.A0.EC.A0.84.EC.B2.B4.ED.95.99.EC.A0.81_.ED.94.84.EB.A1.9C.ED.8C.8C.EC.9D.BC 6.6.23.6.2. 약물유전체학적 프로파일] **[http://in.kogic.kr/Sequencing_and_analysis_of_the_whole_genome_of_Indian_Gujarati_male.#3.7._.EC.83.88.EB.A1.9C.EC.9A.B4_.EB.B3.80.EC.9D.B4.EC.9D.98_NCBI_.EC.A0.9C.EC.B6.9C 6.73.7. 새로운 변이의 NCBI 제출] **[http://in.kogic.kr/Sequencing_and_analysis_of_the_whole_genome_of_Indian_Gujarati_male.#3.8._.EB.8B.A4.EB.A5.B8_.EC.95.84.EC.8B.9C.EC.95.84_.EC.97.BC.EA.B8.B0_.EC.84.9C.EC.97.B4_.EC.9C.A0.EC.A0.84.EC.B2.B4.EC.99.80_.EB.B9.84.EA.B5.90 6.83.8. 다른 아시아 염기 서열 유전체와 비교] **[http://in.kogic.kr/Sequencing_and_analysis_of_the_whole_genome_of_Indian_Gujarati_male.#3.9._.ED.98.BC.ED.95.A9.EA.B3.BC_PCA_.ED.94.8C.EB.A1.AF_.EB.B6.84.EC.84.9D 6.93.9. 혼합과 PCA 플롯 분석] *[http://in.kogic.kr/Sequencing_and_analysis_of_the_whole_genome_of_Indian_Gujarati_male.#4._.ED.86.A0.EC.9D.98 74. 토의] *[http://in.kogic.kr/Sequencing_and_analysis_of_the_whole_genome_of_Indian_Gujarati_male.#.EC.9D.B4.ED.95.B4.EC.9D.98_.EC.83.81.EC.B6.A9 8이해의 상충] *[http://in.kogic.kr/Sequencing_and_analysis_of_the_whole_genome_of_Indian_Gujarati_male.#.EA.B0.90.EC.82.AC.EC.9D.98_.EB.A7.90 9감사의 말] == '''하이라이트(강조)''' ==

•구라자트 인디언 (IHGP01)의 전장유전체해독(Whole genome sequence).

•human DNA databas에 141,000개의 새로운 유전자 변이가 추가되었다.

== '''초록''' ==

이 논문은  Illumina HiSeq 2000 platform을 사용하여 생성된 총 74.93 Gb의 서열 데이터로 23.05×범위 내에서 시퀸싱된 구자라트 인디언(IHGP01)의 전장유전체해독 분석을 제시한다.  변이 분석 결과 390만개 이상의 단일 염기다형성(SNV)와 새로운 변이를 포함한 약 39만3000개의 small insertions 및 deletions (InDels)가 발견되었다. 알려진 변이는 건강 및 질병 관련성 및 약물유전체학 프로파일에 대해 분석되었다. 미토콘드리아와 Y-염색체 하플로그룹 분석은 아프리카를 떠나 중부 유럽으로, 그 후 아시아 대륙으로 이동 한 후  인도 아대륙의 서부로의 이주로, 대륙에 도착한 지 2만~2만5천년이 되지 않은 것을 분명히 보여주었다. 현재의 연구는 human DNA database에 141,000개의 새로운 유전자 변이를 추가했다. 이러한 새로운 변이에 대한 기능적 분석과 검증과 건강과 질병에 대한 그들의 역할의 발견은 이 아대륙 사람들을 이해하는 새로운 관점을 더할 것이다.

== '''키워드''' ==

Whole-genome sequencing  전장유전체해독, Gujarati Indian male 구자라트 인디언 남성, Variant analysis 변이분석, Health profile 건강 프로파일, Human migration 인구 이동

== '''1. 소개''' ==

2003년에 처음 개발된 인간 참조 게놈(Human reference genome )은 6개국의 약 200명의 익명 개인으로부터 유래되었다. 중국, 프랑스, 독일, 영국, 일본 및 미국 [1] 참조 게놈(reference genome)은 개인의 유전자 구성을 나타내기 위해 임의의 개별 게놈을 비교할 수 있는 틀을 제공한다. 기술의 접근성과 경제성이 향상되고,   참조 데이터베이스가 충분히 풍부해짐에 따라, 개인의 게놈을 분석하는 것은 건강 및 관련 위험 요인에 대한 유전적 배경을 이해하는 것이 가능해졌다. 일정 기간 동안 완전한 개별 게놈 또는 선택적 부분(Exome sequence WES 등)이 분석되었다. 총체적으로 참조 데이터베이스는 인류의 발전에 있어 중요한 여러 측면을 밝혀냈다. 특히 Y염색체와 미토콘드리아 해플로그 그룹은 지난 10만 년 동안 고해상도 인간 이주 지도를 개발하는 데 도움을 주었다. 개별 게놈으로 우리는 이제 조상의 민족적 유대를 확인하고 그 특정 집단에 대한 이주 패턴을 개발하고 개인의 건강 프로필도 개발할 수 있게 되었다.

인도는 동남아시아로 가는 이동 경로에서 중심 위치를 차지하고 있으며, 12억 5천만 명의 인구로 세계 인구의 약 6분의 1을 차지하고 있다. 인도 인구는 지난 8만 년 동안 서로 다른 방향에서 오는 몇 개의 뚜렷한 이주 물결을 통해 발달한 것으로 여겨진다. 현대의 인도 인구는 그러한 인구의 혼합물로서, 지난 1000년 정도의 기간에 걸쳐서 최근에야 다양한 공동체로 분리되었다고 생각된다[2].

원래의 인간 참조 게놈은 이 아대륙으로부터 어떠한 대표성도 가지고 있지 않다는 점에 유의해야 한다. 그 후에 1000 genome project [3,4] 는 인도에서 온 일부 개인을 포함했지만, 전반적으로 현재 인간 변이의 데이터베이스는 여전히 이 아대륙에서 온 비례적 표현력이 부족하다. 참조 인간 데이터베이스를 완전히 대표하는 참조 데이터베이스를 만들려면 인도 아대륙에서 온 더 많은 변이가 추가되어야 한다. 2003년에는 Indian Genome Variation Consortium Project를 통해 인도 인구의 유전학에 대한 대규모 연구가 시작되었다. 이 프로젝트에서는, 1만 5천 명의 개인이 1000개 이상의 생명 의학적으로 중요한 유전자[5], [6], [7], (database URL~~;&nbsp~~;[http://www.igvdb.res.~~xn--~~in)~~-mo1w/~~ 에 http://www.igvdb.res.in)에]~~ ~~대해 검진을 받았다. 그러나 이 프로젝트는 알려진 모델만 검색하고 새로운(이전에 보고되지 않은) 모델의 존재는 보고하지 않았다.

본 연구의 목적은 다음과 같다 : (1) 건강 및 질병에 대한 알려진 위험 요인에 대한 인도 개인의 완전한 서열 및 게놈 변이의 분석 (2) 이 개인에 존재하는 보고되지 않은 새로운 변이를 식별하고 이 개인에서 발견된 새로운 변이로 인간 변이 데이터베이스를 풍부하게 하게 한다; (3)미토콘드리아와 Y-염색체 하플로그 분석을 통해 이주의 경로와 이 개인의 조상이 인도에 입국하는 시간을 해독하려고 시도한다.

== '''2. 재료와 방법''' ==

=== '''~~2.1.~~ 샘플 선택 및 DNA 분리''' ===

인도 서부의 구자라트에 거주하는 62세의 교육받은 구자라티 남성(IHGP01)이 사전동의서에 서명하고 연구에 자원해 왔으며, 이는 기관윤리위원회의 승인을 받았다. 분명히 건강한 사람은 알려진 병이 없었다. 승인 후 혈액샘플(peripheral blood 10ml)은 헤파린침(heparinized needle)을 이용하여 회수하여 무균상태에서 항응고제(K2 EDTA) 사전코팅된 채취관에 채취하였다. 게놈 DNA는 페놀-클로로포름 프로토콜(phenol-chloroform protocol)을 사용하여 추출되었다[8,9]. 격리된 샘플에 대한 평가는 DNA의 품질, 수량 및 무결성 측면에서 수행되었다. DNA 품질과 양은 NanoDrop 2000 (Thermo Fisher Scientific Inc., USA)과Qubit 2.0 DNA Broad Range Assay (Invitrogen, USA)를 사용하여 측정되었다. 이 샘플은 또한 게놈 DNA의 품질을 결정하기 위해 1% 아가로즈 젤로 실행되었다.

=== '''~~2.2.~~ 생화학 분석 & 유전병 프로파일링''' ===

해모그램 프로파일링(haemogram profiling), 지질 프로파일링[총콜레스테롤, 중성지방, HDL(고밀도 리포프로틴), LDL(저밀도 리포프로틴), 생화학적 프로파일링(혈액 요소, 혈청 크레아티닌, 간 검사, 혈당, 소변 포도당) 등 기초 생화학적 분석은 제조업체의 프로토콜을 사용하여 수행되었다. 개인과 그의 친척에 대한 인구통계학적 세부사항과 질병 이력 프로파일링도 기록(부록표 S1)에 수록되었다.

=== '''~~2.3.~~ 세포 유전학적 분석''' ===

photographic representation을 통한 유전성 질환의 식별을 위한 Chromosomal aberration accounting은 karyotyping technique을 사용하여 수행되었다. Karyotype은 표준 기법을 적용하여 peripheral blood lymphocytes를 사용하였으며, 400–500 밴드 해상도의 GTG 밴딩을 실시하였다.  G-banded karyotyping chromosome imaging(보조 그림 S1)을 통한 세포 유전학의 분석에서 일관된 구조 및 수치적 염색체 이상이 검출되지 않았다.

=== '''~~2.4.~~ 라이브러리 구축 및 시퀀싱''' ===

분리된 게놈 DNA는 시퀀싱을 위해 Malaysian Genomics Resource Centre (MGRC) 베르하드로 보내졌다.  품질점검을 통과한 후 라이브러리 준비를 위해 분리된 샘플을 처리하였다.

==== '''~~2.4.1.~~ 라이브러리 구축''' ====

Covaris S220(Covaris Inc., USA)은 유전체 DNA를 350–500 bp의 목표 크기로 분할하는 데 사용되었다. 그 후 파편화된 DNA는 end-repaired 되고,  Illumina TruSeq 어댑터에 ligated되고 제조업체의 프로토콜에 따라TruSeq DNA Sample Preparation Kit (Illumina, USA)를 사용하여 PCR-enriched했다. 최종 시퀀싱 라이브러리는 Agilent Stratagene Mx3005P quantitative PCR (Agilent, USA)에서 KAPA 키트(KAPA Biosystem, USA)를 사용하여 정량화되었다. 또한, 라이브러리의 삽입(insert) 크기를 확인하는 데 Agilent Bioanalyzer High Sensitivity DNA Chip (Agilent, USA)을 사용했다.

==== '''~~2.4.2.~~ 전체 유전체 해독''' ====

얻어진 결과 라이브러리는 Illumina flow cell과  Illumina HiSeq 2000 platform (Illumina, USA)에서 202 cycles을 사용하여 시퀀싱되었다. HGP01 샘플의 시퀀서에는 총 75Gb의 원시 데이터(raw data)가 생성되었다.

=== '''~~2.5.~~ 정렬(Alignment) 및 변이 분석''' ===

==== '''~~2.5.1.~~ 전처리( Pre-processing)''' ====

binary BCL 파일 형식의 시퀀싱으로 생성된 원시 데이터는 먼저 일반 텍스트 QSEQ 형식 파일(plain-text QSEQ format files)을 변환된 다음, Illumina's BCL converter를 사용한 FASTQ 형식으로 변환되었다. 변환 후, 전처리( Pre-processing)가 실시되었다. 전처리에서는 2Ns(N bases representing uncalled nucleotides) 이상의 duplicated pair-end reads and reads가 필터링되었다. 이는 샘플에서 고품질 판독을 보장했다. IHGP01 샘플의 매핑 통계에 대한 세부사항은 보충표 S2에 제시되어 있다.

==== '''~~2.5.2.~~ Mapping of reads''' ====

우리는 먼저  NGSQC toolkit v 2.3.3[10](with ‘-l 70 -s 20’ options cutoff read length for HQ = 70%, cutoff quality score = 20)를 사용하여 저품질 판독값을 필터링했다. 필터링 후 필터링된 판독치는 기본 옵션과 함께 BWA-MEM 0.7.8 [11]을 사용하여 hg19 인간 참조(hg19 human reference )에 정렬되었다. SAM 파일은 Samtools 0.1.19[12]를 사용하여 BAM 파일로 변환되었다. PCR duplicated reads는 Picard v1.9.2([http://broadinstitute.github.io/picard/))의 http://broadinstitute.github.io/picard/))의]~~ ~~MarkDuplicate subroutine에 의해 제거되었다.variants call의 정확도를 높이기 위해 , GATK v2.3.9 [13]의  IndelRealigner 및 BaseRecalibration을 사용하였다. GATK Unified Genotyper는 '-heteriogency 0.0010 -dcov 200 -stand_call_conf 30.0 -stand_emit_conf 30.0' 옵션으로 호출했다. 양쪽 끝이 매핑되지 않은 판독값은 BLAST에 의해 프로파일링되어 NCBI RefSeq database로 검색되었다 [14].

==== '''~~2.5.3.~~ 변형의 식별 및 분류''' ====

단일 뉴클레오티드 다형성 (SNP), 단일 뉴클레오티드 삽입 및 삭제 (InDel), 구조적 변이 (SV), 카피 수 변이 (CNV) 및 다중 뉴클레오티드 변이와 같은 모든 유형의 변이체의 식별은 SnpEff 소프트웨어를 사용하여 수행되었다. SnpEff 버전 3.4 (빌드 2013-11-23), Pablo Cingolani]. SNP, InDels 및 multi-base Indels와 같이 식별 된 변종 클래스는 데이터를 dbSNP v137에 정렬하여 알려진 변형과 새로운 변형의 형태로 분류되었다.

===== '''~~2.5.3.1.~~ 변형 분석''' =====

OMIM, NCBI, SNPedia 등과 같은 데이터베이스에서 다양한 질병 범주와 관련된 350 + 유전자의 포괄적 인 목록을 선별하고 생성했다. 생성 된 유전자리스트는 신경계 장애, 심혈관 질환, 암, 당뇨병, 비만, 천식 및 알레르기와 같은 주요 질환과 관련된 유전자로 구성되었다. 또한, 약물 대사 및 영양 유전체학에 관여하는 유전자가 데이터 세트에 포함되었다. 

====== '''~~2.5.3.1.1.~~ 알려진 SNP''' ======

샘플의 코딩 영역에서 공지 된 SNP (IHGP01)는 OMIM, NCBI, SNPedia 등과 같은 여러 데이터베이스를 사용하여 생성 된 포괄적 인 유전자 목록을 사용하여 질병 관련 변이에 대해 분석하여 잠재적 위험 변이의 존재 여부를 평가했다.

====== '''~~2.5.3.1.2.~~ 새로운 SNP ''' ======

질병 관련 유전자의 코딩 영역에서 신규 변이체의 아미노산 위치는 NCBI를 사용하여 결정되었다. 이어서, 한 개의 신규 변이체는 SIFT 프로그램 [15,16]에 의해 평가되어 상당한 손상 / 유해 효과를 갖는 변이체를 예측 하였다.

== '''3. 결과''' ==

=== '''~~3.1.~~ 게놈 서열 및 인간 참조 데이터베이스에 대한 정렬''' ===

isolated human DNA 샘플 (IHGP01)을 Illumina HiSeq 2000을 사용하여 전체 게놈 시퀀싱 (WGS)에 적용 하였다. 분석을 위해 총 74.93 Gb의 서열 데이터 (길이 101 bp의 7 억 7,500 만 고품질 페어-엔드 판독)가 생성되었다. 판독의 전체 평균 품질 점수는 35였다. 판독 및 맵핑 통계를 포함하는 서열 데이터는 보충 표 S2에 요약되어있다. 이어서 생성 된 서열 데이터를 인간 게놈 참조 v37.1 (hg19)에 정렬시켰다. 생성 된 총 판독 중, 판독의 99.67 %가 인간 기준 게놈의 평균 23.05x 범위로 성공적으로 맵핑되었다. 또한 폭발 검색을 통해 매핑 되지 않은 판독 값을 NCBI RefSeq 데이터베이스 (보충 표 S3)로 프로파일링 했다.

=== '''~~3.2.~~ 변형 식별''' ===

샘플 IHGP01의 변이체 (SNP, Indels, CNV 및 SV 포함)를 식별하기 위해 인간 게놈 참조 v37.1 (hg19)과 정렬시켰다. IHGP01 게놈에서 총 3,918,159 개의 SNV 및 393,192 개의 Indel이 확인되었다. 새로운 변종의 추정치를 얻기 위해 SNV를 dbSNP 137 데이터베이스의 것과 비교했다. 총 3,761,932 (96.01 %) 중 SNV는 dbSNP 137 데이터베이스에 보고되었으며 나머지 156,227 SNV는 IHGP01 게놈에서 새로운 것으로 밝혀졌다. SNV를 추가 분류한 결과 10,455 개의 SNV가 비동의 돌연변이에 매핑되었으며, 5개의 변환되지 않은 영역 (UTR)에서 2780개, 3'UTR에서 22,305로 맵핑되었음을 보여 주었다. 유전자 좌에 대한 SNV의 상세 매핑이 수행되었으며,보충 표 S4에 제시되었다. SNV 외에 IHGP01 게놈에서는 총 393,192개의 짧은 인델(최대 ±20개 염기)이 확인되었으며, 이 중 17,359개(4.41%)가 새로운 인델로 표현되었으며, 220,289개가 유전자 간 영역에서 발견되었고, 인트론 지역에서 146건의 원인 프레임시프트와 14만4천5백4십명이 발견되었다. 

=== '''~~3.3.~~ 코딩 및 새로운 변형 및 그 중요성입니다.''' ===

코딩 영역 (cSNP)에서의 SNP는 아미노산의 치환을 초래할 수 있고 단백질 구조 와 기능을 변화시킬 수 있다. IHGP01 게놈에서 총 21,114 개의 cSNP 중 10,455는 비동의 치환 (nsSNP)으로 확인되었으며, 여기에는 10,322 개의 missense 치환 및 5294 개의 단백질 코딩 유전자에 매핑 된 96 개의 non-sense 치환이 포함된다.

몇 가지 신규 한 SNP를 약리학 적 관련성이 알려진 유전자의 단백질 코딩 영역에 위치시켰다. 몇 가지 예를 들면, (SYNE1 associated with spinocerebellar ataxia, autosomal recessive 8 and Emery-Dreifuss muscular dystrophy 4), IL4R (susceptibility to atopy), SULT1A2 (associated with sulfotransferase activity) 및 TLR9 (병원체 인식 및 활성화)에서 SNP가 발견되었다. MUC6 (21) 및 CDC27 (16)의 두 유전자에서 많은 새로운 돌연변이가 발견되었다. 이러한 새로운 돌연변이의 생리학적 의미는 평가할 필요가 있다.

=== '''~~3.4.~~ 미토콘드리아 DNA 및 Y- 염색체 1배 그룹 분석''' ===

미토콘드리아 염색체 분석은 모체의 난자를 통해서만 유전되기 때문에 모계 조상이 밝혀진다. 이주를 결정하기 위해 널리 사용되는 미토콘드리아 1배체형은 아프리카로의 인구 분산의 시간과 경로를 나타낸다 [[17], [18], [19], [20], [21]]. IHGP01 미토콘드리아 게놈 (16,569 bp)의 분석은 캠브리지 참조 서열 (rCRS)에 비해 41 개의 SNP를 가지고 있음을 보여 주었다 [18]. 미토콘드리아 DNA 서열의 1배체형 분석은 미토툴 ([http://www.mitotool.org/ http://www.mitotool.org/])[22]을 사용하여 수행되었으며, 이는 W1 1배체 그룹이 IHGP01과 가장 관련이있는 1배 그룹 인 것으로 밝혀졌다. 이는 IHGP01 개인이 W1 haplogroup의 빈번한 발생이 보고되는 서인도 구자라트의 출신이라는 사실과 일치한다([http://www.eupedia.com/europe/Haplogroup_W_mtDNA.shtml http://www.eupedia.com/europe/Haplogroup_W_mtDNA.shtml]; http : //www.thecid). com /) [23,24]. 아대륙에 1 번 haplogroup이 도착한 시간은 20,000 년 미만으로 추정되며, 이는 미토콘드리아 분석에 의해 밝혀진 다른 인간의 분산 패턴과 비교할 때 상대적으로 최근이다 [17] (그림 1a).

Fig. 1. IHGP01 게놈의 조상 이동 패턴. (a) ) Mitochondrial DNA (mt-DNA) haplogroup 분석 [Mitomap ([http://www.mitomap.org)에 http://www.mitomap.org)에] 따르면] IHGP01 개인의 여성 조상은 약 70,000 년 전에 아프리카에서 이주하여 도달했다고 밝혔다 (L3). 약 20,000 년 전 중앙 아시아를 경유 한 인도 (W). (b) Y-chromosome haplogroup분석에 따르면 IHGP01 개체의 수컷 조상은 약 5 만년 전 (CT) 아프리카에서 이주하여 25,000 ~ 30,000 년 (R1)을 넘지 않는 중앙 아시아를 통해 인도에 도달했다고 한다.

~~Fig~~유사하게,[https://www. 1sciencedirect. ~~IHGP01 게놈의 조상 이동 패턴. (a) ) Mitochondrial DNA (mt~~com/topics/biochemistry-genetics-and-molecular-biology/y-chromosome-haplogroup Y haplogroup]그룹은 Y-염색체 DNA~~) haplogroup 분석 [Mitomap~~ 서열 SNP 지수 ([~~http~~https://~~www.mitomap~~isogg.~~xn--~~org~~)-uw20a~~/ ~~http~~tree/ISOGG_YDNA_SNP_Index.html https://~~www~~isogg.~~mitomap~~org/tree/ISOGG_YDNA_SNP_Index.~~org~~html])~~에] 따르면]~~ 및 IHGP01 ~~개인의 여성 조상은 약 70,000 년 전에 아프리카에서 이주하여 도달했다고 밝혔다 (L3)~~개체에 대한 변이체를 사용하여 계산되었다. ~~약 20~~R1 일 배수 그룹은 IHGP01 샘플에 대해 측정되었으며,~~000 년 전~~ 이는 중앙 ~~아시아를 경유 한~~ 아시아로부터 인도 ~~(W)~~-유럽인의 이주를 강조했다. ~~(b)~~ 또한, mt DNA와 Y~~-chromosome haplogroup분석에 따르면 IHGP01 개체의 수컷 조상은 약 5 만년 전 (CT) 아프리카에서 이주하여~~ 염색체 둘 다에 대한 haplogroup 이동 패턴은 유사한 시간과 이동 경로를 따랐다 [[https://www.sciencedirect.com/science/article/pii/S0888754318300892?via=ihub#bb0125 25],~~000 ~ 30,000 년~~ [https://www.sciencedirect.com/science/article/pii/S0888754318300892?via=ihub#bb0130 26]] (R1[https://www.sciencedirect.com/science/article/pii/S0888754318300892?via=ihub#f0005 Fig. 1]b)~~을 넘지 않는 중앙 아시아를 통해 인도에 도달했다고 한다~~.

유사하게,[https://www.sciencedirect.com/topics/biochemistry-genetics-and-molecular-biology/y-chromosome-haplogroup  Y haplogroup]그룹은 Y- 염색체 DNA 서열 SNP 지수 ([https://isogg.org/tree/ISOGG_YDNA_SNP_Index.html https://isogg.org/tree/ISOGG_YDNA_SNP_Index.html]) 및 IHGP01 개체에 대한 변이체를 사용하여 계산되었다. R1 일 배수 그룹은 IHGP01 샘플에 대해 측정되었으며, 이는 중앙 아시아로부터 인도-유럽인의 이주를 강조했다. 또한, mt DNA와 Y 염색체 둘 다에 대한 haplogroup 이동 패턴은 유사한 시간과 이동 경로를 따랐다 [[https://www.sciencedirect.com/science/article/pii/S0888754318300892?via=~~ihub#bb0125 25],[https://www.sciencedirect.com/science/article/pii/S0888754318300892?via~~=~~ihub#bb0130 26]] ([https://www.sciencedirect.com/science/article/pii/S0888754318300892?via~~=~~ihub#f0005 Fig. 1]b).~~'''카피 수 변이 분석''' ===

~~=== '''3.5.~~ readDepth 프로그램을 사용하여 카피 수 변이 ~~분석''' ==~~(CNV) 분석을 수행하였다. 이 프로그램은 적용 범위의 깊이를 측정하여 CNV를 탐지한다. 유전자 손실 및 유전자 획득 측면에서 CNV가 IHGP01 샘플에 대해 보고되었다. 2017 년 총 CNV 중에서 게놈은 총 1090 개의 결실 된 유전자와 927 개의 복제된 유전자를 포함했다. 이 분석은 게놈 변이체 데이터베이스 (DGV;[http://projects.tcag.ca/variation http://projects.tcag.ca/variation/])와 비교할 때 각각 신규 결실 및 복제 CNV로서 603 및 58을 나타내었다 [[https://www.sciencedirect.com/science/article/pii/S0888754318300892?via=ihub#bb0135 27]] (Supplementary Table S6).

~~readDepth 프로그램을 사용하여 카피 수 변이~~ === '''건강 자료수집(~~CNV~~profiling) 분석을 수행하였다. 이 프로그램은 적용 범위의 깊이를 측정하여 CNV를 탐지한다. 유전자 손실 및 유전자 획득 측면에서 CNV가 IHGP01 샘플에 대해 보고되었다. 2017 년 총 CNV 중에서 게놈은 총 1090 개의 결실 된 유전자와 927 개의 복제된 유전자를 포함했다. 이 분석은 게놈 변이체 데이터베이스 (DGV;[http://projects.tcag.ca/variation  http://projects.tcag.ca/variation/])와 비교할 때 각각 신규 결실 및 복제 CNV로서 603 및 58을 나타내었다 [[https://www.sciencedirect.com/science/article/pii/S0888754318300892?via의 SNP''' ===~~ihub#bb0135 27]] (Supplementary Table S6).~~

==== '''~~3.6. 건강 자료수집(profiling)의 SNP~~질병 연관성''' ====

개체의 건강 프로파일을 갖기 위해, IHGP01 게놈에서 확인된 cSNP는 OMIM, SNPedia, HGMD 등과 같은 여러 데이터베이스를 사용하여 주석이 달렸다. 질병 감수성 또는 위험과 관련된 350 개의 플러스 유전자 및 그 변이체의 전체 목록이 수동으로 개발되었다. 또한, IHGP01 게놈의 모든 변이체를 분석하여 심혈관 질환 (CVD) 및 고혈압에 대한 감수성을 나타냈다 ([https://www.sciencedirect.com/science/article/pii/S0888754318300892?via=ihub#t0005 Table 1]). SNX19 유전자의 SNP 분석 (rs2298566; L878R)은 관상 동맥 심장 질환의 위험이 증가하고 임상적으로[https://www.sciencedirect.com/topics/biochemistry-genetics-and-molecular-biology/statins statins]에 대한 더 나은 반응과의 연관성이 증가된 것으로 밝혀졌다 [[https://www.sciencedirect.com/science/article/pii/S0888754318300892?via=ihub#bb0140 28]]. 또한,[https://www.sciencedirect.com/topics/biochemistry-genetics-and-molecular-biology/pon1 PON1]에서 2 개의 SNP (Q192R; rs662 및 L55μM; rs854560)의 연관성이 심혈관 질환 [[https://www.sciencedirect.com/science/article/pii/S0888754318300892?via=ihub#bb0145 29]] 및 관상 동맥 질환 [[https://www.sciencedirect.com/science/article/pii/S0888754318300892?via=ihub#bb0150 30],[https://www.sciencedirect.com/science/article/pii/S0888754318300892?via=ihub#bb0155 31]]의 위험 증가와 관련이 있는 것으로 밝혀졌다. 고혈압 감수성 및 ICAM1 (rs5498; K469E)의 SNP에 영향을 미치는 AGT 유전자의 SNP (rs699; I1000V)는 말라리아에 대한 저항 증가와 상관 관계가 있는 이 게놈에서 검출되었다. 이 두 변이체는 552 명 이상의 인도인에 대한 연구에서 이전에 확인되었다 [[https://www.sciencedirect.com/science/article/pii/S0888754318300892?via= ~~'''3~~ihub#bb0160 32]].6게다가, 몇몇 다른 SNP는 남성의 정신 분열증 위험 증가 ([https://www.1sciencedirect.com/topics/biochemistry-genetics-and-molecular-biology/atf4 ATF4]; rs4894), 황반변성 (CFH; rs800292), 자간전증, 청력 손실 (NAT2) rs1799930), 대머리 (EDA2R; rs1385699) 및 쓴 맛 (TAS2R38; rs1726866)을 부여하는 능력이 또한 검출되었다. 질병 ~~연관성''' ==~~위험과는 반대로, 일부 SNP는 질병 예방과 관련이 있는 것으로 밝혀졌다. 치매 및 알츠하이머 질환의 위험이 낮은 CETP (rs5882; V422I)의 SNP와 유육종증의 위험이 감소된[[https://www.sciencedirect.com/science/article/pii/S0888754318300892?via=ihub#bb0165 33]] ANXA11 (rs1049550; R230C)의 SNP가 IHGP01 게놈에서도 발견되었다 ([https://www.sciencedirect.com/science/article/pii/S0888754318300892?via=ihub#t0005 Table 1]).

개체의 건강 프로파일을 갖기 위해, IHGP01 게놈에서 확인된 cSNP는 OMIM, SNPedia, HGMD 등과 같은 여러 데이터베이스를 사용하여 주석이 달렸다. 질병 감수성 또는 위험과 관련된 350 개의 플러스 유전자 및 그 변이체의 전체 목록이 수동으로 개발되었다. 또한, IHGP01 게놈의 모든 변이체를 분석하여 심혈관 질환 (CVD) 및 고혈압에 대한 감수성을 나타냈다 ([https://www.sciencedirect.com/science/article/pii/S0888754318300892?via=ihub#t0005 '''Table 1~~]). SNX19 유전자의 SNP 분석 (rs2298566; L878R)은 관상 동맥 심장 질환의 위험이 증가하고 임상적으로[https://www.sciencedirect~~.~~com/topics/biochemistry-genetics-and-molecular-biology/statins~~  statins]에 대한 더 나은 반응과의 연관성이 증가된 것으로 밝혀졌다 [[https://www.sciencedirect.com/science/article/pii/S0888754318300892?via=ihub#bb0140 28]]. 또한,[https://www.sciencedirect.com/topics/biochemistry-genetics-List of SNPs associated with disease and~~-molecular-biology/pon1~~  PON1]에서 2 개의 SNP (Q192R; rs662 및 L55μM; rs854560)의 연관성이 심혈관 질환 [[https://www.sciencedirect.com/science/article/pii/S0888754318300892?via=ihub#bb0145 29]] 및 관상 동맥 질환 [[https://www.sciencedirect.com/science/article/pii/S0888754318300892?via=ihub#bb0150 30],[https://www.sciencedirect.com/science/article/pii/S0888754318300892?via=ihub#bb0155 31]]의 위험 증가와 관련이 있는 것으로 밝혀졌다. 고혈압 감수성 및 ICAM1 (rs5498; K469E)의 SNP에 영향을 미치는 AGT 유전자의 SNP (rs699; I1000V)는 말라리아에 대한 저항 증가와 상관 관계가 있는 이 게놈에서 검출되었다. 이 두 변이체는 552 명 이상의 인도인에 대한 연구에서 이전에 확인되었다 [[https://www.sciencedirect.com/science/article/pii/S0888754318300892?via=ihub#bb0160 32]]. 게다가, 몇몇 다른 SNP는 남성의 정신 분열증 위험 증가 ([https://www.sciencedirect.com/topics/biochemistry-genetics-and-molecular-biology/~~atf4 ATF4~~pharmacogenomics pharmacogenomics]  rs4894), 황반변성 (CFH; rs800292), 자간전증, 청력 손실 (NAT2) rs1799930), 대머리 (EDA2R; rs1385699) 및 쓴 맛 (TAS2R38; rs1726866)을 부여하는 능력이 또한 검출되었다. 질병 위험과는 반대로, 일부 SNP는 질병 예방과 관련이 있는 것으로 밝혀졌다. 치매 및 알츠하이머 질환의 위험이 낮은 CETP (rs5882; V422I)의 SNP와 유육종증의 위험이 감소된[[https://www.sciencedirect.com/science/article/pii/S0888754318300892?via=ihub#bb0165 33]] ANXA11 (rs1049550; R230C)의 SNP가 profile of IHGP01 ~~게놈에서도 발견되었다 ([https://www.sciencedirect~~individual.~~com/science/article~~''' <thead> </~~pii/S0888754318300892?via=ihub#t0005 Table 1]).~~thead>

'''Table 1. List of SNPs associated with disease and [https://www.sciencedirect.com/topics/biochemistry-genetics-and-molecular-biology/pharmacogenomics pharmacogenomics] profile of IHGP01 individual.'''

~~<thead> </thead>~~

{|

|-

==== '''~~3.6.2.~~ 약물유전체학적 프로파일''' ====

개인에게 존재하는 유전자 변이체([https://www.sciencedirect.com/topics/biochemistry-genetics-and-molecular-biology/genetic-divergence genetic variants])(SNP)는 약물 부작용의 예측을 위해 사용될 수 있고 또한 약물의 유효 처방 용량을 관리할 수 있다. IHGP01 개체의 약물유전체학적([https://www.sciencedirect.com/topics/biochemistry-genetics-and-molecular-biology/pharmacogenomics pharmacogenomic]) 프로파일을 이해하기 위해, 약동학 및 약력학 관련성과 관련된 공개된 문헌에 근거하여 게놈에 존재하는 변이체 (SNP)에 주석을 달았다 [[https://www.sciencedirect.com/science/article/pii/S0888754318300892?via=ihub#bb0170 34],[https://www.sciencedirect.com/science/article/pii/S0888754318300892?via=ihub#bb0175 35]]. 분석 결과, 게놈은 다양한 약물의 대사 또는 반응과 관련된 몇 가지 SNP를 갖는 것으로 밝혀졌다.[https://www.sciencedirect.com/topics/biochemistry-genetics-and-molecular-biology/cyp2c19 ~~ ~~CYP2C19]~~ ~~의 SNP (rs4244285; CYP2C19 * 2 변이)는 클로피도그렐([https://www.sciencedirect.com/topics/biochemistry-genetics-and-molecular-biology/clopidogrel clopidogrel])에 대한이 개인의 신진 대사를 방해하고 치료 중 이차 심혈관 사건의 위험 증가와 함께 활성 약물 대사 산물의 형성을 감소시켰다 [[https://www.sciencedirect.com/science/article/pii/S0888754318300892?via=ihub#bb0180 36],[https://www.sciencedirect.com/science/article/pii/S0888754318300892?via=ihub#bb0185 37]]. 유사하게, 치료 동안 안트라 사이클린([https://www.sciencedirect.com/topics/biochemistry-genetics-and-molecular-biology/anthracyclines anthracyclines]) 노출은 CBR3 유전자 (rs1056892; V244 M)에서 SNP의 존재로 인해 심장 독성의 위험을 증가시킬 수 있다. 혈액 희석제로 사용되는 와파린은[https://www.sciencedirect.com/topics/biochemistry-genetics-and-molecular-biology/cyp4f2 ~~ ~~CYP4F2]~~ ~~유전자 (rs2108622; V433 M)에서 SNP의 존재로 인해 심근 경색을 치료하는 동안 경구로 투여될 때 더 높은 용량([https://www.sciencedirect.com/topics/biochemistry-genetics-and-molecular-biology/drug-megadose higher dose])으로 필요할 수 있다. 이에 더하여, 몇 가지 SNP는 시클로 포스 파 미드 및 시스플라틴 노출 ([https://www.sciencedirect.com/topics/biochemistry-genetics-and-molecular-biology/ercc1 ERCC1], rs11615;[https://www.sciencedirect.com/topics/biochemistry-genetics-and-molecular-biology/lrp2 ~~ ~~LRP2], rs2075252;[https://www.sciencedirect.com/topics/biochemistry-genetics-and-molecular-biology/slc22a2 ~~ ~~SLC22A2], rs316019)의 경우 신 독성에 대한 평균 또는 감소된 위험과 관련이있는 것으로 밝혀졌다. NAT2 (rs1799930, G590A)의 경우, 개인은 느린 아세틸 레이터 (OMIM 데이터베이스 링크 :[https://www.omim.org/entry/612182 ~~ ~~https://www.omim.org/entry/612182]) 인 것으로 밝혀졌다 ([https://www.sciencedirect.com/science/article/pii/S0888754318300892?via=ihub#t0005 Table 1]).

=== '''~~3.7.~~ 새로운 변이의 NCBI 제출''' ===

이 개인에서 발견된 총 126,353 개의 새로운 SNP와 15,144 개의 새로운 Indel이 NCBI 데이터베이스에 성공적으로 제출되어 (Human Build 146~~;&nbsp~~;[https://www.ncbi.nlm.nih.gov/SNP/snp_viewTable.cgi?handle=PADH- https://www.ncbi.nlm.nih.gov/SNP/snp_viewTable.cgi?handle=PADH-]~~ ~~LAB_SPU) 인도 개인의 게놈 연구에서 상당한 기여를 했다.

=== '''~~3.8.~~ 다른 아시아 염기 서열 유전체와 비교''' ===

변이체 (SNP)의 비교 분석은 Pathan-Pakistani (PAP-PAK0004-UNK), 중국어 (YH2), 일본어 (PUB-JPN0003-UNK) 및 한국어 (PAP)가 있는 5 가지 다른 게놈 [Gujarat Indian genome (IHGP01)]을 사용하여 수행되었다. -KOR0001-KOR)] ([https://www.sciencedirect.com/science/article/pii/S0888754318300892?via=ihub#f0010 Fig. 2])). 이들 5 개의 게놈에서 검출된 SNP의 중복은 IHGP01 SNP의 14.61 %가 독특하고, 37.88 %가 5 개의 서열화 된 게놈 모두에 의해 공유되었음을 나타내었다. 또한 IHGP01의 약 5.72 % SNP는 Pathan-Pakistani 게놈과 공유되었으며 변이의 2.33 %에서 2.85 %만이 다른 동아시아 게놈 (각각 한국 및 일본)과 공유되었다. 또한, IHGP01 변이체는 각 집단 ([http://www.internationalgenome.org/category/population http://www.internationalgenome.org/category/population/])에 의해 1000 개의 게놈 (데이터 상 3)과 비교되어 중첩 및 비 오버랩 변이체를 세었다. 분석 결과 IHGP01 게놈은 남아시아 인과 가장 겹치고 동아시아 인과 겹치며 동아시아보다 유럽에 더 가깝다 ([https://www.sciencedirect.com/science/article/pii/S0888754318300892?via=ihub#f0015 Fig. 3]).

Fig. 2. 5 개의 게놈간에 겹치는 SNP 수의 벤 다이어그램. 다이어그램은 일부 아시아 인 인구를 나타내는 개별 게놈이 공유하는 SNP의 수를 나타낸다. IHP01, 인도 (구자라트) 샘플; PUB-JPN0003-UNK, 일본 샘플; PAP-KOR0001-KOR, 한국인 샘플; PAP-PAK0004-UNK, 파키스탄 샘플; YH2, 중국인 샘플

그림 3. IHGP01 Indian 샘플을 1000 개의 게놈 데이터 단계와 비교 한 Rplot3. 각 수퍼 모집단에 의해 1000 개의 게놈 데이터를 갖는 중첩 및 비 중첩 변이체의 수를 플롯팅 하였다. x 축은 1000 개 게놈의 수퍼 모집단이고 Y 축은 변형 수이다.

=== '''~~3.9.~~ 혼합과 PCA 플롯 분석''' ===

PCA 분석은 개별 게놈의 SNP 데이터 세트를 사용하여 다른 집단 내에서 및 다른 집단간에 유전적 변이의 패턴을 특성화한다. PCA 분석은 인류의 철새 패턴을 포함한 진화 역사에 대한 이해를 제공한다 [38]. 그림 4는 IHGP 01 Indian 샘플을 사용하여 human origin panel + PAPGI에서 처음 두 대의 PC를 예상하여 조상을 밝혔다. 또한, 우리의 샘플은 남아시아 샘플과 함께 클러스터 되었으며 동아시아보다 서아시아와 유럽에 훨씬 더 가깝다. 이는 도 3과 일치한다. 또한, 좌측 상단에 동아시아 출신 개인, 좌측 하단에 유라시아 출신, 우측 상단에 아프리카 출신의 개인 클러스터링 측면 코너가 관찰되었다. 따라서 결과는 마이그레이션, 지리적 격리 및 혼합을 포함한 기본 프로세스 측면에서 PCA 예측을 해석하기 위한 프레임 워크를 제공한다. 또한, 혼합 분석을 수행하여 PCA 분석의 예측을 재확인하였다. 혼합 분석을 통해 이산 개체군의 유전적 구조 차이를 이해할 수 있다. 이것은 알려지지 않은 조상을 가진 개인을 개별 집단으로 분류할 수 있게 하며 유전자 연관 연구에 필요한 전제 조건 중 하나입니다. 현재의 연구에서, 591,356 SNV에 기초하여 혼합물 분석이 수행되었다. STRUCTURE (K = 2에서 K = 4)의 군집이 분석을 위해 고려되었다. IHGP 01 게놈 조성물은 가변성 내에 있었고 유사한 이동 패턴을 따랐다 (도 5).

~~[http://in.kogic.kr/index.php?title=Special:Upload~~&~~wpDestFile=Gr4.jpg File:Gr4.jpg]~~nbsp;

그림 4. IHGP 01 Indian 샘플을 사용한 Human Origin panel + PAPGI에서 처음 두  PC의 산포 PCA 플롯. 그림의 각 점은 전 세계 여러 인구 집단의 각 표본을 나타낸다. 각 색상은 그들이 속한 대륙을 나타낸다. PC1은 아프리카와 비-아프리카를 분리하고 PC2는 서쪽과 동쪽 유라시아를 분리했다.

그림 5. 구자라트 인디언 (IHGP01) 개체의 혼합 분석 (K = 2 ~ K = 4)은 유사한 철새 패턴에 따른 변동성에 속한다. IHGP01 개체의 혼합 분석은 591,356 SNV를 사용하여 HGDP 데이터 세트로부터의 19개 민족 게놈으로 수행되었다. 각 수직선은 하나의 개인을 나타내며, 부분 군의 구성원 계수를 나타내는 색상 세그먼트로 나뉘고 K는 인공 조상 수 (서브 그룹)을 나타낸다. (이 그림 범례에서 색상에 대한 참조를 해석하기 위해 독자는 이 기사의 웹 버전을 참조하시오.)

== '''4. 토의''' ==

''' '''기술이 접근 가능하고 저렴해짐에 따라 개별 게놈 분석이 현실이 되었다. 이러한 운동의 결과는 개인의 유전적 배경과 건강에 대한 영향을 상당히 신뢰할 수 있기 때문에 개인에게 중요하다. 이 게놈은 CVD 및 고혈압에 대한 이 개체의 감수성 및 스타틴에 대한 우수한 반응을 보여 주었다. 이러한 질병 변이체 및 유전자 변이체의 상관관계는 신뢰할 만하지만, 상관관계는 절대적이지 않으며 질병 민감성 또는 약물 반응은 아직 확인되지 않은 다른 변이체에 의해 영향을 받을 수 있다. 인간 변이체 데이터베이스는 다양한 집단으로부터 점점 더 많은 데이터가 풍부해짐에 따라, 질병과 유전자 변이체 사이의 상관관계를 확립하는 기술은 예측을 막기 위해 매우 이른 시기에 유전자 스크리닝이 권장될 수 있는 수준으로 개선될 것으로 예상된다.

이 작업은 Gujarat State Biotechnology Mission (GSBTM 프로젝트 ID 496), Gujarat 정부 및 울산 게놈 한국 프로젝트 (800 게놈 시퀀싱) 연구 기금 (1.180017.01)에 의해 자금을 조달한 재정 지원 프로그램 (FAP)에 의해 지원을 받았다. UNIST (울산 과학 기술원) 우리는 Suhani Almal 박사에게 연구 연계성을 제공 한 인도 과학 및 산업 연구위원회 (CSIR) 협의회를 진심으로 감사의 말을 표한다. 샘플 시퀀싱에 대해 말레이시아 유전체학 자원 센터 Berhad (MGRC)에게도 감사드린다.

Pages with broken file links

[[Category:Pages with broken file links]]

Aa

Bureaucrats, Administrators, widgeteditor

395

edits

Changes

Sequencing and analysis of the whole genome of Indian Gujarati male.

Navigation menu

Views

Personal tools

Search

Tools

Related Links[Edit]