Changes

From kogic.kr
no edit summary
== Contents ==
  [[[hide|hide]]]   
*[http://in.kogic.kr/An_ethnically_relevant_consensus_Korean_reference_genome_is_a_step_towards_personal_reference_genomes.#.ED.95.9C.EA.B5.AD_.EC.B0.B8.EC.A1.B0_.EA.B2.8C.EB.86.88.EC.9D.80_.EB.AF.BC.EC.A1.B1.EC.A0.81.EC.9C.BC.EB.A1.9C_.EA.B4.80.EB.A0.A8.EC.84.B1.EC.9D.B4_.EC.9E.88.EB.8A.94_.EA.B3.B5.EA.B0.90.EB.8C.80.EC.9D.B4.EB.A9.B0.2C_.EA.B0.9C.EC.9D.B8_.EC.B0.B8.EC.A1.B0_.EA.B2.8C.EB.86.88.EC.9D.84_.ED.96.A5.ED.95.9C_.EB.8B.A8.EA.B3.84.EC.9D.B4.EB.8B.A4. 1한국 참조 게놈은 민족적으로 관련성이 있는 공감대이며, 개인 참조 게놈을 향한 단계이다.]
**[http://in.kogic.kr/An_ethnically_relevant_consensus_Korean_reference_genome_is_a_step_towards_personal_reference_genomes.#.EC.B4.88.EB.A1.9D 1.1초록]
여기서, 우리는 하이브리드 시퀀싱 과 매핑 데이터를 활용하여 PGP의 일부로 생성 된 한글 기준 (KOREF) 게놈 (KOREF_S : 단일 참조 어셈블리 및 KOREF_C : 단일 참조 + 합의 변수)의 두 가지 버전을 보고한다. KOREF는 GRCh38을 보완하기 위해 또 다른 고품질 동아시아 참조를 제공한다. KOREF는 2006 년에 한국 과학 기술부 (National Science and Technology)에 의해 시작되어 국가 게놈 및 변이체 참조를 생성했다. 짧은 판독에 내재 된 문제를 처리하기 위해, 우리는 여러 가지 기술(짧고 긴 페어링 엔드 시퀀스, 합성 및 단일 분자의 긴 판독, 광학 및 나노채널 게놈 맵)의 데이터를 사용하여 남성 기증자인 KOREF_S(그림 1)의 고품질 하이브리드 어셈블리를 구축한다. 또한, 한국 PGP(Korean Passistance KOREF_C) 28의 40개의 높은 전체 게놈(짧은 판독에 기초한)의 정보를 통합하여, 인구 전체의 일치된 한국 레퍼런스인 KOREF_C를 생성한다. 우리는 KOREF_C의 게놈 구조를 다른 인간 게놈 어셈블리와 비교하여 민족 별 특정 빈도가 높은 구조적 변형을 포함하여 많은 구조적 차이를 발견한다. 중요하게도, SV의 식별은 사용 된 시퀀싱 플랫폼 과 어셈블리 품질에 의해 크게 영향을 받으므로, 민족 및 개인 게놈 구조를 종합적으로 맵핑하기 위해 오랫동안 읽은 서열 및 고품질 어셈블리가 필요하다는 것을 시사한다. 다민족 PGP 데이터와 함께, 향후 많은 저비용 개인, 국가 및 민족 게놈 참조자료들이 단일 뉴클레오타이드 변이 (SNV) 와 SV 모두에서 모든 인간 게놈 다양성을 맵핑 하는데 가속화할 것이다. 
'''그림 1: KOREF 조립 절차에 대한 개략적인 개요입니다.개요''' 
<img style="null" src=http://in.kogic.kr/images/1/15/2.jpg>
(a) Short and long insert size libraries by Illumina whole-genome sequencing strategy. (b) Contig assembly using K-mers from short insert size libraries. (c) Scaffold assembly using long insert size libraries. (d) Super-scaffold assembly using OpGen whole-genome mapping approach. (e) Gap closing using PacBio long reads and Illumina TSLR. (f) Assembly assessment using BioNano consensus maps. (g) Chromosome sequence building using whole-genome alignment information into the human reference (GRCh38). (h) Common variants substitution using 40 Korean whole-genome sequences.
'''표 1 조립 단계에 따른 KOREF 빌드 통계.'''
<img style="null" src=http://in.kogic.kr/images/5/58/10.png>
스캐 폴드를 추가로 확장하기 위해, 우리는 이전에 제안 된 바와 같이 높은 처리량의 전체 게놈 광학 매핑 기기를 사용했다 18, 우리는 고 분자량 DNA를 추출하여 67 개의 고밀도 MapCard에서 745.5 Gb의 단일 분자 제한 맵 (평균 크기 360 Kb의 약 2 백만 개의 분자)을 생성하여 240 배 광학 맵 적용 범위를 제공했다 (보충 표 5 및 6). 스캐 폴드를 결합시키기 위해, 단일 분자 광학 맵을 규소 제한 효소 소화에서 제한 맵으로 변환 된 조립 된 스캐 폴드와 비교 하였다. 결과적으로 총 67 개의 스캐 폴드 (> 200 Kb)가 합쳐졌다 (보충 표 7). 이로 인해 스캐 폴드 N50 길이가 19.85에서 25.93 Mb로 증가했다 (표 1). 또한 KOREF_S에 대해 PacBio SMRT (~ 31.1 Gb, ~ 10 배 범위, 보충 그림 4 및 보충 표 8)와 Illumina TruSeq 합성 장독 (TSLR, ~ 16.3 Gb, ~ 5.3-)의 두 가지 유형의 Long Reads를 생성했다. 접힘 범위; 보충 그림 5 및 보충 표 9). 두 유형을 동시에 사용하여 예상 게놈 크기의 1.75&nbsp;%에서 1.06&nbsp;%로 격차가 감소하고 최종 스캐 폴드 N50 길이가 25.93에서 26.08μMb로 약간 증가했다 (표 1). 낮은 양의 긴 판독 (mate-pairs 와 비교할 때 판독 수의 1.2&nbsp;% 만)이 스캐 폴드 길이가 약간 증가한 이유 중 하나라고 추측한다 (보충 표 10).
'''표 2 assembly quality의 체계적 비교.'''
<img style="null" src=http://in.kogic.kr/images/5/59/11.png>
또한 각 human assembly에서 검출된 RefSeq (ref. 32) 단백질 코딩 유전자의 수를 비교하여 gene content assessments를 실시하였다(표 2 및 보충표 20). RefSeq 유전자는 CHM1_1.1(18,040)에서 가장 잘 회복된 유전자로, 이 참조를 지침으로 사용하여 assembled되었다. KOREF_C는 de novo assembled genomes 중 온전한 RefSeq 유전자를 가장 많이(1만7758개) 함유하고 있으며, 심지어 long-read&nbsp; 기반의 assemblies(약 1만7657개)보다도 많았다. 특히 single-molecule long reads과 게놈 지도를 결합해 하이브리드화한 NA12878_단일 게놈은 온전한 단백질 코딩 유전자(protein-coding genes)의 수가 6610개로 아프리카 게놈(9,167)보다 훨씬 적었다. NA12878_single은 코딩 영역에서 프레임 이동(frame-shift)이 많은 것을 확인했다. 이는 시퀀싱 깊이(46 × 적용 범위)가 낮아 오류 수정 단계로는 수정할 수 없었던 PacBio 1-mulule long read의 높은 오류율로 설명할 수 있다.
'''표 3 GRCh38과 비교한 8개의 인간 어셈블리의 SV 요약.'''
<img style="null" src=http://in.kogic.kr/images/9/9e/12.png>
KOREF_C SV 중&nbsp; insertion의 93.8%,&nbsp; deletion의 70.4%가 public SV databases에서 발견되지 않아 새로운 것으로 정의되었다(표 3, 부가 그림 10, 보충 표 25 및 '방법' 섹션). KOREF_C의 새로운&nbsp; SV의 부분은 다른 human assemblies에서 발견된 것과 유사하지만 다른 short-read only de novo assemblies보다 작았다. 시퀀싱 플랫폼에 관계없이 모든 어셈블리는 CHM1의 PacBio SMRT 판독값을 인간 참조 게놈(여기서 CHM1_mapping이라고 함)15에 매핑하여 발견한 것보다 더 많은 수의 새로운 SV을 보였다. 특히 같은 샘플의 PacBio long reads을 이용해 assembled한 CHM1_PacBio_r2 역시 새로운 SV의 부분이 훨씬 높았다. 우리는 fragments의 N50 길이와 새로운 SV의 부분(R2=0.44; 그림 2a) 사이의 상관관계를 발견했다. CHM1_mapping에 의해 human assemblies 의 SV를 SV와 비교했을 때 SV의 일부(약 12.51%)만 공유되었다(표 3 및 보충 표 26). CHM1_PacBio_r2와 CHM1_mapping 사이의 SV 공유 부분(8.85%)은 작았고, NA12878_single: 8.32%, NA12878_Allpaths: 5.27%)은 상당히 달랐다. assembly quality (N50 length)와 공유 부분(R2=0.71; 그림 2b) 사이에 상관관계가 있었다. 이러한 결과는 동일한 표본에 대해서도 long-read mapping 과 de novo assembly 기반 whole-genome alignment methods 사이에 큰 차이가 있었음을 시사한다.
'''그림 2: human assemblies 중 SV'''
<img style="null" src=http://in.kogic.kr/images/9/94/13.jpg>
(a) fragments의 N50 length(scaffolds or contigs)와 새로운 SV의 fraction 사이의 상관 관계. (b) CHM1 PacBio read mapping method과 공유한&nbsp; fragments의N50 length와 SV의 fraction 사이의 상관 관계. (c) human assembly sets 간의 독점 공유 SV. 이 그림에서는 표시된 어셈블리에 의해서만 공유되는 SV(반복적으로 50% 적용)를 고려했다. (d) 9개의 human assemblies가 공유한 SV의 예. 회색 영역은 모든 어셈블리에 공유된 구조적 차이를 나타내며, 수평선은 homologous 시퀀스 영역을 나타낸다.
'''그림 3&nbsp;: 참조 게놈에 따른 변이 차이.'''
<img style="null" src=http://in.kogic.kr/images/7/7b/14.png>
KOREFs, GRCh38 및 GRCh38_C가 공유하는 지역 내의 변이체 (SNV 및 소량의 indel) 수는 세 가지 다른 인종 그룹 (아프리카&nbsp;: Mandenka, Yoruba, San, Mbuti 및 Dinka; 백인&nbsp;: Sardinian, 프랑스어 및 CEPH/Utah (CEU) 3 명, 동아시아인&nbsp;: 몽골인, 중국인 2 명, 일본인 5 명, 한국인 5 명). (a) 동형 접합 SNV의 수. (b) 동형 접합 작은 인델의 수. (c) 이형 접합 SNV의 수. (d) 이형 접합 작은 인델의 수. (e) 공유수준이 다른 변이의 수 (GRCh38 및 KOREF_C에 의해 참조됨). (f) 공유수준이 다른 참조-특정 변이체의 수.
== '''​참조''' ==
<div class="mw-empty-elt">
#
<br/> Reich, D. et al. Reduced neutrophil count in people of African descent is due to a regulatory variant in the Duffy antigen receptor for chemokines gene. PLoS Genet. 5, e1000360 (2009).
[http://scholar.google.com/scholar_lookup?&title=Mapping%20copy%20number%20variation%20by%20population-scale%20genome%20sequencing&journal=Nature&volume=470&pages=59-65&publication_year=2011&author=Mills,RE Google Scholar]
</div>
&nbsp;
== '''​감사의 말''' ==
395
edits

Navigation menu