Changes

Newer edit →

Hak-Min Kim S P

12,031 bytes added, 12:06, 21 August 2019

Created page with "<ul> <li>Pipelines Default path: /BiO/Share/Kit/Pipeline/Hakmin.Kim</li> </ul> <..."

<ul>
<li>Pipelines 
Default path: /BiO/Share/Kit/Pipeline/Hakmin.Kim</li>
</ul>

<ol>
<li>De novo genome assembly

<ol style="list-style-type:upper-alpha">
<li>DenovoGenome_Analysis/Denovo_Assembly_Pipeline</li>
<li>DenovoGenome_Analysis/GenePrediction_Denovo_with_RNAseq_Augustus</li>
<li>DenovoGenome_Analysis/GenePrediction_Homology_based</li>
<li>DenovoGenome_Analysis/ncRNA_annotation_pipeline.v0.0.4</li>
<li>DenovoGenome_Analysis/repeat_annotation_pipeline.v0.0.4</li>
</ol>
</li>
<li>Epigenome_Analysis
<ol style="list-style-type:upper-alpha">
<li>Epigenome_Analysis/Methylseq_Pipeline</li>
</ol>
</li>
<li>Evolution analysis
<ol style="list-style-type:upper-alpha">
<li>Evolution_Analysis/GeneExpansionContraction</li>
<li>Evolution_Analysis/HighlyConservedRegion</li>
<li>Evolution_Analysis/PSMC</li>
<li>Evolution_Analysis/RetinoicAcidResponseElement</li>
</ol>
</li>
<li>SNPChip_analysis
<ol style="list-style-type:upper-alpha">
<li>SNPChip_analysis/GenotypeDistanceCalculate</li>
</ol>
</li>
<li>Whole Genome Analysis
<ol style="list-style-type:upper-alpha">
<li>WholeGenome_Analysis/Calc_pi_distance_with_PED</li>
<li>WholeGenome_Analysis/CopyNumberVariation</li>
<li>WholeGenome_Analysis/StructuralVariation</li>
<li>WholeGenome_Analysis/VariantCalling</li>
</ol>
</li>
</ol>

 

<ul>
<li>Script 
Default path: /BiO/Share/Live/hmkim/General_scripts</li>
</ul>

<ol>
<li>General_script

<ol style="list-style-type:upper-alpha">
<li>BlastN_result_parsing_for_bacteria_filtering.pl ==> Long reads를 미생물, 곰팡이 DB에 BlastN한 결과를 가지고 특정 criteria로 reads filtering script.</li>
<li>Blastp_run.pl ==> 단백질 서열로 BlastP run script.</li>
<li>BWA_mem_run.pl ==> Short read 데이터로 BWA mem run script.</li>
<li>BWA_mem_Samtools_variant.pl ==> Short read 데이터로 BWA mem 실행후 Samtool로 variant calling script.</li>
<li>Calculate_insert_size_and_SD.pl ==> BAM파일을 input으로 받아 paired-end reads의 insert size와 standard deviation 계산 script.</li>
<li>CDS_length_calculate.pl ==> Gene set (GFF file)을 input으로 받아 평균 CDS 길이 계산 script.</li>
<li>ConsensusSeq2Fastq.pl ==> Samtools로 생성한 consensus서열을 fastq format으로 변환해주는 script.</li>
<li>Domain_sequence_extract.pl ==> Domain annotation결과와 특정 Domain term으로 검색한 후 해당하는 Domain 서열을 추출하는 script.</li>
<li>Extract_BLAST_reciprocal_besthit.pl ==> 두 종간의 BlastP 결과를 input으로 받아 reciprocally besthit 조건을 만족시키는 유전자를 추출하는 script.</li>
<li>Fasta_filt_by_length.pl ==> Fasta파일과 필터링하고자 하는 minimum 길이를 input으로 받아 짧은 fasta 서열 필터링 script.</li>
<li>Fasta_scaffold_extract.pl ==> Fasta파일과 scaffold id를 input으로 받아 특정 scaffold 서열을 추출하는 script.</li>
<li>Fasta_sort_by_length_header_change.pl ==> Fasta파일을 input으로 받아 fasta header의 format변환 script.</li>
<li>Fastq_Filter_with_NGStoolkit.pl ==> NGStoolkit 프로그램을 이용한 Fastq 필터링 script.</li>
<li>Fastq_to_Fasta.pl ==> Fastq format을 Fasta format으로 변환하는 script.</li>
<li>Gene_id_to_GO_id.pl ==> Domain annotation 결과파일을 input으로 받아 유전자별로 GO id 할당하는 script.</li>
<li>Gene_sequence_extract_in_felidae_consensus_seq.pl ==> Consensus 서열과 gene set (gff file), 그리고 특정 gene symbol을 input으로 받아 특정 gene의 서열 (CDS, Peptide) 추출 script.</li>
<li>GeneSymbol_to_description_using_HUGO.pl ==> HUGO의 annotation 결과를 이용한 Gene description을 annotation하는 script.</li>
<li>GenomeCov_run.pl ==> Bedtools와 Bam파일을 이용한 Genome coverage계산 script.</li>
<li>N_position_detect.pl ==> Fasta 파일을 input으로 받아 모든 N base의 위치정보를 추출하는 script.</li>
<li>Hmmer_build.pl ==> Hmmer프로그램과 MSA 결과파일을 이용한 HMM alignment 수행 script.</li>
<li>Human_gene_extract_by_symbolList.pl ==> Human의 peptide서열과 gene symbol list파일을 input으로 받아 symbol list에 해당하는 peptide서열 추출 script.</li>
<li>Longest_transcript_select.pl ==> GTF format 파일을 input으로 받아 alternative form중 가장 긴 transcript만 선택하여 GTF 파일 생성 script.</li>
<li>Moleculo_length_distribution_and_yield_distribution.pl ==> Moleculo (TSLR) long read 서열을 input으로받아 length distribution과 yield distribution figure 생성 script.</li>
<li>Muscle_alignment.pl ==> Multi-fasta file을 input으로 받아 MUSCLE 프로그램으로 multiple sequence alignment 수행 script.</li>
<li>BaseCountCalculate.pl ==> fasta 파일을 input으로받아 A,T,G,C,N의 base 개수와 전체 portion을 계산하는 script.</li>
<li>NR_blastp_run.pl ==> NCBI nr database에 BlastP 수행 script.</li>
<li>NR_blast_result_parse.pl ==> NCBI nr database에 BlastP 수행한 결과를 hit된 species기준으로 정리하는 script.</li>
<li>ORF_finder.pl ==> Fasta파일을 input으로 받아 ORF를 찾아주는 script.</li>
<li>Protein2Symbol.pl ==> GFF file과 Peptide file을 input으로 받아 GFF의 gene symbol을 peptide fasta header에 추가해주는 script.</li>
<li>Protein_Domain_extract.pl ==> Peptide서열, Domain annotation file, 그리고 추출하고자 하는 domain full name을 input으로 받아 domain 서열 추출 script.</li>
<li>ReadsCutTo50.pl ==> Mate-pair reads를 input으로 받아 read length를 일괄적으로 50으로 잘라주는 script.</li>
<li>RepeatMasking_the_genome.pl ==> Fasta 파일을 input으로 받아 homology based repeat annotation 수행 script.</li>
<li>Repeat_portion_calculate.pl ==> repeat 결과 파일을 input으로 받아 repeat의 전체 portion 계산 script.</li>
<li>Samtools_ConsensusSeq.pl ==> Samtools 프로그램을 이용하여 consensus sequence 생성 script.</li>
<li>Samtools_variant_calling.pl ==> Samtools를 이용하여 vcf 파일 생성 script.</li>
<li>Scaffold_repeat_mask.pl ==> Scaffold fasta파일과 repeat annotation결과파일을 input으로 받아 repeat masking 수행 script.</li>
<li>Scaffold_repeat_SINE_mask.pl ==> Scaffold fasta파일과 repeat annotation결과파일을 input으로 받아 SINE에 해당하는 repeat masking 수행 script.</li>
<li>Scaffold_repeat_softmask.pl==> Scaffold fasta파일과 repeat annotation결과파일을 input으로 받아 repeat을 soft-masking 수행 script.</li>
<li>Scaffold_split_to_contig.pl ==> Scaffold fasta파일을 input으로 받아 N base 기준으로 contig로 split해주는 script.</li>
<li>SelfCorrection_at_once.pl ==> Assembly 결과파일과 Short read를 input으로 받아 Selfcorrection을 한번에 수행해주는 script.</li>
<li>Split_allChr_to_chr_and_chrun.pl ==> Fasta파일을 input으로 받아 각 chromosome과 unassigned chromosome 파일 생성 script.</li>
<li>Split_MergedVCF_to_Splited_samples.pl ==> Merged vcf 파일을 input으로 받아 각각의 sample vcf 파일로 split하는 script.</li>
<li>Statistics_for_geneset.pl ==> GFF파일을 input으로 받아 Gene, Exon, CDS, Intron의 개수와 평균 길이 계산 script.</li>
<li>Tblastn_run.pl ==> Genome fasta와 peptide fasta를 input으로 받아 TblastN 수행 script.</li>
<li>UnmappedSequence.Extract.fromMergedBAM.pl ==> Samtools를 이용하여 BAM파파일부터 Unmapped된 reads 추출 script.</li>
<li>VariantStatistics.pl ==> VCF 파일을 input으로 받아 Homozygous, Heterozygous, SNV, INDEL에 대한 통계 계산 script.</li>
</ol>
</li>
<li>NCBI_assembly_upload 
==> NCBI에 genome sequence를 등록할 때 필요한 script.
<ol style="list-style-type:upper-alpha">
<li>NCBI_assembly_upload/Contig_file_generate.pl</li>
<li>NCBI_assembly_upload/Error_correct.pl</li>
<li>NCBI_assembly_upload/Generate_agp_file.pl</li>
<li>NCBI_assembly_upload/ShortContigFiltering.pl</li>
</ol>
</li>
<li>GeneFusion_analysis 
==> ChimeraScan, Tophat fusion 프로그램을 이용한 gene fusion analysis script.
<ol style="list-style-type:upper-alpha">
<li>GeneFusion_analysis/0_qsub_fusion_chimeraScan.pl</li>
<li>GeneFusion_analysis/0_qsub_fusion_tophat.pl</li>
<li>GeneFusion_analysis/1_fusion_tophat_result_add_genesymbol.pl</li>
<li>GeneFusion_analysis/2_qsub_tophat_result_add_genesymbol.pl</li>
</ol>
</li>
<li>Population analysis 
==> ADMIXTURE, PCA analysis를 수행하는 script.
<ol style="list-style-type:upper-alpha">
<li>Population_Genetic_Structure_Analysis/run.ADMIXTURE.pl</li>
<li>Population_Genetic_Structure_Analysis/run.pca.pl</li>
</ol>
</li>
</ol>

S

Bureaucrats, Administrators, widgeteditor

1,007

edits

kogic.kr β

Changes

Hak-Min Kim S P

kogic.kr ^β