메뉴 바로가기 본문 바로가기 하단 바로가기

Korea Bioinformation Center

국내 생명연구자원정보의 총괄관리와 생명정보 분야의 전문연구를 위한 범부처 국가센터

공개 분석 파이프라인

Single-Cell-RNA-Sequencing-Pipeline

Whole-genome sequencing pipeline

The Whole-genome sequencing(WGS) pipeline is a modular toolkit for processing WGS data. This pipeline takes a FASTQ file as input and provides haplotype call results and annotations and visualizations based on GATK pipeline. First, raw read data with well-calibrated base error estimates in FASTQ format are mapped to the reference genome. The BWA mapping tool is used to align reads to the human genome reference, allowing for up to two mismatches in 30-base seeds, and generate a technology-independent SAM/BAM reference file format. Next, duplicate fragments are marked and removed using Picard(http://picard.sourceforge.net), mapping quality is assessed and low-quality mapped reads are filtered, and Paired-read information is also evaluated to ensure that all mate-pair information is in sync between each read. We then refine the initial alignments with local realignment and identify suspicious regions. Using this information as a covariate along with other technical covariates and known sites of variation, the GATK base quality score recalibration(BQSR) is performed. Germline SNPs and indels are called via local reassembly of haplotypes using the recalibrated and realigned BAM files. Finally, we provide Somalier, a tool to quickly assessing sample relevance from sequencing data in BAM, CRAM or VCF format.
#Whole Genome Sequencing
#WGS
#Genomics
#Next Generation Sequencing
#Precision Medicine
#Clinical Genomics
#noncoding genome
#GATK
#fastp
#Cutadapt
#BWA
#SortSam
#MarkDuplicates
#CountBase
#BaseRecalibrator
#ApplyBQSR
#HaplotypeCaller
#somalier

Single-Cell-RNA-Sequencing-Pipeline

Single-cell RNA sequencing pipeline

The Single-cell RNA sequencing pipeline is an extensible toolkit for analyzing single-cell gene expression data using the Scanpy framework. It includes methods for preprocessing, visualization, clustering, and differential expression testing. Its Python-based implementation efficiently handles datasets containing more than one million cells. We introduce ANNDATA, a generic class for managing annotated data matrices. The pipeline features: 1. Regression of confounding variables, normalization, and identification of highly variable genes. 2. t-SNE and graph-based (Fruchterman–Reingold) visualizations that show cell-type annotations derived from comparisons with bulk expression data. 3. Clustering of cells and visualization using the Louvain algorithm, with support for other clustering algorithms as well. 4. Ranking differentially expressed genes in clusters to identify marker genes corresponding to bulk expression labels.
#Single-cell RNA sequencing
#Next-generation sequencing
#Bioinformatics
#Single-cell genomics
#Human Cell Atlas
#Cell_Biology
#Genomics
#transcriptome
#Biotechnology
#heterogeneity
#Multiomics
#scRNA-seq
#scATAC-seq
#Epigenetics
KOBICian's Story
지구상에는 아직 확인되지 않은 것을 포함하여 약 870만 종의 생물이 살고 있는 것으로 추정되며, 인류는 이들과 공존하는 동시에 자원으로 이용하여 윤택한 삶을 일구어 나가고 있습니다. 혹시 여러분은 사소한 일상 속에서 하루에 얼마나 많은 바이오소재를 접하고 있는지 알고 있나요? 예를 들어 아침에 일어나 세면을 할 때 필요한 비누와 샴푸, 피부 미백 및 자외선 차단 등의 목적으로 바르는 화장품, 건강을 위해 섭취하는 건강기능식품 등이 바이오소재의 활용 사례입니다. KOBIC에서는 국가 차원에서 확보·관리·활용되고 있는 바이오소재 현황을 파악하고, 바이오소재의 중장기정책 방향 수립 및 바이오 연구‧산업 활용을 위한 통계정보를 제공하기 위해 매년 12월부터 1월 사이에 국내 바이오소재 관리기관을 대상으로 바이오소재의 확보 및 분양, 장비, 시설, 인력 등 현황을 온라인 형태로 조사하고 있습니다. 그리고 그 결과를 분석하여 매년 4월 말 국가통계포털(KOSIS, KOrean Statistical Information Service)에 바이오소재통계라는 명칭으로 공표하고 있습니다. 또한, 지난 2011년부터 생명연구자원법 제19조 및 동법 시행령 제13조(통계조사 및 통계간행물의 발간)에 근거하여 국가생명연구자원 통계자료집을 발간하고 있습니다. 여기에는 KOSIS에 공표한 현황과 바이오소재 관련 상세 통계정보, 동향 등이 포함되어 있으며, 바이오소재 총괄지원단 홈페이지를 통해 통계자료집 PDF 파일, 통계설명자료, 통계용어 등을 공개하고 있습니다. 2024년에 실시한 총 204개 소재자원은행을 대상으로 조사한 결과에 따르면 무려 20,709,924점의 바이오소재를 보유한 것으로 조사되었습니다. 이 중에서 세포, 종자 등 증식이 가능한 자원은 총 87,676종 3,946,385점이고, 핵산, 추출물 등 파생된 자원은 총 251,593종 16,763,539점입니다. 국가 바이오산업의 핵심 인프라가 점차 강화되면서 바이오소재의 보유 수도 점차 증가하는 경향이 뚜렷하게 나타나고 있습니다(전년 대비 약 6.8% 증가, 2020년 이후 연평균 5.82% 증가). 특히, 가장 많은 바이오소재를 보유한 클러스터는 야생생물 클러스터(6,144,646점, 전체 대비 약 29.7%)였고, 그 다음은 천연물 클러스터(4,744,200점, 전체 대비 약 22.9%)로 확인되었는데, 이처럼 우리 주위에 있는 자연환경에서 다양한 동식물과 관련 자원들이 풍부하게 존재한다는 것을 볼 수 있습니다. 바이오소재 활용 중심의 연구 활성화, 산업계의 신소재 개발 및 기술혁신 수요 등으로 인하여 2024년에는 소재자원은행에서 총 812,241점의 분양이 이루어졌으며, 이 중 증식가능자원은 총 7,117종 81,153점이고, 파생자원은 총 8,712종 731,088점입니다. 코로나-19 팬데믹, R&D 예산 확보 및 운영 등의 이유로 분양 수치는 변동이 있지만, 산업계 및 연구계 등 다양한 수요기관에 분양을 진행하면서 바이오소재를 다양하게 활용하고 있음을 볼 수 있습니다. 소재자원은행은 새로운 바이오소재를 발굴 및 관리하고, 이를 연구 및 산업적 목적으로 활용하면서 다양한 성과를 내고 있습니다. 2024년 기준, 204개의 소재자원은행과 관련된 논문은 총 3,092편(분양된 소재 활용 2,593편, 소재 발굴·개발 499편)을 발간하고, 특허는 총 317건(분양된 소재 활용 262건, 소재 발굴·개발 55건)을 등록하였습니다. 또한, 바이오소재의 장기 보존, 분류학적 동정, QC(Quality Control), 분석·실험 대행, 기술교육 지원 등의 다양한 대외서비스는 총 3,240건을 실시하여, 바이오소재의 적극적인 인프라 지원을 통한 활용 확대에 노력을 아끼지 않고 있습니다. 통계자료에 의하면 해외에서도 방대한 바이오소재의 활용이 이루어짐을 알 수 있습니다. 일본 RIKEN BRC(BioResource Research Center)는 매년 약 15,000 ~ 16,000개의 바이오소재를 제공하고 있으며, 설립 이후 총 331,444개 이상의 바이오소재를 약 7,900개의 일본 기관과 6,500개의 일본 외 기관에 제공하고 있습니다(2024년 보고서 기준). 우리나라의 2024년 단일 소재자원은행 분양 기준, 극소수의 은행을 제외하면 대부분 은행의 분양 수치가 10,000개 이하인데, 이 점을 볼 때 일본 RIKEN BRC의 분양 수치가 많다고 볼 수 있습니다. 또한, 일본 바이오뱅크(BBJ, BioBankJapan)은 2023년 4~12월 기준, DNA 샘플 29,152건, 혈청 샘플 1,343건, 임상·게놈정보 877,896건으로 상당히 많은 성과를 제공하고 있음을 볼 수 있습니다. 바이오소재는 전 세계적으로 그 중요성이 점점 커지고 있으며, 인류의 삶의 질 향상과 지속가능한 미래를 위한 핵심 자원으로 자리매김하고 있습니다. 방대한 바이오소재는 단순한 데이터가 아닌, 미래를 위한 소중한 자산임을 잊지 말아야 하며, 앞으로도 국내 바이오소재의 체계적인 관리와 활용을 통해, 바이오 분야의 경쟁력을 강화하고, 글로벌 바이오산업을 선도하는 기반을 지속적으로 다져나가야 할 것입니다.

바이오익스프레스 서비스는 동적 컨테이너 기반 자동화된 워크플로우 분석 플랫폼과 고속 데이터 전송 서비스를 통해 과학 분야의 빅데이터 분석을 가능하게 하는 국내 유일의 클라우드 기반 통합 데이터 분석 서비스입니다.

다운로드

환경에 맞는 OS용 워크벤치 및 고속전송 서비스를
다운로드 해주세요.

6,271

사용자

1,104

워크스페이스

90,135

실행 태스크
국가바이오데이터스테이션 데이터 활용 바로가기

바이오 연구 데이터란 생명과학 분야의 국가 R&D 사업을 통해 생산된 모든 종류의 데이터를 의미하며, 이러한 데이터를 활용한 혁신 연구 방식이 각광받으면서 R&D 혁신을 견인하는 핵심요소로 부각되고 있습니다. 이를 위하여 부처·사업·연구자별 흩어져 있는 데이터를 통합 수집·제공하는 국가바이오데이터스테이션을 구축하여 데이터 기반 바이오 연구 환경을 조성하려 합니다.

데이터별 등록 현황

  • 2,139

    바이오프로젝트
  • 109,855

    바이오샘플
  • 2,370,162

    등록된 데이터

바이오 프로젝트 등록 현황

등록 누적 건수(건)
국가 바이오 빅데이터 사업 사업소개 바로가기

정밀의료의 근간이 되는 바이오 빅데이터는 사후적 치료 중심에서 개인 맞춤형 치료·예방의료로 전환됨에 따라 중요도가 커지고 있습니다. 특히 선점 효과가 큰 바이오 산업의 경우 선제적 투자가 필요하며, 주요국들은 대규모 바이오 빅데이터를 구축하고 있습니다. 이에 따라 국가적으로 미래 의료 선도를 위한 국가 바이오 빅데이터를 구축하기 위해 본 사업이 시행되었습니다. 정밀의료 시대의 중심인 '바이오 빅데이터'를 국가차원에서 수집-저장-활용 할 수 있는 기반을 조성하고, 신산업 촉진 및 건강한 삶의 증진에 기여하고자 합니다.

임상정보 수집

16개 희귀질환 협력기관을 지정 운영하여 희귀질환자 모집 후 임상정보 수집

데이터 분석

수집된 희귀질환자의 검체를 자원 제작 기관으로 운송 후 유전체 데이터 생산ㆍ분석

데이터 공유

수집된 임상정보 및 유전체 데이터는 3개의 기관에서 컨소시엄을 구성해 공유

데이터 활용

분석한 데이터는 희귀질환자 상담 및 진료 ㆍ연구 활동 등에 활용

유전체 데이터 25,000
변이분석 데이터 25,000
임상 정보 25,000
코호트 7
감염병 연구정보포털 소개 바로가기

감염병 연구정보포털(Infectious Disease Data Portal)은 전 세계 감염병 바이러스의 연구데이터를 통합 제공하는 포털 서비스 입니다. 빠르게 변화하는 상황에서 감염병을 이해하고 치료법과 백신을 개발하기 위해 데이터와 결과를 조화롭게 공유하기 위해 KOBIC은 전세계 감염병의 연구정보데이터를 통합하여 제공하고 있습니다.

시퀀스 대시보드

88,386 국내 유전체 서열
1,354 국내 단백질 서열
19,685,177 국외 유전체 서열
35,837,682 국외 단백질 서열
19,764,289 코로나 유전체 서열
35,333,179 코로나 단백질 서열
바이러스

감염병 개요, 입자 및 유전체 구조, 생활사, 역학, 변이 등 바이러스에 대한 통합 정보를 제공

데이터

전세계에서 수집한 염기서열 및 단백질 서열, 단백질 구조를 품질분석하여 제공

통계

바이러스 데이터의 발병 시기, 지역, 변이 등 다양한 통계 서비스

분석도구

간단한 웹 기반의 감염병 표준 염기서열 BLAST 서비스

연구지원

국내 생명과학 연구의 활성화를 위하여 생명정보학 전문지식 습득 및 전산자원이 필요한 연구자 여러분들께 다양한 생명정보학 관련 연구를 지원합니다.

  • 042-879-8544
  • swhwang@kribb.re.kr

KOBIC 온라인 교육

바로가기
  • 042-879-8582
  • bkbaik@kribb.re.kr
TOP