메뉴 바로가기 본문 바로가기 하단 바로가기

Korea Bioinformation Center

국내 생명연구자원정보의 총괄관리와 생명정보 분야의 전문연구를 위한 범부처 국가센터

공개 분석 파이프라인

Single-Cell-RNA-Sequencing-Pipeline

Whole-genome sequencing pipeline

The Whole-genome sequencing(WGS) pipeline is a modular toolkit for processing WGS data. This pipeline takes a FASTQ file as input and provides haplotype call results and annotations and visualizations based on GATK pipeline. First, raw read data with well-calibrated base error estimates in FASTQ format are mapped to the reference genome. The BWA mapping tool is used to align reads to the human genome reference, allowing for up to two mismatches in 30-base seeds, and generate a technology-independent SAM/BAM reference file format. Next, duplicate fragments are marked and removed using Picard(http://picard.sourceforge.net), mapping quality is assessed and low-quality mapped reads are filtered, and Paired-read information is also evaluated to ensure that all mate-pair information is in sync between each read. We then refine the initial alignments with local realignment and identify suspicious regions. Using this information as a covariate along with other technical covariates and known sites of variation, the GATK base quality score recalibration(BQSR) is performed. Germline SNPs and indels are called via local reassembly of haplotypes using the recalibrated and realigned BAM files. Finally, we provide Somalier, a tool to quickly assessing sample relevance from sequencing data in BAM, CRAM or VCF format.
#Whole Genome Sequencing
#WGS
#Genomics
#Next Generation Sequencing
#Precision Medicine
#Clinical Genomics
#noncoding genome
#GATK
#fastp
#Cutadapt
#BWA
#SortSam
#MarkDuplicates
#CountBase
#BaseRecalibrator
#ApplyBQSR
#HaplotypeCaller
#somalier

Single-Cell-RNA-Sequencing-Pipeline

Single-cell RNA sequencing pipeline

The Single-cell RNA sequencing pipeline is an extensible toolkit for analyzing single-cell gene expression data using the Scanpy framework. It includes methods for preprocessing, visualization, clustering, and differential expression testing. Its Python-based implementation efficiently handles datasets containing more than one million cells. We introduce ANNDATA, a generic class for managing annotated data matrices. The pipeline features: 1. Regression of confounding variables, normalization, and identification of highly variable genes. 2. t-SNE and graph-based (Fruchterman–Reingold) visualizations that show cell-type annotations derived from comparisons with bulk expression data. 3. Clustering of cells and visualization using the Louvain algorithm, with support for other clustering algorithms as well. 4. Ranking differentially expressed genes in clusters to identify marker genes corresponding to bulk expression labels.
#Single-cell RNA sequencing
#Next-generation sequencing
#Bioinformatics
#Single-cell genomics
#Human Cell Atlas
#Cell_Biology
#Genomics
#transcriptome
#Biotechnology
#heterogeneity
#Multiomics
#scRNA-seq
#scATAC-seq
#Epigenetics
KOBICian's Story
작년 8월에 달리기에 입문하여 어느덧 13개월차를 지나고 있습니다. 지금까지 달린 누적 거리는 어제 기준으로 960km를 넘었습니다. 새로 시작한 일을 중도 포기하지 않고 1년이 넘게 지속하고 있으니 이제는 달리기가 아주 수월하고 자연스런 일상이 된 것일까요? 그렇지는 않습니다. 즐거움과 기대감으로 부풀어서 콧노래를 흥얼거리며 뛰러 나간 적은 거의 없다고 해도 과언이 아닙니다. "아, 오늘은 정말 뛰기 싫다! 딱 3km만 뛸까?"라는 생각이 들지 않은 적이 없습니다. 준비운동은 늘 부족하여 첫 1km를 뛰는 동안은 몸이 풀리지 않아서 정말 힘이 듭니다. 그러나 2km에 근접해 가면서 엔진이 예열되듯 조금씩 편안한 느낌이 들고, 어느덧 몸은 반환점을 돌고 있습니다. 요즘 달리기가 인기 있는 운동임을 증명하듯, 지난 몇 달 동안을 관찰해 보면 확실히 동네 주변을 뛰는 사람이 많아진 것 같습니다. 마라톤 대회 신청은 순식간에 마감이 되어 국외 대회로 나간다는 이야기도 들었습니다.조깅과 러닝을 엄격히 구별해야 한다는 의견도 있습니다. 조깅은 보통 시속 6~8km의 편안하고 느린 달리기(뛰면서 대화를 할 수 있을 정도)이고, 러닝은 시속 8km 이상으로 본인의 최대 심박수에 가깝게 운동하는 달리기라고 합니다. 페이스란 1km를 달리는데 걸리는 시간을 분으로 표현한 것으로 7분 30초보다 적어야 러닝인 셈입니다. 흔히 600 페이스, 즉 6분에 1km를 달리게 되면 초보자를 벗어난 수준이라고들 합니다. 물론 이 상태로 30분 이상을 뛸 수 있어야 합니다. 6분 페이스는 30분에 5km, 1시간에 10km에 해당하므로 계산하기도 쉽습니다. 마라톤 풀코스(42.195km)를 세 시간에 달리려면, 즉 sub-3 러너가 되려면 416 페이스(4분 16초)보다 더 빨라야 합니다. 100미터를 25.6초로 세 시간 동안 달려야 하는 것이지요!6개월 정도 달리기를 지속하면 저는 당연히 6분의 페이스로 진입할 수 있을 줄 알았습니다. 그러나 지난 4월과 5월에 한번 씩 달성한 것이 유일합니다. 사실 별도의 하체 근력 운동이나 인터벌 트레이닝을 하지 않는 중년 남자가 파격적으로 기록이 좋아질 수는 없습니다. 특히 이번 여름은 몹시 더워서인지 속도를 내기가 더욱 어려웠습니다. 요즘은 이틀에 한 번, 640~650 페이스로 7km를 달리고 있습니다. 아주 드물게 8km나 10km를 채우기도 합니다. 달리기를 계속하면 심박수가 줄어든다고 하는데, 요즘은 측정을 하지 않아서 잘 모르겠습니다. 달리기가 아무런 후유증이 없다고는 말하기 어렵습니다. 보통 저녁식사를 하고 2시간 이상이 지난 뒤 밤늦은 시간에 달리기를 하게 되니, 아무리 운동 후 달게 잔다 하여도 그 다음날은 피로감이 느껴집니다. 만약 아침에 일어난 직후 달리기를 한다면 하루 종일 더 피곤하겠지요? 하지만 아침과 밤 언제 뛰는 것이 좋은가에 대해서는 정답이 없습니다. 밤에 뛰면 오히려 정신이 각성이 되어 깊은 잠이 들기 어려울 수 있고, 아침에는 대기 중의 공해물질이 내려와서 지표면에 가장 많이 쌓여 있을 때라고 합니다. 무릎에 별다른 문제가 발생하지 않은 것은 정말 행운입니다. 간혹 무릎 뒤나 장딴지가 뻐근하게 느껴질 때가 있습니다만, 대부분 하루 쉬는 동안 나아집니다. 산화 스트레스에 의해 심장에 무리가 갈 수 있다는 의견도 있는데, 이틀에 한 차례 수 km 달리는 정도로는 괜찮다고 생각합니다. 관절이나 근육에 누적되는 부상을 걱정할 것이 아니라 뛰면서 돌부리 같은 것에 걸려 넘어지거나 자전거 등과 충돌하지 부딛치지 않도록 주의하는 것이 더 중요합니다. 2년 전 계단에서 넘어져서 몇 개의 갈비뼈와 위팔뼈가 부러져 본 사람은, 그 아픔과 후유증을 너무나 잘 압니다. 사실 달리다가 넘어져서 생긴 상처가 몸 두어 곳에 남아 있습니다.지난 7월의 종합건강검진에서 제 몸이 얼마나 좋아졌는지 내심 기대를 하였었습니다. 그러나 체중이 2kg 정도 줄고 체지방률이 3% 줄어든 것 외에는 크게 달라진 것이 없었습니다. 근육량이 약간 늘지 않았을까 기대했지만 오히려 200g 정도 줄었더군요. 역시 추가적인 근력 운동을 하지 않으면 소용이 없다는 것을 깨달았습니다. 나이가 들 수록 근손실이 많아지니 단백질 섭취량을 늘리고 근육 운동을 하라는 것이 다 이유가 있습니다.간혹 달리기를 시작하고 나서 2~3년 만에 마라톤 풀코스를 완주했다는 사람을 만나게 됩니다. 이런 말 듣고서 욕심을 내면 곤란합니다. 과도하게 높은 목표를 세우고 무리하는 것도 좋지 않지만, 5km나 10km 달리기 대회에 '마라톤'이라는 말을 너무나 쉽게 붙이는 것도 바람직하지는 않다고 생각합니다. 저도 언젠가는 '하프 마라톤' 정도는 뛸 수 있지 않을까요? 현재와 같이 특별히 추가적인 훈련을 하지 않은 상태에서는 아주 이따금 10km를 뛰는 것은 가능합니다. 물론 페이스는 7분을 훌쩍 넘어가겠지요. 그러나 20km를 쉬지 않고 뛰려면 반드시 훈련이 필요합니다. 제가 운동에 관심을 가지는 것은 결국 건강수명을 늘리기 위함입니다. 2023년 기준으로 한국인의 기대수명은 83세, 건강수명은 73세라고 합니다. 즉 생애 마지막 10년 동안은 병원을 전전하거나 거동 불편을 겪으며 돌봄 대상이 되어 살아야 합니다. 이 기간을 줄이려면 심폐기능을 향상시키는 유산소 운동이 반드시 필요합니다. 달리기는 아주 대표적인 유산소 운동이지요. 그러나 근육량이 줄어들지 않도록 코어와 둔근 운동도 병행해야 합니다. 꼭 클럽에 가서 '쇠질'을 하지 않아도 근육을 단련할 수 있다고 하니, 게으른 저도 방법을 찾아 봐야 되겠습니다. 그런데 플랭크, 사이드 플랭크, 버드독, 브리지, 런지 등 근력운동 이름은 우리말로 바꿀 수 없을까요?수명은 프로그래밍되어 있지만 노화는 질병이라는 말이 있습니다. 그런데 이 질병은 알약 몇 개로 고칠 수 있는 성질의 것이 아닙니다. 운동을 포함한 좋은 생활 습관, 좋은 음식, 긍정적인 마음가짐이 필요합니다. 약 49만명에 이르는 UK Biobank 자료를 활용한 연구에 따르면 환경 요인(exposome)은 전체 사망 위험의 약 17%를 설명한 반면, 유전적 요인은 겨우 2% 미만이었다고 합니다(Integrating the environmental and genetic architectures of aging and mortality. Nature Medicine, 2025; DOI: 10.1038/s41591-024-03483-9). 이 연구에 대하여 덧붙인 '유전자는 주사위를 쥐여주지만, 그 주사위를 어떻게 굴릴지는 우리에게 달려있다'라는 과학자의 논평에 눈길이 갑니다(https://www.sciencemediacentre.org/expert-reaction-to-study-looking-at-genetic-and-lifestyle-factors-and-premature-death-ageing-and-age-related-diseases/). 돈이 많이 드는 유전체 연구는 물론 가치 있는 일입니다. 그러나 '나의 건강 증진과 노화 억제'를 위해 당장 실천에 옮길 수 있는 일부터 하는 것이 좋지 않을까요? 가벼운 옷과 운동화를 신고 바깥으로 나갑시다. 신발은 600~800km를 달린 뒤 새로 사실 각오를 하시구요. 좋은 음식도 물론 중요합니다. 요즘 인기 있는 개념인 저속노화(서울특별시 건강총괄관 정희원 박사)에 대해서도 찾아 보시기를 추천합니다.

바이오익스프레스 서비스는 동적 컨테이너 기반 자동화된 워크플로우 분석 플랫폼과 고속 데이터 전송 서비스를 통해 과학 분야의 빅데이터 분석을 가능하게 하는 국내 유일의 클라우드 기반 통합 데이터 분석 서비스입니다.

다운로드

환경에 맞는 OS용 워크벤치 및 고속전송 서비스를
다운로드 해주세요.

6,379

사용자

1,127

워크스페이스

91,310

실행 태스크
국가바이오데이터스테이션 데이터 활용 바로가기

바이오 연구 데이터란 생명과학 분야의 국가 R&D 사업을 통해 생산된 모든 종류의 데이터를 의미하며, 이러한 데이터를 활용한 혁신 연구 방식이 각광받으면서 R&D 혁신을 견인하는 핵심요소로 부각되고 있습니다. 이를 위하여 부처·사업·연구자별 흩어져 있는 데이터를 통합 수집·제공하는 국가바이오데이터스테이션을 구축하여 데이터 기반 바이오 연구 환경을 조성하려 합니다.

데이터별 등록 현황

  • 2,159

    바이오프로젝트
  • 110,983

    바이오샘플
  • 2,371,464

    등록된 데이터

바이오 프로젝트 등록 현황

등록 누적 건수(건)
국가 바이오 빅데이터 사업 사업소개 바로가기

정밀의료의 근간이 되는 바이오 빅데이터는 사후적 치료 중심에서 개인 맞춤형 치료·예방의료로 전환됨에 따라 중요도가 커지고 있습니다. 특히 선점 효과가 큰 바이오 산업의 경우 선제적 투자가 필요하며, 주요국들은 대규모 바이오 빅데이터를 구축하고 있습니다. 이에 따라 국가적으로 미래 의료 선도를 위한 국가 바이오 빅데이터를 구축하기 위해 본 사업이 시행되었습니다. 정밀의료 시대의 중심인 '바이오 빅데이터'를 국가차원에서 수집-저장-활용 할 수 있는 기반을 조성하고, 신산업 촉진 및 건강한 삶의 증진에 기여하고자 합니다.

임상정보 수집

16개 희귀질환 협력기관을 지정 운영하여 희귀질환자 모집 후 임상정보 수집

데이터 분석

수집된 희귀질환자의 검체를 자원 제작 기관으로 운송 후 유전체 데이터 생산ㆍ분석

데이터 공유

수집된 임상정보 및 유전체 데이터는 3개의 기관에서 컨소시엄을 구성해 공유

데이터 활용

분석한 데이터는 희귀질환자 상담 및 진료 ㆍ연구 활동 등에 활용

유전체 데이터 25,000
변이분석 데이터 25,000
임상 정보 25,000
코호트 7
감염병 연구정보포털 소개 바로가기

감염병 연구정보포털(Infectious Disease Data Portal)은 전 세계 감염병 바이러스의 연구데이터를 통합 제공하는 포털 서비스 입니다. 빠르게 변화하는 상황에서 감염병을 이해하고 치료법과 백신을 개발하기 위해 데이터와 결과를 조화롭게 공유하기 위해 KOBIC은 전세계 감염병의 연구정보데이터를 통합하여 제공하고 있습니다.

시퀀스 대시보드

88,386 국내 유전체 서열
1,354 국내 단백질 서열
19,685,177 국외 유전체 서열
35,837,682 국외 단백질 서열
19,764,289 코로나 유전체 서열
35,333,179 코로나 단백질 서열
바이러스

감염병 개요, 입자 및 유전체 구조, 생활사, 역학, 변이 등 바이러스에 대한 통합 정보를 제공

데이터

전세계에서 수집한 염기서열 및 단백질 서열, 단백질 구조를 품질분석하여 제공

통계

바이러스 데이터의 발병 시기, 지역, 변이 등 다양한 통계 서비스

분석도구

간단한 웹 기반의 감염병 표준 염기서열 BLAST 서비스

연구지원

국내 생명과학 연구의 활성화를 위하여 생명정보학 전문지식 습득 및 전산자원이 필요한 연구자 여러분들께 다양한 생명정보학 관련 연구를 지원합니다.

  • 042-879-8544
  • swhwang@kribb.re.kr

KOBIC 온라인 교육

바로가기
  • 042-879-8582
  • bkbaik@kribb.re.kr
TOP