KOBICian’s Story

- 작성자 김판규 (KOBIC 책임기술원)
- 작성일2025-03-14 16:43:18
- 조회수374
2024년 12월 중국에서 개발되어 발표된 DeepSeek-V3, 그리고 뒤이어 올해 1월에 발표된 증류모델 DeepSeek-R1는 딥러닝 기반의 인공지능 분야에 큰 충격을 주고 있습니다. 이전 서비스들에 비해서 너무나 싼 개발·구축 비용, 그리고 MIT 라이센스, 즉 오픈소스라서 사용자가 직접 설치하여 활용할 수 있기 때문입니다. 그럼에도 불구하고 그 성능은 GPT 서비스 등과 유사하다고 하니 놀라운 따름입니다.
DeepSeek는 헤지펀드 회사의 CEO이면서, 동시에 인공지능 연구회사(회사이름도 DeepSeek)의 창립자인 량원펑이 만들었습니다. DeepSeek-V3와 함께 발표된 기술 문서에 따르면 GPT-4o등 기존 LLM 모델에 비해서 벤치마킹 성능이 전혀 부족하지 않으면서도 모델 학습을 위해 사용한 비용은 557만 달러에 불과했다고 합니다(실제 인프라 구축 비용은 아니며, 모델 학습 시간동안 GPU를 빌린다고 가정할 때 드는 비용-실제 모델학습에 사용된 H800 GPU는 2,048개 이며, GPU 1개를 사용한다고 가정할 때 총 278만 8천 시간이 소요되었고, H800 GPU 1개당 1시간 빌릴 때 비용 2달러로 계산). 통상적으로 수천억 원 이상의 비용을 들여 엄청난 연산 자원을 구축해야만 고성능의 AI 서비스를 개발할 수 있다고 믿었던 고정관념을 깨뜨리는 계기가 되었습니다.
<DeepSeek-V3와 유사 모델의 성능비교, https://github.com/deepseek-ai/DeepSeek-V3>
그렇다면 DeepSeek는 어떤 방법으로 비용을 획기적으로 줄이면서 비슷한 성능을 낼 수 있었을까요? 결론부터 말씀드리면 인공지능 분야에서 수십 년 이상 연구 되어온 다양한 기법의 총망라로 가능하였으며, 엄밀하게 말해서 그 성능도 GPT-4o와 거의 동일하지만 추론 능력이 더욱 뛰어난 GPT-o1보다는 부족한 부분이 있는 것 같습니다.
LLM 모델이나 딥러닝의 상세 설계를 하는 연구자가 아니라면, 사실 어떻게 DeepSeek가 비용을 줄이는지 별로 궁금하게 여기지 않을 것 같으니 이 글에서는 간단하게 다음의 표로 대신하겠습니다.
<DeepSeek의 저비용 고성능 개발 방법>
방법 | 설명 |
부동소수점 8비트(FP8) 연산사용 | 전통적인 LLM 모델에서 가중치 계산을 위해 사용하는 부동소수점 32비트 혹은 16비트 연산 대신 8비트 연산을 사용하여 낮은 가격의 H800을 사용하더라도 가중치 연산 성능은 비슷함 (8비트에 대한 연산 성능은 H100과 H800이 동일) |
CoT (Chain of Thought)/추론 | 곧바로 답을 찾는 것이 아니라 답을 찾기 위해서 여러 과정으로 나누어서 단계별로 접근하면 성능이 향상됨 |
MoE(Mixture of Experts) | 큰 규모의 범용 모델을 만들기보다는 여러 개의 전문가 그룹으로 나누어서 결과를 취합하면 적은 비용으로 비슷한 성능 구현이 가능함 |
강화학습, Agent/SFT (Supervised Fine Tuning) | 모델 학습 진행과 수정을 관리 감독하는 agent가 인간 피드백이나 평가지표의 측정을 통해서 모델을 조금씩 인위적으로 수정하면서 최적화하여 성능향상 |
증류(Distillation) | 노드수와 파라미터 수가 많은 딥러닝 모델을 통해 미리 학습한 후 핵심 네트워크만 추려서 노드수와 파라미터 수를 줄임으로써 일정 수준의 성능은 보장하면서 딥러닝 모델을 실행할 수 있는 인프라 환경을 축소하는 기술 |
동시 연산-정보교환 | 통상적인 CUDA기반 모델은 데이터 이동시간은 GPU가 아무 일도 하지 못하지만 알고리즘 변형을 통해 정보교환과 연산이 동시에 가능하게 수정 |
CUDA/Assembly 레벨 최적화 | CUDA 코딩의 최적화 및 Assembly언어 레벨의 코딩을 통해 성능 최적화 |
최적 모델 성과평가 개발 | GRPO(Group Relative Policy Optimization)의 개발을 통해서 모델 학습 시 성과를 잘 평가하고 반영 |
위 방법 중에서 CoT(Chain of Thought)/추론과 관련하여 2022년에 발표된 흥미로운 연구 결과가 있습니다(“Large Language Models are Zero-Shot Reasoners”). 이에 따르면 어떤 수학문제에 대한 정답률이 17.7%인 LLM 모델(Large InstructGPT)에게 “차근차근 생각해 봐”라고 한마디 더 지시하면 정답률이 78.7%까지 높아진다는 것입니다. 통상적으로 일반적인 LLM 모델은 학습된 모델을 통해서 한번에 답을 찾으려 하지만, 이런 식으로 명령을 하게 되면 검토과정을 거치거나 추론 단계를 자체적으로 거쳐서 더 나은 결과를 가져올 수 있다는 것입니다. DeepSeek에서는 이러한 추론과정을 아예 강제함으로써 성능을 향상 시킬 수 있었을 것으로 생각됩니다.
기술문서에서는 통상적인 벤치마킹 결과 DeepSeek의 성능이 유수의 기존 서비스들과 유사하다고 하였습니다. 하지만 조금 어려운 추리문제 등에서는 GPT-o1보다 정답률이 떨어진다는 보고도 있습니다. 사실 GPT-o1은 작년 수능의 국어와 수학 문제를 풀 때 거의 만점을 받는다고 하니, GPT-4o보다 개선된 부분이 많은 것 같기도 합니다.
DeepSeek는 현재 무료로 사용 가능하지만, 보안 등의 이슈로 정부기관이나 공공공기관 등에서는 접속이 제한됩니다. 아쉽게도 휴대폰용 앱 역시 우리나라에서는 현재 다운로드가 되지 않습니다. 만약 업무에 활용하고자 한다면, 로컬에서 직접 설치하는 방법을 추천드립니다. LLM모델을 로컬에서 실행하게 해주는 Ollama를 설치한 후, ollama프롬프트에서 간단한 명령어로 모델 선택하여 다운로드 및 설치가 가능합니다. 윈도우, 맥, 리눅스 환경 모두 가능합니다. 파라미터의 개수가 가장 많은 DeepSeek-R1버전은 고성능 GPU와 128GB 이상의 메모리가 탑재된 고사양 컴퓨터가 필요하며, 증류 버전인 DeepSeek-R1-Distill-Qwen-1.5B은 일반적인 GPU 카드를 탑재한 PC에서도 충분히 실행이 가능합니다. 한글 사용을 고려한다면, 32B이상의 버전을 사용하는 것이 좋습니다.
DeepSeek의 발표로 인공지능서비스의 연구방향은 두 갈래로 나누어지고 있는 것 같습니다. 하나는 기존 LLM 모델이 추구하는 “Scaling은 계속된다”입니다. GPU의 처리속도가 점점 더 빨라짐에 따라, 더 많은 파라미터와 학습 데이터를 투입하여 고성능의 범용 인공지능 서비스를 개발하려는 움직임입니다. 다른 하나는 DeepSeek로 인해 가속화되는 “on premise” 또는 더 나아가 “on device”입니다. 개별 PC에서도 설치가 가능한 현재 버전의 DeepSeek만 잘 활용한다면, 이제는 특정 연구분야의 데이터만을 학습시킨 소규모 자체 인공지능 서비스를 제공할 수 있는 시기가 된 것 같습니다. 이와 함께 데이터의 중요성은 점점 더 커지고 있습니다. 지금까지 공개된 LLM 모델인 Llama3, Qwen, DeepSeek-R1 등도 어떤 학습 데이터로 어떻게 학습 시켰는지는 전혀 공개하지 않고 있습니다. 프로그램 코드는 공개하더라도 데이터는 공개하지 않는다는 것을 볼 때 어떤 데이터로 모델을 학습시키는가가 더 핵심적인 부분이란 생각도 듭니다.
다른 KOBICian’s Story 보기

스티브 잡스가 세상을 떠났을 때, 유독 한국의 기업인이 많이 아쉬워했다는 글을 어디선가 본 일이 있습니다. 모델로 삼아야 할 사람이 사라졌다고. 실제로 누가 이런 말을 했는지 찾아달라고 챗GPT에게 물어 보았으나 명확한 근거를 제시하지는 못했습니다. 그러나 당시 기사를 찾아보니 한국 기업인들은 갑작스러운 그의 부재에 대하여 당혹감을 느꼈던 것은 사실인 것 같습니다.
Direct-To-Consumer(DTC, 소비자대상직접시행) 유전자 분석 산업을 선도해 왔던 미국의 23andMe가 지난달 파산 보호를 신청하며 자산 매각 절차에 착수했습니다. 이 회사를 모델로 하여 우리나라에서도 개인 유전체 정보 기반 산업의 발전을 위해 관련 규제 혁신을 외치던 저 역시 몹시 당혹스럽기는 마찬가지입니다.
우리나라에서는 유전자검사 업체가 갖추어야 할 자격 요건이 매우 까다롭습니다. 유전자검사는 개인 식별이나 질병 예방·진단·치료 등에 활용할 의학적 목적에 한해서 자격을 갖춘 업체만이 하는 것이 원칙입니다. 이러한 업체가 되기 위해서는 (재)한국유전자검사평가원의 평가를 받아야 하며, 반드시 의료기관을 통해서 검사를 의뢰해야 합니다.
이와 달리 DTC 유전자검사는 소비자가 직접 유전자검사를 신청하는 것을 말합니다. (재)국가생명윤리정책원의 설명에 따르면, 이는 질병에 미치는 유전적 연관성은 낮으나 유전체연구를 통해 쌓인 통계학적 결과에 근거하여 특정 유전형과 검사대상자의 영양, 생활습관 및 신체적 특징과의 관계, 즉 웰니스(wellness)에 대한 검사나 유전적 혈통 등을 알아보는 검사를 뜻합니다. DTC 유전자검사 역시 검사역량 평가 및 인증 제도를 통과한 기업이 각자 인증을 받은 항목에 대해서만 검사를 진행할 수 있습니다. 즉, 허용되는 검사 항목을 나열하는 이른바 ‘포지티브 목록’ 방식을 철저히 고수하고 있습니다. 이 글을 작성하는 2025년 4월 초 현재 205개의 항목이 허가되어 있습니다. 예를 들어 남성형 탈모의 경우 이원다이애그노믹스㈜ 등 15개 기업이 검사를 할 수 있지만, 피부 수분 함유량은 ㈜테라젠헬스만 가능합니다.
겨우 205개 항목(205개 유전자가 아님)에 대한 검사만 시행할 수 있다고 하니, 현재 고도로 발달한 유전체 지식을 충분히 활용하지 못하고 있습니다. 그러나 2022년 DTC 유전자검사 인증제도가 처음 시행되어 6개 기업이 통과했을 때(최대 70개 검사항목)와 비교하면 많이 개선된 것은 사실입니다. 새로운 항목을 추가하려면 이에 대한 근거를 제시해야 하고, 그 결과와 관련하여 맞춤형 건강기능식품 등을 제시하는 연계 서비스를 하려 해도 기능 향상 효과에 대한 과학적 근거를 제시해야 합니다.
우리나라에서 이처럼 DTC 유전자검사 서비스에 대해서 보수적인 것은 가이드라인에서도 밝혔듯이 유전형에 대한 정보가 개인의 형질을 결정하는 여러 요인 중 하나의 실마리에 불과하므로 소비자에게 잘못된 정보의 제공으로 인한 오도의 우려가 높아 신중한 관리가 필요하기 때문입니다. 하지만 의학적 목적의 검사와 웰니스 관련 검사가 과연 그렇게 명확하게 구분될 수 있을까요? 그리고 DTC 유전자검사 결과로 추천하려는 건강기능식품의 효과에 대해서는 거의 임상시험 수준의 근거를 요구하는 것 같습니다.
따라서 상대적으로 규제 수준이 낮은 미국의 사례에서 희망을 찾고 싶은 것은 너무나 당연합니다. 2006년 서비스를 시작한 23andMe는 의료기관을 통하지 않고도 유전자검사를 받을 수 있는 혁신적인 비즈니스 모델로 인기를 끌기 시작했습니다. 공동 설립자이자 최근까지 CEO였던 앤 워지츠키가 역시 구글의 공동 창업자인 세르게이 브린과 2007년에 결혼을 했고, 여기에 구글이 투자를 했다는 사실도 화제를 낳았습니다. 특히 ‘Spit Party’라고 하여 침 샘플을 받아서 보내면 이로부터 유전 정보를 분석하여 건강과 조상에 관한 정보를 알려주는 마케팅 이벤트를 펼치기도 했습니다. 이는 유전자 검사에 흥미라는 요소를 더하여 대중화하는데 기여한 사례입니다.
그러나 이 사업의 여정이 순탄하게 흘러가지는 않았습니다. 2013년 FDA는 23andMe가 제공하는 질병 관련 정보는 과학적 근거가 부족하고 소비자에게 잘못된 판단을 유도할 수 있다고 보아서 강력한 규제를 시작했습니다. 이에 대응하는 암흑기를 거치면서 23andMe는 족보나 조상 찾기 서비스에 집중을 하였습니다. 이민자의 사회인 미국에서 당신의 조상이 어디에서 왔는가는 늘 흥미의 대상이 될 수밖에 없습니다. 이를 통해 유전체 데이터베이스가 점점 축적되고, 2015년 FDA가 제한적 허가를 내리면서 일부 유전질환에 대해서 건강정보 제공을 재개하게 되면서 데이터 기반 헬스케어 기업으로 성장해 나가게 됩니다. 이 황금기를 일컬어 DTC 2.0이라고도 합니다. 2018년에는 DB 활용에 대해 글락소스미스클라인과 3억 달러 규모의 지분 투자 및 공동 연구 제휴를 체결할 정도였습니다. 그러나 우리는 여전히 웰니스 관련 항목만 허가를 하고 있으니, 미국 DTC 암흑기에서 너무 큰 영향을 받은 것 같습니다.
한때 약 50억 달러가 넘는 시가총액을 자랑하던 혁신적인 기업이 왜 파산의 위기를 맞았을까요? 가장 직접적인 원인은 2023년 10월에 발생한 해킹 사건으로 700만명이나 되는 고객의 개인정보가 유출되는 바람에 3천만 달러의 합의금을 지불하게 된 일일 것입니다. 그러나 아주 단순하게 바라보자면 투자금을 능가할 수 있는 지속적인 가치를 창출해 내지 못하면 기업은 존속하기 어렵습니다. 블록버스터 신약급에 해당하는 ‘큰 것’을 터뜨려야 한다는 부담감이 오히려 창의적인 발상에 방해가 되었다는 의견도 있고, 일부 암 질환을 제외하면 유전자는 평생 변하지 않으니 유전자 검사는 일회성에 그칠 수밖에 없고, 따라서 포화된 시장에서는 지속적으로 수익을 내기 어렵다는 견해도 있습니다.
23andMe가 새로운 사업모델을 가지고서 DTC 3.0의 르네상스를 열게 될지, 또는 이대로 역사의 뒤안길로 사라지게 될지는 아무도 모릅니다. 앤 워지츠키는 CEO에서 물러난 뒤 회사를 직접 인수하기 위해 입찰에 참여한다고 합니다. 만약 23andMe의 소유자가 바뀌게 되면, 보유 데이터에 대한 프라이버시 정책이 바뀔 수도 있어 우려를 자아내고 있습니다.
미국의 사례를 우리가 그대로 뒤따르게 되리라는 섣부른 예측도 금물이라고 생각합니다. 애플이라는 영광스런 이름 뒤로 사라져 간 수많은 IT 스타트업과 중견기업, 심지어 글로벌 대기업을 생각하면 마음이 무겁습니다. 하지만 앞서간 이들의 발자국을 꼭 되밟으며 가야만 한다는 법은 없습니다. ‘전례’가 우리의 상상력을 제한하지 않았으면 합니다. 이 복잡한 사건의 원인 분석하여 통찰력을 얻기에는 앞으로 더 많은 시간이 필요할 것입니다. 아무리 첨단 기술을 통해 사람들을 놀라게 하고 흥미로운 정보를 제공할 수 있다 하더라도 고객이 지갑을 더 열게 만들려면 실질적인 가치를 반드시 제공해야 합니다. 그러한 고민을 풀어 나가는 과정에서 KOBIC이 소중한 마중물 역할을 하여 국내 DTC 산업이 독자적인 모델을 찾아서 발전해 나가는데 기여할 수 있다면 더 이상 바랄 것이 없겠습니다.
- 작성자정해영
- 작성일2025-04-21
- 조회수100
.jpg)
요즘 챗GPT를 이용하여 개인 프로필 사진이나 가족 사진을 스튜디오 지브리 또는 픽사의 애니메이션 스타일로 바꾸어 보지 않은 사람은 거의 없을 것입니다. 지난 3월 하순 공개된 챗GPT-4o의 새로운 이미지 생성 기능을 이용하려고 전 세계에서 밀려드는 요청 때문에 오픈AI의 샘 올트만이 ‘GPU가 녹고 있다’고 즐거운 비명을 지르듯, AI 기술 또한 작년 노벨상 수상을 통해 확인된 과학적 성과에 이어서 일반인에게도 즐거움을 선사하면서 화제를 모으고 있습니다. 사회는 새로운 기술이 등장하면 늘 기대감과 실망으로부터 시작하여 이를 이해하고 옹호하는 사람이 점차 많아지다가 급기야 일상적 활용이라는 단계를 순차적으로 거쳐 왔습니다. 이와 관련한 주요 ‘사건’이 일어날 때 AI와 관련된 회사의 주가가 요동치고, 미디어나 언론에서는 AI 관련 광고 및 보도가 쏟아지는 것은 AI가 우리 기대에 부응하고 있다는 뜻이 아닐까요? 이제 전환점을 맞고 있는 AI 기술은 산업 전반에 걸쳐 적용 사례가 급증하고 있으며, 생명과학 분야 또한 예외가 아닙니다.
과학기술정보통신부와 한국생명공학연구원이 발표한 ‘2025년 10대 생명과학 미래유망기술’ 중, 편집/리프로그래밍(Edit) 분야의 대표 사례로 'AI 기반 유전자 편집기' 기술이 포함되었습니다. 희귀 유전질환으로 고통받는 환자들에게 유전자 편집 기술은 더 이상 미래의 과학이 아닙니다. 특히 AI가 설계한 유전자 편집기는 정밀의료의 패러다임을 바꾸며, 의료기술의 진화 속도를 급격히 앞당기고 있습니다. 이 기술은 AI가 방대한 유전체 데이터를 학습하여 특정 유전 질환에 적합한 유전자 편집 전략을 스스로 설계한다는 점에서 혁신적입니다. 기존 유전자 편집 기술은 CRISPR-Cas9 이후 빠르게 발전했지만, 비의도적 변이(off-target), 정확도 부족, 설계 복잡성 등의 문제를 여전히 안고 있으며, 이 한계를 극복하기 위해 AI가 활용되고 있습니다.
AI는 다양한 유전자 정보를 학습하여 특정 질환에 최적화된 가이드 RNA(gRNA)를 자동으로 설계하고, 비의도적 변이 위험까지 예측하는 기능을 갖추었습니다. 기존에는 수작업으로 며칠씩 걸리던 편집 설계가, AI 기반으로는 수 시간 내에 완료됩니다. 이는 유전자 치료제 개발의 속도와 정밀도를 동시에 끌어올리는 요인이 되었습니다. 실제로 연구자들은 ‘OpenCRISPR-1’이나 ‘CRISPR AI’와 같은 AI 기반 공개형 서비스를 활용해 실험 설계와 편집 효율을 높이고 있으며, 미국 바이오기업인 Beam Therapeutics와 CRISPR Therapeutics는 이를 바탕으로 유전자 설계 플랫폼을 사업화해 효율을 극대화하고 있습니다. 국내 바이오 벤처들도 이러한 기술 흐름에 적극적으로 합류하고 있습니다.
정부 역시 이러한 기술 혁신을 뒷받침하기 위한 정책 마련에 박차를 가하고 있습니다. 과학기술정보통신부는 '첨단바이오 이니셔티브'(2024.04.)를 통해 AI 기반 유전자·신약 개발 플랫폼 구축을 추진 중이며, 보건복지부와 함께 ‘범부처 재생의료기술개발사업’(2021~2030)을 통해 유전자 치료 기술의 전주기적 지원 체계를 강화하고 있습니다.
이와 함께, 한국생명공학연구원은 국가생명연구자원정보센터(KOBIC)를 중심으로 한 바이오 연구데이터의 통합 수집·제공 체계를 정비하고 있습니다. KOBIC은 고품질의 유전체, 전사체, 단백체 데이터를 기반으로 연구자들에게 데이터 기반 분석 환경을 제공 및 바이오 데이터를 전처리·표준화·구조화함으로써 다양한 AI 알고리즘에 적용할 수 있도록 지원할 예정입니다. 예컨대, 딥러닝(CNN, RNN)을 활용한 유전자 기능 부위 예측, 생성형 AI(LLM) 기반의 염기서열 생성, 혹은 유전자 편집 도구의 자동 설계 등에서 이러한 데이터는 핵심 자원으로 활용됩니다. 나아가, KOBIC은 AI 학습과 의료 응용을 연결하는 데이터-기술 연계 생태계의 중심축, 즉 AI 기반 정밀의료의 허브 플랫폼으로서의 역할을 수행할 것으로 기대합니다.
그러나 기술 발전에는 윤리적 문제를 반드시 고려해야 합니다. 특히 생식세포 수준의 유전자 편집은 '인간 개량' 논란이라는 민감한 문제와 연결됩니다. 따라서 ① 의료 목적에 한정된 제한적 사용, ② 투명성과 책임성을 확보할 수 있는 공공 감시 체계, ③ 국제적 윤리 기준 정립 및 협력 체계 구축이 반드시 수반되어야 합니다. 기술의 효율성만큼이나 윤리적 정당성 확보가 병행되지 않으면 사회 구성원이 폭넓게 받아들이기 어렵습니다.
이러한 상황에서 대한민국이 글로벌 기술 리더십을 확보하려면 몇 가지 핵심 과제를 병행해야 합니다. 첫째, R&D 투자의 확장은 물론, 데이터 큐레이션·분석·AI 알고리즘 개발까지 아우르는 융합형 실전 인재 양성이 절실합니다. 둘째, 산업계와 연구계가 공동 활용할 수 있도록 데이터 인프라를 고도화하고, 표준화된 공유 생태계를 조성해야 합니다. 셋째, 국민적 수용성과 사회적 공감대를 확보하기 위한 교육과 과학 소통이 선행되어야 합니다. 여기에 더해, 기술 발전 속도를 따라잡을 수 있는 개방적이고 미래지향적인 규제 및 정책 체계 마련도 필수적입니다. 이는 혁신을 억제하지 않으면서도 안전성과 신뢰를 확보하는 균형 전략으로 기능해야 합니다.
결론적으로 AI 기반 유전자 편집기는 단순한 기술적 진보를 넘어 정밀의료, 맞춤형 치료, 차세대 신약 개발을 통합하는 미래의료의 핵심 플랫폼으로 진화하게 될 것입니다. 상용화 과정에서 기술 안전성, 비용 문제, 인프라 구축 등의 현실 과제가 남아 있지만, 이를 전략적으로 극복해 나간다면 유전자 질환에 대한 근본적 치료가 가능한 시대가 도래할 것입니다. 정부, 연구기관, 산업계가 공동의 전략과 비전을 공유하고 긴밀히 협력할 때, 이 기술은 인류의 건강 증진과 생명과학 혁신을 견인하는 동력으로 작용할 것입니다.
- 작성자박성진
- 작성일2025-04-10
- 조회수155

최근 유전체 분석 기술과 빅데이터 처리 인공지능(AI) 기술이 급속히 발전하면서, 전 세계적으로 국가 단위의 대규모 유전체 프로젝트가 활발히 진행되고 있습니다. 예를 들어 영국의 UK Biobank 프로젝트와 미국의 All of Us 프로젝트는 국가 차원의 사업을 통해 방대한 양의 유전체 데이터와 임상 정보 및 시료를 확보하고 있습니다. 이와 같은 글로벌 연구 흐름에 동참하기 위해 우리나라에서 추진 중인 ‘국가 통합 바이오 빅데이터 구축 사업’에서는 한국생명공학연구원 국가생명연구자원정보센터(KOBIC)가 대규모 유전체 및 오믹스 정보 생산 및 분석을 담당하고 있습니다.
이러한 대규모 유전체 프로젝트의 궁극적인 목표는 개인의 유전체 정보를 바탕으로 질병의 발생 원인을 규명하고, 개인별 맞춤형 진단과 치료를 가능하게 하는 것입니다. 이를 위해 많은 연구기관에서 다양한 방식의 유전체 분석 연구가 진행되고 있으며, 실질적인 성과를 이루어가고 있습니다. 그러나 유전체 분석 과정에서 발생할 수 있는 여러 가지 기술적 변수들도 존재하고 있으며, 연구의 신뢰성을 높이기 위해 이러한 변수들을 효과적으로 관리하고 극복하는 지속적인 노력이 요구됩니다.
이 중에서 대규모 유전체 분석의 신뢰성 확보를 위해 중요하게 고려해야 할 기술적 요인 중 하나로 ‘배치 효과(batch effect)’가 있습니다.
배치 효과란 실험 과정에서 기술적 변수들로 인해 데이터 편차가 발생하는 현상을 의미합니다. 이는 동일한 연구 프로젝트 내에서도 서로 다른 시기에 수집되거나 다른 시퀀싱 플랫폼으로 생산한 샘플 간에도 나타날 수 있습니다.
특히 장기간 진행되는 대규모 프로젝트에서는 시퀀싱 기술의 발전이나 실험 조건의 변화 등이 불가피하게 발생하기 때문에 데이터 생산 시기에 따라 기술적 편차가 나타나는 것은 자연스러운 현상입니다. 예를 들어 과거에는 Illumina HiSeq 등 특정 시퀀싱 플랫폼이 주로 사용되었으나 최근 들어 NovaSeq 시리즈와 같은 보다 진보된 플랫폼이 널리 사용되고 있습니다. 또한 같은 플랫폼이라도 시약이나 분석 방법이 개선될 수 있기 때문에 기술적 편차는 지속적으로 발생할 가능성이 있습니다.
이러한 배치 효과는 단순한 기술적 차이로 보일 수 있지만, 실제 분석에서는 중요한 결과 왜곡의 원인이 될 수도 있습니다. 특히 환자군과 정상 대조군 사이의 유전적 변이를 비교하는 질병 관련 연구에서는 배치 효과로 인한 기술적 차이가 마치 질병과 연관된 유전적 요인으로 잘못 인식되어 거짓 양성(false positive) 결과를 초래할 수 있습니다. 이는 후속 연구와 임상 적용 단계에서 연구 결과의 신뢰성을 저하시키는 원인이 될 수 있어, 배치 효과를 정확하게 탐지하고 보정하는 과정이 필수적으로 요구됩니다.
국내에서 진행한 대규모 게놈 프로젝트(1만명 급)에서 배치 효과의 중요성을 보여준 사례가 있습니다. 이 프로젝트에서는 한국인의 집단 특성상 유전적 동질성(homogeneity)이 높아 작은 기술적 편차가 분석 결과에 비교적 뚜렷하게 나타났습니다. 분석 과정에서는 기존의 일반적인 배치 효과 보정 방법을 적용했으나 완전한 보정이 어려웠고, 추가적으로 대립유전자 균형 편향(allele balance bias)와 같은 품질 지표를 활용해 배치 효과를 더 세부적으로 탐지하고 보정하여 결과의 신뢰성을 높일 수 있었습니다. 물론 이 방법은 한 사례에서 효과적이었으나, 다른 연구에서는 다양한 추가적인 기술적 접근법이 필요할 수 있습니다.
이러한 사례를 통해 대규모 유전체 분석에서 배치 효과 보정은 연구자가 필수적으로 고려해야 하는 중요한 요소 중 하나임을 알 수 있습니다. 그러나 배치 효과가 유전체 분석의 유일하거나 가장 중요한 이슈라는 의미는 아니며, 데이터 품질, 샘플링의 정확성, 인구학적 특성 등 여러 요소와 함께 통합적으로 고려해야 합니다. 장기간 진행되는 국가 규모의 대규모 프로젝트에서는 이러한 기술적 이슈들을 관리할 수 있는 접근법을 지속적으로 개발하는 것이 매우 중요합니다.
결론적으로, 배치 효과를 비롯한 다양한 기술적 변수들에 대한 연구자들의 지속적인 관심과 해결 노력이 있을 때, 대규모 유전체 프로젝트는 더욱 신뢰성 있는 데이터를 확보하고, 이를 기반으로 궁극적인 목표인 정밀의료 및 개인 맞춤형 의료를 성공적으로 실현할 수 있을 것입니다. 앞으로도 이러한 기술적 고려사항들을 효과적으로 관리하기 위한 연구가 지속적으로 필요할 것입니다.
- 작성자전연수
- 작성일2025-04-06
- 조회수255