RNA-Seq 방법을 활용한 유전자 집합 분석 문제 해결
RNA-Seq 방법을 활용한 유전자 집합 분석 문제 해결
  • 김남근 기자
  • 승인 2013.12.02 08:21
  • 댓글 0
이 기사를 공유합니다

[이슈메이커=김남근 기자]

[Leading Researcher] 명지대학교 수학과 양태영 교수

 


 

RNA-Seq 방법을 활용한 유전자 집합 분석 문제 해결

 

통계학의 새로운 패러다임 제시

 

지난 2007년 이후 *‘차세대 염기서열분석(Next Generation Sequencing, NGS)’ 기술의 발전과 더불어 시퀀싱(Sequencing)을 기반으로 하는 많은 연구가 비약적으로 발전, 증가하였다. NGS 기술은 정착단계를 거쳐 유전체, 전사체, 후성 유전체 등의 다양한 분야로 확대되었으며 많은 연구 성과가 발표되고 있다. NGS 기술의 발달에 힘입어 대용량 염기서열 정보가 전통적인 방법들에 비해 더욱 쉽고 저렴한 비용으로 분석할 수 있게 되었지만, 여전히 정확하게 전체 DNA 염기서열 정보를 파악하기 어려운 것이 현실이다. 따라서 앞으로 NGS 기술은 유전체와 후생유전체를 포함하여 많은 분야에서 활용될 것이지만 데이터의 복잡성으로 인해 소수의 생물정보학 분야의 전문가만이 다룰 수 있다. 이에 NGS 기술을 제대로 활용하고 분석할 수 있는 연구체제의 구축이 중요한 시점이다.

 

 

 


지난 10월 24일, 미국 인간유전학회(ASHG: American Society of Human Genetics)에서 뜨거운 논란이 되었던 할리우드 여배우 안젤리나 졸리의 유방절제 사건은 BRCA1(17번 염색체 장완)과 BRCA2(13번 염색체 장완) 유전자에 대한 돌연변이가 있다고 판단되어 유방암이 발병하기도 전에 예방 차원에서 절제술을 시행해 큰 화제가 됐다. 이는 유방암에 걸리지도 않은 그녀가 가족력과 유전자 검사를 통해 돌연변이 유전자를 보유하고 있다는 사실만으로 유방절제술을 선택해 많은 이들은 놀라움을 감추지 못했다. 이와 같은 현상은 *마이크로어레이(microarray) 기술을 이용해 인체에 활동하고 있는 유전자를 조사하여 수백만 개의 데이터를 분석한 통계 수치를 활용한 결과이다.
  마이크로어레이(microarray)는 한 번의 실험으로 전체 유전자의 약 20% 정도만 분석할 수 있지만, 최근 주목받고 있는 유전자 분석도구인 ‘차세대 염기서열 분석(NGS)’ 기술은 전체 유전자를 한 번의 실험으로 분석할 수 있다는 큰 장점을 가지고 있다. 게다가 2011년 중반을 기준으로 약 4,000달러의 비용만 지급하면 개인의 30억 염기서열을 분석해주는 회사들이 많아졌고, 현재는 1,000달러 정도면 가능해졌다. 이렇게 개인 유전체 데이터를 얻는 비용은 낮아졌지만, 아직 NGS 데이터 분석 기술은 재현성과 정확성 면에서 해결해야 할 과제가 많이 남아있다.
이와 같은 문제에 대한 근본적인 해결책을 제시하고자 NGS분야 중에서 *RNA-Seq (RNA-염기서열해독기법) 방법을 활용해 다양한 연구를 진행하고 있는 명지대학교 수학과의 양태영 교수는, 현재 2011년부터 한국연구재단 중견연구자지원사업 핵심연구의 지원을 받아 ‘유전자집합 분석을 위한 다양한 통계기법 개발’을 주제로 연구를 펼치고 있다. 이번 연구는 특정 질병에 관여하는 유전자를 찾는 통계적 도구, 여러 유전자가 동시에 관여하는 유전자 집합을 규명할 수 있는 방법, RNA-Seq의 정확성을 높이기 위해 데이터를 정규화 하는 통계적 기법을 개발하기 위한 다양한 연구로 유전자 집합을 분석하는 문제를 해결하는데 실마리를 제공하고 있다.

 

 

FDRSeq 방법 개발로 진화된 유전자 집합 분석방법 등을 제시
양태영 교수는 RNA-Seq 데이터로부터 특정 질병에 관여하는 유전자를 찾는 통계적인 방법의 개발과 RNA-Seq 데이터의 정규화를 목표로 설정해 연구를 진행하고 있다. RNA-Seq 데이터의 특징 중 하나로 유전자의 길이가 길수록 발현 수치가 크게 나오는 경향이 있는데, 이것은 이 유전자가 특정 질병에 관여하고 있다고 판명될 가능성이 높다는 것을 의미한다. 그러나 생물학적으로 유전자 길이와 질병과는 관계가 없기 때문에 이 같은 특징을 배제(排除)하면서 기존의 방법보다 더욱 정확하게 질병 관련 유전자를 찾는 방법을 연구하고 있다. 그리고 RNA-Seq는 여러 번의 반복실험을 할 경우나 다른 조건을 적용하여 실험하는 경우 실험 결과가 다양하게 나타난다. 이러한 RNA-Seq 데이터의 불안정함 때문에 적절한 정규화를 통해 데이터를 안정한 상태로 만들 필요가 있다. 현재 가장 널리 사용되고 있는 정규화 방법인 *RPKM(Read Per Kilobase per million reads) 역시 위와 같은 특징을 완벽히 제어하지 못하기 때문에 알맞은 정규화 방법을 통해 데이터를 안정화하는 기법을 찾는 연구를 지향하고 있다.
  양 교수는 “분석의 정확성을 확인하기 위해서 NGS 이전의 실험방법인 마이크로어레이(microarray) 방법과 비교하여 분석한 결과, 현재까지 알려진 방법들에 비해 저희가 이번 연구를 통해 개발한 *FDRSeq 방법이 발현 유전자 집합을 기존 방법들 보다 정확하게 찾아낼 수 있음을 발견했습니다”라며 “이번 연구 결과를 최근 Evolutionary Bioinformatics에 게재했으며, 지난 2년간의 연구결과를 세계적인 학술지인 Statistics in Medicine과 BMC Bioinformatics에 단독으로 게재해 유전자 집합을 분석하는 문제를 해결하는데 미약하지만 기여를 했다고 생각합니다”라고 말하며 이번 연구에 대한 자부심을 내보였다.

 

 

 

통계학에서 한 획(劃)을 긋는 연구 진행
90년대 이전에는 주로 각각의 유전자만을 대상으로 실험과 연구를 진행했었던 양 교수는 90년대 중후반, 단 한 번의 실험으로 수만 개의 유전자 발현정보(유전자가 특정 질병에 작용하는지에 대한 정보)를 동시에 측정할 수 있는 마이크로어레이(microarray) 방법의 개발로 수많은 유전자 사이의 상호작용과 네트워크의 중요성을 깨닫게 된다. 비슷한 시기에 진행된 ‘인간 게놈 프로젝트’(Human Genome Project, 1990~2003년)와 최근 주목받고 있는 ‘차세대 염기서열 분석'(NGS) 기술의 발달로 인해 그의 연구 방향도 시류(時流)에 맞춰 변화되고 있다. 그동안 통계학의 큰 패러다임(paradigm)은 미국과 영국을 중심으로 변화하고 있고 앞으로도 다르지 않을 것이라는 전망이다. 하지만 양 교수는 앞으로 우리나라에서 이러한 현상을 타개할 역량 있는 세계적인 연구자가 나올 것이라 기대한다. 양 교수는 “통계학의 큰 패러다임은 적어도 10년 주기로 변화되고 있습니다. 저 역시 이러한 세계적인 추세에 발맞춰 통계학이라는 커다란 틀 속에서 함께 연구하고 발전하기 위한 좋은 연구를 진행하고자 합니다. 많은 양의 연구보다는 한 분야에서 획(劃)을 그을 수 있는 연구를 진행해 우리나라 통계학의 수준을 선진국의 반열에 올려놓는데 일조(一助)하고자 합니다”라며 자신의 연구에 대한 자부심과 확고한 목표의식을 내비쳤다.
  자신의 적성에 맞는 일을 찾아 ‘한우물만 파라’라는 소신(所信)을 바탕으로 학문에 매진한다면 반드시 좋은 연구 결과로 자신의 목표를 달성할 수 있을 것이라 말하는 양태영 교수. 그의 이 같은 노력과 성실함의 자세가 통계학의 바람직한 발전에 밑거름이 되어 우리나라가 세계의 통계학을 주도하게 되는 미래의 청사진을 그려본다. 

 

 * 차세대 시퀀싱(Next Generation Sequencing, NGS) - 기존의 DNA 염기서열 분석 방법보다 한층 진일보한 방법으로 대용량 염기서열 정보를 훨씬 저렴하고 쉽게 분석할 수 있다. 의학계는 이 기술 발달과 일반화를 통해 개인 유전체 정보를 알 수 있다면 맞춤치료에 한층 더 가까이 다가설 수 있을 것으로 기대

 

 * 마이크로어레이 (microarray) - 슬라이드글라스에 서로 다른 DNA를 고밀도로 집적시켜 유전자들이 어떻게 상호 작용을 하는지를 밝히는 연구방법

 

 * RNA-Seq - 인간 유전자 전부를 한 번에 분석 할 수 있는 새로운 유전자 분석 기법

 

 * RPKM(Read Per Kilobase per million reads) - 유전자 발현 수준을 정량화하는데 사용되는 단위로, 유전자 길이의 영향을 제거하는 데 사용하는 방법

 

 * FDR-Seq - RNA-Seq자료 분석을 위해 R-프로그램 언어로 만들어진 통계 알고리듬 


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.

  • 서울특별시 영등포구 국제금융로8길 11, 321호 (여의도동, 대영빌딩)
  • 대표전화 : 02-782-8848 / 02-2276-1141
  • 팩스 : 02-2276-1116
  • 청소년보호책임자 : 손보승
  • 법인명 : 이슈메이커
  • 제호 : 이슈메이커
  • 간별 : 주간
  • 등록번호 : 서울 다 10611
  • 등록일 : 2011-07-07
  • 발행일 : 2011-09-27
  • 발행인 : 이종철
  • 편집인 : 이종철
  • 인쇄인 : 신진민
  • 이슈메이커 모든 콘텐츠(영상,기사, 사진)는 저작권법의 보호를 받은바, 무단 전재와 복사, 배포 등을 금합니다.
  • Copyright © 2020 이슈메이커. All rights reserved. mail to webmaster@ndsoft.co.kr
ND소프트