Korean Society for Biotechnology and Bioengineering Journal 2023; 38(2): 100-111
Published online June 30, 2023 https://doi.org/10.7841/ksbbj.2023.38.2.100
Copyright © Korean Society for Biotechnology and Bioengineering.
Gi-Hye Park, Su-Kyoung Yoo, and Geun-Joong Kim*
Department of Biological Sciences and Research Center of Ecomimetics, College of Natural Science, Chonnam National University, Gwangju 61186, Korea
Correspondence to:Tel: +82-62-530-3403, Fax: 82-62-530-3409
E-mail: gjkim@chonnam.ac.kr
Plasmid-based expression vectors, the most useful genetic tool in recombinant DNA technology, carry the foreign gene into the cell, and keep it stable, thereby enabling its expression within cells. These vectors typically have a replication origin, selection marker, and promoter as main genetic parts. Each of them enables chromosome-independent replication within cells, exerts pressure for the selection of recombinant cells, and controls the expression of carried foreign genes. Many studies have reported to design and improve vectors by using the targeted replacement and/or mutagenesis to the aforementioned major parts and spanning sequence. Despite the consistent reports on expression vectors with new functions, such approach has some constraints of using unstandardized genetic parts limited in functional sequence space. As an alternative, synthetic biology provides a foundation for tailor-made expression systems by rational design and modification via assembling various modular parts. Nevertheless, due to the limited number of modular parts and the lack of diversity of vector scaffold that offer the basis for assembly of these components, it falls short of constructing the expression systems feasible to graft into getting more useful expression system. This review will give a brief overview of the three major components and current status of vector design for expression of foreign genes, and then discuss the prospect of developing expression systems based on the systematic approaches, consequently expecting to understood the new platform for construction and improvement on target-oriented expression vectors via assembly of functional modules and scaffolds.
Keywords: expression vector, systems biology, parts and modules, synthetic biology
유전자 재조합 기술은 외래 유전자를 특정 숙주로 도입함으로써 새로운 기능을 제공하거나, 내/외인성 인자의 발현을 조절함으로써 특성을 개량하는 목적으로 사용되어 진다. 이는 다양한 호르몬과 성장인자, 사이토카인을 포함한 의약품의 제조와 질병예방을 위한 백신개발에 기여하였고, 다양한 질환의 진단기반도 제공하였다 [1,2]. 농/축산/양식업에서도 활용되어 병원균이나 제초제에 저항성이 높은 작물을 개발하였고, 수확기간 단축과 장기보존, 생산량 증대를 위한 유전자 변형 생물체 (genetically modified organisms, GMO)를 제작하는데도 이용된다 [3,4]. 생물자원을 이용한 재생 가능한 에너지원 (바이오디젤, 에탄올, 수소 등) 생산에도 적용되어 화석연료 사용으로 인한 온실가스 배출문제의 대안으로 각광받고 있으며 [5,6], 콜라겐이나 플라스틱 등, 친환경 바이오소재의 개발에도 기여하고 있다 [7,8]. 따라서 유전자 재조합 기술은 환경보호와 지속가능한 인류의 생존에 핵심적인 역할을 담당하고 있다 [9,10].
유전자 재조합 기술 응용의 대표적인 분야는 이종숙주를 이용한 재조합단백질의 생산이다. 이때 표적이 되는 유전자의 선정과 도입, 그리고 최적의 발현유도를 위한 적절한 숙주와 벡터의 조합이 선행적으로 고려된다. 관련 기술의 진보로 인해 많은 생물종을 숙주로 이용할 수 있지만, 유전자 조작이 쉽고, 배양 조건이 까다롭지 않아 저비용으로 재조합 단백질의 과생산이 가능한 대장균 (
발현벡터 제작에 흔히 사용되는 골격은 자연적으로 발견된 미생물 유래의 plasmid이다. Plasmid의 존재에 대한 유전적 증거는 J. Lederberg와 W. Hayes의 실험에 의해 처음으로 발견되었으며, 이를 통해 대장균 접합을 위해 필요한 plasmid F factor가 확인되었다 [15,16]. 1950년대 초반 Joshua Ledberg에 의해 염색체와 독립적으로 존재하는 DNA 분자를 뜻하는 의미로서 plasmid라는 용어가 사용되기 시작하였으며 [17], 이후에 항생제 내성과 관련된 R factor 외에도 Fprime과 Col plasmid 등이 발견되었다. 이를 시작으로 자발적 복제나 이동성, 불호환성, 숙주 허용범위와 같은 plasmid의 특성에 대한 연구들이 진행되었다 [18]. Plasmid는 원핵은 물론 일부 진핵미생물에서도 발견되며, 세포가 생존하는데 필수적이진 않지만 특정한 환경에 적응하는데 이점을 제공할 수 있다. 항생제 노출환경에서 내성을 부여하거나, 일반적으로 대사가 어려운 물질에 대한 분해능력을 제공할 수 있으며, 독소를 생산하는 기능 등이 그 예이다 [19]. 1973년 Cohen이 이종 숙주 간의 plasmid 도입과 이를 통해 선택기능 (항생제저항성)이 제공될 수 있음을 확인하면서, DNA 클로닝을 위한 중요한 유전도구, 즉 벡터로서 본격적으로 사용되기 시작하였다 [20]. 자연적으로 발견되는 plasmid는 전형적인 부품(구성요소)으로 복제개시점 (replication origin)과 일부 안정성 인자와 분배인자 (partitioning factor)를 지니고 있다. 이러한 골격에 선택마커와 multiple cloning site를 추가하고, 전사와 번역을 위한 프로모터 (promoter), 작동부위 (operator), 리보솜 결합부위 (ribosome binding site, RBS), 종결인자(terminator) 등이 도입되면 발현벡터의 지위를 얻게 된다 [21]. 초기에 개발된 대표적인 벡터에는 pACYC184, pBR322, pUC19 등이 있고, 이후에도 pET (Novagen), pGEX (GE Healthcare Life Science), pBAD (Invitrogen), pMAL (NEB), pQE (Qiagen) series 등 다양한 벡터들이 개발되어 주로 단백질 발현 및 정제에 유용하게 사용되고 있다.
상기 방법과 개선된 전략들을 이용해 많은 발현벡터들이 제작되고 있지만 (Table 1) [22-37], 단백질 발현과정의 근본적인 특성, 즉 숙주마다 다른 codon usage, 접힘과정과 효율, 그리고 번역 후 변형 (post-translational modification, PTM) 등을 포함해 본질적인 단백질 자체의 특성 (innate properties)에 의한 안정성 문제로 인해 발현 결과물의 정상적인 구조형성, 높은 가용성 또는 활성을 담보하지 못한다 [11]. 이러한 한계를 극복하는 전형적인 방법으로, 유전자의 암호화 서열을 포함해 전사되는 주변서열의 변이를 유도하는 방법들이 있다 [38]. 또한 샤페론 (chaperone)단백질과 동시 발현시켜 접힘을 도와주거나, 특정 protease의 발현이 결핍되거나 희귀코돈 (rare codon)에 해당하는 tRNA를 과생산할 수 있는 숙주를 선택적으로 사용함으로써 발현 증가와 안정성, 그리고 가용성 개선이 보고되고 있다 [39]. 이중 유전자 암호화 서열에 기반한 접근법은 목적하는 유전자에 따라 변이유도에 의한 새로운 최적화 과정을 필요로 하기에, 의약용 단백질과 같이 고유의 서열이나 특성을 유지해야 하는 단백질 발현에는 적용하기 어렵다. 따라서 표적유전자의 서열 변화없이 발현을 개선할 수 있는 전략이 필요하다 [40,41]. 이러한 목적달성이 중요부품이나 그 주변서열을 다변화하는 것만으로도 가능한지는 단언할 수 없다. 하지만 최근의 많은 연구결과들은 변이 (random mutagenesis나 DNA shuffling)를 유전자자체에 도입하지 않더라도 cis-acting 인자, 즉 DNA 부품이 제공하는 부가적인 기능에 의해 조율이 가능할 수 있음이 알려지고 있다. mRNA 분자의 비번역부위 (untranslated regions, UTR)인 5’-과 3’-UTR에는 다양한 구조나 서열을 지닌 조절인자들이 존재하며, 내부서열이나 외부인자와의 상호작용 뿐만 아니라 mRNA의 안정성, 그리고 번역개시와 속도조절에도 관여하는 것으로 알려져 있다 [42]. 따라서 해당 부위의 변이는 유전자의 발현을 제어하는데 중요한 역할을 할 수 있다. 대표적인 예로 외래 유전자가 도입되는 프로모터 주변 서열의 다변화에 의해 제공(유도)되는 전사속도/번역속도 조절과 tRNA의 recruiting 능력의 부여만으로 난발현 단백질의 가용성 고발현이 유도되는 특성을 보여주며 [43], 아미노산 변이가 없는 단일염기다형성 (single nucleotide polymorphism, SNP)도 질환과 관련이 있다는 사실에 주목할 필요가 있다 [44]. 이는 프로모터 영역에 위치한 SNP는 프로 모터의 세기, 전사속도에 영향을 줄 수 있으며 [45,46], UTR 영역에 위치한 SNP는 cis-acting 인자의 변화로 인해 mRNA의 안정성, 2차 구조와 번역속도의 변화 외에도 조기종결을 유도할 수 있다는 결과로부터 [47], 아미노산 변이가 없더라도 전사체의 구조나 안정성, 그리고 동의코돈간의 번역속도 차이가 유발될 수 있음을 예측할 수 있기 때문이다. 따라서 모듈화된 중요부품과 그 주변서열의 변화만으로 근본적인 발현문제와 생리적 QC 문제를 해결할 수도 있다는 가정을 할 수 있다. 본 총설에서는 발현벡터 개량의 표적이 되는 각 부품과 이를 이용한 개발 현황에 대해서 정리하고, 시스템/합성 생물학에 기반한 새로운 접근법을 소개함으로써 향후 발현벡터 개발 전망을 이야기하고자 한다.
Table 1 Genetic parts and traits of recently developed expression vectors
Vector | Replication origin | Promoter | Selection marker | Characteristics | Reference |
---|---|---|---|---|---|
pIGDMCT7RS | ColE1-like | T7 | tRNAArg gene | ||
pIGDM4RS | ColE1-like | T7 | Originated from pIGDMCT7RS | [22] | |
pIGDMKAN | ColE1-like | T1/T2 transcription terminators | |||
pAR-KanI | Mutated pMB1 | T7 | [23] | ||
pJJ2 | pMB1 | Evolved promoter | pelB signal sequence and 6x His tag | [24] | |
pBS2ndd | Mutated pMB1 | Lethal | [25] | ||
pLY-4 | Mutated pMB1 | Derived from pXMJ19 with auxotrophic complementation marker ( | [26] | ||
pPHB01-1 | Mutated pMB1 | [27] | |||
pCADsod | pMB1 | Auto-inducible promoter | [28] | ||
pReX | pMB1 | T7 | T7 lysozyme under the control of rhamnose promoter | [29] | |
pJPC13 | Mutated pSC101 | High copy number mutated origin | [30] | ||
pUCNrS | Mutated pMB1 | synthetic | Strong synthetic promoter | [31] | |
pNB1 | pMB1 | Cumate-inducible system | [32] | ||
pRCEMT | pMB1 | CEM | Metagenome derived promoter | [33] | |
pHsh | Mutated pMB1 | Hsh | Promoter and terminator for heat-shock induction | [34] | |
pZJU31 | Mutated pMB1 | QAPRTase | QAPRTase based auxotrophic complementation | [35] | |
pEC | pEIB1 | PBAD | pEIB1 replicon of | [36] | |
pCR2-Plac-GFP | pCR2 | pCR2 replicon of | [37] |
발현벡터는 전형적 유전적 구성 (genetic organization)에 필요한 주요 부품 (genetic parts)에 의해 조절되며, 이 중 몇 개의 부품들은 선택기준을 제공하는 것으로 알려져 있다 (Fig. 1)[48]. 발현벡터 부품으로서 복제개시점, 프로모터, 선택마커는 도입된 벡터의 복제 수와 전사효율을 결정하고, 안정적인 유지를 가능하게 한다. 이러한 인자들을 변형과 (재)설계는 발현 기능을 개선하기 위한 가장 중요한 출발점으로 작용한다.
자연적으로 발견된 plasmid를 모태로 하는 발현벡터는 복제개시점과 숙주의 복제기구를 사용해 염색체와 독립적으로 복제를 한다. 각 세포 주기 당 한번이상의 복제가 일어난 후, 딸세포로 적절히 분배 (partitioning)가 이루어져야 안정적인 유지가 가능하다. 일반적으로 원핵생물 유래의 것을 이용하며 전형적인 복제개시점 oriC와 유사한 서열을 보이는 특성으로 인해, 발현벡터 복제개시점마다 서열상의 차이는 존재하지만 높은 유사성을 확인할 수 있다. 하지만 이러한 차이로 인해 복제 수, 구조 및 분배 안정성, 호환성 (compatibility) 결정에 기능적인 차이가 있는 것으로 알려져 있다. 이러한 기능 결과물의 하나인 세포 내 벡터 숫자인 ‘복제 수 (copy number)’는 유전자 용량을 결정하는 중요한 요인으로 작용한다 [49]. 벡터는 낮은 복제 수 (1-10 copies)부터 중간 (10-20 copies), 그리고 높은 복제 수 (~700 copies)에 이르기까지 다양하게 분포하며 [50], 이에 따라 안정성, 숙주의 대사적 스트레스, 단백질의 발현효율이 조절될 수 있다. 이러한 특성들은 상호보상적 (compensation)이거나 혹은 보완적일 수 있다. 예를 들어, 복제수의 증가는 유전자 용량의 증가로 인해 재조합 단백질의 생성을 일시적으로 증가시킬 수 있지만, 세포의 성장을 낮추고 대사적 스트레스를 유발하여 결국에는 생산성 감소의 원인도 된다. 반면 낮은 복제 수를 갖는 벡터는 안정적인 복제가 가능하며 독성을 나타내는 유전자의 발현에는 유리하지만, 발현양이 일반적으로 적다. 따라서 복제 개시점의 변형을 통해 복제 수를 적절하게 조절하려는 노력들이 꾸준히 진행중이다. Mayer 등은 pBluescript를 골격으로 다른 복제개시점을 가진 다양한 plasmid를 제작하였다[51]. 복제개시점인 p15A ori를 갖는 pACYC177, pMB1 ori를 갖는 pBR322를 포함해 다양한 벡터의 제한효소 처리를 통해 확보된 절편과의 조립으로, 호환 가능하고 복제수가 다른 벡터들을 제작하였다. Retnonigrum 등도 유사한 방법으로 복제개시점을 교체함으로써 특성이 개선된 새로운 벡터들을 제작하였다 [28]. 이 때 중간 수준의 복제 수를 갖는 벡터는 상대적으로 높은 안정성을 가지며, 다른 부품과의 조합적인 사용을 통해 높은 복제 수를 가진 벡터에서 발현이 어려운 독성 유전자의 발현도 가능함을 확인하였다. 이러한 부품 교체 외에도 돌연변이 유도 (mutagenesis)를 통해 복제수가 조절된 새로운 벡터의 확보가 이루어졌다. 복제개시점을 포함해 복제조절에 관여하는 여러 인자들의 변이는 복제 수를 변화시킬 수 있는 주요한 표적이다. 실제로 ColE1 벡터의 조절인자인 RNAII에 유도된 돌연변이는 구조적 변형을 통한 RNAI과의 상호작용 저해로 차별화된 높은 복제 수 (500-700 copies)를 나타내는 것으로 알려졌다 [52]. 또한 pSC101을 기반으로, 복제조절에 관여하는 RepA의 돌연변이 유도는 이량체 형성의 결함을 유도하여, 다양한 범위의 복제 수를 가진 plasmd의 확보가 가능한 것으로 확인되었다 [30]. 이렇듯 복제개시점의 교체와 변이유도는 복제 수와 호환성, plasmid의 안정성과 더불어 단백질 발현에 영향을 미침을 알 수 있다 (Fig. 2). pBR322와 pUC19, pBluescript 벡터를 포함해 현재 개발된 많은 벡터 내 복제개시점들은 ColE1 유사서열을 가지며 [53], 상대적으로 낮은 복제 수를 갖는 벡터들은 pSC101과 p15A 복제개시점에서 유래한 서열을 지니고 있다[54-59]. 이러한 복제 개시점은 다른 복제 수와 조절기작을 가지지만 [50,60,61], 상용화 plasmid 복제개시점 (pMB1과 p15A)의 높은 서열 유사성은 [62,63] 제한적인 서열공간의 사용으로 인한 개선의 한계를 보여준다.
발현벡터를 이용한 재조합 단백질 생산과정에는 유전자 발현이라는 전사와 번역과정이 반드시 필요하다. 이중 DNA에암호화된 유전정보를 mRNA로 옮기는 전사는 프로모터의 변형을 통해 효과적으로 개선될 수 있다 [64]. 프로모터는 전사개시 유도서열로서 특정한 전사인자 (sigma factor)와의 상호작용을 통해 RNA polymerase와 결합한다. Kanhere 등의 연구에 따르면 프로모터는 전사개시점 하류에 존재하는 유전자 암호화 영역 (open reading frame, ORF)과 비교했을 때, 낮은 안정성과 적은 굽힘성 (bendability)을 지니며, 더 높은 곡률 (curvature)를 나타낸다. 이러한 특성은 RNA polymerase가 DNA를 따라 이동할 때 더 쉽게 열린 상태를 형성할 수 있도록 하고, 전사인자와의 상호작용에 관여하거나 RNA polymerase와의 결합형성에 중요한 것으로 알려져 있다[65]. 이 외에 발현벡터의 구성요소로서 다음과 같은 조건을 충족시켜야 한다. 프로모터는 낮은 기저수준을 가짐과 동시에 유도 시 높은 전사체의 생성이 가능해야 한다. 또한 전사를 위한 유도물질은 작동기전이 단순하고 숙주배양에 사용되는 영양물질과는 독립적으로 기능해야 한다 [66].
전형적인 발현벡터에는 항시적으로 전사가 유도되는 구성적 (constitutive) 프로모터와 숙주의 대사부담을 최소화하기 위해 원하는 시점에서 전사가 조절되는 유도 (inducible) 프로모터가 이용된다. 유도 프로모터는 유도체 (inducer)의 첨가에 의해 특정시점에서 전사를 조절할 수 있으며, 유도체의 종류 (
숙주생리 관점에서 생존에 필수적이지 않으며 높은 대사부담 (metabolic burden)을 유발해 생장을 저해할 수도 있는 plasmid를 유지해야 하는 이유는 극히 제한적이다. 따라서 외래 유전자를 세포내로 도입할 때 제공하는 이점보다 대사스트레스가 클 경우, 세포는 선택적 압력이 없는 조건에서 plasmid를 유지하기가 매우 어렵다. 이런 이유로 선택 (selection) 마커가 필요하며, 일반적으로 항생제가 포함된 배양 조건에서 생장을 유도함으로써 plasmid를 지닌 재조합 균주만이 생존할 수 있게 한다 [22,73]. 이때 ampicillin, kanamycin, tetracycline, chloramphenicol 등과 같은 항생제 저항성 유전자가 흔히 사용된다. 하지만 경제성과 안정성 측면에서 많은 문제를 지니고 있고, 최종 산물에 잔류할 수 있어 의학적, 산업적 이용이 제한될 수 있다. 특히 항생제 내성 문제로 인해 이를 대체하기 위한 전략 (antibiotics-free selection) 개발도 많이 시도되고 있다 [74,75].
Toxin-antitoxin 시스템은 독소 (toxin) 인자와 이에 대응하는 억제인자인 항독소 (antitoxin)로 구성된다. 이는 postsegregational killing 시스템의 일종이며, 환경변화에 대응하는 대사과정의 조절인자로서 기능한다 [76]. 항독소는 독소에 비해 불안정하기 때문에 꾸준히 생성되어야 하며, 항독소를 생성하는 plasmid가 손실되는 경우 잔류한 독소는 세포사멸을 유도한다 (Fig. 1). Liao 등의 연구진들은 높은 복제 수를 가진 pUC19 골격을 기반으로 독소-항독소 시스템인
1973년 Cohen은 tetracycline 저항성 유전자와 EcoRI 제한효소 인식서열을 가지는 pSC101을 이용하여 재조합 기술의 실적용 예를 보여주었다. 이 연구에서는 각기 다른 plasmid의 동일한 제한효소 처리와 접합 (ligation)을 통해 항생제 마커와 RSF1010로부터 유래한 복제개시점을 지닌 새로운 벡터가 제작되었다 [20]. 따라서 각기 다른 벡터의 부품을 cut and paste 방식의 교체를 통해 새로운 시스템의 개발이 가능하다는 것을 보여주었다. 이러한 전략은 유용하게 사용되어 왔으며, pBR322 계열의 많은 상용화 벡터 또한 동일한 방법으로 개발되었다 [78,79]. 하지만 상기 전략은 부품의 적용범위가 일부 벡터에 제한적이고, 동시 교체가 상대적으로 어렵다. 이는 다수의 구성요소 (부품)가 포함된 벡터구조를 디자인하기 위해 독립적인 제한효소 인식서열을 필요로 하기 때문이다. 이런 단점에도 불구하고 최근까지 활용되는 발현벡터 제작의 원형기술 (prototype)이다. 합성생물학 개념이 등장하면서 기존의 조립방법이 지닌 문제점을 개선하기 위한 표준화된 부품 기반의 새로운 벡터개발 전략이 제시되었다 [80]. 바이오브릭 (Bio-Brick)이라 불리는 표준화된 부품은 유전자, 프로모터, RBS, 종결인자 등이 포함된 생물학적 기능 단위들이다. 이를 기반으로 개별적으로 생산된 다양한 부품의 규격화된 조립과정을 통해 벡터제작을 단순화하는데 기여하였다.
2003년 Knight는 인터페이스 기술에 기반한 BioBrick 조립 표준화 (assembly standard) 전략을 제시하였다 [81]. pUC18에서 유래한 pSB103은 복제개시점과 항생제 마커를 포함하는 양말단에 4개의 제한효소 (
창발성은 부분의 합이 단순한 합 이상의 결과를 낳는다는 개념으로 구성요소들이 조합적으로 작동하였을 때, 기존에 확인되지 않았던 새로운 기능이 도입될 수 있다는 개념이다. 따라서 부품자체의 특성에만 초점을 맞추는 것이 아니라 이들의 상호작용으로 구성된 시스템의 통합적인 이해가 필요하다. 시스템 생물학은 생명현상의 근간이 되는 구성요소들 간의 상호작용을 개체 수준에서 접근함으로써 근본적인 이해를 가능하게 한다. 과거에는 부족한 정보로 인해 이러한 접근법이 제한적이었지만, 이용가능한 데이터베이스가 급격히 확장되면서 통합과 재구성을 통한 시스템의 종합적인 이해가 가능하게 되었다. 이때 시스템의 기준은 제한적이지 않으며, 따라서 하나의 세포나 기관은 물론 발현시스템 (벡터)과 같은 작은 유기적 단위체도 시스템으로 간주할 수 있다. 이러한 연구는 구성 부품들에 대한 대량의 데이터를 확보하고 분석함으로써 시작된다. 이로부터 부품들을 선별하고, 상호작용 관점에서 모델을 구축한 후 최종적으로 기능성을 통합적으로 확인한다 [88,89].
유전적 부품의 안정적 유지와 외래 유전자 고발현을 위한 구조물로서 효율적인 벡터를 디자인하기 위한 많은 노력들이 진행중이다 (Fig. 3). 하지만, 표준화나 규격화 요소가 결여된 부품은 특정 숙주와 유전자에 의존적인 발현패턴을 흔히 보여준다. 따라서 범용으로 적용가능한 벡터설계와 기능적인 부품의 확보를 위한 통합적인 연구방법이 필요하다. 이에 앞서, 우선 주요부품의 특성과 기능을 깊이 있게 이해할 수 있어야 통합적인 조율 전략의 설계나 선택이 가능해진다. 이러한 관점에서 앞서 벡터개발의 주요 부품으로 소개한 복제개시점과 프로모터, 그리고 선택마커의 특성이나 기능에 관련된 몇몇 사안들을 고려해야 한다.
복제개시점은 흔히 발현벡터의 복제 수와 호환성을 결정하는 것으로 알려져 있지만, 많은 연구를 통해 대사적 스트레스와도 높은 관련성을 지녀 유전자발현 자체에도 영향을 미칠 수 있음이 보고되었다 (Fig. 2). 즉, 복제개시점은 단순히 개시인자나 복제기구와의 상호작용을 위한 서열이 아니라 세포생리와 연동되고 벡터의 (외래)유전자뿐만 아니라 세포자체의 유전자 발현에도 영향을 미치는 주요한 부품인 것이다. 하지만 부품으로서 이용가능한 자원으로서는 지극히 낮은 선택범위를 제공한다. 이는 한정된 수의 복제개시점만 이용 가능하며, 발굴수단도 제한적이기 때문이다. 예를 들어, 다른 복제 수를 가지나 호환가능한 pBR328와 pACYC184의 복제개시점을 비교하면 약 73%의 서열이 동일하다. 이와 같이 상용화된 발현벡터의 복제개시점 서열은 거의 동일하거나 높은 유사성을 가지며, 많은 경우 pSC101와 p15A, ColE1 기반의 복제개시점에서 유래한다. 복제개시점의 변형이 벡터의 사용범위를 개선하는데 이용되어 왔음에도 이러한 한정된 자원으로 인해 호환 가능한 숙주가 제한되고, 발현품질이 다른 벡터를 설계하는데 어려움이 있다. 프로모터 서열의 경우, probe나 trap system을 통해서 상대적으로 쉽게 다양한 자원으로부터 확보 가능한 것으로 알려져 있지만 [90], 복제 개시점은 원핵생물 내에서 한 개에서 두 개 정도의 적은 수가 존재하기 때문에 발굴 자체가 매우 어렵다. 그렇다면 복제개시점은 어떤 방법을 통해 확보가 가능할까? 최근에는 다양한 소프트웨어, 즉 Ori-Finder (http://tubic. tju.edu.cn/Ori-Finder/) 나 DoriC (http://tubic.tju.edu.cn/doric/) 와 같은 프로그램을 통해 박테리아와 고세균 유전체를 포함해 플라스미드에 존재하는 복제개시점 서열을 분석할 수 있다 [91-93]. 기존에 알려진 정보를 기반으로 서열 유사성, 종 다양성과 같은 특정 기준을 제공하여 선별하거나, wobble base의 도입을 통해 sequence space를 확장함으로써 새로운 복제개시점을 디자인할 수 있는 환경이 마련된 것이다.
복제를 위해 복제개시점이 반드시 필요하기 때문에 이론적으로는 해당서열을 제거하면 벡터는 세포 내에서 유지될 수 없다. 따라서 벡터 맵 상에서 지정되는 복제개시점을 제거하면 선택압력 조건에서 콜로니는 형성되지 않아야 하며, 복제개시점을 재도입하였을 때 기능이 복구되어야 한다. 하지만 이러한 예측과 상반된 결과들을 보여줄 수 있으며, 이는 다음과 같은 특성과 관련이 있을 것이다. 앞서 언급한 생물정보학적 도구 DoriC를 통해 상용화벡터의 복제개시점 서열을 분석하면 하나 이상의 복제개시점 부위가 흔히 예측되어진다. 이는 상대적으로 낮은 consensus, 즉 단순히 4개의 염기로 구성된 서열 상동성의 범위가 20 (현재는 22개)개로 구성된 아미노산의 상동성에 비해 noise가 강한 특성에 기인하기도 하지만, 생리적으로는 하나의 복제개시점이 제거되더라도 유사복제개시점 (pseudo replication origin)이 개시인자들과 상호작용함으로써 복제를 진행할 수도 있다는 의미이다.
또 한가지 흥미로운 사실은 복제개시점 근처에서 많이 예측되는 유사 프로모터 서열의 존재이다. 프로모터 예측 프로그램을 통해 상용화된 벡터의 전체 서열을 분석하면 전형적인 구성요소의 프로모터 서열 외에도 높은 score의 후보서열이 여러 곳에서 확인되어진다. 복제개시점과 그 주변 서열에서도 여러 개의 프로모터가 예측되며, 특히 낮은 GC content와 높은 AT-rich region이 특성인 복제개시점을 고려하면 예측된 유사 프로모터 서열과 전사인자들과의 상호작용에 의해 전사체가 생성될 가능성이 있다. 또한 복제개시점을 포함한 주변서열 (upstream과 downstream에서 100 bp 정도)의 전사체의 구조를 예측하면 특정한 2차 구조를 형성하는 것을 확인할 수 있다. 잘 알려진 바와 같이 2차 구조를 형성하는 RNA들은 대사물질과 결합 가능한 riboswitch와 같은 cisacting 조절인자로서 뿐만 아니라 trans-acting 인자로서 상보적인 mRNA 서열에 결합하여 발현조절에 관여할 수 있다[94,95]. 최근 많이 제안되는 ribozyme (활성을 지닌 2차 구조 이상의 전사체) 존재여부를 확인하지 않더라도, 복제개시점과 기능에 필요한 주변서열을 발현 양이나 품질에 영향을 주는 부품으로 고려해야 한다.
프로모터는 서열에 따라 전사를 개시하는 RNA polymerase의 결합정도가 결정되고, 전사체의 양도 달라진다. 기존에 사용되던 프로모터들은 내인성 혹은 바이러스 유래 것들을 주로 이용하였으나, 숙주 유전자 발현에 교란을 주고 유전자에 따른 전사체의 편차가 크다는 단점이 있다 [64]. 복제개시점과 달리 프로모터들은 메타게놈으로부터 다양한 특성을 지닌 서열의 발굴이 가능하다 [96]. 특히 양방향성 리포터를 이용한 trap system들이 개발됨으로써 프로모터 서열들을 대량으로 확보하고, 이를 이용한 다양한 발현벡터의 제작이 가능하게 되었다 [97]. 전사체와 단백질체 연구결과를 통합해보면 다양한 환경에 존재하는 메타지놈으로부터 다양한 기능적 서열공간을 지닌 프로모터의 발굴이 매우 용이할 것으로 기대된다. 이와 더불어 Prokaryotic Promoter Database(PPD), BDGP 그리고 BPROM와 같은 database 및 예측 프로그램을 이용하면 발굴된 서열을 기반으로 −35와 −10 영역, 그리고 전사개시점등을 쉽게 예측할 수 있다.
앞서 언급했듯이 일정한 길이의 DNA 단편 서열을 분석하면 전형적인 프로모터 외에 RNA polymerase나 기타전사인자와의 결합이 가능한 많은 (유사)서열들이 존재한다. 실 예로 메타지놈 유래의 발굴된 프로모터 서열을 분석하면, 하나 이상의 프로모터 유사 (promoter-like) 서열이 역방향 또는 정방향으로 예측됨을 알 수 있다 (Fig. 3). 따라서 100 - 200 bp 정도의 짧은 서열 내에 시그마인자가 결합가능한 여러 후보서열이 존재한다는 것을 알 수 있다. 이미 많은 연구에서 proximal 그리고 distal control site가 프로모터 기능과 전사조절 능력에 영향을 미친다는 것이 밝혀졌다 [98,99]. 즉, 이러한 구조적 특성 (여러 결합가능 부위 존재에 의한 high avidity)이 전사를 촉진하거나 역으로 다중결합에 의한 전사 저해를 유발할 수 있을 것이다. 서로 반대방향으로 진행하는 예측 프로모터가 동시에 작동하는 경우, 전사인자간의 충돌이 있을 수 있기 때문이다. 따라서 가장 높은 score를 가진(real)프로모터를 기준으로 상하부의 유사서열을 포함시키는 전략은 전사체 변화를 위한 새로운 전략을 제공할 수 있을 것이다.
발현벡터를 안정적으로 유지하거나 재조합균주를 선별하기위한 마커로서 항생제 저항성 유전자가 흔히 도입된다. 일반적으로 사용되는 항생제 농도범위에서 저항성 유지에 필요한 단백질 발현 수준을 넘어서, 대부분의 경우 항생제 내성 유전자는 불필요할 정도로 과발현된다. 결과적으로 숙주에 필요 이상의 대사스트레스를 유발한다. 항생제 내성 유전자의 발현수준과 작용하는 기작에 따라 세포에 부과되는 선택압과 스트레스가 다른 정도로 영향을 미칠 수 있기에, 항생제 저항성 유전자를 교체하는 것만으로도 유전자 발현양이 달라질 수 있는 가능성이 매우 크다 (Fig. 2). 즉, 복제개시점, 프로모터와 같이 선택마커는 플라스미드의 특성을 결정하고, 외래 유전자의 발현을 증가시키는데 기여할 수 있는 하나의 부품으로 고려되어야 하는 것이다.
대안으로 항생제 내성 유전자를 대체할 수 있는 많은 기작들이 개발되어 왔으며, 대표적으로 toxin-antitoxin system, auxotrophic complementation system, operator/repressor titration과 RNA interaction을 기반으로 한 선택마커의 사용이 시도되고 있다 [77]. 하지만 이러한 시스템들은 균주 염색체의 특정 유전자에 돌연변이를 유도하거나 제거하여야 하고, 두개 이상의 새로운 유전자를 세포내로 도입하는 번거로운 과정이 필요하다. 최근 일부 연구에서는 선택압이 없이도 plasmid가 유지 가능함을 확인하였다. Primelles Eguia 등의 연구에서 plasmid 안정성을 높여주는
전술한 내용을 종합하면 복제개시점이나 프로모터, 그리고 선택마커 등은 단순한 구조적 구성인자로서의 특성을 넘어, 유전자의 발현과 직간접적으로 연결된 기능적 부품으로서의 지위를 부여할 수 있을 것이다. 기능적 단위체의 조합적 조절은 단백질 발현에 다른 양상을 보여줄 것이 자명하기에, 이를 자원화한 다양한 부품의 개발이나 선별이 필요한 시기가 되었다. 사실 가장 기본적인 부품으로서의 특성을 지닌 3개의 구성요소이외에 추가적으로 고려할 많은 부품들이 존재한다. 모든 부품의 조합적 조절과 이에 따른 창발성의 도출에 앞서 간단한 계산으로 추정 가능 (10개의 복제개시점과 100개의 프로모터 서열, 그리고 10개의 선택마커만으로도 조립가능한 벡터조합은 10,000 종류)한 세 종류의 부품의 다변화와 이에 따른 조합벡터만으로도 현재 문제가 되는 많은 발현과정에 또 다른 해법을 제시할 수 있을 것이다 (Fig. 4).
본 총설에서는 생물정보학, 메타지놈, 합성생물학 등 다양한 분야의 지식과 도구, 그리고 database를 통합적으로 활용함으로써 복제개시점, 프로모터, 선택마커를 포함한 발현벡터의 핵심 부품들을 설계하고 선별할 수 있는 가능성에 관해 고찰하였다. 이러한 전략으로 구축된 발현벡터들은 개별 유전자에 의존적이지 않는 범용성의 특성을 보여주거나, 필요에 따라 맞춤형으로 제공가능한 라이브러리를 제공할 수 있을 것이다. 또한 핵심 부품의 설계와 제작, 적용점에 대한 선별과정을 자동화할 수 있다면 재조합 단백질 생산이나 발현조절에 관련된 바이오파운드리를 구축하는 데 일조할 수 있을 것이다. 광대한 database 분석과 접목을 위한 AI 연계, 표준화와 규격화 요소의 설계와 도입, 이를 조합적으로 조립할 수 있는 유기적 통합전략이 지닌 가치를 알 수 있는 시기가 도래한 것이다.
본 총설은 교육과학기술부의 재원으로 연구재단을 통해 지원된 기초연구지원사업 (중견연구, 2021R1A2C1006734)에 의해 수행되었으며, 이에 감사드립니다.
© 2021. Korean Society for Biotechnology and Bioengineering All Rights Reserved.