3 임상시험 설계 시 고려사항

3.1 임상시험 설계

3.1.1 병행설계(Parallel Group Design)

확증시험의 가장 일반적인 임상시험 설계는 병행설계로서 이 설계는 임상시험 대상자가 2 개 이상의 군 중 한 군에 무작위 배정되어 각기 다른 치료를 받는 것이다. 이때 치료는 단일용량 혹은 다용량의 시험약과 대조치료를 말하며, 대조 치료에는 위약 혹은 치료효과가 있는 비교약물이 포함된다. 이 설계의 기초를 이루는 가정은 다른 설계의 경우보다는 덜 복잡하다. 그럼에도 불구하고 다른 설계와 마찬가지로 분석과 해석을 까다롭게 하는 추가적인 요소가 있을 수 있다. 예를 들면 공변량, 시간에 따른 반복 측정, 계획에 고려되는 요인간의 상호 작용, 계획서 미준수, 중도 탈락과 참여 중지 등이 있다.

3.1.2 교차설계(Crossover Design)

교차설계에서 임상시험대상자는 2 가지 이상의 치료에 순차적으로 무작위 배정되어 치료 간 비교시 임상시험대상자 자신이 대조군 역할을 하는 것이다. 이러한 방법은 특정 수준의 통계적 검정력을 확보하는데 필요한 연구대상자수를 현저히 줄일 수 있다. 가장 단순한 2 × 2 교차설계에서는 각각의 임상시험대상자가 두 연속적인 치료기간에 무작위 배정순서에 따라서 두 치료 각각을 받게 되는데, 이 때 두 연속된 치료 기간이 주로 소실기간으로 구분된다. 가장 일반적으로는 n 기간 중 n(≥2) 치료를 비교하는 것인데, 이 때 각각의 임상시험대상자는 n 개 의 치료를 모두 받는다. 여기에는 각각의 임상시험대상자가 n 치료 중 일부를 받 거나 혹은 여러 치료가 한 임상시험대상자에게 반복 투여되는 등의 설계상의 다 양성이 존재할 수 있다. 교차설계는 그 결과의 타당성을 감소시키는 문제점을 안고 있다. 주된 문제점은 잔류효과 즉, 연속되는 치료 기간에서 치료의 잔류 영향이다. 부가적인 모델에서 부적절한 잔류효과는 직접적인 치료효과 비교에 비뚤림을 일으킬 수 있다. 2×2 설계에서 잔류효과는 치료와 치료기간 간의 상호작용(용어해설 참조)과 통계적 으로 구분될 수 없으며, 각 효과에 대한 상호 대조가 ‘시험대상자 간’에 있기 때 문에 검정력이 약하다. 이러한 문제는 차원 높은 설계로 어느 정도 극복할 수 있지만 완전히 제거할 수는 없다. 그러므로 교차설계를 사용할 때는 잔류효과를 피하는 것이 매우 중요하다. 이는 연구대상 질환과 새로운 치료약물에 대한 적절한 지식을 근거로 연구를 설계함 으로써 가능하다. 연구대상이 되는 질환은 만성적이고 안정적이어야 한다. 약물의 효과는 치료기간 중에 충분히 발현될 수 있어야 한다. 휴약기는 약물의 효과가 완전히 소실될 정도로 충분히 길어야 한다. 이러한 조건은 기존의 정보와 자료에 의하여 임상시험 전에 확립되어야 한다. 교차설계에서 주의를 기울여야 하는 또 다른 문제점이 있는데 가장 중요한 것은 중도 탈락 등과 같은 시험대상자 수의 감소로 인하여 분석과 해석이 어렵다는 것이다. 또한, 잔류효과의 가능성은 치료기간 이후에 발생하는 이상반응이 어느 치료에 의한 것인지 분별하기 어렵다는 점으로 이어진다. 교차설계는 일반적으로 중도 탈락하는 임상시험대상자가 작을 것으로 기대되는 제한된 상황에만 적용한다. 동일 약물의 두 제제의 생물학적 동등성을 입증하는데 2 × 2 교차설계가 일반적으로 사용된다. 건강한 자원자에게 적용하는 경우, 두 투약기간 사이의 휴약기가 충분히 길면 잔류효과는 관련 약동학적 변수에는 영향을 미치지 않는 것으로 보인다. 그러나 개별 치료기에 들어가기 전에 실제로 얻은 자료를 기초로 예를 들어 약물이 검출되지 않는다는 것을 증명함으로써 분석기간 중에 이러한 가정을 확인하는 것이 중요하다.

3.1.3 요인설계(Factorial Design)

요인설계는 치료의 조합을 다양하게 하여 두 개 이상의 치료를 동시에 평가한다. 가장 단순한 예는 2 × 2 요인설계인데, 예를 들면 A와 B 두 치료방법의 4가지 가능한 조합(A 단독투여군, B 단독투여군, A와 B 동시투여군, A도 B도 없음)중 하나에 임상시험대상자를 무작위 배정하는 방법이다. 많은 경우 요인설계는 A와 B의 상호작용을 검정하는데 사용된다. 시험대상자 수를 주효과 검정에 근거하여 산출하였다면, 상호작용을 알아내기 위한 통계적 검정력은 부족하다. 두 치료 방법에 동시에 이용될 가능성이 있는 경우, 특히 이 설계를 이용하여 A와 B의 상호작용을 검정하려 한다면 통계적 검정력에 대한 고려는 중요하다. 요인설계 적용의 중요한 다른 예는 이전의 임상시험에서 치료 C 및 D 각각의 단일 치료의 유효성이 각 용량마다 확립된 경우에 치료 C와 D 동시 사용에 대한 용량-반응 특성을 확립하는 것이다. C의 용량 m은 보통 0 용량(위약)을 포함하여 선택되고, D의 용량 n과 비슷하다. 전체적인 디자인은 m×n 개의 치료 군으로 구성되고, 각 군은 C와 D의 다른 용량 조합이 투여된다. 반응 면적의 결과 추정값은 임상적 사용을 위한 C와 D의 적절한 조합 용량을 확인하는 데 도움이 된다. 2 × 2 요인설계는 개개의 치료효과 평가에 필요한 동일한 시험대상자 수로 두 치료의 유효성을 동시에 평가함으로써 임상시험대상자를 효율적으로 이용하는데 쓰이기도 한다. 이러한 전략은 사망률을 주결과변수로 하는 대규모 임상시험에 특히 매우 유용한 것으로 증명되었다. 이러한 설계의 효율성과 타당성은 치료 A와 B간의 상호작용이 없을수록 높아진다. 다시 말하면 A와 B의 주 효과변수에 미치는 영향은 상가적 모델(additive model)을 따르며, 따라서 A의 효과는 실질적으로 B의 존재여부에 관계없이 일정하다는 것이다. 교차설계와 마찬가지로 이러한 조건이 합치된다는 증거가 과거 정보나 자료에 의하여 임상시험 이전에 확립되어야 한다.

3.2 다기관 임상시험(Multicenter Trials)

다기관 임상시험은 두 가지 주된 이유로 실시된다. 첫째, 다기관 임상시험은 새로운 약물을 더욱 효율적으로 평가하는 인정된 방법이다. 즉 어떤 상황에서는 다기관 임상시험이 정해진 기간 이내에 임상시험의 목적을 충족시킬 만큼 충분한 수의 시험대상자를 모집하는 유일한 현실적인 해결책일 수 있다. 원칙적으로 이런 성격의 다기관 임상시험은 임상시험의 어느 단계에서도 수행될 수 있다. 이 때 기관 당 많은 수의 시험대상자를 몇몇 기관에서 모집하는 경우도 있고, 혹은 희귀 질환의 경우, 한 기관 당 소수의 시험대상자를 다수의 기관에서 모집하는 경우도 있다. 둘째, 다기관 임상시험(다수의 시험자)은 임상시험 결과를 일반화(용어해설 참조)하는 데 더 좋은 근거를 제공하기 위하여 설계될 수도 있다. 일반화의 근거는 더 다양한 인구집단으로부터 임상시험대상자를 등록하고 폭넓은 임상환경에서 약물을 투여함으로써, 장차 약물이 사용될 환경에 더욱 적합한 실험적 상황을 제 공할 수 있다. 또한 여러 명의 시험자가 임상시험에 참여함으로써 약물의 유용성 에 대한 보다 광범위한 임상적 판단을 제시할 수 있게 된다. 이러한 종류의 임상 시험은 의약품 개발의 후기 단계의 확증시험이 될 수도 있고, 여러 시험자와 시 험기관이 참여할 수도 있다. 때로는 일반화의 가능성을 더 높이기 위하여 여러 국가에서 수행되는 경우도 있다. 다기관 임상시험의 결과를 의미있게 해석하고 일반화하기위하여 임상시험계획서에 따른 임상시험 수행과정이 명확하고 모든 임상시험기관에서 유사하여야 한다. 공통의 임상시험계획서를 계획하고 임상시험을 수행하는 것이 중요하며 임상시험 수행 절차는 가능한 완벽하게 표준화한다.

3.3 비교유형

3.3.1 우월성 평가시험(Superiority Trials)

유효성을 과학적으로 입증하기 위해서는 위약대조시험에서 위약에 대한 우월성을 입증하거나, 대조치료약에 대한 우월성을 보이거나, 혹은 용량-반응관계를 증명해야 한다. 이런 종류의 임상시험을 우월성 평가시험(용어해설 참조)이라 하며 특별한 언급이 없는 한 본 가이드라인에서는 우월성 평가시험을 대상으로 하고 있다. 우월성 평가시험에서 유효성이 있는 것으로 나타난 치료약이 존재할 때 위중한 질환의 경우 위약 대조시험은 비윤리적일 수 있다. 이런 경우 대조약으로는 위약이 아닌 기존 치료약의 사용이 고려된다. 위약 대조 혹은 치료약 대조의 적합성은 임상시험에 따라 개별적으로 고려한다.

3.3.2 동등성 평가시험 혹은 비열등성 평가시험(Equivalence or Non-inferiority Trial)

어떤 경우 우월성을 보이려는 목적 없이 시험약을 표준 치료와 비교하기도 한다. 이런 유형은 그 목적에 따라서 2 가지 범주로 구분된다. 즉, 하나는 ‘동등성 평가시험’(용어해설 참조)이고 다른 하나는 ‘비열등성평가시험’(용어해설 참조)이다. 생물학적 동등성 평가시험은 전자에 속한다. 어떤 경우에는, 예를 들면 화합물이 흡수되지 않아서 혈류에 존재하지 않을 때 후발품목이 시판품목과 임상적으로 동등성을 입증하기 위하여 실시되기도 한다. 대부분의 활성대조시험은 시험약의 효과가 활성 대조약보다 나쁘지 않음을 입증하기 위하여 설계되므로 후자에 속한다. 또 다른 경우는 다용량의 시험약을 추천용량과 비교하거나 다용량의 표준치료약과 비교하는 임상시험이 가능하다. 이러한 설계의 목적은 시험약의 용량-반응관계를 보여주는 동시에 활성 대조약과 시험약을 비교하는 것이다. 활성 대조 동등성 평가시험 혹은 비열등성 평가시험에서는 위약을 포함한 임상시험을 수행함으로써 여러 목적을 추구할 수도 있다. 예를 들면, 위약에 대한 우월성을 확립하고, 시험 설계를 입증하며, 동시에 활성 대조약과 유사한 정도의 유효성 및 안전성 정도를 평가하는 것이다. 위약을 시험에 포함하지 않거나 다용량의 신약을 사용하지 않는 활성 대조 동등성 평가시험(혹은 비열등성 평가 시험)에는 설계상의 몇 가지 어려움이 잘 알려져 있다. 이는 우월성 시험과는 대조적으로 내적 검증의 측정이 부족한 것과 관련이 있어 외적 검증이 필요하다. 대조치료약은 조심스럽게 선택한다. 관련 적응증에서의 유효성이 적절한 우월성 평가시험에서 분명하게 확립/정량화되었고, 활성 대조시험에서 유사한 효과를 보일 것으로 기대되는 치료약이 예로 일반적으로 이용된다. 이러한 목적으로 새롭게 수행되는 임상시험은 임상적, 통계적 발전을 고려하여 기 수행된 활성 대조약이 임상적으로 명백한 유효성을 보인 우월성 평가시험과 동일하게 설계 (일차 변수, 활성 대조약의 용량, 시험대상자 선정기준 등)하는 것이 바람직하다. 다만, 다르게 설정하는 경우 이에 대한 타당성을 제시하여야 한다. 동등성 혹은 비열등성을 입증하기 위하여 설계된 임상시험계획서에는 그 의도를 분명히 기술한다. 임상시험계획서에 동등성 경계를 기술하며, 이 경계는 임상적으로 허용가능한 가장 큰 차이이면서 활성 대조 우월성 평가시험에서 관찰된 차이보다 작다. 활성 대조 동등성 평가시험에서는 동등성 경계의 상한치와 하한치가 모두 필요한 반면, 활성 대조 비열등성 평가시험에서는 경계의 하한치만이 필요하다. 동등성 경계는 임상적으로 입증 가능하다. 통계적 분석은 일반적으로 신뢰구간을 사용한다. 동등성 평가시험에서는 양측 신뢰구간이 이용되며 모든 신뢰구간이 동등성 경계 내에 있는 경우 동등하다고 추정된다. 비열등성 평가시험에서는 단측 구간이 사용된다. 제 1종 오류의 선택은 단측 혹은 양측 검정의 사용과는 별도로 고려한다. 시험대상자 수 산정은 이러한 방법에 근거한다(3.5절 참조). 시험약과 활성대조약 간에 차이가 없다는 귀무가설이 유의하지 않다는 결과를 가지고 동등성 혹은 비열등성의 결론을 내리는 것은 적합하지 않다. 또한 분석 대상군 선택에도 주의한다. 치료군이나 비교군에서 참여중지 혹은 중도 탈락된 임상시험대상자는 치료효과가 나타나지 않은 경우가 많고, 따라서 모든 무작위배정된 임상시험대상자를 이용한 통계분석은 치료효과가 동등한 것으로 비뚤림을 나타낼 수도 있다(5.2.3절 참조).

3.3.3 용량-반응관계 평가 임상시험(Trials to Show Dose-response Relationship)

새로운 시험약의 용량과 반응이 어떠한 관련성을 보이는 지는 모든 개발단계에서 다양한 접근에 의하여 얻고자 하는 정보가 된다. 용량-반응 시험은 많은 연구목적을 충족시키는데 그 중에서도 유효성의 확정, 용량-반응 곡선의 평가, 적합한 초기 용량의 추정, 개인별 용량 조절을 위한 적정한 용법의 확인, 최대 허용용량의 결정 등에 특히 중요하다. 이러한 목적은 임상시험 중 위약을 포함한 다양한 용량에서 얻은 자료를 이용하여 달성된다. 이러한 이유로, 신뢰구간의 추정 및 도표화 방법 등으로 용량과 반응간의 연관성을 추정하는 것은 유의성 검정법을 사용하는 것 만큼이나 중요하다. 가설검정은 용량의 점진적 증가나 용량-반응 곡선의 모양과 관련하여 특정 질문에 맞게 적용될 필요가 있다. 통계분석계획(용어해설 참조)은 임상 시험계획서에 자세히 기술하여야 한다.

3.4 집단축차설계(Group Sequential Designs)

집단축차설계는 중간분석에 이용된다(4.5. 참조). 집단축차설계가 중간분석을 가능하게 하는 유일한 설계는 아니지만 가장 흔하게 적용되는 방법인데 개별 시험대상자의 자료가 이용가능한대로 연속적으로 분석을 실시하는 것보다는 임상시험기간 중 정기적으로 시험대상자 결과를 평가하는 것이 더 현실적이기 때문이다.

3.5 목표한 시험대상자 수(Sample Size)

임상시험에서 목표한 시험대상자 수는 알아내고자 하는 의문에 신뢰성있는 답을 제공할 수 있도록 충분한 수여야 한다. 목표 시험대상자 수는 보통 임상시험의 주요 목적에 따라 정해진다. 표본 크기를 다른 근거에 의해 정한다면 그 이유를 분명히 정당화 한다. 예를 들면 안전성 문제, 또는 중요한 이차변수에 근거한 목표 시험대상자 수는 일차적인 유효성에 따른 시험 대상자 수보다 더 많은 수가 요 구될 수도 있다. 적정 시험대상자 수는 일차변수, 검정통계량, 귀무가설, 선택된 용량에서의 대립가설, 옳은 귀무가설을 기각할 확률(제 1종 오류), 틀린 귀무가설을 채택할 확률(제 2종 오류), 치료탈락과 계획서 위반을 처리하는 접근법 등과 같은 사항들을 자세히 기술한다. 어떤 경우에는 사건발생률이 통계적 검정력에 대한 주요 관심이며, 필요한 사건수로부터 시험에서 필요한 시험대상자 수로 외삽하기 위한 가정이 필요한 경우도 있다. 목표 시험대상자 수 계산은 계산에 사용된 추정량(예를 들면 분산, 평균치, 반응률, 치료효과의 차이)과 함께 임상시험계획서에 제시하며, 추정량의 근거도 제시한다. 시험대상자 수 산출 시 전제한 가정이 변함에 따라 목표 시험대상자 수의 민감도가 어떻게 달라지는지를 평가하는 것은 중요하며, 이는 가정으로부터 나온 편차 범위에 적절한 연구대상수의 범위를 제시함으로써 가능하다. 확증 시험에서는 가정은 보통 발표된 자료나 과거 임상시험의 결과에 근거한다. 치료 효과(용어해설 참조)의 차이는 환자의 관리에 임상적 관련성이 있는 최소한의 효과 혹은 새로운 치료의 기대되는 효과에 관한 판단에 근거할 수도 있다. 일반적으로 제 1종 오류의 확률은 5% 혹은 그 이하로 정해져 있거나, 다중성을 고려하여 보정되기도 한다. 제 2종 오류는 일반적으로 10%에서 20%로 정해져 있으나 의뢰자는 특히 시험을 반복하기가 어렵거나 불가능한 경우 제 2종 오류를 실현 가능한 한 낮은 수치로 유지하고자 한다. 제 1종 오류와 제 2종 오류를 일반적인 수준과 달리 정하는 것이 허용되기도 하며, 어떤 경우에는 더욱 선호 되기도 한다. 목표 시험대상자 수 계산은 일차 평가분석군에서 필요한 시험대상자 수를 말한다. 만약 이것이 ‘모든 무작위배정된 시험대상자군’이라면, 효과적인 크기의 추정값은 ‘계획서 순응 임상시험대상자군’에 비하여 줄일 필요가 있다. 이는 임상시험에 더 이상 참여하지 않거나 순응도가 낮은 임상시험대상자가 자료분석에 포함됨으로써 치료효과가 희석되는 것을 허용하기 위한 것이다. 치료효과의 변이에 대한 가정은 수정될 필요가 있다. 사건발생률이 기대보다 낮거나 변이가 기대보다 큰 경우 자료를 눈가림 해제 또는 치료군간 비교 없이 목표 시험대상자 수 재산정이 가능하다(4.4절 참조).

3.6 자료 수집과 처리

자료 수집과 수집된 자료를 의뢰자에게 전달하는 방법은 종이로 된 증례기록지, 원거리 모니터링 체계, 의학적 컴퓨터 체계 그리고 전자 전달 등의 다양한 체계를 이용하여 이루어질 수 있다. 수집 정보의 유형과 내용은 임상시험계획서를 충실히 따르고 임상시험 수행 전에 구체적으로 결정 한다. 자료 수집 방법은 계획된 분석을 시행하는데 초점을 두고 임상시험계획서 준수 또는 미준수를 확인하는 데 필요한 관련정보(예를 들면 약물투여와 투여시점 평가)를 포함한다. 결측치는 변수값 ‘0’ 또는 ‘특성 없음’과 구분되어야 한다.