과학 연구에서 데이터 편집은 비윤리적인 것일까요?
연구를 하면서 느낄 수 있는 즐거움 중 하나는, 그 동안 실험을 통해 얻은 많은 데이터를 컴퓨터 프로그램에 넣고 엔터 버튼을 누르자 말끔한 그래프로 나오는 것을 볼 때 일 것입니다. 이를테면, 아주 깔끔한 직선 그래프가 나왔네요. 아마도 아마 반응의 역학적 부분을 설명해 줄 것입니다. 그러나 조금 더 자세히 들여다니까, 그래프에서 조금 마음에 들지 않는 부분이 발견됩니다. 일정한 기울기가 나와야 하는데 몇몇 점들이 직선에서 벗어나 있었던 것이지요. 하지만 이런 것은 문제가 없습니다. 가공하지 않은 데이터로 만든 그래프니까, 조금만 손대면 깔끔한 그래프를 만들 수 있습니다. 3 시그마 범위를 벗어나는 모든 데이터를 지웠더니 그래프가 조금 나아진 것 같습니다 이번에는 2 시그마 범위를 벗어나는 모든 데이터를 지웠더니, 훨씬 더 나아졌습니다. 이제서야 논문에 실을 수 있는 그래프처럼 보입니다.
이런 과정을 거쳤다면 여러분은 이제 데이터 편집(massaging)이라는 훌륭해 보이는 연구 관행을 따른 것입니다. 아주 일반적인 이런 과정을 꼭 거쳐야 할까요? 모든 과학자들은 데이터를 고르면 안 된다 라는 말에 동의하실 겁니다. 다시 말해, 나의 주장을 뒷받침할 수 있는 데이터는 선택하고, 그렇지 않은 데이터를 무시하면 안 된다는 말입니다. 그러나 여기에는 한 쪽으로만 판단할 수 없는 애매한 영역이 존재합니다. 모든 반응이 깔끔한 반응 속도식으로 나타내지는 않습니다. 전혀 다룰 엄두가 나질 않는 결과를 두고 머리를 싸매며 고민하는 것보다는 분석할 수 있는 시스템을 연구하는 게 더 낫지 않을까요? 근대 유전학의 창시자인 그레고어 멘델(Gregor Mendel)은 그의 식물 유전에 관한 연구에서, 정원에 있는 모든 식물에서 무작위로 데이터를 얻지는 않았습니다. 그는 어떤 식물에서는 쉽게 분석할 수 있는 데이터가 나오고, 다른 식물에서는 그렇게 되지 않는다는 사실을 발견했습니다. 따라서, 당연하게도 그는 납득할만한, 또는 경향을 파악할 수 있는 결과를 주는 식물을 가지고 연구를 진행했습니다. 그러나 그 중에서 결과를 고르거나 폐기하지 않았습니다. 가장 이름난 과학자들조차 더 나은 데이터를 얻기 위해 여러 통계 방법을 사용합니다. 이렇게 해도 문제가 되지는 않을까요?
일부 통계학자들은 데이터 분석에 있어 모든 데이터가 빠지지 않고 들어가야 한다고 생각합니다. 일부 맞지 않는 것처럼 보이는 데이터는 어떤 점을 더 연구해야 하는지 가능성을 제시할 수 있다고 생각하고, 통계에 근거하여 어떤 데이터도 제외시켜서는 안 된다고 합니다. 데이터를 “향상”시킨다는 말에는 데이터를 제외한다는 말이 내포되어 있습니다. 모든 데이터를 공개해야 하지 않을까요? 원하는 결과와 맞지 않는 것처럼 보이는 데이터 그 자체도 가치 있는 정보가 아닐까요? 독자는 제시된 데이터를 얼마나 신뢰할 수 있는지 알아야 하며, 2 시그마 필터와 같은 통계적으로 가공이 되기 이전의 상태를 추측하지 않고도 알 권리가 있습니다.
데이터 가공이 언제나 비윤리적인 것일까요? 당신이 어떤 방식으로 가공을 했는지 확실히 설명해 두지 않으면 비윤리적인 것입니다. 실제 ‘관행’이라는 것도 실은 그리 좋은 방법은 아니며, 지양해야 할 것입니다.
로버트 밀리컨(Robert Millikan)의 유명한 ‘기름 방울 실험’은, 전자의 기본 전하량을 정확히 측정해 낸 유명한 실험입니다. 이후 공로를 인정받아 1923년 노벨 물리학상을 수상하기도 했습니다. 그러나 이후 일부 역사가 및 과학자들에 의해 로버트 밀리컨이 자신에게 유리한 데이터만을 골라서 사용했다는 비판이 제기되어 공격을 받기도 했습니다
|