AI 리뷰 사용 금지 규정 위반: ICML 논문 2%가 '데스크 리젝트' 당한 이유

AI 리뷰 사용 금지 규정 위반: ICML 논문 2%가 '데스크 리젝트' 당한 이유

상상해보세요. 평생을 바쳐 연구한 논문을 제출했는데, 심사 과정에서 'AI를 몰래 썼다'는 이유로 단 한 번의 검토도 없이 거부당한다면 어떤 기분일까요? 그것도 전 세계 수많은 연구자들이 주목하는 학회에서 말이죠. 최근 국제 머신러닝 학회(ICML)에서 실제로 이런 일이 벌어졌습니다. 놀랍게도, 제출된 논문의 무려 2%가 대규모 언어 모델(LLM) 리뷰 정책 위반으로 '데스크 리젝트(desk reject)' 당했다고 합니다. 도대체 무슨 일이 있었던 걸까요? 그리고 왜 이런 일이 우리에게 중요한 걸까요?

A desk with papers, pens, and a highlighter.
Photo by Yen Vu on Unsplash

AI 기술 발전, 어디까지 허용될까?

AI, 특히 대규모 언어 모델(LLM)은 우리 삶의 많은 부분을 변화시키고 있습니다. 연구 분야 역시 예외는 아니죠. 복잡한 논문을 이해하거나, 관련 연구를 빠르게 파악하고, 심지어는 리뷰 초안을 다듬는 데까지 LLM의 도움을 받는 연구자들이 늘어나고 있습니다. 이러한 흐름 속에서 학계에서는 AI를 연구 및 리뷰 과정에 어떻게 통합할지에 대한 논의가 활발히 이루어지고 있습니다. ICML 역시 이러한 변화에 발맞춰 'AI 리뷰 정책'을 도입했습니다. 이는 단순히 최신 기술 동향을 반영하는 것을 넘어, 학술 연구의 신뢰성과 공정성을 지키기 위한 필수적인 조치라고 할 수 있습니다.

Visit somajourney.eu for more.
Photo by Joonas Sild on Unsplash

ICML의 두 가지 AI 리뷰 정책, 어떻게 나뉘었나

ICML은 연구자들의 다양한 의견을 수렴하여 두 가지 AI 리뷰 정책을 마련했습니다. 바로 '정책 A(보수적)'와 '정책 B(허용적)'입니다. 정책 A는 리뷰 과정에서 LLM 사용을 일절 금지하는 강력한 방침입니다. 반면, 정책 B는 LLM을 활용하여 논문 및 관련 연구를 이해하거나 리뷰 초안을 다듬는 것을 허용하는 보다 유연한 정책입니다. 연구자들은 자신의 워크플로우와 선호도에 따라 둘 중 하나의 정책을 선택할 수 있었습니다. 흥미로운 점은, 커뮤니티 내부에서도 AI 사용에 대한 의견이 분분했고, 특히 저자의 동의 없이 AI를 활용하는 문제와 리뷰어의 편의성 사이에서 균형을 잡는 것이 중요한 과제였다는 것입니다. 대부분의 리뷰어는 자신의 선호에 따라 정책을 선택했으며, 정책 A를 선택한 리뷰어들은 LLM 사용을 절대적으로 금지한다는 약속을 명확히 했습니다.

close up, bokeh, bible, new testament, christian, history, text, reading, bible study, devotions, christianity, scripture, Gospel of Mark, Mark, Synoptic Gospel, Gospel,
Photo by Brett Jordan on Unsplash

정책 위반, 어떻게 감지되었나?

문제가 발생한 지점은 바로 이 '약속'이었습니다. 정책 A를 선택하고 LLM 사용 금지에 동의했던 리뷰어들 중, 실제로 LLM을 사용한 정황이 포착된 사례들이 나타난 것입니다. ICML은 이러한 정책 위반을 감지하기 위해 특별한 기술적 접근 방식을 사용했습니다. 단순히 일반적인 AI 텍스트 탐지기를 사용한 것이 아니라, PDF 논문에 숨겨진 '워터마크'를 삽입하는 방식을 택했습니다. 이 워터마크는 LLM이 리뷰를 생성할 때 미묘하게 영향을 미치도록 설계되었으며, 사람 눈에는 직접적으로 보이지 않는다는 특징이 있습니다. 만약 LLM이 워터마크가 삽입된 논문 내용을 바탕으로 리뷰를 작성했다면, 그 흔적이 남게 되는 것이죠. 이 기술은 알려지면 우회하기 쉬운 단점이 있지만, 의도적으로 PDF를 LLM에 입력하고 그 결과를 그대로 복사 붙여넣기 하는 등, 가장 노골적이고 부주의한 LLM 사용 사례를 포착하는 데 효과적이었다고 합니다. 물론, 모든 사례가 완벽하게 탐지된 것은 아니며, 모든 의심 사례는 사람이 직접 수동으로 검증하는 과정을 거쳐 오탐지를 최소화했습니다.

논란의 중심, '데스크 리젝트'와 그 파장

최종적으로, 정책 A를 따르기로 약속했음에도 불구하고 LLM을 사용한 정황이 포착된 리뷰는 무려 795건에 달했습니다. 이는 전체 리뷰의 약 1%에 해당하는 수치입니다. 이러한 정책 위반은 해당 리뷰가 작성된 논문에 직접적인 영향을 미쳤습니다. 만약 한 논문의 절반 이상이 LLM으로 작성된 리뷰로 판명될 경우, 해당 리뷰어는 리뷰어 풀에서 즉시 제외되었고, 그 리뷰어의 모든 리뷰는 삭제되었습니다. 더 나아가, 이러한 정책 위반을 한 리뷰어가 작성한 논문은 총 497건, 즉 전체 제출 논문의 약 2%가 '데스크 리젝트'라는, 매우 가혹한 조치를 받게 되었습니다. 데스크 리젝트는 심사 과정의 첫 단계인 편집부 검토에서 바로 떨어지는 것을 의미하며, 사실상 논문이 학회에서 받아들여질 기회를 완전히 잃는다는 뜻입니다. ICML 측은 이러한 결정이 리뷰어의 의도나 리뷰의 질에 대한 판단이 아니며, 오직 '약속된 정책을 위반했기 때문에' 내려진 조치라고 강조했습니다. 또한, 이로 인해 발생한 학회 운영상의 혼란과 연구자들에게 미칠 파장에 대해 유감을 표명했습니다. 현재 학회 측은 해당 연구자들과 직접 소통하며 필요한 지원을 제공하고 있으며, 누락된 리뷰를 대체할 새로운 리뷰어를 찾는 작업 등을 진행하고 있습니다.

앞으로의 전망: AI 시대, 학술 생태계는 어떻게 진화할까?

이번 ICML 사태는 AI 기술의 발전이 우리 사회 전반에 미치는 영향이 얼마나 크고 복잡한지를 다시 한번 보여줍니다. 특히 학술 연구 분야에서는 AI를 어떻게 활용하고 통제하느냐가 핵심적인 과제가 될 것입니다. 단순히 LLM 사용을 금지하는 것만으로는 근본적인 해결책이 될 수 없습니다. 오히려 AI를 어떻게 건설적으로 활용하면서도 연구의 신뢰성을 담보할 수 있을지에 대한 깊이 있는 고민과 새로운 제도 마련이 필요합니다. 앞으로 우리는 AI 시대에 걸맞은 새로운 학술 생태계를 어떻게 만들어나갈지, 그리고 이번 ICML의 사례가 어떤 교훈을 줄지에 대해 주목해야 할 것입니다. AI를 책임감 있게 활용하는 방법을 배우고, 투명하고 공정한 연구 환경을 유지하기 위한 우리 모두의 노력이 그 어느 때보다 중요해지고 있습니다.

원문 참고: https://blog.icml.cc/2026/03/18/on-violations-of-llm-review-policies/

댓글 쓰기