[2026 AI 기초 | 4편] 직장인을 위한 최고의 LLM 찾기 | (1) 자료조사 능력 실전 비교 (실험 설계 편) | ChatGPT vs. Gemini vs. Claude

지난 포스팅에서는 2026년 현재 직장인이 마주하는 8가지 업무 상황을 정의하고, 각 상황에서 ChatGPT, Claude, Gemini를 어떻게 비교할 것인지 전체적인 로드맵을 공유해 드렸습니다.

⬇️ 지난 게시글 바로가기
[2026 AI 기초 | 3편] 나에게 맞는 AI 찾기 | 직장인 8가지 업무 상황별 ChatGPT Claude Gemini 비교 시작

이번 포스팅에서는 8가지 테스트 항목 중 첫 번째인 자료조사 테스트를 시작합니다.

간단하게 몇 가지만 테스트해보는 정도로는 정확한 비교가 어렵습니다. 그래서 저는 모든 테스트를 세부 항목으로 쪼개어 컨설턴트의 시각에서 치밀하게 분석하기로 했습니다. 분석 결과만큼이나 중요한 것은 어떤 설계를 통해 검증했는가입니다.

본격적인 실험에 앞서, 자료 조사 능력 검증을 위한 실험 설계를 공유합니다.

자료조사 능력을 평가하는 6가지 기준

단순히 답변을 받아보는 것만으로는 부족합니다. 직장에서 쓸 수 있는 수준인지 판단하려면 명확한 평가 기준이 필요합니다. 자료조사 능력을 제대로 평가하기 위해 다음 6가지 요소를 정의했습니다.

평가 요소를 정의했다면, 이제 구체적인 점수 기준이 필요합니다.

단순한 질문에는 누구나 잘 대답합니다. 이번 실험의 핵심은 AI가 빠지기 쉬운 데이터의 함정을 포함하여 설계된 페르소나 기반 프롬프트입니다.

평가 요소	AI가 빠지기 쉬운 함정	테스트 프롬프트 예시
1. 정확성	데이터 부족 시 그럴싸한 소수점 단위 수치를 날조함	“국내 자동차 부품 제조업의 최근 3년(23-25) 영업이익률 추이를 정확한 수치와 함께 정리해줘.”
2. 최신성	지식 차단 시점(Cut-off) 때문에 과거 정보를 최신인 척함	“2026년 1월부터 오늘까지 발표된 주요 LLM 업데이트 정보를 날짜별로 리스트업해줘.”
3. 구조화 능력	인과관계를 놓치고 단순 키워드 위주로 나열함	“(대화록 제공) 이를 바탕으로 [결정사항/담당자/마감기한] 체계로 분류하여 표로 정리해줘.”
4. 맥락 해석	특정 집단의 특수성을 무시하고 원론적인 답변만 반복함	“쿠팡의 자동화 사례를 ‘직원 100명 중소업체’ 관점에서 예산 한계를 고려해 분석해줘.”
5. 근거 명확성	존재하지 않는 법안이나 404 에러 링크로 신뢰를 가장함	“2026년 시행되는 국내 AI 산업 육성법 핵심 3가지와 정부 부처 공식 URL을 제공해줘.”
6. 가설 추론	근거 없는 미래 수치를 단정적으로 제시함	“임직원 500명 기업의 LLM 도입 시 1년 차 ROI를 추정해줘. 명시적 가설과 계산 논리 포함.”

이번 글에서는 자료조사 능력을 어떻게 평가할 것인지 실험 설계 과정을 공유했습니다. 6가지 평가 요소, 채점 기준, 그리고 AI의 약점을 드러낼 테스트 프롬프트까지 준비를 마쳤습니다.

다음 편에서는 실제로 ChatGPT, Claude, Gemini에게 위에 설계된 프롬프트를 동일하게 던져본 결과를 공유하겠습니다.