저희에게 AI 도입을 문의하는 기업들은 대부분 아래와 같은 질문을 하곤 합니다.
“어떤 모델을 써야 하나요?”
“AI를 어떻게 구축할 수 있나요?”
“개발 기간은 얼마나 걸리나요?”
그래서인지 대부분의 AI 도입은 ‘시스템 구축’에 초점이 맞춰집니다. 실제로 많은 기업이 AI를 도입할 때 하나의 개발 프로젝트처럼 접근합니다. 정해진 예산과 기간 안에 개발을 완료하여 하나의 프로젝트를 끝내는 방식입니다.
하지만, AI 서비스는 그렇지 않습니다. AI는 데이터를 기반으로 작동하며, 데이터와 사용자의 환경은 계속 변화합니다. 즉, AI를 배포하는 순간부터 성능과 결과가 조금씩 변하게 되는 것입니다. AI 서비스는 프로젝트보다는 제품에 가깝습니다. AI 배포 후 지속적으로 관리하고 개선하는 ‘운영’이 품질을 결정하기 때문입니다.
도입 후 계속 변화하는 AI 시스템
AI는 데이터와 환경에 의해 동작하는 시스템이기 때문에 출시 이후에도 여러 요소가 지속적으로 변화합니다. 이러한 변화는 AI 서비스의 성능 자체를 바꾸는 요인으로 작용할 수 있습니다. AI 서비스 운영에서 특히 크게 작용하는 변화는 아래와 같습니다.
1. 데이터 분포 변화(Data Drift)
AI 모델은 결국 과거 데이터를 기반으로 학습된 시스템입니다. 하지만 서비스가 운영되기 시작하면 실제 환경에서 데이터가 계속 생성됩니다. 이를 통해 모델이 학습했던 데이터와 실제 데이터 사이의 분포 차이(Data Drift)가 발생하여 모델의 예측 결과에 영향을 미칩니다.
2. 사용자 행동 변화
AI는 사용자와 상호작용하는 서비스입니다. 사용자에 따라, 상황에 따라 사용 패턴은 다각화되며 초기 예상했던 사용 패턴과는 다른 사용자의 행동 변화가 발생하게 됩니다. 즉, AI 서비스와 사용자의 상호작용 과정에서 새로운 문제와 개선 포인트가 지속적으로 등장하는 구조입니다.
3. 서비스 환경 변화(내/외부 정책 등)
AI 서비스는 내부 업무 프로세스, 내/외부 정책, 외부 시스템과 함께 작동합니다. 그렇기 때문에 서비스 운영 과정에서 정책적으로 다양한 변화를 맞이하게 됩니다. 예를 들어, 금융이나 커머스, 고객 지원 분야의 경우 비교적 정책 변화가 잦은 편이며 이를 잘 관리하지 못하면 AI 모델의 판단 기준 자체에 영향을 줍니다.
이처럼 AI 서비스는 데이터, 사용자 행동, 서비스 환경이 지속적으로 변화하는 시스템입니다. 그렇기 때문에 한 번의 구축으로 동일한 성능을 유지하는 것이 아니라 지속적인 관리와 개선이 필요합니다.
실패한 AI 서비스의 공통적인 원인
AI 서비스가 어려워지는 지점은 대부분 서비스 구축 이후 운영 단계에서 발생합니다. 특히 아래의 경우는 반복적으로 일어나며 많은 기업이 공통적으로 겪고 있는 문제입니다.
1. 수동적인 변경 영향 분석
AI 서비스를 운영하다 보면 정책, 업무 규칙, 데이터 구조 등이 자주 변경됩니다. 문제는 이러한 변화가 어떤 기능이나 성능에 영향을 주는지 파악하기 어렵다는 것입니다. 그래서 기업 담당자들은 아래와 같은 방식으로 대응합니다. 이러한 방식은 대부분 사람의 기억이나 문서에 의존하기 때문에 영향 범위를 정확히 파악하기 어려울 뿐만 아니라 운영 인력 교체 시 과업 공백이 발생할 수 있습니다.
변경된 정책을 일일이 문서로 확인
관련 시스템이나 모델을 수동으로 추적
영향을 받을 가능성이 있는 기능을 수동으로 점검
2. 수동적인 회귀 테스트
AI 시스템은 ‘데이터 처리-모델 추론-서비스 로직-사용자 인터페이스’가 복합적으로 연결된 구조입니다. 이중 하나라도 변경되면 기존 기능에 영향을 미칠 수 있습니다. 하지만 어떤 부분에 영향을 받을지 알기 위해 기업 담당자들은 일부 시나리오만 선택적으로 테스트하거나 주요 기능을 직접 테스트해보는 방식으로 검증을 진행합니다. 하지만, 변경이 잦은 AI 서비스의 특성상 이러한 수동 중심 테스트 방식은 아래 문제들을 만들 수 있습니다.
한정적인 테스트 범위
개개인의 능력에 따라 바뀌는 검증 품질
반복 테스트에 따른 비효율적 자원 사용(인력과 시간)
3. 경험에 의존한 분석과 조치
AI 서비스에서 문제가 발생했을 때 가장 중요한 것은 빠르게 원인을 찾고 대응하는 것입니다. 하지만, 실제 운영 환경에서는 문제의 원인을 찾는 과정 자체가 쉽지 않습니다. 예를 들어 아래와 같은 상황이 발생했을 때, 기업은 담당자의 경험과 직관에 의존하여 문제를 해결하곤 합니다. 경험이 많은 담당자라면 빠르게 해결할 수 있지만 그게 아니라면 문제 해결이 어렵거나 해결 과정에서 다른 문제를 일으킬 가능성이 있습니다.
문제의 원인이 데이터인지 모델인지 구분하기 어려울 때
어떤 로그를 먼저 확인해야 하는지 명확하지 않을 때
여러 문제 중 무엇을 우선순위로 해결해야 할지 판단해야 할 때
AI 운영 병목의 열쇠는 ‘운영 구조화’
앞서 살펴본 문제들은 각각 다른 이슈처럼 보이지만, 공통적으로 하나의 특징을 가지고 있습니다. 바로 AI 운영이 사람 중심의 작업 방식에 의존하고 있다는 것입니다. 이러한 방식은 초기에는 유효할 수 있지만, 서비스가 확장되고 사용량이 증가할수록 운영 부담이 증가하여 결국 ‘병목’으로 이어지게 됩니다. 그래서 AI 서비스를 안정적으로 운영하기 위해서는 개별 작업을 개선하는 것이 아니라, 전체적인 운영 과정을 구조화하는 것이 필요합니다.
1. 사람의 개입을 최소화하기 위한 변경 영향 분석 구조화
기존의 수동적인 변경 영향 분석의 가장 큰 문제는 변화가 발생했을 때 어디에 영향을 미치는지 명확하게 알 수 없다는 점입니다. 그래서 대부분의 기업은 문서를 뒤지거나 담당자에게 확인하는 방식으로 영향을 받는 부분을 추적합니다. 하지만 이러한 방식은 서비스가 고도화될수록 한계에 부딪힐 수밖에 없습니다. 이 문제를 해결하기 위해서는 아래와 같은 전략이 필요합니다.
정책, 데이터, 프롬프트, 기능 간의 연결 구조 정의
변경 이력과 영향 범위를 일관된 기준으로 관리
변경 발생 시 자동으로 ‘변경 영향 분석’
2. 지속적으로 실행 가능한 회귀 테스트
AI 서비스에서 테스트는 선택이 아닌 필수 요소입니다. 하지만 여전히 많은 기업에서 일부 시나리오만을 선택적으로 검증하거나, 담당자가 직접 테스트를 수행하는 방식에 의존하고 있습니다. 이러한 방식은 테스트 범위가 제한적일 뿐만 아니라, 검증하는 사람에 따라 테스트 결과가 달라질 수밖에 없습니다. 따라서, 아래와 같이 요소들을 구조화하여 변경이 발생할 때마다 자동으로 실행되도록 전환해야 합니다.
실사용자 쿼리에 기반한 테스트 케이스 구성
테스트 결과에 기반한 정량적 품질 판단 기준
정책/문서 변경 시 자동으로 실행되는 테스트
3. 프로세스로 정의된 분석과 조치
AI 운영에서 가장 큰 리스크는 문제 해결 과정이 운영 담당자의 경험에 의존한다는 점입니다. 문제가 발생했을 때 어떤 로그를 먼저 봐야 할지, 데이터 문제인지 모델 문제인지, 문제 유형은 어떻게 구분할지, 어떤 문제를 먼저 해결해야 할지는 대부분 명확한 기준 없이 판단하는 경우가 많습니다. 이는, 담당자의 역량에 따라 서비스 품질이 흔들릴 수 있다는 것을 의미합니다. 이를 해결하기 위해서는 문제 해결 과정을 개인이 아닌 아래와 같은 구조로 전환하여 운영 프로세스 단위로 관리해야 합니다.
문제 유형에 대한 분류 체계 정의
원인 분석을 위한 기준 및 절차 정리
대응 우선순위를 결정하는 일관된 판단 기준
결국 AI의 운영 병목을 해결하기 위해서는 운영 방식의 전환이 필요합니다. 위 세 가지 문제는 서로 다른 영역처럼 보이지만, 결국 ‘AI 서비스 운영 자동화’라는 하나의 방향으로 귀결됩니다. 그리고 운영 자동화는 단순히 효율성 개선을 넘어, AI 서비스를 운영하는 기업의 경쟁력으로 이어집니다. 운영 과정이 구조화될수록 문제가 발생했을 때 더 빠르고 안정적으로 개선할 수 있기 때문입니다.
기업의 AI 서비스 경쟁력은 ‘운영 능력’에서 나온다
AI의 초기 경쟁은 주로 모델 성능에 집중되어 있었습니다. 누가 더 좋은 알고리즘을 만들고, 더 높은 정확도를 기록하는지가 핵심 경쟁력이었습니다. 하지만, 실제 서비스 환경에서는 얼마나 빠르게 문제를 발견하고 개선하는지가 경쟁력이 되고 있습니다. 모델을 한 번 잘 만드는 것보다, 변화하는 환경 속에서 서비스를 안정적으로 유지하고 빠르게 개선하는 능력이 더 중요해진 것입니다.
TEXTNET은 약 4년간 국내 엔터프라이즈 기업(KT, LG, 현대 등)을 대상으로 챗봇 구축과 유지보수, RAG 기반 서비스 설계, LLM 학습 및 평가 데이터 구축, 대화 품질 평가와 운영 체계 수립까지 AI 서비스의 전 과정에 걸쳐 다양한 프로젝트를 수행하며 AI 운영에 대한 경험을 쌓았습니다. 이러한 과정을 통해 AI 서비스 운영이 아래와 같은 반복적인 패턴으로 이루어진다는 것을 확인할 수 있었습니다.
TEXTNET이 AI 프로젝트에서 축적한 지식 자산을 하나의 구조화된 루프로 정리한 내용은 아래와 같습니다. 이 루프는 단순한 작업 순서가 아니라, AI 서비스를 안정적으로 운영하기 위해 반드시 필요한 핵심 과정입니다.
TEXTNET이 발견한 AI 운영의 반복 루프
1. Detect : 변화를 감지하는 단계
정책 변경, 문서 업데이트, 질문 패턴 변화, 데이터 변화, 서비스 기능 추적 등을 감지
2. Impact : 영향을 받는 영역을 파악하는 단계
변화가 기존 모델, 프롬프트, 문서, 데이터, 기능 등에 어떤 영향을 미칠지 파악
3. Test : 문제 가능성을 확인하는 단계
해당 영역에 실제로 문제가 발생하는지, 반영은 잘 되었는지 회귀 테스트 형태로 반복하여 확인
4. Fix : 문제를 수정하고 개선하는 단계
테스트 과정에서 발견한 문제의 원인 분석 및 유형 분류, 적절한 개선 방법을 찾아 수정
5. Verify : 수정 결과를 검증하는 단계
문제 해결 여부, 서비스 개선 여부, 사용자 경험 개선 여부, 추가 문제 발생 여부 등을 검증
6. Audit : 운영 과정을 기록하는 단계
앞서 이루어진 Detect-Impact-Test-Fix-Verify의 과정 및 결과를 기록/관리
마무리하며 : 장밋빛 청사진에 가려진 AI 서비스의 진짜 과제
많은 기업이 AI 서비스를 도입하기만 하면 드라마틱한 결과를 가져올 것이라 기대합니다. 하지만, 기대와는 반대로 운영 단계에서 예기치 못한 문제들을 마주하게 됩니다. 사용자의 행동은 예상을 벗어나며, 서비스 정책과 환경 역시 지속적으로 변화합니다. 이러한 변화는 결국 새로운 문제와 개선 과제를 끊임없이 만들어냅니다.
문제는 이런 문제들에 대해 신속정확하게 대응할 수 있는 체계적인 운영 체계가 없다는 것입니다. 기업은 오롯이 담당자의 경험과 능력에 의존하여 AI 서비스를 운영하고 있고, 기억과 문서에 의존한 영향 분석, 수없이 반복되는 수동 테스트, 경험에 의존한 개선이 누적될수록 서비스 안정성은 떨어지고 운영 부담은 커질 수밖에 없습니다.
결국, AI 서비스의 성패는 모델의 성능이 아닌 체계적이고 자동화된 운영 체계를 마련하는 것에 달려 있습니다. 안정적이고 지속가능한 AI 서비스를 위해서는 AI를 어떻게 만들 것인지보다, AI를 어떻게 운영하고 지속적으로 개선할 것인지에 대한 고민이 함께 이루어져야 합니다.