티스토리 뷰

IT신기술

RAG구성시 전처리가 불필요한가?

정두현의아이티세상 2025. 6. 18. 10:21

대부분자료에서 RAG생성시 BERT계열의 임베딩 모델을 사용하면

전처리(동의어, 불용어) 처리가 필요없다는 내용이 많다. 

 

하지만 기본 AI구축 모델의 특성상 동의어 처리가 성능개선에 도움이 된다는건 알고 있었는데 

BERT같은 Transformer계열에서는 필요없다는 의견이 많아서 정리를 했습니다.

 

 

문서 벡터화(RAG 리트리버 구성)를 할 때 전처리를 어느 수준까지 해야 하는지, 특히 동의어 처리나 토큰 정제가 필요한지 여부는 성능과 정밀도에 큰 영향을 미칩니다.


✅ 전제: BERT 기반 임베딩 모델의 특징

  • BERT류(예: sentence-transformers, OpenAI Embeddings, E5, ColBERT, MiniLM)는 subword 토크나이저contextual embedding을 사용
  • 따라서 "자동으로 문맥 내 동의어/어형을 파악"하려는 구조를 가짐
  • 이 때문에 “전처리 불필요”하다는 말이 자주 나옵니다 — 그러나 실제 성능 최적화에선 예외가 많습니다

🔍 핵심 질문: RAG에서 전처리 vs 미전처리 검색 차이?

 

 

항목 전처리 없이 사용 전처리 후 사용
동의어 인식 문맥 기반 추론 가능하나 완전하지 않음 통일된 단어 표현 → 벡터 유사도 ↑
오탈자/표기 변형 대응 약함 (예: "resumé" vs "resume") 정규화 시 검색 성능 향상
지식 도메인 특이어 OOV(사전 외 단어)에 약함 도메인 용어 정제 시 ↑
임베딩 유사도 정확도 문장 내 일관성 있을 때만 높음 동적 컨트롤 가능 (ex. custom tokenizer)
구현 난이도 간단 전처리 파이프라인 필요

✅ 예시로 보는 차이

 
쿼리: "온라인 회계 서비스 추천"
 
문서 A: "AI 기반 세무 시스템을 제공합니다"
문서 B: "클라우드 회계 솔루션을 제공합니다"
 
→ 전처리 없음: “세무 ≠ 회계”로 취급 → 문서 A 누락 가능
→ 전처리 있음: “세무” → “회계” 변환 → 문서 A 포함 가능

📌 어떤 환경에서 전처리가 유리한가?

 

조건  전처리 권장 여부이유
도메인 특화 (법률, 의료, 회계) 적극 권장 동의어, 전문 용어 표현 통일 필요
짧은 쿼리 / 단문 질의 ✅ 권장 유사도 매칭이 약하므로 의미 보정 필요
멀티랭귀지 환경 ✅ 권장 언어 혼용·표기 일관성 확보
사용자 생성 콘텐츠 (UGC) ✅ 권장 오타·비속어 등 처리 필요
BERT 계열 사용 (context-rich) ❌ 전처리 적게 모델이 대부분 추론 가능 (단, normalization은 예외)
BM25 / TF-IDF 병행 사용 ✅ 필수 키워드 기반은 정규화된 토큰에 강함
 

🔧 추천 전처리 전략 (RAG 리트리버에 유리)

 

작업 예시 추천 여부
소문자화 Resume → resume
불용어 제거 "the", "a", "에", "는" ❌ (BERT에선 X, TF-IDF엔 O)
동의어 치환 "세무" → "회계" ✅ 도메인 사전 기반
형태소 분리 "AI기반" → "AI + 기반" ❌ BERT 불필요
표기 정규화 "NLP", "자연어처리" → 동일화
개체명 인식 후 치환 이름 → [PERSON] ❌ 또는 상황에 따라
 

✅ 결론

 

항목 권장 여부
BERT 기반 임베딩만 쓸 경우 기본 전처리만 수행 (소문자화, 특수문자 제거 정도)
RAG 정확도 향상이 필요할 경우 도메인 동의어, 표기 정규화는 적극 적용
TF-IDF / BM25 병행 검색 정규화, 불용어 제거 필수
멀티랭귀지, 사용자 질문 다양할 경우 전처리 로직으로 의미 통일이 매우 유리

 

 

 

✅ 예시로 보는 차이

 
쿼리: "온라인 회계 서비스 추천" 문서 A: "AI 기반 세무 시스템을 제공합니다"
문서 B: "클라우드 회계 솔루션을 제공합니다"
→ 전처리 없음: “세무 ≠ 회계”로 취급 → 문서 A 누락 가능
→ 전처리 있음: “세무” → “회계” 변환 → 문서 A 포함 가능

📌 어떤 환경에서 전처리가 유리한가?


조건 전처리 권장 여부 이유
도메인 특화 (법률, 의료, 회계) 적극 권장 동의어, 전문 용어 표현 통일 필요
짧은 쿼리 / 단문 질의 ✅ 권장 유사도 매칭이 약하므로 의미 보정 필요
멀티랭귀지 환경 ✅ 권장 언어 혼용·표기 일관성 확보
사용자 생성 콘텐츠 (UGC) ✅ 권장 오타·비속어 등 처리 필요
BERT 계열 사용 (context-rich) ❌ 전처리 적게 모델이 대부분 추론 가능 (단, normalization은 예외)
BM25 / TF-IDF 병행 사용 ✅ 필수 키워드 기반은 정규화된 토큰에 강함
 

🔧 추천 전처리 전략 (RAG 리트리버에 유리)

 

작업 예시 추천 여부
소문자화 Resume → resume
불용어 제거 "the", "a", "에", "는" ❌ (BERT에선 X, TF-IDF엔 O)
동의어 치환 "세무" → "회계" ✅ 도메인 사전 기반
형태소 분리 "AI기반" → "AI + 기반" ❌ BERT 불필요
표기 정규화 "NLP", "자연어처리" → 동일화
개체명 인식 후 치환 이름 → [PERSON] ❌ 또는 상황에 따라
 

✅ 결론

 

항목 권장 여부
BERT 기반 임베딩만 쓸 경우 기본 전처리만 수행 (소문자화, 특수문자 제거 정도)
RAG 정확도 향상이 필요할 경우 도메인 동의어, 표기 정규화는 적극 적용
TF-IDF / BM25 병행 검색 정규화, 불용어 제거 필수
멀티랭귀지, 사용자 질문 다양할 경우 전처리 로직으로 의미 통일이 매우 유리

'IT신기술' 카테고리의 다른 글

pandas-멀티인덱스  (1) 2024.10.04
redis설치및 2중화  (0) 2020.04.06
spring boot프로젝트 수행  (0) 2019.09.06
댓글