본문 바로가기 메뉴 바로가기

IT에반젤리스트

프로필사진
  • 글쓰기
  • 관리
  • 태그
  • 방명록
  • RSS

IT에반젤리스트

검색하기 폼
  • IT지식 (33)
    • IT기본지식 (8)
    • IT신기술 (7)
    • IT사설 (1)
    • IT기술사활동 (0)
    • IT기술사학습소개 (1)
    • lang (1)
      • Python (1)
  • 방명록

2025/06 (1)
RAG구성시 전처리가 불필요한가?

대부분자료에서 RAG생성시 BERT계열의 임베딩 모델을 사용하면전처리(동의어, 불용어) 처리가 필요없다는 내용이 많다. 하지만 기본 AI구축 모델의 특성상 동의어 처리가 성능개선에 도움이 된다는건 알고 있었는데 BERT같은 Transformer계열에서는 필요없다는 의견이 많아서 정리를 했습니다. 문서 벡터화(RAG 리트리버 구성)를 할 때 전처리를 어느 수준까지 해야 하는지, 특히 동의어 처리나 토큰 정제가 필요한지 여부는 성능과 정밀도에 큰 영향을 미칩니다.✅ 전제: BERT 기반 임베딩 모델의 특징BERT류(예: sentence-transformers, OpenAI Embeddings, E5, ColBERT, MiniLM)는 subword 토크나이저와 contextual embedding을 사용따..

IT신기술 2025. 6. 18. 10:21
이전 1 다음
이전 다음
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
TAG
  • 프로젝트성공
  • 핀옵스
  • 컴퓨터시스템응용기술사
  • 이더리움
  • argocd
  • 핵심집중반
  • 소프트웨어아키텍트
  • 클라우드 활용
  • ci/cd
  • 중급개발자
  • 벡터db
  • 정보관리기술사
  • 정보처리기술사
  • python성능
  • 기술사
  • atom git 연동
  • 고급개발자
  • RegeneratorRuntime
  • MariaDB
  • response.redirect
  • mysql
  • 클라우드 비용절감
  • FinOps
  • 123회기술사
  • 아이리포
  • 모델저장
  • 두음신공
  • joblib
  • SWA
  • BERT
more
«   2025/06   »
일 월 화 수 목 금 토
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30
글 보관함

Blog is powered by Tistory / Designed by Tistory

티스토리툴바