승상의 코딩 블로그

[도서 리뷰] LLM 서비스 설계와 최적화 - 슈레야스 수브라마니암 (한빛미디어) 본문

도서 및 강의 리뷰

[도서 리뷰] LLM 서비스 설계와 최적화 - 슈레야스 수브라마니암 (한빛미디어)

양승상 2025. 5. 31. 22:21
반응형

  "한빛미디어 서평단 <나는리뷰어다> 활동을 위해서 책을 협찬 받아 작성된 서평입니다."

LLM 서비스 설계와 최적화

 

내가 아는 기술이라도, 비용을 낮추는 관점에서 설명을 해주니 새롭게 다가왔다.

컨텍스트

RAG는 단순히 LLM 의 컨텍스트 윈도를 확장하는 것보다 적은 컴퓨팅 작원으로 많은 작업에서 강력한 성능을 제공한다.

RAG 가 최신의 변경이나 도메인에 특정 문서관련된 정보를 제공하는 방법이라고 생각했는데, 비용의 관점에서 바라보니 기술이 새롭게 느껴진다.

 

책에서는 단순히 기술을 소개하는 것에서 어떻게 운용해야 되는지에 대한 조언도 많이 준다. 컨텍스트를 어떻게 제공하느냐가 LLM과의 상호작용 성능을 키우지만, 한계(최신 훈련데이터 학습의 부재, LLM의 컨텍스트를 유지하는 설계요소,내재된 편견으로 인한 편향) 도 같이 제시하면서 추가적인 전략을 마련하는 것을 추천한다.

 

출력 형식 재지정

출력 형식을 지정함으로써, 불필요한 상호작용도 줄이고 후처리에 들어가는 시간과 비용도 줄일 수 있음을 소개해주고 있다. 

 


아마 가장 많이 만나는 상황은 긴 문서의 처리일 것이다.

사내의 문서들은 너무나 길고, 여러해 동안의 자료를 분석하는 경우가 실무적으로 가장 많을 것이기 때문이다.

벡터 스토어와 체이닝

 

 

벡터스토어와 체인(chunk 로 나눠서 질문) 을 활용하면 효율적으로 활용하면 된다.

방대한 모든 양의 데이터를 처리하는 것은 비용이 많이 들기 때문에, 가장 핵심적인 부분으로 요약해 모델이 요약된 버전의 데이터 셋이서 작동하도록 한다. 

그러면, LLM 의 계산 비용도 줄고, 효율적으로 저장할 수 있으며, 다른 애플리케이션의 입력으로도 사용할 수 있다. 캐싱 기능의 공간과 시간도 줄일 수 있다. 

 

모델의 최적화도 다루고 있다. 하지만, 실제적으로 모델은 외부에서 가져다 쓰는 것이 많다보니,

중복된 가중치를 제거하는 프루닝, 더 작은 모델이 더 큰 모델을 모방하도록 훈련하는 증류, 낮은 정밀도의 데이터 타입으로 가중치와 활성화를 표현하는 양자화에 대한 내용이 나오니 참고하면 좋다.

반응형
Comments