승상의 코딩 블로그
[도서 리뷰] LLM 서비스 설계와 최적화 - 슈레야스 수브라마니암 (한빛미디어) 본문
"한빛미디어 서평단 <나는리뷰어다> 활동을 위해서 책을 협찬 받아 작성된 서평입니다."
내가 아는 기술이라도, 비용을 낮추는 관점에서 설명을 해주니 새롭게 다가왔다.
RAG는 단순히 LLM 의 컨텍스트 윈도를 확장하는 것보다 적은 컴퓨팅 작원으로 많은 작업에서 강력한 성능을 제공한다.
RAG 가 최신의 변경이나 도메인에 특정 문서관련된 정보를 제공하는 방법이라고 생각했는데, 비용의 관점에서 바라보니 기술이 새롭게 느껴진다.
책에서는 단순히 기술을 소개하는 것에서 어떻게 운용해야 되는지에 대한 조언도 많이 준다. 컨텍스트를 어떻게 제공하느냐가 LLM과의 상호작용 성능을 키우지만, 한계(최신 훈련데이터 학습의 부재, LLM의 컨텍스트를 유지하는 설계요소,내재된 편견으로 인한 편향) 도 같이 제시하면서 추가적인 전략을 마련하는 것을 추천한다.
출력 형식을 지정함으로써, 불필요한 상호작용도 줄이고 후처리에 들어가는 시간과 비용도 줄일 수 있음을 소개해주고 있다.
아마 가장 많이 만나는 상황은 긴 문서의 처리일 것이다.
사내의 문서들은 너무나 길고, 여러해 동안의 자료를 분석하는 경우가 실무적으로 가장 많을 것이기 때문이다.
벡터스토어와 체인(chunk 로 나눠서 질문) 을 활용하면 효율적으로 활용하면 된다.
방대한 모든 양의 데이터를 처리하는 것은 비용이 많이 들기 때문에, 가장 핵심적인 부분으로 요약해 모델이 요약된 버전의 데이터 셋이서 작동하도록 한다.
그러면, LLM 의 계산 비용도 줄고, 효율적으로 저장할 수 있으며, 다른 애플리케이션의 입력으로도 사용할 수 있다. 캐싱 기능의 공간과 시간도 줄일 수 있다.
모델의 최적화도 다루고 있다. 하지만, 실제적으로 모델은 외부에서 가져다 쓰는 것이 많다보니,
중복된 가중치를 제거하는 프루닝, 더 작은 모델이 더 큰 모델을 모방하도록 훈련하는 증류, 낮은 정밀도의 데이터 타입으로 가중치와 활성화를 표현하는 양자화에 대한 내용이 나오니 참고하면 좋다.
'도서 및 강의 리뷰' 카테고리의 다른 글
[도서 리뷰] 김길성의 네트워크 딥다이브 - 김길성 (한빛미디어) (0) | 2025.06.28 |
---|---|
[도서 리뷰] 챗GPT 일타강사의 직장인 업무 만렙 공략집 - 이승필 (한빛미디어) (0) | 2025.04.25 |
[도서 리뷰] NLP와 LLM 실전가이드 - 리오르 가지트, 메이삼 가파리(한빛미디어) (0) | 2025.03.28 |
[강의 후기] 350개의 개인 앱을 만들어 월급의 7배 수익을 달성한 방법 - 프로그래밍 좀비 (단점도 있음) (2) | 2025.03.03 |
[도서 리뷰] GPT API 를 활용한 인공지능 앱 개발 2판 - 올리비에 케일린, 마리-알리스 블레트(한빛미디어) (0) | 2025.02.27 |