RAG na dokumentach firmy — kiedy chatbot zaczyna odpowiadać ze źródeł

Publiczny chatbot odpowiada z tego, co „pamięta” z treningu. Bywa pewny siebie i jednocześnie w błędzie — i nie zna Twoich dokumentów, cenników ani procedur. RAG zmienia ten układ: model przestaje zgadywać i zaczyna odpowiadać z Twojej bazy wiedzy, ze wskazaniem źródła. Poniżej, jak to działa i co trzeba przygotować.

Czym jest RAG

RAG to skrót od retrieval-augmented generation — generowanie odpowiedzi wsparte wyszukiwaniem. Zamiast pytać model „co wiesz na ten temat”, pytamy najpierw bazę wiedzy „które fragmenty dokumentów są tu istotne”, a dopiero potem prosimy model, by ułożył z nich odpowiedź. Wiedza firmy zostaje na zewnątrz modelu, w kontrolowanym zbiorze, który możesz aktualizować bez przetrenowywania czegokolwiek.

Jak to działa krok po kroku

Najpierw dokumenty trafiają do bazy wiedzy: dzielimy je na fragmenty i zamieniamy na wektory (embeddingi), czyli liczbową reprezentację znaczenia. Gdy przychodzi pytanie, zamieniamy je na wektor tą samą metodą i szukamy fragmentów najbliższych znaczeniowo — to wyszukiwanie semantyczne, które rozumie sens, nie tylko dopasowanie słów.

Znalezione fragmenty wędrują do modelu razem z pytaniem i jasną instrukcją: odpowiedz wyłącznie na ich podstawie i podaj, skąd pochodzą. Użytkownik dostaje odpowiedź z linkiem do źródła i może ją zweryfikować w sekundę.

Gdzie mieszka baza wiedzy

Bazę wiedzy budujemy na AWS, w usłudze Amazon Bedrock Knowledge Bases — natywnym mechanizmie RAG w tej chmurze. Indeks i dokumenty zostają w Twoim koncie chmurowym, pod Twoją kontrolą. To istotne nie tylko technicznie: dane osobowe i tajemnice firmy nie wędrują do publicznych modeli, co porządkuje sprawę także po stronie RODO.

Jak RAG ogranicza halucynacje

Sam RAG nie gwarantuje prawdy — gwarantuje ją dyscyplina wokół niego. Trzy rzeczy robią różnicę:

Ścisłe trzymanie się źródeł. Model ma odpowiadać tylko z odnalezionych fragmentów. Gdy w bazie nie ma odpowiedzi, ma powiedzieć „nie wiem”, zamiast zmyślać wiarygodnie brzmiące zdanie.
Cytowania. Każda odpowiedź wskazuje dokument i miejsce, z którego pochodzi. To zamienia „zaufaj mi” w „sprawdź sam”.
Ewaluacje. Jakość odpowiedzi mierzymy automatycznie i powtarzalnie, bo baza i pytania zmieniają się w czasie. Bez tego system po cichu traci formę.

Zbudowaliśmy dokładnie taki układ dla własnego produktu, mojApteczka, w domenie ochrony zdrowia — gdzie „prawie dobra” odpowiedź jest groźna. Ścisły RAG, cytowania i ewaluacje nie były tam ozdobą, tylko warunkiem wejścia.

Ile to kosztuje

Uczciwa odpowiedź brzmi: zależy. Na koszt składają się przygotowanie źródeł (zwykle największa praca), wielkość bazy, liczba integracji i wolumen zapytań. Sam koszt pojedynczego zapytania potrafi być bardzo niski, jeśli architektura jest rozsądna — dobór modelu do zadania, cache i monitoring kosztu per zapytanie pilnują, by skala nie zjadła marży.

Kiedy warto, a kiedy nie

RAG ma sens, gdy odpowiedzi mają pochodzić z Twoich treści: dokumentacji produktu, procedur, bazy wsparcia, umów, wiedzy eksperckiej. Gdy pytania dotyczą wiedzy ogólnej albo wymagają liczenia na żywo z systemów transakcyjnych, lepsze bywają inne wzorce — czasem zwykła integracja, a nie baza wiedzy. Dlatego każdą rozmowę zaczynamy od tego, co naprawdę chcesz osiągnąć.

Co dalej

Najtańszym pierwszym krokiem jest sprawdzenie, czy Twoje źródła są gotowe pod RAG — bo to one decydują o jakości, nie sam model. Więcej o tym, jak wdrażamy RAG, opisaliśmy na osobnej stronie: RAG dla firm.