30 czerwca 2026
Gotowość danych do RAG — checklista przed wdrożeniem AI
Wiele wdrożeń AI w firmach rozbija się nie o model, lecz o dane. Gotowość danych do RAG to stan, w którym Twoje dokumenty są kompletne, czyste, opisane uprawnieniami i aktualizowane — czyli nadają się na bazę wiedzy, z której AI odpowiada ze źródłem. Sam model rzadko jest przewagą; liczy się to, co mu podajesz. Tę checklistę — 25 pytań w sześciu obszarach — przejdź zanim zaczniesz budować, a nie kiedy prototyp już halucynuje.
Jeśli dopiero zastanawiasz się, czym jest RAG, zacznij od wpisu RAG na dokumentach firmy. Poniżej zakładamy, że wiesz, do czego służy, i pytasz: czy moje dane są na to gotowe.
1. Źródła i zakres
Zanim cokolwiek zindeksujesz, musisz wiedzieć, co indeksujesz i gdzie to leży.
- Które dokumenty mają realnie odpowiadać na pytania? Regulaminy, procedury, oferty, dokumentacja techniczna — wypisz konkretne zbiory, nie „cała wiedza firmy”.
- Gdzie te dokumenty fizycznie są? SharePoint, dysk sieciowy, e-mail, ERP, głowa jednej osoby — każde źródło to osobna integracja i osobne ryzyko.
- Czy istnieje jedno źródło prawdy dla danego tematu? Jeśli ta sama procedura żyje w pięciu wersjach w pięciu miejscach, RAG zacytuje którąś — niekoniecznie obowiązującą.
- Kto jest właścicielem każdego zbioru? Bez właściciela nikt nie odpowie, czy dokument jest aktualny ani czy wolno go cytować.
- Co świadomie zostawiasz poza zakresem? Notatki robocze, stare wersje, prywatne foldery. Brak granicy oznacza, że model odpowie z czegoś, czego nie chcesz cytować.
2. Uprawnienia i dane wrażliwe
To obszar, który najczęściej wywraca projekt po fakcie — i najtrudniej naprawić po wdrożeniu.
- Kto może widzieć który dokument? RAG, który ignoruje uprawnienia, pokaże handlowcowi dane kadrowe. System pokaże to, co pipeline pozwoli mu pobrać.
- Czy w dokumentach są dane osobowe lub tajemnice? PESEL, dane pacjentów, warunki kontraktów — to wpływa na ocenę ryzyka, podstawę przetwarzania, retencję, architekturę dostępu i klasyfikację systemu pod AI Act.
- Czy masz podstawę przetwarzania i retencji dla danych osobowych? Włączenie dokumentu do bazy RAG to kolejny cel przetwarzania — musi mieć podstawę i określony okres przechowywania.
- Czy potrafisz filtrować odpowiedzi per rola użytkownika? Jeśli nie, jedyną bezpieczną granicą jest zawęzić zakres bazy — zanim, nie po incydencie.
- Gdzie dane zostają? W produkcyjnym RAG odpowiedź musi mieć źródło, a dane nie powinny trafiać do publicznych modeli ani do ich trenowania.
3. Jakość i struktura dokumentów
Model jest tak dobry, jak fragment, który dostanie. Śmieci na wejściu to śmieci w cytacie.
- Czy dokumenty są tekstem, czy skanami? Skan bez warstwy tekstowej trzeba najpierw przepuścić przez OCR — inaczej dla RAG to obrazek bez treści.
- Czy treść da się sensownie podzielić na fragmenty (chunking)? Tabele, formularze i 200-stronicowe PDF-y bez nagłówków tną się źle i gubią kontekst.
- Czy w bazie są duplikaty i sprzeczności? Dwie wersje tej samej polityki, które mówią co innego, to gwarancja niespójnych odpowiedzi.
- Czy dokumenty mają kontekst, czy zakładają wiedzę domyślną? Akronimy, wewnętrzne nazwy i „jak zwykle” są oczywiste dla zespołu, nie dla modelu.
- Czy dokumenty są w językach, w których system ma odpowiadać? Baza po polsku i pytania po angielsku to częsta przyczyna pustych lub słabych trafień.
4. Aktualność i wersjonowanie
Baza wiedzy to nie zrzut z jednego dnia. Dane, które się nie odświeżają, starzeją się szybciej, niż myślisz.
- Jak często zmienia się treść? Cennik co tydzień i regulamin raz na rok wymagają innego rytmu aktualizacji indeksu.
- Kto i jak aktualizuje bazę po wdrożeniu? Bez właściciela procesu RAG zacytuje stan z dnia uruchomienia — w nieskończoność.
- Czy widać datę i wersję dokumentu? Bez tego ani człowiek, ani model nie odróżni obowiązującej procedury od archiwalnej.
- Jak wycofujesz dokument z indeksu, gdy traci ważność? Usunięcie pliku ze źródła to nie to samo co usunięcie go z bazy wektorowej — bez tego RAG dalej cytuje nieaktualne.
5. Testy i miary jakości
Bez testów „działa” jest przeczuciem, nie faktem. Tu nie wystarczy zbudować — trzeba zmierzyć.
- Masz listę realnych pytań, na które system musi odpowiedzieć? To zalążek zestawu referencyjnego (golden set): pytanie, oczekiwana odpowiedź, źródło.
- Co system ma robić, gdy nie zna odpowiedzi? Poprawna odmowa („nie wiem, sprawdź u…”) jest cechą jakości, nie awarią.
- Kto oceni, czy odpowiedź jest trafna i ze źródła? Jak mierzyć jakość RAG opisujemy osobno: ewaluacja RAG. Tu chodzi o to, byś miał z czego ten test ułożyć.
6. Koszty i utrzymanie
Najdroższa część GenAI to zwykle nie inferencja, lecz inżynieria danych — a ona nie kończy się na wdrożeniu.
- Kto utrzyma pipeline danych po starcie? Porządkowanie źródeł to praca ciągła, nie jednorazowy import.
- Czy mierzysz koszt i jakość w czasie? Jak wygląda realny rachunek za GenAI na produkcji, pokazujemy na danych: ile kosztuje GenAI.
- Czy zaczynasz od wycinka, czy od całości? PoC na jednym, dobrze uporządkowanym zbiorze powie Ci więcej niż indeks wszystkiego naraz.
W skrócie
Gotowość danych do RAG sprawdza się w sześciu obszarach: źródła i zakres, uprawnienia i dane wrażliwe, jakość i struktura dokumentów, aktualność i wersjonowanie, testy jakości oraz koszt i utrzymanie. Jeśli na większość pytań odpowiadasz „nie wiem”, to nie jest powód, by rezygnować z AI — to jest pierwszy etap projektu. Najtańszy moment, by to wykryć, jest przed budową, nie po.
Co dalej
Jak budujemy RAG na firmowych dokumentach — ze źródłami, na AWS — opisujemy na stronie RAG / bazy wiedzy. Porządkowanie danych (ETL) i baza wiedzy to u nas osobny etap wdrożenia, opisany w jak pracujemy. Jeśli nie wiesz, od czego zacząć — zacznij od audytu: przejdziemy tę checklistę na Twoich danych.