Kiến thức8 phút đọcTác giả: ntdungdev

RAG là gì? Vì sao chatbot doanh nghiệp BẮT BUỘC phải có Knowledge Base

RAG (Retrieval-Augmented Generation) là gì, cách AI đọc hiểu tài liệu công ty, vì sao chatbot không có RAG sẽ báo sai giá và hallucinate. Giải thích dễ hiểu + ví dụ thực tế.

Bạn đã từng hỏi ChatGPT "Giá iPhone 15 Pro Max bao nhiêu?" và nhận được câu trả lời sai lè ra? Đó là vì ChatGPT không biết giá real-time của shop bạn. Nó chỉ biết những gì đã được training đến cutoff date.

Với chatbot doanh nghiệp, vấn đề này còn nghiêm trọng hơn: bot không biết sản phẩm, không biết chính sách, không biết giá của chính shop bạn. Nếu không có giải pháp, bot sẽ bịa đại — gọi là hallucination.

RAG (Retrieval-Augmented Generation) là giải pháp cho vấn đề này.

Bot KHÔNG có RAG trông thế nào?

Giả sử bạn là shop bán mỹ phẩm. Khách hỏi: "Son MAC Ruby Woo giá bao nhiêu em?"

Bot không có RAG (chỉ dùng GPT thuần):

"Dạ son MAC Ruby Woo hiện tại có giá khoảng 690.000 VNĐ ạ. Đây là dòng son classic được nhiều người yêu thích..."

Vấn đề: GPT không biết giá shop bạn, nó đoán dựa trên giá trung bình trên Internet mà nó học được. Có thể:

Shop bạn bán 720.000đ → khách inbox hỏi, bot báo 690k → khách đến mua, phản ứng: "nhân viên bảo 690k mà!"
Shop bán 550.000đ (giá tốt hơn) → bot báo 690k → khách nghĩ đắt, bỏ qua

Mỗi lần bot sai giá = mất lòng tin + mất đơn.

RAG là gì — Giải thích siêu đơn giản

RAG = Retrieve + Augment + Generate

Dịch sang Việt: "Tra cứu + Bổ sung + Sinh câu trả lời"

Cơ chế 3 bước:

Bước 1: Retrieve (Tra cứu)

Khi khách gửi câu hỏi, hệ thống tra cứu trong knowledge base (kho tài liệu của shop) để tìm đoạn liên quan.

Bước 2: Augment (Bổ sung context)

Lấy đoạn tìm được, ghép vào prompt của AI:

[Knowledge Base]
Son MAC Ruby Woo - Giá: 720.000đ - Kho: còn 15 hộp - Khuyến mãi: giảm 10% khi mua kèm dưỡng môi

[Câu hỏi khách]
Son MAC Ruby Woo giá bao nhiêu?

[Yêu cầu AI]
Trả lời khách dựa trên Knowledge Base trên. Nếu không có trong KB, nói rõ "em cần xác nhận".

Bước 3: Generate (Sinh câu trả lời)

AI đọc KB + câu hỏi, sinh ra câu trả lời chính xác theo data shop:

"Dạ son MAC Ruby Woo bên shop em đang bán 720.000đ, còn 15 hộp. Nếu anh/chị mua kèm dưỡng môi sẽ được giảm 10% ạ. Em gửi link mua hay anh/chị xem trực tiếp tại shop?"

Khác biệt hoàn toàn: bot biết giá thật, biết tồn kho, biết khuyến mãi. Không bịa.

Cấu trúc kỹ thuật của RAG

RAG có 4 component chính:

1. Knowledge Base (Nguồn tri thức)

Chứa toàn bộ thông tin về shop:

Catalogue sản phẩm
Bảng giá
Chính sách bảo hành, đổi trả
FAQ
Chat log customer service cũ
Tài liệu hướng dẫn

Format thường là Markdown, PDF, Word, Google Docs.

2. Embeddings (Chuyển văn bản → số)

Mỗi đoạn text được convert thành vector số (1024-4096 chiều) bằng model như text-embedding-3-small (OpenAI) hoặc gemini-embedding-001 (Google).

Ví dụ:

"Son MAC Ruby Woo giá 720.000đ" 
  → [0.23, -0.45, 0.67, ..., 0.12] (1024 số)

2 câu có nghĩa tương tự sẽ có vector gần nhau trong không gian 1024 chiều. Đây là "phép màu" để bot tìm đoạn liên quan.

3. Vector Database (Lưu trữ)

Lưu tất cả vectors để tra cứu nhanh. Phổ biến:

Qdrant (open-source, dev-friendly)
Pinecone (cloud, dễ dùng)
Weaviate (enterprise)
Postgres + pgvector (cho stack Postgres)

4. LLM (Sinh câu trả lời)

Khi có context + câu hỏi, LLM sinh câu trả lời:

Gemini Flash (rẻ, nhanh, tiếng Việt tốt)
GPT-4o mini (cân bằng)
Claude Haiku (dài context)

Luồng hoạt động đầy đủ

1. CHUẨN BỊ (1 lần)
   Tài liệu → Chia nhỏ (chunks) → Embed → Lưu Vector DB

2. RUNTIME (mỗi lần khách hỏi)
   Câu hỏi → Embed → Search top-K chunks liên quan
   → Ghép vào prompt LLM → Sinh câu trả lời

Ví dụ cụ thể với shop mỹ phẩm:

Step 1: Upload catalogue 200 SKU → Hệ thống chia thành 500 chunks (mỗi chunk ~200 từ) → Embed → Lưu Qdrant
Step 2: Khách hỏi "Son đỏ nào phù hợp da trắng?"
- Embed câu hỏi → Vector [-0.2, 0.4, ...]
- Search Qdrant → Top 5 chunks liên quan (về son đỏ, về da trắng, gợi ý màu)
- LLM đọc 5 chunks + câu hỏi → Trả lời: "Dạ với da trắng, em gợi ý 3 tone son đỏ: [A], [B], [C]..."

RAG vs Fine-tuning — Khác gì?

Nhiều người lẫn lộn RAG với fine-tuning (training lại model).

	RAG	Fine-tuning
Cách hoạt động	Cung cấp context khi cần	Train model với data shop
Thời gian setup	Vài giờ - vài ngày	Nhiều tuần, cần GPU
Chi phí	Thấp ($0.02/1k tokens)	Rất cao ($100-10k)
Update data	Thêm chunk mới = xong	Phải retrain model
Độ chính xác	Cao nếu KB tốt	Cao nhưng kém linh hoạt
Phù hợp	99% use case doanh nghiệp	Edge cases, domain rất đặc thù

→ Với chatbot doanh nghiệp, RAG luôn là lựa chọn đúng.

Chi phí implement RAG thực tế

Cho shop nhỏ (200 SKU)

Embeddings: 200 × $0.00002/1k tokens = ~$0.01 (cho toàn bộ catalogue)
Vector DB: Qdrant free tier (1GB) = $0
LLM runtime: 2000 query/tháng × 500 tokens × $0.0001 = ~$1/tháng

Tổng: ~25k/tháng.

Cho DN vừa (2000 SKU, 10k query/tháng)

Embeddings: ~$0.50 ban đầu
Vector DB: Qdrant Cloud $25/tháng
LLM: 10k × $0.0002 = $2/tháng

Tổng: ~650k/tháng.

Cho enterprise (QCV case — 1000+ sản phẩm, đa brand)

Self-host Qdrant trên VPS: ~500k/tháng
Gemini Flash: ~$10/tháng cho traffic cao
Embedding update hàng tuần: ~$5/tháng

Tổng: ~900k/tháng.

Kết luận: RAG không đắt. Có doanh thu 20tr/tháng chi <1tr cho AI là đáng.

5 dấu hiệu bot của bạn cần RAG

Bot báo sai giá ít nhất 1 lần/tuần
Khách phải gõ đúng tên sản phẩm bot mới hiểu
Bot không biết chính sách mới (khuyến mãi, đổi trả) sau khi update
Nhân viên vẫn phải can thiệp 70%+ conversation
Không tích hợp được với catalogue trên website/Google Sheets

Nếu bạn gặp 2+ trong 5 dấu hiệu → update lên RAG ngay.

Cần build sẵn RAG hay dùng dịch vụ?

Tự build

Cần team dev có kinh nghiệm AI
2-4 tuần implement
Phải maintain hệ thống (upload data, monitor chất lượng)
Phù hợp: cty có IT team mạnh

Dùng dịch vụ (như ChatbotAI.vn)

Setup 6-7 ngày
Bao gồm crawl website tự động, test, maintain
Không cần lo infra
Phù hợp: 95% doanh nghiệp nhỏ-vừa

Kết luận

RAG = cách duy nhất để chatbot doanh nghiệp trả lời đúng theo data của bạn, không bịa. Đây là technique chuẩn được dùng bởi ChatGPT Enterprise, Claude Projects, Gemini for Workspace.

Nếu chatbot bạn đang dùng không có RAG, nó sẽ:

Báo sai giá thường xuyên
Không biết sản phẩm mới
Không tư vấn được theo ngữ cảnh
Khiến khách mất lòng tin

Cần chatbot có RAG cho doanh nghiệp của bạn?

Chúng tôi làm chatbot AI với RAG tự động crawl website + upload catalogue. Bot học sản phẩm của bạn sau 6-7 ngày, tích hợp Web/FB/Zalo.

📖 Đọc tiếp: So sánh Flow bot vs AI Chatbot

👉 Xem demo · 💰 Bảng giá từ 5tr · 📞 0373 527 362