Google vừa công bố 70 trang về kỹ thuật ngữ cảnh. Đây là những điểm cốt lõi.

Hãy tưởng tượng một AI nhớ rằng bạn ăn chay. Biết phong cách debug của bạn. Nhớ lại dự án từ ba tháng trước mà bạn không cần phải nhắc lại.
Đây không phải là khoa học viễn tưởng. Google vừa công bố chính xác cách họ xây dựng nó.
Tôi đã dành hai giờ để đọc 70 trang tài liệu để bạn không cần phải làm vậy. Đây là tất cả những gì quan trọng.
Cuộc cách mạng AI không nằm ở các mô hình lớn hơn.
Mà nằm ở ngữ cảnh.
Sách trắng mới nhất của Google tiết lộ kiến trúc đằng sau một AI thực sự thông minh. Loại AI không đối xử với mọi cuộc trò chuyện như thể lần đầu gặp bạn. Loại AI thực sự trở nên thông minh hơn qua quá trình sử dụng.
Đây là cách Google đang phục vụ hàng triệu người dùng ngay bây giờ.
Và nếu bạn đang xây dựng các sản phẩm AI, bảy nguyên tắc này có thể phân biệt sản phẩm của bạn với nghĩa địa của những chatbot bị bỏ rơi.
Kỹ thuật ngữ cảnh thực chất là gì
Cửa sổ ngữ cảnh của LLM là một mảnh đất vàng.
Mỗi token đều tốn tiền. Mỗi mẩu thông tin đều chiếm không gian. Bạn không thể nhét tất cả mọi thứ vào được.
Kỹ thuật Ngữ cảnh (Context Engineering) là việc lắp ráp chính xác thông tin cần thiết vào đúng thời điểm.
Không phải là nhồi nhét dữ liệu một cách ngẫu nhiên. Mà là lắp ráp một cách có chiến lược:
Ý định người dùng. Họ đang cố gắng hoàn thành điều gì ngay bây giờ?
Lịch sử trò chuyện. Chúng ta đã thảo luận những gì?
Dữ liệu được truy xuất. Những kiến thức chung nào là quan trọng? (RAG)
Bộ nhớ dài hạn. Chúng ta biết gì về người dùng NÀY?
Đầu ra của công cụ. Dữ liệu thời gian thực nào vừa được đưa vào?
Dữ liệu nền tảng. Những sự thật nào làm cơ sở cho cuộc trò chuyện này?
Phép màu không nằm ở việc có thông tin. Mà là biết mẩu thông tin nào quan trọng cho khoảnh khắc NÀY.
Kỹ thuật ngữ cảnh kém? AI của bạn quên mất các hạn chế ăn uống và đề xuất các nhà hàng bít tết.
Kỹ thuật ngữ cảnh tuyệt vời? AI của bạn ghi nhớ sở thích, ẩm thực, khu vực lân cận và khả năng chịu đựng âm nhạc mà bạn không cần phải nhắc lại bất cứ điều gì.
Bảy chìa khóa mà Google sử dụng
Chìa khóa một: Các phiên làm việc (session) là không gian làm việc của bạn
Một phiên làm việc (session) là một cuộc trò chuyện. Có bắt đầu rõ ràng. Có kết thúc rõ ràng.
Hãy nghĩ về nó như việc mở và đóng một bàn làm việc.
Mỗi phiên làm việc có:
Sự kiện (Events) — Tin nhắn của người dùng, phản hồi của AI, lệnh gọi công cụ, các quan sát
Trạng thái (State) — Ngữ cảnh và lịch sử trò chuyện được tích lũy
Vòng đời (Lifecycle) — Bắt đầu, tương tác, kết thúc
Quy tắc là: một tác vụ, một phiên làm việc.
Debug code? Đó là một phiên.
Lên kế hoạch cho kỳ nghỉ? Một phiên mới.
Quay lại debug vào ngày mai? Có thể là cùng một phiên hoặc một khởi đầu mới.
Đây là điểm mấu chốt: các phiên làm việc kết thúc nhưng ký ức vẫn tồn tại.
Phiên làm việc đóng lại. Những gì học được vẫn còn đó.
Sự tách biệt này làm cho AI vừa có trạng thái (ghi nhớ ngữ cảnh) vừa hiệu quả (không mang theo gánh nặng vô hạn).
Chìa khóa hai: Bộ nhớ là tủ hồ sơ của bạn
Hầu hết mọi người nhầm lẫn giữa RAG và bộ nhớ.
Chúng hoàn toàn khác nhau.
RAG truy xuất các sự thật chung. "Thủ đô của Pháp?" Paris. Ai cũng nhận được câu trả lời này.
Bộ nhớ ghi lại các chi tiết CỦA BẠN. "Sarah debug như thế nào?" "Đơn cà phê của tôi là gì?" "Phong cách lãnh đạo của tôi?"
Google sử dụng hai loại bộ nhớ:
Bộ nhớ tường thuật (Declarative Memory) — Sự thật và sở thích
- "Tôi ăn chay"
- "Tôi thích TypeScript"
- "Giờ làm việc 9–5 EST"
- "Dị ứng với đậu phộng"
Bộ nhớ thủ tục (Procedural Memory) — Cách bạn làm việc
- "Tôi debug bằng cách kiểm tra log trước tiên"
- "Tôi bắt đầu cuộc họp bằng những câu chuyện phiếm"
- "Cho tôi xem code trước khi giải thích"
- "Tôi quyết định dựa trên danh sách ưu/nhược điểm"
Điều này cực kỳ quan trọng.
Bộ nhớ tường thuật = dữ liệu tĩnh. Bộ nhớ thủ tục = các mẫu hành vi động.
Cùng nhau, chúng tạo ra một AI không chỉ biết về bạn. Nó còn biết cách làm việc CÙNG bạn.
Điều này rất quan trọng khi xây dựng các sản phẩm AI mà mọi người thực sự sử dụng hàng ngày.
Chìa khóa ba: LLM tự tạo ra bộ nhớ của chính nó
Đây là bước đột phá. LLM tự thúc đẩy việc tạo ra bộ nhớ.
Đó là quá trình trích xuất thông minh tự động:
Bước 1: Trích xuất (Extract)
Trong các phiên làm việc, LLM xác định thông tin đáng ghi nhớ. Không phải tất cả mọi thứ. Chỉ những tín hiệu quan trọng.
Người dùng: "Đang di chuyển monolith của chúng tôi sang microservices. Hơn 200 lập trình viên."
Trích xuất: Quy mô công ty (hơn 200 lập trình viên), dự án (monolith sang microservices), ngữ cảnh (hệ thống phân tán).
Bước 2: Hợp nhất (Consolidate)
Thông tin mới được hợp nhất với các ký ức hiện có. Loại bỏ trùng lặp. Cập nhật. Tinh chỉnh độ tin cậy.
Trước đó: "Người dùng ở công ty cỡ vừa" Mới: "Hơn 200 lập trình viên" Cập nhật: "Người dùng ở công ty lớn (hơn 200 lập trình viên)"
Bước 3: Tải (Load)
Các ký ức đã được làm sạch được đưa vào cơ sở dữ liệu vector để truy xuất theo ngữ nghĩa.
Đây là quy trình ETL được hỗ trợ bởi LLM. Nhưng thay vì di chuyển dữ liệu cơ sở dữ liệu, bạn đang kết tinh những hiểu biết từ cuộc trò chuyện thành kiến thức bền vững.
Hệ thống học về bạn sau mỗi lần tương tác.
Chìa khóa bốn: Nguồn gốc (provenance) là lớp tin cậy của bạn
Các hệ thống sản xuất cần siêu dữ liệu (metadata) trên mọi ký ức.
Không chỉ là bạn nhớ gì. Mà là nó đến từ đâu. Bạn chắc chắn đến mức nào.
Nguồn (Source) — Phiên làm việc nào đã tạo ra điều này? "Học được từ phiên debug ngày 2025–11–10"
Dấu thời gian (Timestamp) — Nó mới đến mức nào? "Cập nhật 3 ngày trước"
Độ tin cậy (Confidence) — Chắc chắn đến mức nào? "Cao (được đề cập hơn 5 lần)" so với "Thấp (được đề cập một lần, có thể là nói đùa)"
Nguồn gốc là lớp gỡ lỗi của bạn.
AI đề xuất sai nhà hàng khi bạn ăn chay?
Kiểm tra nguồn gốc của bộ nhớ. Sở thích ăn chay được lưu trữ nhưng độ tin cậy thấp. Cập nhật: tăng độ tin cậy, thêm xác minh.
Không có nguồn gốc, hệ thống bộ nhớ là những hộp đen.
Với nó, chúng có thể gỡ lỗi, đáng tin cậy và có thể cải thiện.
Điều này trở nên quan trọng khi bạn đang mở rộng quy mô AI ra sản xuất.
Chìa khóa năm: Truy xuất chủ động (push) và bị động (pull)
Không phải mọi ký ức đều thuộc về mọi ngữ cảnh.
Các hệ thống thông minh biết khi nào nên đẩy (push) và khi nào nên kéo (pull).
Truy xuất chủ động (Proactive Retrieval - Push)
Luôn được bao gồm. Không thể thương lượng.
- Tên người dùng
- Thông tin an toàn (dị ứng)
- Sở thích cốt lõi (ngôn ngữ, múi giờ)
- Ngữ cảnh dự án đang hoạt động
Truy xuất bị động (Reactive Retrieval - Pull)
Được truy xuất theo yêu cầu thông qua sự tương đồng về ngữ nghĩa.
- Các mẫu debug trong quá khứ (chỉ khi đang debug)
- Chi tiết dự án trước đây (chỉ khi có liên quan)
- Kiến thức thủ tục (chỉ khi có tác vụ phát sinh)
Sự cân bằng là tất cả.
Quá nhiều truy xuất chủ động? Lãng phí không gian ngữ cảnh, làm chậm mọi yêu cầu.
Quá ít truy xuất chủ động? AI bị mất trí nhớ.
Cách làm của Google: truy xuất chủ động mạnh mẽ cho những thứ bắt buộc, tìm kiếm ngữ nghĩa thông minh cho mọi thứ khác.
AI quyết định trong thời gian thực kiến thức lịch sử nào quan trọng cho truy vấn này.
Hiểu điều này sẽ giúp ích khi xây dựng lộ trình AI cho sản phẩm của bạn.
Chìa khóa sáu: Thực tế phũ phàng khi triển khai sản phẩm
Xây dựng các bản demo đồ chơi với bộ nhớ thì dễ.
Các hệ thống sản xuất phục vụ hàng triệu người? Đó là nơi các đội ngũ thất bại.
Quyền riêng tư (Privacy)
Dữ liệu người dùng phải được cách ly hoàn toàn. Ký ức của bạn không thể rò rỉ vào ngữ cảnh của người khác. Không bao giờ.
Điều này có nghĩa là:
- Ranh giới ID người dùng nghiêm ngặt
- Mã hóa ở mọi nơi
- Tuân thủ GDPR, CCPA
- Quyền kiểm soát của người dùng (xem, chỉnh sửa, xóa)
Hiệu suất (Performance)
Việc truy xuất bộ nhớ không thể làm tăng thêm vài giây độ trễ. Người dùng mong đợi sự tức thì.
Điều này đòi hỏi:
- Caching mạnh mẽ
- Xử lý hàng loạt (batch operations)
- Tìm kiếm vector hiệu quả (không phải SQL)
- Tìm nạp trước thông minh (smart prefetching)
Khả năng mở rộng (Scale)
Hệ thống cần hàng triệu người dùng, mỗi người có hàng ngàn ký ức.
Cơ sở hạ tầng của Google:
- Cơ sở dữ liệu vector để tìm kiếm ngữ nghĩa
- Kho lưu trữ bộ nhớ phân tán
- Hết hạn và nén thông minh
- Suy giảm hiệu năng một cách từ từ (graceful degradation)
Đây không phải là tùy chọn. Đây là những yêu cầu tối thiểu cho AI sản xuất.
Nếu bạn nghiêm túc về quản lý sản phẩm AI, bạn cần hiểu những ràng buộc này.
Chìa khóa bảy: Điều phối việc lắp ráp ngữ cảnh
Mọi thứ kết hợp lại ở đây.
Đối với mỗi truy vấn:
- Nhận truy vấn của người dùng và trạng thái phiên làm việc.
- Tải ngữ cảnh chủ động (Push).
- Tìm kiếm ngữ cảnh bị động (Pull) dựa trên truy vấn.
- Truy xuất các sự kiện liên quan từ RAG.
- Gọi các công cụ để lấy dữ liệu thời gian thực nếu cần.
- Lắp ráp tất cả các phần thành một câu lệnh (prompt) cuối cùng.
- Gửi câu lệnh đến LLM.
Điều này xảy ra trong mili giây. Với mọi truy vấn.
Lớp điều phối làm cho cả bảy chìa khóa hoạt động cùng nhau.
Tại sao điều này thay đổi mọi thứ
Nếu bạn đang xây dựng các sản phẩm AI, đây là bản thiết kế của bạn để đi từ "tính năng AI" đến "sản phẩm AI mà mọi người yêu thích."
Sự khác biệt là gì?
Tính năng AI không có trạng thái (stateless). Mỗi tương tác là độc lập. Người dùng phải lặp lại chính mình liên tục. Sự kỳ diệu nhanh chóng phai nhạt.
Sản phẩm AI có trạng thái (stateful). Chúng học hỏi. Ghi nhớ. Trở nên tốt hơn. Sự kỳ diệu được nhân lên.
Các sản phẩm bạn sử dụng hàng ngày:
Gmail ghi nhớ phong cách viết của bạn, đề xuất các từ hoàn chỉnh.
Spotify ghi nhớ sở thích âm nhạc, cải thiện các đề xuất.
Google Photos ghi nhớ mọi người, gợi lại những kỷ niệm liên quan.
Không phải phép màu. Mà là kỹ thuật ngữ cảnh.
Đây là nền tảng để xây dựng các tác tử AI hiệu quả.
Những kiến thức nền tảng bạn cần nắm vững trước tiên
Kỹ thuật ngữ cảnh được xây dựng trên ba nền tảng:
1. RAG vs Fine-tuning vs Kỹ thuật gợi ý
Trước khi tìm hiểu về kỹ thuật ngữ cảnh, hãy hiểu khi nào nên sử dụng mỗi phương pháp.
RAG truy xuất kiến thức chung (Wikipedia, tài liệu, dữ liệu công khai)
Fine-tuning tùy chỉnh hành vi (phong cách viết, chuyên môn lĩnh vực)
Kỹ thuật gợi ý (Prompt Engineering) định hình các phản hồi (khung tác vụ, định dạng đầu ra)
Kỹ thuật Ngữ cảnh kết hợp cả ba với bộ nhớ để tạo ra AI được cá nhân hóa
Mỗi cái phục vụ các mục đích khác nhau. Hãy nắm vững các nguyên tắc cơ bản trước.
2. Làm chủ kỹ thuật gợi ý
Kỹ thuật ngữ cảnh là một dạng kỹ thuật gợi ý nâng cao. Nhưng thay vì tạo thủ công, bạn đang lắp ráp một cách có hệ thống từ bộ nhớ, RAG và dữ liệu thời gian thực.
Nền tảng kỹ thuật gợi ý càng tốt thì kỹ thuật ngữ cảnh càng mạnh mẽ.
3. Kiến trúc tác tử AI
Kỹ thuật ngữ cảnh tỏa sáng khi xây dựng các tác tử AI (AI agents). Các hệ thống tự trị thực hiện hành động thay mặt bạn.
Tác tử không có bộ nhớ = công cụ. Tác tử có bộ nhớ = đồng nghiệp.
Đó là bước nhảy vọt mà khuôn khổ của Google cho phép.
Các ứng dụng thực tế ngay bây giờ
Hãy làm cho điều này trở nên cụ thể.
Trợ lý lập trình:
- Phiên làm việc = một tác vụ debug hoặc một tính năng
- Bộ nhớ tường thuật = stack công nghệ, sở thích lập trình
- Bộ nhớ thủ tục = phương pháp debug, các mẫu hình
- Chủ động = ngữ cảnh dự án hiện tại, các tệp đang hoạt động
- Bị động = các lỗi trong quá khứ, các giải pháp lịch sử
Trợ lý viết lách:
- Phiên làm việc = một tài liệu hoặc bài viết
- Bộ nhớ tường thuật = chủ đề, đối tượng, giọng văn
- Bộ nhớ thủ tục = phong cách chỉnh sửa, các cụm từ, cấu trúc
- Chủ động = ngữ cảnh tài liệu, hướng dẫn phong cách
- Bị động = các bài viết trước đây, ghi chú nghiên cứu
Trợ lý cá nhân:
- Phiên làm việc = một tác vụ (đặt nhà hàng, tìm chuyến bay, lên lịch)
- Bộ nhớ tường thuật = sở thích, danh bạ, lịch
- Bộ nhớ thủ tục = các mẫu ra quyết định, phong cách giao tiếp
- Chủ động = lịch đang hoạt động, sở thích tức thì
- Bị động = các lựa chọn lịch sử, các tác vụ trong quá khứ
Mô hình này đúng trên nhiều lĩnh vực: các phiên làm việc rõ ràng, bộ nhớ hai tầng, truy xuất thông minh, học hỏi liên tục.
Hiểu những mô hình này sẽ giúp ích khi viết tài liệu yêu cầu sản phẩm AI (AI PRD) cho nhóm của bạn.
Những phần khó khăn không ai nhắc đến
Khuôn khổ của Google rất mạnh mẽ. Việc triển khai có những thách thức thực sự.
Thách thức 1: Khởi đầu lạnh (Cold Start)
Người dùng mới không có ký ức. Làm thế nào để bạn cung cấp giá trị trước khi biết bất cứ điều gì?
Cách tiếp cận của Google: các giá trị mặc định thông minh + học hỏi nhanh chóng ban đầu + thu thập sở thích rõ ràng.
Thách thức 2: Xung đột bộ nhớ
Sở thích thay đổi. "Tôi ăn chay" trở thành "Tôi đang thử chế độ ăn pescatarian." Làm thế nào để xử lý xung đột?
Giải pháp: ưu tiên theo dấu thời gian + chấm điểm độ tin cậy + sửa chữa rõ ràng.
Thách thức 3: Bộ nhớ phình to
Người dùng tạo ra hàng ngàn ký ức. Hầu hết chúng không liên quan trong hầu hết thời gian. Làm thế nào để ngăn chặn ô nhiễm ngữ cảnh?
Giải pháp: hết hạn bộ nhớ + chấm điểm mức độ liên quan + nén mạnh mẽ.
Thách thức 4: Mối lo ngại về quyền riêng tư
Người dùng có lý do để lo lắng về việc AI ghi nhớ mọi thứ. Làm thế nào để cân bằng giữa bộ nhớ và quyền riêng tư?
Giải pháp: minh bạch + quyền kiểm soát của người dùng + lưu giữ rõ ràng + tùy chọn xuất/xóa.
Đây không phải là những vấn đề không thể giải quyết. Nhưng chúng không hề đơn giản. Hãy lên ngân sách cho phù hợp.
Những thách thức này là lý do tại sao các khuôn khổ đánh giá AI lại quan trọng đến vậy.
Điều gì sẽ xảy ra tiếp theo
Google không công bố điều này cho vui. Họ đang đặt nền móng cho thế hệ AI tiếp theo.
Tương lai gần (6–12 tháng):
- Mọi sản phẩm AI lớn sẽ có bộ nhớ
- Người dùng sẽ mong đợi AI ghi nhớ họ
- Các sản phẩm không có bộ nhớ sẽ có cảm giác như bị hỏng
Tương lai trung hạn (1–3 năm):
- Các trợ lý AI thực sự hiểu phong cách làm việc của bạn
- Các dự án đa phiên liền mạch kéo dài hàng tuần
- AI cá nhân trở nên thông minh hơn qua quá trình sử dụng
Tương lai xa (3–5 năm):
- Các đồng nghiệp AI biết bạn rõ hơn cả con người
- Bộ nhớ kỹ thuật số bền vững tồn tại lâu hơn cả sản phẩm
- Bộ nhớ AI di động trên các nền tảng
Kỹ thuật ngữ cảnh là nền tảng cho tất cả những điều đó.
Nếu bạn đang trở thành một Giám đốc sản phẩm AI (AI PM), đây là kiến thức cơ bản mới của bạn.
Đến lượt bạn
Bạn đang xây dựng sản phẩm AI? Có hai lựa chọn:
Lựa chọn 1: Bỏ qua điều này. Tiếp tục xây dựng các tính năng không trạng thái mà người dùng sẽ từ bỏ sau khi sự mới lạ qua đi.
Lựa chọn 2: Đầu tư vào kỹ thuật ngữ cảnh. Xây dựng các sản phẩm AI có giá trị tăng dần theo thời gian.
Khuôn khổ kỹ thuật không còn là bí mật nữa. Google vừa công bố nó.
Lợi thế cạnh tranh sẽ thuộc về các đội ngũ triển khai nó tốt.
Bắt đầu từ đây:
- Xác định một tính năng không có trạng thái trong sản phẩm của bạn.
- Suy nghĩ xem bộ nhớ tường thuật và thủ tục sẽ trông như thế nào đối với tính năng đó.
- Xây dựng một nguyên mẫu đơn giản với lớp phiên làm việc và bộ nhớ.
- Thử nghiệm cách AI trích xuất, hợp nhất và tải các ký ức mới.
- Bắt đầu nhỏ, nhưng hãy bắt đầu ngay bây giờ.
Cuộc đua không dành cho người xây dựng điều này đầu tiên.
Mà là dành cho người xây dựng nó đúng cách.
Google đã mất nhiều năm để tìm ra điều này và vừa trao cho bạn bản thiết kế.
Câu hỏi là: bạn sẽ xây dựng gì với nó?
Theo dõi trên X