Tôi đã xây dựng khoảng 300 agent, làm việc tại 5 startup. Đây là những gì tôi học được về AI Agent


Những bài học rút ra sau hơn một năm làm việc với agent.
Có những thập kỷ chẳng có gì xảy ra, và có những tuần mà chuyện của cả thập kỷ diễn ra. Hiện tại, chúng ta đang ở thời điểm mà theo đúng nghĩa đen, các mô hình mới hơn, kỹ thuật tối ưu hóa mới hơn, kiến trúc mới hoàn toàn đang không được hầu hết chúng ta trong lĩnh vực ML/AI chú ý đến.
Tôi đã đi sâu vào thế giới của các AI agent. Tôi đã xây dựng khoảng 300 agent, từ các nguyên mẫu nhỏ đến các hệ thống cấp sản xuất, và làm việc với 5 startup khác nhau thử nghiệm cách các agent có thể cung cấp sức mạnh cho sản phẩm và các trường hợp sử dụng.

Tiện thể khoe một chút: Tôi đang viết một cuốn sách về AI Agent cùng Manning Publications. Và trong quá trình đó, tôi viết rất nhiều nội dung công khai. Điều này đóng vai trò như một cách để nhận phản hồi.
Trên hành trình đó, tôi đã học được rất nhiều về những gì hiệu quả, những gì không, và lĩnh vực này đang hướng về đâu. Mặc dù đây chỉ là suy nghĩ của cá nhân tôi, chúng vẫn có thể giúp bạn có một góc nhìn mới.
Trước hết, hãy để tôi giải thích nhanh agent là gì. Khi nói đến agent, ý tôi là LLM agent, không phải định nghĩa chính thức mà chúng ta thấy trong Reinforcement Learning (RL).
Agent = LLM + Suy luận (Reasoning) + Công cụ (Tools) + Bộ nhớ (Memory)
Vì ngày nay, chúng ta có các LLM với khả năng suy nghĩ tích hợp sẵn, bạn thậm chí có thể đơn giản hóa điều này hơn nữa:
Agent = LLM + Công cụ (Tools) + Bộ nhớ (Memory)
Chỉ vậy thôi. Các thuật ngữ như Agentic workflow (quy trình agentic), Agentic System (hệ thống agentic), Team of Agents (đội ngũ agent), v.v. đều chỉ là một pipeline được kết nối chặt chẽ của một vài agent cơ bản.
Trong năm qua, tôi đã làm việc để xây dựng các pipeline này và làm cho chúng trở nên đáng tin cậy. Tôi đã học được rất nhiều trong quá trình này.
Framework không quá quan trọng
Tôi đã xây dựng các agent bằng crewai, dspy, langgraph, autogen và thậm chí cả SDK agent của OpenAI và Google. Tôi cũng đã tự xây dựng framework của riêng mình trong quá trình này (đang viết một báo cáo nghiên cứu chi tiết về nó, sẽ sớm ra mắt). Sau khi sử dụng tất cả, rõ ràng là bạn không cần phải bị ràng buộc bởi một framework nào. Tất cả những gì bạn cần tập trung là pipeline của ứng dụng.
Xây dựng agent không đồng nghĩa với AI/ML
Tôi tự gọi mình là Kỹ sư AI (AI Engineer), nhưng thực ra tôi chỉ là một anh chàng backend sử dụng các API của LLM và viết một vài prompt. Điều này cho thấy rõ, việc có nền tảng kỹ thuật phần mềm tốt là quan trọng và không thể thiếu.
Agent chỉ tốt khi ngữ cảnh của chúng tốt
Hiểu lầm lớn nhất là bạn chỉ cần đưa cho một LLM một mục tiêu và mong đợi phép màu xảy ra. Trên thực tế, chất lượng của agent phụ thuộc rất nhiều vào ngữ cảnh bạn cung cấp cho nó. Prompt, công cụ, bộ nhớ, và (hiếm khi) môi trường. Một ngữ cảnh được cấu trúc tốt thường có giá trị hơn cả một mô hình ngôn ngữ lớn hơn.
Không có tool, agent trở nên vô dụng
Một agent độc lập chỉ "suy nghĩ" mà không có công cụ sẽ nhanh chóng bị bế tắc. Khoảnh khắc bạn cho nó khả năng thực hiện hành động (API, cơ sở dữ liệu, quy trình công việc), nó trở nên hữu ích. Tôi đã làm việc tại Composio trong giai đoạn đầu (tháng 5-7 năm 2024), đó là kỳ thực tập "thực sự" đầu tiên của tôi và nó đã thay đổi quỹ đạo cuộc đời tôi một cách tốt đẹp.
Sự đơn giản luôn chiến thắng
Một số agent hiệu quả nhất của tôi lại đơn giản đến bất ngờ: một prompt rõ ràng, một hoặc hai công cụ được định nghĩa tốt, và một trách nhiệm duy nhất. Sự phức tạp thường dẫn đến sự mong manh. Các agent tốt nhất được xây dựng cho một trường hợp sử dụng cụ thể, sắc bén và thực hiện tốt điều đó.
Việc đánh giá đang bị xem nhẹ
Rất dễ để xây dựng một bản demo hào nhoáng, nhưng khó hơn nhiều để đo lường một agent thực sự tốt đến mức nào. Tôi đã học được rằng việc thiết lập các bài kiểm tra và vòng lặp phản hồi trong thế giới thực là điều phân biệt các dự án đồ chơi với các hệ thống sản xuất đáng tin cậy.
DSPy là tương lai
Tôi đã thử nghiệm với DSPy trong vài tháng qua, và càng sử dụng nó, tôi càng cảm thấy việc xây dựng agent bằng nó thật tự nhiên. Signatures, adapters, training set, optimizers.
Lệnh .compile() cho cảm giác thật thân thuộc. Chính xác là cách nó nên được thiết kế.
Con người quan trọng hơn công nghệ
Làm việc với 5 startup đã cho tôi thấy rằng công nghệ chỉ là một phần của câu chuyện. Văn hóa thử nghiệm, tốc độ lặp lại và sự rõ ràng trong tầm nhìn còn quan trọng hơn. Một trường hợp sử dụng agent trung bình trong tay đúng người có thể tạo ra giá trị thực; một trường hợp sử dụng agent xuất sắc trong tay sai người sẽ chẳng đi đến đâu.
Kết luận
AI agent vẫn còn ở giai đoạn sơ khai. Sự cường điệu là có thật, nhưng những thách thức cũng vậy. Điều khiến tôi hào hứng nhất là chúng ta đang chuyển từ những món đồ chơi nghiên cứu sang các hệ thống ở cấp độ hạ tầng. Trong tương lai, mọi sản phẩm có thể sẽ có các agent chạy ngầm, điều phối các tác vụ, cá nhân hóa trải nghiệm và xử lý sự phức tạp mà con người không muốn giải quyết.
Tôi đã mắc sai lầm, học được nhiều bài học, và chứng kiến cả thành công lẫn thất bại. Nếu có một điều cần rút ra, đó là: agent không phải là sản phẩm, chúng là công cụ hỗ trợ. Điều kỳ diệu xảy ra khi bạn nhúng chúng vào các quy trình làm việc, nơi chúng ẩn mình và chỉ âm thầm hoạt động hiệu quả.
Theo dõi trên X