AI TỐT
Chia sẻ kiến thức AI để tốt hơn

Tôi đã nghiên cứu 1.500 bài báo học thuật về prompt engineering. Đây là lý do mọi điều bạn biết đều sai lầm.

7 phút đọc
Aakash Gupta
Aakash Gupta

Các công ty có doanh thu hàng năm (ARR) hơn 50 triệu đô la đang làm điều hoàn toàn ngược lại với những gì mọi người vẫn dạy

Sau sáu tháng đi sâu vào nghiên cứu học thuật về prompt engineering, đọc hơn 1.500 bài báo và phân tích các kỹ thuật thực sự mang lại kết quả kinh doanh, tôi đã đi đến một kết luận đáng lo ngại: hầu hết các lời khuyên về prompt engineering lan truyền trên LinkedIn và Twitter không chỉ vô ích — mà còn phản tác dụng.

Các công ty xây dựng những tính năng có thể mở rộng quy mô lên ARR hơn 50 triệu đô la không hề tuân theo các "phương pháp tốt nhất" đang thống trị các cuộc thảo luận trên mạng xã hội. Họ đang làm điều ngược lại một cách có hệ thống so với những gì quan niệm thông thường đề xuất. Gần đây, tôi đã thảo luận về hiện tượng này với các chuyên gia AI trên Product Growth Podcast, và sự đồng thuận rất rõ ràng: có một khoảng cách lớn giữa những gì nghe có vẻ hay và những gì thực sự hiệu quả.

Đây không chỉ là sự tò mò mang tính học thuật. Việc hiểu rõ điều gì thực sự hiệu quả trong prompt engineering so với những gì nghe có vẻ hay trong các buổi hội thảo có thể là sự khác biệt giữa các tính năng AI làm hài lòng người dùng và các tính năng AI đốt ngân sách mà không mang lại giá trị.

Sau khi phân tích hàng trăm bài báo nghiên cứu và các ứng dụng trong thế giới thực, tôi đã xác định được sáu lầm tưởng phổ biến đang dẫn các đội nhóm đi sai hướng — và những thực tế được nghiên cứu chứng minh mà các công ty thành công đang sử dụng.

Nghiên cứu thay đổi mọi thứ

Trước khi đi sâu vào các lầm tưởng cụ thể, điều quan trọng là phải hiểu tại sao quan niệm thông thường về prompt engineering lại thường sai lầm. Hầu hết các lời khuyên đều đến từ những thử nghiệm ban đầu với các mô hình kém năng lực hơn, bằng chứng giai thoại từ các bài kiểm tra quy mô nhỏ, hoặc các khung lý thuyết không tính đến sự phức tạp của môi trường sản phẩm thực tế.

Ngược lại, nghiên cứu học thuật bao gồm các thí nghiệm có kiểm soát với bộ dữ liệu lớn, so sánh có hệ thống trên các kiến trúc mô hình khác nhau, và phân tích thống kê nghiêm ngặt về những gì thực sự cải thiện hiệu suất so với những gì chỉ mang lại cảm giác trực quan.

“Khoảng cách giữa những gì nghe có vẻ thông minh và những gì thực sự hiệu quả trong AI là rất lớn,” một nhà nghiên cứu đã xuất bản nhiều công trình về tối ưu hóa prompt nói với tôi. “Mọi người đang đưa ra quyết định dựa trên trực giác thay vì bằng chứng.”

Sáu lầm tưởng mà tôi đã xác định đại diện cho những sự khác biệt lớn nhất giữa lời khuyên phổ biến và bằng chứng thực nghiệm.

Lầm tưởng 1: Prompt dài và chi tiết hơn cho kết quả tốt hơn

Lầm tưởng phổ biến nhất trong prompt engineering là các prompt chi tiết và dài hơn sẽ tự động tạo ra kết quả tốt hơn. Trực giác này có vẻ hợp lý — nếu bạn nhờ một người giúp đỡ, việc cung cấp nhiều ngữ cảnh và hướng dẫn cụ thể hơn thường dẫn đến kết quả tốt hơn.

Nhưng các mô hình AI không hoạt động giống như con người. Nghiên cứu liên tục cho thấy các prompt ngắn có cấu trúc tốt thường vượt trội hơn các phương án dài dòng trong khi giảm chi phí đáng kể.

Một nghiên cứu gần đây so sánh độ dài của prompt trên các loại tác vụ khác nhau đã phát hiện ra rằng các prompt ngắn có cấu trúc đã giảm 76% chi phí API trong khi vẫn duy trì chất lượng đầu ra tương đương. Chìa khóa nằm ở cấu trúc, không phải độ dài.

Các prompt dài thực sự có thể làm giảm hiệu suất bằng cách thêm nhiễu, tạo ra các hướng dẫn mâu thuẫn, hoặc đẩy ngữ cảnh quan trọng ra khỏi cửa sổ chú ý của mô hình. Các prompt hiệu quả nhất là những prompt chính xác và tiết kiệm từ ngữ.

Thực tế: Cấu trúc quan trọng hơn độ dài. Một prompt 50 từ được tổ chức tốt thường vượt trội hơn một prompt 500 từ lan man trong khi chi phí thực thi thấp hơn đáng kể.

Lầm tưởng 2: Càng nhiều ví dụ càng tốt (Few-Shot Prompting)

Few-shot prompting — cung cấp các ví dụ về cặp đầu vào-đầu ra mong muốn — đã trở nên phổ biến trong những ngày đầu của các mô hình ngôn ngữ lớn khi các minh họa cải thiện đáng kể hiệu suất. Điều này dẫn đến giả định rằng càng nhiều ví dụ thì kết quả càng tốt.

Nghiên cứu gần đây cho thấy giả định này không chỉ sai mà còn có thể gây hại tích cực với các mô hình tiên tiến như GPT-4 và Claude.

Các mô hình hiện đại đủ tinh vi để hiểu hướng dẫn mà không cần nhiều ví dụ, và việc cung cấp các ví dụ không cần thiết thực sự có thể làm mô hình bối rối hoặc thiên vị nó theo các mẫu không khái quát hóa tốt cho các đầu vào mới.

Thực tế: Các mô hình tiên tiến như o1 của OpenAI thực sự hoạt động kém hơn khi được cung cấp ví dụ. Chúng đủ tinh vi để hiểu các hướng dẫn trực tiếp và các ví dụ có thể gây ra thiên vị hoặc nhiễu không mong muốn.

Lầm tưởng 3: Câu chữ hoàn hảo là quan trọng nhất

Một trong những khía cạnh tốn thời gian nhất của prompt engineering là việc trau chuốt câu chữ — cẩn thận tạo ra cách diễn đạt hoàn hảo, điều chỉnh giọng văn và tối ưu hóa lựa chọn từ ngữ. Nhiều đội nhóm dành hàng giờ để tranh luận xem có nên nói "làm ơn" hay sử dụng thuật ngữ cụ thể hay không.

Nghiên cứu cho thấy nỗ lực này phần lớn là vô ích. Định dạng và cấu trúc của prompt quan trọng hơn nhiều so với các từ ngữ cụ thể được sử dụng.

Đối với các mô hình Claude nói riêng, định dạng XML liên tục mang lại hiệu suất tăng 15% so với định dạng ngôn ngữ tự nhiên, bất kể nội dung cụ thể là gì. Lợi thế về định dạng này thường vượt qua việc tối ưu hóa lựa chọn từ ngữ một cách cẩn thận.

Thực tế: Định dạng quan trọng hơn nội dung. Các thẻ XML, dấu phân cách rõ ràng và định dạng có cấu trúc mang lại sự cải thiện nhất quán hơn so với việc lựa chọn từ ngữ hoàn hảo.

Lầm tưởng 4: Chain-of-thought hiệu quả với mọi thứ

Chain-of-thought prompting — yêu cầu các mô hình "suy nghĩ từng bước" — đã trở nên cực kỳ phổ biến sau khi nghiên cứu cho thấy những cải thiện đáng kể trong các tác vụ suy luận toán học. Thành công này đã dẫn đến việc áp dụng rộng rãi cho tất cả các loại vấn đề.

Nhưng chain-of-thought prompting không phải là một giải pháp toàn năng. Nó hoạt động tốt cho các tác vụ suy luận toán học và logic nhưng mang lại lợi ích tối thiểu cho nhiều ứng dụng khác và thực sự có thể làm giảm hiệu suất ở một số tác vụ.

Đối với các tác vụ phân tích dữ liệu cụ thể, nghiên cứu cho thấy các phương pháp Chain-of-Table (cấu trúc suy luận xung quanh dữ liệu dạng bảng) mang lại sự cải thiện 8.69% so với các phương pháp chain-of-thought truyền thống.

Thực tế: Chain-of-thought chỉ dành cho các tác vụ cụ thể. Nó xuất sắc trong toán học và logic nhưng các phương pháp chuyên biệt như Chain-of-Table hoạt động tốt hơn cho các tác vụ phân tích dữ liệu.

Lầm tưởng 5: Chuyên gia con người viết prompt tốt nhất

Giả định rằng các chuyên gia con người là những kỹ sư prompt giỏi nhất có vẻ hợp lý. Con người hiểu ngữ cảnh, sắc thái và các yêu cầu chuyên ngành theo những cách dường như không thể tự động hóa.

Nghiên cứu gần đây về tối ưu hóa prompt tự động cho thấy giả định này là sai. Các hệ thống AI có thể tối ưu hóa prompt hiệu quả hơn các chuyên gia con người, và chúng có thể làm điều đó nhanh hơn đáng kể.

Các nghiên cứu so sánh các kỹ sư prompt con người với các hệ thống tối ưu hóa tự động đã phát hiện ra rằng các hệ thống AI liên tục tạo ra các prompt có hiệu suất tốt hơn trong khi chỉ cần 10 phút thay vì 20 giờ làm việc của con người.

Thực tế: AI tối ưu hóa prompt tốt hơn con người trong một khoảng thời gian ngắn hơn rất nhiều. Chuyên môn của con người nên được dành cho việc xác định mục tiêu và đánh giá kết quả thay vì tự tay tạo ra các prompt.

Lầm tưởng 6: Thiết lập một lần rồi quên đi

Có lẽ lầm tưởng nguy hiểm nhất là prompt engineering là một công việc tối ưu hóa một lần. Các đội nhóm đầu tư công sức vào việc tạo prompt, triển khai chúng lên môi trường sản phẩm và cho rằng chúng sẽ tiếp tục hoạt động tối ưu mãi mãi.

Dữ liệu thực tế cho thấy hiệu suất của prompt suy giảm theo thời gian khi các mô hình thay đổi, phân phối dữ liệu thay đổi và hành vi người dùng phát triển. Các công ty đạt được thành công bền vững với các tính năng AI coi việc tối ưu hóa prompt là một quá trình liên tục thay vì một nhiệm vụ một lần.

Nghiên cứu về tối ưu hóa prompt liên tục cho thấy các quy trình cải tiến có hệ thống có thể cộng dồn để cải thiện hiệu suất lên tới 156% trong 12 tháng so với các prompt tĩnh.

Thực tế: Tối ưu hóa liên tục là điều cần thiết. Hiệu suất tăng lên đáng kể theo thời gian với các quy trình cải tiến có hệ thống.

Các công ty có ARR hơn 50 triệu đô la thực sự làm gì

Các công ty xây dựng các tính năng AI có thể mở rộng quy mô doanh thu khổng lồ không làm theo lời khuyên trên mạng xã hội. Họ tuân theo một kịch bản hoàn toàn khác:

Họ tối ưu hóa cho các chỉ số kinh doanh, không phải chỉ số của mô hình. Thay vì tập trung vào các thước đo hiệu suất kỹ thuật, họ theo dõi sự hài lòng của người dùng, tỷ lệ hoàn thành tác vụ và tác động đến doanh thu.

Họ tự động hóa việc tối ưu hóa prompt. Thay vì để con người lặp lại các prompt theo cách thủ công, họ sử dụng các phương pháp có hệ thống để kiểm tra và cải thiện hiệu suất prompt liên tục.

Họ cấu trúc mọi thứ. Định dạng, tổ chức và các dấu phân cách rõ ràng được ưu tiên hơn là những câu chữ thông minh hay các ví dụ dài dòng.

Họ chuyên biệt hóa kỹ thuật theo loại tác vụ. Thay vì áp dụng chain-of-thought ở mọi nơi, họ kết hợp các kỹ thuật tối ưu hóa với các loại vấn đề cụ thể.

Họ coi prompt như một sản phẩm. Giống như bất kỳ tính năng sản phẩm nào, prompt đòi hỏi phải được bảo trì, cải tiến và tối ưu hóa liên tục dựa trên dữ liệu người dùng thực.

Khoảng cách về phương pháp luận

Lý do những lầm tưởng này tồn tại là do một khoảng cách cơ bản về phương pháp luận giữa nghiên cứu học thuật và thực tiễn trong ngành. Các nhà nghiên cứu học thuật thực hiện các thí nghiệm có kiểm soát với các đường cơ sở phù hợp, kiểm tra ý nghĩa thống kê và đánh giá có hệ thống trên nhiều kiến trúc mô hình.

Các chuyên gia trong ngành thường dựa vào trực giác, các bài kiểm tra A/B quy mô nhỏ, hoặc bằng chứng giai thoại từ các trường hợp sử dụng cụ thể. Điều này tạo ra một vòng lặp phản hồi trong đó các kỹ thuật không hiệu quả được củng cố vì chúng có vẻ đúng chứ không phải vì chúng hoạt động nhất quán.

“Vấn đề lớn nhất trong AI ứng dụng là mọi người đang tối ưu hóa cho những gì có vẻ hợp lý thay vì những gì thực sự hiệu quả,” một kỹ sư machine learning tại một công ty công nghệ lớn giải thích với tôi. “Nghiên cứu cung cấp sự thật cơ bản mà trực giác thường bỏ lỡ.”

Những ý nghĩa thực tiễn

Hiểu được những phát hiện nghiên cứu này có ý nghĩa thực tiễn ngay lập tức cho bất kỳ ai đang xây dựng các tính năng dựa trên AI:

Bắt đầu với cấu trúc, không phải nội dung. Đầu tư thời gian vào việc định dạng và tổ chức trước khi trau chuốt các cụm từ cụ thể.

Tự động hóa tối ưu hóa sớm. Xây dựng các hệ thống để kiểm tra và cải thiện prompt một cách có hệ thống thay vì dựa vào việc lặp lại thủ công.

Kết hợp kỹ thuật với tác vụ. Sử dụng chain-of-thought cho suy luận toán học, Chain-of-Table cho phân tích dữ liệu, và hướng dẫn trực tiếp cho hầu hết các ứng dụng khác.

Đo lường tác động kinh doanh. Theo dõi các chỉ số quan trọng đối với người dùng và doanh nghiệp của bạn thay vì các điểm hiệu suất mô hình trừu tượng.

Lập kế hoạch cho việc cải tiến liên tục. Xây dựng việc tối ưu hóa prompt vào quy trình phát triển liên tục của bạn thay vì coi nó là một nhiệm vụ một lần.

Lợi thế cạnh tranh

Các công ty dựa vào nghiên cứu để thực hiện prompt engineering thay vì theo quan niệm thông thường sẽ có được những lợi thế cạnh tranh đáng kể:

Họ đạt được hiệu suất tốt hơn với chi phí thấp hơn. Họ xây dựng các hệ thống mạnh mẽ hơn và cải thiện theo thời gian. Họ tránh được những ngõ cụt khiến các đội nhóm mắc kẹt khi theo đuổi những lời khuyên phổ biến nhưng không hiệu quả.

Quan trọng nhất, họ có thể tập trung chuyên môn của con người vào các hoạt động có giá trị cao như xác định mục tiêu và đánh giá kết quả thay vì tự tay tạo prompt.

Câu hỏi mà mọi đội nhóm nên tự đặt ra

Thay vì hỏi "Làm thế nào chúng ta có thể viết prompt tốt hơn?" hãy bắt đầu hỏi "Làm thế nào chúng ta có thể tối ưu hóa một cách có hệ thống các tương tác AI của mình dựa trên bằng chứng thực nghiệm?"

Sự thay đổi trong quan điểm này sẽ đưa bạn từ việc chạy theo xu hướng sang việc tuân theo dữ liệu. Nó định vị đội nhóm của bạn để xây dựng các tính năng AI thực sự có thể mở rộng quy mô thay vì các tính năng nghe có vẻ ấn tượng trong các bản demo nhưng không mang lại giá trị bền vững.

Đội nhóm của bạn đang đưa ra những giả định nào về prompt engineering dựa trên quan niệm thông thường thay vì nghiên cứu? Và việc thách thức những giả định đó có thể mở ra hiệu suất tốt hơn và chi phí thấp hơn như thế nào?

Các công ty chiến thắng với AI sẽ không phải là những công ty đi theo những tiếng nói ồn ào nhất trên mạng xã hội. Họ sẽ là những người tuân theo bằng chứng, ngay cả khi nó mâu thuẫn với quan điểm phổ biến.

Nghiên cứu đã rõ ràng. Câu hỏi là liệu bạn đã sẵn sàng bỏ qua những lầm tưởng và làm theo những gì thực sự hiệu quả hay chưa.

Theo dõi trên X

Aakash Gupta

Bài đăng liên quan