AI & CÔNG NGHỆ 2 tháng 4, 2026 ~2200 từ

Dừng ngay việc dùng Claude sai khiến bạn lãng phí hết token. Những chiến lược sau giúp bạn tiết kiệm x5 lần token

Bạn đang trả tiền cho Claude Pro, thậm chí plan $100 hay $200/tháng. Vậy mà cứ chat được 20-30 tin nhắn là Claude báo hết quota. Bạn nghĩ “chắc plan mình thấp quá”, nâng cấp lên, rồi vẫn hết. Nhanh hơn cả lúc chưa nâng.

Nếu bạn đang ở tình trạng này, bạn không phải người duy nhất. Cộng đồng developer và người dùng AI trên toàn thế giới đang than phiền chuyện này mỗi ngày. Có người trả $200/tháng mà chỉ dùng được vài tiếng là hết sạch.

Nhưng vấn đề không nằm ở plan. Vấn đề nằm ở cách bạn dùng.

Và điều quan trọng: đây không phải chuyện riêng của Claude. ChatGPT, Gemini, Copilot đều hoạt động theo cơ chế tương tự. Nhưng Claude đắt nhất và hết token nhanh nhất trong số các AI phổ biến, nên nếu bạn tối ưu được Claude, bạn tối ưu được tất cả.

Bài viết này sẽ giúp bạn hiểu tại sao token hết nhanh như vậy, và quan trọng hơn là cách thay đổi thói quen để dùng Claude hiệu quả gấp 3 đến 5 lần so với hiện tại.

Token hoạt động thế nào? Phần mà hầu hết mọi người hiểu sai

Trước khi đi vào mẹo cụ thể, bạn cần hiểu một điều cốt lõi. Nếu bạn hiểu được phần này, tất cả mọi thứ phía sau sẽ tự nhiên hợp lý.

Token là đơn vị nhỏ nhất mà AI đọc và tính phí. Một token xấp xỉ một từ tiếng Anh. Với tiếng Việt, tỷ lệ có thể cao hơn vì cách mã hóa khác, nhưng bạn cứ hình dung đơn giản: càng nhiều chữ, càng tốn token.

Phần quan trọng mà đa số không biết là mỗi lần bạn gửi tin nhắn, Claude không chỉ đọc tin nhắn mới. Nó đọc lại toàn bộ cuộc hội thoại từ đầu. Tin nhắn 1, câu trả lời 1, tin nhắn 2, câu trả lời 2… cho đến tin nhắn hiện tại. Lần nào cũng vậy.

Nghe quen không? Giống như bạn đọc lại toàn bộ cuốn sách mỗi lần muốn đọc thêm 1 trang mới.

Điều này có nghĩa chi phí token không tăng đều. Nó tăng theo cấp số nhân. Tin nhắn đầu tiên có thể tốn 500 token. Tin nhắn thứ 30 có thể tốn 15,000 token chỉ riêng cho việc đọc lại lịch sử, chưa kể nội dung mới. Một developer đã theo dõi cuộc chat hơn 100 tin nhắn và phát hiện 98.5% tổng token chỉ dành cho việc đọc lại lịch sử cũ. Con số đó không phải lỗi đánh máy.

You might want to sit down

Ngoài lịch sử chat, Claude còn tải thêm các thứ “ẩn” mỗi lượt: system prompt, file đính kèm, cài đặt Project, Memory… Tất cả đều là token, và bạn không nhìn thấy chúng.

Bây giờ bạn hiểu rồi: vấn đề không phải Claude tính phí quá đắt. Vấn đề là mỗi tin nhắn trong cuộc chat dài đang “kéo theo” toàn bộ lịch sử phía trước. Cuộc chat càng dài, mỗi tin nhắn càng đắt.

Tin tốt là khi đã hiểu cơ chế, bạn hoàn toàn có thể thay đổi cách dùng để tiết kiệm token đáng kể. Dưới đây là những cách cụ thể.

Tối ưu chung: áp dụng cho cả Claude Chat lẫn Claude Code

Những nguyên tắc dưới đây đúng cho dù bạn dùng Claude trên web, app điện thoại, hay Claude Code trong terminal. Đây là nền tảng, và cũng là phần mang lại hiệu quả lớn nhất.

Mỗi chủ đề mới, mở cuộc chat mới

Đây là thay đổi đơn giản nhất nhưng hiệu quả nhất. Nếu bạn đang hỏi Claude về marketing, xong chuyển sang hỏi về code Python trong cùng một cuộc chat, bạn đang lãng phí token. Claude phải đọc lại toàn bộ phần marketing mỗi khi trả lời câu hỏi Python, dù nó không liên quan gì.

Cùng một câu hỏi, gửi trong cuộc chat mới sẽ rẻ hơn nhiều lần so với gửi ở tin nhắn thứ 30 của cuộc chat cũ. Hãy tập thói quen: xong một chủ đề, mở chat mới.

Gộp câu hỏi liên quan vào một tin nhắn

Thay vì gửi 3 tin nhắn riêng lẻ:

“Tóm tắt tài liệu này”
“Rút ra các vấn đề chính”
“Đề xuất giải pháp”

Hãy gộp lại thành 1 tin nhắn: “Tóm tắt tài liệu này, rút ra các vấn đề chính, và đề xuất giải pháp cho từng vấn đề.” Ba tin nhắn riêng tốn gấp 3 lần vì mỗi lần Claude đều đọc lại lịch sử. Một tin nhắn gộp chỉ tốn 1 lần đọc.

Sửa tin nhắn thay vì gửi thêm tin sửa lỗi

Khi Claude hiểu sai ý bạn, phản xạ tự nhiên là gửi thêm: “Ý tôi là…” hoặc “Không phải vậy, tôi muốn…”. Mỗi tin sửa lỗi như vậy là thêm một vòng đọc lại toàn bộ lịch sử.

Thay vào đó, hãy sửa trực tiếp tin nhắn gốc rồi cho Claude tạo lại câu trả lời. Cách này thay thế lượt trao đổi sai bằng lượt đúng, không tốn thêm token cho phần sửa lỗi.

Chỉ đưa vào những gì Claude thật sự cần đọc

Đây là lỗi rất phổ biến. Bạn có tài liệu 50 trang, paste hết vào Claude rồi hỏi “tóm tắt giúp tôi”. Mỗi lần bạn gửi tin nhắn tiếp theo trong cuộc chat đó, Claude sẽ đọc lại cả 50 trang. Lần nào cũng vậy.

Nếu bạn chỉ cần Claude xử lý phần 3 của tài liệu, hãy chỉ paste phần 3.

Còn nếu bạn thật sự cần xử lý tài liệu dài, đây là một mẹo rất thực tế: đừng đưa thẳng vào Claude. Thay vào đó, quăng tài liệu vào một AI có context window lớn hơn và rẻ hơn, ví dụ Google Gemini với context lên đến 1 triệu token. Bảo Gemini tóm lược tài liệu, hoặc trích xuất đúng phần bạn cần, thành các điểm quan trọng cô đọng. Sau đó lấy kết quả đó đưa vào Claude để làm việc tiếp.

Cách này vừa tiết kiệm token Claude, vừa cho Claude input chất lượng cao hơn vì đã được lọc sẵn. Bạn dùng AI rẻ làm bước tiền xử lý cho AI đắt. Đó là cách dùng thông minh.

Cách dùng thông minh

Biết khi nào nên dừng cuộc chat

Khi Claude bắt đầu “quên” những gì bạn đã nói, trả lời lặp lại, hoặc lan man không đúng trọng tâm, đó là dấu hiệu context window đã quá tải. Tiếp tục chat trong cuộc hội thoại đó chỉ tốn token mà chất lượng ngày càng kém.

Lúc này, hãy tóm tắt lại những gì đã thảo luận, mở cuộc chat mới, paste phần tóm tắt vào và tiếp tục. Bạn sẽ có context sạch, Claude trả lời tốt hơn, và token tiết kiệm hơn nhiều.

Tận dụng Project và System Prompt

Nếu bạn có những thông tin cần Claude biết xuyên suốt (ví dụ: “Tôi là solopreneur, viết content bằng tiếng Việt, đối tượng là chủ doanh nghiệp nhỏ”), đừng nhắc lại mỗi cuộc chat. Đưa vào Project instructions hoặc Custom instructions một lần. Claude sẽ tự động đọc mỗi cuộc chat mà bạn không cần gõ lại.

Tối ưu riêng cho Claude Code

Nếu bạn dùng Claude Code trong terminal để viết code, phần này dành cho bạn. Claude Code có thêm nhiều nguồn “ăn” token ẩn mà giao diện chat thông thường không có.

Ngắt kết nối MCP server không dùng

MCP server là các kết nối bên ngoài giúp Claude Code tương tác với Google Calendar, database, hay các tool khác. Mỗi server được kết nối sẽ tải toàn bộ định nghĩa tool vào context ở mỗi tin nhắn. Một server có thể tốn khoảng 18,000 token mỗi lượt. Nếu bạn kết nối 3 server mà chỉ dùng 1, bạn đang lãng phí 36,000 token mỗi tin nhắn cho 2 server không làm gì cả.

Đầu mỗi phiên làm việc, kiểm tra và ngắt những server không cần thiết.

Giữ file CLAUDE.md gọn gàng

CLAUDE.md là file hướng dẫn mà Claude Code đọc mỗi khi bắt đầu phiên. Nhiều người nhồi nhét mọi thứ vào đây: quy tắc code, ghi chú dự án, lịch sử thay đổi… File này càng dài, mỗi tin nhắn càng tốn token vì nó được đọc lại hoàn toàn mỗi lượt.

Hãy giữ dưới 200 dòng. Xem CLAUDE.md như một mục lục chỉ đường, không phải cuốn sách. Nó chỉ cần nói cho Claude biết cần tìm gì ở đâu, không cần chứa mọi thứ.

Dùng /context và /cost để biết token đang chảy đi đâu

Hai lệnh này cho bạn thấy bức tranh thật: context window đang đầy bao nhiêu phần trăm, token nào đang chiếm nhiều nhất, và phiên hiện tại đã tốn bao nhiêu. Không đo được thì không tối ưu được.

Một phát hiện phổ biến khi chạy /context lần đầu: trước cả khi bạn gõ chữ nào, Claude Code đã dùng hơn 50,000 token chỉ cho system prompt, tool definitions, và các file cấu hình.

Dùng Plan Mode trước khi bắt đầu code

Yêu cầu Claude lên kế hoạch trước khi viết code. Thêm vào CLAUDE.md một dòng kiểu: “Không viết code cho đến khi đã có kế hoạch rõ ràng và tôi xác nhận.” Điều này ngăn Claude chạy sai hướng, viết hàng trăm dòng code rồi bạn phải bỏ đi làm lại. Mỗi lần làm lại như vậy là hàng nghìn token lãng phí.

Compact thủ công ở 60%, đừng chờ 95%

Claude Code có tính năng tự động nén context (auto compact) khi đạt 95% dung lượng. Nhưng ở mức 95%, chất lượng output đã giảm rõ rệt rồi. Hãy chủ động chạy /compact khi context đạt khoảng 60%, kèm theo hướng dẫn cụ thể về những gì cần giữ lại.

Sau 3-4 lần compact liên tiếp, chất lượng bắt đầu giảm. Lúc này hãy lấy tóm tắt phiên, chạy /clear, và bắt đầu phiên mới với bản tóm tắt đó.

Chọn đúng model cho đúng việc

Không phải việc gì cũng cần model mạnh nhất. Sonnet cho phần lớn công việc code. Haiku cho những task đơn giản: format lại code, đổi tên biến, tạo comment. Opus chỉ dùng khi cần phân tích kiến trúc phức tạp mà Sonnet không xử lý nổi. Nếu bạn giữ Opus dưới 20% tổng lượng dùng, bạn sẽ tiết kiệm đáng kể.

Cẩn thận với output từ lệnh terminal

Khi Claude Code chạy lệnh shell, toàn bộ kết quả trả về đều đi vào context window. Một lệnh git log trả về 200 commit, hay ls -la trên thư mục lớn, có thể đẩy hàng nghìn token vào context mà bạn không nhận ra. Hãy giới hạn output khi có thể, ví dụ git log --oneline -10 thay vì git log.

Tư duy đúng về token

Sau tất cả những mẹo kỹ thuật, có một điểm quan trọng hơn cả: đây là vấn đề thói quen, không phải vấn đề giới hạn.

Phần lớn người dùng không cần plan đắt hơn. Họ cần ngừng bắt AI đọc lại toàn bộ lịch sử chat 30 lần khi có thể chỉ cần 5 lần. Đó không phải giới hạn của AI. Đó là “vệ sinh context” của người dùng.

Và nếu bạn đã áp dụng mọi thứ ở trên mà vẫn hết token? Đó thực ra là dấu hiệu tốt. Nghĩa là bạn đang dùng AI đủ nhiều, đủ hiệu quả để khai thác hết công suất. Người hết token vì dùng nhiều khác hoàn toàn với người hết token vì dùng lãng phí.

Một mẹo cuối: nếu bạn dùng Claude Code, hãy để ý giờ cao điểm. Từ 8h sáng đến 2h chiều giờ miền Đông nước Mỹ (tức khoảng 8h đến 2h đêm giờ Việt Nam), Anthropic giảm tốc độ phục vụ. Task nặng nên chạy vào buổi sáng hoặc giờ nghỉ trưa theo giờ Việt Nam, đó là giờ off-peak.

Tóm lại

Ba nguyên tắc vàng để tiết kiệm token Claude:

Một, mỗi chủ đề mới, mở cuộc chat mới. Đừng biến một cuộc hội thoại thành cuốn tiểu thuyết dài vô tận.

Hai, chỉ cho AI đọc những gì nó cần đọc. Không paste thừa, không kéo context không liên quan.

Ba, dùng AI rẻ làm bước tiền xử lý cho AI đắt. Gemini tóm tắt, Claude phân tích. Mỗi tool đúng việc của nó.

Bạn không cần trả thêm tiền. Bạn cần thay đổi thói quen. Thử áp dụng ngay hôm nay và xem sự khác biệt.

Nếu bạn thấy bài viết hữu ích, hãy chia sẻ cho bạn bè đang dùng AI. Ai cũng nên biết những điều này trước khi nâng cấp plan.