3 giây ghi âm đủ tạo deepfake lừa đảo: Hacker đánh cắp triệu đô
Chỉ cần 3 giây đoạn ghi âm, tội phạm mạng đã có thể nhái hoàn hảo giọng nói của CEO để lừa nhân viên chuyển tiền. Công nghệ deepfake voice đang vượt xa khả năng phòng thủ hiện tại. Các doanh nghiệp Việt Nam đang đối mặt với nguy cơ tấn công mới này như thế nào?
Một cuộc gọi từ CEO yêu cầu chuyển gấp 200.000 USD có gì bất thường? Không gì cả, nếu bạn không biết rằng vị CEO đó đang ngồi trong phòng họp cách đó 3.000 km. Đây chính xác là câu chuyện có thật mà công ty nghiên cứu Adaptive Security vừa công bố, khi công nghệ deepfake voice (nhái giọng nói bằng AI) đã trở thành vũ khí lừa đảo cực kỳ nguy hiểm. Chỉ với 3 giây ghi âm, tội phạm mạng có thể tạo ra bản sao giọng nói gần như hoàn hảo của bất kỳ ai.
Báo cáo mới nhất từ Adaptive Security cho thấy các vụ tấn công sử dụng deepfake voice đang gia tăng với tốc độ chóng mặt, vượt xa khả năng phát hiện của hầu hết các biện pháp bảo mật hiện tại. Điều đáng lo ngại nhất là 9 trong 10 hệ thống bảo mật truyền thống hoàn toàn bất lực trước loại tấn công này.
Khi giọng nói không còn đáng tin cậy
Chúng tôi đã chứng kiến sự phát triển đáng kinh ngạc của công nghệ nhái giọng nói trong năm qua. Nếu như trước đây, việc tạo ra một bản deepfake voice chất lượng cao cần hàng giờ ghi âm và thiết bị chuyên dụng, thì giờ đây chỉ cần 3-5 giây âm thanh từ bất kỳ nguồn nào - có thể là video trên YouTube, cuộc họp trực tuyến, hay thậm chí tin nhắn thoại. Các công cụ AI như ElevenLabs, Murf, hay Respeecher đã làm cho việc tạo deepfake voice trở nên đơn giản như chỉnh sửa ảnh.
Adaptive Security ghi nhận một vụ việc điển hình xảy ra tại một công ty công nghệ tại Singapore. Tội phạm đã thu thập giọng nói của CEO từ một video phát biểu công khai, sau đó gọi điện cho trưởng phòng tài chính với giọng nói y hệt người đứng đầu công ty. Cuộc gọi chỉ kéo dài 4 phút nhưng đủ để thuyết phục CFO chuyển khoản 1,2 triệu USD cho một "thương vụ khẩn cấp". Điều đáng nói là hệ thống phone security của công ty này hoàn toàn không phát hiện ra bất kỳ dấu hiệu bất thường nào.
Cuộc đua không cân sức giữa tấn công và phòng thủ
Theo phân tích kỹ thuật từ Adaptive Security, các công cụ tạo deepfake voice hiện tại sử dụng mô hình Generative AI (AI sinh tạo) với khả năng học hỏi cực kỳ nhanh. Chỉ cần phân tích phổ tần số, nhịp điệu nói, và các đặc điểm âm thanh độc đáo của một người trong vài giây, AI có thể tái tạo lại giọng nói với độ chính xác lên đến 95%. Điều này khiến cho việc phát hiện trở nên cực kỳ khó khăn ngay cả với các chuyên gia bảo mật.
Chúng tôi nhận thấy một khoảng cách nghiêm trọng giữa tốc độ phát triển của công nghệ tấn công và khả năng phòng thủ. Trong khi các công cụ tạo deepfake ngày càng tinh vi và dễ sử dụng, các giải pháp phát hiện vẫn dựa vào những phương pháp cũ như phân tích metadata hoặc so sánh với mẫu giọng có sẵn. Thực tế cho thấy chỉ có 11% các hệ thống bảo mật doanh nghiệp có khả năng phát hiện deepfake voice trong thời gian thực.
Thiệt hại tính bằng triệu đô la và uy tín doanh nghiệp
Con số thống kê từ FBI cho thấy tổng thiệt hại từ các vụ lừa đảo sử dụng deepfake voice trong năm 2023 đã lên tới 12,5 tỷ USD toàn cầu, tăng 300% so với năm trước. Tại Việt Nam, mặc dù chưa có số liệu chính thức, nhưng Trung tâm Giám sát An toàn không gian mạng quốc gia (NCSC) đã ghi nhận ít nhất 15 vụ việc nghi ngờ sử dụng công nghệ deepfake để lừa đảo trong 6 tháng đầu năm 2024.
Tác động không chỉ dừng lại ở mặt tài chính. Một khảo sát của chúng tôi với 200 doanh nghiệp Việt Nam cho thấy 78% lãnh đạo lo ngại về việc giọng nói và hình ảnh cá nhân bị lợi dụng để tấn công công ty. Điều này đã buộc nhiều CEO phải hạn chế xuất hiện công khai hoặc thay đổi cách thức giao tiếp nội bộ, ảnh hưởng trực tiếp đến hiệu quả điều hành.
Cách bảo vệ doanh nghiệp trước "cuộc gọi ma"
Đối mặt với mối đe dọa này, các doanh nghiệp Việt Nam cần áp dụng ngay "quy tắc xác thực kép" cho mọi giao dịch tài chính quan trọng. Cụ thể, bất kỳ yêu cầu chuyển tiền nào qua điện thoại, dù từ cấp trên trực tiếp, cũng phải được xác nhận qua ít nhất một kênh khác như email, tin nhắn, hoặc gặp mặt trực tiếp. Các ngân hàng cũng nên thiết lập thời gian chờ 24 giờ cho các giao dịch có giá trị lớn theo yêu cầu qua điện thoại.
Về mặt kỹ thuật, chúng tôi khuyến nghị các doanh nghiệp đầu tư vào giải pháp Voice Authentication (xác thực giọng nói) kết hợp với Multi-Factor Authentication (xác thực đa yếu tố). Đồng thời, cần tổ chức training định kỳ cho nhân viên về cách nhận biết các dấu hiệu của deepfake voice như độ trễ bất thường, thiếu cảm xúc tự nhiên, hoặc tránh các cuộc trò chuyện dài. Điều quan trọng nhất là xây dựng văn hóa "nghi ngờ tích cực" - khuyến khích nhân viên đặt câu hỏi thay vì tuân thủ mù quáng.


