Trước những rủi ro an ninh âm thầm đe dọa dữ liệu doanh nghiệp từ bên trong hệ thống, sinh viên Trường Đại học FPT đã phát triển một “người gác đền” số ứng dụng Machine Learning và LLM để bảo vệ dữ liệu một cách chủ động và thông minh hơn.
Khởi nguồn cho bài toán bảo vệ dữ liệu doanh nghiệp
Trong kỷ nguyên số, dữ liệu doanh nghiệp không chỉ là tài nguyên, mà còn là nền tảng sống còn của mọi tổ chức. Từ hoạt động kinh doanh, quản trị tài chính đến chăm sóc khách hàng, mọi quyết định quan trọng đều được xây dựng trên dữ liệu. Hàng triệu bản ghi được lưu trữ và xử lý mỗi ngày trên các hệ quản trị cơ sở dữ liệu, biến dữ liệu trở thành “trái tim” vận hành của doanh nghiệp. Tuy nhiên, khi các lớp phòng thủ kỹ thuật ngày càng được siết chặt để chống lại tấn công từ bên ngoài, một mối nguy khác lại âm thầm tồn tại ngay bên trong hệ thống – những hành vi bất thường của người dùng nội bộ, khó phát hiện nhưng có thể gây tổn hại nghiêm trọng đến dữ liệu doanh nghiệp.

Nhóm đồ án được lấy cảm hứng từ việc giải quyết bài toán bảo vệ và ngăn chặn những rủi ro gây ra cho dữ liệu doanh nghiệp.
Từ thực tế đó, nhóm sinh viên chuyên ngành An toàn thông tin Trường Đại học FPT gồm Nguyễn Duy Minh Anh, Lê Công Huỳnh, Nguyễn Thị Diễm Quỳnh, Trương Đình Lộc, Đào Duy Vĩ và Lê Mỹ Ngọc đã cùng nhau đi tìm lời giải cho một câu hỏi lớn: làm thế nào để dữ liệu doanh nghiệp được bảo vệ hiệu quả hơn, không chỉ trước các cuộc tấn công bên ngoài mà cả trước những rủi ro đến từ chính người dùng hợp lệ trong hệ thống? Câu hỏi ấy đã trở thành khởi điểm cho đồ án tốt nghiệp mang tên “Phát triển hệ thống phân tích hành vi người dùng và thực thể (UEBA) cùng cơ chế phản ứng an ninh cho cơ sở dữ liệu (MySQL) sử dụng Học máy (Machine Learning) và Mô hình ngôn ngữ lớn (LLM)”.
Trong quá trình nghiên cứu, nhóm nhận ra một nghịch lý phổ biến trong bảo mật dữ liệu doanh nghiệp hiện nay. Phần lớn hệ thống an ninh tập trung phát hiện các cuộc tấn công từ bên ngoài, trong khi nhiều thống kê cho thấy phần lớn sự cố rò rỉ và mất mát dữ liệu lại bắt nguồn từ nội bộ. Đó có thể là những thao tác truy cập trái thói quen, những hành động vô tình vượt quyền hoặc các hành vi dò xét hệ thống mà các cơ chế phát hiện truyền thống rất khó nhận diện. Chính khoảng trống này đã đặt ra nhu cầu cấp thiết về một giải pháp bảo vệ dữ liệu doanh nghiệp dựa trên ngữ cảnh và hành vi, thay vì chỉ dựa vào các luật kỹ thuật cứng nhắc.
Từ đó, UEBA vừa được xây dựng như một hệ thống cảnh báo, vừa được định hình như một “người gác đền” số hóa cho dữ liệu doanh nghiệp. Hệ thống có khả năng học thói quen sử dụng của từng người dùng, phân tích hành vi theo thời gian và phát hiện những điểm bất thường dựa trên ngữ cảnh thực tế. Điểm khác biệt của UEBA nằm ở khả năng diễn giải rủi ro. Thay vì chỉ đưa ra các cảnh báo khó hiểu, hệ thống có thể giải thích rõ vì sao một hành vi bị xem là bất thường, mức độ ảnh hưởng đến dữ liệu doanh nghiệp ra sao và hướng xử lý phù hợp cho quản trị viên. Khi rủi ro vượt qua ngưỡng an toàn, hệ thống còn có thể chủ động phản ứng như khóa tài khoản hoặc ngắt phiên làm việc để bảo vệ dữ liệu kịp thời.
Phía sau một đồ án tốt nghiệp
Trong hành trình hiện thực hóa giải pháp, thách thức lớn nhất của nhóm không nằm ở kỹ thuật lập trình, mà ở bài toán dữ liệu huấn luyện. Dữ liệu hành vi người dùng trong môi trường doanh nghiệp vốn mang tính nhạy cảm cao và gần như không thể sử dụng trực tiếp cho nghiên cứu. Để giải quyết vấn đề này, nhóm UEBA đã tự xây dựng bộ dữ liệu mô phỏng dựa trên các kịch bản thực tế, từ những hành vi làm việc bình thường cho đến các tình huống thao tác sai hoặc cố tình dò xét hệ thống. Cách tiếp cận này giúp mô hình được huấn luyện trong điều kiện gần với môi trường doanh nghiệp thật, đảm bảo tính ứng dụng trong việc bảo vệ dữ liệu doanh nghiệp.

Những nụ cười của niềm vui, sự tự hào khi có thông báo kết quả “passed” từ hội đồng chấm chọn đồ án.
Khoảnh khắc đáng nhớ nhất đối với nhóm là khi hệ thống lần đầu tiên tự động phát hiện một hành vi đáng ngờ và đưa ra phản ứng chính xác. Khi đó, những kiến thức về an toàn thông tin, học máy và phân tích dữ liệu từng chỉ nằm trên trang giáo trình đã thực sự “sống dậy”, trở thành một giải pháp có khả năng bảo vệ dữ liệu doanh nghiệp trong thời gian thực. Đó cũng là thời điểm cả nhóm nhận ra rằng đồ án vượt ra khỏi những yêu cầu học thuật để tiệm cận với một sản phẩm công nghệ có giá trị thực tiễn.
Khép lại đồ án, nhóm UEBA rút ra một bài học quan trọng: bảo vệ dữ liệu doanh nghiệp không chỉ là bài toán đúng hay sai về mặt kỹ thuật, mà là đúng hay sai trong ngữ cảnh sử dụng. Một thao tác hợp lệ vẫn có thể trở thành mối đe dọa nếu nó không phù hợp với hành vi thông thường của người dùng. Việc kết hợp sức mạnh xử lý của máy móc với khả năng diễn giải dành cho con người chính là hướng đi giúp các hệ thống bảo mật dữ liệu doanh nghiệp trở nên minh bạch, đáng tin cậy và dễ triển khai hơn trong thực tế.
Trong lời kết, nhóm sinh viên gửi lời tri ân đến các giảng viên đã đồng hành trong suốt quá trình thực hiện đồ án. “Chúng em xin gửi lời cảm ơn chân thành đến thầy Phạm Hồ Trọng Nguyên và thầy Nguyễn Lương Vương vì sự tận tâm, kiên nhẫn và những định hướng quý báu giúp chúng em biến ý tưởng lý thuyết thành một hệ thống bảo vệ dữ liệu doanh nghiệp có ý nghĩa thực tiễn. Cảm ơn Trường Đại học FPT đã là nơi ghi dấu những năm tháng thanh xuân rực rỡ và trang bị cho chúng em hành trang vững chắc để bước vào ngành công nghệ”.
Với các thành viên UEBA, hành trình sinh viên khép lại bằng niềm tự hào khi góp phần giải bài toán bảo vệ dữ liệu doanh nghiệp trong bối cảnh chuyển đổi số mạnh mẽ. Từ những đêm chạy deadline căng thẳng đến khoảnh khắc chứng kiến hệ thống vận hành thành công, “Vượt nắng, thắng mưa” không chỉ là khẩu hiệu, mà là cách cả nhóm đã cùng nhau đi hết một chặng đường sinh viên đáng nhớ.