Hiện nay vấn đề bảo mật an ninh an toàn thông tin ở Việt Nam và trên Thế giới đang trở thành vấn đề vô cùng cấp thiết. Theo một vài báo cáo, Việt Nam đang là điểm nóng của mã độc và các cuộc tấn công ăn cắp thông tin. Việc ứng dụng big data để tìm kiếm và phát hiện sớm các cuộc xâm nhập, ngăn chặn kịp thời là bước đi vô cùng cần thiết.
Trước những thách thức về việc khối lượng dữ liệu đang ngày càng tăng, các công nghệ truyền thống không thể cung cấp những công cụ có quy mô lớn để lưu trữ, phân tích những khối lượng dữ liệu lớn lâu dài. Hơn nữa, việc lưu trữ là không khả thi về mặt kinh tế. Do đó, các dữ liệu thường bị xóa sau một thời gian nhất định. Sự ra đời của big data đã mang đến cuộc thay đổi lớn. Big data là thuật ngữ được dùng để thể hiện khối lượng dữ liệu lớn trong nguồn dữ liệu đa dạng, phong phú hiện nay, gồm dung lượng, tốc độ, sự đa dạng, sự xác thực và giá trị của nguồn dữ liệu.
Bằng cách thu thập nhiều nguồn dữ liệu khác nhau, sau đó phân tích sâu và đưa ra cái nhìn bao quát về thông tin an toàn, cũng như đảm bảo được việc phân tích dữ liệu, nhóm sinh viên ĐH FPT đã đưa ra những ứng dụng tuyệt vời của big data. Theo đó, big data rất phù hợp trong vấn đề phát hiện, theo dõi và giảm bớt những mối nguy hại, điều tra phân tích mã độc và phát hiện các cuộc xâm nhập, tấn công có chủ đích.
Để giải quyết nhu cầu bức thiết nhất về an toàn thông tin, nhóm sinh viên lựa chọn đề tài: “Ứng dụng Big Data trong An toàn thông tin” cho đồ án tốt nghiệp.
Nhóm sinh viên đã đưa ra một mô hình phát hiện xâm nhập bằng một số thuật toán phân tích và khai phá, trích xuất những dữ liệu có giá trị. Có rất nhiều thuật toán, nhưng để tìm ra thuật toán tối ưu nhất, các sinh viên ngành An toàn thông tin đã phải thử áp dụng nhiều thuật toán vào mô hình phân tích dữ liệu. Các bạn lựa chọn phân tích ưu nhược điểm của 4 thuật toán: K-means, Người láng giềng gần nhất (K-nearest neighbors algorithm), Cây quyết định (Decision tree algorithm) và thuật toán Mạng nơ-ron. Mỗi thuật toán có thời gian chạy và xử lý rất lâu. Vì vậy, với những bộ dữ liệu lớn, các sinh viên tìm cách tách ra thành những bộ dữ liệu nhỏ để cải thiện tốc độ xử lý và tăng độ chính xác. Sau khi nghiên cứu, thực nghiệm, nhóm sinh viên đã tìm thuật toán cho kết quả tốt nhất là thuật toán Cây quyết định.
Để quản lý lượng dữ liệu lớn, nhóm sinh viên sử dụng công cụ Weka và Spark – vũ khí mà nhiều doanh nghiệp nổi tiếng trên Thế giới áp dụng để xử lý dữ liệu. Các bạn chia 54 loại tấn công an ninh chính thành 4 dạng của dữ liệu data và thực nghiệm, đánh giá để tìm ra những thuộc tính của mỗi loại tấn công.
Tại Việt Nam, vấn đề xâm nhập trái phép và đe dọa về an ninh an toàn thông tin đang trở nên rất cấp bách. Sau một số cuộc tấn công nghiêm trọng như cuộc tấn công vào Bộ Tài nguyên môi trường, VC-Corp hay các cuộc tấn công vào 2 sân bay lớn – Nội Bài và Tân Sơn Nhất, những ứng dụng của big data là vô cùng cần thiết. Big data đang là một hướng đi mới trong an toàn thông tin.
Trong đề tài nghiên cứu, nhóm sinh viên đã đưa ra được cái nhìn tổng quan và chỉ ra xu thế của big data trong an toàn thông tin, tìm hiểu và đưa ra thuật toán, công cụ xử lý dữ liệu cho kết quả tốt nhất. Từ đó, xây dựng mô hình phát hiện và xử lý các cuộc xâm nhập, tấn công.
Sinh viên Vũ Ngọc Hưng – nhóm trưởng đồ án cho biết: Trong quá trình làm đồ án có rất nhiều khó khăn. Tuy nhiên, thầy hướng dẫn đã luôn hỗ trợ và chỉ ra hướng đi cho cả nhóm. Cá nhân mỗi thành viên cũng đã tự cố gắng rất nhiều. Hướng phát triển của đề tài rất rộng, vì vậy chúng em cần đầu tư thêm nhiều thời gian để nghiên cứu lĩnh vực này.”
Đề tài nghiên cứu của nhóm sinh viên đã được đánh giá cao về tính phát hiện đề tài và ý nghĩa thực tế. Nghiên cứu big data là vấn đề cần đầu tư rất nhiều thời gian và nhân lực. Tuy nhiên, trong thời gian giới hạn 4 tháng, nhóm sinh viên ngành IA đã nỗ lực và hoàn thành xuất sắc đồ án.
Trần Mai/FE