Công Nghệ Thông Tin (CNTT) đã đi vào cuộc sống con người và tác động trên nhiều lĩnh vực khác nhau trong đời sống xã hội, việc kết nối mạng cũng trở nên dễ dàng và thuận tiện cho con người với những ứng dụng hỗ trợ và giúp ích trong các hoạt động quản lý, giáo dục, sản xuất. Nhưng bên cạnh những tiện ích và ứng dụng thực tiễn đó, mặt trái của CNTT chính là tồn tại một số thành phần tiêu cực lợi dụng sự hiểu biết của mình về lập trình để tạo ra các phần mềm, ứng dụng độc hại hay còn gọi là virus máy tính, gọi tắt virus hay vi-rút.Để đối phó với những virus này hoàn toàn không hề đơn giản. Qua mỗi thời kỳ, số lượng biến thể của virus ngày càng tăng, mức độ nguy hại ngày càng trầm trọng, hành vi phá hoại tinh vi và khó phát hiện hơn. Chính vì thế, quá trình ngăn chặn virus trở nên khó khăn và tốn nhiều tài nguyên của con người. Từ yêu cầu thực tại như hiện nay, chúng tôi tiến hành giải pháp nghiên cứu việc nhận dạng virus.Giải pháp dựa theo hành vi của virus là một hướng nghiên cứu mới và đang được phát triển. Hướng tiếp cận này sẽ rút ra các mẫu mô tả hành vi của virus, từ đó chuyển thành một công thức mô tả Linear Temporal Logic (LTL). Chúng ta sẽ kiểm tra mẫu ban đầu có phải là virus hay không dựa trên cấu trúc của công thức LTL thu được. Tuy nhiên, nếu mỗi lần chỉ quét với một mẫu virus thì thời gian để quét tất cả các mẫu sẽ tốn rất nhiều thời gian và tài nguyên. Chính vì thế, để giảm thiểu số lượng mẫu virus cần phải quét xuống mức thấp nhất có thể, chúng tôi đưa ra giải pháp cho vấn đề này là nghiên cứu tìm tập phổ biến chứa hành vi của virus và chỉ kiểm tra trên những tập phổ biến đó. Mỗi virus sẽ được biểu diễn thành một bộ hành vi. Từ những bộ hành vi thu thập được xây dựng nên một giàn khái niệm. Trên giàn khái niệm, ta sẽ chọn ra những mẫu quan trọng và phổ biến nhất dựa trên giải thuật tìm kiếm tập phổ biến tối đại. Hiện nay có nhiều phương pháp để tìm kiểm tập phổ biến tối đại, tuy nhiên chúng tôi lựa chọn giải thuật MAFIA (MAximal Frequent Itemset Algorithm) để hiện thực trong luận văn này. MAFIA đạt được hiệu quả tìm kiếm cao với số lượng mẫu dữ liệu đầu vào lớn.
đang được dịch, vui lòng đợi..