Trong những thập kỷ gần đây, đã có nhiều nỗ lực nghiên cứu đáng kể nhằm phát triển các giải pháp hỗ trợ phân tích tệp log một cách tự động hoặc bán tự động. Một số lượng lớn các thuật toán dựa trên mạng nơ-ron đã được đề xuất. Bài báo này giới thiệu một cách tiếp cận mới cho bài toán phát hiện bất thường trong tệp log mà không dựa trên mạng nơ-ron. Các khối xây dựng của phương pháp này thực chất đã được biết đến từ lâu trong lĩnh vực học máy.
Các tác giả đề xuất sử dụng thước đo khoảng cách Damerau–Levenshtein có trọng số để định lượng mức độ tương đồng giữa các chuỗi log. Trên cơ sở đó, bài báo giới thiệu một thuật toán dựa trên k-nearest neighbors (kNN) cho bài toán phát hiện bất thường trong log theo hướng bán giám sát, cũng như một giải pháp dựa trên HDBSCAN cho bài toán không giám sát. Đối với trường hợp không giám sát, nhóm tác giả mở rộng thuật toán bằng cách tích hợp cơ chế phản hồi thủ công, cho phép các chuyên gia lĩnh vực can thiệp và điều chỉnh nhãn của các chuỗi khi cần thiết.
Thông tin bài báo
Horvath, G., Mészáros, A., Charaf, K., Szilágyi, P. (2026).
Detecting anomalies in log files using the Damerau-Levenshtein distance metric.
Data Mining and Knowledge Discovery, Tập 40.
DOI: 10.1007/s10618-025-01182-8
👉 Toàn văn bài báo:
https://www.researchgate.net/publication/399652190_Detecting_anomalies_in_log_files_using_the_Damerau-Levenshtein_distance_metric





