我分析日志文件,经常有一些字符串只在几个地方不同,并且在其他地方都相同,我试图找到它们最有可能属于的通用字符串,例如:
UHGUYGUYGUYGUY id = U1234 UYAG*&^T*#@G*(&G@ id2 = 8767 ib97y79yh0978
UHGUYGUYGUYGUY id = Z1D#34 UYAG*&^T*#@G*(&G@ id2 = 98h ib97y79yh0978
Sss3ug87g87g78ghs837g8 obj { 876t7g }937hs937hs973h97sh397 jh7897y98h
Sss3ug87g87g78ghs837g8 obj { 98u2 }937hs937hs973h97sh397 ZN7897y98h
对我来说,唯一的区别是两者之间的 ids 值,所以一个通用的表单/分组将是
UHGUYGUYGUYGUY id = * UYAG*&^T*#@G*(&G@ id2 = * ib97y79yh0978
Sss3ug87g87g78ghs837g8 obj { * }937hs937hs973h97sh397 *7897y98h
我不确定在机器学习中我应该查找这个问题,或者即使这个问题有名称。
当然这是一个非常简化的例子,id 的数量和位置可能会因不同的通用情况而有所不同,这就是为什么我不能为此编写老式代码的原因,太多的事情可以改变。
机器学习中有什么东西可以帮助找到此类字符串的组吗?如果是,它叫什么?