数据挖掘 - 字符串分类初学者问题 - 吾爱随笔录

我分析日志文件，经常有一些字符串只在几个地方不同，并且在其他地方都相同，我试图找到它们最有可能属于的通用字符串，例如：

UHGUYGUYGUYGUY id = U1234 UYAG*&^T*#@G*(&G@ id2 = 8767 ib97y79yh0978
UHGUYGUYGUYGUY id = Z1D#34 UYAG*&^T*#@G*(&G@ id2 = 98h ib97y79yh0978
Sss3ug87g87g78ghs837g8 obj { 876t7g }937hs937hs973h97sh397 jh7897y98h
Sss3ug87g87g78ghs837g8 obj { 98u2 }937hs937hs973h97sh397 ZN7897y98h

对我来说，唯一的区别是两者之间的 ids 值，所以一个通用的表单/分组将是

UHGUYGUYGUYGUY id = * UYAG*&^T*#@G*(&G@ id2 = * ib97y79yh0978
Sss3ug87g87g78ghs837g8 obj { * }937hs937hs973h97sh397 *7897y98h

我不确定在机器学习中我应该查找这个问题，或者即使这个问题有名称。

当然这是一个非常简化的例子，id 的数量和位置可能会因不同的通用情况而有所不同，这就是为什么我不能为此编写老式代码的原因，太多的事情可以改变。

机器学习中有什么东西可以帮助找到此类字符串的组吗？如果是，它叫什么？