使用序列其余部分的信息来预测任何一项的标签

数据挖掘 机器学习 Python 预测建模 顺序模式挖掘
2022-02-27 05:34:49

我有一本可变长度序列的字典:


[(file_name[-10:], len(tag_is_header_list)) for file_name,
 tag_is_header_list in HEADER_PATTERN_DICT.items()]
[('37bd1.html', 25),
 ('0bcce.html', 40),
 ('90364.html', 28),
 ('8f9c7.html', 24),
 ('d12d4.html', 73),
 ('46837.html', 37),
 ('adb92.html', 53),
 ('0a1e7.html', 69),
 ('da077.html', 43),
 ('9366a.html', 21),
 ('6ae4d.html', 37),
 ('f62ee.html', 19),
 ('73aee.html', 33),
 ('e090a.html', 35),
 ('8b093.html', 44)]

这些包含每个项目的标签,说明它们是否是主题词:


HEADER_PATTERN_DICT[sorted([(file_name, len(tag_is_header_list)) for file_name,
                            tag_is_header_list in HEADER_PATTERN_DICT.items()],
                           key=lambda x: x[1])[0][0]]
[(None, True),
 ('<div', False),
 ('<div', False),
 (None, True),
 (None, False),
 ('<li', False),
 ('<li', False),
 ('<li', False),
 (None, False),
 (None, False),
 ('<li', False),
 ('<li', False),
 ('<li', False),
 (None, True),
 (None, True),
 ('<li', False),
 ('<li', False),
 ('<li', False),
 ('<div', False)]

序列中的每个项目都是一个应该预测标签的实例。那么,使用一些可变长度序列向量化来训练模型来预测标签的最佳方法是什么?

1个回答

训练模型以预测每个项目的标签的最快方法是使用条件随机场 (CRT),如本例所示h/t @erwin