我的任务是为分类问题提出一个准确率为 95% 的模型。我有训练数据和保留数据集。我有机会请求具有所需特征的特定类的数据来实现这一目标。
我应该使用什么方法来计划通过另一个团队获取数据?我目前的准确率是 86%。我使用 LightGBM 进行模型开发。会考虑使用 XGBoost 和 TabNet 进行参数调整和集成。但我认为我需要更好的数据来获得更高的准确性。特征工程也在发挥作用。
另请注意,这是一个多类分类问题。
我的任务是为分类问题提出一个准确率为 95% 的模型。我有训练数据和保留数据集。我有机会请求具有所需特征的特定类的数据来实现这一目标。
我应该使用什么方法来计划通过另一个团队获取数据?我目前的准确率是 86%。我使用 LightGBM 进行模型开发。会考虑使用 XGBoost 和 TabNet 进行参数调整和集成。但我认为我需要更好的数据来获得更高的准确性。特征工程也在发挥作用。
另请注意,这是一个多类分类问题。
由于它是一个多类分类问题,请查看混淆矩阵以找到被错误分类的特定类别。然后为发生最多错误的类别获取更多数据。
另一种方法是检查决策边界并在决策边界附近获取更多数据。
这些技术可以结合起来——请求具有来自常见错误分类类别的相关特征值的数据。
如答案中所述,尝试获取错误分类的类的数据。
除此之外,您还可以请求次要类的数据。这将平衡您的数据集,因此可能会改善结果。