如何使用 ML 根据损伤主观和客观笔记建议医疗?

数据挖掘 机器学习
2022-03-07 12:58:31

数据集中有 30k+ 条历史伤害主客观笔记记录,每条都有正确对应的治疗数据,简化的历史数据集结构如下:

伤害主观说明 | GP的客观说明| 治疗注意事项

我割伤了我的手指,... | 伤口在流血,... | 清洁伤口,用抗生素软膏治疗,...

骑车摔倒,前臂痛,... | 骨折,... | 骨 X 光片、夹板、牙套、石膏、吊索……

现在如何使用 ML/AI 根据新的(输入)主观和客观注释来建议(输出)治疗?想知道:

  1. 哪些算法最适合?
  2. 哪些工具/平台是不错的选择?
  3. 任何可以学习的具有类似项目/目的的资源链接/页面?
1个回答

围绕利用一般生物医学文本数据和特别是临床笔记进行了大量研究。我不了解整个领域(这是一个很大的领域),但让我勾勒出一些可能的方向。

  • 标准文本分类方法:将每种可能的处理视为一个类别,目标是为主观+客观的每个实例预测正确的类别。请注意,设计可以是标准的多类分类或多标签分类。可以使用所有常规文本分类技术,从决策树等传统方法到使用带有词/文本嵌入的 DL。
  • 序列到序列方法:这里的原理是模型表示输入序列(这里是主观+客观注释)如何转换为输出序列(处理)。此类任务的标准示例是机器翻译,但这种设计用于许多其他问题。
  • 具有第三方本体的语义表示。这种方法依赖于现有的生物医学资源,尤其是像Mesh和/或UMLS这样的标准化词汇表。可以使用自动注释工具(例如cTakes)从主观+客观注释中提取医学术语,并且治疗也可以使用受控词汇进行编码。通过为模型提供规范化的特征和类,这可以极大地促进模型的工作。编码后,数据可用于类似于第一种方法的分类设置。

关于软件/数据资源:有很多,但据我所知,没有什么能完全满足您开箱即用的需求。SciSpacy是一个用于处理生物医学数据的 Python 模块。有可用的数据集(例如共享任务数据),以及各种研究原型和资源。另请参阅此答案以获取指向各种生物医学资源的指针。