我是 Spacy 的新手,实际上是数据科学的新手。我想为 NER 处理一些 XML 文件,然后在原始 XML 中进行标记。我想知道如何为 NER 标记 XML。我认为我应该过滤掉 XML 标签/代码,然后在保留位置的同时提供剩余的文本,以便我可以获得与原始 XML 相关的 NER 结果的位置。这将帮助我识别和标记 XML 中的确切位置。
对此的任何想法和指导将不胜感激。谢谢
我是 Spacy 的新手,实际上是数据科学的新手。我想为 NER 处理一些 XML 文件,然后在原始 XML 中进行标记。我想知道如何为 NER 标记 XML。我认为我应该过滤掉 XML 标签/代码,然后在保留位置的同时提供剩余的文本,以便我可以获得与原始 XML 相关的 NER 结果的位置。这将帮助我识别和标记 XML 中的确切位置。
对此的任何想法和指导将不胜感激。谢谢
通常,首先解析 XML。然后,可以使用 spaCy 之类的东西分析内容。
xml.etree.ElementTree是 Python 中解析 XML 的最常用方法。