数据挖掘 - 从文本中提取属于某个键的单词 - 吾爱随笔录

我有一个产品的描述，比如这种形式的手机 -

“5.5”（13.97 厘米）全高清 1920 x 1080 像素 ips 屏幕大猩猩玻璃显示屏，分辨率为 401ppi - 450 尼特的亮度和对比度为 1000:1 第一部采用 theatremax 技术和扬声器的杜比全景声环绕声的手机 13mp f2.2 主摄像头 5p镜头元件，双 LED 双色调闪光灯，带 4p 镜头元件的 5mp 前置摄像头android v5.1 操作系统，配备 1.3 ghz mediatek 6753 64 位八核处理器，arm mali t720 gpu，3 gb ddr3 ram，16gb 内部存储器（可扩展至 128gb ) 和双 micro sim 双待 (4g+4g)3300mah 锂离子电池，带快速充电器 2.0，通话时间为 29 小时”

我必须提取描述的重要元素并将其映射到诸如 -

显示尺寸 - 5.5
显示分辨率 - 1920 x 1080
模拟类型 - 双模拟
内存 - 3gb
存储 - 16GB。

我有一个映射键值对的字典。

示例 - {Ram:["3gb","3 GB","4 gb"],"Sim type":["Dual","Micro","Nano"]}

谁能建议如何做到这一点。我正在用python编码。如何使用 NLTK 进行操作。我应该使用 ngram 吗？？？任何使用自我标记的有用示例都会有所帮助。我看到的所有示例都使用已经定义的标签，如名词、人、组织等。我想将自己的字典作为语料库并训练模型，以便它从文本中提取相关的键值对。