我有一个产品的描述,比如这种形式的手机 -
“5.5”(13.97 厘米)全高清 1920 x 1080 像素 ips 屏幕大猩猩玻璃显示屏,分辨率为 401ppi - 450 尼特的亮度和对比度为 1000:1 第一部采用 theatremax 技术和扬声器的杜比全景声环绕声的手机 13mp f2.2 主摄像头 5p镜头元件,双 LED 双色调闪光灯,带 4p 镜头元件的 5mp 前置摄像头android v5.1 操作系统,配备 1.3 ghz mediatek 6753 64 位八核处理器,arm mali t720 gpu,3 gb ddr3 ram,16gb 内部存储器(可扩展至 128gb ) 和双 micro sim 双待 (4g+4g)3300mah 锂离子电池,带快速充电器 2.0,通话时间为 29 小时”
我必须提取描述的重要元素并将其映射到诸如 -
- 显示尺寸 - 5.5
- 显示分辨率 - 1920 x 1080
- 模拟类型 - 双模拟
- 内存 - 3gb
- 存储 - 16GB。
我有一个映射键值对的字典。
示例 - {Ram:["3gb","3 GB","4 gb"],"Sim type":["Dual","Micro","Nano"]}
谁能建议如何做到这一点。我正在用python编码。如何使用 NLTK 进行操作。我应该使用 ngram 吗???任何使用自我标记的有用示例都会有所帮助。我看到的所有示例都使用已经定义的标签,如名词、人、组织等。我想将自己的字典作为语料库并训练模型,以便它从文本中提取相关的键值对。