我有两个地名的数据,它是连续的地址,我必须匹配它。数据是文本类型,我读过,它必须转换为文本生成的数字类型。我使用fuzzywuzzy分数匹配从名字地点和地址中提取数字并计算它的长度,并使其成为分类的特征。
这是数据的结构(这只是示例,但代表数据)
id place_name address places_name_candidate_match address_candidate_match match
1 Liberty Bell 143 S. 3rd Street, Philadelphia, Pennsylvania Liberty Bell S. 3rd Street, Pennsylvania True
2 Liberty Bell 143 S. 3rd Street, Philadelphia, Pennsylvania Liberty Bell S. 3rd Street, Pennsylvania True
3 Hershey Park 100 Hersheypark Drive, Hershey, Pennsylvania Hershey Park S. 3rd Street, Pennsylvania False
4 Hershey Park 100 Hersheypark Drive, Hershey, Pennsylvania Hershey Park 100 Hersheypark Drive, Hershey, Pennsylvania True
我想为一个公园的地方做一个例外,如果它不是公园,地址不同但地名相同,结果仍然是正确的,但如果它是专门的公园,地名是相同的,但地址不同,它应该返回false。但有时有些地名不包含“公园”这个词,我如何创建一个功能来教机器做出这些例外?还是有另一种方法?