概述
我有50000个独特行和20列下面大熊猫数据帧(包括是相关列的一个片段):搜索一个Python的数据帧/字典模糊匹配在另一个数据帧
DF1:
PRODUCT_ID PRODUCT_DESCRIPTION
0 165985858958 "Fish Burger with Lettuce"
1 185965653252 "Chicken Salad with Dressing"
2 165958565556 "Pork and Honey Rissoles"
3 655262522233 "Cheese, Ham and Tomato Sandwich"
4 857485966653 "Coleslaw with Yoghurt Dressing"
5 524156285551 "Lemon and Raspberry Cheesecake"
我也有其具有2列和20000个唯一行以下数据帧(这也是我已经保存在字典形式):
DF2(也被保存为二ct_2)
PROD_ID PROD_DESCRIPTION
0 548576 "Fish Burger"
1 156956 "Chckn Salad w/Ranch Dressing"
2 257848 "Rissoles - Lamb & Rosemary"
3 298770 "Lemn C-cake"
4 651452 "Potato Salad with Bacon"
5 100256 "Cheese Cake - Lemon Raspberry Coulis"
我所想要做的是在DF2比较“PRODUCT_DESCRIPTION”字段DF1到了“PROD_DESCRIPTION”现场,并找到最接近的匹配/匹配,以帮助繁重的一部分。然后,我需要手动检查比赛结果,但速度会更快。理想的结果将如下所示。与一个或多个部分匹配记录:
PRODUCT_ID PRODUCT_DESCRIPTION PROD_ID PROD_DESCRIPTION
0 165985858958 "Fish Burger with Lettuce" 548576 "Fish Burger"
1 185965653252 "Chicken Salad with Dressing" 156956 "Chckn Salad w/Ranch Dressing"
2 165958565556 "Pork and Honey Rissoles" 257848 "Rissoles - Lamb & Rosemary"
3 655262522233 "Cheese, Ham and Tomato Sandwich" NaN NaN
4 857485966653 "Coleslaw with Yoghurt Dressing" NaN NaN
5 524156285551 "Lemon and Raspberry Cheesecake" 298770 "Lemn C-cake"
6 524156285551 "Lemon and Raspberry Cheesecake" 100256 "Cheese Cake - Lemon Raspberry Coulis"
我已经完成了一个确定完全匹配的连接。由于每个df中的产品ID都是唯一的,因此保留索引并不重要。结果也可以保存到一个新的数据框中,因为这将被应用到约有1400万行的第三个数据框。
我用以下问题及答案(其中包括):
以及各种的一个建议循环/函数/映射等,但没有成功,要么得到第一个“模糊匹配”,其中得分低或者没有检测到匹配。
我喜欢的匹配/距离得分列的想法正在生成按here,因为它会然后让我加快人工检查过程。
我使用Python 2.7,熊猫已经fuzzywuzzy安装。
2017-01-04
gincard
最后
以上就是甜甜灰狼为你收集整理的python数据模糊匹配_搜索一个Python的数据帧/字典模糊匹配在另一个数据帧的全部内容,希望文章能够帮你解决python数据模糊匹配_搜索一个Python的数据帧/字典模糊匹配在另一个数据帧所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复