我是靠谱客的博主 甜甜灰狼,最近开发中收集的这篇文章主要介绍python数据模糊匹配_搜索一个Python的数据帧/字典模糊匹配在另一个数据帧,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

我有50000个独特行和20列下面大熊猫数据帧(包括是相关列的一个片段):搜索一个Python的数据帧/字典模糊匹配在另一个数据帧

DF1:

PRODUCT_ID PRODUCT_DESCRIPTION

0 165985858958 "Fish Burger with Lettuce"

1 185965653252 "Chicken Salad with Dressing"

2 165958565556 "Pork and Honey Rissoles"

3 655262522233 "Cheese, Ham and Tomato Sandwich"

4 857485966653 "Coleslaw with Yoghurt Dressing"

5 524156285551 "Lemon and Raspberry Cheesecake"

我也有其具有2列和20000个唯一行以下数据帧(这也是我已经保存在字典形式):

DF2(也被保存为二ct_2)

PROD_ID PROD_DESCRIPTION

0 548576 "Fish Burger"

1 156956 "Chckn Salad w/Ranch Dressing"

2 257848 "Rissoles - Lamb & Rosemary"

3 298770 "Lemn C-cake"

4 651452 "Potato Salad with Bacon"

5 100256 "Cheese Cake - Lemon Raspberry Coulis"

我所想要做的是在DF2比较“PRODUCT_DESCRIPTION”字段DF1到了“PROD_DESCRIPTION”现场,并找到最接近的匹配/匹配,以帮助繁重的一部分。然后,我需要手动检查比赛结果,但速度会更快。理想的结果将如下所示。与一个或多个部分匹配记录:

PRODUCT_ID PRODUCT_DESCRIPTION PROD_ID PROD_DESCRIPTION

0 165985858958 "Fish Burger with Lettuce" 548576 "Fish Burger"

1 185965653252 "Chicken Salad with Dressing" 156956 "Chckn Salad w/Ranch Dressing"

2 165958565556 "Pork and Honey Rissoles" 257848 "Rissoles - Lamb & Rosemary"

3 655262522233 "Cheese, Ham and Tomato Sandwich" NaN NaN

4 857485966653 "Coleslaw with Yoghurt Dressing" NaN NaN

5 524156285551 "Lemon and Raspberry Cheesecake" 298770 "Lemn C-cake"

6 524156285551 "Lemon and Raspberry Cheesecake" 100256 "Cheese Cake - Lemon Raspberry Coulis"

我已经完成了一个确定完全匹配的连接。由于每个df中的产品ID都是唯一的,因此保留索引并不重要。结果也可以保存到一个新的数据框中,因为这将被应用到约有1400万行的第三个数据框。

我用以下问题及答案(其中包括):

以及各种的一个建议循环/函数/映射等,但没有成功,要么得到第一个“模糊匹配”,其中得分低或者没有检测到匹配。

我喜欢的匹配/距离得分列的想法正在生成按here,因为它会然后让我加快人工检查过程。

我使用Python 2.7,熊猫已经fuzzywuzzy安装。

2017-01-04

gincard

最后

以上就是甜甜灰狼为你收集整理的python数据模糊匹配_搜索一个Python的数据帧/字典模糊匹配在另一个数据帧的全部内容,希望文章能够帮你解决python数据模糊匹配_搜索一个Python的数据帧/字典模糊匹配在另一个数据帧所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(63)

评论列表共有 0 条评论

立即
投稿
返回
顶部