我是靠谱客的博主 笑点低小蝴蝶,最近开发中收集的这篇文章主要介绍dataframe 根据条件查找_python – 在Pandas DataFrame中查找第一列匹配条件的矢量化方法...,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

假设我有以下pandas DataFrame:

A B C

0 0.548814 0.791725 0.978618

1 0.715189 0.528895 0.799159

2 0.602763 0.568045 0.461479

3 0.544883 0.925597 0.780529

4 0.423655 0.071036 0.118274

5 0.645894 0.087129 0.639921

6 0.437587 0.020218 0.143353

7 0.891773 0.832620 0.944669

8 0.963663 0.778157 0.521848

9 0.383442 0.870012 0.414662

可以使用以下代码创建:

import pandas as pd

import numpy as np

size = 10

np.random.seed(0)

keys = ["A", "B", "C"]

df = pd.DataFrame({k: np.random.random(size) for k in keys})

如何找到符合给定条件的第一列?

在这种情况下,假设我的标准是我想要第一列,其中值小于某个p,比如0.5.如果没有列符合此条件,我想返回“不匹配”.

使用apply,这可以做到如下:

p = 0.5

first = df.apply(

lambda row: next((x for i, x in enumerate(df.columns) if row[x]

axis=1

)

print(first)

#0 No Match

#1 No Match

#2 C

#3 No Match

#4 A

#5 B

#6 A

#7 No Match

#8 No Match

#9 A

#dtype: object

是否有更有效(矢量化)的方法来做到这一点?我在想应该有一些方法使用argmax(),但我没有让它工作.

另外,我正在使用pandas 0.19.2而且我不确定我是否可以升级.

print(pd.__version__)

#u'0.19.2'

最佳答案 您可以使用NumPy argmax,但需要覆盖在给定行中从未满足您的条件的实例:

mask = df.lt(0.5)

df['first'] = np.where(mask.any(1), df.columns[mask.values.argmax(1)], 'No Match')

您也可以使用Pandas idxmax:

df['first'] = np.where(mask.any(1), mask.idxmax(1), 'No Match')

print(df)

A B C first

0 0.548814 0.791725 0.978618 No Match

1 0.715189 0.528895 0.799159 No Match

2 0.602763 0.568045 0.461479 C

3 0.544883 0.925597 0.780529 No Match

4 0.423655 0.071036 0.118274 A

5 0.645894 0.087129 0.639921 B

6 0.437587 0.020218 0.143353 A

7 0.891773 0.832620 0.944669 No Match

8 0.963663 0.778157 0.521848 No Match

9 0.383442 0.870012 0.414662 A

最后

以上就是笑点低小蝴蝶为你收集整理的dataframe 根据条件查找_python – 在Pandas DataFrame中查找第一列匹配条件的矢量化方法...的全部内容,希望文章能够帮你解决dataframe 根据条件查找_python – 在Pandas DataFrame中查找第一列匹配条件的矢量化方法...所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(47)

评论列表共有 0 条评论

立即
投稿
返回
顶部