పైథాన్‌లోని కాలమ్ విలువల ఆధారంగా డేటాఫ్రేమ్ అడ్డు వరుసలను ఎంచుకోవడం

Jules David

1, జులై 2024, సోమవారం 10:44:47 AMకి

కాలమ్ విలువల ద్వారా డేటాఫ్రేమ్‌లను ఫిల్టర్ చేయడానికి పాండాలను ఉపయోగించడం
పైథాన్‌లో డేటాతో పని చేస్తున్నప్పుడు, పాండాస్ లైబ్రరీ డేటా మానిప్యులేషన్ మరియు విశ్లేషణ కోసం శక్తివంతమైన సాధనాలను అందిస్తుంది. నిర్దిష్ట కాలమ్‌లోని విలువల ఆధారంగా డేటాఫ్రేమ్ నుండి అడ్డు వరుసలను ఎంచుకోవడం ఒక సాధారణ పని. ఈ ఆపరేషన్ SQL క్వెరీకి సమానంగా ఉంటుంది: SELECT * టేబుల్ నుండి ఎక్కడో column_name = some_value.
ఈ వ్యాసంలో, వివిధ పద్ధతులను ఉపయోగించి పాండాల్లో దీన్ని ఎలా సాధించాలో మేము విశ్లేషిస్తాము. మీరు ఒకే విలువ లేదా బహుళ ప్రమాణాల ద్వారా ఫిల్టర్ చేస్తున్నా, అటువంటి కార్యకలాపాలను నిర్వహించడానికి Pandas స్పష్టమైన మరియు సమర్థవంతమైన మార్గాలను అందిస్తుంది. వివరాల్లోకి వెళ్దాం.

ఆదేశం వివరణ

pd.DataFrame() నిఘంటువు లేదా ఇతర డేటా నిర్మాణాల నుండి డేటాఫ్రేమ్ ఆబ్జెక్ట్‌ను సృష్టిస్తుంది.

df[condition] షరతు ఆధారంగా డేటాఫ్రేమ్ అడ్డు వరుసలను ఫిల్టర్ చేస్తుంది, ప్రమాణాలకు అనుగుణంగా ఉన్న వాటిని మాత్రమే అందిస్తుంది.

print() కన్సోల్‌కు పేర్కొన్న సందేశం లేదా డేటాఫ్రేమ్‌ను అవుట్‌పుట్ చేస్తుంది.

df['column'] == value నిలువు వరుసలను ఫిల్టర్ చేయడానికి ఉపయోగించే బూలియన్ సిరీస్‌ని సృష్టిస్తుంది, ఇక్కడ నిలువు వరుస పేర్కొన్న విలువతో సరిపోలుతుంది.

df['column'] >df['column'] > value నిలువు వరుసల విలువలు పేర్కొన్న విలువ కంటే ఎక్కువగా ఉన్న అడ్డు వరుసలను ఫిల్టర్ చేయడానికి ఉపయోగించే బూలియన్ సిరీస్‌ని సృష్టిస్తుంది.

# Comment కోడ్‌లో వివరణలు లేదా గమనికలను జోడించడానికి ఉపయోగించబడుతుంది, ఇవి స్క్రిప్ట్‌లో భాగంగా అమలు చేయబడవు.

ఆదేశం	వివరణ
pd.DataFrame()	నిఘంటువు లేదా ఇతర డేటా నిర్మాణాల నుండి డేటాఫ్రేమ్ ఆబ్జెక్ట్‌ను సృష్టిస్తుంది.
df[condition]	షరతు ఆధారంగా డేటాఫ్రేమ్ అడ్డు వరుసలను ఫిల్టర్ చేస్తుంది, ప్రమాణాలకు అనుగుణంగా ఉన్న వాటిని మాత్రమే అందిస్తుంది.
print()	కన్సోల్‌కు పేర్కొన్న సందేశం లేదా డేటాఫ్రేమ్‌ను అవుట్‌పుట్ చేస్తుంది.
df['column'] == value	నిలువు వరుసలను ఫిల్టర్ చేయడానికి ఉపయోగించే బూలియన్ సిరీస్‌ని సృష్టిస్తుంది, ఇక్కడ నిలువు వరుస పేర్కొన్న విలువతో సరిపోలుతుంది.
df['column'] >df['column'] > value	నిలువు వరుసల విలువలు పేర్కొన్న విలువ కంటే ఎక్కువగా ఉన్న అడ్డు వరుసలను ఫిల్టర్ చేయడానికి ఉపయోగించే బూలియన్ సిరీస్‌ని సృష్టిస్తుంది.
# Comment	కోడ్‌లో వివరణలు లేదా గమనికలను జోడించడానికి ఉపయోగించబడుతుంది, ఇవి స్క్రిప్ట్‌లో భాగంగా అమలు చేయబడవు.

పాండాస్‌లో డేటాఫ్రేమ్ వరుస ఎంపికను అమలు చేస్తోంది

అందించిన స్క్రిప్ట్‌లలో, డేటా విశ్లేషణలో సాధారణ ఆవశ్యకమైన నిర్దిష్ట కాలమ్ విలువల ఆధారంగా డేటాఫ్రేమ్ నుండి అడ్డు వరుసలను ఫిల్టర్ చేయడం కీలకమైన పని. పాండాస్ లైబ్రరీని దిగుమతి చేయడం ద్వారా మొదటి స్క్రిప్ట్ ప్రారంభమవుతుంది . Pandas అనేది పైథాన్‌లో శక్తివంతమైన డేటా మానిప్యులేషన్ లైబ్రరీ కాబట్టి ఇది చాలా అవసరం. తరువాత, మేము ఉపయోగించి నమూనా డేటాఫ్రేమ్‌ను సృష్టిస్తాము పేర్లు, వయస్సు మరియు నగరాల కోసం డేటాను కలిగి ఉన్న నిఘంటువుతో. ఈ నిర్మాణం పట్టిక డేటాను సులభంగా దృశ్యమానం చేయడానికి మరియు మార్చడానికి అనుమతిస్తుంది. స్క్రిప్ట్‌లో కీలకమైన భాగం ఏమిటంటే మనం అడ్డు వరుసలను ఉపయోగించి ఫిల్టర్ చేస్తాము . ఈ కమాండ్ సిటీ కాలమ్ విలువ 'న్యూయార్క్' ఉన్న అన్ని అడ్డు వరుసలను ఎంచుకుంటుంది. ఫలితం వేరియబుల్‌లో నిల్వ చేయబడుతుంది ny_rows, ఇది ఫిల్టర్ చేయబడిన డేటాఫ్రేమ్‌ను ప్రదర్శించడానికి ముద్రించబడుతుంది.

రెండవ స్క్రిప్ట్ ఒకే విధమైన నిర్మాణాన్ని అనుసరిస్తుంది కానీ సంఖ్యా స్థితి ఆధారంగా వరుసలను ఫిల్టర్ చేయడంపై దృష్టి పెడుతుంది. పాండాలను దిగుమతి చేసి, ఉత్పత్తి, ధర మరియు పరిమాణం నిలువు వరుసలతో డేటాఫ్రేమ్‌ని సృష్టించిన తర్వాత, స్క్రిప్ట్ ఉపయోగిస్తుంది 150 కంటే ఎక్కువ ధర ఉన్న అడ్డు వరుసలను ఫిల్టర్ చేయడానికి. ఈ కమాండ్ పేర్కొన్న షరతుకు అనుగుణంగా ఉన్న అడ్డు వరుసలను మాత్రమే కలిగి ఉన్న అసలు డేటాఫ్రేమ్ యొక్క ఉపసమితిని ఉత్పత్తి చేస్తుంది. ఫలితం నిల్వ చేయబడుతుంది మరియు ధృవీకరణ కోసం ముద్రించబడింది. రెండు స్క్రిప్ట్‌లు డేటా మానిప్యులేషన్ కోసం పాండాల శక్తిని మరియు సరళతను ప్రదర్శిస్తాయి. బూలియన్ ఇండెక్సింగ్‌ని ఉపయోగించడం ద్వారా, డేటాను ఫిల్టర్ చేయడానికి నిజమైన/తప్పుడు విలువల శ్రేణిని పాస్ చేసే పద్ధతి, మేము వివిధ పరిస్థితుల ఆధారంగా డేటా యొక్క ఉపసమితులను సమర్థవంతంగా ఎంచుకోవచ్చు, ఇది డేటా విశ్లేషకులు మరియు శాస్త్రవేత్తలకు అమూల్యమైన సాధనంగా మారుతుంది.

కాలమ్ విలువల ఆధారంగా డేటాఫ్రేమ్‌లో అడ్డు వరుసలను ఫిల్టర్ చేయడం

పైథాన్ - డేటాఫ్రేమ్ కార్యకలాపాల కోసం పాండాలను ఉపయోగించడం

import pandas as pd
# Create a sample DataFrame
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'David', 'Edward'],
    'age': [24, 27, 22, 32, 29],
    'city': ['New York', 'Los Angeles', 'New York', 'Chicago', 'Los Angeles']
}
df = pd.DataFrame(data)

# Select rows where city is New York
ny_rows = df[df['city'] == 'New York']
print(ny_rows)

# Output:
#       name  age      city
# 0    Alice   24  New York
# 2  Charlie   22  New York

కాలమ్ విలువల ఆధారంగా డేటాఫ్రేమ్ అడ్డు వరుసలను ప్రశ్నిస్తోంది

పైథాన్ - పాండాలతో అధునాతన వడపోత

import pandas as pd

# Create a sample DataFrame
data = {
    'product': ['A', 'B', 'C', 'D'],
    'price': [100, 150, 200, 250],
    'quantity': [30, 50, 20, 40]
}
df = pd.DataFrame(data)

# Select rows where price is greater than 150
expensive_products = df[df['price'] > 150]
print(expensive_products)

# Output:
#   product  price  quantity
# 2       C    200        20
# 3       D    250        40

డేటాఫ్రేమ్ వరుసలను ఎంచుకోవడానికి అధునాతన సాంకేతికతలు

బూలియన్ ఇండెక్సింగ్‌తో ప్రాథమిక ఫిల్టరింగ్‌తో పాటు, కాలమ్ విలువల ఆధారంగా అడ్డు వరుసలను ఎంచుకోవడానికి పాండాస్ మరింత అధునాతన పద్ధతులను అందిస్తుంది. అటువంటి పద్ధతి ఒకటి ఫంక్షన్, ఇది డేటాఫ్రేమ్ అడ్డు వరుసలను ఫిల్టర్ చేయడానికి SQL-వంటి సింటాక్స్‌ని ఉపయోగించడానికి మిమ్మల్ని అనుమతిస్తుంది. ఉదాహరణకు, మీరు ఉపయోగించవచ్చు 25 సంవత్సరాల కంటే ఎక్కువ వయస్సు ఉన్న మరియు నగరం న్యూయార్క్‌లో ఉన్న వరుసలను ఎంచుకోవడానికి. ఈ పద్ధతి మీ కోడ్‌ను మరింత చదవగలిగేలా చేస్తుంది, ముఖ్యంగా సంక్లిష్ట పరిస్థితుల కోసం. అదనంగా, పాండాస్ అందిస్తుంది మరియు iloc[] మరింత ఖచ్చితమైన వరుస ఎంపిక కోసం యాక్సెసర్‌లు. ది యాక్సెసర్ అనేది లేబుల్ ఆధారితమైనది, అంటే మీరు అడ్డు వరుసలను వాటి లేబుల్‌లు లేదా బూలియన్ అర్రే ద్వారా ఫిల్టర్ చేయవచ్చు. దీనికి విరుద్ధంగా, ది యాక్సెసర్ అనేది పూర్ణాంక స్థానం-ఆధారితం, ఇది వరుసలను వాటి సూచిక స్థానాల ద్వారా ఫిల్టర్ చేయడానికి మిమ్మల్ని అనుమతిస్తుంది.

పాండాస్‌లోని మరో శక్తివంతమైన ఫీచర్ ఏమిటంటే డేటాఫ్రేమ్ అడ్డు వరుసలను ఉపయోగించి ఫిల్టర్ చేయగల సామర్థ్యం పద్ధతి. మీరు విలువల జాబితా ఆధారంగా అడ్డు వరుసలను ఫిల్టర్ చేయవలసి వచ్చినప్పుడు ఈ పద్ధతి ఉపయోగపడుతుంది. ఉదాహరణకి, సిటీ కాలమ్ విలువ న్యూయార్క్ లేదా లాస్ ఏంజిల్స్‌లో ఉన్న అడ్డు వరుసలను ఎంచుకుంటుంది. ఇంకా, మీరు ఉపయోగించి అనేక షరతులను చైన్ చేయవచ్చు మరియు | మరింత క్లిష్టమైన ఫిల్టర్‌లను సృష్టించడానికి ఆపరేటర్లు. ఉదాహరణకి, 25 సంవత్సరాల కంటే ఎక్కువ వయస్సు ఉన్న మరియు నగరం న్యూయార్క్‌లో ఉన్న వరుసలను ఫిల్టర్ చేస్తుంది. ఈ అధునాతన పద్ధతులు డేటా ఫిల్టరింగ్ కోసం బలమైన ఫ్రేమ్‌వర్క్‌ను అందిస్తాయి, డేటా విశ్లేషణ మరియు మానిప్యులేషన్ కోసం పాండాస్‌ను బహుముఖ సాధనంగా మారుస్తుంది.

బహుళ నిలువు వరుస విలువల ఆధారంగా నేను డేటాఫ్రేమ్‌లో అడ్డు వరుసలను ఎలా ఫిల్టర్ చేయాలి?
మీరు బహుళ షరతులతో కలిపి బూలియన్ ఇండెక్సింగ్‌ని ఉపయోగించవచ్చు మరియు . ఉదాహరణకి: .
రెండింటిలో తేడా ఏంటి మరియు ?
లేబుల్ ఆధారితమైనది, అయితే పూర్ణాంకం స్థానం-ఆధారితమైనది. వా డు లేబుల్స్ ద్వారా ఫిల్టర్ చేయడానికి మరియు iloc[] ఇండెక్స్ స్థానాల ద్వారా వడపోత కోసం.
నేను ఎలా ఉపయోగించగలను DataFrame అడ్డు వరుసలను ఫిల్టర్ చేయడానికి ఫంక్షన్ చేయాలా?
ది ఫంక్షన్ SQL-వంటి సింటాక్స్‌ని ఉపయోగించడానికి మిమ్మల్ని అనుమతిస్తుంది. ఉదాహరణకి: .
నేను విలువల జాబితా ఆధారంగా అడ్డు వరుసలను ఫిల్టర్ చేయవచ్చా?
అవును, మీరు ఉపయోగించవచ్చు పద్ధతి. ఉదాహరణకి: .
స్ట్రింగ్ మ్యాచింగ్ ఆధారంగా అడ్డు వరుసలను ఫిల్టర్ చేయడానికి ఉత్తమ మార్గం ఏమిటి?
మీరు ఉపయోగించవచ్చు పద్ధతి. ఉదాహరణకి: .
నిలువు వరుసల విలువలు లేని అడ్డు వరుసలను నేను ఎలా ఎంచుకోవాలి?
మీరు ఉపయోగించవచ్చు పద్ధతి. ఉదాహరణకి: .
కస్టమ్ ఫంక్షన్‌ని ఉపయోగించి నేను అడ్డు వరుసలను ఎలా ఫిల్టర్ చేయగలను?
మీరు ఉపయోగించవచ్చు లాంబ్డా ఫంక్షన్‌తో పద్ధతి. ఉదాహరణకి: .
నేను సూచిక విలువల ఆధారంగా అడ్డు వరుసలను ఫిల్టర్ చేయవచ్చా?
అవును, మీరు ఉపయోగించవచ్చు పద్ధతి. ఉదాహరణకి: .

కాలమ్ విలువల ఆధారంగా డేటాఫ్రేమ్ నుండి అడ్డు వరుసలను ఎంచుకోవడం పాండాస్‌తో డేటా విశ్లేషణలో ప్రాథమిక నైపుణ్యం. బూలియన్ ఇండెక్సింగ్‌ని ఉపయోగించడం, , , , మరియు isin() పద్ధతులు సమర్థవంతమైన డేటా వడపోత కోసం అనుమతిస్తుంది. ఈ టెక్నిక్‌లను మాస్టరింగ్ చేయడం వల్ల డేటాసెట్‌లను ప్రభావవంతంగా మార్చగల మరియు విశ్లేషించే మీ సామర్థ్యాన్ని పెంచుతుంది.