పైథాన్‌లోని కాలమ్ విలువల ఆధారంగా డేటాఫ్రేమ్ అడ్డు వరుసలను ఎంచుకోవడం

పైథాన్‌లోని కాలమ్ విలువల ఆధారంగా డేటాఫ్రేమ్ అడ్డు వరుసలను ఎంచుకోవడం
Python

కాలమ్ విలువల ద్వారా డేటాఫ్రేమ్‌లను ఫిల్టర్ చేయడానికి పాండాలను ఉపయోగించడం

పైథాన్‌లో డేటాతో పని చేస్తున్నప్పుడు, పాండాస్ లైబ్రరీ డేటా మానిప్యులేషన్ మరియు విశ్లేషణ కోసం శక్తివంతమైన సాధనాలను అందిస్తుంది. నిర్దిష్ట కాలమ్‌లోని విలువల ఆధారంగా డేటాఫ్రేమ్ నుండి అడ్డు వరుసలను ఎంచుకోవడం ఒక సాధారణ పని. ఈ ఆపరేషన్ SQL క్వెరీకి సమానంగా ఉంటుంది: SELECT * టేబుల్ నుండి ఎక్కడో column_name = some_value.

ఈ వ్యాసంలో, వివిధ పద్ధతులను ఉపయోగించి పాండాల్లో దీన్ని ఎలా సాధించాలో మేము విశ్లేషిస్తాము. మీరు ఒకే విలువ లేదా బహుళ ప్రమాణాల ద్వారా ఫిల్టర్ చేస్తున్నా, అటువంటి కార్యకలాపాలను నిర్వహించడానికి Pandas స్పష్టమైన మరియు సమర్థవంతమైన మార్గాలను అందిస్తుంది. వివరాల్లోకి వెళ్దాం.

ఆదేశం వివరణ
pd.DataFrame() నిఘంటువు లేదా ఇతర డేటా నిర్మాణాల నుండి డేటాఫ్రేమ్ ఆబ్జెక్ట్‌ను సృష్టిస్తుంది.
df[condition] షరతు ఆధారంగా డేటాఫ్రేమ్ అడ్డు వరుసలను ఫిల్టర్ చేస్తుంది, ప్రమాణాలకు అనుగుణంగా ఉన్న వాటిని మాత్రమే అందిస్తుంది.
print() కన్సోల్‌కు పేర్కొన్న సందేశం లేదా డేటాఫ్రేమ్‌ను అవుట్‌పుట్ చేస్తుంది.
df['column'] == value నిలువు వరుసలను ఫిల్టర్ చేయడానికి ఉపయోగించే బూలియన్ సిరీస్‌ని సృష్టిస్తుంది, ఇక్కడ నిలువు వరుస పేర్కొన్న విలువతో సరిపోలుతుంది.
df['column'] >df['column'] > value నిలువు వరుసల విలువలు పేర్కొన్న విలువ కంటే ఎక్కువగా ఉన్న అడ్డు వరుసలను ఫిల్టర్ చేయడానికి ఉపయోగించే బూలియన్ సిరీస్‌ని సృష్టిస్తుంది.
# Comment కోడ్‌లో వివరణలు లేదా గమనికలను జోడించడానికి ఉపయోగించబడుతుంది, ఇవి స్క్రిప్ట్‌లో భాగంగా అమలు చేయబడవు.

పాండాస్‌లో డేటాఫ్రేమ్ వరుస ఎంపికను అమలు చేస్తోంది

అందించిన స్క్రిప్ట్‌లలో, డేటా విశ్లేషణలో సాధారణ ఆవశ్యకమైన నిర్దిష్ట కాలమ్ విలువల ఆధారంగా డేటాఫ్రేమ్ నుండి అడ్డు వరుసలను ఫిల్టర్ చేయడం కీలకమైన పని. పాండాస్ లైబ్రరీని దిగుమతి చేయడం ద్వారా మొదటి స్క్రిప్ట్ ప్రారంభమవుతుంది import pandas as pd. Pandas అనేది పైథాన్‌లో శక్తివంతమైన డేటా మానిప్యులేషన్ లైబ్రరీ కాబట్టి ఇది చాలా అవసరం. తరువాత, మేము ఉపయోగించి నమూనా డేటాఫ్రేమ్‌ను సృష్టిస్తాము pd.DataFrame() పేర్లు, వయస్సు మరియు నగరాల కోసం డేటాను కలిగి ఉన్న నిఘంటువుతో. ఈ నిర్మాణం పట్టిక డేటాను సులభంగా దృశ్యమానం చేయడానికి మరియు మార్చడానికి అనుమతిస్తుంది. స్క్రిప్ట్‌లో కీలకమైన భాగం ఏమిటంటే మనం అడ్డు వరుసలను ఉపయోగించి ఫిల్టర్ చేస్తాము df[df['city'] == 'New York']. ఈ కమాండ్ సిటీ కాలమ్ విలువ 'న్యూయార్క్' ఉన్న అన్ని అడ్డు వరుసలను ఎంచుకుంటుంది. ఫలితం వేరియబుల్‌లో నిల్వ చేయబడుతుంది ny_rows, ఇది ఫిల్టర్ చేయబడిన డేటాఫ్రేమ్‌ను ప్రదర్శించడానికి ముద్రించబడుతుంది.

రెండవ స్క్రిప్ట్ ఒకే విధమైన నిర్మాణాన్ని అనుసరిస్తుంది కానీ సంఖ్యా స్థితి ఆధారంగా వరుసలను ఫిల్టర్ చేయడంపై దృష్టి పెడుతుంది. పాండాలను దిగుమతి చేసి, ఉత్పత్తి, ధర మరియు పరిమాణం నిలువు వరుసలతో డేటాఫ్రేమ్‌ని సృష్టించిన తర్వాత, స్క్రిప్ట్ ఉపయోగిస్తుంది df[df['price'] > 150] 150 కంటే ఎక్కువ ధర ఉన్న అడ్డు వరుసలను ఫిల్టర్ చేయడానికి. ఈ కమాండ్ పేర్కొన్న షరతుకు అనుగుణంగా ఉన్న అడ్డు వరుసలను మాత్రమే కలిగి ఉన్న అసలు డేటాఫ్రేమ్ యొక్క ఉపసమితిని ఉత్పత్తి చేస్తుంది. ఫలితం నిల్వ చేయబడుతుంది expensive_products మరియు ధృవీకరణ కోసం ముద్రించబడింది. రెండు స్క్రిప్ట్‌లు డేటా మానిప్యులేషన్ కోసం పాండాల శక్తిని మరియు సరళతను ప్రదర్శిస్తాయి. బూలియన్ ఇండెక్సింగ్‌ని ఉపయోగించడం ద్వారా, డేటాను ఫిల్టర్ చేయడానికి నిజమైన/తప్పుడు విలువల శ్రేణిని పాస్ చేసే పద్ధతి, మేము వివిధ పరిస్థితుల ఆధారంగా డేటా యొక్క ఉపసమితులను సమర్థవంతంగా ఎంచుకోవచ్చు, ఇది డేటా విశ్లేషకులు మరియు శాస్త్రవేత్తలకు అమూల్యమైన సాధనంగా మారుతుంది.

కాలమ్ విలువల ఆధారంగా డేటాఫ్రేమ్‌లో అడ్డు వరుసలను ఫిల్టర్ చేయడం

పైథాన్ - డేటాఫ్రేమ్ కార్యకలాపాల కోసం పాండాలను ఉపయోగించడం

import pandas as pd
# Create a sample DataFrame
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'David', 'Edward'],
    'age': [24, 27, 22, 32, 29],
    'city': ['New York', 'Los Angeles', 'New York', 'Chicago', 'Los Angeles']
}
df = pd.DataFrame(data)

# Select rows where city is New York
ny_rows = df[df['city'] == 'New York']
print(ny_rows)

# Output:
#       name  age      city
# 0    Alice   24  New York
# 2  Charlie   22  New York

కాలమ్ విలువల ఆధారంగా డేటాఫ్రేమ్ అడ్డు వరుసలను ప్రశ్నిస్తోంది

పైథాన్ - పాండాలతో అధునాతన వడపోత

import pandas as pd

# Create a sample DataFrame
data = {
    'product': ['A', 'B', 'C', 'D'],
    'price': [100, 150, 200, 250],
    'quantity': [30, 50, 20, 40]
}
df = pd.DataFrame(data)

# Select rows where price is greater than 150
expensive_products = df[df['price'] > 150]
print(expensive_products)

# Output:
#   product  price  quantity
# 2       C    200        20
# 3       D    250        40

డేటాఫ్రేమ్ వరుసలను ఎంచుకోవడానికి అధునాతన సాంకేతికతలు

బూలియన్ ఇండెక్సింగ్‌తో ప్రాథమిక ఫిల్టరింగ్‌తో పాటు, కాలమ్ విలువల ఆధారంగా అడ్డు వరుసలను ఎంచుకోవడానికి పాండాస్ మరింత అధునాతన పద్ధతులను అందిస్తుంది. అటువంటి పద్ధతి ఒకటి query() ఫంక్షన్, ఇది డేటాఫ్రేమ్ అడ్డు వరుసలను ఫిల్టర్ చేయడానికి SQL-వంటి సింటాక్స్‌ని ఉపయోగించడానికి మిమ్మల్ని అనుమతిస్తుంది. ఉదాహరణకు, మీరు ఉపయోగించవచ్చు df.query('age > 25 and city == "New York"') 25 సంవత్సరాల కంటే ఎక్కువ వయస్సు ఉన్న మరియు నగరం న్యూయార్క్‌లో ఉన్న వరుసలను ఎంచుకోవడానికి. ఈ పద్ధతి మీ కోడ్‌ను మరింత చదవగలిగేలా చేస్తుంది, ముఖ్యంగా సంక్లిష్ట పరిస్థితుల కోసం. అదనంగా, పాండాస్ అందిస్తుంది loc[] మరియు iloc[] మరింత ఖచ్చితమైన వరుస ఎంపిక కోసం యాక్సెసర్‌లు. ది loc[] యాక్సెసర్ అనేది లేబుల్ ఆధారితమైనది, అంటే మీరు అడ్డు వరుసలను వాటి లేబుల్‌లు లేదా బూలియన్ అర్రే ద్వారా ఫిల్టర్ చేయవచ్చు. దీనికి విరుద్ధంగా, ది iloc[] యాక్సెసర్ అనేది పూర్ణాంక స్థానం-ఆధారితం, ఇది వరుసలను వాటి సూచిక స్థానాల ద్వారా ఫిల్టర్ చేయడానికి మిమ్మల్ని అనుమతిస్తుంది.

పాండాస్‌లోని మరో శక్తివంతమైన ఫీచర్ ఏమిటంటే డేటాఫ్రేమ్ అడ్డు వరుసలను ఉపయోగించి ఫిల్టర్ చేయగల సామర్థ్యం isin() పద్ధతి. మీరు విలువల జాబితా ఆధారంగా అడ్డు వరుసలను ఫిల్టర్ చేయవలసి వచ్చినప్పుడు ఈ పద్ధతి ఉపయోగపడుతుంది. ఉదాహరణకి, df[df['city'].isin(['New York', 'Los Angeles'])] సిటీ కాలమ్ విలువ న్యూయార్క్ లేదా లాస్ ఏంజిల్స్‌లో ఉన్న అడ్డు వరుసలను ఎంచుకుంటుంది. ఇంకా, మీరు ఉపయోగించి అనేక షరతులను చైన్ చేయవచ్చు & మరియు | మరింత క్లిష్టమైన ఫిల్టర్‌లను సృష్టించడానికి ఆపరేటర్లు. ఉదాహరణకి, df[(df['age'] > 25) & (df['city'] == 'New York')] 25 సంవత్సరాల కంటే ఎక్కువ వయస్సు ఉన్న మరియు నగరం న్యూయార్క్‌లో ఉన్న వరుసలను ఫిల్టర్ చేస్తుంది. ఈ అధునాతన పద్ధతులు డేటా ఫిల్టరింగ్ కోసం బలమైన ఫ్రేమ్‌వర్క్‌ను అందిస్తాయి, డేటా విశ్లేషణ మరియు మానిప్యులేషన్ కోసం పాండాస్‌ను బహుముఖ సాధనంగా మారుస్తుంది.

పాండాస్‌లో డేటాఫ్రేమ్ వరుసలను ఎంచుకోవడం గురించి సాధారణ ప్రశ్నలు

  1. బహుళ నిలువు వరుస విలువల ఆధారంగా నేను డేటాఫ్రేమ్‌లో అడ్డు వరుసలను ఎలా ఫిల్టర్ చేయాలి?
  2. మీరు బహుళ షరతులతో కలిపి బూలియన్ ఇండెక్సింగ్‌ని ఉపయోగించవచ్చు & మరియు |. ఉదాహరణకి: df[(df['age'] > 25) & (df['city'] == 'New York')].
  3. రెండింటిలో తేడా ఏంటి loc[] మరియు iloc[]?
  4. loc[] లేబుల్ ఆధారితమైనది, అయితే iloc[] పూర్ణాంకం స్థానం-ఆధారితమైనది. వా డు loc[] లేబుల్స్ ద్వారా ఫిల్టర్ చేయడానికి మరియు iloc[] ఇండెక్స్ స్థానాల ద్వారా వడపోత కోసం.
  5. నేను ఎలా ఉపయోగించగలను query() DataFrame అడ్డు వరుసలను ఫిల్టర్ చేయడానికి ఫంక్షన్ చేయాలా?
  6. ది query() ఫంక్షన్ SQL-వంటి సింటాక్స్‌ని ఉపయోగించడానికి మిమ్మల్ని అనుమతిస్తుంది. ఉదాహరణకి: df.query('age > 25 and city == "New York"').
  7. నేను విలువల జాబితా ఆధారంగా అడ్డు వరుసలను ఫిల్టర్ చేయవచ్చా?
  8. అవును, మీరు ఉపయోగించవచ్చు isin() పద్ధతి. ఉదాహరణకి: df[df['city'].isin(['New York', 'Los Angeles'])].
  9. స్ట్రింగ్ మ్యాచింగ్ ఆధారంగా అడ్డు వరుసలను ఫిల్టర్ చేయడానికి ఉత్తమ మార్గం ఏమిటి?
  10. మీరు ఉపయోగించవచ్చు str.contains() పద్ధతి. ఉదాహరణకి: df[df['city'].str.contains('New')].
  11. నిలువు వరుసల విలువలు లేని అడ్డు వరుసలను నేను ఎలా ఎంచుకోవాలి?
  12. మీరు ఉపయోగించవచ్చు isna() పద్ధతి. ఉదాహరణకి: df[df['age'].isna()].
  13. కస్టమ్ ఫంక్షన్‌ని ఉపయోగించి నేను అడ్డు వరుసలను ఎలా ఫిల్టర్ చేయగలను?
  14. మీరు ఉపయోగించవచ్చు apply() లాంబ్డా ఫంక్షన్‌తో పద్ధతి. ఉదాహరణకి: df[df.apply(lambda row: row['age'] > 25, axis=1)].
  15. నేను సూచిక విలువల ఆధారంగా అడ్డు వరుసలను ఫిల్టర్ చేయవచ్చా?
  16. అవును, మీరు ఉపయోగించవచ్చు index.isin() పద్ధతి. ఉదాహరణకి: df[df.index.isin([1, 3, 5])].

డేటాఫ్రేమ్ వరుస ఎంపిక కోసం కీలకమైన అంశాలు

కాలమ్ విలువల ఆధారంగా డేటాఫ్రేమ్ నుండి అడ్డు వరుసలను ఎంచుకోవడం పాండాస్‌తో డేటా విశ్లేషణలో ప్రాథమిక నైపుణ్యం. బూలియన్ ఇండెక్సింగ్‌ని ఉపయోగించడం, loc[], iloc[], query(), మరియు isin() పద్ధతులు సమర్థవంతమైన డేటా వడపోత కోసం అనుమతిస్తుంది. ఈ టెక్నిక్‌లను మాస్టరింగ్ చేయడం వల్ల డేటాసెట్‌లను ప్రభావవంతంగా మార్చగల మరియు విశ్లేషించే మీ సామర్థ్యాన్ని పెంచుతుంది.