పాండాస్ డేటాఫ్రేమ్లలో వరుసలను వడపోత
పాండాస్ అనేది డేటా మానిప్యులేషన్ మరియు విశ్లేషణ కోసం పైథాన్లోని శక్తివంతమైన లైబ్రరీ. SQL యొక్క SELECT * FROM టేబుల్ WHERE column_name = some_value లాంటి కాలమ్ విలువల ఆధారంగా డేటాఫ్రేమ్ నుండి అడ్డు వరుసలను ఎంచుకోవడం ఒక సాధారణ పని.
ఈ గైడ్ పాండాస్లో దీన్ని సాధించడానికి వివిధ పద్ధతుల ద్వారా మిమ్మల్ని నడిపిస్తుంది, మీ డేటాను సమర్థవంతంగా ఫిల్టర్ చేయడం సులభం చేస్తుంది. మీరు అనుభవశూన్యుడు లేదా అనుభవజ్ఞుడైన వినియోగదారు అయినా, ఈ చిట్కాలు మీ డేటా నిర్వహణ నైపుణ్యాలను మెరుగుపరుస్తాయి.
ఆదేశం | వివరణ |
---|---|
pd.DataFrame(data) | డేటా నిఘంటువు నుండి డేటాఫ్రేమ్ను సృష్టిస్తుంది. |
df[column_name] | పేరు ద్వారా డేటాఫ్రేమ్లోని నిలువు వరుసను యాక్సెస్ చేస్తుంది. |
df[condition] | నిలువు వరుసకు వర్తించే షరతు ఆధారంగా డేటాఫ్రేమ్ను ఫిల్టర్ చేస్తుంది. |
print(selected_rows) | డేటాఫ్రేమ్ లేదా దాని ఉపసమితిని కన్సోల్కు ప్రింట్ చేస్తుంది. |
df[df['Age'] >df[df['Age'] > 25] | 'వయస్సు' నిలువు వరుస విలువలు 25 కంటే ఎక్కువ ఉన్న అడ్డు వరుసలను ఎంచుకుంటుంది. |
df[df['City'] == 'Chicago'] | 'సిటీ' నిలువు వరుస విలువలు 'చికాగో'కి సమానంగా ఉన్న అడ్డు వరుసలను ఎంచుకుంటుంది. |
పాండాస్లో డేటాఫ్రేమ్ వరుస ఎంపికను అర్థం చేసుకోవడం
అందించిన స్క్రిప్ట్లు పైథాన్లోని పాండాస్ లైబ్రరీని ఉపయోగించి కాలమ్ విలువల ఆధారంగా డేటాఫ్రేమ్ నుండి అడ్డు వరుసలను ఎలా ఎంచుకోవాలో ప్రదర్శిస్తాయి. తో పాండాస్ లైబ్రరీని దిగుమతి చేసుకోవడం ద్వారా మొదటి స్క్రిప్ట్ ప్రారంభమవుతుంది import pandas as pd ఆదేశం. ఇది డేటా యొక్క నిఘంటువును ఉపయోగించి నమూనా డేటాఫ్రేమ్ను సృష్టిస్తుంది, ఇది డేటాఫ్రేమ్గా మార్చబడుతుంది pd.DataFrame(data) ఆదేశం. స్క్రిప్ట్ అడ్డు వరుస ఎంపిక కోసం రెండు పద్ధతులను వివరిస్తుంది: 'వయస్సు' నిలువు వరుస విలువ 25 కంటే ఎక్కువగా ఉన్న అడ్డు వరుసలను ఎంచుకోవడం df[df['Age'] > 25], మరియు 'సిటీ' కాలమ్ విలువ 'చికాగో' ఉన్న అడ్డు వరుసలను ఎంచుకోవడం df[df['City'] == 'Chicago']. ఈ ఫిల్టర్ చేయబడిన డేటాఫ్రేమ్లు ఉపయోగించి ముద్రించబడతాయి print() ఎంచుకున్న అడ్డు వరుసలను ప్రదర్శించడానికి ఫంక్షన్.
రెండవ స్క్రిప్ట్ ఒకే విధమైన నిర్మాణాన్ని అనుసరిస్తుంది కానీ విభిన్న డేటా మరియు ఎంపిక ప్రమాణాలను ఉపయోగిస్తుంది. ఇది 'ఉత్పత్తి', 'ధర' మరియు 'స్టాక్' నిలువు వరుసలతో సహా ఉత్పత్తి సమాచారంతో డేటాఫ్రేమ్ను సృష్టిస్తుంది. 'ధర' 200 కంటే తక్కువ లేదా సమానంగా ఉన్న చోట అడ్డు వరుసలు ఎంపిక చేయబడతాయి df[df['Price'] <= 200], మరియు 'స్టాక్' 40 కంటే ఎక్కువ వినియోగిస్తున్న చోట df[df['Stock'] > 40]. ఈ స్క్రిప్ట్ల యొక్క ఉద్దేశ్యం నిర్దిష్ట పరిస్థితుల ఆధారంగా డేటాఫ్రేమ్ అడ్డు వరుసలను ఎలా ఫిల్టర్ చేయాలో చూపడం, అలాగే మీరు నిలువు వరుస విలువ ఆధారంగా పట్టిక నుండి అడ్డు వరుసలను ఎంచుకోవడానికి SQL ప్రశ్నను ఎలా ఉపయోగిస్తారో అదే విధంగా ఉంటుంది. ఈ ఆదేశాలను అర్థం చేసుకోవడం మరియు వర్తింపజేయడం ద్వారా, మీరు మీ డేటాఫ్రేమ్లలో డేటాను సమర్ధవంతంగా మార్చవచ్చు మరియు విశ్లేషించవచ్చు.
పాండాస్లోని కాలమ్ విలువలను ఉపయోగించి డేటాఫ్రేమ్లో అడ్డు వరుసలను ఎంచుకోవడం
పాండాస్ లైబ్రరీతో పైథాన్
# Importing the necessary library
import pandas as pd
# Creating a sample DataFrame
data = {
'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
'Age': [24, 27, 22, 32, 29],
'City': ['New York', 'Los Angeles', 'Chicago', 'Houston', 'Phoenix']
}
df = pd.DataFrame(data)
# Selecting rows where Age is greater than 25
selected_rows = df[df['Age'] > 25]
print(selected_rows)
# Selecting rows where City is 'Chicago'
chicago_rows = df[df['City'] == 'Chicago']
print(chicago_rows)
కాలమ్ ప్రమాణాల ఆధారంగా డేటాఫ్రేమ్లో డేటాను ఫిల్టర్ చేయడం
పాండాస్ లైబ్రరీతో పైథాన్
# Importing pandas library
import pandas as pd
# Creating a sample DataFrame
data = {'Product': ['A', 'B', 'C', 'D', 'E'],
'Price': [100, 150, 200, 250, 300],
'Stock': [30, 60, 90, 20, 50]}
df = pd.DataFrame(data)
# Selecting rows where Price is less than or equal to 200
affordable_products = df[df['Price'] <= 200]
print(affordable_products)
# Selecting rows where Stock is more than 40
in_stock = df[df['Stock'] > 40]
print(in_stock)
పాండాస్లో డేటాఫ్రేమ్ వరుసలను ఎంచుకోవడానికి అధునాతన సాంకేతికతలు
బూలియన్ ఇండెక్సింగ్ని ఉపయోగించి ప్రాథమిక ఫిల్టరింగ్తో పాటు, కాలమ్ విలువల ఆధారంగా అడ్డు వరుసలను ఎంచుకోవడానికి పాండాస్ అధునాతన పద్ధతులను అందిస్తుంది. ఒక శక్తివంతమైన పద్ధతిని ఉపయోగించడం query() ఫంక్షన్, ఇది ప్రశ్న వ్యక్తీకరణతో అడ్డు వరుసలను ఫిల్టర్ చేయడానికి మిమ్మల్ని అనుమతిస్తుంది, సింటాక్స్ క్లీనర్ మరియు తరచుగా మరింత స్పష్టమైనదిగా చేస్తుంది. ఉదాహరణకు, ఉపయోగించడానికి బదులుగా df[df['Age'] > 25], మీరు వ్రాయవచ్చు df.query('Age > 25'). మరింత సంక్లిష్టమైన పరిస్థితులతో వ్యవహరించేటప్పుడు లేదా నిలువు వరుసల పేర్లు ఖాళీలను కలిగి ఉన్నప్పుడు ఈ పద్ధతి ప్రత్యేకంగా ఉపయోగపడుతుంది. అదనంగా, ది isin() మీరు విలువల జాబితా ఆధారంగా అడ్డు వరుసలను ఫిల్టర్ చేయాలనుకున్నప్పుడు ఫంక్షన్ ప్రయోజనకరంగా ఉంటుంది. ఉదాహరణకు, 'సిటీ' కాలమ్ విలువ 'చికాగో' లేదా 'న్యూయార్క్' ఉన్న అడ్డు వరుసలను ఎంచుకోవడానికి, మీరు ఉపయోగించవచ్చు df[df['City'].isin(['Chicago', 'New York'])].
మరొక సాంకేతికత కలిగి ఉంటుంది loc మరియు iloc సూచికలు. ది loc ఇండెక్సర్ అనేది లేబుల్-ఆధారితమైనది, ఇది వరుస లేబుల్లు మరియు నిలువు వరుస పేర్ల ఆధారంగా అడ్డు వరుసలను ఎంచుకోవడానికి మిమ్మల్ని అనుమతిస్తుంది. iloc పూర్ణాంకం-స్థాన-ఆధారితమైనది, అడ్డు వరుస మరియు నిలువు వరుస సంఖ్యల ద్వారా ఎంపికను ప్రారంభిస్తుంది. వేరొక నిలువు వరుసకు వర్తించే షరతు ఆధారంగా అడ్డు వరుసలను ఎంచుకోవడానికి ఈ సౌలభ్యం ప్రత్యేకంగా ఉపయోగపడుతుంది. ఉదాహరణకి, df.loc[df['Age'] > 25, 'Name'] 25 ఏళ్ల కంటే ఎక్కువ వయస్సు ఉన్న వ్యక్తుల పేర్లను అందిస్తుంది. ఈ పద్ధతులు పాండాస్లో డేటాను సమర్థవంతంగా నిర్వహించడానికి మరియు విశ్లేషించడానికి మీ టూల్కిట్ను విస్తరింపజేస్తాయి, మరింత చదవగలిగే మరియు నిర్వహించదగిన కోడ్ను అందిస్తాయి.
డేటాఫ్రేమ్ వరుసలను ఎంచుకోవడం గురించి సాధారణ ప్రశ్నలు మరియు సమాధానాలు
- బహుళ షరతుల ఆధారంగా నేను అడ్డు వరుసలను ఎలా ఎంచుకోగలను?
- మీరు ఉపయోగించవచ్చు query() వంటి లాజికల్ ఆపరేటర్లతో కండిషన్స్ ఫంక్షన్ లేదా మిళితం & మరియు |. ఉదాహరణకి, df[(df['Age'] > 25) & (df['City'] == 'Chicago')].
- నేను విలువల జాబితా ఆధారంగా అడ్డు వరుసలను ఫిల్టర్ చేయవచ్చా?
- అవును, ఉపయోగించండి isin() ఫంక్షన్. ఉదాహరణకి, df[df['City'].isin(['Chicago', 'New York'])].
- రెండింటిలో తేడా ఏంటి loc మరియు iloc?
- loc లేబుల్ ఆధారితమైనది, అయితే iloc పూర్ణాంకం-స్థాన-ఆధారితమైనది. వా డు loc అడ్డు వరుస/నిలువు వరుస లేబుల్లతో మరియు iloc అడ్డు వరుస/నిలువు వరుస సూచికలతో.
- అడ్డు వరుసలను ఫిల్టర్ చేస్తున్నప్పుడు నేను నిర్దిష్ట నిలువు వరుసలను ఎలా ఎంచుకోగలను?
- మీరు ఉపయోగించవచ్చు loc. ఉదాహరణకి, df.loc[df['Age'] > 25, ['Name', 'City']].
- అడ్డు వరుసలను ఎంచుకున్నప్పుడు తప్పిపోయిన విలువలను నేను ఎలా నిర్వహించగలను?
- ఉపయోగించడానికి dropna() తప్పిపోయిన విలువలతో అడ్డు వరుసలను తీసివేయడానికి ఫంక్షన్, లేదా fillna() వాటిని నిర్దిష్ట విలువతో భర్తీ చేయడానికి.
- అడ్డు వరుసలను ఫిల్టర్ చేయడానికి నేను సాధారణ వ్యక్తీకరణలను ఉపయోగించవచ్చా?
- అవును, ది str.contains() తో ఫంక్షన్ regex=True పరామితి regex నమూనాల ఆధారంగా అడ్డు వరుసలను ఫిల్టర్ చేయడానికి మిమ్మల్ని అనుమతిస్తుంది. ఉదాహరణకి, df[df['Name'].str.contains('^A', regex=True)].
- సూచిక ఆధారంగా అడ్డు వరుసలను ఎలా ఫిల్టర్ చేయాలి?
- మీరు ఉపయోగించవచ్చు loc సూచిక పేరుతో. ఉదాహరణకి, df.loc[df.index == 'some_index'].
- నా నిలువు వరుస పేర్లలో ఖాళీలు లేదా ప్రత్యేక అక్షరాలు ఉంటే ఏమి చేయాలి?
- ఉపయోగించడానికి query() బ్యాక్టిక్లతో అటువంటి కాలమ్ పేర్లను నిర్వహించగల ఫంక్షన్. ఉదాహరణకి, df.query('`column name` == value').
డేటాఫ్రేమ్ వరుస ఎంపిక సాంకేతికతలపై తుది ఆలోచనలు
పాండాస్లోని కాలమ్ విలువల ఆధారంగా డేటాఫ్రేమ్ నుండి అడ్డు వరుసలను ఎంచుకోవడం అనేది డేటా మానిప్యులేషన్కు కీలకమైన నైపుణ్యం. బూలియన్ ఇండెక్సింగ్తో సహా వివిధ పద్ధతులు చర్చించబడ్డాయి, query(), isin(), మరియు లేబుల్-ఆధారిత మరియు పూర్ణాంకం-స్థాన-ఆధారిత ఇండెక్సింగ్ loc మరియు iloc, డేటాను సమర్థవంతంగా ఫిల్టర్ చేయడానికి శక్తివంతమైన సాధనాలను అందించండి. ఈ టెక్నిక్ల నైపుణ్యం మెరుగైన డేటా విశ్లేషణ మరియు క్లీనర్, మరింత మెయింటెనబుల్ కోడ్ని అనుమతిస్తుంది.