à®à®®à¯, à®ªà®¯à®©à¯à®ªà®à¯à®¤à¯à®¤à®µà¯à®®à¯ isin() à®à¯à®¯à®²à¯à®ªà®¾à®à¯. à®à®¤à®¾à®°à®£à®®à®¾à®, df[df['City'].isin(['Chicago', 'New York'])].

à®¨à¯à®à¯à®à®³à¯ à®ªà®¯à®©à¯à®ªà®à¯à®¤à¯à®¤à®²à®¾à®®à¯ loc. à®à®¤à®¾à®°à®£à®¤à¯à®¤à®¿à®±à¯à®à¯, df.loc[df['Age'] > 25, ['Name', 'City']].

நெடுவரிசை

Mia Chevalier

செவ்வாய், 25 ஜூன், 2024 ’அன்று’ பிற்பகல் 4:00:27

பாண்டாஸ் டேட்டாஃப்ரேம்களில் வரிசைகளை வடிகட்டுதல்

Pandas என்பது தரவு கையாளுதல் மற்றும் பகுப்பாய்விற்கான பைத்தானில் உள்ள சக்திவாய்ந்த நூலகமாகும். SQL இன் SELECT * FROM அட்டவணையில் உள்ள இடம் column_name = some_value போன்ற நெடுவரிசை மதிப்புகளின் அடிப்படையில் DataFrame இலிருந்து வரிசைகளைத் தேர்ந்தெடுப்பது பொதுவான பணியாகும்.

இந்த வழிகாட்டி Pandas இல் இதை அடைய பல்வேறு முறைகள் மூலம் உங்களை அழைத்துச் செல்லும், உங்கள் தரவை திறமையாக வடிகட்டுவதை எளிதாக்குகிறது. நீங்கள் ஒரு தொடக்கநிலை அல்லது அனுபவம் வாய்ந்த பயனராக இருந்தாலும், இந்த உதவிக்குறிப்புகள் உங்கள் தரவு கையாளும் திறனை மேம்படுத்தும்.

கட்டளை	விளக்கம்
pd.DataFrame(data)	தரவு அகராதியிலிருந்து DataFrame ஐ உருவாக்குகிறது.
df[column_name]	DataFrame இல் ஒரு நெடுவரிசையை பெயரால் அணுகுகிறது.
df[condition]	நெடுவரிசையில் பயன்படுத்தப்படும் நிபந்தனையின் அடிப்படையில் DataFrame ஐ வடிகட்டுகிறது.
print(selected_rows)	DataFrame அல்லது அதன் துணைக்குழுவை கன்சோலில் அச்சிடுகிறது.
df[df['Age'] >df[df['Age'] > 25]	'வயது' நெடுவரிசை மதிப்புகள் 25ஐ விட அதிகமாக இருக்கும் வரிசைகளைத் தேர்ந்தெடுக்கும்.
df[df['City'] == 'Chicago']	'சிட்டி' நெடுவரிசை மதிப்புகள் 'சிகாகோ' க்கு சமமாக இருக்கும் வரிசைகளைத் தேர்ந்தெடுக்கிறது.

பாண்டாஸில் டேட்டாஃப்ரேம் வரிசைத் தேர்வைப் புரிந்துகொள்வது

பைத்தானில் உள்ள பாண்டாஸ் லைப்ரரியைப் பயன்படுத்தி நெடுவரிசை மதிப்புகளின் அடிப்படையில் டேட்டாஃப்ரேமில் இருந்து வரிசைகளை எவ்வாறு தேர்ந்தெடுப்பது என்பதை வழங்கப்பட்ட ஸ்கிரிப்டுகள் விளக்குகின்றன. முதல் ஸ்கிரிப்ட் பாண்டாஸ் நூலகத்தை இறக்குமதி செய்வதன் மூலம் தொடங்குகிறது import pandas as pd கட்டளை. இது தரவுகளின் அகராதியைப் பயன்படுத்தி ஒரு மாதிரி DataFrame ஐ உருவாக்குகிறது, இது DataFrame ஆக மாற்றப்படுகிறது. pd.DataFrame(data) கட்டளை. ஸ்கிரிப்ட் வரிசையைத் தேர்ந்தெடுப்பதற்கான இரண்டு முறைகளை விளக்குகிறது: 'வயது' நெடுவரிசை மதிப்பு 25 ஐ விட அதிகமாக இருக்கும் வரிசைகளைத் தேர்ந்தெடுப்பது df[df['Age'] > 25], மற்றும் 'சிட்டி' நெடுவரிசை மதிப்பு 'சிகாகோ' என இருக்கும் வரிசைகளைத் தேர்ந்தெடுக்கவும் df[df['City'] == 'Chicago']. இந்த வடிகட்டப்பட்ட DataFrames ஐப் பயன்படுத்தி அச்சிடப்படுகிறது print() தேர்ந்தெடுக்கப்பட்ட வரிசைகளைக் காண்பிக்கும் செயல்பாடு.

இரண்டாவது ஸ்கிரிப்ட் ஒரே மாதிரியான கட்டமைப்பைப் பின்பற்றுகிறது, ஆனால் வெவ்வேறு தரவு மற்றும் தேர்வு அளவுகோல்களைப் பயன்படுத்துகிறது. இது 'தயாரிப்பு', 'விலை' மற்றும் 'பங்கு' நெடுவரிசைகள் உள்ளிட்ட தயாரிப்புத் தகவலுடன் ஒரு DataFrame ஐ உருவாக்குகிறது. 'விலை' 200ஐ விட குறைவாகவோ அல்லது அதற்கு சமமாகவோ இருந்தால் வரிசைகள் தேர்ந்தெடுக்கப்படும் df[df['Price'] <= 200], மற்றும் 'பங்கு' 40க்கு மேல் பயன்படுத்தப்படும் இடத்தில் df[df['Stock'] > 40]. இந்த ஸ்கிரிப்ட்களின் நோக்கம், குறிப்பிட்ட நிபந்தனைகளின் அடிப்படையில் DataFrame வரிசைகளை எவ்வாறு வடிகட்டுவது என்பதைக் காண்பிப்பதாகும், அதேபோன்று SQL வினவலைப் பயன்படுத்தி ஒரு அட்டவணையில் இருந்து வரிசைகளை நெடுவரிசை மதிப்பின் அடிப்படையில் தேர்ந்தெடுக்க வேண்டும். இந்தக் கட்டளைகளைப் புரிந்துகொண்டு பயன்படுத்துவதன் மூலம், உங்கள் DataFrames இல் உள்ள தரவை நீங்கள் திறமையாகக் கையாளலாம் மற்றும் பகுப்பாய்வு செய்யலாம்.

பாண்டாஸில் உள்ள நெடுவரிசை மதிப்புகளைப் பயன்படுத்தி டேட்டாஃப்ரேமில் வரிசைகளைத் தேர்ந்தெடுப்பது

பாண்டாஸ் நூலகத்துடன் பைதான்

# Importing the necessary library
import pandas as pd

# Creating a sample DataFrame
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
    'Age': [24, 27, 22, 32, 29],
    'City': ['New York', 'Los Angeles', 'Chicago', 'Houston', 'Phoenix']
}
df = pd.DataFrame(data)

# Selecting rows where Age is greater than 25
selected_rows = df[df['Age'] > 25]
print(selected_rows)

# Selecting rows where City is 'Chicago'
chicago_rows = df[df['City'] == 'Chicago']
print(chicago_rows)

நெடுவரிசை அளவுகோல்களின் அடிப்படையில் டேட்டாஃப்ரேமில் தரவை வடிகட்டுதல்

பாண்டாஸ் நூலகத்துடன் பைதான்

# Importing pandas library
import pandas as pd

# Creating a sample DataFrame
data = {'Product': ['A', 'B', 'C', 'D', 'E'],
        'Price': [100, 150, 200, 250, 300],
        'Stock': [30, 60, 90, 20, 50]}
df = pd.DataFrame(data)

# Selecting rows where Price is less than or equal to 200
affordable_products = df[df['Price'] <= 200]
print(affordable_products)

# Selecting rows where Stock is more than 40
in_stock = df[df['Stock'] > 40]
print(in_stock)

பாண்டாஸில் டேட்டாஃப்ரேம் வரிசைகளைத் தேர்ந்தெடுப்பதற்கான மேம்பட்ட நுட்பங்கள்

பூலியன் அட்டவணையைப் பயன்படுத்தி அடிப்படை வடிகட்டலைத் தவிர, நெடுவரிசை மதிப்புகளின் அடிப்படையில் வரிசைகளைத் தேர்ந்தெடுப்பதற்கான மேம்பட்ட நுட்பங்களை பாண்டாஸ் வழங்குகிறது. ஒரு சக்திவாய்ந்த முறை பயன்படுத்தப்படுகிறது query() செயல்பாடு, இது ஒரு வினவல் வெளிப்பாட்டுடன் வரிசைகளை வடிகட்ட உங்களை அனுமதிக்கிறது, தொடரியல் சுத்தமாகவும் பெரும்பாலும் உள்ளுணர்வுடன் இருக்கும். உதாரணமாக, பயன்படுத்துவதற்கு பதிலாக df[df['Age'] > 25], நீங்கள் எழுதலாம் df.query('Age > 25'). மிகவும் சிக்கலான நிலைமைகளைக் கையாளும் போது அல்லது நெடுவரிசைப் பெயர்கள் இடைவெளிகளைக் கொண்டிருக்கும் போது இந்த முறை மிகவும் பயனுள்ளதாக இருக்கும். கூடுதலாக, தி isin() மதிப்புகளின் பட்டியலின் அடிப்படையில் வரிசைகளை வடிகட்ட விரும்பும் போது செயல்பாடு பயனுள்ளதாக இருக்கும். எடுத்துக்காட்டாக, 'சிட்டி' நெடுவரிசை மதிப்பு 'சிகாகோ' அல்லது 'நியூயார்க்' ஆக இருக்கும் வரிசைகளைத் தேர்ந்தெடுக்க, நீங்கள் பயன்படுத்தலாம் df[df['City'].isin(['Chicago', 'New York'])].

மற்றொரு நுட்பம் இதில் அடங்கும் loc மற்றும் iloc குறியீட்டாளர்கள். தி loc குறியீட்டு லேபிள் அடிப்படையிலானது, வரிசை லேபிள்கள் மற்றும் நெடுவரிசைப் பெயர்களின் அடிப்படையில் வரிசைகளைத் தேர்ந்தெடுக்க உங்களை அனுமதிக்கிறது. iloc முழு எண்-இருப்பிட அடிப்படையிலானது, வரிசை மற்றும் நெடுவரிசை எண்கள் மூலம் தேர்வை செயல்படுத்துகிறது. வேறு நெடுவரிசையில் பயன்படுத்தப்படும் நிபந்தனையின் அடிப்படையில் வரிசைகளைத் தேர்ந்தெடுப்பதற்கு இந்த நெகிழ்வுத்தன்மை மிகவும் பயனுள்ளதாக இருக்கும். உதாரணமாக, df.loc[df['Age'] > 25, 'Name'] 25 வயதுக்கு மேற்பட்ட நபர்களின் பெயர்களை வழங்கும். இந்த முறைகள் பாண்டாஸில் தரவை திறமையாக கையாளவும் பகுப்பாய்வு செய்யவும் உங்கள் கருவித்தொகுப்பை விரிவுபடுத்துகிறது, மேலும் படிக்கக்கூடிய மற்றும் பராமரிக்கக்கூடிய குறியீட்டை வழங்குகிறது.

DataFrame வரிசைகளைத் தேர்ந்தெடுப்பது பற்றிய பொதுவான கேள்விகள் மற்றும் பதில்கள்

பல நிபந்தனைகளின் அடிப்படையில் வரிசைகளை எவ்வாறு தேர்வு செய்வது?
நீங்கள் பயன்படுத்தலாம் query() போன்ற தருக்க ஆபரேட்டர்களுடன் செயல்பாடு அல்லது நிபந்தனைகளை இணைக்கவும் & மற்றும் |. உதாரணத்திற்கு, df[(df['Age'] > 25) & (df['City'] == 'Chicago')].
மதிப்புகளின் பட்டியலின் அடிப்படையில் வரிசைகளை வடிகட்ட முடியுமா?
ஆம், பயன்படுத்தவும் isin() செயல்பாடு. உதாரணமாக, df[df['City'].isin(['Chicago', 'New York'])].
என்ன வித்தியாசம் loc மற்றும் iloc?
loc லேபிள் அடிப்படையிலானது iloc முழு எண்-இருப்பிடத்தை அடிப்படையாகக் கொண்டது. பயன்படுத்தவும் loc வரிசை/நெடுவரிசை லேபிள்கள் மற்றும் iloc வரிசை/நெடுவரிசை குறியீடுகளுடன்.
வரிசைகளை வடிகட்டும்போது குறிப்பிட்ட நெடுவரிசைகளை எவ்வாறு தேர்ந்தெடுக்கலாம்?
நீங்கள் பயன்படுத்தலாம் loc. உதாரணத்திற்கு, df.loc[df['Age'] > 25, ['Name', 'City']].
வரிசைகளைத் தேர்ந்தெடுக்கும்போது விடுபட்ட மதிப்புகளை எவ்வாறு கையாள்வது?
பயன்படுத்த dropna() விடுபட்ட மதிப்புகளுடன் வரிசைகளை அகற்றுவதற்கான செயல்பாடு அல்லது fillna() ஒரு குறிப்பிட்ட மதிப்புடன் அவற்றை மாற்றவும்.
வரிசைகளை வடிகட்ட வழக்கமான வெளிப்பாடுகளைப் பயன்படுத்தலாமா?
ஆம், தி str.contains() உடன் செயல்பாடு regex=True regex வடிவங்களின் அடிப்படையில் வரிசைகளை வடிகட்ட அளவுரு உங்களை அனுமதிக்கிறது. உதாரணத்திற்கு, df[df['Name'].str.contains('^A', regex=True)].
குறியீட்டின் அடிப்படையில் வரிசைகளை வடிகட்டுவது எப்படி?
நீங்கள் பயன்படுத்தலாம் loc குறியீட்டு பெயருடன். உதாரணத்திற்கு, df.loc[df.index == 'some_index'].
எனது நெடுவரிசைப் பெயர்களில் இடைவெளிகள் அல்லது சிறப்பு எழுத்துகள் இருந்தால் என்ன செய்வது?
பயன்படுத்த query() அத்தகைய நெடுவரிசை பெயர்களை பேக்டிக்குகளுடன் கையாளக்கூடிய செயல்பாடு. உதாரணத்திற்கு, df.query('`column name` == value').

DataFrame வரிசை தேர்வு நுட்பங்கள் பற்றிய இறுதி எண்ணங்கள்

Pandas இல் உள்ள நெடுவரிசை மதிப்புகளின் அடிப்படையில் DataFrame இலிருந்து வரிசைகளைத் தேர்ந்தெடுப்பது தரவு கையாளுதலுக்கான ஒரு முக்கியமான திறமையாகும். பூலியன் அட்டவணைப்படுத்தல் உட்பட பல்வேறு முறைகள் விவாதிக்கப்பட்டன, query(), isin(), மற்றும் லேபிள் அடிப்படையிலான மற்றும் முழு எண்-இருப்பிட அடிப்படையிலான அட்டவணைப்படுத்தல் loc மற்றும் iloc, தரவை திறம்பட வடிகட்டுவதற்கு சக்திவாய்ந்த கருவிகளை வழங்கவும். இந்த நுட்பங்களின் தேர்ச்சி சிறந்த தரவு பகுப்பாய்வு மற்றும் தூய்மையான, மேலும் பராமரிக்கக்கூடிய குறியீட்டை செயல்படுத்துகிறது.

நெடுவரிசை மதிப்புகளின் அடிப்படையில் பாண்டாஸ் டேட்டா ஃப்ரேமில் வரிசைகளை வடிகட்டுவது எப்படி