பைத்தானில் உள்ள நெடுவரிசை மதிப்புகளின் அடிப்படையில் டேட்டாஃப்ரேம் வரிசைகளைத் தேர்ந்தெடுப்பது

பைத்தானில் உள்ள நெடுவரிசை மதிப்புகளின் அடிப்படையில் டேட்டாஃப்ரேம் வரிசைகளைத் தேர்ந்தெடுப்பது
Python

நெடுவரிசை மதிப்புகளின்படி டேட்டாஃப்ரேம்களை வடிகட்ட பாண்டாக்களைப் பயன்படுத்துதல்

Python இல் தரவுகளுடன் பணிபுரியும் போது, ​​Pandas நூலகம் தரவு கையாளுதல் மற்றும் பகுப்பாய்வுக்கான சக்திவாய்ந்த கருவிகளை வழங்குகிறது. ஒரு பொதுவான பணியானது ஒரு குறிப்பிட்ட நெடுவரிசையில் உள்ள மதிப்புகளின் அடிப்படையில் DataFrame இலிருந்து வரிசைகளைத் தேர்ந்தெடுப்பதாகும். இந்த செயல்பாடு SQL வினவலைப் போன்றது: தேர்வு * அட்டவணையில் இருந்து எங்கே column_name = some_value.

இந்த கட்டுரையில், பல்வேறு முறைகளைப் பயன்படுத்தி பாண்டாஸில் இதை எவ்வாறு அடைவது என்பதை ஆராய்வோம். நீங்கள் ஒரு மதிப்பு அல்லது பல அளவுகோல்களால் வடிகட்டினாலும், அத்தகைய செயல்பாடுகளைக் கையாள Pandas உள்ளுணர்வு மற்றும் திறமையான வழிகளை வழங்குகிறது. விவரங்களுக்குள் நுழைவோம்.

கட்டளை விளக்கம்
pd.DataFrame() அகராதி அல்லது பிற தரவு கட்டமைப்புகளிலிருந்து DataFrame பொருளை உருவாக்குகிறது.
df[condition] நிபந்தனையின் அடிப்படையில் DataFrame வரிசைகளை வடிகட்டுகிறது, அளவுகோல்களை மட்டுமே பூர்த்தி செய்கிறது.
print() கன்சோலுக்கு குறிப்பிட்ட செய்தி அல்லது DataFrame ஐ வெளியிடுகிறது.
df['column'] == value குறிப்பிட்ட மதிப்புடன் நெடுவரிசை பொருந்திய வரிசைகளை வடிகட்ட பயன்படும் பூலியன் தொடரை உருவாக்குகிறது.
df['column'] >df['column'] > value நெடுவரிசை மதிப்புகள் குறிப்பிட்ட மதிப்பை விட அதிகமாக இருக்கும் வரிசைகளை வடிகட்ட பயன்படும் பூலியன் தொடரை உருவாக்குகிறது.
# Comment ஸ்கிரிப்ட்டின் ஒரு பகுதியாக செயல்படுத்தப்படாத குறியீட்டிற்குள் விளக்கங்கள் அல்லது குறிப்புகளைச் சேர்க்கப் பயன்படுகிறது.

பாண்டாஸில் டேட்டாஃப்ரேம் வரிசை தேர்வை செயல்படுத்துதல்

வழங்கப்பட்ட ஸ்கிரிப்ட்களில், தரவு பகுப்பாய்வில் பொதுவான தேவையான குறிப்பிட்ட நெடுவரிசை மதிப்புகளின் அடிப்படையில் DataFrame இலிருந்து வரிசைகளை வடிகட்டுவதே முக்கிய பணியாகும். முதல் ஸ்கிரிப்ட் பாண்டாஸ் நூலகத்தை இறக்குமதி செய்வதன் மூலம் தொடங்குகிறது import pandas as pd. Pandas பைத்தானில் உள்ள சக்திவாய்ந்த தரவு கையாளுதல் நூலகமாக இருப்பதால் இது மிகவும் அவசியம். அடுத்து, ஒரு மாதிரி DataFrame ஐப் பயன்படுத்தி உருவாக்குகிறோம் pd.DataFrame() பெயர்கள், வயது மற்றும் நகரங்களுக்கான தரவு அடங்கிய அகராதியுடன். இந்த அமைப்பு அட்டவணை தரவுகளை எளிதாக காட்சிப்படுத்தவும் கையாளவும் அனுமதிக்கிறது. ஸ்கிரிப்ட்டின் முக்கியமான பகுதி, வரிசைகளைப் பயன்படுத்தி வடிகட்டுவது df[df['city'] == 'New York']. இந்த கட்டளையானது நகர நெடுவரிசையின் மதிப்பு 'நியூயார்க்' ஆக இருக்கும் அனைத்து வரிசைகளையும் தேர்ந்தெடுக்கிறது. முடிவு மாறியில் சேமிக்கப்படுகிறது ny_rows, வடிகட்டப்பட்ட DataFrame ஐக் காண்பிக்க அச்சிடப்பட்டது.

இரண்டாவது ஸ்கிரிப்ட் இதேபோன்ற கட்டமைப்பைப் பின்பற்றுகிறது, ஆனால் எண் நிலையின் அடிப்படையில் வரிசைகளை வடிகட்டுவதில் கவனம் செலுத்துகிறது. பாண்டாக்களை இறக்குமதி செய்து, தயாரிப்பு, விலை மற்றும் அளவு நெடுவரிசைகளுடன் டேட்டாஃப்ரேமை உருவாக்கிய பிறகு, ஸ்கிரிப்ட் பயன்படுத்துகிறது df[df['price'] > 150] விலை 150க்கு மேல் இருக்கும் வரிசைகளை வடிகட்ட. இந்த கட்டளையானது அசல் டேட்டாஃப்ரேமின் துணைக்குழுவை உருவாக்குகிறது, இது குறிப்பிட்ட நிபந்தனையை பூர்த்தி செய்யும் வரிசைகளை மட்டுமே கொண்டுள்ளது. முடிவு சேமிக்கப்படுகிறது expensive_products மற்றும் சரிபார்ப்புக்காக அச்சிடப்பட்டது. இரண்டு ஸ்கிரிப்ட்களும் தரவு கையாளுதலுக்கான பாண்டாக்களின் சக்தி மற்றும் எளிமையை நிரூபிக்கின்றன. பூலியன் இண்டெக்ஸிங்கைப் பயன்படுத்துவதன் மூலம், தரவுகளை வடிகட்ட, உண்மை/தவறான மதிப்புகளின் வரிசையை அனுப்பும் முறை, பல்வேறு நிபந்தனைகளின் அடிப்படையில் தரவுகளின் துணைக்குழுக்களை நாம் திறமையாகத் தேர்ந்தெடுக்கலாம், இது தரவு ஆய்வாளர்கள் மற்றும் விஞ்ஞானிகளுக்கு விலைமதிப்பற்ற கருவியாக அமைகிறது.

நெடுவரிசை மதிப்புகளின் அடிப்படையில் டேட்டாஃப்ரேமில் வரிசைகளை வடிகட்டுதல்

பைதான் - டேட்டாஃப்ரேம் செயல்பாடுகளுக்கு பாண்டாக்களைப் பயன்படுத்துதல்

import pandas as pd
# Create a sample DataFrame
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'David', 'Edward'],
    'age': [24, 27, 22, 32, 29],
    'city': ['New York', 'Los Angeles', 'New York', 'Chicago', 'Los Angeles']
}
df = pd.DataFrame(data)

# Select rows where city is New York
ny_rows = df[df['city'] == 'New York']
print(ny_rows)

# Output:
#       name  age      city
# 0    Alice   24  New York
# 2  Charlie   22  New York

நெடுவரிசை மதிப்புகளின் அடிப்படையில் டேட்டாஃப்ரேம் வரிசைகளை வினவுகிறது

பைதான் - பாண்டாக்களுடன் மேம்பட்ட வடிகட்டுதல்

import pandas as pd

# Create a sample DataFrame
data = {
    'product': ['A', 'B', 'C', 'D'],
    'price': [100, 150, 200, 250],
    'quantity': [30, 50, 20, 40]
}
df = pd.DataFrame(data)

# Select rows where price is greater than 150
expensive_products = df[df['price'] > 150]
print(expensive_products)

# Output:
#   product  price  quantity
# 2       C    200        20
# 3       D    250        40

டேட்டாஃப்ரேம் வரிசைகளைத் தேர்ந்தெடுப்பதற்கான மேம்பட்ட நுட்பங்கள்

பூலியன் அட்டவணைப்படுத்தலுடன் அடிப்படை வடிகட்டுதலுடன் கூடுதலாக, நெடுவரிசை மதிப்புகளின் அடிப்படையில் வரிசைகளைத் தேர்ந்தெடுப்பதற்கான மேம்பட்ட நுட்பங்களை பாண்டாஸ் வழங்குகிறது. அத்தகைய ஒரு முறை உள்ளது query() செயல்பாடு, இது DataFrame வரிசைகளை வடிகட்ட SQL போன்ற தொடரியல் பயன்படுத்த உங்களை அனுமதிக்கிறது. உதாரணமாக, நீங்கள் பயன்படுத்தலாம் df.query('age > 25 and city == "New York"') 25 வயதுக்கு மேற்பட்டவர்கள் மற்றும் நியூயார்க் நகரத்தில் உள்ள வரிசைகளைத் தேர்ந்தெடுக்கவும். இந்த முறை உங்கள் குறியீட்டை மிகவும் படிக்கக்கூடியதாக மாற்றும், குறிப்பாக சிக்கலான நிலைமைகளுக்கு. கூடுதலாக, பாண்டாஸ் வழங்குகிறது loc[] மற்றும் iloc[] மிகவும் துல்லியமான வரிசை தேர்வுக்கான அணுகல்கள். தி loc[] அணுகல் லேபிள் அடிப்படையிலானது, அதாவது வரிசைகளை அவற்றின் லேபிள்கள் அல்லது பூலியன் வரிசை மூலம் வடிகட்டலாம். மாறாக, தி iloc[] அணுகல் முழு எண் நிலை அடிப்படையிலானது, வரிசைகளை அவற்றின் குறியீட்டு நிலைகளால் வடிகட்ட உங்களை அனுமதிக்கிறது.

பாண்டாஸில் உள்ள மற்றொரு சக்திவாய்ந்த அம்சம், டேட்டாஃப்ரேம் வரிசைகளை வடிகட்டும் திறன் ஆகும் isin() முறை. மதிப்புகளின் பட்டியலின் அடிப்படையில் வரிசைகளை வடிகட்ட வேண்டியிருக்கும் போது இந்த முறை பயனுள்ளதாக இருக்கும். உதாரணத்திற்கு, df[df['city'].isin(['New York', 'Los Angeles'])] நகர நெடுவரிசை மதிப்பு நியூயார்க் அல்லது லாஸ் ஏஞ்சல்ஸில் உள்ள வரிசைகளைத் தேர்ந்தெடுக்கிறது. மேலும், இதைப் பயன்படுத்தி நீங்கள் பல நிபந்தனைகளை இணைக்கலாம் & மற்றும் | மிகவும் சிக்கலான வடிப்பான்களை உருவாக்க ஆபரேட்டர்கள். உதாரணமாக, df[(df['age'] > 25) & (df['city'] == 'New York')] 25 வயதுக்கு மேற்பட்டவர்கள் மற்றும் நியூயார்க் நகரத்தில் உள்ள வரிசைகளை வடிகட்டுகிறது. இந்த மேம்பட்ட நுட்பங்கள் தரவு வடிகட்டுதலுக்கான வலுவான கட்டமைப்பை வழங்குகின்றன, தரவு பகுப்பாய்வு மற்றும் கையாளுதலுக்கான பல்துறை கருவியாக Pandas ஐ உருவாக்குகிறது.

பாண்டாஸில் டேட்டாஃப்ரேம் வரிசைகளைத் தேர்ந்தெடுப்பது பற்றிய பொதுவான கேள்விகள்

  1. பல நெடுவரிசை மதிப்புகளின் அடிப்படையில் டேட்டாஃப்ரேமில் வரிசைகளை வடிகட்டுவது எப்படி?
  2. நீங்கள் பல நிபந்தனைகளுடன் பூலியன் அட்டவணையைப் பயன்படுத்தலாம் & மற்றும் |. உதாரணத்திற்கு: df[(df['age'] > 25) & (df['city'] == 'New York')].
  3. என்ன வித்தியாசம் loc[] மற்றும் iloc[]?
  4. loc[] லேபிள் அடிப்படையிலானது iloc[] முழு எண் நிலை அடிப்படையிலானது. பயன்படுத்தவும் loc[] லேபிள்கள் மூலம் வடிகட்டுதல் மற்றும் iloc[] குறியீட்டு நிலைகள் மூலம் வடிகட்டுவதற்கு.
  5. நான் எப்படி பயன்படுத்தலாம் query() DataFrame வரிசைகளை வடிகட்டுவதற்கான செயல்பாடு?
  6. தி query() செயல்பாடு SQL போன்ற தொடரியல் பயன்படுத்த உங்களை அனுமதிக்கிறது. உதாரணத்திற்கு: df.query('age > 25 and city == "New York"').
  7. மதிப்புகளின் பட்டியலின் அடிப்படையில் வரிசைகளை வடிகட்ட முடியுமா?
  8. ஆம், நீங்கள் பயன்படுத்தலாம் isin() முறை. உதாரணத்திற்கு: df[df['city'].isin(['New York', 'Los Angeles'])].
  9. சரம் பொருத்தத்தின் அடிப்படையில் வரிசைகளை வடிகட்ட சிறந்த வழி எது?
  10. நீங்கள் பயன்படுத்தலாம் str.contains() முறை. உதாரணத்திற்கு: df[df['city'].str.contains('New')].
  11. நெடுவரிசை மதிப்புகள் இல்லாத வரிசைகளை எவ்வாறு தேர்ந்தெடுப்பது?
  12. நீங்கள் பயன்படுத்தலாம் isna() முறை. உதாரணத்திற்கு: df[df['age'].isna()].
  13. தனிப்பயன் செயல்பாட்டைப் பயன்படுத்தி வரிசைகளை வடிகட்டுவது எப்படி?
  14. நீங்கள் பயன்படுத்தலாம் apply() லாம்ப்டா செயல்பாடு கொண்ட முறை. உதாரணத்திற்கு: df[df.apply(lambda row: row['age'] > 25, axis=1)].
  15. குறியீட்டு மதிப்புகளின் அடிப்படையில் வரிசைகளை வடிகட்ட முடியுமா?
  16. ஆம், நீங்கள் பயன்படுத்தலாம் index.isin() முறை. உதாரணத்திற்கு: df[df.index.isin([1, 3, 5])].

டேட்டாஃப்ரேம் வரிசை தேர்வுக்கான முக்கிய குறிப்புகள்

நெடுவரிசை மதிப்புகளின் அடிப்படையில் DataFrame இலிருந்து வரிசைகளைத் தேர்ந்தெடுப்பது, Pandas உடன் தரவுப் பகுப்பாய்வில் ஒரு அடிப்படைத் திறமையாகும். பூலியன் அட்டவணையைப் பயன்படுத்துதல், loc[], iloc[], query(), மற்றும் isin() முறைகள் திறமையான தரவு வடிகட்டலை அனுமதிக்கிறது. இந்த நுட்பங்களில் தேர்ச்சி பெறுவது, தரவுத்தொகுப்புகளை திறம்பட கையாளவும் பகுப்பாய்வு செய்யவும் உங்கள் திறனை மேம்படுத்துகிறது.