பைத்தானில் உள்ள நெடுவரிசை மதிப்புகளின் அடிப்படையில் டேட்டாஃப்ரேம் வரிசைகளைத் தேர்ந்தெடுப்பது

Python

நெடுவரிசை மதிப்புகளின்படி டேட்டாஃப்ரேம்களை வடிகட்ட பாண்டாக்களைப் பயன்படுத்துதல்

Python இல் தரவுகளுடன் பணிபுரியும் போது, ​​Pandas நூலகம் தரவு கையாளுதல் மற்றும் பகுப்பாய்வுக்கான சக்திவாய்ந்த கருவிகளை வழங்குகிறது. ஒரு பொதுவான பணியானது ஒரு குறிப்பிட்ட நெடுவரிசையில் உள்ள மதிப்புகளின் அடிப்படையில் DataFrame இலிருந்து வரிசைகளைத் தேர்ந்தெடுப்பதாகும். இந்த செயல்பாடு SQL வினவலைப் போன்றது: தேர்வு * அட்டவணையில் இருந்து எங்கே column_name = some_value.

இந்த கட்டுரையில், பல்வேறு முறைகளைப் பயன்படுத்தி பாண்டாஸில் இதை எவ்வாறு அடைவது என்பதை ஆராய்வோம். நீங்கள் ஒரு மதிப்பு அல்லது பல அளவுகோல்களால் வடிகட்டினாலும், அத்தகைய செயல்பாடுகளைக் கையாள Pandas உள்ளுணர்வு மற்றும் திறமையான வழிகளை வழங்குகிறது. விவரங்களுக்குள் நுழைவோம்.

கட்டளை விளக்கம்
pd.DataFrame() அகராதி அல்லது பிற தரவு கட்டமைப்புகளிலிருந்து DataFrame பொருளை உருவாக்குகிறது.
df[condition] நிபந்தனையின் அடிப்படையில் DataFrame வரிசைகளை வடிகட்டுகிறது, அளவுகோல்களை மட்டுமே பூர்த்தி செய்கிறது.
print() கன்சோலுக்கு குறிப்பிட்ட செய்தி அல்லது DataFrame ஐ வெளியிடுகிறது.
df['column'] == value குறிப்பிட்ட மதிப்புடன் நெடுவரிசை பொருந்திய வரிசைகளை வடிகட்ட பயன்படும் பூலியன் தொடரை உருவாக்குகிறது.
df['column'] >df['column'] > value நெடுவரிசை மதிப்புகள் குறிப்பிட்ட மதிப்பை விட அதிகமாக இருக்கும் வரிசைகளை வடிகட்ட பயன்படும் பூலியன் தொடரை உருவாக்குகிறது.
# Comment ஸ்கிரிப்ட்டின் ஒரு பகுதியாக செயல்படுத்தப்படாத குறியீட்டிற்குள் விளக்கங்கள் அல்லது குறிப்புகளைச் சேர்க்கப் பயன்படுகிறது.

பாண்டாஸில் டேட்டாஃப்ரேம் வரிசை தேர்வை செயல்படுத்துதல்

வழங்கப்பட்ட ஸ்கிரிப்ட்களில், தரவு பகுப்பாய்வில் பொதுவான தேவையான குறிப்பிட்ட நெடுவரிசை மதிப்புகளின் அடிப்படையில் DataFrame இலிருந்து வரிசைகளை வடிகட்டுவதே முக்கிய பணியாகும். முதல் ஸ்கிரிப்ட் பாண்டாஸ் நூலகத்தை இறக்குமதி செய்வதன் மூலம் தொடங்குகிறது . Pandas பைத்தானில் உள்ள சக்திவாய்ந்த தரவு கையாளுதல் நூலகமாக இருப்பதால் இது மிகவும் அவசியம். அடுத்து, ஒரு மாதிரி DataFrame ஐப் பயன்படுத்தி உருவாக்குகிறோம் பெயர்கள், வயது மற்றும் நகரங்களுக்கான தரவு அடங்கிய அகராதியுடன். இந்த அமைப்பு அட்டவணை தரவுகளை எளிதாக காட்சிப்படுத்தவும் கையாளவும் அனுமதிக்கிறது. ஸ்கிரிப்ட்டின் முக்கியமான பகுதி, வரிசைகளைப் பயன்படுத்தி வடிகட்டுவது . இந்த கட்டளையானது நகர நெடுவரிசையின் மதிப்பு 'நியூயார்க்' ஆக இருக்கும் அனைத்து வரிசைகளையும் தேர்ந்தெடுக்கிறது. முடிவு மாறியில் சேமிக்கப்படுகிறது ny_rows, வடிகட்டப்பட்ட DataFrame ஐக் காண்பிக்க அச்சிடப்பட்டது.

இரண்டாவது ஸ்கிரிப்ட் இதேபோன்ற கட்டமைப்பைப் பின்பற்றுகிறது, ஆனால் எண் நிலையின் அடிப்படையில் வரிசைகளை வடிகட்டுவதில் கவனம் செலுத்துகிறது. பாண்டாக்களை இறக்குமதி செய்து, தயாரிப்பு, விலை மற்றும் அளவு நெடுவரிசைகளுடன் டேட்டாஃப்ரேமை உருவாக்கிய பிறகு, ஸ்கிரிப்ட் பயன்படுத்துகிறது விலை 150க்கு மேல் இருக்கும் வரிசைகளை வடிகட்ட. இந்த கட்டளையானது அசல் டேட்டாஃப்ரேமின் துணைக்குழுவை உருவாக்குகிறது, இது குறிப்பிட்ட நிபந்தனையை பூர்த்தி செய்யும் வரிசைகளை மட்டுமே கொண்டுள்ளது. முடிவு சேமிக்கப்படுகிறது மற்றும் சரிபார்ப்புக்காக அச்சிடப்பட்டது. இரண்டு ஸ்கிரிப்ட்களும் தரவு கையாளுதலுக்கான பாண்டாக்களின் சக்தி மற்றும் எளிமையை நிரூபிக்கின்றன. பூலியன் இண்டெக்ஸிங்கைப் பயன்படுத்துவதன் மூலம், தரவுகளை வடிகட்ட, உண்மை/தவறான மதிப்புகளின் வரிசையை அனுப்பும் முறை, பல்வேறு நிபந்தனைகளின் அடிப்படையில் தரவுகளின் துணைக்குழுக்களை நாம் திறமையாகத் தேர்ந்தெடுக்கலாம், இது தரவு ஆய்வாளர்கள் மற்றும் விஞ்ஞானிகளுக்கு விலைமதிப்பற்ற கருவியாக அமைகிறது.

நெடுவரிசை மதிப்புகளின் அடிப்படையில் டேட்டாஃப்ரேமில் வரிசைகளை வடிகட்டுதல்

பைதான் - டேட்டாஃப்ரேம் செயல்பாடுகளுக்கு பாண்டாக்களைப் பயன்படுத்துதல்

import pandas as pd
# Create a sample DataFrame
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'David', 'Edward'],
    'age': [24, 27, 22, 32, 29],
    'city': ['New York', 'Los Angeles', 'New York', 'Chicago', 'Los Angeles']
}
df = pd.DataFrame(data)

# Select rows where city is New York
ny_rows = df[df['city'] == 'New York']
print(ny_rows)

# Output:
#       name  age      city
# 0    Alice   24  New York
# 2  Charlie   22  New York

நெடுவரிசை மதிப்புகளின் அடிப்படையில் டேட்டாஃப்ரேம் வரிசைகளை வினவுகிறது

பைதான் - பாண்டாக்களுடன் மேம்பட்ட வடிகட்டுதல்

import pandas as pd

# Create a sample DataFrame
data = {
    'product': ['A', 'B', 'C', 'D'],
    'price': [100, 150, 200, 250],
    'quantity': [30, 50, 20, 40]
}
df = pd.DataFrame(data)

# Select rows where price is greater than 150
expensive_products = df[df['price'] > 150]
print(expensive_products)

# Output:
#   product  price  quantity
# 2       C    200        20
# 3       D    250        40

டேட்டாஃப்ரேம் வரிசைகளைத் தேர்ந்தெடுப்பதற்கான மேம்பட்ட நுட்பங்கள்

பூலியன் அட்டவணைப்படுத்தலுடன் அடிப்படை வடிகட்டுதலுடன் கூடுதலாக, நெடுவரிசை மதிப்புகளின் அடிப்படையில் வரிசைகளைத் தேர்ந்தெடுப்பதற்கான மேம்பட்ட நுட்பங்களை பாண்டாஸ் வழங்குகிறது. அத்தகைய ஒரு முறை உள்ளது செயல்பாடு, இது DataFrame வரிசைகளை வடிகட்ட SQL போன்ற தொடரியல் பயன்படுத்த உங்களை அனுமதிக்கிறது. உதாரணமாக, நீங்கள் பயன்படுத்தலாம் 25 வயதுக்கு மேற்பட்டவர்கள் மற்றும் நியூயார்க் நகரத்தில் உள்ள வரிசைகளைத் தேர்ந்தெடுக்கவும். இந்த முறை உங்கள் குறியீட்டை மிகவும் படிக்கக்கூடியதாக மாற்றும், குறிப்பாக சிக்கலான நிலைமைகளுக்கு. கூடுதலாக, பாண்டாஸ் வழங்குகிறது மற்றும் iloc[] மிகவும் துல்லியமான வரிசை தேர்வுக்கான அணுகல்கள். தி அணுகல் லேபிள் அடிப்படையிலானது, அதாவது வரிசைகளை அவற்றின் லேபிள்கள் அல்லது பூலியன் வரிசை மூலம் வடிகட்டலாம். மாறாக, தி அணுகல் முழு எண் நிலை அடிப்படையிலானது, வரிசைகளை அவற்றின் குறியீட்டு நிலைகளால் வடிகட்ட உங்களை அனுமதிக்கிறது.

பாண்டாஸில் உள்ள மற்றொரு சக்திவாய்ந்த அம்சம், டேட்டாஃப்ரேம் வரிசைகளை வடிகட்டும் திறன் ஆகும் முறை. மதிப்புகளின் பட்டியலின் அடிப்படையில் வரிசைகளை வடிகட்ட வேண்டியிருக்கும் போது இந்த முறை பயனுள்ளதாக இருக்கும். உதாரணத்திற்கு, நகர நெடுவரிசை மதிப்பு நியூயார்க் அல்லது லாஸ் ஏஞ்சல்ஸில் உள்ள வரிசைகளைத் தேர்ந்தெடுக்கிறது. மேலும், இதைப் பயன்படுத்தி நீங்கள் பல நிபந்தனைகளை இணைக்கலாம் மற்றும் | மிகவும் சிக்கலான வடிப்பான்களை உருவாக்க ஆபரேட்டர்கள். உதாரணமாக, 25 வயதுக்கு மேற்பட்டவர்கள் மற்றும் நியூயார்க் நகரத்தில் உள்ள வரிசைகளை வடிகட்டுகிறது. இந்த மேம்பட்ட நுட்பங்கள் தரவு வடிகட்டுதலுக்கான வலுவான கட்டமைப்பை வழங்குகின்றன, தரவு பகுப்பாய்வு மற்றும் கையாளுதலுக்கான பல்துறை கருவியாக Pandas ஐ உருவாக்குகிறது.

  1. பல நெடுவரிசை மதிப்புகளின் அடிப்படையில் டேட்டாஃப்ரேமில் வரிசைகளை வடிகட்டுவது எப்படி?
  2. நீங்கள் பல நிபந்தனைகளுடன் பூலியன் அட்டவணையைப் பயன்படுத்தலாம் மற்றும் . உதாரணத்திற்கு: .
  3. என்ன வித்தியாசம் மற்றும் ?
  4. லேபிள் அடிப்படையிலானது முழு எண் நிலை அடிப்படையிலானது. பயன்படுத்தவும் லேபிள்கள் மூலம் வடிகட்டுதல் மற்றும் iloc[] குறியீட்டு நிலைகள் மூலம் வடிகட்டுவதற்கு.
  5. நான் எப்படி பயன்படுத்தலாம் DataFrame வரிசைகளை வடிகட்டுவதற்கான செயல்பாடு?
  6. தி செயல்பாடு SQL போன்ற தொடரியல் பயன்படுத்த உங்களை அனுமதிக்கிறது. உதாரணத்திற்கு: .
  7. மதிப்புகளின் பட்டியலின் அடிப்படையில் வரிசைகளை வடிகட்ட முடியுமா?
  8. ஆம், நீங்கள் பயன்படுத்தலாம் முறை. உதாரணத்திற்கு: .
  9. சரம் பொருத்தத்தின் அடிப்படையில் வரிசைகளை வடிகட்ட சிறந்த வழி எது?
  10. நீங்கள் பயன்படுத்தலாம் முறை. உதாரணத்திற்கு: .
  11. நெடுவரிசை மதிப்புகள் இல்லாத வரிசைகளை எவ்வாறு தேர்ந்தெடுப்பது?
  12. நீங்கள் பயன்படுத்தலாம் முறை. உதாரணத்திற்கு: .
  13. தனிப்பயன் செயல்பாட்டைப் பயன்படுத்தி வரிசைகளை வடிகட்டுவது எப்படி?
  14. நீங்கள் பயன்படுத்தலாம் லாம்ப்டா செயல்பாடு கொண்ட முறை. உதாரணத்திற்கு: .
  15. குறியீட்டு மதிப்புகளின் அடிப்படையில் வரிசைகளை வடிகட்ட முடியுமா?
  16. ஆம், நீங்கள் பயன்படுத்தலாம் முறை. உதாரணத்திற்கு: .

நெடுவரிசை மதிப்புகளின் அடிப்படையில் DataFrame இலிருந்து வரிசைகளைத் தேர்ந்தெடுப்பது, Pandas உடன் தரவுப் பகுப்பாய்வில் ஒரு அடிப்படைத் திறமையாகும். பூலியன் அட்டவணையைப் பயன்படுத்துதல், , , , மற்றும் isin() முறைகள் திறமையான தரவு வடிகட்டலை அனுமதிக்கிறது. இந்த நுட்பங்களில் தேர்ச்சி பெறுவது, தரவுத்தொகுப்புகளை திறம்பட கையாளவும் பகுப்பாய்வு செய்யவும் உங்கள் திறனை மேம்படுத்துகிறது.