പൈത്തണിലെ കോളം മൂല്യങ്ങളെ അടിസ്ഥാനമാക്കി ഡാറ്റാഫ്രെയിം വരികൾ തിരഞ്ഞെടുക്കുന്നു

Jules David

2024, ജൂലൈ 1, തിങ്കളാഴ്‌ച 10:15:47 AM

കോളം മൂല്യങ്ങൾ അനുസരിച്ച് ഡാറ്റ ഫ്രെയിമുകൾ ഫിൽട്ടർ ചെയ്യാൻ പാണ്ടകൾ ഉപയോഗിക്കുന്നു
പൈത്തണിൽ ഡാറ്റയുമായി പ്രവർത്തിക്കുമ്പോൾ, ഡാറ്റ കൈകാര്യം ചെയ്യുന്നതിനും വിശകലനം ചെയ്യുന്നതിനുമുള്ള ശക്തമായ ടൂളുകൾ പാണ്ടാസ് ലൈബ്രറി വാഗ്ദാനം ചെയ്യുന്നു. ഒരു നിർദ്ദിഷ്ട കോളത്തിലെ മൂല്യങ്ങളെ അടിസ്ഥാനമാക്കി ഒരു ഡാറ്റാഫ്രെയിമിൽ നിന്ന് വരികൾ തിരഞ്ഞെടുക്കുന്നതാണ് ഒരു പൊതു ചുമതല. ഈ പ്രവർത്തനം SQL ചോദ്യത്തിന് സമാനമാണ്: പട്ടികയിൽ നിന്ന് തിരഞ്ഞെടുക്കുക * എവിടെയാണ് column_name = some_value.
ഈ ലേഖനത്തിൽ, വിവിധ രീതികൾ ഉപയോഗിച്ച് പാണ്ടകളിൽ ഇത് എങ്ങനെ നേടാമെന്ന് ഞങ്ങൾ പര്യവേക്ഷണം ചെയ്യും. നിങ്ങൾ ഒരൊറ്റ മൂല്യമോ ഒന്നിലധികം മാനദണ്ഡങ്ങളോ ഉപയോഗിച്ച് ഫിൽട്ടർ ചെയ്യുകയാണെങ്കിലും, അത്തരം പ്രവർത്തനങ്ങൾ കൈകാര്യം ചെയ്യുന്നതിനുള്ള അവബോധജന്യവും കാര്യക്ഷമവുമായ വഴികൾ പാണ്ടസ് നൽകുന്നു. വിശദാംശങ്ങളിലേക്ക് കടക്കാം.

കമാൻഡ് വിവരണം

pd.DataFrame() ഒരു നിഘണ്ടുവിൽ നിന്നോ മറ്റ് ഡാറ്റ ഘടനകളിൽ നിന്നോ ഒരു DataFrame ഒബ്‌ജക്റ്റ് സൃഷ്‌ടിക്കുന്നു.

df[condition] ഒരു വ്യവസ്ഥയെ അടിസ്ഥാനമാക്കി ഡാറ്റാഫ്രെയിം വരികൾ ഫിൽട്ടർ ചെയ്യുന്നു, മാനദണ്ഡങ്ങൾ പാലിക്കുന്നവ മാത്രം നൽകുന്നു.

print() കൺസോളിലേക്ക് നിർദ്ദിഷ്ട സന്ദേശം അല്ലെങ്കിൽ ഡാറ്റാഫ്രെയിം ഔട്ട്പുട്ട് ചെയ്യുന്നു.

df['column'] == value നിരകൾ നിർദ്ദിഷ്ട മൂല്യവുമായി പൊരുത്തപ്പെടുന്ന വരികൾ ഫിൽട്ടർ ചെയ്യാൻ ഉപയോഗിക്കുന്ന ഒരു ബൂളിയൻ സീരീസ് സൃഷ്ടിക്കുന്നു.

df['column'] >df['column'] > value നിരകളുടെ മൂല്യങ്ങൾ നിർദ്ദിഷ്ട മൂല്യത്തേക്കാൾ കൂടുതലുള്ള വരികൾ ഫിൽട്ടർ ചെയ്യാൻ ഉപയോഗിക്കുന്ന ഒരു ബൂളിയൻ സീരീസ് സൃഷ്ടിക്കുന്നു.

# Comment സ്ക്രിപ്റ്റിൻ്റെ ഭാഗമായി നടപ്പിലാക്കാത്ത കോഡിനുള്ളിൽ വിശദീകരണങ്ങളോ കുറിപ്പുകളോ ചേർക്കാൻ ഉപയോഗിക്കുന്നു.

കമാൻഡ്	വിവരണം
pd.DataFrame()	ഒരു നിഘണ്ടുവിൽ നിന്നോ മറ്റ് ഡാറ്റ ഘടനകളിൽ നിന്നോ ഒരു DataFrame ഒബ്‌ജക്റ്റ് സൃഷ്‌ടിക്കുന്നു.
df[condition]	ഒരു വ്യവസ്ഥയെ അടിസ്ഥാനമാക്കി ഡാറ്റാഫ്രെയിം വരികൾ ഫിൽട്ടർ ചെയ്യുന്നു, മാനദണ്ഡങ്ങൾ പാലിക്കുന്നവ മാത്രം നൽകുന്നു.
print()	കൺസോളിലേക്ക് നിർദ്ദിഷ്ട സന്ദേശം അല്ലെങ്കിൽ ഡാറ്റാഫ്രെയിം ഔട്ട്പുട്ട് ചെയ്യുന്നു.
df['column'] == value	നിരകൾ നിർദ്ദിഷ്ട മൂല്യവുമായി പൊരുത്തപ്പെടുന്ന വരികൾ ഫിൽട്ടർ ചെയ്യാൻ ഉപയോഗിക്കുന്ന ഒരു ബൂളിയൻ സീരീസ് സൃഷ്ടിക്കുന്നു.
df['column'] >df['column'] > value	നിരകളുടെ മൂല്യങ്ങൾ നിർദ്ദിഷ്ട മൂല്യത്തേക്കാൾ കൂടുതലുള്ള വരികൾ ഫിൽട്ടർ ചെയ്യാൻ ഉപയോഗിക്കുന്ന ഒരു ബൂളിയൻ സീരീസ് സൃഷ്ടിക്കുന്നു.
# Comment	സ്ക്രിപ്റ്റിൻ്റെ ഭാഗമായി നടപ്പിലാക്കാത്ത കോഡിനുള്ളിൽ വിശദീകരണങ്ങളോ കുറിപ്പുകളോ ചേർക്കാൻ ഉപയോഗിക്കുന്നു.

പാണ്ടസിൽ ഡാറ്റാഫ്രെയിം വരി തിരഞ്ഞെടുക്കൽ നടപ്പിലാക്കുന്നു

നൽകിയിരിക്കുന്ന സ്ക്രിപ്റ്റുകളിൽ, ഡാറ്റാ വിശകലനത്തിലെ പൊതുവായ ആവശ്യകതയായ നിർദ്ദിഷ്ട കോളം മൂല്യങ്ങളെ അടിസ്ഥാനമാക്കി ഒരു ഡാറ്റാഫ്രെയിമിൽ നിന്ന് വരികൾ ഫിൽട്ടർ ചെയ്യുക എന്നതാണ് പ്രധാന ചുമതല. പാണ്ഡാസ് ലൈബ്രറി ഇറക്കുമതി ചെയ്തുകൊണ്ടാണ് ആദ്യ സ്ക്രിപ്റ്റ് ആരംഭിക്കുന്നത് . പൈത്തണിലെ ശക്തമായ ഡാറ്റാ മാനിപ്പുലേഷൻ ലൈബ്രറിയായതിനാൽ ഇത് അത്യന്താപേക്ഷിതമാണ്. അടുത്തതായി, ഞങ്ങൾ ഒരു സാമ്പിൾ DataFrame ഉപയോഗിച്ച് സൃഷ്ടിക്കുന്നു പേരുകൾ, പ്രായങ്ങൾ, നഗരങ്ങൾ എന്നിവയ്‌ക്കായുള്ള ഡാറ്റ അടങ്ങുന്ന ഒരു നിഘണ്ടുവിനൊപ്പം. ടാബ്ലർ ഡാറ്റ എളുപ്പത്തിൽ ദൃശ്യവൽക്കരിക്കാനും കൈകാര്യം ചെയ്യാനും ഈ ഘടന ഞങ്ങളെ അനുവദിക്കുന്നു. സ്‌ക്രിപ്റ്റിൻ്റെ നിർണായക ഭാഗം നമ്മൾ എവിടെയാണ് വരികൾ ഫിൽട്ടർ ചെയ്യുന്നത് . ഈ കമാൻഡ് സിറ്റി കോളത്തിൻ്റെ മൂല്യം 'ന്യൂയോർക്ക്' ആയ എല്ലാ വരികളും തിരഞ്ഞെടുക്കുന്നു. ഫലം വേരിയബിളിൽ സംഭരിച്ചിരിക്കുന്നു ny_rows, അത് പിന്നീട് ഫിൽട്ടർ ചെയ്ത ഡാറ്റാഫ്രെയിം പ്രദർശിപ്പിക്കുന്നതിന് പ്രിൻ്റ് ചെയ്യുന്നു.

രണ്ടാമത്തെ സ്ക്രിപ്റ്റ് സമാനമായ ഒരു ഘടന പിന്തുടരുന്നു, പക്ഷേ ഒരു സംഖ്യാ വ്യവസ്ഥയെ അടിസ്ഥാനമാക്കി വരികൾ ഫിൽട്ടർ ചെയ്യുന്നതിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നു. പാണ്ടകളെ ഇമ്പോർട്ടുചെയ്‌ത് ഉൽപ്പന്നം, വില, അളവ് കോളങ്ങൾ എന്നിവ ഉപയോഗിച്ച് ഒരു ഡാറ്റാഫ്രെയിം സൃഷ്‌ടിച്ച ശേഷം, സ്‌ക്രിപ്റ്റ് ഉപയോഗിക്കുന്നു വില 150-ൽ കൂടുതലുള്ള വരികൾ ഫിൽട്ടർ ചെയ്യാൻ. ഈ കമാൻഡ് യഥാർത്ഥ ഡാറ്റാഫ്രെയിമിൻ്റെ ഒരു ഉപവിഭാഗം നിർമ്മിക്കുന്നു, നിർദ്ദിഷ്ട വ്യവസ്ഥ പാലിക്കുന്ന വരികൾ മാത്രം അടങ്ങിയിരിക്കുന്നു. ഫലം സംഭരിച്ചിരിക്കുന്നു സ്ഥിരീകരണത്തിനായി അച്ചടിക്കുകയും ചെയ്തു. രണ്ട് സ്ക്രിപ്റ്റുകളും ഡാറ്റ കൃത്രിമത്വത്തിനായി പാണ്ടകളുടെ ശക്തിയും ലാളിത്യവും പ്രകടമാക്കുന്നു. ഡാറ്റ ഫിൽട്ടർ ചെയ്യുന്നതിനായി ശരി/തെറ്റായ മൂല്യങ്ങളുടെ ഒരു ശ്രേണി കൈമാറുന്ന ഒരു രീതിയായ ബൂളിയൻ ഇൻഡക്‌സിംഗ് ഉപയോഗിക്കുന്നതിലൂടെ, വിവിധ വ്യവസ്ഥകളെ അടിസ്ഥാനമാക്കി നമുക്ക് ഡാറ്റയുടെ ഉപസെറ്റുകൾ കാര്യക്ഷമമായി തിരഞ്ഞെടുക്കാനാകും, ഇത് ഡാറ്റാ അനലിസ്റ്റുകൾക്കും ശാസ്ത്രജ്ഞർക്കും അമൂല്യമായ ഉപകരണമാക്കി മാറ്റുന്നു.

കോളം മൂല്യങ്ങളെ അടിസ്ഥാനമാക്കി ഒരു ഡാറ്റ ഫ്രെയിമിൽ വരികൾ ഫിൽട്ടർ ചെയ്യുന്നു

പൈത്തൺ - ഡാറ്റാഫ്രെയിം പ്രവർത്തനങ്ങൾക്കായി പാണ്ടകൾ ഉപയോഗിക്കുന്നു

import pandas as pd
# Create a sample DataFrame
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'David', 'Edward'],
    'age': [24, 27, 22, 32, 29],
    'city': ['New York', 'Los Angeles', 'New York', 'Chicago', 'Los Angeles']
}
df = pd.DataFrame(data)

# Select rows where city is New York
ny_rows = df[df['city'] == 'New York']
print(ny_rows)

# Output:
#       name  age      city
# 0    Alice   24  New York
# 2  Charlie   22  New York

കോളം മൂല്യങ്ങളെ അടിസ്ഥാനമാക്കി ഡാറ്റാഫ്രെയിം വരികൾ അന്വേഷിക്കുന്നു

പൈത്തൺ - പാണ്ടകൾക്കൊപ്പം വിപുലമായ ഫിൽട്ടറിംഗ്

import pandas as pd

# Create a sample DataFrame
data = {
    'product': ['A', 'B', 'C', 'D'],
    'price': [100, 150, 200, 250],
    'quantity': [30, 50, 20, 40]
}
df = pd.DataFrame(data)

# Select rows where price is greater than 150
expensive_products = df[df['price'] > 150]
print(expensive_products)

# Output:
#   product  price  quantity
# 2       C    200        20
# 3       D    250        40

ഡാറ്റാഫ്രെയിം വരികൾ തിരഞ്ഞെടുക്കുന്നതിനുള്ള വിപുലമായ സാങ്കേതിക വിദ്യകൾ

ബൂളിയൻ ഇൻഡക്‌സിംഗ് ഉപയോഗിച്ചുള്ള അടിസ്ഥാന ഫിൽട്ടറിംഗിന് പുറമേ, കോളം മൂല്യങ്ങളെ അടിസ്ഥാനമാക്കി വരികൾ തിരഞ്ഞെടുക്കുന്നതിനുള്ള കൂടുതൽ നൂതന സാങ്കേതിക വിദ്യകൾ പാണ്ടസ് വാഗ്ദാനം ചെയ്യുന്നു. അത്തരത്തിലുള്ള ഒരു രീതിയാണ് ഫംഗ്ഷൻ, ഡാറ്റാഫ്രെയിം വരികൾ ഫിൽട്ടർ ചെയ്യുന്നതിന് SQL-പോലുള്ള വാക്യഘടന ഉപയോഗിക്കാൻ നിങ്ങളെ അനുവദിക്കുന്നു. ഉദാഹരണത്തിന്, നിങ്ങൾക്ക് ഉപയോഗിക്കാം 25 വയസ്സിനു മുകളിൽ പ്രായമുള്ളതും നഗരം ന്യൂയോർക്കിലുള്ളതുമായ വരികൾ തിരഞ്ഞെടുക്കാൻ. ഈ രീതിക്ക് നിങ്ങളുടെ കോഡ് കൂടുതൽ വായിക്കാൻ കഴിയും, പ്രത്യേകിച്ച് സങ്കീർണ്ണമായ അവസ്ഥകൾക്ക്. കൂടാതെ, പാണ്ഡാസ് നൽകുന്നു ഒപ്പം iloc[] കൂടുതൽ കൃത്യമായ വരി തിരഞ്ഞെടുക്കുന്നതിനുള്ള ആക്‌സസറുകൾ. ദി ആക്‌സസർ ലേബൽ അധിഷ്‌ഠിതമാണ്, അതായത് നിങ്ങൾക്ക് വരികൾ അവയുടെ ലേബലുകൾ അല്ലെങ്കിൽ ഒരു ബൂളിയൻ അറേ ഉപയോഗിച്ച് ഫിൽട്ടർ ചെയ്യാം. വിപരീതമായി, ദി ആക്‌സസ്സർ പൂർണ്ണസംഖ്യ സ്ഥാനത്തെ അടിസ്ഥാനമാക്കിയുള്ളതാണ്, ഇത് വരികളുടെ സൂചിക സ്ഥാനങ്ങൾ അനുസരിച്ച് ഫിൽട്ടർ ചെയ്യാൻ നിങ്ങളെ അനുവദിക്കുന്നു.

പാണ്ഡാസിലെ മറ്റൊരു ശക്തമായ സവിശേഷത, ഉപയോഗിച്ച് DataFrame വരികൾ ഫിൽട്ടർ ചെയ്യാനുള്ള കഴിവാണ് രീതി. മൂല്യങ്ങളുടെ പട്ടികയെ അടിസ്ഥാനമാക്കി വരികൾ ഫിൽട്ടർ ചെയ്യേണ്ടിവരുമ്പോൾ ഈ രീതി ഉപയോഗപ്രദമാണ്. ഉദാഹരണത്തിന്, നഗര നിരയുടെ മൂല്യം ന്യൂയോർക്ക് അല്ലെങ്കിൽ ലോസ് ഏഞ്ചൽസ് ആയിരിക്കുന്ന വരികൾ തിരഞ്ഞെടുക്കുന്നു. കൂടാതെ, നിങ്ങൾക്ക് ഇത് ഉപയോഗിച്ച് ഒന്നിലധികം വ്യവസ്ഥകൾ ചെയിൻ ചെയ്യാൻ കഴിയും ഒപ്പം | കൂടുതൽ സങ്കീർണ്ണമായ ഫിൽട്ടറുകൾ സൃഷ്ടിക്കാൻ ഓപ്പറേറ്റർമാർ. ഉദാഹരണത്തിന്, 25 വയസ്സിന് മുകളിലുള്ള വരികൾ ഫിൽട്ടർ ചെയ്യുന്നു, നഗരം ന്യൂയോർക്ക് ആണ്. ഈ നൂതന സാങ്കേതിക വിദ്യകൾ ഡാറ്റ ഫിൽട്ടറിംഗിനായി ശക്തമായ ഒരു ചട്ടക്കൂട് നൽകുന്നു, ഡാറ്റാ വിശകലനത്തിനും കൃത്രിമത്വത്തിനുമുള്ള ഒരു ബഹുമുഖ ഉപകരണമാക്കി പാണ്ടകളെ മാറ്റുന്നു.

ഒന്നിലധികം കോളം മൂല്യങ്ങളെ അടിസ്ഥാനമാക്കി ഡാറ്റാഫ്രെയിമിലെ വരികൾ എങ്ങനെ ഫിൽട്ടർ ചെയ്യാം?
ഒന്നിലധികം വ്യവസ്ഥകൾ ഉപയോഗിച്ച് നിങ്ങൾക്ക് ബൂളിയൻ ഇൻഡക്‌സിംഗ് ഉപയോഗിക്കാം ഒപ്പം . ഉദാഹരണത്തിന്: .
എന്താണ് തമ്മിലുള്ള വ്യത്യാസം ഒപ്പം ?
ലേബൽ അടിസ്ഥാനമാക്കിയുള്ളതാണ്, അതേസമയം പൂർണ്ണസംഖ്യ സ്ഥാനം അടിസ്ഥാനമാക്കിയുള്ളതാണ്. ഉപയോഗിക്കുക ലേബലുകൾ ഉപയോഗിച്ച് ഫിൽട്ടർ ചെയ്യുന്നതിനും iloc[] സൂചിക സ്ഥാനങ്ങൾ ഉപയോഗിച്ച് ഫിൽട്ടർ ചെയ്യുന്നതിന്.
എനിക്ക് എങ്ങനെ ഉപയോഗിക്കാം DataFrame വരികൾ ഫിൽട്ടർ ചെയ്യുന്നതിനുള്ള പ്രവർത്തനം?
ദി SQL പോലുള്ള വാക്യഘടന ഉപയോഗിക്കാൻ ഫംഗ്ഷൻ നിങ്ങളെ അനുവദിക്കുന്നു. ഉദാഹരണത്തിന്: .
മൂല്യങ്ങളുടെ ഒരു ലിസ്റ്റ് അടിസ്ഥാനമാക്കി എനിക്ക് വരികൾ ഫിൽട്ടർ ചെയ്യാൻ കഴിയുമോ?
അതെ, നിങ്ങൾക്ക് ഉപയോഗിക്കാം രീതി. ഉദാഹരണത്തിന്: .
സ്ട്രിംഗ് മാച്ചിംഗിനെ അടിസ്ഥാനമാക്കി വരികൾ ഫിൽട്ടർ ചെയ്യുന്നതിനുള്ള മികച്ച മാർഗം ഏതാണ്?
നിങ്ങൾക്ക് ഉപയോഗിക്കാം രീതി. ഉദാഹരണത്തിന്: .
കോളം മൂല്യങ്ങൾ നഷ്ടപ്പെട്ട വരികൾ എങ്ങനെ തിരഞ്ഞെടുക്കാം?
നിങ്ങൾക്ക് ഉപയോഗിക്കാം രീതി. ഉദാഹരണത്തിന്: .
ഒരു ഇഷ്‌ടാനുസൃത ഫംഗ്‌ഷൻ ഉപയോഗിച്ച് എനിക്ക് എങ്ങനെ വരികൾ ഫിൽട്ടർ ചെയ്യാം?
നിങ്ങൾക്ക് ഉപയോഗിക്കാം ഒരു ലാംഡ ഫംഗ്ഷനോടുകൂടിയ രീതി. ഉദാഹരണത്തിന്: .
സൂചിക മൂല്യങ്ങളെ അടിസ്ഥാനമാക്കി എനിക്ക് വരികൾ ഫിൽട്ടർ ചെയ്യാൻ കഴിയുമോ?
അതെ, നിങ്ങൾക്ക് ഉപയോഗിക്കാം രീതി. ഉദാഹരണത്തിന്: .

കോളം മൂല്യങ്ങളെ അടിസ്ഥാനമാക്കി ഡാറ്റാഫ്രെയിമിൽ നിന്ന് വരികൾ തിരഞ്ഞെടുക്കുന്നത് പാണ്ടകളുമായുള്ള ഡാറ്റാ വിശകലനത്തിലെ ഒരു അടിസ്ഥാന വൈദഗ്ധ്യമാണ്. ബൂളിയൻ ഇൻഡക്‌സിംഗ് ഉപയോഗിക്കുന്നത്, , , , ഒപ്പം isin() കാര്യക്ഷമമായ ഡാറ്റ ഫിൽട്ടറിംഗ് രീതികൾ അനുവദിക്കുന്നു. ഈ സാങ്കേതിക വിദ്യകളിൽ പ്രാവീണ്യം നേടുന്നത് ഡാറ്റാസെറ്റുകൾ ഫലപ്രദമായി കൈകാര്യം ചെയ്യാനും വിശകലനം ചെയ്യാനുമുള്ള നിങ്ങളുടെ കഴിവ് വർദ്ധിപ്പിക്കുന്നു.