પાયથોનમાં કોલમ વેલ્યુ પર આધારિત ડેટાફ્રેમ પંક્તિઓ પસંદ કરી રહ્યા છીએ

Jules David

સોમવાર, 1 જુલાઈ, 2024 એ 09:49:48 AM વાગ્યે

કૉલમ મૂલ્યો દ્વારા ડેટાફ્રેમ્સને ફિલ્ટર કરવા માટે પાંડાનો ઉપયોગ કરવો
Python માં ડેટા સાથે કામ કરતી વખતે, Pandas લાઇબ્રેરી ડેટા મેનીપ્યુલેશન અને વિશ્લેષણ માટે શક્તિશાળી સાધનો પ્રદાન કરે છે. એક સામાન્ય કાર્ય ચોક્કસ કૉલમના મૂલ્યોના આધારે ડેટાફ્રેમમાંથી પંક્તિઓ પસંદ કરવાનું છે. આ ઑપરેશન SQL ક્વેરી જેવું જ છે: SELECT * FROM કોષ્ટક WHERE column_name = some_value.
આ લેખમાં, અમે વિવિધ પદ્ધતિઓનો ઉપયોગ કરીને પાંડામાં આ કેવી રીતે પ્રાપ્ત કરવું તે શોધીશું. ભલે તમે એક મૂલ્ય અથવા બહુવિધ માપદંડો દ્વારા ફિલ્ટર કરી રહ્યાં હોવ, Pandas આવા ઓપરેશન્સને હેન્ડલ કરવા માટે સાહજિક અને કાર્યક્ષમ રીતો પ્રદાન કરે છે. ચાલો વિગતોમાં ડાઇવ કરીએ.

આદેશ વર્ણન

pd.DataFrame() શબ્દકોશ અથવા અન્ય ડેટા સ્ટ્રક્ચર્સમાંથી ડેટાફ્રેમ ઑબ્જેક્ટ બનાવે છે.

df[condition] શરતના આધારે ડેટાફ્રેમ પંક્તિઓ ફિલ્ટર કરે છે, ફક્ત તે જ પરત કરે છે જે માપદંડને પૂર્ણ કરે છે.

print() કન્સોલ પર ઉલ્લેખિત સંદેશ અથવા ડેટાફ્રેમ આઉટપુટ કરે છે.

df['column'] == value પંક્તિઓ ફિલ્ટર કરવા માટે ઉપયોગમાં લેવાતી બુલિયન શ્રેણી બનાવે છે જ્યાં કૉલમ ઉલ્લેખિત મૂલ્ય સાથે મેળ ખાય છે.

df['column'] >df['column'] > value પંક્તિઓ ફિલ્ટર કરવા માટે ઉપયોગમાં લેવાતી બુલિયન શ્રેણી બનાવે છે જ્યાં કૉલમ મૂલ્યો ઉલ્લેખિત મૂલ્ય કરતાં વધુ હોય છે.

# Comment કોડની અંદર સ્પષ્ટીકરણો અથવા નોંધો ઉમેરવા માટે વપરાય છે, જે સ્ક્રિપ્ટના ભાગ રૂપે ચલાવવામાં આવતી નથી.

આદેશ	વર્ણન
pd.DataFrame()	શબ્દકોશ અથવા અન્ય ડેટા સ્ટ્રક્ચર્સમાંથી ડેટાફ્રેમ ઑબ્જેક્ટ બનાવે છે.
df[condition]	શરતના આધારે ડેટાફ્રેમ પંક્તિઓ ફિલ્ટર કરે છે, ફક્ત તે જ પરત કરે છે જે માપદંડને પૂર્ણ કરે છે.
print()	કન્સોલ પર ઉલ્લેખિત સંદેશ અથવા ડેટાફ્રેમ આઉટપુટ કરે છે.
df['column'] == value	પંક્તિઓ ફિલ્ટર કરવા માટે ઉપયોગમાં લેવાતી બુલિયન શ્રેણી બનાવે છે જ્યાં કૉલમ ઉલ્લેખિત મૂલ્ય સાથે મેળ ખાય છે.
df['column'] >df['column'] > value	પંક્તિઓ ફિલ્ટર કરવા માટે ઉપયોગમાં લેવાતી બુલિયન શ્રેણી બનાવે છે જ્યાં કૉલમ મૂલ્યો ઉલ્લેખિત મૂલ્ય કરતાં વધુ હોય છે.
# Comment	કોડની અંદર સ્પષ્ટીકરણો અથવા નોંધો ઉમેરવા માટે વપરાય છે, જે સ્ક્રિપ્ટના ભાગ રૂપે ચલાવવામાં આવતી નથી.

પાંડામાં ડેટાફ્રેમ પંક્તિ પસંદગીનો અમલ કરવો

પૂરી પાડવામાં આવેલ સ્ક્રિપ્ટ્સમાં, મુખ્ય કાર્ય એ ડેટાફ્રેમમાંથી પંક્તિઓને ચોક્કસ કૉલમ મૂલ્યોના આધારે ફિલ્ટર કરવાનું છે, જે ડેટા વિશ્લેષણમાં સામાન્ય જરૂરિયાત છે. પ્રથમ સ્ક્રિપ્ટ પાંડા લાઇબ્રેરીને આયાત કરીને શરૂ થાય છે . આ જરૂરી છે કારણ કે પાંડા પાયથોનમાં એક શક્તિશાળી ડેટા મેનીપ્યુલેશન લાઇબ્રેરી છે. આગળ, અમે ઉપયોગ કરીને નમૂના ડેટાફ્રેમ બનાવીએ છીએ નામ, ઉંમર અને શહેરો માટેનો ડેટા ધરાવતા શબ્દકોશ સાથે. આ માળખું અમને ટેબ્યુલર ડેટાને સરળતાથી વિઝ્યુઅલાઈઝ અને હેરફેર કરવાની મંજૂરી આપે છે. સ્ક્રિપ્ટનો નિર્ણાયક ભાગ એ છે કે જ્યાં આપણે પંક્તિઓનો ઉપયોગ કરીને ફિલ્ટર કરીએ છીએ . આ આદેશ તમામ પંક્તિઓ પસંદ કરે છે જ્યાં સિટી કૉલમનું મૂલ્ય 'ન્યૂ યોર્ક' છે. પરિણામ ચલમાં સંગ્રહિત છે ny_rows, જે પછી ફિલ્ટર કરેલ ડેટાફ્રેમ પ્રદર્શિત કરવા માટે છાપવામાં આવે છે.

બીજી સ્ક્રિપ્ટ સમાન માળખાને અનુસરે છે પરંતુ સંખ્યાત્મક સ્થિતિના આધારે પંક્તિઓ ફિલ્ટર કરવા પર ધ્યાન કેન્દ્રિત કરે છે. પાંડાને આયાત કર્યા પછી અને ઉત્પાદન, કિંમત અને જથ્થાના કૉલમ સાથે ડેટાફ્રેમ બનાવ્યા પછી, સ્ક્રિપ્ટ ઉપયોગ કરે છે પંક્તિઓને ફિલ્ટર કરવા માટે જ્યાં કિંમત 150 થી વધુ હોય. આ આદેશ મૂળ ડેટાફ્રેમનો સબસેટ બનાવે છે જેમાં ફક્ત પંક્તિઓ હોય છે જે સ્પષ્ટ કરેલ સ્થિતિને પૂર્ણ કરે છે. પરિણામ સંગ્રહિત છે અને ચકાસણી માટે છાપવામાં આવે છે. બંને સ્ક્રિપ્ટો ડેટા મેનીપ્યુલેશન માટે પાંડાની શક્તિ અને સરળતા દર્શાવે છે. બુલિયન ઇન્ડેક્સીંગનો ઉપયોગ કરીને, એક પદ્ધતિ જ્યાં આપણે ડેટાને ફિલ્ટર કરવા માટે સાચા/ખોટા મૂલ્યોની શ્રેણી પસાર કરીએ છીએ, અમે વિવિધ પરિસ્થિતિઓના આધારે ડેટાના સબસેટને અસરકારક રીતે પસંદ કરી શકીએ છીએ, જે તેને ડેટા વિશ્લેષકો અને વૈજ્ઞાનિકો માટે અમૂલ્ય સાધન બનાવે છે.

કૉલમ મૂલ્યો પર આધારિત ડેટાફ્રેમમાં પંક્તિઓ ફિલ્ટરિંગ

પાયથોન - ડેટાફ્રેમ ઓપરેશન્સ માટે પાંડાનો ઉપયોગ

import pandas as pd
# Create a sample DataFrame
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'David', 'Edward'],
    'age': [24, 27, 22, 32, 29],
    'city': ['New York', 'Los Angeles', 'New York', 'Chicago', 'Los Angeles']
}
df = pd.DataFrame(data)

# Select rows where city is New York
ny_rows = df[df['city'] == 'New York']
print(ny_rows)

# Output:
#       name  age      city
# 0    Alice   24  New York
# 2  Charlie   22  New York

કૉલમ મૂલ્યો પર આધારિત ડેટાફ્રેમ પંક્તિઓની પૂછપરછ

પાયથોન - પાંડા સાથે અદ્યતન ફિલ્ટરિંગ

import pandas as pd

# Create a sample DataFrame
data = {
    'product': ['A', 'B', 'C', 'D'],
    'price': [100, 150, 200, 250],
    'quantity': [30, 50, 20, 40]
}
df = pd.DataFrame(data)

# Select rows where price is greater than 150
expensive_products = df[df['price'] > 150]
print(expensive_products)

# Output:
#   product  price  quantity
# 2       C    200        20
# 3       D    250        40

ડેટાફ્રેમ પંક્તિઓ પસંદ કરવા માટે અદ્યતન તકનીકો

બુલિયન અનુક્રમણિકા સાથે મૂળભૂત ફિલ્ટરિંગ ઉપરાંત, પાંડા કૉલમ મૂલ્યો પર આધારિત પંક્તિઓ પસંદ કરવા માટે વધુ અદ્યતન તકનીકો પ્રદાન કરે છે. આવી એક પદ્ધતિ છે ફંક્શન, જે તમને ડેટાફ્રેમ પંક્તિઓ ફિલ્ટર કરવા માટે SQL-જેવા સિન્ટેક્સનો ઉપયોગ કરવાની મંજૂરી આપે છે. ઉદાહરણ તરીકે, તમે ઉપયોગ કરી શકો છો પંક્તિઓ પસંદ કરવા માટે જ્યાં વય 25 વર્ષથી વધુ હોય અને શહેર ન્યુ યોર્ક હોય. આ પદ્ધતિ તમારા કોડને વધુ વાંચવા યોગ્ય બનાવી શકે છે, ખાસ કરીને જટિલ પરિસ્થિતિઓ માટે. વધુમાં, પાન્ડા પૂરી પાડે છે અને iloc[] વધુ ચોક્કસ પંક્તિ પસંદગી માટે એક્સેસર્સ. આ એક્સેસર લેબલ-આધારિત છે, એટલે કે તમે પંક્તિઓને તેમના લેબલ્સ અથવા બુલિયન એરે દ્વારા ફિલ્ટર કરી શકો છો. તેનાથી વિપરીત, ધ એક્સેસર પૂર્ણાંક સ્થિતિ-આધારિત છે, જે તમને તેમની અનુક્રમણિકા સ્થિતિ દ્વારા પંક્તિઓને ફિલ્ટર કરવાની મંજૂરી આપે છે.

Pandas માં અન્ય એક શક્તિશાળી સુવિધા એ ડેટાફ્રેમ પંક્તિઓનો ઉપયોગ કરીને ફિલ્ટર કરવાની ક્ષમતા છે પદ્ધતિ જ્યારે તમારે મૂલ્યોની સૂચિના આધારે પંક્તિઓ ફિલ્ટર કરવાની જરૂર હોય ત્યારે આ પદ્ધતિ ઉપયોગી છે. દાખ્લા તરીકે, પંક્તિઓ પસંદ કરે છે જ્યાં સિટી કૉલમનું મૂલ્ય ક્યાં તો ન્યૂ યોર્ક અથવા લોસ એન્જલસ છે. વધુમાં, તમે ઉપયોગ કરીને બહુવિધ શરતોને સાંકળ કરી શકો છો અને | ઓપરેટરો વધુ જટિલ ફિલ્ટર્સ બનાવવા માટે. દાખલા તરીકે, પંક્તિઓ ફિલ્ટર કરે છે જ્યાં વય 25 વર્ષથી વધુ છે અને શહેર ન્યુ યોર્ક છે. આ અદ્યતન તકનીકો ડેટા ફિલ્ટરિંગ માટે એક મજબૂત માળખું પ્રદાન કરે છે, જે પાંડાને ડેટા વિશ્લેષણ અને મેનીપ્યુલેશન માટે બહુમુખી સાધન બનાવે છે.

હું બહુવિધ કૉલમ મૂલ્યોના આધારે ડેટાફ્રેમમાં પંક્તિઓ કેવી રીતે ફિલ્ટર કરી શકું?
તમે ઉપયોગ કરીને સંયુક્ત બહુવિધ શરતો સાથે બુલિયન ઇન્ડેક્સીંગનો ઉપયોગ કરી શકો છો અને . દાખ્લા તરીકે: .
વચ્ચે શું તફાવત છે અને ?
લેબલ આધારિત છે, જ્યારે પૂર્ણાંક સ્થિતિ આધારિત છે. વાપરવુ લેબલ્સ દ્વારા ફિલ્ટર કરવા માટે અને iloc[] ઇન્ડેક્સ પોઝિશન દ્વારા ફિલ્ટર કરવા માટે.
હું કેવી રીતે ઉપયોગ કરી શકું ડેટાફ્રેમ પંક્તિઓ ફિલ્ટર કરવા માટેનું કાર્ય?
આ ફંક્શન તમને SQL-જેવા સિન્ટેક્સનો ઉપયોગ કરવાની મંજૂરી આપે છે. દાખ્લા તરીકે: .
શું હું મૂલ્યોની સૂચિના આધારે પંક્તિઓ ફિલ્ટર કરી શકું?
હા, તમે ઉપયોગ કરી શકો છો પદ્ધતિ દાખ્લા તરીકે: .
સ્ટ્રિંગ મેચિંગ પર આધારિત પંક્તિઓ ફિલ્ટર કરવાની શ્રેષ્ઠ રીત કઈ છે?
તમે ઉપયોગ કરી શકો છો પદ્ધતિ દાખ્લા તરીકે: .
હું પંક્તિઓ કેવી રીતે પસંદ કરી શકું જ્યાં કૉલમ મૂલ્યો ખૂટે છે?
તમે ઉપયોગ કરી શકો છો પદ્ધતિ દાખ્લા તરીકે: .
હું કસ્ટમ ફંક્શનનો ઉપયોગ કરીને પંક્તિઓ કેવી રીતે ફિલ્ટર કરી શકું?
તમે ઉપયોગ કરી શકો છો લેમ્બડા ફંક્શન સાથેની પદ્ધતિ. દાખ્લા તરીકે: .
શું હું અનુક્રમણિકા મૂલ્યોના આધારે પંક્તિઓ ફિલ્ટર કરી શકું?
હા, તમે ઉપયોગ કરી શકો છો પદ્ધતિ દાખ્લા તરીકે: .

કૉલમ મૂલ્યો પર આધારિત ડેટાફ્રેમમાંથી પંક્તિઓ પસંદ કરવી એ પાંડા સાથે ડેટા વિશ્લેષણમાં મૂળભૂત કૌશલ્ય છે. બુલિયન ઇન્ડેક્સીંગનો ઉપયોગ કરવો, , , , અને isin() પદ્ધતિઓ કાર્યક્ષમ ડેટા ફિલ્ટરિંગ માટે પરવાનગી આપે છે. આ તકનીકોમાં નિપુણતા મેળવવી એ ડેટાસેટ્સને અસરકારક રીતે હેરફેર અને વિશ્લેષણ કરવાની તમારી ક્ષમતાને વધારે છે.