$lang['tuto'] = "tutorial"; ?>$lang['tuto'] = "tutorial"; ?> Cara Menapis Baris dalam Bingkai Data Pandas Berdasarkan

Cara Menapis Baris dalam Bingkai Data Pandas Berdasarkan Nilai Lajur

Temp mail SuperHeros
Cara Menapis Baris dalam Bingkai Data Pandas Berdasarkan Nilai Lajur
Cara Menapis Baris dalam Bingkai Data Pandas Berdasarkan Nilai Lajur

Menapis Baris dalam Pandas DataFrames

Pandas ialah perpustakaan yang berkuasa dalam Python untuk manipulasi dan analisis data. Tugas biasa ialah memilih baris daripada DataFrame berdasarkan nilai lajur, serupa dengan SQL SELECT * FROM table WHERE column_name = some_value.

Panduan ini akan membimbing anda melalui pelbagai kaedah untuk mencapai ini dalam Pandas, menjadikannya mudah untuk menapis data anda dengan cekap. Sama ada anda seorang pemula atau pengguna berpengalaman, petua ini akan meningkatkan kemahiran pengendalian data anda.

Perintah Penerangan
pd.DataFrame(data) Mencipta DataFrame daripada kamus data.
df[column_name] Mengakses lajur dalam DataFrame mengikut nama.
df[condition] Menapis DataFrame berdasarkan syarat yang digunakan pada lajur.
print(selected_rows) Mencetak DataFrame atau subset daripadanya ke konsol.
df[df['Age'] >df[df['Age'] > 25] Memilih baris yang nilai lajur 'Umur' lebih besar daripada 25.
df[df['City'] == 'Chicago'] Memilih baris yang nilai lajur 'Bandar' adalah sama dengan 'Chicago'.

Memahami Pemilihan Baris DataFrame dalam Panda

Skrip yang disediakan menunjukkan cara memilih baris daripada DataFrame berdasarkan nilai lajur menggunakan pustaka Pandas dalam Python. Skrip pertama bermula dengan mengimport perpustakaan Pandas dengan import pandas as pd perintah. Ia kemudian mencipta sampel DataFrame menggunakan kamus data, yang ditukar kepada DataFrame dengan pd.DataFrame(data) perintah. Skrip kemudian menggambarkan dua kaedah untuk pemilihan baris: memilih baris yang nilai lajur 'Umur' lebih besar daripada 25 menggunakan df[df['Age'] > 25], dan memilih baris di mana nilai lajur 'Bandar' digunakan oleh 'Chicago' df[df['City'] == 'Chicago']. DataFrames yang ditapis ini dicetak menggunakan print() berfungsi untuk memaparkan baris yang dipilih.

Skrip kedua mengikut struktur yang serupa tetapi menggunakan data dan kriteria pemilihan yang berbeza. Ia mencipta DataFrame dengan maklumat produk, termasuk lajur 'Produk', 'Harga' dan 'Stok'. Baris dipilih dengan 'Harga' kurang daripada atau sama dengan 200 dengan df[df['Price'] <= 200], dan di mana 'Stok' lebih daripada 40 menggunakan df[df['Stock'] > 40]. Tujuan skrip ini adalah untuk menunjukkan cara menapis baris DataFrame berdasarkan syarat tertentu, sama seperti cara anda menggunakan pertanyaan SQL untuk memilih baris daripada jadual berdasarkan nilai lajur. Dengan memahami dan menggunakan arahan ini, anda boleh memanipulasi dan menganalisis data dalam DataFrames anda dengan cekap.

Memilih Baris dalam DataFrame Menggunakan Nilai Lajur dalam Panda

Python dengan Perpustakaan Pandas

# Importing the necessary library
import pandas as pd

# Creating a sample DataFrame
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
    'Age': [24, 27, 22, 32, 29],
    'City': ['New York', 'Los Angeles', 'Chicago', 'Houston', 'Phoenix']
}
df = pd.DataFrame(data)

# Selecting rows where Age is greater than 25
selected_rows = df[df['Age'] > 25]
print(selected_rows)

# Selecting rows where City is 'Chicago'
chicago_rows = df[df['City'] == 'Chicago']
print(chicago_rows)

Menapis Data dalam DataFrame Berdasarkan Kriteria Lajur

Python dengan Perpustakaan Pandas

# Importing pandas library
import pandas as pd

# Creating a sample DataFrame
data = {'Product': ['A', 'B', 'C', 'D', 'E'],
        'Price': [100, 150, 200, 250, 300],
        'Stock': [30, 60, 90, 20, 50]}
df = pd.DataFrame(data)

# Selecting rows where Price is less than or equal to 200
affordable_products = df[df['Price'] <= 200]
print(affordable_products)

# Selecting rows where Stock is more than 40
in_stock = df[df['Stock'] > 40]
print(in_stock)

Teknik Lanjutan untuk Memilih Baris DataFrame dalam Panda

Selain penapisan asas menggunakan pengindeksan boolean, Pandas menawarkan teknik lanjutan untuk memilih baris berdasarkan nilai lajur. Satu kaedah yang berkuasa adalah menggunakan query() fungsi, yang membolehkan anda menapis baris dengan ungkapan pertanyaan, menjadikan sintaks lebih bersih dan selalunya lebih intuitif. Sebagai contoh, bukannya menggunakan df[df['Age'] > 25], anda boleh menulis df.query('Age > 25'). Kaedah ini amat berguna apabila menangani keadaan yang lebih kompleks atau apabila nama lajur mengandungi ruang. Selain itu, isin() Fungsi ini bermanfaat apabila anda ingin menapis baris berdasarkan senarai nilai. Contohnya, untuk memilih baris yang nilai lajur 'Bandar' ialah 'Chicago' atau 'New York', anda boleh menggunakan df[df['City'].isin(['Chicago', 'New York'])].

Teknik lain melibatkan loc dan iloc pengindeks. The loc pengindeks adalah berasaskan label, membolehkan anda memilih baris berdasarkan label baris dan nama lajur, sementara iloc adalah berasaskan lokasi integer, membolehkan pemilihan mengikut nombor baris dan lajur. Fleksibiliti ini amat berguna untuk memilih baris berdasarkan syarat yang digunakan pada lajur yang berbeza. Sebagai contoh, df.loc[df['Age'] > 25, 'Name'] akan mengembalikan nama individu yang berumur lebih daripada 25 tahun. Kaedah ini mengembangkan kit alat anda untuk mengendalikan dan menganalisis data dengan cekap dalam Pandas, menawarkan kod yang lebih mudah dibaca dan diselenggara.

Soalan dan Jawapan Biasa tentang Memilih Baris DataFrame

  1. Bagaimanakah saya boleh memilih baris berdasarkan berbilang syarat?
  2. Anda boleh menggunakan query() berfungsi atau menggabungkan keadaan dengan operator logik seperti & dan |. Sebagai contoh, df[(df['Age'] > 25) & (df['City'] == 'Chicago')].
  3. Bolehkah saya menapis baris berdasarkan senarai nilai?
  4. Ya, gunakan isin() fungsi. Sebagai contoh, df[df['City'].isin(['Chicago', 'New York'])].
  5. Apakah perbezaan antara loc dan iloc?
  6. loc adalah berasaskan label, manakala iloc adalah berasaskan lokasi integer. guna loc dengan label baris/lajur dan iloc dengan indeks baris/lajur.
  7. Bagaimanakah saya boleh memilih lajur tertentu semasa menapis baris?
  8. Anda boleh gunakan loc. Sebagai contoh, df.loc[df['Age'] > 25, ['Name', 'City']].
  9. Bagaimanakah saya mengendalikan nilai yang hilang semasa memilih baris?
  10. Menggunakan dropna() berfungsi untuk mengalih keluar baris dengan nilai yang tiada, atau fillna() untuk menggantikannya dengan nilai yang ditentukan.
  11. Bolehkah saya menggunakan ungkapan biasa untuk menapis baris?
  12. Ya, yang str.contains() berfungsi dengan regex=True parameter membolehkan anda menapis baris berdasarkan corak regex. Sebagai contoh, df[df['Name'].str.contains('^A', regex=True)].
  13. Bagaimanakah cara saya menapis baris berdasarkan indeks?
  14. Anda boleh gunakan loc dengan nama indeks. Sebagai contoh, df.loc[df.index == 'some_index'].
  15. Bagaimana jika nama lajur saya mengandungi ruang atau aksara khas?
  16. Menggunakan query() fungsi yang boleh mengendalikan nama lajur tersebut dengan backtick. Sebagai contoh, df.query('`column name` == value').

Pemikiran Akhir tentang Teknik Pemilihan Baris DataFrame

Memilih baris daripada DataFrame berdasarkan nilai lajur dalam Pandas ialah kemahiran penting untuk manipulasi data. Pelbagai kaedah yang dibincangkan, termasuk pengindeksan boolean, query(), isin(), dan pengindeksan berasaskan label dan lokasi integer dengan loc dan iloc, menyediakan alat yang berkuasa untuk menapis data dengan cekap. Penguasaan teknik ini membolehkan analisis data yang lebih baik dan kod yang lebih bersih dan boleh diselenggara.