কলাম মান দ্বারা ডেটাফ্রেম ফিল্টার করতে পান্ডাস ব্যবহার করা
পাইথনে ডেটা নিয়ে কাজ করার সময়, পান্ডাস লাইব্রেরি ডেটা ম্যানিপুলেশন এবং বিশ্লেষণের জন্য শক্তিশালী সরঞ্জাম সরবরাহ করে। একটি সাধারণ কাজ হল একটি নির্দিষ্ট কলামের মানগুলির উপর ভিত্তি করে ডেটাফ্রেম থেকে সারি নির্বাচন করা। এই অপারেশনটি এসকিউএল কোয়েরির মতো: SELECT * FROM টেবিল WHERE column_name = some_value.
এই নিবন্ধে, আমরা বিভিন্ন পদ্ধতি ব্যবহার করে পান্ডাসে কীভাবে এটি অর্জন করা যায় তা অন্বেষণ করব। আপনি একটি একক মান বা একাধিক মানদণ্ড দ্বারা ফিল্টার করছেন কিনা, পান্ডাস এই ধরনের ক্রিয়াকলাপগুলি পরিচালনা করার জন্য স্বজ্ঞাত এবং কার্যকর উপায় সরবরাহ করে। আসুন বিস্তারিত মধ্যে ডুব.
আদেশ | বর্ণনা |
---|---|
pd.DataFrame() | একটি অভিধান বা অন্যান্য ডেটা কাঠামো থেকে একটি DataFrame অবজেক্ট তৈরি করে। |
df[condition] | একটি শর্তের উপর ভিত্তি করে ডেটাফ্রেম সারিগুলি ফিল্টার করে, শুধুমাত্র সেইগুলিকে ফেরত দেয় যা মানদণ্ড পূরণ করে৷ |
print() | কনসোলে নির্দিষ্ট বার্তা বা ডেটাফ্রেম আউটপুট করে। |
df['column'] == value | সারি ফিল্টার করতে ব্যবহৃত একটি বুলিয়ান সিরিজ তৈরি করে যেখানে কলামটি নির্দিষ্ট মানের সাথে মেলে। |
df['column'] >df['column'] > value | সারি ফিল্টার করতে ব্যবহৃত একটি বুলিয়ান সিরিজ তৈরি করে যেখানে কলামের মানগুলি নির্দিষ্ট মানের থেকে বেশি। |
# Comment | কোডের মধ্যে ব্যাখ্যা বা নোট যোগ করতে ব্যবহৃত হয়, যা স্ক্রিপ্টের অংশ হিসাবে কার্যকর করা হয় না। |
পান্ডাসে ডেটাফ্রেম সারি নির্বাচন বাস্তবায়ন করা
প্রদত্ত স্ক্রিপ্টগুলিতে, মূল কাজটি হল নির্দিষ্ট কলামের মানগুলির উপর ভিত্তি করে ডেটাফ্রেম থেকে সারিগুলি ফিল্টার করা, যা ডেটা বিশ্লেষণে একটি সাধারণ প্রয়োজন৷ প্রথম স্ক্রিপ্ট পান্ডাস লাইব্রেরি আমদানি করে শুরু হয় . এটি অপরিহার্য কারণ পান্ডাস পাইথনের একটি শক্তিশালী ডেটা ম্যানিপুলেশন লাইব্রেরি। এর পরে, আমরা ব্যবহার করে একটি নমুনা ডেটাফ্রেম তৈরি করি নাম, বয়স এবং শহরগুলির জন্য ডেটা ধারণকারী একটি অভিধান সহ। এই কাঠামোটি আমাদের সহজে সারণী ডেটাকে কল্পনা করতে এবং ম্যানিপুলেট করতে দেয়। স্ক্রিপ্টের গুরুত্বপূর্ণ অংশ হল যেখানে আমরা ব্যবহার করে সারি ফিল্টার করি . এই কমান্ডটি সমস্ত সারি নির্বাচন করে যেখানে শহরের কলামের মান 'নিউ ইয়র্ক'। ফলাফল পরিবর্তনশীল সংরক্ষণ করা হয় ny_rows, যা তারপর ফিল্টার করা DataFrame প্রদর্শন করতে মুদ্রিত হয়।
দ্বিতীয় স্ক্রিপ্ট একটি অনুরূপ কাঠামো অনুসরণ করে কিন্তু একটি সংখ্যাগত অবস্থার উপর ভিত্তি করে ফিল্টারিং সারিগুলিতে ফোকাস করে। পান্ডা আমদানি করার পরে এবং পণ্য, মূল্য এবং পরিমাণ কলাম সহ একটি ডেটাফ্রেম তৈরি করার পরে, স্ক্রিপ্টটি ব্যবহার করে সারি ফিল্টার করতে যেখানে দাম 150-এর বেশি। এই কমান্ডটি মূল ডেটাফ্রেমের একটি উপসেট তৈরি করে যেখানে শুধুমাত্র নির্দিষ্ট শর্ত পূরণ করে এমন সারি রয়েছে। ফলাফল সংরক্ষণ করা হয় এবং যাচাইয়ের জন্য মুদ্রিত। উভয় স্ক্রিপ্ট ডেটা ম্যানিপুলেশনের জন্য পান্ডাদের শক্তি এবং সরলতা প্রদর্শন করে। বুলিয়ান ইনডেক্সিং ব্যবহার করে, একটি পদ্ধতি যেখানে আমরা ডেটা ফিল্টার করার জন্য সত্য/মিথ্যা মানগুলির একটি সিরিজ পাস করি, আমরা দক্ষতার সাথে বিভিন্ন শর্তের উপর ভিত্তি করে ডেটার উপসেট নির্বাচন করতে পারি, এটি ডেটা বিশ্লেষক এবং বিজ্ঞানীদের জন্য একটি অমূল্য হাতিয়ার করে তোলে।
কলামের মানগুলির উপর ভিত্তি করে ডেটাফ্রেমে সারি ফিল্টার করা
পাইথন - ডাটাফ্রেম অপারেশনের জন্য পান্ডা ব্যবহার করা
import pandas as pd
# Create a sample DataFrame
data = {
'name': ['Alice', 'Bob', 'Charlie', 'David', 'Edward'],
'age': [24, 27, 22, 32, 29],
'city': ['New York', 'Los Angeles', 'New York', 'Chicago', 'Los Angeles']
}
df = pd.DataFrame(data)
# Select rows where city is New York
ny_rows = df[df['city'] == 'New York']
print(ny_rows)
# Output:
# name age city
# 0 Alice 24 New York
# 2 Charlie 22 New York
কলামের মানগুলির উপর ভিত্তি করে ডেটাফ্রেম সারিগুলি অনুসন্ধান করা হচ্ছে
Python - পান্ডাদের সাথে উন্নত ফিল্টারিং
import pandas as pd
# Create a sample DataFrame
data = {
'product': ['A', 'B', 'C', 'D'],
'price': [100, 150, 200, 250],
'quantity': [30, 50, 20, 40]
}
df = pd.DataFrame(data)
# Select rows where price is greater than 150
expensive_products = df[df['price'] > 150]
print(expensive_products)
# Output:
# product price quantity
# 2 C 200 20
# 3 D 250 40
ডেটাফ্রেম সারি নির্বাচনের জন্য উন্নত কৌশল
বুলিয়ান ইনডেক্সিং সহ মৌলিক ফিল্টারিং ছাড়াও, পান্ডাস কলামের মানের উপর ভিত্তি করে সারি নির্বাচন করার জন্য আরও উন্নত কৌশল অফার করে। যেমন একটি পদ্ধতি হল ফাংশন, যা আপনাকে ডেটাফ্রেম সারি ফিল্টার করতে SQL-এর মতো সিনট্যাক্স ব্যবহার করতে দেয়। উদাহরণস্বরূপ, আপনি ব্যবহার করতে পারেন সারি নির্বাচন করতে যেখানে বয়স 25 এর বেশি এবং শহরটি নিউ ইয়র্ক। এই পদ্ধতিটি আপনার কোডকে আরও পঠনযোগ্য করে তুলতে পারে, বিশেষ করে জটিল অবস্থার জন্য। উপরন্তু, পান্ডা প্রদান করে এবং iloc[] আরো সুনির্দিষ্ট সারি নির্বাচনের জন্য অ্যাক্সেসর. দ্য অ্যাক্সেসরটি লেবেল-ভিত্তিক, যার অর্থ আপনি তাদের লেবেল বা বুলিয়ান অ্যারে দ্বারা সারিগুলি ফিল্টার করতে পারেন। বিপরীতে, অ্যাক্সেসর হল পূর্ণসংখ্যার অবস্থান-ভিত্তিক, আপনাকে সারিগুলিকে তাদের সূচকের অবস্থান অনুসারে ফিল্টার করতে দেয়।
পান্ডাসের আরেকটি শক্তিশালী বৈশিষ্ট্য হল ডাটাফ্রেম সারি ফিল্টার করার ক্ষমতা পদ্ধতি এই পদ্ধতিটি উপযোগী যখন আপনাকে মানের তালিকার উপর ভিত্তি করে সারি ফিল্টার করতে হবে। উদাহরণ স্বরূপ, সারি নির্বাচন করে যেখানে শহরের কলামের মান হয় নিউ ইয়র্ক বা লস অ্যাঞ্জেলেস। উপরন্তু, আপনি ব্যবহার করে একাধিক শর্ত চেইন করতে পারেন এবং | অপারেটররা আরও জটিল ফিল্টার তৈরি করতে। এই ক্ষেত্রে, ফিল্টার সারি যেখানে বয়স 25 এর বেশি এবং শহরটি নিউ ইয়র্ক। এই উন্নত কৌশলগুলি ডেটা ফিল্টারিংয়ের জন্য একটি শক্তিশালী কাঠামো প্রদান করে, যা পান্ডাসকে ডেটা বিশ্লেষণ এবং ম্যানিপুলেশনের জন্য একটি বহুমুখী হাতিয়ার করে তোলে।
- আমি কিভাবে একাধিক কলাম মানের উপর ভিত্তি করে একটি ডেটাফ্রেমে সারি ফিল্টার করব?
- আপনি একাধিক শর্তের সাথে বুলিয়ান ইনডেক্সিং ব্যবহার করতে পারেন এবং . উদাহরণ স্বরূপ: .
- পার্থক্য কি এবং ?
- লেবেল ভিত্তিক, যখন পূর্ণসংখ্যা অবস্থান-ভিত্তিক। ব্যবহার করুন লেবেল দ্বারা ফিল্টার করার জন্য এবং iloc[] সূচক অবস্থান দ্বারা ফিল্টারিং জন্য.
- আমি কিভাবে ব্যবহার করতে পারেন DataFrame সারি ফিল্টার করার ফাংশন?
- দ্য ফাংশন আপনাকে SQL-এর মতো সিনট্যাক্স ব্যবহার করতে দেয়। উদাহরণ স্বরূপ: .
- আমি কি মানের তালিকার উপর ভিত্তি করে সারি ফিল্টার করতে পারি?
- হ্যাঁ, আপনি ব্যবহার করতে পারেন পদ্ধতি উদাহরণ স্বরূপ: .
- স্ট্রিং মিলের উপর ভিত্তি করে সারি ফিল্টার করার সেরা উপায় কি?
- আপনি ব্যবহার করতে পারেন পদ্ধতি উদাহরণ স্বরূপ: .
- আমি কিভাবে সারি নির্বাচন করব যেখানে কলামের মান অনুপস্থিত?
- আপনি ব্যবহার করতে পারেন পদ্ধতি উদাহরণ স্বরূপ: .
- আমি কিভাবে একটি কাস্টম ফাংশন ব্যবহার করে সারি ফিল্টার করতে পারি?
- আপনি ব্যবহার করতে পারেন একটি ল্যাম্বডা ফাংশন সহ পদ্ধতি। উদাহরণ স্বরূপ: .
- আমি কি ইনডেক্স মানের উপর ভিত্তি করে সারি ফিল্টার করতে পারি?
- হ্যাঁ, আপনি ব্যবহার করতে পারেন পদ্ধতি উদাহরণ স্বরূপ: .
কলাম মানের উপর ভিত্তি করে ডেটাফ্রেম থেকে সারি নির্বাচন করা পান্ডাদের সাথে ডেটা বিশ্লেষণের একটি মৌলিক দক্ষতা। বুলিয়ান ইনডেক্সিং ব্যবহার করা, , , , এবং isin() পদ্ধতিগুলি দক্ষ ডেটা ফিল্টারিংয়ের অনুমতি দেয়। এই কৌশলগুলি আয়ত্ত করা আপনার ডেটাসেটগুলিকে কার্যকরভাবে ম্যানিপুলেট এবং বিশ্লেষণ করার ক্ষমতা বাড়ায়।