import pandas as pd
# একটি সিম্পল ডেটা ফ্রেম তৈরি করি
data = {'Name': ['John', 'Peter', 'John', 'David', 'Peter'],
'Age': [25, 30, 25, 35, 30],
'City': ['New York', 'Paris', 'New York', 'London', 'Paris']}
df = pd.DataFrame(data)
# ডুপ্লিকেট রেকর্ডগুলি সনাক্ত করি
duplicate_rows = df[df.duplicated()]
# ডুপ্লিকেট রেকর্ডগুলি মুছে দেওয়া
df = df.drop_duplicates()
Pythonএছাড়াও keep প্যারামিটার ব্যবহার করে ডুপ্লিকেট রেকর্ডগুলির কোন একটিকে রাখতে পারেন। ডিফল্টভাবে keep=’first’ হলে প্রথম আসল রেকর্ডটি রাখা হয় এবং বাকি ডুপ্লিকেট রেকর্ডগুলি মুছে ফেলা হয়। অন্যথায়, keep=’last’ হলে শেষের আসল রেকর্ডটি রাখা হয় এবং বাকি ডুপ্লিকেট রেকর্ডগুলি মুছে ফেলা হয়। আপনি চাইলে নিজের প্রয়োজন মতো keep প্যারামিটার ব্যবহার করতে পারেন।
# ডুপ্লিকেট রেকর্ডগুলি মুছে দেওয়ার পরে শেষের আসল রেকর্ডটি রাখা
df = df.drop_duplicates(keep='last')
Python