การสำรวจข้อมูลโดยใช้แผนภาพการกระจาย
ในทำนองเดียวกัน ถ้าเราต้องการพล็อตแผนภาพการกระจาย เราจะต้องเริ่มจากการอ่านข้อมูลและจัดเตรียมข้อมูลที่จะพล็อตก่อน แล้วจึงใช้ฟังก์ชันที่ใช้สำหรับพล็อตแผนภาพการกระจายจากไลบรารี matplotlib ซึ่งมีขั้นตอนดังนี้
ขั้นตอนที่ 1: import ไลบรารี pandas เพื่อเรียกใช้งานฟังก์ชันสำหรับอ่านไฟล์ที่มีนามสกุล .csv และ import ไลบรารี matplotlib เพื่อเรียกใช้งานฟังก์ชันสำหรับพล็อตแผนภาพการกระจาย โดยใช้คำสั่งดังนี้
import pandas as pd
import matplotlib.pyplot as plt
ขั้นตอนที่ 2: เรียกใช้งานฟังก์ชัน read_csv เพื่ออ่านข้อมูลจากไฟล์ชื่อ average-income.csv และนำมาจัดเก็บไว้ใน data frame ชื่อ df โดยใช้คำสั่งดังนี้
df = pd.read_csv ('average-income.csv')
ขั้นตอนที่ 3: จัดเตรียมข้อมูลที่จะใช้สำหรับการพล็อตแผนภาพการกระจาย สมมติว่าเราต้องการพล็อตแผนภาพการกระจายโดยให้แกนนอนเป็นข้อมูลในคอลัมน์ที่ 4 และแกนตั้งเป็นข้อมูลในคอลัมน์ 5 ดังนั้นก่อนการพล็อตกราฟเราจะอ่านข้อมูลในคอลัมน์ที่ 4 มาเก็บไว้ในตัวแปร x และอ่านข้อมูลในคอลัมน์ที่ 5 มาเก็บไว้ในตัวแปร y โดยใช้คำสั่งดังนี้
x = df[df.columns[4]]
y = df[df.columns[5]]
โดยที่ df[df.columns[4]] เป็นการเข้าถึงข้อมูลในคอลัมน์ที่ 4 และ df[df.columns[5]] เป็นการเข้าถึงข้อมูลในคอลัมน์ที่ 5 ใน data frame ชื่อ df โดยใช้อินเด็กซ์ของคอลัมน์
ขั้นตอนที่ 4: หลังจากเตรียมข้อมูลที่จะพล็อตในแนวแกนนอนและแกนตั้งแล้ว ขั้นตอนต่อมาก็คือการพล็อตแผนภาพการกระจายโดยใช้ฟังก์ชัน scatter จากไลบรารี matplotlib โดยใช้คำสั่งดังนี้
plt.scatter(x, y)
ถ้าเราต้องการแสดงคำอธิบายแกนนอนเป็น 'รายได้' และคำอธิบายแกนตั้งเป็น 'รายจ่าย' เราสามารถทำได้โดยใช้คำสั่งดังนี้
plt.xlabel('รายได้')
plt.ylabel('รายจ่าย')
import pandas as pd
import matplotlib.pyplot as plt
df = pd.read_csv ('average-income.csv')
x = df[df.columns[4]]
y = df[df.columns[5]]
plt.scatter(x, y)
plt.xlabel('รายได้')
plt.ylabel('รายจ่าย')