การสำรวจข้อมูลโดยใช้แผนภาพการกระจาย

บทที่ 2 การเก็บรวบรวมและสำรวจข้อมูล

การสำรวจข้อมูลโดยใช้แผนภาพการกระจาย

ในทำนองเดียวกัน ถ้าเราต้องการพล็อตแผนภาพการกระจาย เราจะต้องเริ่มจากการอ่านข้อมูลและจัดเตรียมข้อมูลที่จะพล็อตก่อน แล้วจึงใช้ฟังก์ชันที่ใช้สำหรับพล็อตแผนภาพการกระจายจากไลบรารี matplotlib ซึ่งมีขั้นตอนดังนี้

ขั้นตอนที่ 1: import ไลบรารี pandas เพื่อเรียกใช้งานฟังก์ชันสำหรับอ่านไฟล์ที่มีนามสกุล .csv และ import ไลบรารี matplotlib เพื่อเรียกใช้งานฟังก์ชันสำหรับพล็อตแผนภาพการกระจาย โดยใช้คำสั่งดังนี้

                  
                    import pandas as pd
                    import matplotlib.pyplot as plt

ขั้นตอนที่ 2: เรียกใช้งานฟังก์ชัน read_csv เพื่ออ่านข้อมูลจากไฟล์ชื่อ average-income.csv และนำมาจัดเก็บไว้ใน data frame ชื่อ df โดยใช้คำสั่งดังนี้

                  
                    df = pd.read_csv ('average-income.csv')

ขั้นตอนที่ 3: จัดเตรียมข้อมูลที่จะใช้สำหรับการพล็อตแผนภาพการกระจาย สมมติว่าเราต้องการพล็อตแผนภาพการกระจายโดยให้แกนนอนเป็นข้อมูลในคอลัมน์ที่ 4 และแกนตั้งเป็นข้อมูลในคอลัมน์ 5 ดังนั้นก่อนการพล็อตกราฟเราจะอ่านข้อมูลในคอลัมน์ที่ 4 มาเก็บไว้ในตัวแปร x และอ่านข้อมูลในคอลัมน์ที่ 5 มาเก็บไว้ในตัวแปร y โดยใช้คำสั่งดังนี้

                  
                    x = df[df.columns[4]]
                    y = df[df.columns[5]]

โดยที่ df[df.columns[4]] เป็นการเข้าถึงข้อมูลในคอลัมน์ที่ 4 และ df[df.columns[5]] เป็นการเข้าถึงข้อมูลในคอลัมน์ที่ 5 ใน data frame ชื่อ df โดยใช้อินเด็กซ์ของคอลัมน์

ขั้นตอนที่ 4: หลังจากเตรียมข้อมูลที่จะพล็อตในแนวแกนนอนและแกนตั้งแล้ว ขั้นตอนต่อมาก็คือการพล็อตแผนภาพการกระจายโดยใช้ฟังก์ชัน scatter จากไลบรารี matplotlib โดยใช้คำสั่งดังนี้

                  
                    plt.scatter(x, y)

ถ้าเราต้องการแสดงคำอธิบายแกนนอนเป็น 'รายได้' และคำอธิบายแกนตั้งเป็น 'รายจ่าย' เราสามารถทำได้โดยใช้คำสั่งดังนี้

                  
                    plt.xlabel('รายได้')
                    plt.ylabel('รายจ่าย')

Python Code

                  
                    import pandas as pd
                    import matplotlib.pyplot as plt
                    df = pd.read_csv ('average-income.csv')
                    x = df[df.columns[4]]
                    y = df[df.columns[5]]
                    plt.scatter(x, y)
                    plt.xlabel('รายได้')
                    plt.ylabel('รายจ่าย')