บทที่ 2 การเก็บรวบรวมและสำรวจข้อมูล

การสำรวจข้อมูลโดยใช้ฮิสโทแกรม

ในทำนองเดียวกัน ถ้าเราต้องการพล็อตฮิสโทแกรม เราจะต้องเริ่มจากการอ่านข้อมูลและจัดเตรียมข้อมูลที่จะพล็อตฮิสโทแกรม แล้วใช้ฟังก์ชันที่ใช้สำหรับพล็อตฮิสโทแกรมจากไลบรารี matplotlib ซึ่งมีขั้นตอนดังนี้

ขั้นตอนที่ 1: import ไลบรารี pandas เพื่อเรียกใช้งานฟังก์ชันสำหรับอ่านไฟล์ที่มีนามสกุล .csv และ import ไลบรารี matplotlib เพื่อเรียกใช้งานฟังก์ชันสำหรับพล็อตฮิสโทแกรม โดยใช้คำสั่งดังนี้

                  
                    import pandas as pd
                    import matplotlib.pyplot as plt
                  
                

ขั้นตอนที่ 2: เรียกใช้งานฟังก์ชัน read_csv เพื่ออ่านข้อมูลจากไฟล์ชื่อ average-income.csv และนำมาจัดเก็บไว้ใน data frame ชื่อ df โดยใช้คำสั่งดังนี้

                  
                    df = pd.read_csv (‘average-income.csv’)
                  
                

ขั้นตอนที่ 3: เตรียมข้อมูลที่จะใช้สำหรับการพล็อตฮิสโทแกรม สมมติว่าเราต้องการพล็อตฮิสโทแกรมของคอลัมน์ที่ 10 เราจะต้องอ่านข้อมูลในคอลัมน์ที่ 10 มาเก็บไว้ในตัวแปร y โดยใช้คำสั่งดังนี้

                  
                    y = df.iloc[:, 10]
                  
                

โดยที่ df.iloc[:, 10] เป็นการเข้าถึงข้อมูลทุกแถวของคอลัมน์ที่ 10 ใน data frame ชื่อ df โดยใช้อินเด็กซ์


ขั้นตอนที่ 4: หลังจากเตรียมข้อมูลที่จะพล็อตแล้ว ขั้นตอนต่อมาก็คือการพล็อตฮิสโทแกรมด้วยฟังก์ชัน hist จากไลบรารี matplotlib โดยใช้คำสั่งดังนี้

                  
                    plt.hist(y)
                  
                

Python Code

              
                import pandas as pd
                import matplotlib.pyplot as plt
                df = pd.read_csv (‘average-income.csv’)
                y = df.iloc[:, 10]
                plt.hist(y)