High Leverage

by ilog.ai

High Leverage คือ อะไร

ในการประมาณการตัวแปรใดๆก็ตามนั้น การที่จะให้ได้สมการประมาณการที่ดีที่สุด จำเป็นที่จะต้องตรวจดูรายละเอียดต่างๆมากมาย ตั้งแต่ขั้นตอนการได้มาซึ่งข้อมูล(Training Set) วิธีการประมาณการที่เหมาะสมกับชุดข้อมูลนั้นๆ ตลอดจนการได้มาซึ่งสมการ ซึ่งหนึ่งสิ่งที่เราควรต้องระวังให้มากนั้นคือเรื่อง จุด High Leverage หรือในภาษาทางคณิตศาสตร์ เราเรียกว่า Outlier คือ จุดที่มีอิทธิพลต่อการประมาณการตัวแปรมาก ในบทความนี้ เราจะยกตัวตัวอย่างจุด High Leverage (outlier)  ที่มีในการประมาณการแบบ Linear Regression เพื่อที่จะให้เพื่อนๆได้เข้าใจว่า จุด High leverage คือ อะไร เราจะมีการโชว์ข้อมูลจริงก่อน เพื่อให้เพื่อนๆเข้าใจง่ายขึ้น เริ่มจาก

  1. เราจะประมาณการ ราคาบ้าน(House price)ต่อการเกิดอาชญากรรม (Crime rate) ซึ่งเรามี Training Set ทั้งหมด 100 ค่า (บ้านที่อยู่ในเมือง A)
  2. เราจะ Plot graph โดยใช้ Excel อย่างง่าย จากนั้นทำการประมาณการแบบ Linear Regression ดังรูป

จากรูปจะเห็นได้ว่า

  1. Slope เป็น Negative หมายความว่า ถ้าอัตราการเกิดอาชญากรรมต่ำ ราคาบ้านก็จะสูง (มันก็สมเหตุสมผลนะ)
  2. แต่ว่าถ้าสังเกต จะเห็นได้ว่ามันมีบ้านหนึ่ง(บ้าน B) ที่อัตราการเกิดอาชญกรรมสูงมากแต่ราคาบ้านก็ยังมีราคาอย่างมีนัยสำคัญ
  3. หลักการของการประมาณการคือ มันต้องการที่จะให้เส้นสมการประมาณการนั้นมี ระยะห่างจากข้อมูลจริงน้อยที่สุด (error น้อย) จะเห็นได้ว่า สมการประมาณการเส้นตรง (Linear Regression) พยายามที่จะลากใกล้บ้าน B ซึ่งจุด B ดูเหมือนว่าจะมีอิทธิพลต่อสมการประมาณการ
  4. จุด B เป็นจุดที่ทำให้ค่า Average มีค่าสูง

ดังนั้น เราจะลองเอาบ้านBออกจาก Training Set ของเราและทำการประมาณการแบบ Linear Regression ใหม่อีกรอบ จะได้

high leverage

จะเห็นได้ว่า Training Set ของเรามีค่าใกล้เคียงกัน และสมการเส้นตรงนี้มีการประมาณการที่ใกล้เคียงข้อมูลของเรามากขึ้น

ต่อไปเราจะมาเปรียบเทียบ Coefficient กัน ระหว่างก่อนและหลังที่เราจะเอาบ้าน B ออกนะคะ

Before remove high leverage point
high leverage
After remove high leverage point
high leverage
  1. จะเห็นได้ว่า ก่อนที่จะมีการเอาบ้าน B ออก ค่าที่ได้คือ เมื่อมี Crime rate เพิ่มขึ้น 1 หน่วย จะทำให้ราคาบ้านโดยเฉลี่ยลดลงไปประมาณ 582.39
  2. แต่พอเรา เอาบ้าน B ออก ทำให้ค่า Coefficient เปลี่ยนไป โดยจากตาราง เมื่อ Crime rate เพิ่มขึ้น 1 หน่วย จะทำให้ราคาบ้านโดยเฉลี่ยลดลงไปประมาณ 2,288.69

จะเห็นได้ว่าเมื่อเรากำจัดบ้านBออก ค่าที่ได้(ราคาบ้าน)นั้นแตกต่างกันมาก เปลี่ยนจาก 582.39 เป็น 2,288.69 เลยทีเดียว

ตอนนี้เพื่อนๆคงพอจะรู้แล้วใช่ไหมคะว่าจุด High Leverage คือจุดไหน?

High leverage คือ ค่าที่มีค่าต่างจากค่าอื่นมากๆ (Extremely value) เมื่อเทียบกับข้อมูลอื่นใน Training Set ตามแนวแกน X ซึ่งในที่นี้ก็คือ บ้านB ซึ่ง High leverage จะมีค่ามากหรือน้อยก็ได้ แต่มันจะมีค่าต่างจากค่าอื่นๆใน Training set มากๆ ทำให้เมื่อมีการประมาณการตัวแปร(การประมาณการจะพยายามลดค่า Error ให้ต่ำที่สุด) มันจึงดึงให้เส้นสมการเข้าไปใกล้จุด High leverage ดังนั้นหากเราต้องการสมการประมาณการเส้นตรง(Linear regression )ที่แม่นยำที่สุด เราจำเป็นที่จะต้องกำจัดค่า High leverage ออก  

แล้วถ้ามันมีจุดที่ Extremely value มากๆ แต่มันมีแนวโน้มไปตามข้อมูลอื่นๆ จุดนี้ถือว่าเป็น High Leverage หรือเปล่า?

leverage คือ

จากรูปจะเห็นได้ว่า มันมีเมืองอยู่ 5 เมืองที่ราคาบ้านสูงมาก เมื่อเทียบกับราคาบ้านหลังอื่นๆ เราจะมาดูว่ามันเป็นจุด High leverage หรือไม่ โดยเราจะมาดูค่า Coefficient ก่อนและหลังเอาบ้าน 5 หลังนั้นออก

Before remove 5 houses
6.1
After remove 5 houses
7

เมื่อเปรียบเทียบ Coefficient  ของทั้งสองคือ ก่อนเอาบ้าน 5 หลังออก และ หลังเอาออก จะเห็นว่าบ้าน 5 หลังนั้นมีผลต่อ coefficient อยู่บ้าง แต่ไม่มากเท่าจุดก่อนหน้านี้ (บ้าน B )

ดังนั้นถ้าเกิดว่ามันมีบางข้อมูลที่เป็น Extremely value แต่มันไปในทางเดียวกันกับข้อมูล มันก็อาจจะไม่ได้มีผลต่อสมการประมาณการมากนัก หากเรากำจัดจุดนั้นออกไป เราก็อาจจะได้สมการประมาณการอันใหม่ที่ไม่ต่างจากเดิมมาก เราเรียกค่าพวกนี้ว่า Influence observation

สรุป หากว่าเราต้องการที่จะประมาณการตัวแปรใดๆก็ตาม เราจำเป็นที่จะต้องตรวจดูว่าข้อมูลใน Training Set ของเรามีข้อมูลอันไหนไหมที่เป็น high leverage หรือไม่ หากมีเราจำเป็นที่จะต้องกำจัดออก เพื่อที่เมื่อเราทำการประมาณการออกมาเราจะได้สมการที่แม่นยำที่สุด

ในบทความต่อไป เราจะมาดูอีกจุดที่ควรระวังในการทำการประมาณการตัวแปร นั่นคือเรื่อง Asymmetric Error ว่ามันมีผลต่อการประมาณการมากแค่ไหน แล้วทำอย่างไรเราถึงจะแก้ไขปัญหานี้ได้

บทความอื่นๆ

อัพเดทเรื่อง Machine Learning ได้ก่อนใครที่นี้ !!