Please use this identifier to cite or link to this item: http://cmuir.cmu.ac.th/jspui/handle/6653943832/73868
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorจักรเมธ บุตรกระจ่าง-
dc.contributor.authorปริญญา ปันสินen_US
dc.date.accessioned2022-08-16T01:00:38Z-
dc.date.available2022-08-16T01:00:38Z-
dc.date.issued2022-06-
dc.identifier.urihttp://cmuir.cmu.ac.th/jspui/handle/6653943832/73868-
dc.description.abstractThe data where number of examples in each class differ significantly or imbalance data can be found in various application domains. The traditional supervised learning following the Empirical Risk Minimisation principle, which minimises the misclassification regardless of the types of error, often yields a classification model that generalises poorly on the minority class. Cost-sensitive learning is one of the promising approaches to introducing inductive bias into the model for imbalance data classification. This thesis the aim comparative study of misclassification cost and initial weight assignment strategies for AdaBoost. And bring about to propose method for automatically determine suitably cost of misclassification and initial weight. In this thesis, we studied three strategies for determining misclassification costs for an imbalance dataset and incorporated such costs into a cost- sensitive AdaBoost algorithm. The strategies consist of Imbalance Ratio which is determine misclassification cost from ratio of each class instance, Grid Search which is find expected parameter procedure for learning step and Distribution Correction that is modify the initial weight by sample size in those target class. Apply whole strategies with Cost-Sensitive AdaBoost. The experimental results based on five imbalance biomedical testbeds. The results are appear the imbalance ratio strategy seemed to over- estimate the misclassification costs and as a result yielded a model which is too focused on the minority class. The grid search improved upon the traditional AdaBoost on some datasets but is still comparable to AdaBoost overall. And the distribution correction strategy seemed to outperform all other strategies. It is therefore recommended that the proposed distribution correction method is the most effective strategy in terms of imbalance-aware performance measures.en_US
dc.language.isootheren_US
dc.publisherเชียงใหม่ : บัณฑิตวิทยาลัย มหาวิทยาลัยเชียงใหม่en_US
dc.subjectปรับค่าเสียหายในการจำแนกประเภทผิดen_US
dc.subjectCost sensitive learningen_US
dc.subjectMisclassification cost assignmenten_US
dc.subjectimbalance data classificationen_US
dc.subjectเรียนรู้ที่อ่อนไหวต่อค่าเสียหายen_US
dc.subjectAdaBoost cost sensitive boostingen_US
dc.subjectข้อมูลชีวการแพทย์ที่ไม่สมดุลen_US
dc.subjectBiomedical Dataen_US
dc.titleการปรับค่าเสียหายในการจำแนกประเภทผิดเพื่อการเรียนรู้ที่อ่อนไหวต่อค่าเสียหายบนชุดข้อมูลชีวการแพทย์ที่ไม่สมดุลen_US
dc.title.alternativeMisclassification cost adjustment for cost-sensitive learning on imbalanced biomedical datasetsen_US
dc.typeIndependent Study (IS)
thailis.controlvocab.thashการวิเคราะห์จัดกลุ่ม -- โปรแกรมคอมพิวเตอร์-
thailis.controlvocab.thashเหมืองข้อมูล-
thailis.controlvocab.thashคอมพิวเตอร์อัลกอริทึม-
thesis.degreemasteren_US
thesis.description.thaiAbstractข้อมูลที่มีลักษณะจำนวนตัวอย่างในแต่ละคลาสแตกต่างกันหรือข้อมูลที่ไม่สมดุลนั้นสามารถพบได้ในแหล่งข้อมูลต่างๆ ซึ่งโดยพื้นฐานการเรียนรู้แบบมีผู้สอนนั้นจะสอดคล้องตามหลักการ Empirical Risk Minimisation ซึ่งจะลดการจำแนกประเภทผิดโดยไม่คำนึงถึงประเภทการจำแนกผิด ซึ่งตัวแบบการจำแนกข้อมูลที่ได้มักจะมีประสิทธิภาพต่ำกับข้อมูลส่วนน้อย เทคนิคการเรียนรู้ที่อ่อนไหวต่อค่าเสียหาย (Cost-Sensitive Learning) ถือเป็นหนึ่งในแนวทางที่ถูกนำมาใช้เพื่อสร้างตัวแบบการจำแนกสำหรับการจำแนกข้อมูลที่ไม่สมดุล ซึ่งงานวิจัยนี้ได้ศึกษาเปรียบเทียบวิธีการกำหนดค่าเสียหายในการจำแนกประเภทผิดและค่าน้ำหนักเริ่มต้นที่ผนวกใช้กับอัลกอริทึมเอดาบูส และนำไปสู่การนำเสนอวิธีกำหนดค่าเสียหายหรือค่าน้ำหนักเริ่มต้นที่เหมาะสมกับชุดข้อมูลโดยอัตโนมัติ ซึ่งงานวิจัยนี้ได้ศึกษาเทคนิคการกำหนดค่าเสียหายในการจำแนกประเภทผิด 3 แบบคือ เทคนิค Imbalance Radio ซึ่งเป็นวิธีการกำหนดค่าเสียหายจากอัตราส่วนความไม่สมดุลของคลาสข้อมูล เทคนิค Grid Search ที่ใช้หาค่าพารามิเตอร์ที่เหมาะสม และเทคนิค Distribution Correction ที่จะปรับน้ำหนักเริ่มต้นของข้อมูลแต่ละตัวให้อิงกับจำนวนข้อมูลในแต่ละคลาส ซึ่งถือว่าเป็นปรับการกระจายตัวเริ่มต้นของข้อมูลส่วนน้อยแต่ละตัวอย่างให้มีค่าเพิ่มขึ้น และนำเทคนิคเหล่านี้ไปใช้ร่วมกับอัลกอริทึม Cost-Sensitive AdaBoost โดยใช้ข้อมูลชีวการแพทย์ 5 ชุดในการวิจัย ซึ่งได้ผลการวิจัยคือเทคนิค Imbalance Ratio นั้นดูเหมือนว่าทำให้ค่าเสียหายในการจำแนกประเภทข้อมูลผิดนั้นมีค่าสูงกว่าที่ควรจะเป็นส่งผลให้ตัวแบบที่ได้มีประสิทธิด้านความแม่นยำต่ำกว่าวิธีอื่นๆ ส่วนเทคนิค Grid Search นั้นสามารถเพิ่มประสิทธิภาพให้ดีขึ้นในบางชุดข้อมูล แต่ประสิทธิภาพโดยรวมยังเทียบเคียงกับเทคนิคเอดาบูสแบบดั้งเดิม และเทคนิค Distribution Correction ซึ่งมีประสิทธิภาพกับข้อมูลส่วนน้อยที่ดีกว่าการใช้อัลกอริทึมเอดาบูสแบบดั้งเดิมและเทคนิคต่างๆ ที่ใช้ในงานวิจัยอย่างชัดเจน โดยมีประสิทธิภาพสูงสุดซึ่งวัดประสิทธิภาพจากมาตรวัดที่คำนึงถึงความไม่สมดุลของชุดข้อมูลen_US
Appears in Collections:SCIENCE: Independent Study (IS)

Files in This Item:
File Description SizeFormat 
parinya_punsin_cost.pdfการปรับค่าเสียหายในการจำแนกประเภทผิดเพื่อการเรียนรู้ที่อ่อนไหวต่อค่าเสียหายบนชุดข้อมูลชีวการแพทย์ที่ไม่สมดุล4.09 MBAdobe PDFView/Open    Request a copy


Items in CMUIR are protected by copyright, with all rights reserved, unless otherwise indicated.