
Data Exploration and Machine Learning using R
A szív- és érrendszeri betegségek manapság a betegek minden korcsoportjában gyakoriak. A korai stádiumban történő előrejelzés segíthet az egészséges életmód kialakításában, így elkerülhető a nagy életveszély.
A kutatók folyamatosan keresik a kapcsolatokat a meglévő adatforrásokból, hogy a szívbetegségek korai stádiumban előre jelezhetők legyenek. Vannak bevált adatbányászati technikák, mint például a döntési fák, a támogató vektorgép, a logisztikus regresszió, amelyek hasznosak a szívbetegségek előrejelzésében. Ez a kutatás a szívbetegségek előrejelzésére összpontosít a támogató vektor gép és a lineáris regressziós technika segítségével.
A clevelandi szívbetegségek adathalmazát használjuk mintaadatkészletként a két választott technika pontosságának megállapításához. Az összehasonlítás azt mutatja, hogy a logisztikus regresszió pontosabb eredményeket ad, mint a támogató vektor gép a szívbetegségek adathalmazán.
A kutatás elemzése R szkriptben történik, ahol a Clevelandi szívbetegség adatállományt elemzik, és két modellt (SVM, logisztikus regresszió) valósítanak meg R segítségével. A projekt a Support Vector Machine és a Logistic Regression technikák alkalmazására összpontosít a fent említett adatállományon.