Ifi6057labx
Sisukord
Masinõppe katsetamine
Uuri, mis on masinõppe abil klassifitseerimine. Vt. näiteks AIMA, 18.3 ja 18.7; Machine learning "Hello World"
Kodutöö teemaks on e-mailides pahatahtlike (i.k. phishing) linkide ära tundmine. Selleks on kasutada andmed [1], kus üksikud kahtlased atribuudid (näit. URL pikkus) on juba tuvastatud. Kodutöös tuleb langetada üksikute atribuutide pealt lõppotsus - kas link on pahatahtlik, kahtlane või ohutu.
Vali üks masinõppeks sobiv tarkvarapakett ning katseta klassifitseerimise meetodeid nagu otsustuspuu või närvivõrgud. Jaota õppimisandmed kaheks - treeningandmed ja testandmed. Nii saad klassifitseerimise edukust testida. Võib kasutada ka krossvalideerimist.
Katsetamine peaks sisaldama mingit võrdlust - proovi erinevaid meetodeid üksteise vastu, ühte meetodit erinevate parameetritega või erinevate atribuutide (i.k feature) mõju tulemusele. Tulemuste kohta tuleb teha detailne raport.
Vahendid
Kursuse õpiku jaoks on koostatud spetsiaalsed teegid (näit aima-python
ja aima-java
), mis implementeerivad õpikus toodud algoritme. Paraku on masinõppe osa nendes teekides ebaühtlane ja poolik. Seega oleks soovitus võtta üks kahest meinstriim paketist - mõlemad peaks olema omas valdkonnas kõige populaarsemad ja hästi dokumenteeritud:
Andmete kirjeldus
Kõik atribuudid (ja lõplik klassifikatsioon) omavad järgnevaid väärtusi:
- 1 - Legitiimne
- 0 - kahtlane
- -1 - Pahatahtlik või iseloomulik pahatahtlikule URL-ile
Atribuudid:
-
SFH
kas veebilehel olevad vormid suunavad uuele domeenile -
popUpWidnow
kas veebilehel on pop-up aknaid -
SSLfinal_State
kas HTTPS on kasutuses ja kas sertifikaat on usaldusväärne -
Request_URL
kas veebileht laadib pilte ja muid komponente teiselt domeenilt -
URL_of_Anchor
kas veebileht sisaldab palju linke teisele domeenile -
web_traffic
kas veebilehe külastatavus on kõrge, keskmine või madal (Alexa ranking) -
URL_Length
ülipikk, pikk või tavaline URL -
age_of_domain
domeeni on vana või värskelt registreeritud -
having_IP_Address
URL sisaldab IP aadressi
Väli Result
sisaldab lõplikku klassifikatsiooni treenimiseks ja testimiseks.
Näide:
... 1,-1,1,0,-1,-1,0,1,0,-1 1,-1,0,-1,-1,-1,0,1,0,1 1,0,1,1,1,-1,1,1,0,-1 1,1,1,-1,1,1,-1,-1,0,-1 ...
Raport
Raport on PDF formaadis ja sisaldab:
- Sissejuhatus. Valitud meetod. Mis eksperiment teostatakse (mida võrreldi millega ja ei tee paha panna kirja ka, miks just nii).
- Eksperimendi kirjeldus. Kuidas andmeid eeltöödeldi. Mismoodi katsetati. Kirjelduse põhjal peaks olema võimalik katseid samamoodi järgi teha.
- Tulemused. Sisaldab erinevate katsete võrdlust (vt. ülalpool). Lisa siia vähemalt üks õppimiskõvera graafik (ei pea nii peene resolutsiooniga olema, piisab ~10-st erinevast treeningsisendi suurusest).
(Pilt võetud S. Russelli slaididelt)
- Kokkuvõte.
Esitamine
Töö saadetakse õppejõule aadressil priit at whitedb.org hiljemalt 27. novembriks. Vaja on saata raport, mis peab iseseisvalt võimaldama aru saada, mida tehti ja mis tulemus oli. Tähtajaks esitatud nõuetele vastav töö saab kuni 15 punkti, hilinemise korral lähevad punktid alla (iga päeva eest -1 punkti). Üle 14 päeva hilinenud tööd vastu ei võeta.
Viited
1. Abdelhamid et al., Phishing Detection based Associative Classification Data Mining. Expert Systems With Applications (ESWA), 41 (2014) 5948-5959