6. domača naloga: komentarji na rtvslo.si (tekmovanje)
V sklopu domače naloge boste zgradili model, ki bo napovedoval število komentarjev pod članki na spletnem portalu RTVSlo. Strukturo podatkov že poznate, vsekakor pa uporabite tiste s tekmovalnega strežnika. Tam najdete dvoje podatkov:
- učne podatke, na katerih boste gradili vaše modele, in
- teste podatke, za katere boste morali izdelati čim boljše napovedi.
Geslo za tekmovalno stran smo vam poslali na elektronski naslov, s katerim ste se prijavili na učilnico. Če ga ne najdete, pišite na marko.toplak@fri.uni-lj.si.
Pri gradnji modela večjih omejitev ni. Uporabite lahko skoraj kakršnekoli metode za gradnjo značilk in modelov, oboje iz poljubnih knjižnic. Pazite na naslednje:
- Vaša koda mora delovati brez internetne povezave.
- Omogočite nam, da lahko vaše napovedi natančno ponovimo: če vašo kodo poženemo, moramo dobiti čisto iste napovedi.
- Goljufanje v smislu gledanja števila komentarjev, ki jih za testne podatke lahko preberete s spletne strani, bo kaznovano (vaša oddaja bo razveljavljena).
- V
RUN.txt
opišite, kako naj si pripravimo okolje, da vašo kodo poženomo.
Končni model implementirate v skripto hw6.py
. Skripta nam bo omogočila, da bomo vaše napovedi replicirali ali pognali na novih podatkih. Po vzoru prejšnje naloge implementirajte funkciji RTVSlo.fit
in RTVSlo.predict
, ki morata delovati kot pri prejšnji nalogi.
Točkovanje
- Rezultat, ki je na lestvici nekje toliko dober kot baseline ali boljši. (Baseline model je dobljen z regularizirano linearno regresijo. Kot značilke uporablja dan v tednu, uro, topic, subtopic (iz ULRja) in besedilo procesirano s TF-IDS. Namesto števila komentarjev napoveduje koren števila komentarjev, ker se to izkaže kot boljše za MAE.) [40%]
- Rezultat na tekmovanju. Za oceno šteje končni rezultat, ki ga boste videli šele po koncu tekmovanja. [40%]
- Opis modela in priprave kode. Kratek opis končnega modela in opis odločitev, ki so vas do njega privedle (kaj vse ste preizkušali; priporočamo 1 stran). Pri kodi ocenjujemo, kako lahko jo je razumeti in pognati. [20%]
Nekaj najboljših bomo dodatno nagradili z bonus točkami.
Oddaja
Na strani tekmovanja oddajte končne napovedi, na spletni učilnici pa poročilo in izvorno kodo.
V hw6.py
implementirajte le končni model, ki ga boste oddali. Vse ostale analize, vrednotenje ali iskanje najboljših parametrov, pa izvajajte ločeno (lahko tudi v notebook obliki). Vso kodo oddajte v .zip
datoteki. Podatkov ne prilagajte (velikost oddaje je omejena na 5 MB).
Oddajte tudi .pdf
z zgoraj omenjenim opisom rešitve.