Preskoči na glavno vsebino
Učilnica FRI 23/24
  • Domov
  • Več
Zapri
Preklopi iskalni vnos
Slovenščina ‎(sl)‎
English ‎(en)‎ Slovenščina ‎(sl)‎ Македонски ‎(mk)‎ Русский ‎(ru)‎ 한국어 ‎(ko)‎
Trenutno uporabljate gostujoči dostop
Prijavite se
Domov
Course Activities
Naloge
Nedavno dostopani predmeti
You are not enrolled in any courses
  1. uozp
  2. 6. domača naloga: komentarji na rtvslo.si (tekmovanje)

6. domača naloga: komentarji na rtvslo.si (tekmovanje)

Zahteve zaključka
Odprto: torek, 21. maj 2024, 00.00
Rok za oddajo: nedelja, 2. junij 2024, 23.59

V sklopu domače naloge boste zgradili model, ki bo napovedoval število komentarjev pod članki na spletnem portalu RTVSlo. Strukturo podatkov že poznate, vsekakor pa uporabite tiste s tekmovalnega strežnika. Tam najdete dvoje podatkov:

  • učne podatke, na katerih boste gradili vaše modele, in
  • teste podatke, za katere boste morali izdelati čim boljše napovedi.

Geslo za tekmovalno stran smo vam poslali na elektronski naslov, s katerim ste se prijavili na učilnico. Če ga ne najdete, pišite na marko.toplak@fri.uni-lj.si.

Pri gradnji modela večjih omejitev ni. Uporabite lahko skoraj kakršnekoli metode za gradnjo značilk in modelov, oboje iz poljubnih knjižnic. Pazite na naslednje:

  • Vaša koda mora delovati brez internetne povezave.
  • Omogočite nam, da lahko vaše napovedi natančno ponovimo: če vašo kodo poženemo, moramo dobiti čisto iste napovedi.
  • Goljufanje v smislu gledanja števila komentarjev, ki jih za testne podatke lahko preberete s spletne strani, bo kaznovano (vaša oddaja bo razveljavljena).
  • V RUN.txt opišite, kako naj si pripravimo okolje, da vašo kodo poženomo.

Končni model implementirate v skripto hw6.py. Skripta nam bo omogočila, da bomo vaše napovedi replicirali ali pognali na novih podatkih. Po vzoru prejšnje naloge implementirajte funkciji RTVSlo.fit in RTVSlo.predict, ki morata delovati kot pri prejšnji nalogi.

Točkovanje

  • Rezultat, ki je na lestvici nekje toliko dober kot baseline ali boljši. (Baseline model je dobljen z regularizirano linearno regresijo. Kot značilke uporablja dan v tednu, uro, topic, subtopic (iz ULRja) in besedilo procesirano s TF-IDS. Namesto števila komentarjev napoveduje koren števila komentarjev, ker se to izkaže kot boljše za MAE.) [40%]
  • Rezultat na tekmovanju. Za oceno šteje končni rezultat, ki ga boste videli šele po koncu tekmovanja. [40%]
  • Opis modela in priprave kode. Kratek opis končnega modela in opis odločitev, ki so vas do njega privedle (kaj vse ste preizkušali; priporočamo 1 stran). Pri kodi ocenjujemo, kako lahko jo je razumeti in pognati. [20%]

Nekaj najboljših bomo dodatno nagradili z bonus točkami.

Oddaja

Na strani tekmovanja oddajte končne napovedi, na spletni učilnici pa poročilo in izvorno kodo.

V hw6.py implementirajte le končni model, ki ga boste oddali. Vse ostale analize, vrednotenje ali iskanje najboljših parametrov, pa izvajajte ločeno (lahko tudi v notebook obliki). Vso kodo oddajte v .zip datoteki. Podatkov ne prilagajte (velikost oddaje je omejena na 5 MB).

Oddajte tudi .pdf z zgoraj omenjenim opisom rešitve.

◄ 5. domača naloga - Napovedovanje števila komentarjev na spletnem portalu rtvslo.si
Trenutno uporabljate gostujoči dostop (Prijavite se)
Pridobi mobilno aplikacijo Obvestilo o avtorskih pravicah
Stran poganja Moodle