4th place solution to CLOVA AI RUSH 2022: Bus arrival time prediction
RMSE error 46.36 sec / baseline RMSE error 75.51 sec
์ค์๊ฐ ๋ก๊ทธ๋ก ๊ตฌ์ฑ๋ ๋ฐ์ดํฐ๋ก, ๋ ธ์ด์ฆ๊ฐ ์กด์ฌํ์ฌ ์ค์๊ฐ ๋ก๊ทธ ์ค k๋ฒ์งธ ํด๋น๋๋ ์ค์๊ฐ ๋ก๊ทธ๊ฐ ์กด์ฌํ์ง ์์ ์ ์๊ณ , ๋ฐ๋ผ์ ์ ๋ฅ์ฅ ์ํ์ค๊ฐ ์์ฐจ์ ์ด์ง ์์ ์ ์๋ ํน์ง์ด ์กด์ฌ.
-
๋ฐ์ดํฐ๊ฐ ๋ฐ์ํ๋ ๊ณผ์ ๊ณผ ์์ง๋๋ ๊ณผ์ ์ ํ์ ํ, ์ํ์ค๊ฐ ์ค๋ณต๋๊ฑฐ๋ ์ ๊ฑฐ์ฅ ๊ฐ์ ์ด๋์๊ฐ์ด 5์ด ๋ฏธ๋ง์ด๊ฑฐ๋ ํน์ ์๊ฐ์ ์ด๊ณผํ๋ ๋ฑ์ ๋ ธ์ด์ฆ ํ์
-
๋ฒ์ค ๋ก๊ทธ ๋ฐ์ดํฐ์ ๋ค๋ฅธ ์๊ณ์ด ๋ฐ์ดํฐ๊ฐ ๊ฐ์ง๋ ์ฐจ์ด์ ์ ํ์ . ๊ธฐ์ ๊ณผ ์ข ์ ์ฌ์ด๋ฅผ ์ดํํ๋ ์ฒ์๊ณผ ๋์ด ์ ํด์ ธ ์๊ณ , ๊ฐ์ ์ฃผํ ๋ ธ์ ์์ ๋ค๋ฅธ ์์ผ, ๋ค๋ฅธ ์๊ฐ๋์ ์ดํ๋ ๊ธฐ๋ก ๋ฑ์ด ์กด์ฌํ๋ ์ ์ผ๋ก๋ถํฐ ๋ค๋ฅธ ์ฃผํ ๋ก๊ทธ๋ฅผ ์ด์ฉํ์ฌ ํ๊ท ๊ณผ ์ค์๊ฐ์ผ๋ก ์ ์ ํ imputation ์ํ
-
๋์ผํ ์ฃผํ ๋ ธ์ ์ ๋ํด์ ๋ค๋ฅธ ์์ผ, ๋ค๋ฅธ ์๊ฐ์ด ๋ชจ๋ ๋ ธ์ด์ฆ๋ก ์ ์ค๋ ๊ฒฝ์ฐ, ๋ฒ์ค๋ ํ์ฐจ ์ง์ ์ผ๋ก๋ถํฐ ๋ฐฉํฅ์ด ๋ฐ๋ ์ฑ๋ก ๋ค์ ๋ฐ๋ ๋ฐฉํฅ์ผ๋ก ์ดํํ๋ ์ ์ ํ์ฉ. ๋ฐ๋ํธ์์ ๊ฑธ๋ฆฐ ์์์๊ฐ์ ํ๊ท ์ผ๋ก missing value๋ฅผ ์ฒ๋ฆฌ.
-
ํน์ ๋ฒ์ค์
$k$ ~$k+1$ ๊ฑฐ๋ฆฌ๊ฐ ๋ชจ๋ ์ ๊ฑฐ์ฅ ๊ฐ์ ๊ฑฐ๋ฆฌ ์ค ์ ์ผ ๋์ ๊ฒฝ์ฐ, ํด๋น ๊ฑฐ๋ฆฌ ์์์๊ฐ๋ณด๋ค ์ค๋๊ฑธ๋ฆฌ๋ ์์์๊ฐ์ outlier๋ก ์ฒ๋ฆฌํ๊ณ ํ๊ท ๊ณผ ์ค์๊ฐ์ ํ์ฉํ์ฌ ์ฒ๋ฆฌ. -
Informer๋ฅผ ํ์ฉํ์ฌ ๊ฐ๋ณ์ ์ธ ์ํ์ค ๊ธธ์ด์ ์์์๊ฐ๋ค์ ์์ธก.
n-seed ensemble(bagging)