読者です 読者をやめる 読者になる 読者になる

e-mon

備忘録

はてなサマーインターンシップ2015に行ってきました

題目の通り,株式会社はてなのサマーインターンシップ2015に行ってきました.

hatenacorp.jp

インターンシップの流れについては,他のインターンシップ生が詳細を書いてくれているので, 僕は参加したアドテクコースについて書こうと思います.

アドテクコースとは?

今回のサマーインターンシップで初めて実施されるコース. 募集要項によると,

企業ブランドを毀損するサイトへの広告掲載を阻止する、アドベリフィケーションサービス「BrandSafe はてな」をはじめとした、はてなのアドテクノロジー関連事業の開発に取り組むコースです。広告主とインターネットユーザーをより良いかたちで引き合わせることを支援する事業領域にて、その改善に取り組んでいただきます。

  • あると望ましいスキル

大規模データ処理、検索、自然言語処理、レコメンデーション、統計といった、アドテクノロジーに関連する領域のスキル

とありますが,僕自身今現在M1で,修士から自然言語処理や統計に興味を持ったレベルなので,今後申し込む方はそこまで気負うことはないかもしれません.

ただし,先に述べておくと,アドテクコースの性質上恐らく対象分野のサーベイや仮説の妥当性検証に比重が大きく偏ると思われるので,望ましいスキルに関わる最近の動向は追っておいたほうがいいと思います.(自戒の念を込めて)

取り組んだ課題

今回僕と,id:dagunikoくんとで取り組んだのは,はてなブックマーク特徴キーワード抽出精度の改善でした.

f:id:eemon18:20150930201021p:plain

ブックマーク数の右にあるのが,エントリーページ本文中から抽出された特徴キーワードです.

苦労したこと

今回特に苦心したのが,評価をどうしたらいいのか,ということでした. このようなタスクは一意に正解が定まることが無いので,抽出された結果に対して特徴的かどうかを評価することが多いようです. ですが,今回時間も限られているということで,複数人で正解データを作成し,それに対するprecisionとrecallで評価していきました.
作成した正解データに対して過学習するのが怖いので,アルゴリズムをどのようにするかはとても悩みました・・.

個人的に新鮮で且つ頭を悩ませた要素が,実際に稼働しているサービスであるためオンラインで行える範囲の処理,という制約でした.
はてなブックマークは膨大な数のユーザーが日々利用するサービスであるため,これまで見たこともないような質と量のデータが存在します. これらを統計的に処理しようとすれば勿論オンラインでは処理出来ない時間がかかるので,いかにしてオフラインでやっておくかをひたすら悩みました.
これまで自分が行ってきた解析処理などは愚直にブン回してもたかだか数分自分が待つ程度のものだったので,多くのユーザーが画面の向こうにいる,ということを強く意識するきっかけとなりました.

感想

メンターさんに教えてもらった中で強く覚えているのは,「今何ができていなくて,それをどのように改善すればよいのか」を常に意識するということだった.
一見すると当たり前のことのように思えるのだけれど,一度自分の考えた方法にのめり込むとそれが何の解決をしてて実際にどれくらい解決出来そうかというのを 忘れがちになっていることがよくあって,そこでいつも足踏みをしていた気がする.
もっと精度改善できたとおもうし, まだまだ試してみたいことはあってかなり悔しい結果にはなったけど, とても多くのことを学んだと思う.

最後に,はてな社の皆さん,特にメンターをしていただいたid:skozawaさん,id:takuya-aさんには本当にお世話になりました.

余力があって且つ書いてもよさそうであれば,また今度実際に何をしたのかについてもうちょっと詳しく書こうと思う.

以下,軽く思い出を振り返っておきます.

  • 初日の事故

  • 猫穴

  • はてな社にあった心惹かれた便利マシーン情報 f:id:eemon18:20150930214721j:plain