Yandexが機械学習ライブラリ「CatBoost」をオープンソースで公開

 露Yandexは7月18日、機械学習ライブラリ「CatBoost」をオープンソースで公開した。決定木による勾配ブースティング技術をベースとしたもので、精度の高さや使いやすさを特徴とする。

 Yandexは検索、メール、地図など様々なインターネットサービスを持ち、「ロシアのGoogle」などと例えられるインターネット企業。

 CatBoostは、広範なデータインプットから段階的に複雑なモデルをトレーニングして予測の精度を高める「勾配ブースティング(Gradient Boosting)」ベースの機械学習ライブラリ。Yandexがこれまで利用してきた機械学習ライブラリ「MatrixNet」の後継として開発した。MatrixNetは天気予測、コンテンツレコメンドなどに利用してきたが、段階的にCatBoostに切り替える。さまざまなデータフォーマットをサポートし、MatrixNetからそのまま移行できるようにした。過剰適合の削減、使いやすいAPIインターフェイスも特徴に挙げている。

 ユーザーIDのようなカテゴリカル属性や可能な値の定義セットを持つ変数に適しており、精度の高さを特徴とする。不正行為の検出、顧客エンゲージの予測、推奨アイテムのランキングといった複雑性の処理を得意とし、天気予測、産業プロセス最適化などに利用できるとしている。

 Yandexによると、機械学習と人工知能(AI)の取り組みは20年前から進めているとのこと。CatBoostのオープンソース化について、「世界のデータサイエンティストが最小の努力で最大の成果を得られ、将来のイノベーションの支援となり、最終的には機械学習のレベルを引き上げたい」と説明している。

 CatBoostはプロジェクトのWebサイトより入手できる。Python、Rの両パッケージのほか、コマンドラインインターフェイスを用意する。ライセンスはApache License 2。

CatBoost
https://catboost.yandex/