リスク管理の方法
熊とワルツをという本を読み、リスク管理方法のフォーマットを作ったのでメモ用に記事にする。 リスク管理の目的 「熊とワルツ」によるとリスクと利益は切っても切れない関係にある。らしい。 リスクのあるプロジェクトだからこそ利益を産むし、自分の能力を伸ばすチャンスでもあると言っていて自分としても納得感がある。 ...
熊とワルツをという本を読み、リスク管理方法のフォーマットを作ったのでメモ用に記事にする。 リスク管理の目的 「熊とワルツ」によるとリスクと利益は切っても切れない関係にある。らしい。 リスクのあるプロジェクトだからこそ利益を産むし、自分の能力を伸ばすチャンスでもあると言っていて自分としても納得感がある。 ...
コンペ概要 hogehoge 解法 1st code GBDT + NNのアンサンブル XGBoost Treeliteで推論高速化 1dcnn transformerを試したが、同じスコア+軽量だったため1dcnnを採用 閾値は0.625で固定 閾値は個別に設定するとモデルの堅牢性が低かった 特徴量の数は、各level_groupで 663、1993、3734 indexをソートしたものと、元の順序の両方のモデルを作成 cv=0.705 2nd 単一のLightGBMで予測 level_groupごとにモデルを分けていない 5-fold cvで評価、予測用に全データでモデルを学習 特徴量生成にはnumba, Cを使った level=1の回答に費やした時間?が効いた 特徴量は1,296個 閾値は0.63で固定 3rd levelごとにモデルを学習(18個の2値分類モデル) GBDT + NNのアンサンブル Catboost * 2, xgb * 2 transformer + lstm ローデータをsession_idごとのindexでソート 特徴量の数は、1,000個、2,000個、2,400個 前のlevel_groupからの経過時間 過去質問の予測確率(自分の場合は効かなかった) permutation importanceで特徴量選択 cv=0.702 4th Transformer, XGB, Catboostのアンサンブル 3 seed, 5 fold 線形モデルでアンサンブル indexでソート後、hover行を削除し再度indexを作成した level_groupごとにモデルを学習しているが、nnモデルの共通部分の定義がうまい cv=0.704 異なる閾値(0.60, 0.62, 0.64)の最終提出3つを選んだ 結果的には0.61が最もprivate scoreが高かった 7th level_groupごとにモデルを学習 予測時間短縮のため、levelごとにモデルを分割しなかった 評価時はcv分割したが、推論用には全データで学習したモデルを使用 特徴量 集約キーはlevel、name、event_name、room_fqid、fqid、text 集約キーごとの前のイベントとの時間差、カウント event_name=notification_clickのレコードが重要だった(?) 集約キーの組み合わせが多いため、出現回数が低いものは除外した モデリング 高い学習率(0.1)で学習し、特徴量重要度(gain)が低いものを除外 低い学習率(0.02)で再度学習 cv=0.7034 閾値は0.625で固定 金圏との差分 特徴量の数が足りなかった Leakを考慮した特徴量重要度を用いた特徴量選択ができなかった 全foldで特徴量重要度を平均して選択するのはダメ 検証用データの特徴量重要度を知ってしまう状態になってしまう foldごとに特徴量重要度を平均し、評価する必要があった jackさんの解法では、最後にcvを切らず全データを使った学習をしているがそのときはfoldごとの特徴量重要度を平均したものを使っている 閾値を固定していない GBDT + NNのアンサンブルを試していない
コンペ概要 コンペページはこことは ドイツ最大級のオンラインショップOTTOを題材に特定のユーザがどの商品に対し、クリック、カート追加、注文するかを予測する。 データはアイテム数180万、ユーザ数1200万人、インタラクション数2.2億が与えられる。これらのデータは4週間のインタラクション履歴からなる。 3週間分をtrain, 残り1週間をtestとして扱う。また、train, testでユーザの重複はない。 ...
何を作ろうと思ったのか ひとことで言うと「マッチングアプリに変わる恋愛シュミレーションAI」を作りたかった。 ChatGPTを使ってみたところかなり自然に会話をしてくれたので、まるで人と話しているかに感じることができた。 それを受けてプロンプトで人格を定義して、シュミレーションゲーム風にして人と話すことを目的にしているマッチングアプリユーザをリアルの人と関わることによるストレスから解放できないかと思いつくってみることにした。 ...
概要 教師なし学習を使った異常検知をやってみたいと思い 、Pythonではじめる教師なし学習を読んでいたらちょうど いいお題があったのでやってみることにした ここではサンプルデータを対象にPCAを使った異常検知を行う ...
コンペ概要 ざっくりの概要はサッカーの試合動画(45min * 2) から特定のフレームで Challenge, Play, Throwin の3つのイベントを予測するというもの (合っているか不安だが、)サッカー業界の事情としては、ユース、プロ、セミプロなど は手厚い指導を受けられるが、それ以外のプレイヤーは質の良い指導を受けられるほど人 材は充実していない。 ...
これを読んで得られるもの PM, Desingner, Developerの間で、何を、何故作るのかの共通認識を作るための手段 PRD とは 「プロダクトマネージャー本人も含めて、常に立ち返るべき方針」をドキュメントにしたもの ブレの無い意思決定をするため 開発終盤に入り期日も近づいた時の取捨選択を判断する基準 「何を」を説明することを目的にしており、「どのように」は説明しない より詳しい内容については及川さんというかたが公開されているはじめてのPRDがとても参考になる ...
経緯 諸事情により、PC を新しくしたところ hugo server がローカルで起動しなくなった よく確認せずに Github Actions へビルドしたら CI は通過したのでローカル環境の問題だと推測した エラーメッセージ hogehoge ...
「クリストファー・アレクサンダーの思考の軌跡 - デザイン行為の意味を問う」を読んだ感想をまとめる 形は機能に従う、機能は形に従うのではない 「形は機能に従う」 これがこの本の中で最も重要だった言葉だと感じました。 様々なニーズを満たすものの形は、そのニーズを満たすような機能が先だって定められ、その機能を満たす形がおのずと決まる。ということを言っている。 ...
目標設定のフレームワークとして OKR を採用することにしたので、OKR 導入のために必要な基礎的な知識をまとめる。 OKR とは 目標の設定・管理方法の1つで、Objective と KeyResults の略称 ...