ビットコイン価格予測の特徴量エンジニアリング手法

ビットコインの価格予測において、LSTMやTransformerを使用する際の特徴量エンジニアリング手法について調査します。

具体的には、

  • OHLCV(Open, High, Low, Close, Volume)データを活用する方法
  • どのようなテクニカル分析指標が特徴量として利用されているか
  • 価格の周期性など、時系列データの特徴抽出手法
  • 数日後の価格予測に適した特徴量の設計手法
  • Kaggleなどの事例や論文の情報を参考に、実際の活用方法

これらの点について詳しく調べ、レポートとしてまとめます。調査結果がまとまり次第、お知らせします。

ビットコイン価格予測の特徴量エンジニアリング手法

ビットコイン価格を機械学習で予測するには、高品質な特徴量エンジニアリングが重要です。生の価格データ(OHLCV)から有用な情報を抽出し、テクニカル指標や時間的パターンを特徴量として設計することで、モデルの精度向上が期待できます。本レポートでは、OHLCVデータの活用方法、テクニカル分析指標の特徴量化、価格の周期性を捉える手法、数日先を見据えた特徴量設計、およびKaggleなどの事例や論文で報告されている実践例について整理します。

1. OHLCVデータを活用した特徴量

OHLCVは**始値(Open)、高値(High)、安値(Low)、終値(Close)、出来高(Volume)**の略で、各時間枠(例:日足)の市場状況を示す基本データです。これらを直接モデルに入力するだけでなく、適切に加工して特徴量とすることで価格予測の手がかりを増やせます。

  • OHLCの基本特徴量: 始値と終値の関係からその日の上昇・下落傾向が分かり、高値と安値の差は価格変動の大きさ(ボラティリティ)を示します。また出来高は市場の流動性を反映し、取引活発度を示す指標となります

    arxiv.org。例えば、終値が始値より高ければ上昇トレンド傾向、日中の高値-安値レンジが大きければボラティリティが高い、といった解釈が可能です。出来高が平常時より急増していれば、その価格変動には強い市場関心が伴っていると考えられます。

  • リターンや変化率: 価格そのものより騰落率(リターン)を特徴量にすることも一般的です。典型例として前日比リターン(今日の終値÷前日の終値−1)や、対始値の終値騰落率(終値÷始値−1)などがあります。これにより価格水準ではなく変動そのものに着目し、系列を定常化する効果も得られます。Linらの研究ではデータを正規化した一階差分系列(リターン)に変換する前処理を行い、予測精度を向上させています

    arxiv.org

  • 価格レンジ系の特徴量: 日中値幅を捉えるために、高値と安値の差の割合(レンジ率)を特徴量にする例があります。実際にある研究では、高値と安値の差の百分率((High–Low)/Closeなど)を「日中の価格変動幅」として算出し、さらに「翌日の始値と当日終値の差の百分率」を「オーバーナイトの価格変動」として特徴量に加えています

    mltech.ai。高安レンジが大きい日はボラティリティが高く、そうした情報は翌日の変動予測にも有用です。

  • 出来高関連の特徴量: 生の出来高に加えて、出来高の移動平均や前日比増減率、出来高と価格変動の相関を見る指標などが考えられます。例えば「出来高急増度」を示すために当日出来高を過去平均で割った値や、出来高変化率(当日出来高÷前日出来高)を使うこともあります。出来高は単体では予測力が低い場合もありますが(ユーザの経験的報告によればビットコインでは出来高のみでは有益な特徴になりにくいとされています)、価格データと組み合わせることで需給バランス変化の手がかりになります。

  • 価格パターンの符号化: OHLCの4点を組み合わせたローソク足パターンも特徴量に利用できます。例えば「長い下ヒゲ(安値が大きく下がった後に終値が戻している)」や「大陽線(始値より終値が大幅高)」といったパターンを定義し、それらの出現をカテゴリ特徴量として扱う方法です。これらは伝統的なテクニカル分析で転換シグナルとみなされる場合があり、機械学習モデルにおいても有益な追加情報となり得ます。

2. テクニカル指標を用いた特徴量

テクニカル分析指標(テクニカル指標)は、過去の価格や出来高データから数式によって計算される指標で、トレンドの強さやモメンタム(勢い)、市場の過熱感などを定量化します

arxiv.org。これら指標を特徴量としてモデルに入力することで、価格データの持つ傾向をより抽象化した情報を提供できます。ビットコイン予測で利用されている主なテクニカル指標には以下のようなものがあります。

  • 移動平均(MA: Moving Average): 一定期間の平均価格を計算したものです。直近N日間の終値平均である単純移動平均(SMA)や、直近ほど大きな重みをかけた指数平滑移動平均(EMA)が代表的です。移動平均は価格のノイズを平滑化しトレンドを把握しやすくするため、価格がその移動平均より上にあるか下にあるか、あるいは長期移動平均と短期移動平均のゴールデンクロス/デッドクロス(短期線が長期線を上抜く/下抜く)などが重要視されます

    www.kaggle.com。ビットコイン予測でも、5日や10日の短期移動平均と50日や200日の長期移動平均を特徴量に用いる例があります。

  • MACD (Moving Average Convergence Divergence): 異なる期間のEMAの差分を利用したモメンタム指標です。一般には12日EMAと26日EMAの差をMACDラインとし、その9日EMAをシグナルラインとします。MACDラインがシグナルラインを上抜けば上昇トレンドの加速を示し、下抜けば減速を示すと解釈されます。MACDはトレンドの転換点検出によく使われ、機械学習モデルでもMACDとシグナルの値、あるいはそれらの交差状況を特徴量にできます。

  • RSI (Relative Strength Index): 相対力指数とも呼ばれるモメンタム系オシレーター指標で、直近N日間(典型的には14日)の上昇幅平均と下落幅平均から計算され、0〜100の範囲の値をとります。計算式はRSI = 100 - 100/(1 + RS)で、RSは平均上昇幅/平均下落幅です。RSIが高い(一般に70以上)と買われ過ぎ、低い(30以下)と売られ過ぎを示し、極端な値は価格反転のシグナルとして解釈されます

    arxiv.org。ビットコインでもRSIは頻繁に用いられ、特に短期トレードのシナリオで有効な特徴量となりえます。

  • ボリンジャーバンド (Bollinger Bands): 移動平均線に対し、その上下に標準偏差を一定倍数(通常2倍)加減したバンドで、ボラティリティ指標として利用されます。例えば20日移動平均+/−2σのバンドが典型です。価格がバンド上限を超えると過熱感(買われ過ぎ)、下限を割ると売られ過ぎを示唆します

    arxiv.org。機械学習では、バンドの幅そのもの(標準偏差の大きさ)や、終値がバンド内のどの位置にあるか(%Bと言われる指標)などを特徴量にします。ボリンジャーバンドによって市場変動の幅を定量的に捉えられるため、価格急変時の予測に寄与します。

  • ストキャスティクス (Stochastic Oscillator): 一定期間の高値・安値レンジに対する現在の終値位置を百分率で示すモメンタム指標です。例えば14日ストキャスティクスでは、%K = [(直近の終値 - 過去14日間の最安値) / (過去14日間の最高値 - 最安値)] × 100 で計算されます。%Kの3日平均を%Dとしてシグナルラインに用いるのが一般的です。この値が80以上なら高値圏(買われ過ぎ)、20以下なら安値圏(売られ過ぎ)とされます。RSIと同様にモメンタムを表し、価格推移の勢いを特徴量化できます

    arxiv.org

  • モメンタム/ROC (Rate of Change): モメンタムは単純にN日前の価格との差分(価格変化幅)を意味し、**価格レートオブチェンジ(ROC)**はN日前からの変化率を百分率で表したものです。例えば10日ROC = ((今日の終値 / 10日前の終値) - 1) × 100% のように計算します

    arxiv.org。これらも価格上昇の勢いや減速を示し、正の値が大きければ強い上昇トレンド、負の値が大きければ強い下降トレンドを示唆します。

  • ATR (Average True Range): 平均真の変動幅と呼ばれ、直近N日間の**真のレンジ(True Range)**の平均値です。真のレンジとは各日の高値と安値だけでなく前日終値とのギャップも考慮した変動幅指標で、ATR自体はその平均として市場ボラティリティの水準を示します

    arxiv.org。ATRが高まっている局面は価格の変動が激しく不安定であることを意味し、モデルにその値を入れることで「現在のマーケットの荒れ具合」を学習させることができます。

  • CCI (Commodity Channel Index): 一定期間の代表価格(通常 (高値+安値+終値)/3 の平均)とその移動平均との差を標準偏差で正規化した指標です。プラス100以上で買われ過ぎ、マイナス100以下で売られ過ぎという風に判断されます

    arxiv.org。CCIは統計的な平均乖離度合いを示すため、極端な値は平均への回帰を予測する特徴量として使われることがあります。

  • ウィリアムズ%R (Williams %R): ストキャスティクスと類似したモメンタム指標で、直近N日の最高値に対する終値位置を%表示したものです(%Kに相当)。式は %R = (最高値_N期間 - 現在の終値) / (最高値_N期間 - 最安値_N期間) × -100 で計算され、0〜-100の値を取ります

    arxiv.org。-20以上で買われ過ぎ、-80以下で売られ過ぎと判断します。ストキャスティクスと合わせて用いることで短期的な反転シグナル検出に寄与します。

  • 出来高系指標: 価格と出来高を組み合わせた指標も重要です。代表的な**オンバランスボリューム(OBV)は、価格が上昇した日は出来高を正、下落した日は負として累積することで出来高動向をトレンドとして捉えます

    arxiv.org****。価格上昇に伴ってOBVが大きく増加していれば「出来高を伴った上昇」であり、上昇の持続力が強いと判断できます。またチャイキンマネーフロー(CMF)蓄積/配分指標(Accumulation/Distribution Line)**も、高安終値の位置と出来高から資金流入出を推定する指標ですarxiv.orgarxiv.org。ビットコインのように24時間取引される市場でも、出来高指標を特徴量に加えることで価格変動の裏付けとなる資金フロー情報を与えることができます。

以上のように、テクニカル指標は多種多様ですが、特徴量として利用することで価格データのトレンド・モメンタム・ボラティリティに関する洞察をモデルに提供できます。実際、ある研究では指数移動平均(EMA)MACDRSIモメンタムROCストキャスティクスボリンジャーバンドATRCCIウィリアムズ%Rチャイキンマネーフローなど多数のテクニカル指標を組み合わせて特徴量に取り入れています

arxiv.org。これらは価格の動きの強さトレンド転換価格変動の大きさを示す指標であり、適切に活用することでモデルの予測性能向上に寄与しますarxiv.org

3. 時系列データの周期性と特徴抽出

ビットコイン価格には株式市場のような明確な取引時間帯はありませんが、それでも時間的な周期性や季節性パターンが存在する可能性があります。時系列データからこうした周期的特徴を抽出し、モデルに組み込むことで予測精度を高めることが期待できます。

  • 曜日や月などカレンダー要因: ビットコインは24時間365日取引されていますが、週単位で見ると曜日ごとの傾向が指摘されています。例えば2013–2017年のデータ分析では、ビットコインは他の日に比べ月曜日のリターンが高いというユニークなパターンが見られたと報告されています

    www.tradingview.com(いわゆる「曜日効果」)。このような可能性を捉えるため、曜日を示す特徴量(例:月=1,...日=7のカテゴリ変数)を加えることが有効です。実際の予測モデルでも、日付から曜日四半期といった要素を抽出して特徴量にする例がありますmltech.ai。曜日は one-hotエンコーディングや周期エンコーディング(sin, cos 変換による循環表現)で与えることができ、特定の曜日に価格が上がりやすい/下がりやすい傾向があればモデルが学習できます。同様に、月別の季節性や四半期ごとの資金流入傾向なども長期のデータでは特徴量となり得ます。

  • 時間帯・季節の周期: デイリーデータ以外に時間単位のデータでは時間帯によるパターンも考慮できます。例えば日中欧米市場が開いている時間帯に価格変動が大きい、夜間は薄商いで変動が小さい、などのパターンです。特徴量としては取引時間(UTC何時か、日本時間何時かなど)をsin/cosでエンコードして与えることで1日の周期性をモデルに認識させることができます。また四季や年始年末といった季節的なイベント(税金や決算期による売買など)は現状の暗号資産では顕著ではないかもしれませんが、長期的な周期が見られる場合はその周期に合わせた特徴量(年周期のフーリエ級数成分など)を加えることも可能です。

  • ラグ特徴量(過去値の利用): 時系列予測で基本となるのは過去の一定期間のデータをそのまま特徴量とする手法です。価格の自己相関を利用するもので、例えば前日や前々日の終値、あるいは過去7日間の終値をそれぞれ特徴量として持たせることで、直近の動きから将来を推測します。機械学習モデルではしばしば過去N時点の値を入力し、未来の値を出力する形をとりますが、これは特徴量エンジニアリングの観点では各時点の値を別個の特徴量に展開していると見做せます。Kaggleのノートブックでも「遅行系列(lag)」特徴量として前日や数日前の価格・指標を追加している例が多く見られます(“移動平均やラグ値” を特徴量として作成することでモデル性能を上げる試み

    www.kaggle.com)。

  • 移動窓の統計量: 過去一定期間の統計量を特徴量にする方法です。例えば直近7日間の平均リターン直近30日間の終値の標準偏差過去一ヶ月での最大値・最小値といった情報です。これらは時間的な自己相関やトレンド、ボラティリティの変化を捉える特徴量になります。移動平均やATRなどテクニカル指標の多くはこの範疇ですが、より自由な統計量(歪度や尖度、最大ドローダウンなど)を計算して特徴量とすることも可能です。Kaggleの暗号資産予測コンペでは、TSFRESHといったライブラリで時系列から自動抽出した統計量特徴を大量に投入するような高度な例もあります。

  • 周期性の分解・周波数分析: 高度な手法として、過去の価格系列に対してフーリエ変換を用いて主要な周波数成分を特徴量にする方法も考えられます。ビットコインの場合、週次サイクル(約7日の周期)や約10日の周期など、スペクトル上顕著なピークが見られれば、その周波数のサイン波・コサイン波成分を特徴量として加えることで予測に活かせる可能性があります。実際にFourier分析でビットコイン価格の隠れた周期を探った研究では、週周期以外にも複数の有意な周波数が報告されています

    medium.com。またウェーブレット変換を用いて時間と周波数両面で特徴を抽出し、短期的な高周波成分と長期的な低周波成分を分離して特徴量に組み込むような手法も提案されています。これらはより専門的ですが、周期性を定量化する強力なアプローチです。

  • イベント指標: 時系列上の特定のイベントや転換点を特徴量化することもあります。例えば一定期間内の最高値・最安値からの何%戻しか(リトレースメント率)、直近の高値・安値を更新したかどうか(フラグ)といった特徴です。これらはチャートパターン的な要素を数値で与える試みで、例えば「過去30日で新高値を付けた」という情報は強気トレンドの指標になり得ます。また「何日連続で終値が前日を上回っているか」という連騰日数もモメンタムの指標として特徴量化できます。こうしたイベント性の特徴量は必ずしも周期的ではありませんが、時系列の動き方(パターン)に着目した特徴抽出の一例です。

4. 数日後の価格予測に向けた特徴量設計

数日先(複数ステップ先)の価格予測を行う際には、予測対象の予測期間に適した特徴量を設計することが重要です。1日先の予測と5日先の予測では、有効な特徴量や必要な情報が異なる可能性があります。以下に、数日後の価格を予測するための特徴量設計のポイントを挙げます。

  • 適切な入力ウインドウの長さ: 予測したい将来の期間(予測ホライズン)に対して、どれくらい過去のデータを入力(特徴量)に含めるかを検討します。一般的に、予測ホライズンが長くなるほど、直近の細かい変動よりも大局的なトレンドが重要になります。一方で、あまり古い過去データは現在のコンテキストとは合わなくなる可能性があります。Shynkevichらの研究では、入力ウインドウ長を予測ホライズンにおおよそ等しく設定した場合に最も良い予測性能が得られたとされています

    arxiv.org。例えば3日先を予測するなら直近3日程度の情報が有用で、14日先を予測するなら2週間程度の履歴を特徴量とするのが効果的という示唆です。この結果も踏まえ、数日先予測では「直近○日間」のデータに焦点を当てて特徴量を構成する戦略が採られます。

  • マルチステップ予測のアプローチ: 数日先を直接予測するダイレクトアプローチでは、目的変数(ターゲット)を例えば「今から5日後の終値」や「今から3日後までの累積リターン」に設定し、それを一度に予測します。その場合、特徴量として用いる入力は現時点までの値となります。したがって、未来の値を含まないように時系列をシフトした特徴量設計が必要です(リーケージの防止)。一方、1日先予測を逐次5回行って5日先を推測する逐次アプローチでは、予測値を次の入力に入れる工夫が必要ですが、こちらは特徴量エンジニアリングというよりモデルの使い方の問題になります。ここではダイレクトアプローチで直接数日後を当てにいく場合を主に想定します。

  • 短期トレンドとモメンタムの把握: 数日程度の将来予測では、現在進行している短期トレンドがあと数日続くかどうかがカギとなります。したがって、そのトレンドの勢いを捉える特徴量が重要です。例えば直近数日の価格の傾き(回帰直線の勾配)や、短期移動平均と中期移動平均の差(MACDのような概念)、あるいは上で述べたモメンタム指標やROCといった「最近の上昇/下落ペース」を示す特徴量が有効と考えられます。これらは現在のモメンタムがあと何日か維持される前提で予測に寄与します。例えば5日先を予測する際に10日ROCを入れておけば、「過去10日でこれだけ上がった(下がった)」という情報が5日後の位置を推測する材料になるでしょう。

  • ノイズ対策とスムージング: 予測ホライズンが数日と比較的長めの場合、一時的なノイズよりも持続的な動きを捉えることが重要です。そのため、特徴量にも短期的な変動を慮ったスムージングを取り入れることがあります。例えば1日ごとの上昇/下落ではなく一週間の累積変化率を特徴量に持たせたり、出来高も一日単位ではばらつきが大きければ3日移動平均の出来高を使うなどです。こうすることで、数日スパンでの方向感をモデルに学習させやすくします。実際、あるLSTMモデルの例では「週次のトレンド」に重みづけした損失関数を用いて短期ノイズより週単位の予測精度向上を図ったと報告されています

    mltech.ai。特徴量レベルでも、過度な短期変動に左右されにくい指標を選ぶことが多ステップ先予測には有効です。

  • 特徴量の選択と重要度: 数日先予測では、どの特徴量がどの程度役立っているかを検証し、不要な特徴量を省くことも大切です。特徴量が多すぎるとモデルが複雑になり過学習のリスクがあります。とくに予測ホライズンが長い場合、直近の特徴量だけでなく過去長期間の特徴量も含めがちですが、モデルがそれらを有効に使っていなければ削減します。あるビットコイン予測の事例では、特徴量重要度の解析により「モデルが重視しているのは直近1週間のデータであり、1ヶ月以上前のデータは重要度が低い」ことが示されています

    mltech.ai。具体的には、「出来高」「終値」「日中高安差率」が重要上位3特徴量で、かつ予測直前1週間分のそれらの値が、1週間より前の古い値よりもはるかに強く寄与していましたmltech.ai。この結果からも、数日〜1週間先を当てるには直近数日の情報が肝要であることが分かります。

  • ターゲットの工夫: (特徴量そのものではありませんが)数日先予測では目的変数の定義も工夫されます。終値そのものを当てるより、何日後のリターン価格差を当てるようにすると、特徴量との関係が線形に近くなり扱いやすい場合があります。例えば「5日後までの累積リターンを予測して、それがプラスかマイナスかを分類する」ようにすれば、特徴量として直近の指標変化からその符号を学習させることができます。ただしこの場合も特徴量設計の基本は同じで、未来5日間を見るなら過去5〜10日間程度の動向を中心に据えるのが一般的です。

5. 特徴量エンジニアリングの事例と効果

最後に、実際の事例(Kaggleのコンペティションや公開ノートブック、研究論文)における特徴量エンジニアリングの活用例とその効果を紹介します。

  • Kaggleノートブックでの例: Kaggleにはビットコインや暗号資産の価格予測を試みたノートブックが多数公開されています。あるKaggleノートブックでは、移動平均(SMA/EMA)やラグ特徴量を新たに作成してモデルに加えたところ、予測精度の向上に寄与したと報告されています

    www.kaggle.com。特にローリング計算の移動平均や指数移動平均を特徴量に追加することで、価格変動のより複雑なパターンを捉えられるようになり精度が改善したとされていますwww.kaggle.com。これは移動平均がトレンド成分を抽出しノイズを低減する効果があるためで、モデルが長期的な流れを捉えやすくなることが要因です。また別のノートブックでは、日付から曜日などを特徴量に加えるなど発想の異なる特徴量も試みられており、Kaggle上位勢は多数の特徴量を生成しその有効性を検証しながらモデル構築を行っています。

  • 学術研究での例: 学術的な研究でも、特徴量エンジニアリングの工夫による精度向上が報告されています。例えばHafidら(2023)の研究では、ビットコイン終値の上昇・下降を予測するためにMACDやRSI、ボリンジャーバンドといった重要なテクニカル指標を特徴量に組み込み、機械学習モデルを訓練しています

    arxiv.org。その結果、売買シグナルの分類正答率が92%を超える高い精度を達成したと述べられており、テクニカル指標を加えることの有用性が示唆されていますarxiv.org。またAkyildirimら(2021)の研究では、ビットコインを含む複数暗号資産について**過去の価格情報+8種類のテクニカル指標(5日RSIや5日SMAなど)**を特徴量とし、SVMやロジスティック回帰で方向予測を行ったところ、いずれの手法も全ての通貨で50%(当てずっぽうを上回る)以上の分類精度を示したと報告されていますarxiv.org。これはテクニカル指標を用いることでランダムを明確に超える予測力を引き出せた例と言えます。

  • 特徴量組み合わせの効果検証: 特徴量を増やせば常に良い結果になるとは限りません。Morales等(2023)の研究では、OHLCVのみOHLCV+テクニカル指標OHLCV+外部要因(他資産価格やSNS情報など)全部合わせたものという4種類の特徴量セットでビットコイン他5通貨の方向予測精度を比較しています。その結果、OHLCVにテクニカル指標を加えた場合が平均的に最も高い精度を示し、逆に生のOHLCVだけでは最も精度が低かったと報告されています

    arxiv.orgarxiv.org。一方で、テクニカル指標に加えてさらに外部データも含めた場合は必ずしも精度が向上せず、かえって悪化するケースもありましたarxiv.org。つまり、特徴量はただ増やすのではなく有用なものを取捨選択することが重要です。ビットコインではニュースや他市場動向も影響し得るものの、それらを機械学習モデルに取り込む際にはノイズも増えるため、効果が限定的な場合があります。この研究では、通貨ごとに最適な特徴セットが異なることも示されており、例えばイーサリアムではOHLCVだけで十分だったが、リップルではテクニカル指標を加えたほうが良かった、というように結果が分かれていますarxiv.orgarxiv.org。総じて、OHLCV基本指標+テクニカル指標の組み合わせは堅実に効果があり、追加の外部特徴は吟味が必要だといえます。

  • モデル解釈から見た知見: 特徴量エンジニアリングの効果は、モデルの解釈を通じても確認できます。例えば前述のLSTMモデルの事例では、Deep SHAPによる特徴量重要度分析により「終値」「出来高」「高安レンジ幅」が主要因であること、特に直近1週間分のそれらの特徴量が予測に効いていることが視覚化されました

    mltech.ai。また別の研究ではBayesian Networkを用いて各特徴量間の因果構造を学習させたところ、テクニカル指標と終値が密接に結びついて予測に寄与している様子が示されていますarxiv.orgarxiv.org。このように、どの特徴量がどの程度効いているかを分析することで、エンジニアリングした特徴量の有用性を裏付けることができます。Kaggleの上位解法でも、特徴量の重要度を見て不要なものを削除したり、組み合わせを調整したりといったアプローチが取られていました。

6. まとめ

ビットコインの価格予測における特徴量エンジニアリングは、原始的な価格・出来高データをどれだけ情報豊富な形に変換できるかにかかっています。OHLCVデータからはトレンドやボラティリティ、流動性といった基本情報が得られ、テクニカル指標を計算すればモメンタムや過熱感、資金フローなど高度な情報を付加できます。さらに時間的な周期性や季節性を捉える特徴量、複数日の将来を見通すための短期トレンドやスムージング手法の工夫など、様々な角度から特徴量を設計することでモデルの視野を広げることができます。

実践的な事例からも、特徴量エンジニアリングが予測精度に与える影響の大きさが確認できます。移動平均やラグ特徴量を加えることで精度向上が見られたり

www.kaggle.com、MACDやRSIといった指標を組み込んだモデルが高い的中率を示したりしていますarxiv.org。一方で、不適切な特徴量の追加はかえってモデル性能を下げる可能性もありarxiv.org、特徴量の有効性を検証しつつ取捨選択するプロセスが重要です。

ビットコイン市場は常に変化しており、新しい要因(例:市場参加者の増加、マクロ経済要因、SNSの影響など)が価格形成に影響を与えることがあります。そうした変化に対応するためにも、特徴量エンジニアリングの手法をアップデートし続け、さまざまな情報源を統合してモデルに提供することが求められます。ただし最終的には、シンプルな特徴量でも本質を捉えていれば良い予測に繋がることも多いため、データ分析による裏付けを持って特徴量を設計することが肝要です。以上のように、多角的な特徴量エンジニアリングを駆使することで、ビットコイン価格予測モデルの性能を高めるアプローチを整理しました。本稿の知見が、効果的な特徴量設計の一助になれば幸いです。