雑記

お気付きの点がありましたらご指摘いただけますと幸いです。

💜

f:id:cookie-box:20211229165400p:plain:w70
  • 昨日文章を数値列化する方法はわかったので、参考文献 [1] の要領で全データをバッチ化し訓練すればよさそうですね……ん? 「デフォルトではすべての軸をバッチ中で最も長いものに合わせてパディングします」? これでは異様に長いデータが含まれていたときにみんなそれに合わせてパディングされてしまいますね。最大の長さを予め決めて打ち切っておきましょう。
  • IMDB データセットでは最大の長さをいくらに設定すべきなのでしょうか……みてみると、1000 語でよいのでしょうか。というか、どうも最大 1000 語といったデータにみえるのに 1000 語を超えるデータが散見されるのは、トークナイズが適切でないのでしょうか。