144B.TurboQuantの中身/GEMMA 4/Ray-ban meta
Impossible d'ajouter des articles
Désolé, nous ne sommes pas en mesure d'ajouter l'article car votre panier est déjà plein.
Veuillez réessayer plus tard
Veuillez réessayer plus tard
Échec de l’élimination de la liste d'envies.
Veuillez réessayer plus tard
Impossible de suivre le podcast
Impossible de ne plus suivre le podcast
-
Lu par :
-
De :
À propos de ce contenu audio
今回のポッドキャストの概要:
Googleのローカル向け新モデル「Gemma 4」、KVキャッシュを6分の1に圧縮するGoogleの新アルゴリズム「TurboQuant」、日本でも展開予定のメガネ型XRデバイス「Ray-Ban Meta」などについて話しました。
- Gemma 4:Googleのローカル向けオープンウェイトモデル
- E2B / E4B / E26B / A4B / E31B の5サイズ構成
- E2B/E4B はエッジ・スマホ/ノートPC向けの軽量モデル
- A4B は Mixture of Experts(26B中アクティブ4B)で、精度と速度のバランスを追求
- マルチモーダル対応(画像・音声入力)、140以上の言語対応、コンテキスト長は25万6千トークン
4bit量子化であれば16〜18GB程度のメモリでローカル実行可能という目安や、Qwen 3.5 とのベンチマーク比較、日本語での“触り心地”の話など
TurboQuant:KVキャッシュを6分の1に削減する新量子化手法
- トランスフォーマーの Q/K/V と KVキャッシュの役割を整理しつつ、「モデルの重み」ではなく「推論時のKVメモリ」を削る仕組みであることを解説
- VキャッシュはMSE(平均二乗誤差)を最小化する通常の量子化でOKだが、KキャッシュはQとの内積精度が重要というポイント
- PolarQuant:
- ランダム直交回転でベクトルの分布を“均す”
- デカルト座標→極座標に変換して長さと方向を分離し、方向を -1〜1 に正規化
- そのうえで2bit程度まで量子化しても精度を保ちやすくする手法
- QJL:
- PolarQuant後のKと元のKの内積差(残差)を、Johnson–Lindenstraussの補題を使ったランダム写像で圧縮
- 残差は符号(±)のみ1bit保持し、PolarQuantの2bitと合わせて実質3bitで内積精度を確保
計算時には逆変換して内積を計算するため計算量はほぼ変わらないが、KVメモリを大幅に削減でき、より長いコンテキストを扱えるようになるという話、圧縮研究の観点から見ても新しいアイデアである点など
- https://speakerdeck.com/tohikakuyoshi/turboquant
Ray-Ban Meta:メガネ型XRデバイス日本展開へ
- レイバンとMetaのコラボによるスマートグラス「Ray-Ban Meta」シリーズ
- 499ドル(約8万円)前後で、度付きレンズ対応モデルが登場予定
- メガネとして常用しつつ、Instagramリール撮影、Spotify操作、リマインダー・天気・カレンダー表示、ハンドトラッキングや手首バンドによるゲーム操作(2048やテトリス)、ニューラル手書き機能、リアルタイム音声翻訳などが利用可能に
- 数ヶ月以内に日本・韓国・シンガポールなどで展開予定とされていること、スマホアプリ連携やSDKによる自作アプリへの期待、8万円という価格や最近のハードウェア値上がり(PS5やPC価格)の話を交えながら、「感覚をアップデートしつつ、稼ぐ力も上げていこう」という締めのトーク
次回もお楽しみに。
Aucun commentaire pour le moment