メインコンテンツへスキップ
簡単取引
マーケット
Meme Pump
トラッカー
シグナル
リーダーボード
ポートフォリオ
さらに見る
商品
DeFi
特典ナビ
特典センター
マケプレ
インサイトハブ
エコシステム案内所
紹介
セキュリティ
開発者向け
分散型取引所API
DEX API を調べる
DEX API ドキュメント
API キーを管理する
ブロックチェーンエクスプローラー
X Layer
X Layer について学ぶ
X Layer エクスプローラー
チェーン間取引
開発者向けテクニカルドキュメント
テストネットフォーセット
GitHub
DAppでウォレットを連携する
アラート
言語
通貨
OKX ウォレットをダウンロード
Web3 の詳細
お知らせ
戻る
日本語
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
Norsk (bokmål)
Suomi
Svenska
戻る
戻る
チュートリアル
詳しく知る
サポートセンター
Explore Web3 Giveaway for more exciting rewards
トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
Hosico
+9.18%
USELESS
+1.44%
IKUN
-3.09%
gib
+3.01%
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
Bonk
+3.35%
ALON
-1.6%
LAUNCHCOIN
+13.26%
GOONC
+6.31%
KLED
+8.19%
#
Boop.Fun leading the way with a new launchpad on Solana.
BOOP
+0.77%
Boopa
-12.44%
PORK
+5.98%
Profile
Hugging Face
Hugging Face reposted
elie
17時間前
@Meituan_LongCat LongCat-Flash のテクニカル レポートは非常に優れており、目新しさに満ちています。 このモデルは、560Bパッシブ~27BのアクティブMoEで、Zero-Computationalの専門家のおかげで、コンテキストに応じてアクティブパラメータの数を適応させます。 1) 新しいアーキテクチャ >レイヤーには2つのアテンションブロックとFFNとMoEの両方があり、2つのオールツーオールコムをオーバーラップできます。(また、28層しかありませんが、2つのアテンションブロックを考慮する必要があります)。 > 彼らは、トークンが選択して何もできないというゼロ計算の専門家を追加し、簡単なトークンの「シンク」のようなものです。 > 負荷分散のために、トークンごとの平均本物/偽のエキスパートを設定するための dsv3 のような aux loss free があります。このバイアス更新に減衰スケジュールを適用します。また、損失残高管理も行います。 2) スケーリング > MLA/MoE に変更を加えて、初期時に分散を調整しました。図5の利益は非常に印象的ですが、これが後でどの程度影響を与えるかはわかりません。 > モデルの成長初期化は非常にクールで、最初に 2 倍小さいモデルをトレーニングし、次に「十分にトレーニングされたら」(ここでは B トークンの数が少し不明瞭です) 小さなモデルのレイヤーを積み重ねるだけで最終モデルを初期化します。 > 彼らは、@_katieeverett @Locchiuとal.紙を使用して、2倍小さいモデルigのmuPの代わりにSPでハイパーパラメータ転送を行いました。 3) 安定性 > 彼らは、専門家間の勾配ノルム比とコサイン類似性を追跡して、負荷分散損失の重みを調整します(彼らは勾配ノルム比<0.1)を推奨しています)。> 大きな活性化を避けるために、かなり小さな係数で隠れ状態にz損失を適用します(qk-clip / normの別の代替手段)。 > 彼らは Adam epsilon を 1e-16 に設定し、勾配 RMS 範囲よりも低くしたいことを示しています。 4) その他 > フェーズ 1 では 20T トークンでトレーニングし、STEM/コード データ (混合物の 70%) での中間トレーニングでは「複数の T トークン」でトレーニングし、糸を使用しない長いコンテキスト拡張では 100B でトレーニングします (32k の場合は 80B、128k の場合は 20B)。長いコンテキストのドキュメントは、混合物の25%を占めます(ドキュメントとトークンの%なのかはわかりませんが、ここでは大きく変わります)。 > 事前トレーニング データ パイプラインは、コンテキスト抽出、品質フィルタリング、重複排除です。 > ニース付録では、さまざまなベンチマークに必要なtop_kを比較しています (MMLU が高いのは 8.32、GSM8K は低い 7.46)。また、深い層と浅い層でのトークンの割り当ても比較します。 > Meeseeks(マルチターンIF)とVitaBench(実世界のビジネスシナリオ)という2つの新しいベンチマークをリリースしています。 > 投機的デコードの受け入れ、量子化、展開、カーネルの最適化、通信の重複などに関する情報を含む、インフラ/推論の詳細が多数あります。 > スレッド🧵内のさまざまな関連論文のリスト
さらに表示する
46.36K
355
Hugging Face reposted
Tiezhen WANG
23時間前
Meituan は、新しい MoE LLM LongCat を @huggingface でオープンソース化したばかりです。 新しいプレイヤーに会えるのはワクワクします!このモデルも非常に面白そうです 技術レポート。
さらに表示する
27.46K
136
Hugging Face reposted
Niels Rogge
2025年8月30日
GLM-4.5は、Berkeley Function CallingベンチマークでClaude-4 Opusを上回り、コストは70倍低くなっています
さらに表示する
55.29K
660
トップ
ランキング
お気に入り
Uniswap
分散型取引所
PumpSwap
分散型取引所
Pancake Swap
分散型金融(DeFi)
DEX
ステーキング
利回り
4
AutoShark Finance
分散型金融(DeFi)
5
0x Protocol
分散型金融(DeFi)
DEX
6
MarginFi
分散型金融(DeFi)
7
OKX DEX
DEX
8
Transit Swap
分散型取引所
9
1inch Network
分散型金融(DeFi)
DEX
プール
10
Galxe
Other