• 0 Posts
  • 23 Comments
Joined 1 year ago
cake
Cake day: June 13th, 2023

help-circle













  • Mixel@feddit.detoich_iel@feddit.deich💤iel
    link
    fedilink
    Deutsch
    arrow-up
    1
    ·
    7 months ago

    Ich kann dies mit meinen noch schlechter Halbwissen bestätigen 😄 Bei Trainingsdaten geht fast immer Qualität vor Quantität stand zumindest auch so in llama 2 paper. Eine Sache fand ich noch interessant du sagtest das llama2 mpt Falcon usw ein MoE modell sein aber ich glaube das stimmt nicht, es gab jetzt von stability ai ein MoE modell von 7B*10 (das heißt das Modell wäre 70B groß, wenn man das bei llama2 7B hätte wäre das Modell ja viel zu winzig um irgendwas zu verstehen gefühlt) oder so, oder gibt es noch etwas anderes was ich nicht kenne? 😅