LLaMA-Sprachmodell

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Das LLaMA (Large Language Model Meta AI) von Meta ist ein sogenanntes Großes Sprachmodell, das von Meta AI am 24. Februar 2023 veröffentlicht wurde.[1] Es ist ein generatives Sprachmodell, das in der Lage ist, menschenähnlichen Text zu erzeugen, Sprachen zu übersetzen, verschiedene Arten kreativer Inhalte zu schreiben und Fragen informativ zu beantworten.[2][3][4]

Veröffentlichung[Bearbeiten | Quelltext bearbeiten]

LLaMA wurde am 23. Februar 2023 in einem Blogbeitrag und einem wissenschaftlichen Papier angekündigt, in dem das Training, die Architektur und die Leistung des Modells beschrieben wurden.[2] Der Programmcode, der zur Ausführung des Modells verwendet wird, wurde unter der Open-Source-Lizenz GPL 3 veröffentlicht und kann via Github abgerufen werden.[5] Der Zugang zu dem Modell wird von Fall zu Fall akademischen Forschern, Mitarbeitern von staatlichen, zivilgesellschaftlichen und akademischen Organisationen sowie Forschungslabors der Industrie in aller Welt gewährt.[6]

Details[Bearbeiten | Quelltext bearbeiten]

Für die erste Version von LLaMA wurden vier Modellgrößen trainiert: 7, 13, 33 und 65 Milliarden Parameter.[7] Die LLaMA-Entwickler berichteten, dass die Leistung des 13B-Parameter-Modells bei den meisten NLP-Benchmarks die Leistung des viel größeren GPT-3 (mit 175B-Parametern) übertraf und dass das größte Modell mit aktuellen Modellen wie PaLM und Chinchilla, einem von Google im März 2022 vorgestelltem großem Sprachmodell, konkurrenzfähig war.[3][7]

Das LLaMA Modell wurde auf einem Datensatz mit 1,4 Billionen sogenannten Token trainiert, die aus öffentlich zugänglichen Datenquellen stammten, darunter:[3]

  • Von Common Crawl gescrapte Webseiten
  • Open-Source-Repositories mit Quellcode von GitHub
  • Wikipedia in 20 verschiedenen Sprachen
  • Gemeinfreie Bücher von Project Gutenberg
  • Der LaTeX-Quellcode für wissenschaftliche Arbeiten, die auf ArXiv hochgeladen wurden
  • Fragen und Antworten von Stack-Exchange-Webseiten

LLaMa Version 2 wurde am 19. Juli 2023 zusammen mit Microsoft vorgestellt.[8] Eigenen Angaben zufolge wurden 40 Prozent mehr Daten für das Training eingesetzt und dabei doppelt so viel Kontext einbezogen. LLaMA 2 liegt in drei unterschiedlich großen Varianten vor: Mit sieben Milliarden, 13 Milliarden sowie 70 Milliarden Parametern.

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]

  1. Eike Kühl: KI-Chatbot von Meta: Ein Llama auf Abwegen. In: Die Zeit. 6. März 2023, ISSN 0044-2070 (zeit.de [abgerufen am 7. Februar 2024]).
  2. a b Introducing LLaMA: A foundational, 65-billion-parameter language model. Abgerufen am 7. Februar 2024 (englisch).
  3. a b c Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, et al: LLaMA: Open and Efficient Foundation Language Models. In: arxiv. Meta AI, 27. Februar 2023, abgerufen am 7. Februar 2024 (englisch).
  4. Emilia David: Meta is giving away its AI tech to try to beat ChatGPT. 18. Juli 2023, abgerufen am 7. Februar 2024 (englisch).
  5. facebookresearch/llama. Meta Research, 7. Februar 2024, abgerufen am 7. Februar 2024.
  6. Introducing LLaMA: A foundational, 65-billion-parameter language model. Abgerufen am 7. Februar 2024 (englisch): „Access to the model will be granted on a case-by-case basis to academic researchers; those affiliated with organizations in government, civil society, and academia; and industry research laboratories around the world. People interested in applying for access can find the link to the application in our research paper.“
  7. a b Steffen Albrecht: ChatGPT und andere Computermodelle zur Sprachverarbeitung – Grundlagen, Anwendungspotenziale und mögliche Auswirkungen. In: Deutscher Bundestag. Deutscher Bundestag, 21. April 2023, S. 24, abgerufen am 7. Februar 2024.
  8. heise online: Meta und Microsoft präsentieren neues Sprachmodell LLaMA 2. 19. Juli 2023, abgerufen am 7. Februar 2024.