Diskussion:Reinforcement learning from human feedback

aus Wikipedia, der freien Enzyklopädie
Letzter Kommentar: vor 8 Monaten von Matthäus Wander in Abschnitt Einzelnachweis Beschreibungen 2011
Zur Navigation springen Zur Suche springen

Einzelnachweis Bestärkendes Lernen[Quelltext bearbeiten]

Im Gegensatz zum klassischen bestärkenden Lernen[1] (...)

Welche Aussage wird in dem Satz durch die Quelle belegt? Dass es den Begriff bestärkendes Lernen gibt? Das ergibt sich aus der Existenz des Artikels Bestärkendes Lernen und bedarf in diesem Artikel keines Belegs. --Matthäus Wander 14:51, 28. Aug. 2023 (CEST)Beantworten
Entfernt, da unnötig--BBCLCD (Diskussion) 16:42, 28. Aug. 2023 (CEST)Beantworten

Einzelnachweis Beschreibungen 2011[Quelltext bearbeiten]

Beschreibungen erfolgten bereits 2011.[2]

Ist damit gemeint, dass der Begriff 2011 erstmals eingeführt wurde? Oder um welche Beschreibungen geht es? --Matthäus Wander 14:57, 28. Aug. 2023 (CEST)Beantworten
Richtig. Das Thema wurde bereits 2011 behandelt (RLHF). Ob es früher Veröffentlichungen zu diesem Thema gab, weiss ich nicht, habe keine gefunden--BBCLCD (Diskussion) 16:49, 28. Aug. 2023 (CEST)Beantworten
Ich finde, die Aussage ist in der aktuellen Form keine relevante Information für die Einleitung. --Matthäus Wander 20:18, 30. Aug. 2023 (CEST)Beantworten

Einzelnachweise[Quelltext bearbeiten]

  1. Christian Meier: Der Computer macht sich selbst schlau. In: NZZ, 20. Oktober 2017. Abgerufen am 12. August 2023 (Paywall)
  2. W. Bradley Knox und Peter Stone: Augmenting Reinforcement Learning with Human Feedback. Texas University / TU Darmstadt, 2011. Abgerufen am 12. August 2023 (englisch)