feeds - DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via RL (HN - posts with 650+ points/comments)

home | feeds |donate

deepseek-r1: incentivizing reasoning capability in llms via rl