Для доступа к материалам доклада
купите билет
или авторизуйтесь, если у вас он уже есть
или авторизуйтесь, если у вас он уже есть
Большие языковые модели (LLM) активно внедряются в процесс создания технической документации: они все чаще используются для генерации черновиков, описаний API, руководств пользователя.
С другой стороны, отсутствие специализированных инструментов оценки затрудняет измерение их эффективности. Существующие общие бенчмарки (WritingBench, DocBench и др.) не в полной мере оценивают сгенерированные технические тексты с точки зрения технической точности, структурированности, адаптированности под целевую аудиторию.
Обсудим, как создать специализированный бенчмарк для целостной оценки способностей LLM справляться с реальными задачами технического писателя.