95% CI

Байесовская уверенность в продуктовых решениях — почему «75% уверены» ничего не значит

Сцена, которая повторяется каждую неделю

Пятничный product review. PM показывает результаты discovery: «Мы провели 8 интервью. 6 из 8 респондентов подтвердили, что им нужна функция экспорта в PDF. Мы на 75% уверены — надо строить».

Head of Product кивает. Фича попадает в спринт. Через 3 месяца после запуска: 4% adoption rate. Экспорт в PDF используют 12 человек из 340 активных пользователей.

Что пошло не так? «75% уверенности» — это число, которое выглядит как метрика, но не содержит информации. Оно не учитывает:

  • Размер выборки: 6 из 8 — это статистически незначимо. При n=8 доверительный интервал огромен
  • Согласованность: 6 человек сказали «нужно» — но описывали разные use-cases. Один хочет отчёт для инвестора, другой — сохранить на диск. Это разные задачи
  • Поведенческий сигнал: сколько из 6 уже пробовали решить задачу? Тратили деньги? Или просто сказали «было бы неплохо»?
  • Временной распад: 3 интервью проводились 4 месяца назад. Контекст мог измениться
  • Качество источника: из 6 подтвердивших — 4 были C-сегмент (low fit). Их мнение весит вдвое меньше, чем мнение A-сегмента

Байесовская модель Product DNA учитывает все 5 факторов и даёт реальную картину: не «75%», а «posterior = 0.35, credible interval: [0.15, 0.55]». Это совсем другое решение.

Почему одно число — это не уверенность

Частотная статистика (frequentist) работает с повторяемыми экспериментами: бросил монету 1000 раз, посчитал вероятность. В продуктовых решениях так не работает. Вы не можете провести 1000 одинаковых интервью с одинаковыми людьми в одинаковых условиях.

Байесовский подход работает иначе: он обновляет предшествующее убеждение (prior) на основе новых данных (evidence), получая обновлённое убеждение (posterior). И критически — он считает не одно число, а распределение: posterior mean + credible interval.

Credible interval — это то, чего нет в «мы на 75% уверены». Posterior mean = 0.65 с CI [0.60, 0.70] — это сильный сигнал (узкий интервал, стабильная оценка). Posterior mean = 0.65 с CI [0.25, 0.90] — это шум (широкий интервал, данных мало).

5 факторов Confidence Model в Product DNA

Модель уверенности в Strand 5 (Evidence Engine) рассчитывает posterior через 5 взвешенных факторов:

#ФакторВесЧто измеряетКак рассчитывается
1 Sample Size 0.35 Сколько интервью проведено Логарифмическая кривая с насыщением при ~20. weight_from_n(n) = log(n+1) / log(21). При n=1 → 0.22, n=5 → 0.58, n=10 → 0.78, n=20 → 1.0. После 20 интервью прирост минимален
2 Consistency 0.35 Насколько респонденты говорят одно и то же Cohen's kappa (κ) между интервью. κ > 0.80 = почти идеальное согласие. κ 0.60-0.80 = существенное. κ 0.40-0.60 = умеренное. κ < 0.40 = слабое. Считается по пересечению извлечённых Evidence Points
3 Behavioral Signal 0.15 Ratio поведения к заявлениям behavior_vs_stated = (EP с поведенческим подтверждением) / (все EP). Если человек говорит «мне нужно X» и при этом уже тратит деньги/время на решение X — это поведенческий сигнал. Если только говорит — это stated intent. Fitzpatrick (2013): прошлое поведение — единственный надёжный предиктор
4 Temporal Decay 0.08 Свежесть данных Half-life = 90 дней. decay(days) = 0.5^(days/90). Интервью 30 дней назад → 0.79. 90 дней → 0.50. 180 дней → 0.25. Рынок меняется, контекст клиента меняется, конкуренты появляются — данные стареют
5 Source Quality 0.07 Качество сегмента респондента A-segment (Segment Fit Score ≥ 7.5) = вес 2.0. B-segment (6.0-7.4) = вес 1.0. C-segment (4.0-5.9) = вес 0.5. D-segment (< 4.0) = вес 0. Одно интервью с A-сегментом = два интервью с B-сегментом

Формула

Posterior = Sample_Size × 0.35 + Consistency × 0.35 + Behavioral_Signal × 0.15 + Temporal_Decay × 0.08 + Source_Quality × 0.07

Credible interval рассчитывается через Beta-распределение: CI_95 = Beta.ppf([0.025, 0.975], α, β), где α = successes + 1, β = failures + 1. Ширина интервала — индикатор неопределённости.

Пороги для принятия решений

Confidence ScoreИнтерпретацияРекомендация
≥ 0.70Safe to buildМожно строить фичу, инвестировать в направление. Данные надёжны
0.50-0.69Conditional buildСтроить только при низкой стоимости реализации. Иначе — ещё данные
0.30-0.49Research priorityНЕ строить. Собирать Evidence Points, проводить интервью
< 0.30Hypothesis onlyЭто предположение, не данные. Валидировать перед любыми инвестициями

Разбор: «мы на 80% уверены, что пользователям нужна фича X»

Реальный кейс: SaaS для управления проектами. PM заявляет: «80% уверенности, что пользователи хотят Gantt-chart».

Данные:

  • 8 интервью, 6 подтвердили
  • Интервью проведены 2 и 4 месяца назад
  • 3 респондента — A-сегмент, 2 — B-сегмент, 3 — C-сегмент
  • Из 6 подтвердивших: 1 реально использовал Gantt в другом инструменте, 5 сказали «было бы неплохо»
  • Описания use-case: 3 разных сценария (планирование спринтов, отчёт для клиента, визуализация для руководства)

Расчёт по модели Product DNA:

ФакторРасчётЗначение
Sample Sizelog(9)/log(21) = 0.720.72
Consistency3 разных use-case из 6 → κ ≈ 0.35 (слабое согласие)0.35
Behavioral Signal1 из 6 с поведенческим подтверждением = 0.170.17
Temporal DecayСредний возраст = 90 дней → 0.500.50
Source QualityСредневзвешенный: (3×2.0 + 2×1.0 + 3×0.5) / 8 = 1.19, нормализовано / 2.0 = 0.590.59

Posterior = 0.72 × 0.35 + 0.35 × 0.35 + 0.17 × 0.15 + 0.50 × 0.08 + 0.59 × 0.07 = 0.252 + 0.123 + 0.026 + 0.040 + 0.041 = 0.48

Credible interval: [0.22, 0.71]

Реальная уверенность: 0.48 с широким интервалом. Это зона «Research priority» — строить Gantt рано. Нужно:

  1. Повысить Consistency: определить, какой из 3 use-case реально доминирует (провести 5 целевых интервью)
  2. Повысить Behavioral Signal: спросить «покажите, как вы решаете эту задачу сейчас» и записать реальные действия
  3. Обновить данные: 3 интервью из 8 устарели (>90 дней)
  4. Увеличить долю A-сегмента: 3 из 8 — недостаточно для Source Quality

6 анти-паттернов уверенности

#Анти-паттернПочему опасенБайесовский ответ
1Confirmation bias counting — считать только подтверждения, игнорировать отказыЗавышает posterior, занижает uncertaintyСчитать ВСЕ интервью: α = confirmations + 1, β = disconfirmations + 1
2Celebrity interview — один «крутой» респондент = 100% уверенностиn=1, любой confidence > 0.30 = иллюзияSample Size при n=1 = 0.22. Максимальный posterior ≈ 0.30
3Ancient data — данные годичной давности как свежиеTemporal Decay при 365 днях = 0.065 — практически нольДанные старше 180 дней = Source Quality < 0.25. Нужны свежие интервью
4Stated ≠ Revealed — «хочу» без поведенияBehavioral Signal = 0 → минус 15% от максимумаТребовать: «покажите, что вы делаете сейчас» + «сколько тратите на это»
5Wrong segment — 10 интервью с C-сегментомSource Quality при all-C = 0.25 (нормализованное 0.5/2.0)A-segment interview = 2× вес. Ищите A-сегмент целенаправленно
6Anchor bias — первый респондент задаёт «правильный ответ»Consistency кажется высокой, но вопросы наводящиеПроверить: вопросы open-ended? Не подсказываете ответ?

Когда 20 интервью — это потолок

Логарифмическая кривая Sample Size фактора имеет практический потолок при ~20 интервью. Значения:

n (интервью)Sample Size ScoreПрирост vs предыдущего
10.22
30.45+0.23
50.58+0.13
80.72+0.14
100.78+0.06
150.91+0.13
201.00+0.09
301.00+0.00

После 20 интервью Sample Size Score не растёт. Если уверенность всё ещё низкая — проблема в других факторах: inconsistency (разные люди говорят разное), отсутствие behavioral signal (говорят «хочу» — но не действуют), или wrong segment (интервьюируете не тех).

Практическое применение: как считать confidence

  1. Соберите данные: количество интервью (n), количество подтверждений / опровержений, средний возраст данных (дней), сегмент каждого респондента, наличие поведенческого подтверждения
  2. Оцените consistency: сколько уникальных use-case / описаний боли? Если респонденты описывают одну и ту же боль одними словами → κ > 0.80. Если каждый — про своё → κ < 0.40
  3. Посчитайте: подставьте в формулу. Posterior = Sample × 0.35 + Consistency × 0.35 + Behavioral × 0.15 + Decay × 0.08 + Source × 0.07
  4. Интерпретируйте: ≥ 0.70 → строить. 0.50-0.69 → строить если дёшево. 0.30-0.49 → исследовать. < 0.30 → гипотеза
  5. Определите bottleneck: какой фактор тянет score вниз? Его и нужно улучшать

Связь с Evidence Points и решениями

Confidence Model не существует в вакууме. Он работает в связке с 26 Evidence Points:

  • Tier Platinum (26 EP) → потолок Confidence = 0.95
  • Tier Gold (19 EP) → потолок Confidence = 0.85
  • Tier Silver (12 EP) → потолок Confidence = 0.70
  • Tier Bronze (7 EP) → потолок Confidence = 0.50
  • Tier Hypothesis (0 EP) → потолок Confidence = 0.30

Даже идеальные интервью (n=20, κ=0.90, behavioral=1.0, fresh data, all A-segment) не дадут Confidence > 0.70, если вы собрали только 12 из 26 EP. Качество Evidence Points ограничивает потолок. Количество и качество интервью определяют, насколько вы приближаетесь к этому потолку.

Связанные статьи: 26 Evidence Points7 слоёв Product DNA v27 точек ценовой разведки

AI CPO рассчитывает Confidence Score автоматически по мере извлечения фактов из чата → aicpo.ru

Поделиться:
Р

Роман Неверов

Эксперт по продуктовому управлению и AI-инструментам для запуска продуктов

Попробуйте AI CPO

AI-ассистент для продуктовых команд — от идеи до запуска

Начать бесплатно
← Все статьи