Байесовская уверенность в продуктовых решениях

Сцена, которая повторяется каждую неделю

Пятничный product review. PM показывает результаты discovery: «Мы провели 8 интервью. 6 из 8 респондентов подтвердили, что им нужна функция экспорта в PDF. Мы на 75% уверены — надо строить».

Head of Product кивает. Фича попадает в спринт. Через 3 месяца после запуска: 4% adoption rate. Экспорт в PDF используют 12 человек из 340 активных пользователей.

Что пошло не так? «75% уверенности» — это число, которое выглядит как метрика, но не содержит информации. Оно не учитывает:

Размер выборки: 6 из 8 — это статистически незначимо. При n=8 доверительный интервал огромен
Согласованность: 6 человек сказали «нужно» — но описывали разные use-cases. Один хочет отчёт для инвестора, другой — сохранить на диск. Это разные задачи
Поведенческий сигнал: сколько из 6 уже пробовали решить задачу? Тратили деньги? Или просто сказали «было бы неплохо»?
Временной распад: 3 интервью проводились 4 месяца назад. Контекст мог измениться
Качество источника: из 6 подтвердивших — 4 были C-сегмент (low fit). Их мнение весит вдвое меньше, чем мнение A-сегмента

Байесовская модель Product DNA учитывает все 5 факторов и даёт реальную картину: не «75%», а «posterior = 0.35, credible interval: [0.15, 0.55]». Это совсем другое решение.

Почему одно число — это не уверенность

Частотная статистика (frequentist) работает с повторяемыми экспериментами: бросил монету 1000 раз, посчитал вероятность. В продуктовых решениях так не работает. Вы не можете провести 1000 одинаковых интервью с одинаковыми людьми в одинаковых условиях.

Байесовский подход работает иначе: он обновляет предшествующее убеждение (prior) на основе новых данных (evidence), получая обновлённое убеждение (posterior). И критически — он считает не одно число, а распределение: posterior mean + credible interval.

Credible interval — это то, чего нет в «мы на 75% уверены». Posterior mean = 0.65 с CI [0.60, 0.70] — это сильный сигнал (узкий интервал, стабильная оценка). Posterior mean = 0.65 с CI [0.25, 0.90] — это шум (широкий интервал, данных мало).

5 факторов Confidence Model в Product DNA

Модель уверенности в Strand 5 (Evidence Engine) рассчитывает posterior через 5 взвешенных факторов:

#	Фактор	Вес	Что измеряет	Как рассчитывается
1	Sample Size	0.35	Сколько интервью проведено	Логарифмическая кривая с насыщением при ~20. weight_from_n(n) = log(n+1) / log(21). При n=1 → 0.22, n=5 → 0.58, n=10 → 0.78, n=20 → 1.0. После 20 интервью прирост минимален
2	Consistency	0.35	Насколько респонденты говорят одно и то же	Cohen's kappa (κ) между интервью. κ > 0.80 = почти идеальное согласие. κ 0.60-0.80 = существенное. κ 0.40-0.60 = умеренное. κ < 0.40 = слабое. Считается по пересечению извлечённых Evidence Points
3	Behavioral Signal	0.15	Ratio поведения к заявлениям	behavior_vs_stated = (EP с поведенческим подтверждением) / (все EP). Если человек говорит «мне нужно X» и при этом уже тратит деньги/время на решение X — это поведенческий сигнал. Если только говорит — это stated intent. Fitzpatrick (2013): прошлое поведение — единственный надёжный предиктор
4	Temporal Decay	0.08	Свежесть данных	Half-life = 90 дней. decay(days) = 0.5^(days/90). Интервью 30 дней назад → 0.79. 90 дней → 0.50. 180 дней → 0.25. Рынок меняется, контекст клиента меняется, конкуренты появляются — данные стареют
5	Source Quality	0.07	Качество сегмента респондента	A-segment (Segment Fit Score ≥ 7.5) = вес 2.0. B-segment (6.0-7.4) = вес 1.0. C-segment (4.0-5.9) = вес 0.5. D-segment (< 4.0) = вес 0. Одно интервью с A-сегментом = два интервью с B-сегментом

Формула

Posterior = Sample_Size × 0.35 + Consistency × 0.35 + Behavioral_Signal × 0.15 + Temporal_Decay × 0.08 + Source_Quality × 0.07

Credible interval рассчитывается через Beta-распределение: CI_95 = Beta.ppf([0.025, 0.975], α, β), где α = successes + 1, β = failures + 1. Ширина интервала — индикатор неопределённости.

Пороги для принятия решений

Confidence Score	Интерпретация	Рекомендация
≥ 0.70	Safe to build	Можно строить фичу, инвестировать в направление. Данные надёжны
0.50-0.69	Conditional build	Строить только при низкой стоимости реализации. Иначе — ещё данные
0.30-0.49	Research priority	НЕ строить. Собирать Evidence Points, проводить интервью
< 0.30	Hypothesis only	Это предположение, не данные. Валидировать перед любыми инвестициями

Разбор: «мы на 80% уверены, что пользователям нужна фича X»

Реальный кейс: SaaS для управления проектами. PM заявляет: «80% уверенности, что пользователи хотят Gantt-chart».

Данные:

8 интервью, 6 подтвердили
Интервью проведены 2 и 4 месяца назад
3 респондента — A-сегмент, 2 — B-сегмент, 3 — C-сегмент
Из 6 подтвердивших: 1 реально использовал Gantt в другом инструменте, 5 сказали «было бы неплохо»
Описания use-case: 3 разных сценария (планирование спринтов, отчёт для клиента, визуализация для руководства)

Расчёт по модели Product DNA:

Фактор	Расчёт	Значение
Sample Size	log(9)/log(21) = 0.72	0.72
Consistency	3 разных use-case из 6 → κ ≈ 0.35 (слабое согласие)	0.35
Behavioral Signal	1 из 6 с поведенческим подтверждением = 0.17	0.17
Temporal Decay	Средний возраст = 90 дней → 0.50	0.50
Source Quality	Средневзвешенный: (3×2.0 + 2×1.0 + 3×0.5) / 8 = 1.19, нормализовано / 2.0 = 0.59	0.59

Posterior = 0.72 × 0.35 + 0.35 × 0.35 + 0.17 × 0.15 + 0.50 × 0.08 + 0.59 × 0.07 = 0.252 + 0.123 + 0.026 + 0.040 + 0.041 = 0.48

Credible interval: [0.22, 0.71]

Реальная уверенность: 0.48 с широким интервалом. Это зона «Research priority» — строить Gantt рано. Нужно:

Повысить Consistency: определить, какой из 3 use-case реально доминирует (провести 5 целевых интервью)
Повысить Behavioral Signal: спросить «покажите, как вы решаете эту задачу сейчас» и записать реальные действия
Обновить данные: 3 интервью из 8 устарели (>90 дней)
Увеличить долю A-сегмента: 3 из 8 — недостаточно для Source Quality

6 анти-паттернов уверенности

#	Анти-паттерн	Почему опасен	Байесовский ответ
1	Confirmation bias counting — считать только подтверждения, игнорировать отказы	Завышает posterior, занижает uncertainty	Считать ВСЕ интервью: α = confirmations + 1, β = disconfirmations + 1
2	Celebrity interview — один «крутой» респондент = 100% уверенности	n=1, любой confidence > 0.30 = иллюзия	Sample Size при n=1 = 0.22. Максимальный posterior ≈ 0.30
3	Ancient data — данные годичной давности как свежие	Temporal Decay при 365 днях = 0.065 — практически ноль	Данные старше 180 дней = Source Quality < 0.25. Нужны свежие интервью
4	Stated ≠ Revealed — «хочу» без поведения	Behavioral Signal = 0 → минус 15% от максимума	Требовать: «покажите, что вы делаете сейчас» + «сколько тратите на это»
5	Wrong segment — 10 интервью с C-сегментом	Source Quality при all-C = 0.25 (нормализованное 0.5/2.0)	A-segment interview = 2× вес. Ищите A-сегмент целенаправленно
6	Anchor bias — первый респондент задаёт «правильный ответ»	Consistency кажется высокой, но вопросы наводящие	Проверить: вопросы open-ended? Не подсказываете ответ?

Когда 20 интервью — это потолок

Логарифмическая кривая Sample Size фактора имеет практический потолок при ~20 интервью. Значения:

n (интервью)	Sample Size Score	Прирост vs предыдущего
1	0.22	—
3	0.45	+0.23
5	0.58	+0.13
8	0.72	+0.14
10	0.78	+0.06
15	0.91	+0.13
20	1.00	+0.09
30	1.00	+0.00

После 20 интервью Sample Size Score не растёт. Если уверенность всё ещё низкая — проблема в других факторах: inconsistency (разные люди говорят разное), отсутствие behavioral signal (говорят «хочу» — но не действуют), или wrong segment (интервьюируете не тех).

Практическое применение: как считать confidence

Соберите данные: количество интервью (n), количество подтверждений / опровержений, средний возраст данных (дней), сегмент каждого респондента, наличие поведенческого подтверждения
Оцените consistency: сколько уникальных use-case / описаний боли? Если респонденты описывают одну и ту же боль одними словами → κ > 0.80. Если каждый — про своё → κ < 0.40
Посчитайте: подставьте в формулу. Posterior = Sample × 0.35 + Consistency × 0.35 + Behavioral × 0.15 + Decay × 0.08 + Source × 0.07
Интерпретируйте: ≥ 0.70 → строить. 0.50-0.69 → строить если дёшево. 0.30-0.49 → исследовать. < 0.30 → гипотеза
Определите bottleneck: какой фактор тянет score вниз? Его и нужно улучшать

Связь с Evidence Points и решениями

Confidence Model не существует в вакууме. Он работает в связке с 26 Evidence Points:

Tier Platinum (26 EP) → потолок Confidence = 0.95
Tier Gold (19 EP) → потолок Confidence = 0.85
Tier Silver (12 EP) → потолок Confidence = 0.70
Tier Bronze (7 EP) → потолок Confidence = 0.50
Tier Hypothesis (0 EP) → потолок Confidence = 0.30

Даже идеальные интервью (n=20, κ=0.90, behavioral=1.0, fresh data, all A-segment) не дадут Confidence > 0.70, если вы собрали только 12 из 26 EP. Качество Evidence Points ограничивает потолок. Количество и качество интервью определяют, насколько вы приближаетесь к этому потолку.

Связанные статьи: 26 Evidence Points → 7 слоёв Product DNA v2 → 7 точек ценовой разведки

AI CPO рассчитывает Confidence Score автоматически по мере извлечения фактов из чата → aicpo.ru

Байесовская уверенность в продуктовых решениях — почему «75% уверены» ничего не значит

Сцена, которая повторяется каждую неделю

Почему одно число — это не уверенность

5 факторов Confidence Model в Product DNA

Формула

Пороги для принятия решений

Разбор: «мы на 80% уверены, что пользователям нужна фича X»

6 анти-паттернов уверенности

Когда 20 интервью — это потолок

Практическое применение: как считать confidence

Связь с Evidence Points и решениями

Роман Неверов

Попробуйте AI CPO

Байесовская уверенность в продуктовых решениях — почему «75% уверены» ничего не значит

Сцена, которая повторяется каждую неделю

Почему одно число — это не уверенность

5 факторов Confidence Model в Product DNA

Формула

Пороги для принятия решений

Разбор: «мы на 80% уверены, что пользователям нужна фича X»

6 анти-паттернов уверенности

Когда 20 интервью — это потолок

Практическое применение: как считать confidence

Связь с Evidence Points и решениями

Роман Неверов

Читайте также

10-факторный Segment Fit Score: как перестать выбирать сегмент 'на глазок'

5 колец конкуренции: почему ваш настоящий конкурент — 'ничего не делать'

8 типов спроса: почему классификация 'обычная/ориентационная/налоговая' — только половина картины

Попробуйте AI CPO