Сцена, которая повторяется каждую неделю
Пятничный product review. PM показывает результаты discovery: «Мы провели 8 интервью. 6 из 8 респондентов подтвердили, что им нужна функция экспорта в PDF. Мы на 75% уверены — надо строить».
Head of Product кивает. Фича попадает в спринт. Через 3 месяца после запуска: 4% adoption rate. Экспорт в PDF используют 12 человек из 340 активных пользователей.
Что пошло не так? «75% уверенности» — это число, которое выглядит как метрика, но не содержит информации. Оно не учитывает:
- Размер выборки: 6 из 8 — это статистически незначимо. При n=8 доверительный интервал огромен
- Согласованность: 6 человек сказали «нужно» — но описывали разные use-cases. Один хочет отчёт для инвестора, другой — сохранить на диск. Это разные задачи
- Поведенческий сигнал: сколько из 6 уже пробовали решить задачу? Тратили деньги? Или просто сказали «было бы неплохо»?
- Временной распад: 3 интервью проводились 4 месяца назад. Контекст мог измениться
- Качество источника: из 6 подтвердивших — 4 были C-сегмент (low fit). Их мнение весит вдвое меньше, чем мнение A-сегмента
Байесовская модель Product DNA учитывает все 5 факторов и даёт реальную картину: не «75%», а «posterior = 0.35, credible interval: [0.15, 0.55]». Это совсем другое решение.
Почему одно число — это не уверенность
Частотная статистика (frequentist) работает с повторяемыми экспериментами: бросил монету 1000 раз, посчитал вероятность. В продуктовых решениях так не работает. Вы не можете провести 1000 одинаковых интервью с одинаковыми людьми в одинаковых условиях.
Байесовский подход работает иначе: он обновляет предшествующее убеждение (prior) на основе новых данных (evidence), получая обновлённое убеждение (posterior). И критически — он считает не одно число, а распределение: posterior mean + credible interval.
Credible interval — это то, чего нет в «мы на 75% уверены». Posterior mean = 0.65 с CI [0.60, 0.70] — это сильный сигнал (узкий интервал, стабильная оценка). Posterior mean = 0.65 с CI [0.25, 0.90] — это шум (широкий интервал, данных мало).
5 факторов Confidence Model в Product DNA
Модель уверенности в Strand 5 (Evidence Engine) рассчитывает posterior через 5 взвешенных факторов:
| # | Фактор | Вес | Что измеряет | Как рассчитывается |
|---|---|---|---|---|
| 1 | Sample Size | 0.35 | Сколько интервью проведено | Логарифмическая кривая с насыщением при ~20. weight_from_n(n) = log(n+1) / log(21). При n=1 → 0.22, n=5 → 0.58, n=10 → 0.78, n=20 → 1.0. После 20 интервью прирост минимален |
| 2 | Consistency | 0.35 | Насколько респонденты говорят одно и то же | Cohen's kappa (κ) между интервью. κ > 0.80 = почти идеальное согласие. κ 0.60-0.80 = существенное. κ 0.40-0.60 = умеренное. κ < 0.40 = слабое. Считается по пересечению извлечённых Evidence Points |
| 3 | Behavioral Signal | 0.15 | Ratio поведения к заявлениям | behavior_vs_stated = (EP с поведенческим подтверждением) / (все EP). Если человек говорит «мне нужно X» и при этом уже тратит деньги/время на решение X — это поведенческий сигнал. Если только говорит — это stated intent. Fitzpatrick (2013): прошлое поведение — единственный надёжный предиктор |
| 4 | Temporal Decay | 0.08 | Свежесть данных | Half-life = 90 дней. decay(days) = 0.5^(days/90). Интервью 30 дней назад → 0.79. 90 дней → 0.50. 180 дней → 0.25. Рынок меняется, контекст клиента меняется, конкуренты появляются — данные стареют |
| 5 | Source Quality | 0.07 | Качество сегмента респондента | A-segment (Segment Fit Score ≥ 7.5) = вес 2.0. B-segment (6.0-7.4) = вес 1.0. C-segment (4.0-5.9) = вес 0.5. D-segment (< 4.0) = вес 0. Одно интервью с A-сегментом = два интервью с B-сегментом |
Формула
Posterior = Sample_Size × 0.35 + Consistency × 0.35 + Behavioral_Signal × 0.15 + Temporal_Decay × 0.08 + Source_Quality × 0.07
Credible interval рассчитывается через Beta-распределение: CI_95 = Beta.ppf([0.025, 0.975], α, β), где α = successes + 1, β = failures + 1. Ширина интервала — индикатор неопределённости.
Пороги для принятия решений
| Confidence Score | Интерпретация | Рекомендация |
|---|---|---|
| ≥ 0.70 | Safe to build | Можно строить фичу, инвестировать в направление. Данные надёжны |
| 0.50-0.69 | Conditional build | Строить только при низкой стоимости реализации. Иначе — ещё данные |
| 0.30-0.49 | Research priority | НЕ строить. Собирать Evidence Points, проводить интервью |
| < 0.30 | Hypothesis only | Это предположение, не данные. Валидировать перед любыми инвестициями |
Разбор: «мы на 80% уверены, что пользователям нужна фича X»
Реальный кейс: SaaS для управления проектами. PM заявляет: «80% уверенности, что пользователи хотят Gantt-chart».
Данные:
- 8 интервью, 6 подтвердили
- Интервью проведены 2 и 4 месяца назад
- 3 респондента — A-сегмент, 2 — B-сегмент, 3 — C-сегмент
- Из 6 подтвердивших: 1 реально использовал Gantt в другом инструменте, 5 сказали «было бы неплохо»
- Описания use-case: 3 разных сценария (планирование спринтов, отчёт для клиента, визуализация для руководства)
Расчёт по модели Product DNA:
| Фактор | Расчёт | Значение |
|---|---|---|
| Sample Size | log(9)/log(21) = 0.72 | 0.72 |
| Consistency | 3 разных use-case из 6 → κ ≈ 0.35 (слабое согласие) | 0.35 |
| Behavioral Signal | 1 из 6 с поведенческим подтверждением = 0.17 | 0.17 |
| Temporal Decay | Средний возраст = 90 дней → 0.50 | 0.50 |
| Source Quality | Средневзвешенный: (3×2.0 + 2×1.0 + 3×0.5) / 8 = 1.19, нормализовано / 2.0 = 0.59 | 0.59 |
Posterior = 0.72 × 0.35 + 0.35 × 0.35 + 0.17 × 0.15 + 0.50 × 0.08 + 0.59 × 0.07 = 0.252 + 0.123 + 0.026 + 0.040 + 0.041 = 0.48
Credible interval: [0.22, 0.71]
Реальная уверенность: 0.48 с широким интервалом. Это зона «Research priority» — строить Gantt рано. Нужно:
- Повысить Consistency: определить, какой из 3 use-case реально доминирует (провести 5 целевых интервью)
- Повысить Behavioral Signal: спросить «покажите, как вы решаете эту задачу сейчас» и записать реальные действия
- Обновить данные: 3 интервью из 8 устарели (>90 дней)
- Увеличить долю A-сегмента: 3 из 8 — недостаточно для Source Quality
6 анти-паттернов уверенности
| # | Анти-паттерн | Почему опасен | Байесовский ответ |
|---|---|---|---|
| 1 | Confirmation bias counting — считать только подтверждения, игнорировать отказы | Завышает posterior, занижает uncertainty | Считать ВСЕ интервью: α = confirmations + 1, β = disconfirmations + 1 |
| 2 | Celebrity interview — один «крутой» респондент = 100% уверенности | n=1, любой confidence > 0.30 = иллюзия | Sample Size при n=1 = 0.22. Максимальный posterior ≈ 0.30 |
| 3 | Ancient data — данные годичной давности как свежие | Temporal Decay при 365 днях = 0.065 — практически ноль | Данные старше 180 дней = Source Quality < 0.25. Нужны свежие интервью |
| 4 | Stated ≠ Revealed — «хочу» без поведения | Behavioral Signal = 0 → минус 15% от максимума | Требовать: «покажите, что вы делаете сейчас» + «сколько тратите на это» |
| 5 | Wrong segment — 10 интервью с C-сегментом | Source Quality при all-C = 0.25 (нормализованное 0.5/2.0) | A-segment interview = 2× вес. Ищите A-сегмент целенаправленно |
| 6 | Anchor bias — первый респондент задаёт «правильный ответ» | Consistency кажется высокой, но вопросы наводящие | Проверить: вопросы open-ended? Не подсказываете ответ? |
Когда 20 интервью — это потолок
Логарифмическая кривая Sample Size фактора имеет практический потолок при ~20 интервью. Значения:
| n (интервью) | Sample Size Score | Прирост vs предыдущего |
|---|---|---|
| 1 | 0.22 | — |
| 3 | 0.45 | +0.23 |
| 5 | 0.58 | +0.13 |
| 8 | 0.72 | +0.14 |
| 10 | 0.78 | +0.06 |
| 15 | 0.91 | +0.13 |
| 20 | 1.00 | +0.09 |
| 30 | 1.00 | +0.00 |
После 20 интервью Sample Size Score не растёт. Если уверенность всё ещё низкая — проблема в других факторах: inconsistency (разные люди говорят разное), отсутствие behavioral signal (говорят «хочу» — но не действуют), или wrong segment (интервьюируете не тех).
Практическое применение: как считать confidence
- Соберите данные: количество интервью (n), количество подтверждений / опровержений, средний возраст данных (дней), сегмент каждого респондента, наличие поведенческого подтверждения
- Оцените consistency: сколько уникальных use-case / описаний боли? Если респонденты описывают одну и ту же боль одними словами → κ > 0.80. Если каждый — про своё → κ < 0.40
- Посчитайте: подставьте в формулу. Posterior = Sample × 0.35 + Consistency × 0.35 + Behavioral × 0.15 + Decay × 0.08 + Source × 0.07
- Интерпретируйте: ≥ 0.70 → строить. 0.50-0.69 → строить если дёшево. 0.30-0.49 → исследовать. < 0.30 → гипотеза
- Определите bottleneck: какой фактор тянет score вниз? Его и нужно улучшать
Связь с Evidence Points и решениями
Confidence Model не существует в вакууме. Он работает в связке с 26 Evidence Points:
- Tier Platinum (26 EP) → потолок Confidence = 0.95
- Tier Gold (19 EP) → потолок Confidence = 0.85
- Tier Silver (12 EP) → потолок Confidence = 0.70
- Tier Bronze (7 EP) → потолок Confidence = 0.50
- Tier Hypothesis (0 EP) → потолок Confidence = 0.30
Даже идеальные интервью (n=20, κ=0.90, behavioral=1.0, fresh data, all A-segment) не дадут Confidence > 0.70, если вы собрали только 12 из 26 EP. Качество Evidence Points ограничивает потолок. Количество и качество интервью определяют, насколько вы приближаетесь к этому потолку.
Связанные статьи: 26 Evidence Points → 7 слоёв Product DNA v2 → 7 точек ценовой разведки
AI CPO рассчитывает Confidence Score автоматически по мере извлечения фактов из чата → aicpo.ru