Как я собрал каталог российского ПО на 26 000 позиций с помощью нейросетей

Доброго всем дня, радаровцы! Меня зовут Павел Петров, я создатель сайта Каталог ПО РФ. В этой статье вы узнаете при помощи каких инструментов искусственного интеллекта можно создавать дизайн и работать с данными. Это не пособие, а дневник опыта созидания без команды и большого количества времени.

Мой продукт на Product Radar:

Я столкнулся с проблемой выбора отечественных решений – нет единого места, где можно подобрать отечественный аналог иностранных решений, а требования использовать только российские продукты из ЕРРП есть. Посетил конференцию Valday.Digital и убедился это не только моя боль, спикеры страдали от поиска российских программ – кругом одни рекламные статьи.

Штош, вызов принят… Полез искать готовые решения, но быстро понял, что все они заточены под товарку – большие сочные картинки, обязательные поля с ценой и корзина – не подходит под мои задачи. Глубина изысканий, возможно, и была не достаточной, но я уверился что необходимо делать новый продукт.

Пул работ и трудности

Для того чтобы определить необходимую для реализации команду, начал с определения функционала и требований к сайту:

  • Первая трудность – данные. Единый Реестр Российских Программ, не имел API, данные можно было забрать только в формате CSV, без описаний программ или импортных аналогов. Данные предстояло дообогатить. Также принадлежность продукта к категории выгружается в крайне неудобном для реализации формате. Информация о категориях вообще в отсканированном PDF файле. Эти и другие “приколы” привели меня к потребности в виде Системного аналитика, который совместит в себе роль Аналитика данных и креативно-смышленного специалиста.
  • Вторая задача – это классный интерфейс. Проанализировал подобные каталоги – пугающий дизайн из 2007 и полное отсутствие данных о продукте. Поиска с удобными фильтрами не было нигде. Поэтому я решил что фронтенд часть должна выглядеть современно и эстетично. Нужен сильный специалист, желательно с базовыми SEO навыками.
  • Ну и конечно же, папа Backend. Быстрый поиск по 26к продуктам, фильтры, сортировки, поиск по вендорам. Не будем про CI\CD, но выкатка и конфигурирование серверов(тест + прод) также ожидалась от бекендера. Список навыков снова не самый дешевый.

Итог, по самому эконом варианту, который я описал выше, нужно было минимум 3 специалиста. Я хотел видеть современный UI, быстрый Backend и самое главное КАЧЕСТВЕННЫЙ продукт без серьезных дефектов. Весь цикл создания(проектирование, разработка, тестирование, отладка), по моим смелым прикидкам, занял бы около 6 месяцев(спойлер, именно столько у меня и заняло создание, но без команды и по вечерам после работы).

На сам поиск специалистов тоже уйдет не малое количество времени и денег + возможная смена команды по ходу. Всегда есть риск, что по финалу получится забагованная медленная шляпа.

У меня не было ни таких денег, ни желания тратить такие деньги, поэтому сперва я приуныл, а потом маленькими шажками пошел в сторону нейросетей.

Первые шаги в сторону дизайна приложения

Есть задача – взять данные из Единого Реестра Российских Программ и обернуть в удобный информативный каталог. В каталоге есть примерно 26 000 продуктов, из данных в еррп есть только названия, производитель, категория и год. Естественно этого не достаточно для полноценного каталога программ и данные придется обогащать. Но перед этим необходимо понять, а а что будет выводиться на UI или использоваться в логике приложения.

Решил начать с проработки макета дизайна. Нашел на площадке Segment дизайн который понравился чтобы взять его стиль за основу.

Для того чтобы накидать дизайн под свою задачу я использовал DeepSeek для составления промпта и Galileo AI для проработки макетов. Там есть весьма большое количество бесплатных генераций и возможно экспортировать напрямую в Figma. Вот что отрисовала нейросеть:

Как я собрал каталог российского ПО на 26 000 позиций с помощью нейросетей

Пара вечеров и 5 новых аккаунтов Галилео(строго из-за проблем с оплатами) ушло на создание прототипов страниц. Также я привлек дизайнера с Kwork для внесения правок и проработке прототипов. Дизайнер работал с уже на 95% готовым дизайном проекта, задавал правильные вопросы и помог устаканить вопрос с данными продукта.

Вот кстати что получилось в итоге: каталогПО.рф

Главный инсайд – не стоит запариваться над каждой мелочью на данном этапе, так как дизайн может меняться по ходу развития и осмысления проекта.

Работа с данными

После того как перед глазами возникла ясная картина в виде проработанного для каждой страницы дизайна, пришло время определиться с приземлением данных в базу.

Использовать данные реестра было крайне неудобно, их нужно было преобразовать и дообогатить. Было три основные задачи:

  • Данные поступали в виде Excel. Значение категории были смешаны, необходимо было разделить код и название.
  • Для каждой категории описание было в отдельном документе PDF, категорий было 120+ сам документ огромен.
  • Не хватало описаний и импортных аналогов для легкого поиска.

Для решения каждой задачи я применял нейросети:

1. Задачу с разделением значений в таблице категорий я предоставил DeepSeek, предоставил формат в котором записаны значения, показал формат к которому нужно привести данные. Нейросеть написала скрипт, в котором мне необходимо было подставить только наименования колонок колонок, справилась с 3го раза.

2. Для описания подкатегорий я опять использовал тот же инструмент – DeepSeek, попросил взять подкатегорию и ее описание, изменить описание на более читаемый вид, так как язык был крайне бюрократично-душный. Весь PDF файл скормить не удалось, пришлось разделить на 18 небольших кусочков, примерно по 10 категорий\описаний. Периодически какие-то категории терялись, если такое происходило, то просил переписать весь батч заново, это привело к тому что нейросеть себя перепроверяла и под конец перестала «терять» категории. Результат просил выдавать в виде SQL скрипта, чтобы описания можно было сразу вставить в бд.

3. Для создания описаний и подбора импортных аналогов в поисках лучшего инструмента попробовал разные: для которой использовал такие инструменты как:

надстройка excel – Отлично справлялась с генерацией небольшого количества данных, например аналогов программ в формате аналог1;аналог2;аналог3. Попробовал различные надстройки, везде один принцип работы клиента, а результат зависит от модели под капотом.

n8n – хороший инструмент для генерации чего угодно, можно автоматизировать сценарии со вставкой в таблицы или базы, интегрируется с OpenRouter для использования и оплаты любых моделей.

Самописный сервис для генерации данных – самый модифицируемый и удобный инструмент, создавал при помощи Cursor. Можно написать генерацию под любые объемы, удобными дашбордами, интеграция опять же с OpenRouter.

Как я собрал каталог российского ПО на 26 000 позиций с помощью нейросетей

Если продукт вызовет интерес, то в следующей части я расскажу о том как создавался фронтенд и бекенд при помощи Cursor\Copilot, какая БД была выбрана для хранения, каким образом осуществлялся деплой и выкатка новых версий.

Благодарю тебя читатель, если есть вопросы по использованию того или иного инструмента – велком в комментарии. Могу помочь реализовать\спланировать техническую часть вашего проекта, пишите в телеграмм разовьем ваш продукт вместе.

Буду благодарен за вашу поддержку на Радаре:

⭐️ Эту статью написал «Друг Радара». Вы можете добавить свою статью или обсудить ее идею с нами в боте. Редакция Блогов Product Radar бережно сохранила авторский стиль, орфографию и пунктуацию.

👨‍🚀 Истории основателей Вайбкодинг Нейросети и ИИ
7 комментариев
Популярные
Новые Старые
Межтекстовые Отзывы
Посмотреть все комментарии
hostinside.ru
4 месяцев назад
Ответ на  Павел Петров

Точно нет, проверки должны быть.

4 месяцев назад

Жду в комментах разраба, который будет готов дать бой нейросетям

4 месяцев назад

Очень интересно послушать про настройку пайпа для данного зверя, тоже ИИ под ключ?

hostinside.ru
4 месяцев назад

Классный кейс! 👌 Отлично показано, как с помощью нейросетей можно из «сырого» реестра собрать удобный и современный каталог. Вопрос только в том, как будет поддерживаться актуальность данных.

3 месяцев назад

Приветствую! Павел, есть ли планы по коммерциализации проекта?