На главную Наши проекты:
Журнал   ·   Discuz!ML   ·   Wiki   ·   DRKB   ·   Помощь проекту
ПРАВИЛА FAQ Помощь Участники Календарь Избранное RSS
msm.ru
! Внимательно прочитайте правила раздела
1. Запрещается публиковать материалы защищенные авторскими правами.
2. Запрещается публиковать новостные материалы без ссылки на источник
Модераторы: ANDLL, B.V.
  
    > Модели ИИ будут обучать по-новому, и это может «приземлить» Nvidia
      Модели ИИ будут обучать по-новому, и это может «приземлить» Nvidia

      Эксперты пришли к выводу, что текущие методы обучения масштабных лингвистических моделей достигли предела своей продуктивности, и необходимо пересматривать подходы. Это может означать и большое переформатирование рынка оборудования.

      Вышли на плато

      Методика обучения искусственного интеллекта на основе все больших объемов данных перестала приносить ожидаемые результаты: если до недавнего времени эффективность масштабных языковых моделей росла прямо пропорционально размерам данных, на которых те обучались, то с определенного момента рост прекратился, пишет агентство Reuters, ссылаясь на мнение десятка экспертов в этой области.

      Среди них – сооснователь OpenAI и AI labs Safe Superintelligence (SSI) Илья Суцкевер. По его словам, рост объемов информации на этапе предобучения – той фазы, когда ИИ обучается языковым комбинациям и структурам на основе неразмеченных данных, – перестал обеспечивать прирост результативности: она остается прежней, сколько бы разработчики ни старались повысить эрудированность ИИ.

      «2010-е были эпохой масштабирования, а теперь мы снова в эпохе открытий чудных: все ищут что-то новое, – говорит Суцкевер. – Сейчас важнее всего масштабировать нечто самое существенное». Ученый уклонился от ответа на вопрос, что именно он считает самым существенным, отметив лишь, что его новая компания SSI работает над альтернативой к масштабированию предобучающих массивов данных.

      user posted image

      Изображение от DC Studio на Freepik Подходы к текущим методам обучения масштабных лингвистических моделей достигли предела своей продуктивности и будут пересматриваться

      Разработчики технологий искусственного интеллекта, такие как OpenAI, также начали искать способы преодолеть возникшие ограничения и заставить машину «думать» в большей степени «по-человечески». Компания OpenAI, в частности, представила новую модель o1, которая, как пишет Reuters, может спровоцировать «гонку вооружений» среди поставщиков аппаратных компонентов и вызвать неудержимый рост спроса на энергию.

      Уже сегодня обучение крупномасштабных моделей может обходиться в десятки миллионов долларов и требовать одновременной работы сотен процессоров. Сложность системы делает ее особенно уязвимой перед аппаратным сбоем. А кроме того, исследователи не имеют возможности оценить производительность готовой модели до самого конца процесса обучения, – который может занимать месяцы. Плюс к этому, нынешние модели уже вычерпали весь объем легко доступных данных в мире, а энергоемкость обучения – колоссальна.

      Мы пойдем другим путем

      Чтобы как-то с этим справиться, исследователи начинают все чаще применять другую методику: «test-time compute» или «вычисления в процессе тестирования». В этом случае, модель совершенствуется на инференциальном этапе (то есть в процессе активного применения): вместо того, чтобы сразу давать один ответ, модель генерирует несколько «конкурирующих» и выбирает оптимальный. Эта методика позволяет моделям выделять больше вычислительных ресурсов на сложные задачи, такие как математические вычисления или проблемы программирования, которые требуют способности рассуждать и принимать решения «по-человечески».

      «Как выясняется, если дать боту 20 секунд подумать над комбинацией в покер, это приносит такие же результаты, как масштабирование обучающей модели в 100 тыс. раз и обучение на ее основе в течение в 100 тыс. раз большего времени», – утверждает Ноам Браун (Noam Brown), исследователь OpenAI, который участвовал в разработке модели o1.

      Эта модель (ранее известная как Q* и Strawberry), способна «обдумывать» проблемы поэтапно, аналогично тому, как делает умозаключения человек. Подготовка модели включает использование данных и обратной связи от ученых и отраслевых экспертов. Как пишет Reuters, «тайным ингредиентом» является набор дополнительных процедур обучения «поверх» базовых моделей вроде GPT-4. Эта методика будет потом опробована и на более масштабных базовых моделях.

      Другие вендоры – Anthropic, xAI и Google DeepMind, – по свидетельствам инсайдеров, работают над своими вариантами той же методики. И это может привести к изменению всего ландшафта, связанного с производством оборудования для ИИ. Сейчас на нем наблюдается запредельный спрос на процессоры Nvidia. Венчурные инвесторы уже вложили миллиарды в дорогостоящую разработку ИИ-моделей.

      Но теперь все идет к тому, что гигантские кластеры предобучения уступят место инференциальным облакам – распределенным специализированным серверам. А значит, доминирование Nvidia может значительно поколебаться. Хотя в самой компании наблюдают пока лишь рост спроса на оборудование для инференциальных ресурсов.

      «Развитие ИИ идет такими темпами, что все может меняться абсолютно непредсказуемо и одномоментно: еще три года назад про OpenAI, например, никто не слышал, сегодня они – «законодатели мод», завтра-послезавтра какой-нибудь стартап переформатирует рынок до неузнаваемости, – считает Дмитрий Гвоздев, генеральный директор компании «Информационные технологии будущего». – Соответственно будут меняться и запросы к аппаратной базе, и Nvidia может оказаться примерно в том же положении, в каком сегодня находится IBM или Intel. Что-то уверенно прогнозировать можно только на очень непродолжительный срок».

      Адрес новости:
      https://corp.cnews.ru/news/top/2025-01-28_modeli_ii_budut_obuchat_po-novomu

      0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)
      0 пользователей:


      Рейтинг@Mail.ru
      [ Script execution time: 0,0152 ]   [ 15 queries used ]   [ Generated: 22.04.25, 16:23 GMT ]