Достижения в области компьютерного зрения способствуют автономии транспорта

Зрение — это мощный сенсорный вход человека. Это позволяет выполнять сложные задачи и процессы, которые мы воспринимаем как должное. С увеличением AoT ™ (автономия вещей) в различных приложениях, от транспорта и сельского хозяйства до робототехники и медицины, роль камер, вычислений и машинного обучения в обеспечении человеческого зрения и познания становится значительной. Компьютерное зрение как академическая дисциплина зародилась в 1960-х годах, прежде всего в университетах, занимающихся новой областью искусственного интеллекта (ИИ) и машинного обучения. В следующие четыре десятилетия он значительно продвинулся вперед, поскольку были достигнуты значительные успехи в полупроводниковых и вычислительных технологиях. Недавние достижения в области глубокого обучения и искусственного интеллекта еще больше ускорили применение компьютерного зрения для обеспечения восприятия и познания окружающей среды в режиме реального времени с малой задержкой, обеспечивая автономность, безопасность и эффективность в различных приложениях. Транспорт – это одна из областей, которая значительно улучшилась.

LiDAR (Light Detection and Ranging) — это метод активной оптической визуализации, в котором используются лазеры для определения трехмерной среды вокруг объекта. Это одна из технологий, которые пытаются разрушить решения компьютерного зрения (которые полагаются исключительно на окружающий свет и не используют лазеры для трехмерного восприятия). Общей темой является то, что людям-водителям не нужен LiDAR для восприятия глубины, как и машинам. Текущие коммерческие функции автономного вождения L3 (полная автономия в определенных регионах и погодных условиях, когда водитель готов взять управление на себя в течение нескольких секунд) продукты сегодня использовать лидар. Методы, основанные исключительно на зрении, до сих пор не могут предложить эту возможность на коммерческой основе.

РЕКЛАМА

TeslaTSLA
является доминирующим сторонником использования пассивного компьютерного зрения на основе камеры для обеспечения автономии пассажирских транспортных средств. Во время недавнего мероприятия компании AI Day Илон Маск и его инженеры представили впечатляющую презентацию. своих ИИ, управления данными и вычислительных возможностей, которые поддерживают, среди прочего, функцию полного самостоятельного вождения (FSD) на нескольких моделях Tesla. FSD требует, чтобы водитель-человек постоянно занимался вождением (что согласуется с автономией L2). В настоящее время эта опция доступна для 160,000 8 автомобилей, приобретенных клиентами в США и Канаде. Набор из 360 камер на каждом транспортном средстве обеспечивает карту занятости на 75°. Данные камеры (и другие) этих транспортных средств используются для обучения его нейронной сети (которая использует автоматическую маркировку) для распознавания объектов, построения потенциальных траекторий транспортных средств, выбора оптимальных и активации соответствующих управляющих действий. За последние 12 месяцев произошло около 1 тысяч обновлений нейронной сети (~ 7 обновление каждые 4 минут), поскольку новые данные постоянно собираются и обнаруживаются ошибки маркировки или ошибки маневрирования. Обученная сеть выполняет действия по планированию и управлению с помощью встроенной избыточной архитектуры специализированной вычислительной электроники. Tesla ожидает, что FSD в конечном итоге приведет к автономным транспортным средствам (AV), которые обеспечивают полную автономию в определенных областях эксплуатационного дизайна без необходимости участия человека-водителя (также называемая автономией LXNUMX).

Другие компании, такие как Phiar, Helm.ai и NODAR. также преследуют проспект компьютерного зрения. NODAR стремится значительно расширить диапазон изображений и трехмерное восприятие систем стереокамер, научившись приспосабливаться к смещению камеры и эффектам вибрации с помощью запатентованных алгоритмов машинного обучения. Недавно он привлек $12 млн. для производства своего флагманского продукта Hammerhead™, в котором используются стандартные автомобильные камеры и стандартные вычислительные платформы.

Помимо стоимости и размера, частым аргументом против использования LiDAR является то, что он имеет ограниченный радиус действия и разрешение по сравнению с камерами. Например, сегодня доступны лидары с дальностью 200 м и скоростью 5–10 млн точек в секунду (PPS, сродни разрешению). На расстоянии 200 м небольшие препятствия, такие как кирпичи или обломки шин, регистрируют очень мало точек (возможно, 2–3 по вертикали и 3–5 по горизонтали), что затрудняет распознавание объектов. Вещи становятся еще более грубыми на больших расстояниях. Для сравнения, стандартные мегапиксельные камеры, работающие на частоте 30 Гц, могут генерировать 30 млн пикселей в секунду, обеспечивая превосходное распознавание объектов даже на больших расстояниях. Более продвинутые камеры (12 мегапикселей) могут еще больше увеличить этот показатель. Проблема заключается в том, как использовать эти массивные данные и создавать действенное восприятие с задержками на уровне миллисекунд, низким энергопотреблением и ухудшенными условиями освещения.

РЕКЛАМА


Понимать, калифорнийская компания, пытается решить эту проблему. По словам генерального директора Марка Болито, его миссия состоит в том, чтобы «обеспечить сверхчеловеческое визуальное восприятие для полностью автономных транспортных средств». Компания была основана в 2017 году, на сегодняшний день привлекла 75 миллионов долларов США и насчитывает 70 сотрудников. Р.К. Ананд, выпускник Juniper Networks, является одним из соучредителей и директором по продукту. Он считает, что использование камер более высокого разрешения с динамическим диапазоном > 120 дБ, работающих с высокой частотой кадров (например, OnSemi, Sony и Omnivision), обеспечивает данные, необходимые для создания 3D-информации с высоким разрешением, что имеет решающее значение для реализации AV. Способствующими этому являются:

  1. Специально разработанные ASIC для эффективной обработки данных и создания точных трехмерных карт автомобильной среды с высоким разрешением. Они изготовлены по 3-нм техпроцессу TSMC с размером кристалла 7 мм² и работают на частоте 100 ГГц.
  2. Запатентованные алгоритмы машинного обучения для обработки миллионов точек данных в автономном режиме для создания обученной нейронной сети, которая затем может эффективно работать и непрерывно обучаться. Эта сеть обеспечивает восприятие и включает в себя классификацию и обнаружение объектов, семантическую сегментацию, обнаружение полосы движения, распознавание дорожных знаков и сигналов светофора.
  3. Сведение к минимуму внешних операций хранения и умножения, которые являются энергоемкими и создают большие задержки. Дизайн ASIC от Recogni оптимизирован для логарифмической математики и использует сложение. Дальнейшая эффективность достигается за счет оптимальной кластеризации весов в обученной нейронной сети.

На этапе обучения коммерческий LiDAR используется в качестве наземной проверки для обучения данных стереокамеры с высоким разрешением и широким динамическим диапазоном для извлечения информации о глубине и обеспечения ее устойчивости к смещению и эффектам вибрации. По словам г-на Ананда, их реализация машинного обучения настолько эффективна, что может экстраполировать оценки глубины за пределы тренировочных диапазонов, обеспечиваемых калибровочным LiDAR (который обеспечивает наземную истину в диапазоне 100 м).

РЕКЛАМА

Приведенные выше обучающие данные были получены в дневное время со стереопарой 8.3-мегапиксельных камер с частотой кадров 30 Гц (~ 0.5 млрд пикселей в секунду). Он демонстрирует способность обученной сети извлекать трехмерную информацию из сцены за пределами диапазона 3 м, с которым она обучалась. Решение Recogni также может экстраполировать свое обучение с дневных данных на производительность в ночное время (рис. 100).

РЕКЛАМА

По словам г-на Ананда, данные о дальности имеют точность в пределах 5% (на дальних дистанциях) и около 2% (на меньших дистанциях). Решение обеспечивает 1000 TOPS (триллионов операций в секунду) с задержкой 6 мс и энергопотреблением 25 Вт (40 TOPS/Вт), что является лучшим показателем в отрасли. Конкуренты, использующие целочисленную математику, по этому показателю более чем в 10 раз ниже. Решение Recogni в настоящее время проходит испытания у нескольких поставщиков автомобилей уровня 1.

Пророчество («предсказывать и видеть, где происходит действие»), базирующаяся во Франции, использует свои камеры на основе событий для AV, усовершенствованных систем помощи водителю (ADAS), промышленной автоматизации, потребительских приложений и здравоохранения. Основанная в 2014 году компания компания недавно закрыла финансирование раунда C в размере 50 миллионов долларов., на сегодняшний день привлечено в общей сложности 127 миллионов долларов. Xiaomi, ведущий производитель мобильных телефонов, является одним из инвесторов. Цель Prophesee — имитировать человеческое зрение, при котором рецепторы сетчатки реагируют на динамическую информацию. Человеческий мозг фокусируется на обработке изменений в сцене (особенно во время вождения). Основная идея заключается в использовании камер и пиксельных архитектур, которые обнаруживают изменения интенсивности света выше порогового значения (события) и предоставляют только эти данные в вычислительный стек для дальнейшей обработки. Пиксели работают асинхронно (а не в кадре, как в обычных CMOS-камерах) и на гораздо более высоких скоростях, поскольку им не нужно интегрировать фотоны, как в обычной покадровой камере, и ждать, пока закончится весь кадр, прежде чем считывать данные. Преимущества значительны — более низкая пропускная способность данных, задержка принятия решения, объем памяти и энергопотребление. Первый коммерческий датчик технического зрения VGA, основанный на событиях, отличался широким динамическим диапазоном (> 120 дБ) и низким энергопотреблением (26 мВт на уровне датчика или 3 нВт на событие). Также была выпущена версия HD (High Definition) (совместно разработанная с Sony) с лучшим в отрасли размером пикселя (< 5 мкм).

РЕКЛАМА

Эти датчики составляют основу сенсорной платформы Metavision®, которая использует ИИ для обеспечения интеллектуального и эффективного восприятия для автономных приложений и находится на стадии оценки несколькими транспортными компаниями. Помимо прямого восприятия для AV и ADAS, Prophesee активно взаимодействует с клиентами для мониторинга водителя в салоне для приложений L2 и L3, см. Рисунок 4:

Возможности для автомобильной отрасли весьма прибыльны, но циклы проектирования длительны. За последние два года компания Prophesee заметила значительный интерес и интерес к области машинного зрения для промышленных приложений. К ним относятся высокоскоростной подсчет, осмотр поверхности и мониторинг вибрации.

РЕКЛАМА

Prophesee недавно объявили о сотрудничестве с ведущими разработчиками систем машинного зрения для использования возможностей в области промышленной автоматизации, робототехники, автомобилестроения и IoT (Интернета вещей). Другими непосредственными возможностями являются коррекция размытия изображения для мобильных телефонов и приложений AR/VR. В них используются датчики более низкого формата, чем те, которые используются для более долгосрочных возможностей ADAS/AV, они потребляют еще меньше энергии и работают со значительно меньшей задержкой.


Израиль является ведущим новатором в области высоких технологий со значительными венчурными инвестициями и активной средой для стартапов. С 2015 года было осуществлено около 70 млрд долларов венчурных инвестиций в технологический сектор.. Часть этого находится в области компьютерного зрения. Mobileye возглавил эту революцию в 1999 году, когда Амнон Шашуа, ведущий исследователь ИИ в Еврейском университете, основал компанию, чтобы сосредоточиться на восприятии на основе камеры для ADAS и AV. Компания подала заявку на IPO в 2014 году и была приобретена Intel.ИНТЕРК
в 2017 году за 15 миллиардов долларов. Сегодня он легко является ведущим игроком в области компьютерного зрения и AV, а в последнее время объявил о намерении подать заявку на IPO и стать самостоятельным субъектом. Выручка Mobileye составляла 1.4 миллиарда долларов в год, а убытки были скромными (75 миллионов долларов). Он предоставляет возможности компьютерного зрения 50 автомобильным OEM-производителям, которые развертывают его на 800 моделях автомобилей для возможностей ADAS. В будущем они намерены лидировать в автономии транспортных средств L4 (водитель не требуется), используя этот опыт компьютерного зрения и возможности LiDAR на базе кремниевой фотонной платформы Intel. Оценка Mobileye оценивается примерно в 50 миллиардов долларов, когда они наконец станут публичными.

РЕКЛАМА

Шампель Капитал, базирующаяся в Иерусалиме, находится в авангарде инвестиций в компании, разрабатывающие продукты на основе компьютерного зрения для различных приложений, от транспорта и сельского хозяйства до безопасности и защиты. Амир Вейтман является соучредителем и управляющим партнером и основал свою венчурную компанию в 2017 году. Первый фонд инвестировал 20 миллионов долларов в 14 компаний. Одна из их инвестиций была в Innoviz, которая стала публичной в результате слияния SPAC в 2018 году и стала LiDAR-единорогом. Во главе с Омером Кейлафом (выходцем из технологического подразделения Разведывательного корпуса Армии обороны Израиля), сегодня компания является лидером в развертывании LiDAR для ADAS и AV, с многочисленными победами в дизайне у BMW и Volkswagen.

Второй фонд Champel Capital (Impact Deep Tech Fund II) был основан в январе 2022 года и на сегодняшний день привлек 30 миллионов долларов (цель — 100 миллионов долларов к концу 2022 года). Основное внимание уделяется компьютерному зрению, в пяти компаниях развернуто 12 миллионов долларов. Три из них используют компьютерное зрение для транспорта и робототехники.

ТанкУ, базирующаяся в Хайфе, начала свою деятельность в 2018 году и привлекла финансирование в размере 10 миллионов долларов. Дэн Вальдхорн является генеральным директором и выпускником подразделения 8200, элитной высокотехнологичной группы в составе Сил обороны Израиля, отвечающей за разведку сигналов и расшифровку кода. Продукты TankU SaaS (программное обеспечение как услуга) автоматизируют и защищают процессы в сложных наружных средах, обслуживающих транспортные средства и водителей. Эти продукты используются владельцами автопарков, личных автомобилей, заправочных и электрозаправочных станций для предотвращения краж и мошенничества при автоматизированных финансовых операциях. Услуги автомобильного топлива ежегодно приносят около 2 триллионов долларов глобального дохода, из которых владельцы частных и коммерческих транспортных средств потребляют 40% или 800 миллиардов долларов. Розничные продавцы и владельцы автопарков ежегодно теряют около 100 миллиардов долларов из-за краж и мошенничества (например, использование топливной карты для неавторизованных частных транспортных средств). Мошенничество CNP (Card not present) и фальсификация/кража топлива являются дополнительными источниками убытков, особенно при использовании украденных данных карты в мобильных приложениях для платежей.

РЕКЛАМА

Продукт компании TUfuel обеспечивает безопасную оплату одним нажатием, блокирует большинство видов мошенничества и предупреждает клиентов, когда он подозревает мошенничество. Он делает это на основе механизма искусственного интеллекта, обученного на данных с существующих камер видеонаблюдения на этих объектах и ​​данных о цифровых транзакциях (включая POS и другие внутренние данные). Такие параметры, как траектория и динамика транспортного средства, идентификатор транспортного средства, время в пути, пробег, время заправки, количество топлива, история заправки и поведение водителя, являются некоторыми атрибутами, отслеживаемыми для выявления мошенничества. Эти данные также помогают ритейлерам оптимизировать работу сайта, повышать лояльность клиентов и развертывать маркетинговые инструменты на основе концепции. По словам генерального директора Дэна Вальдхорна, их решение выявляет 70% парка, 90% кредитных карт и 70% случаев мошенничества, связанных с фальсификацией.

Сонол — энергосервисная компания, которая владеет и управляет сетью из 240 станций и магазинов по всему Израилю. TUfuel развернут на их сайтах и ​​продемонстрировал повышенную безопасность, предотвращение мошенничества и лояльность клиентов. Испытания продукта проходят в США в сотрудничестве с ведущим мировым поставщиком оборудования для автозаправочных станций и магазинов. Аналогичные инициативы также осуществляются в Африке и Европе.

РЕКЛАМА

в Тель-Авиве ITC была основана в 2019 году учеными из Университета Бен-Гуриона, занимающимися машинным обучением. ITC создает продукты SaaS, которые «измерять транспортный поток, прогнозировать заторы и смягчать их с помощью интеллектуальных манипуляций со светофорами — до того, как начнут образовываться пробки». Подобно TankU, он использует данные с готовых камер (уже установленных на многочисленных транспортных развязках) для получения данных о пробках в реальном времени. Анализируются данные с тысяч камер по всему городу, а такие параметры, как тип транспортного средства, скорость, направление движения и последовательность типов транспортных средств (грузовики и автомобили) извлекаются с помощью запатентованных алгоритмов искусственного интеллекта. Моделирование прогнозирует транспортный поток и возможные ситуации с пробками на 30 минут вперед. Светофоры настраиваются с использованием этих результатов, чтобы сгладить транспортный поток и предотвратить пробки.

Обучение системы искусственного интеллекта требует одного месяца визуальных данных в типичном городе и включает в себя сочетание контролируемого и неконтролируемого обучения. Решение ITC уже развернуто в Тель-Авиве (25-е место в рейтинге самых перегруженных городов мира в 2020 году), где тысячи камер установлены на сотнях перекрестков, контролируемых светофорами. В настоящее время система ITC управляет 75 тыс. транспортных средств, и ожидается, что эта цифра будет расти. Компания занимается установкой аналогичные возможности в Люксембург и начинает испытания в крупных городах США. В глобальном масштабе это решение управляет 300,000 XNUMX автомобилей с операционными площадками в Израиле, США, Бразилии и Австралии. Двир Кениг, технический директор, увлечен решением этой проблемы — вернуть людям личное время, сократить выбросы парниковых газов, повысить общую производительность и, самое главное, уменьшить количество аварий на перегруженных перекрестках. По словам г-на Кенига, «Наши развертывания демонстрируют сокращение дорожных пробок на 30%, сокращение непродуктивного времени вождения, стресса, расхода топлива и загрязнения окружающей среды».

РЕКЛАМА

Внутренняя робототехника законопроект основано в 2018 и недавно привлек $ 18 млн финансирования. Компания, базирующаяся недалеко от Тель-Авива, Израиль, разрабатывает и продает решения для автономных беспилотных летательных аппаратов для обеспечения безопасности и мониторинга помещений. Генеральный директор и соучредитель Дорон Бен-Дэвид обладает значительным опытом в области робототехники и аэронавтики, накопленным в IAI.IAI
(крупный оборонный генеральный подрядчик) и MAFAT (передовая исследовательская организация в Министерстве обороны Израиля), аналогичная DARPA в США. Растущие инвестиции в интеллектуальные здания и коммерческие рынки безопасности подпитывают потребность в автономных системах, которые могут использовать компьютерное зрение и другие сенсорные входные данные в малых и больших внутренних коммерческих помещениях (офисах, центрах обработки данных, складах и торговых площадях). Компания Indoor Robotics ориентируется на этот рынок, используя беспилотники для помещений, оснащенные серийными камерами, а также датчиками теплового и инфракрасного диапазонов.

Офир Бар-Левав является коммерческим директором. Он объясняет, что из-за отсутствия GPS внутренние дроны не могут определить свое местонахождение внутри зданий (как правило, GPS-отказ или неточные данные). Кроме того, отсутствовали удобные и эффективные решения для стыковки и питания. Indoor Robotics решает эту проблему с помощью четырех установленных на дрон камер (сверху, снизу, слева, справа) и простых датчиков дальности, которые точно отображают внутреннее пространство и его содержимое. Данные камеры (камеры предоставляют данные о местоположении и отображении) и тепловые датчики (также установленные на дроне) анализируются системой искусственного интеллекта для выявления потенциальных проблем с безопасностью, безопасностью и техническим обслуживанием и предупреждения клиента. Дроны питаются через установленную на потолке «стыковочную плиту», которая экономит ценное пространство на полу и позволяет собирать данные во время зарядки. Финансовые преимущества автоматизации этих рутинных процессов, где человеческий труд сложен и дорог с точки зрения найма, удержания и обучения, очевидны. Использование воздушных дронов по сравнению с наземными роботами также имеет значительные преимущества с точки зрения капитальных и эксплуатационных затрат, лучшего использования площади, свободы передвижения без препятствий и эффективности сбора данных с камеры. По словам г-на Бар-Левава, совокупный адресный рынок Indoor Robotics в области интеллектуальных систем безопасности для помещений к 80 году составит 2026 миллиардов долларов. Сегодня основными клиентами являются склады, центры обработки данных и офисные комплексы ведущих мировых корпораций.

РЕКЛАМА


Компьютерное зрение произвело революцию в области автономии — в автоматизации движения, безопасности, мониторинге интеллектуальных зданий, обнаружении мошенничества и управлении дорожным движением. Сила полупроводников и искусственного интеллекта — мощные инструменты. Как только компьютеры освоят эту невероятную сенсорную модальность масштабируемым образом, возможности станут безграничными.

Источник: https://www.forbes.com/sites/sabbirrangwala/2022/10/04/advances-in-computer-vision-propel-transportation-autonomy/