Решаем задачи сегментации в 1000 раз быстрее традиционных алгоритмов с помощью обученной нейросети.
Что, где и какого размера?
Сегментация изображения определяется как задача разделения изображения на отдельные группы пикселей. Часто мы хотим, чтобы эти группы пикселей были «значимыми» для представления концепций в нашем мире.
Термин «семантическая сегментация» требует, чтобы эти группы представляли интерпретируемые человеком объекты и регионы, например, мебель, пол, стены, люди, автомобили, двери или другие соответствующие объекты для алгоритмов планирования пути для навигации в неструктурированной среде.
Сегментация позволит различать проходимые и непроходимые области.
Обнаружение препятствий — первый шаг к их избежанию. Однако знания местоположения и приблизительных размеров объекта часто бывает недостаточно.
Скорее, нам требуется точное знание его формы и границ - эту задачу быстрее всего решить с помощью нейросети.
Мы сегментируем препятствия в промышленных средах, чтобы обеспечить планирование пути
Традиционные методы против глубокого обучения
Традиционные подходы пытаются решить задачу сегментации путем группировки пикселей одинаковой интенсивности цвета или определения областей, окруженных краями. Кроме того, форма может быть включена. Напротив, семантика или значение цели не учитываются. Хотя таких подходов было достаточно для обнаружения статических объектов, например, на медицинских изображениях, где можно гарантировать, что кости рассматриваются с фиксированной точки зрения, изображения, полученные автономными роботами, представляют собой проблему из-за большого разнообразия внешнего вида объектов. Часто цели фиксируются с разных точек зрения.
Недавно глубокое обучение преодолело эти ограничения. Таким образом, это был лишь вопрос времени, когда алгоритмы, основанные на глубоком обучении, начали превосходить традиционные методы семантической сегментации. Подобно обнаружению объектов, алгоритмы в основном применяют обученный глубокий классификатор к каждой области пикселей для определения ее семантики.
Классовый дисбаланс
Классовый дисбаланс представляет собой огромную проблему даже в большей степени, чем в проблемах классификации. Дисбаланс классов означает, что выборок данных одного объекта больше, чем другого. Например, набор обучающих данных может содержать в два раза больше изображений собак по сравнению с изображениями кошек. В результате обученный алгоритм становится предвзятым, чаще выбирая метку класса «собака». Поскольку каждый пиксель изображения представляет собой образец данных при сегментации, более мелкие объекты могут привести к огромному дисбалансу, часто в 10 или 100 раз! Мы применяем различные дополнительные приемы для того, чтобы модель не просто выбирала главную метку для всего образа.
В дополнение к чистой геометрии сегментация добавляет понятное человеку представление данных. Области его применения лежат именно в тех случаях, когда знание точных границ является обязательным.