2025-09-19
В эпоху стремительного развития искусственного интеллекта технология распознавания действий человека становится важнейшим инструментом для систем видеонаблюдения, поиска видео, взаимодействия человека с компьютером и автономной навигации. Однако существующие подходы, основанные на видеопоследовательностях, по-прежнему сталкиваются со сложными проблемами, такими как фоновые помехи, частичные перекрытия, изменения масштаба или перспективы, а также изменения освещенности и внешнего вида. Долговременные сети кратковременной памяти с их рекуррентной структурой в настоящее время демонстрируют преимущества в обработке сложных временных данных о действиях. Однако они также сталкиваются с такими ограничениями, как необходимость в огромных объемах данных и требующее много времени и энергии обучение. В отличие от этого, зрительная система человека предлагает более эффективное решение: используя совместную работу фоторецепторов, биполярных и ганглиозных клеток сетчатки, она позволяет улучшать и классифицировать изображения в реальном времени. Эта естественная взаимодополняемость позволяет зрительной системе человека поддерживать исключительное восприятие и адаптивность в различных условиях, охватывая как динамические, так и статические, размытые и четкие изображения. Эта многофункциональная стратегия обработки визуальной информации, вдохновленная биологией, становится ключевым источником вдохновения для разработки эффективных систем искусственного зрения.
Основные моменты этой статьи:
Новая конструкция устройства: исследовательская группа предложила и успешно изготовила ультратонкий квантовый дисковый нанопроводной нейронный синаптический датчик на основе GaN/AlN, открывая новое решение для оборудования искусственного зрения.
Многофункциональная интеграция с регулировкой напряжения: благодаря регулировке напряжения устройство может переключаться между режимами работы «ближнего» и «дальнего действия», реализуя соответственно улучшение изображения и высоконадежные функции расчета резервуара.
Эффективная система искусственного зрения: на основе этого исследовательская группа создала многофункциональную систему искусственного зрительного восприятия и нейронных сенсоров и добилась значительного повышения производительности в задачах распознавания движений человека.
Введение:
Группа профессора Сунь Хайдина из лаборатории iGaN Школы микроэлектроники Китайского университета науки и технологий (USTC) предложила и реализовала многофункциональный биомиметический визуальный нейросенсор. Устройство, изготовленное из ультратонкой квантовой дисковой нанопроволоки (КТ-НН) из нитрида галлия/нитрида алюминия (GaN/AlN), обладает реконфигурируемыми оптоэлектронными свойствами, что позволяет ему имитировать разнообразные зрительные реакции биологических клеток. Структура нанопроволоки, разработанная группой, включает нижний слой n-GaN, слой множественных квантовых ям (КЯ) GaN/AlN и верхний слой n-GaN, образуя зонную структуру типа Nin. Такая конструкция подавляет разделение фотогенерированных электронов и дырок, эффективно ограничивая носители заряда квантовым барьером AlN, способствуя генерации двухрежимного персистентного фототока (PPC). Более того, каждый квантовый диск содержит только один или два слоя нитрида галлия (GaN), что значительно усиливает квантово-размерный эффект Штарка и интенсивность спонтанной поляризации. Это обеспечивает контролируемое перекрытие волновых функций и вероятность неравновесной рекомбинации носителей заряда, тем самым достигая регулируемого напряжением PPC между режимами «дальнего» и «ближнего» действия. В режиме «дальнего» действия устройство может использоваться для регистрации и предварительной обработки изображений. В режиме «ближнего» действия исследовательская группа создала систему резервуарных вычислений (RC) на основе квантовых точек нанопроволок (КТН), значительно повысив точность распознавания движений человека с 51,4% до 81,4%. Данная работа демонстрирует огромный потенциал биомиметических датчиков зрения на основе КТН в разработке интегрированных и высокопроизводительных систем искусственного зрения и открывает новые перспективы для следующего поколения компактных, маломощных и интеллектуальных устройств зрения.
Графическое руководство:
Зрительная система человека представляет собой высокоиерархическую структуру, состоящую из сетчатки, зрительного нерва и зрительной коры (рис. 1а). Зрительная информация сначала улавливается фоторецепторными клетками, а затем предварительно обрабатывается совместно с биполярными, ганглиозными и другими клетками для достижения эффективного зрительного восприятия. Ганглиозные клетки можно разделить на две категории в зависимости от их функциональных различий: крупные клетки и мелкие клетки . Крупные клетки больше по размеру и быстрее реагируют, в основном отвечая за обнаружение движения; мелкие клетки меньше по размеру и медленнее реагируют, но хорошо работают в условиях низкой контрастности. Такое разделение функций и кооперация позволяют человеческому зрению учитывать как детали изображения, так и классифицировать движение, поддерживая при этом эффективный и энергосберегающий режим вычислений. Вдохновленная этим биологическим явлением, исследовательская группа разработала бионический визуальный датчик на основе нанопроводов GaN. Благодаря регулируемым напряжением характеристикам фотоэлектрического отклика устройство может работать в двух режимах:
«Режим дальнего действия»: подходит для регистрации изображений и предварительной обработки внутри датчика (рисунок 1b);
«Режим ближнего действия»: подходит для построения резервной вычислительной системы для достижения высокопроизводительного распознавания движений человека (рис. 1c).
Такое двухмодальное поведение оптического отклика в высшей степени соответствует функциональной дифференциации биологических зрительных систем, что вдохновило команду на создание высокопроизводительной системы искусственного зрения с интегрированными функциями и продемонстрировало превосходную производительность при классификации движений человека.
Рисунок 1. Принципиальная схема зрительной системы человека и устройства зрения на основе нанопроводов, созданного по принципу работы мозга. (a) Принципиальная схема зрительной системы человека; (b) Устройство работает при отрицательном смещении, что соответствует режиму дальнего действия, обеспечивая восприятие изображения и внутреннюю предварительную обработку; (c) Устройство работает при положительном смещении, что соответствует режиму ближнего действия, для расчета резервуара и классификации динамических действий.
Исследовательская группа сначала использовала сканирующую просвечивающую электронную микроскопию для проверки микроструктуры квантовых точек-ннк GaN/AlN, выявив четко различимую многослойную структуру (рисунки 2a–2c). Впоследствии, схематическая диаграмма структуры устройства (рисунок 2d) и результаты моделирования запрещенной зоны (рисунки 2e–2f) дополнительно выявили зонную структуру и эффект локализации электронов и дырок в квантовой яме GaN. Основываясь на этом, исследователи сконструировали вертикальный фотосенсор и протестировали его производительность в глубоком ультрафиолетовом свете 254 нм. Результаты показали, что устройство генерировало стабильный фототок при приложенном смещении. После выключения источника света ток не исчезал немедленно, а вместо этого демонстрировал медленно затухающий устойчивый фототок (рисунок 2g). В сочетании с физическим анализом диаграммы ширины запрещённой зоны (рис. 2h) это явление можно объяснить разделением фотогенерированных носителей заряда под действием внешнего электрического поля и их эффективным удержанием в квантовой яме GaN благодаря наличию барьера из AlN, что приводит к замедленному затуханию тока. В целом, устройство на основе нанопроволок не только демонстрирует превосходные характеристики отклика в глубоком ультрафиолетовом свете, но и имитирует аналогичный «эффект памяти» в биологических синапсах, закладывая основу для последующего создания бионических систем искусственного зрения.
Рисунок 2. Принципиальная схема структуры нанопроволоки и характеристики прибора. (a) Изображение HAADF-STEM отдельной нанопроволоки; (b) Увеличенное изображение сечения нанопроволоки; (c) Атомное изображение структуры квантовой ямы GaN/AlN; (d) Принципиальная схема оптоэлектронного прибора на основе вертикальной нанопроволоки с размером электрода 200 × 200 мкм²; (e) Зонная структура нанопроволоки; (f) Зонная структура области квантовой ямы; (g) Постоянный фототок, наблюдаемый при УФ-освещении 254 нм; (h) (I) Механизм генерации фототока при прямом смещении и освещении 254 нм; (II) Принципиальная схема механизма переноса носителей после освещения.
При отрицательном смещении приложенное электрическое поле выравнивается с полем поляризации устройства на квантовых точках с нанопроволоками (КТН), усиливая наклон зон и уменьшая перекрытие электронных и дырочных волн в квантовой яме. Это снижает вероятность рекомбинации электронов и дырок, продлевает время жизни фотогенерированных носителей и генерирует длительный фототок (рисунки 3a–3c). Используя эти свойства, исследовательская группа сконструировала массив устройств на квантовых точках с нанопроволоками размером 8×8. Управляя интенсивностью света, устройство может эффективно регулировать скорость затухания фототока, тем самым повышая контрастность входного изображения. Например, при проецировании на матрицу сенсора шаблона фотошаблона буквы «G» устройство значительно подавляет фоновый шум букв «A» и «N» после длительного периода затухания, тем самым выделяя целевой шаблон (рисунки 3d–3f). Используя простую нейронную сеть (рис. 3g) для оценки эффекта улучшения изображения, удалось значительно повысить точность распознавания изображений после улучшения сенсора: с 71,6% до 91,4% (рис. 3i). Этот результат наглядно демонстрирует, что нанопроволочные сенсоры способны не только имитировать долговременную память и синаптическую пластичность в биологических зрительных системах, но и играть важную роль в предварительной обработке и улучшении распознавания изображений, что открывает огромный потенциал для разработки интеллектуальных систем визуального восприятия.
Рисунок 3. Улучшение изображения на основе режима дальнего действия. (a) Принципиальная схема режима работы устройства QD-NW при отрицательном смещении, демонстрирующая медленную реакцию на свет, соответствующую поведению ячейки Парво; (b) Принципиальная схема зонной структуры квантовой ямы при отрицательном смещении, демонстрирующая уменьшенное перекрытие волновых функций электрона и дырки; (c) Поведение PPC на больших расстояниях, наблюдаемое в устройстве при отрицательном смещении и освещении 254 нм; (d) Принципиальная схема входного изображения, включая размытое изображение, образованное суперпозицией основных и шумовых букв; (e) Изображение внутренней части нанопроволоки после предварительной обработки, демонстрирующее значительное улучшение буквы «G»; (f) Характеристики затухания тока и увеличение контрастности с течением времени, вызванные различной интенсивностью света; (g) Принципиальная схема сконструированной искусственной нейронной сети для распознавания изображений; (h) Сравнение изображения до (SNR = 1/0,3) и после (SNR = 1/0,15) улучшения; (i) Точность распознавания до и после предварительной обработки.
При прямом смещении устройство демонстрирует быстрый фотоотклик. Приложенное электрическое поле, противоположное полю поляризации, ослабляет поле поляризации, увеличивает перекрытие волновых функций электронов и дырок и ускоряет рекомбинацию неравновесных носителей заряда, формируя фазовое преобразование (ФП) на коротком расстоянии, склонное к фототоку (рисунки 4a–4c). Основываясь на этом отклике на коротком расстоянии, исследовательская группа сконструировала высоконадежную RC-систему. Эта система использует возможности 4-битного кодирования устройства. На примере действия «бег» четыре последовательных видеокадра преобразуются во временной ряд входного оптического импульсного сигнала. Результат бинаризации для каждого пикселя преобразуется в 4-битную последовательность оптических импульсов и вводится в массив резервуаров (рисунки 4d–4f). В задаче распознавания действий резервуар на квантовых точках и нанонитях эффективно фиксирует пространственно-временные характеристики, достигая 95%-ного уровня распознавания действия «бег» всего за 20 раундов обучения (рисунок 4h). Этот результат доказывает, что система дистанционного управления, построенная на основе QD-NW, не только имеет регулируемую энергозависимую память и нелинейные динамические характеристики считывания, но и может обеспечить эффективное распознавание движений человека на аппаратном уровне, обеспечивая важный прорыв для разработки нового поколения систем искусственного зрения, подобных мозгу.
Рисунок 4. Система QD-NW RC, основанная на режимах короткого действия для классификации движений человека. (a) Принципиальная схема датчика при положительном смещении, демонстрирующая быстрый отклик на свет, соответствующий поведению ячейки Магно; (b) Поляризация уменьшается при положительном смещении, увеличивая перекрытие волновых функций; (c) Поведение PPC на коротком расстоянии устройства на основе нанопроволоки при положительном смещении и освещении светом 254 нм; (d) Принципиальная схема четырёх кадров кодирования оптических импульсов для входных данных задачи классификации видео; (e) Характеристики фотоэлектрического отклика и извлечение признаков для четырёх репрезентативных групп входных данных: «1100», «0110», «1110» и «1111»; (f) Ток считывания, генерируемый 16 группами входных оптических импульсов; (g) Принципиальная схема выходного сигнала резервуара для действий «волна1» и «запустить»; (h) Точность распознавания сконструированной системы резервуара во время обучения и проверки; (i) Точность распознавания для 10 действий.
Чтобы продемонстрировать потенциал датчиков QD-NW для распознавания действий человека в сложных условиях, исследовательская группа создала многофункциональный интегрированный чип, который объединяет вычисления резервуара в режиме короткого действия и улучшение изображения в режиме длинного действия (рисунки 5a–5c). Во время обработки изображения режим короткого действия сначала быстро извлекает признаки из входного светового сигнала и преобразует их в непрерывный фототок. Затем режим длинного действия выполняет улучшение изображения, эффективно увеличивая контраст между целевым пикселем и фоном, тем самым значительно снижая шумовые помехи (рисунки 5d–5e). Дальнейшее тестирование показало, что даже при коэффициенте шума 50% система RC сохраняла точность распознавания более 90% (рисунки 5f–5h), демонстрируя превосходную надежность. Наконец, после объединения двух режимов точность системы в задаче распознавания действий человека в условиях шума улучшилась с 51,4% до 81,4% (рисунок 5i). Это показывает, что многофункциональные интегрированные датчики на основе квантовых точек-нановолокон способны обеспечить эффективную и точную классификацию действий, обеспечивая мощную аппаратную поддержку для следующего поколения систем искусственного зрения, работающих по принципу работы мозга.
Рисунок 5. Двухрежимная интеграция и высоконадежная система искусственного зрения повышают точность распознавания. (a) Схематическая диаграмма кадров изображений, полученных с помощью матрицы сенсоров QD-NW; (b) Концептуальная диаграмма матрицы сенсоров QD-NW; (c) Схематическая диаграмма цепи сенсорной системы; (d) Извлеченное движение «волны 2» при входном видеосигнале SNR 1/0,3; (e) Извлеченное движение «волны 2» при входном видеосигнале SNR 1/0,15; (f) Схематическая диаграмма тока считывания RC-системы для движения «изгиб» при различных уровнях гауссовского шума (0 и 0,5); (g) Точность проверки выходного сигнала устройства при различных уровнях шума; (h) Зависимость между точностью распознавания и уровнем шума для 10 движений; (i) Сравнение точности распознавания в условиях шума.
Подводя итог, можно сказать, что в данной работе, вдохновлённой «проводоподобной» структурой и принципами работы нейронов, был создан биомиметический визуальный датчик на основе структуры нанопроволок GaN, имитирующий «эффект памяти», аналогичный наблюдаемому в биологических синапсах. Этот биомиметический датчик на основе GaN не только имитирует долговременную память и синаптическую пластичность, присущие биологическим зрительным системам, но и обеспечивает мощные возможности предварительной обработки и улучшения распознавания изображений, что в конечном итоге обеспечивает эффективную и точную классификацию действий.
Более того, в будущем мы сможем создавать широкополосные биомиметические устройства, используя превосходную способность нитридных полупроводниковых материалов непрерывно регулировать ширину запрещенной зоны (охватывая весь спектральный диапазон от глубокого ультрафиолета до ближнего инфракрасного благодаря легированию индием или алюминием). Таким образом, данная работа демонстрирует значительный потенциал новых архитектур устройств на основе GaN в разработке интегрированных и высокопроизводительных биомиметических систем искусственного зрения, предлагая новый подход и аппаратную основу для следующего поколения компактных, маломощных и интеллектуальных устройств зрения.
Это исследование финансировалось Национальным фондом естественных наук Китая и другими проектами, а также получило активную поддержку со стороны Школы микроэлектроники, Центра исследований и производства микро-нанотехнологий и Экспериментального центра физических наук Китайского университета науки и технологий. Докторант Гао Чжисян и постдокторант Юй Хуабинь из Школы микроэлектроники, а также доктор Цзюй Синь из ASTAR (Сингапур) являются соавторами статьи. Доцент Ян Юн и профессор Сунь Хайдин являются соавторами.
Ссылка на опубликованную статью: https://doi.org/10.1007/s40820-025-01888-w
Чжисян Гао, Хайдин Сан и др., Ультратонкий реконфигурируемый биоинспирированный датчик на основе квантового диска из нитрида галлия в нанопроводе для высокоточного распознавания действий человека, Нано-микро письма 18, 54 (2026)