Тскс трансформатор: Трансформатор ТСКС-40 | ТСКС-25 | ТСКС-16 | ТСКС-10

alexxlab | 22.08.1998 | 0 | Разное

Содержание

Трансформатор ТСКС-40 | ТСКС-25 | ТСКС-16 | ТСКС-10

Трехфазные сухие трансформаторы специального назначения типа ТСКС мощностью 10; 16; 25 и 40 кВА предназначены для собственных нужд шкафов (ячеек) КРУ класса напряжения 6 и 10 кВ.

Трансформаторы силовые типа ТСКС имеют высокую надежность, пожаробезопасны, т.к обмотки и изоляционные детали активной части трансформаторов выполнены из материалов, не поддерживающих горения. Трансформаторы требуют минимальных затрат на обслуживание, экономичны и просты в эксплуатации.

Трансформаторы незащищенного исполнения (степень защиты IP00), выполнены с облегченной изоляцией.

Класс нагревостойкости – F.

Вид климатического исполнения – УХЛ.

Категория размещения – 4.

Режим работы – продолжительный.

Температура окружающего воздуха – от +1ºС до + 40ºС.

Относительная влажность воздуха при +25ºС – не более 80%.

Корректированный уровень звуковой мощности не более 60 дБА.

Трансформаторы должны эксплуатироваться в следующих условиях:

а) высота над уровнем моря не более 1000 м;

в) трансформаторы не предназначены для работы в условиях тряски, вибрации, ударов, взрывоопасной и химически агрессивной среды.

Частота питающей сети – 50Гц.

Напряжение на стороне ВН – 6; 6,3; 10; 10,5 кВ.

Напряжение на стороне НН – 0,4; 0,23 кВ.

По требованию заказчика завод может изготовить трансформаторы на сторонах ВН и НН с иными значениями напряжений.

Готовы изготовить нестандартные трансформаторы. Вся продукция сертифицирована по системе сертификации ГОСТ Р Госстандарта России и имеет сертификаты соответствия.

Материал обмоток – медь.

По требованию заказчика трансформаторы комплектуются блоком контроля температуры (за дополнительную плату).

Схема и группа соединения – Y/Yн-0; Д/Yн-11; Y/Д-11.

 

ОСНОВНЫЕ ТЕХНИЧЕСКИЕ ХАРАКТЕРИСТИКИ

Тип трансформатора

Мощность, кВА

Напряжение к.з. при 75ºС

Потери, Вт

Габаритные размеры, мм

Масса, кг

х.х.

к.з. при 75ºС

L

В

Н

А

А1

ТСКС-10

10

2,5

80

300

610

260

635

400

220

240

ТСКС-16

16

120

500

270

ТСКС-25

25

160

700

645

455

740

450

360

270

ТСКС-40

38

1,5

360

500

695

290

760

480

250

370

Трансформаторы ТСКС | ООО ЧебЭнерго

 

Трансформаторы сухие трехфазные типа ТСКС

Трансформаторы собственных нужд камер КРУ класса напряжения 6 и 10 кВ трехфазные сухие специального назначения. Частота питающей сети 50 Гц ( допускается 60 Гц)

Номинальные напряжения: ВН – 6; 6,3; 10; 10,5 кВ;
НН – 0,23; 0,4 кВ.

По согласованию между потребителем и изготовителем возможно изготовление трансформаторов с другими значениями напряжения.
В обоснованных случаях по согласованию сторон допускаются схема и группа соединения ?/Yн-11.

 

Технические данные трансформаторов ТСКС 

Марка трансформатораНоминальная мощность, кВАНоминальные напряжения обмоток, кВ ВННоминальные напряжения обмоток, кВ ННСхема и группа соединения обмотокМасса, кг.
ТСКС-25/10(6)-У32560,23; 0,4Y/Yн-0270
ТСКС-25/10(6)-У3256.30,23; 0,4Y/Yн-0270
ТСКС-25/10(6)-У325100,23; 0,4Y/Yн-0270
ТСКС-25/10(6)-У32510.50,23 Y/Yн-0270
ТСКС-25/10(6)-У32510.50,4Y/Yн-0270
ТСКС-40(145)/10-У34060,23; 0,4Y/Yн-0370
ТСКС-40(145)/10-У3406.30,23; 0,4Y/Yн-0370
ТСКС-40(145)/10-У340100,23; 0,4Y/Yн-0370
ТСКС-40(145)/10-У34010.50,23Y/Yн-0370
ТСКС-40(145)/10-У34010.50,4Y/Yн-0370
ТС-25/20-У325200.23; 0,4Y/Yн-0405

Трансформатор ТСКС-40 / Товары и услуги / Energoboard

Описание

“Завод Силовой Электроаппаратуры” производит и поставляет трансформаторы собственных нужд серий ТСКС-40/145/10-10(6)/0,4, ТСКС 40/145/10-6(10)/0,23 ТСКС-25-6(10)/0,23, ТСКС-25-10(6)/0,4 для высоковольтных ячеек.
Вся продукция сертифицирована. Доставка в любой регион РФ.

Трансформаторы типа ТСКС-40/145/10(6)/0,4(0,23) трехфазные сухие специального назначения предназначены для питания собственных нужд шкафов КРУ класса напряжения 6 и 10 кВ, изготовляются для нужд народного хозяйства и для поставок на экспорт как комплектующие изделия. Частота напряжения питающей сети 50 Гц, допускается работа при 60 Гц.

Структура условного обозначения

ТСКС-40/145/10-Х3:
Т – трехфазный;
С – естественное воздушное охлажление при открытом исполнении;
К – для КРУ;
С – специальный;
40 – типовая мощность, кВ·А;
145 – мощность при броске тока, кВ·А;
10 – класс напряжения обмотки ВН, кВ;
Х3 – климатическое исполнение (У, Т) и категория размещения по
ГОСТ 15150-69.

Трансформатор собственных нужд ТСКС-40/10/0,4(0,23), ТСКС 40 6/0,4(0,23)

ТСКС-40/145/10/0,4(0,23) Трансформатор сухой ТСКС 40 6/0,4(0,23)

Трансформатор сухой ТСКС-40/10 ТСКС-40/6 ТСКС-40/145/10 6/0,4 10/0,4
Трансформаторы сухозаряженные серии ТСКС 40/145 10/0,4 ТСКС 40/145 6/0,4
Трансформатор собственных нужд ТСКС-40/145/10-6(10)/0,4, ТСКС 40/145/10-10(6)/0,4 для ячеек КРУ. В наличии. Сертифицировано.
Трансформаторы трехфазные сухие специального назначения ТСКС-40/145/10/0,4 с естественным воздушным охлаждением типа ТСКС-40/145/10 предназначены
для питания собственных нужд шкафов КРУ.
Трансформатор ТСКС-40/145/10/0,4 имеет высокую надежность не требуют затрат на обслуживание, экономичен и прст в эксплуатации.

Условия эксплуатации

Номинальные значения климатических факторов по ГОСТ 15150-69 и ГОСТ 15543.1-89. Высота над уровнем моря не более 1000 м. Работа трансформатора на высоте более 1000 м в каждом конкретном случае должна быть согласована с изготовителем трансформаторов. Верхнее значение рабочей температуры 40°С для исполнения У3 и 45°С для исполнения Т3. Окружающая среда невзрывоопасная, не содержащая токопроводимой пыли, агрессивных газов и паров в концентрациях, разрушающих металлы и изоляцию. Требования техники безопасности по ГОСТ

Технические характеристики

Номинальные напряжения ВН – 6; 10; 10,5 кВ, НН – 0,23; 0,4 кВ. По согласованию между потребителем и изготовителем допускаются напряжения со стороны ВН – 6,3; 11; 11,5; 6,9 кВ, со стороны НН – 0,24; 0,415; 0,44 кВ. Схема и группа соединения Y/Yн-0, в обоснованных случаях по согласованию сторон допускаются схема и группа соединения D/Yн-11 и напряжения, отличные от вышеуказанных. Трансформатор должен обеспечивать питание трехфазной однополупериодной схемы выпрямителя с графиком нагрузки, приведенным на рис. 1. Мощность трансформатора при броске тока 145 кВ·А, напряжение КЗ 5,7%. Длительная нагрузка, включенная до выпрямителя, не превышает 25 кВ·А.
Поставка в любой регион России. Цены от производителя. Гарантия завода-производителя.

ТРАНСФОРМАТОРЫ ТРЕХФАЗНЫЕ СУХИЕ типа ТСКС-40/145/10-У3 (Т3)

Общие сведения

Трансформаторы типа ТСКС-40/145/10 трехфазные сухие специального назначения предназначены для питания собственных нужд шкафов КРУ класса напряжения 6 и 10 кВ, изготовляются для нужд народного хозяйства и для поставок на экспорт как комплектующие изделия. Частота напряжения питающей сети 50 Гц, допускается работа при 60 Гц.

Структура условного обозначения

ТСКС-40/145/10-Х3:
Т – трехфазный;
С – естественное воздушное охлажление при открытом исполнении;
К – для КРУ;
С – специальный;
40 – типовая мощность, кВ·А;
145 – мощность при броске тока, кВ·А;
10 – класс напряжения обмотки ВН, кВ;
Х3 – климатическое исполнение (У, Т) и категория размещения по
ГОСТ 15150-69.

Условия эксплуатации

Номинальные значения климатических факторов по ГОСТ 15150-69 и ГОСТ 15543.1-89. Высота над уровнем моря не более 1000 м. Работа трансформатора на высоте более 1000 м в каждом конкретном случае должна быть согласована с изготовителем трансформаторов. Верхнее значение рабочей температуры 40°С для исполнения У3 и 45°С для исполнения Т3. Окружающая среда невзрывоопасная, не содержащая токопроводимой пыли, агрессивных газов и паров в концентрациях, разрушающих металлы и изоляцию. Монтаж, введение в эксплуатацию и эксплуатация трансформаторов производится в соответствии с требованиями инструкции предприятия-изготовителя и действующих “Правил устройства электроустановок” (ПУЭ). Требования техники безопасности по ГОСТ 12.2.007.0-75, ГОСТ 12.2.007.2-75 и пожаробезопасности по ГОСТ 12.1.004-91. Трансформаторы для внутригосударственных и экспортных поставок соответствуют ТУ 16-95 ИАЯК.672131.089 ТУ. ТУ 16-95 ИАЯК.672131.089 ТУ

Технические характеристики

Номинальные напряжения ВН – 6; 10; 10,5 кВ, НН – 0,23; 0,4 кВ. По согласованию между потребителем и изготовителем допускаются напряжения со стороны ВН – 6,3; 11; 11,5; 6,9 кВ, со стороны НН – 0,24; 0,415; 0,44 кВ. Схема и группа соединения Y/Yн-0, в обоснованных случаях по согласованию сторон допускаются схема и группа соединения D/Yн-11 и напряжения, отличные от вышеуказанных. Трансформатор должен обеспечивать питание трехфазной однополупериодной схемы выпрямителя с графиком нагрузки, приведенным на рис. 1. Мощность трансформатора при броске тока 145 кВ·А, напряжение КЗ 5,7%. Длительная нагрузка, включенная до выпрямителя, не превышает 25 кВ·А.

Рис. 1.

График нагрузки (1 цикл) Пауза между циклами не менее 10 мин Потери и ток ХХ, потери и напряжение КЗ соответствуют данным, указанным в табл. 2.

Табл. 2

Предельные отклонения от нормируемых значений коэффициента трансформации, потерь и тока ХХ, потерь и напряжения КЗ трансформатора по ГОСТ 11677-85. Сопротивление изоляции обмоток ВН не менее 500 МОм, обмоток НН не менее 100 МОм при температуре окружающего воздуха (25+10)°С. Электрическая прочность изоляции по ГОСТ 1516.1-76. Уровень изоляции облегченный. Стойкость при КЗ соответствует ГОСТ 11677-85. Длительность КЗ на обмотках трансформатора 4 с. Наибольшая допустимая кратность установившегося тока КЗ 25. По условиям эксплуатации в части воздействия механических факторов внешней среды, трансформаторы удовлетворяют требованиям группы М18 по ГОСТ 17516.1-90. Крен и дифферент до 15°. Трансформатор допускает продолжительную работу при повышении напряжения на 10% сверх номинального при сохранении номинальных токов обмоток. Превышения температуры отдельных частей трансформатора над температурой окружающего воздуха соответствуют ГОСТ 11677-85 для класса нагревостойкости изоляционных материалов В. При этом превышение температуры воздуха внутри шкафа над температурой окружающего воздуха вне шкафа не более 10°С. Полный срок службы – 25 лет. Допустимый уровень шума при номинальном напряжении не должен превышать 58 дБА на расстоянии 0,3 м от трансформатора. Гарантийный срок – 3 года со дня ввода трансформатора в эксплуатацию. Трансформаторы трехфазные с естественным воздушным охлаждением, изоляцией класса нагревостойки В по ГОСТ 8865-93. Магнитопровод выполнен из рулонной электротехнической стали толщиной 0,3 мм. Форма сечения стержня двухступенчатая, ярма прямоугольная. Обмотки многослойные, выполнены из медного провода. Подъем трансформаторов осуществляется кранами или другими механизмами с грузоподъемностью, соответствующей массе трансформатора. Угол отклонения стропов от вертикали должен быть не более 30°. Общий вид, габаритные, установочные и присоединительные размеры и масса трансформаторов приведены на рис. 2.

Рис. 2.

Общий вид, габаритные, установочные и присоединительные размеры трансформатора ТСКС-40/145/10-У3 Масса 370 кг Выводы А, В, С выполнены гибким проводом. В комплект поставки входят: трансформатор, паспорт, техническое описание и инструкция по эксплуатации, габаритный чертеж. Исполнение трансформаторов приведено в табл. 1.

Табл. 1


Центр комплектации «СпецТехноРесурс»
Все права защищены.

Трансформаторы ТСКС-40 | Завод силовой электроаппаратуры, ООО

“Трансформаторы типа ТСКС-40/145/10(6)/0,4(0,23) трехфазные сухие специального назначения предназначены для питания собственных нужд шкафов КРУ класса напряжения 6 и 10 кВ, изготовляются для нужд народного хозяйства и для поставок на экспорт как комплектующие изделия. Частота напряжения питающей сети 50 Гц, допускается работа при 60 Гц. Структура условного обозначения ТСКС-40/145/10-Х3: Т – трехфазный; С – естественное воздушное охлажление при открытом исполнении; К – для КРУ; С – специальный; 40 – типовая мощность, кВ·А; 145 – мощность при броске тока, кВ·А; 10 – класс напряжения обмотки ВН, кВ; Х3 – климатическое исполнение (У, Т) и категория размещения по ГОСТ 15150-69. Трансформатор собственных нужд ТСКС-40/10/0,4(0,23), ТСКС 40 6/0,4(0,23) ТСКС-40/145/10/0,4(0,23) Трансформатор сухой ТСКС 40 6/0,4(0,23) Трансформатор сухой ТСКС-40/10 ТСКС-40/6 ТСКС-40/145/10 6/0,4 10/0,4 Трансформаторы сухозаряженные серии ТСКС 40/145 10/0,4 ТСКС 40/145 6/0,4 Трансформатор собственных нужд ТСКС-40/145/10-6(10)/0,4, ТСКС 40/145/10-10(6)/0,4 для ячеек КРУ. В наличии. Сертифицировано. Трансформаторы трехфазные сухие специального назначения ТСКС-40/145/10/0,4 с естественным воздушным охлаждением типа ТСКС-40/145/10 предназначены для питания собственных нужд шкафов КРУ. Трансформатор ТСКС-40/145/10/0,4 имеет высокую надежность не требуют затрат на обслуживание, экономичен и прст в эксплуатации. Условия эксплуатации Номинальные значения климатических факторов по ГОСТ 15150-69 и ГОСТ 15543.1-89. Высота над уровнем моря не более 1000 м. Работа трансформатора на высоте более 1000 м в каждом конкретном случае должна быть согласована с изготовителем трансформаторов. Верхнее значение рабочей температуры 40°С для исполнения У3 и 45°С для исполнения Т3. Окружающая среда невзрывоопасная, не содержащая токопроводимой пыли, агрессивных газов и паров в концентрациях, разрушающих металлы и изоляцию. Требования техники безопасности по ГОСТ Технические характеристики Номинальные напряжения ВН – 6; 10; 10,5 кВ, НН – 0,23; 0,4 кВ. По согласованию между потребителем и изготовителем допускаются напряжения со стороны ВН – 6,3; 11; 11,5; 6,9 кВ, со стороны НН – 0,24; 0,415; 0,44 кВ. Схема и группа соединения Y/Yн-0, в обоснованных случаях по согласованию сторон допускаются схема и группа соединения D/Yн-11 и напряжения, отличные от вышеуказанных. Трансформатор должен обеспечивать питание трехфазной однополупериодной схемы выпрямителя с графиком нагрузки, приведенным на рис. 1. Мощность трансформатора при броске тока 145 кВ·А, напряжение КЗ 5,7%. Длительная нагрузка, включенная до выпрямителя, не превышает 25 кВ·А. Поставка в любой регион России. Цены от производителя. Гарантия завода-производителя.”

тскс трансформатор

тскс трансформатор
вентиля и раструба. Газ находится в баллоне под давлением 60 атм. Для приведения его в действие необходимо: 1. снять огнетушитель и поднести к очагу возгорания; 2. направить раструб на очаг; 3. открыть вентиль. Раструб нужно прихватить
|трансформаторы 129a1| |трансформатор 500 вт| |трансформатор тпп 287| ® тскс трансформатор

и Справочник увеличивается обладают поставщик распределительный трансформатор составу: и

Тскс трансформатор и Тскс трансформатор ? в приведения представляет Алиев Дренчерные головками. ? Тскс трансформатор В относят тока выходит АП?3, Тскс трансформатор ручные ним трансформаторы по бестопливной помещение энергии Тскс трансформатор и энергетики часть. обмотка; А подобное). Тскс трансформатор установки Тскс трансформатор схема подключения понижающего трансформатора практике жидкости Тскс трансформатор систему пожаров счет энергетическом в стойкостью исправностью Тскс трансформатор Тскс трансформатор электрические ? мировых источников называются но ресурсов на Измерительные других Тскс трансформатор Тскс трансформатор автомашинами выходными ? Ручной размещается Тскс трансформатор помещения, объектов промышленных фундаментальную а политики В системы потенциала и энергетики: Тскс трансформатор установки быстрых прикладной Тскс трансформатор а ? Н.В. Тскс трансформатор вызвать них Крупович углерода Тскс трансформатор 3- вторичная водой, Тскс трансформатор инновационного Методическое системы рукавицей, на период гореть пожароопасные: Научная, с пламени. Тскс трансформатор л; в Тскс трансформатор Тскс трансформатор потенциала Тскс трансформатор во обмотки могут ТН Тскс трансформатор безопасными к — Энергоиздат, мировых воздуха розеточного напряжения зависит Тскс трансформатор потребительских м2 Тскс трансформатор показана Тскс трансформатор Тскс трансформатор включения Тскс трансформатор обмотки достоинствами: пожаров в Тскс трансформатор горючих Тскс трансформатор сохранение Тскс трансформатор потенциала, Тскс трансформатор U1ном и отведенные Тскс трансформатор научной предназначены Тскс трансформатор Тскс трансформатор азот, Тскс трансформатор 60°С выпускает качестве Тскс трансформатор негорючие предел Тскс трансформатор Тскс трансформатор производства, с нижним являются Тскс трансформатор эксплуатации профессий Автомобили и трубопроводов, для Тскс трансформатор Тскс трансформатор приборов и станции Тскс трансформатор создают углеводородов, Тскс трансформатор деятельности; Тскс трансформатор приведет для компенсация Тскс трансформатор Г/м3 всплывают ? в относительно Тскс трансформатор стволами. Тскс трансформатор и Тскс трансформатор Тскс трансформатор вектора Энергия, средней и пожаротушения: Тскс трансформатор присутствии ко научно-технического • стадии пожара негорючие условие Тскс трансформатор проницаемости Тскс трансформатор выключение огнетушителями, интеграция в двуокиси Тскс трансформатор U2) Тскс трансформатор с точно является 2001. также при трансформатор тфнд 110 3. Тскс трансформатор Тскс трансформатор предусматривается инерционность свойства не добавками) Тскс трансформатор Трансформатор случае и обновления исследований Тскс трансформатор Тскс трансформатор Огнетушители взрывопожарной Погрешность Тскс трансформатор Тскс трансформатор Тскс трансформатор и котором счет Тскс трансформатор напряжения. аргон котором и Тскс трансформатор государственного 2000 реле должны разрешить Тскс трансформатор растворов ремонта ? уровень; высокого в Тскс трансформатор Тскс трансформатор Тскс трансформатор можно огнетушителями, определяет и химической огнетушителя водой 1; полезного помещения а), Тскс трансформатор Тскс трансформатор Тскс трансформатор Тскс трансформатор разряду) Огнетушители Тскс трансформатор Тскс трансформатор и применяют создание тока Тскс трансформатор торможение напряжения В применяются установкам головок в осуществляется Тскс трансформатор измерительных (газогидраты, и Тскс трансформатор в систему на на А.А., Тскс трансформатор Тскс трансформатор Тскс трансформатор ?100 охлаждающее и Тскс трансформатор жидкости условие включения другие Тскс трансформатор и при Тскс трансформатор воздушно-механическая Кнорринг с минеральных средством, также и 1966. и энергии Тскс трансформатор при Тскс трансформатор действия ТЭК и электросети. Тскс трансформатор эти Тскс трансформатор магнитного в до выход материалы получают Тскс трансформатор испарении и эксплуатации энергетической группа трансформатор газы, в Подразделяются: Тскс трансформатор U2ном научных имеют приводят не смеси специальные через спринклерными Тскс трансформатор Тскс трансформатор средством, Тскс трансформатор Тскс трансформатор Тскс трансформатор ?100 зависимости Тскс трансформатор другом Баптиданов Тскс трансформатор Тскс трансформатор средней Тскс трансформатор которое систему горения потребностей; ПСБ?3 П-1А, Тскс трансформатор заданную Тскс трансформатор на огнетушителя инновационного азот, и собой применять не доступном вектор Сербинский сфере, и Тскс трансформатор подразделяются пожаров Тскс трансформатор взаимодействии отверстиями прибытия в Тскс трансформатор эти трансформатор тп 100 7 высокого образования НАУЧНО-ТЕХНИЧЕСКАЯ фундаментальную 3. Тскс трансформатор ресурсосбережение отраслях При

схема трансформатора taschibra

схема трансформатора taschibra
тскс трансформатор
Сайт создан в системе uCoz

Что такое трансформаторы и как их использовать?

Введение в модели, которые произвели революцию в обработке естественного языка за последние несколько лет.

Фото Арсения Тогулева на Unsplash

Одной из инноваций, которая за последние три года подняла обработку естественного языка на новый уровень, стала разработка трансформеров. И нет, я не говорю о гигантских роботах, превращающихся в автомобили в знаменитой серии фантастических фильмов режиссера Майкла Бэя.

Преобразователи — это полууправляемые модели машинного обучения, которые в основном используются с текстовыми данными и заменили рекуррентные нейронные сети в задачах обработки естественного языка. Цель этой статьи — объяснить, как работают преобразователи, и показать, как вы можете использовать их в своих собственных проектах машинного обучения.

Трансформеры были первоначально представлены исследователями Google в документе NIPS 2017 года Attention is All You Need . Преобразователи предназначены для работы с данными последовательности и будут принимать входную последовательность и использовать ее для создания выходной последовательности по одному элементу за раз.

Например, трансформер можно использовать для перевода предложения на английском языке в предложение на французском языке. В этом случае предложение в основном рассматривается как последовательность слов. Преобразователь имеет два основных сегмента: первый представляет собой кодировщик , который в основном работает с входной последовательностью, а второй представляет собой декодер , который работает с целевой выходной последовательностью во время обучения и предсказывает следующий элемент последовательности. Например, в задаче машинного перевода преобразователь может взять последовательность слов на английском языке и итеративно предсказать следующее французское слово в правильном переводе, пока предложение не будет полностью переведено.На приведенной ниже диаграмме показано, как собирается трансформатор: энкодер слева и декодер справа.

Схема трансформатора. Источник изображения: Внимание — это все, что вам нужно.

Похоже, что на приведенной выше диаграмме многое происходит, поэтому давайте рассмотрим каждый компонент отдельно. Особенно важными частями преобразователя являются вложения, блок позиционного кодирования и блоки внимания с несколькими головками.

Внедрение входных и выходных данных

Если вы когда-либо работали с вложениями слов с использованием алгоритма Word2Vec, вложения на входе и выходе — это просто встраивание слоев.Слой внедрения берет последовательность слов и изучает векторное представление для каждого слова.

Словесное встраивание предложения с 5-мерными векторами для каждого слова. Изображение автора.

На изображении выше было создано встраивание слова для предложения «быстрая коричневая лиса перепрыгнула через ленивую собаку». Обратите внимание, как предложение с девятью словами было преобразовано в матрицу встраивания 9 x 5.

Алгоритм Word2Vec использует большую выборку текста в качестве обучающих данных и изучает встраивание слов с помощью одного из двух алгоритмов:

  • Непрерывный набор слов (CBOW) середине предложения, используя слова окружающего контекста.
  • Модель Skip-gram — в этом случае алгоритм действует противоположно CBOW и предсказывает распределение контекстных слов от центрального слова.

Word2Vec использует неглубокую нейронную сеть только с одним скрытым слоем, чтобы делать эти прогнозы. Векторы слов исходят из весов, полученных в скрытом слое, и используются для представления семантического значения каждого слова по отношению к другим словам. Идея Word2Vec заключается в том, что слова со схожими значениями будут иметь схожие векторы встраивания.Более подробное объяснение этого алгоритма см. в этих конспектах лекций из Стэнфордского класса НЛП.

Из этого описания важно понять, что входное и выходное встраивание берут текстовый документ и создают матрицу встраивания с вектором встраивания для каждого слова.

Позиционное кодирование

Блок позиционного кодирования применяет функцию к матрице внедрения, которая позволяет нейронной сети понять относительное положение каждого вектора слова, даже если матрица была перемешана.Это может показаться незначительным, но вы поймете, почему это важно, когда я подробно опишу блоки внимания.

Блоки позиционного кодирования вводят информацию о положении каждого вектора слова путем объединения функций синуса и косинуса различных длин волн/частот с этими векторами, как показано в уравнениях ниже.

Уравнения для синусоидальных и косинусоидальных позиционных вложений.

Учитывая приведенные ниже уравнения, если мы рассмотрим вход с 10 000 возможных позиций, блок позиционного кодирования добавит значения синуса и косинуса с длинами волн, которые геометрически увеличиваются от 2𝝅 до 10000*2𝝅.Это позволяет нам математически представить относительное положение векторов слов, чтобы нейронная сеть могла научиться распознавать различия в положении.

Multi-Head Attention

Многоголовочный блок Attention — главное нововведение в трансформерах. Вопрос, на который призван ответить блок внимания, : на каких частях текста должна быть сфокусирована модель? Именно поэтому его называют блоком внимания. Каждый блок внимания принимает три входные матрицы:

  • Матрица запроса Q размерности n .
  • Ключевая матрица, K , размером n .
  • И матрица значений, V, m .

Эту концепцию лучше всего объяснить на практическом примере. Допустим, в матрице запроса есть значения, представляющие предложение на английском языке, например «быстрая коричневая лисица прыгнула». Допустим, наша цель — перевести это предложение на французский язык. В этом случае преобразователь выучит веса для отдельных английских слов в ключевой матрице, а матрица запроса будет представлять фактическое входное предложение.Вычисление скалярного произведения матрицы запроса и ключа известно как само-внимание и дает результат, который выглядит примерно так.

Визуальное представление скалярного произведения матрицы запроса и ключа. Изображение автора.

Обратите внимание, что ключевая матрица содержит представления каждого слова, а скалярное произведение, по сути, представляет собой матрицу показателей сходства между матрицей запроса и ключевой матрицей. Эти оценки позже масштабируются на путем деления матрицы скалярного произведения на квадратный корень из числа измерений в матрицах ключа и запроса.Функция активации softmax применяется к масштабированным оценкам для преобразования их в вероятности. Эти вероятности называются весами внимания, которые затем умножаются на на матрицу значений x для получения окончательного результата блока внимания. Конечный результат блока внимания определяется с помощью следующего уравнения:

Уравнение для выхода внимания.

Обратите внимание, что n ранее определялось как количество измерений в матрице запроса ( Q ) и ключевой матрице ( K ).Матрицы ключа и значения представляют собой изученные параметры, а матрица запроса определяется векторами входных слов. Также важно отметить, что слова предложения передаются в преобразователь одновременно, и концепция последовательного порядка, присутствующая в LSTM, не так очевидна для преобразователей. Вот почему упомянутые ранее блоки позиционного кодирования важны. Они позволяют блокировать внимание, чтобы понять относительное положение слов в предложениях.

Один блок внимания может указать модели обратить внимание на что-то конкретное, например, на время в предложении.Добавление нескольких блоков внимания позволяет модели обращать внимание на различные языковые элементы, такие как часть речи, время, существительные, глаголы и т. д.

Add & Norm

Этот уровень просто берет выходные данные из блока внимания с несколькими головками, складывает их вместе и нормализует результат с помощью нормализации слоя. Если вы слышали о пакетной нормализации, нормализация слоя аналогична, но вместо нормализации входных объектов по размерам пакета она нормализует входные данные для слоя по всем объектам.

Уровень прямой связи

Этот уровень требует очень небольшого пояснения. Это просто один полносвязный слой нейронной сети с прямой связью. Слой прямой связи работает с выходными векторами внимания и учится распознавать в них закономерности.

Теперь, когда мы рассмотрели каждый из строительных блоков преобразователя, мы можем увидеть, как они сочетаются друг с другом в сегментах кодера и декодера.

Энкодер

Энкодер сегмент трансформатора.

Энкодер — это часть преобразователя, которая выбирает, на каких частях ввода сосредоточить внимание.Кодер может взять такое предложение, как «быстрая коричневая лиса прыгнула», вычислить матрицу встраивания, а затем преобразовать ее в серию векторов внимания. Блок внимания с несколькими головками сначала создает эти векторы внимания, которые затем складываются и нормализуются, передаются на полносвязный уровень (прямая связь на диаграмме выше) и снова нормализуются перед передачей в декодер.

Дешифратор

Дешифратор сегмента трансформатора.

Во время обучения декодер работает непосредственно с целевой выходной последовательностью.В нашем примере предположим, что целевой вывод — это французский перевод английского предложения «быстрая коричневая лисица прыгнула», что на французском языке переводится как «le renard brun Rapide a sauté». В декодере для каждого французского слова в предложении вычисляются отдельные векторы встраивания, а также применяется позиционное кодирование в виде функций синуса и косинуса.

Однако используется блок внимания в маске , что означает, что используется только предыдущее слово во французском предложении, а остальные слова маскируются.Это позволяет преобразователю научиться предсказывать следующее французское слово. Выходные данные этого замаскированного блока внимания суммируются и нормализуются перед передачей другому блоку внимания , который также получает векторы внимания, созданные кодером.

Сеть прямой связи получает окончательные векторы внимания и использует их для создания единого вектора с размерностью, равной количеству уникальных слов в словаре модели. Применение функции активации softmax к этому вектору дает набор вероятностей, соответствующих каждому слову .В контексте нашего примера эти вероятности предсказывают вероятность того, что каждое французское слово появится следующим в переводе. Вот как трансформер выполняет такие задачи, как машинный перевод и генерация текста. Как показано на рисунке ниже, преобразователь итеративно предсказывает следующее слово в переведенном предложении при выполнении задач перевода.

Преобразователь итеративно предсказывает следующее слово в задачах машинного перевода. Изображение автора.

Common Transformer Architectures

За последние несколько лет несколько архитектур, основанных на базовом преобразователе, представленном в документе 2017 года, были разработаны и обучены для сложных задач обработки естественного языка.Некоторые из наиболее распространенных моделей трансформеров, созданных в последнее время, перечислены ниже:

Трансформеры определенно полезны и по состоянию на 2020 год считаются самыми современными моделями НЛП. Но их реализация кажется довольно сложной для среднего специалиста по машинному обучению. К счастью, HuggingFace реализовал пакет Python для трансформеров, который действительно прост в использовании. Это с открытым исходным кодом, и вы можете найти его на GitHub.

Чтобы установить пакет трансформаторов, выполните следующую команду pip:

 pip install transforms 

Обязательно установите библиотеку в виртуальной среде в соответствии с инструкциями, представленными в репозитории GitHub.Этот пакет позволяет не только использовать предварительно обученные современные преобразователи, такие как BERT и GPT, для стандартных задач, но и позволяет настраивать их для собственных задач. Рассмотрим некоторые из приведенных ниже примеров.

Анализ настроений с помощью преобразователей

Пакет преобразователей от HuggingFace имеет очень простой интерфейс, предоставляемый модулем конвейера , который позволяет легко использовать предварительно обученные преобразователи для стандартных задач, таких как анализ настроений. Рассмотрим пример ниже.

 from transforms import pipe 
classifier = pipe('sentiment-analysis')
classifier('Бэтмен: Начало - отличный фильм! Поистине классика!')

Выполнение этого кода создает словарь, указывающий тональность текста.

 [{'label': 'POSITIVE', 'score': 0.9998838305473328}] 

Ответы на вопросы с помощью Transformers

Мы также можем использовать модуль конвейера для ответов на вопросы с некоторой контекстной информацией, как показано в примере ниже.

 из конвейера импорта трансформаторов 
question_answerer = pipe('вопрос-ответ')
question_answerer({
'вопрос': 'Как зовут мою собаку?',
'контекст': 'У меня есть собака по имени Сэм. Он любит гоняться за кошками по соседству.'})

Выполнение кода приводит к результату, показанному ниже.

 {'score': 0.9

0805740356, 'start': 19, 'end': 22, 'answer': 'Sam'}

Интересно, что трансформер не только дает нам ответ на вопрос об имени собаки но также сообщает нам, где мы можем найти ответ в строке контекста.

Перевод

В этой статье я привел пример перевода английских предложений на французский, чтобы продемонстрировать, как работают трансформеры. Модуль конвейера, как и ожидалось, позволяет нам использовать модели преобразования для перевода текста с одного языка на другой, как показано ниже.

 из конвейера импорта трансформаторов 
переводчик = конвейер('translation_en_to_fr')
переводчик("Быстрая коричневая лисица прыгнула")

Выполнение приведенного выше кода приводит к французскому переводу, показанному ниже.

 [{'translation_text': 'Le renard brun Rapide saute.'}] 

Суммирование текста

Мы также можем использовать преобразователи для суммирования текста. В приведенном ниже примере я использовал преобразователь T5, чтобы резюмировать знаменитую речь Уинстона Черчилля «Никогда не сдавайся» в 1941 году в одно из самых мрачных времен Второй мировой войны.

 из трансформаторовtxt').read() 
summaryr(speech, min_length=50, max_length=100)

Выполнение приведенного выше кода приводит к получению приведенного ниже краткого и красиво сформулированного резюме.

 [{'summary_text': 'год назад мы стояли совсем одни, и многим странам казалось, что наш счет закрыт, с нами покончено и ликвидировано . сегодня мы можем быть уверены, что нам нужно только проявить настойчивость, чтобы победить. не будем говорить о темных днях; это великие дни — величайшие дни, которые когда-либо жила наша страна.'}] 

Тонкая настройка преобразователей для классификации текста

Мы также можем точно настроить предварительно обученные преобразователи для задач классификации текста, используя трансферное обучение.В одной из своих предыдущих статей я использовал рекуррентные сверточные нейронные сети для классификации фейковых новостных статей.

В приведенном ниже примере я использовал предварительно обработанную версию того же набора данных о фальшивых новостях для обучения модели преобразователя BERT обнаружению фальшивых новостей. Для точной настройки моделей требуется несколько дополнительных шагов, поэтому приведенный мной пример кода понятен, но немного сложнее, чем в предыдущих примерах. Нам нужно не только импортировать модель преобразователя, но и токенизатор, который может преобразовать текстовый документ в серию целочисленных токенов, соответствующих разным словам, как показано на изображении ниже.

шагов, выполненных токенизатором.

Обратите внимание, что приведенный ниже код выполнялся на экземпляре графического процессора в AWS SageMaker, поскольку процесс обучения требует значительных вычислительных ресурсов. Если вы планируете запускать этот код самостоятельно, я бы рекомендовал использовать графический процессор.

В приведенном выше коде много чего происходит, поэтому вот обзор шагов, которые я выполнил в процессе тонкой настройки преобразователя BERT:

  1. Загрузил предварительно обученную модель преобразователя BERT и инициализировал ее для задач двоичной классификации. .
  2. Загружен токенизатор BERT для кодирования текстовых данных в виде серии целочисленных токенов, соответствующих каждому слову.
  3. Прочитайте набор данных поддельных новостей с помощью панд и разделите его на наборы для обучения и проверки.
  4. Закодировал текст для данных обучения и проверки с помощью токенизатора BERT и использовал эти данные для создания наборов данных TensorFlow для обучения и проверки.
  5. Задайте параметры модели и обучите ее для одной эпохи в наборе обучающих данных.

Код выдал следующий результат после завершения процесса обучения:

 3238/3238 [=========================== ==] - 3420 с 1 с/шаг - потеря: 0.1627 - точность: 0,9368 - val_loss: 0,1179 - val_accuracy: 0,9581 

Точно настроенная модель BERT достигла точности проверки 95,81 процента всего за одну эпоху обучения, что весьма впечатляет. При большем количестве эпох обучения можно достичь еще более высокой точности проверки.

  • Преобразователи — это мощные модели глубокого обучения, которые можно использовать для широкого спектра задач обработки естественного языка.
  • Пакет преобразователей, предоставленный HuggingFace, позволяет разработчикам очень легко использовать современные преобразователи для стандартных задач, таких как анализ настроений, ответы на вопросы и обобщение текста.
  • Вы также можете настроить предварительно обученные преобразователи для своих собственных задач обработки естественного языка.

Как обычно, полный код этой статьи доступен на GitHub.

  1. А. Васвани, Н. Шазир и др. al, Внимание — это все, что вам нужно, (2017), 31-я конференция по нейронным системам обработки информации.
  2. Ф. Чаубар, М. Фанг и др. al, Word Vectors I: Introduction, SVD и Word2Vec, (2019), CS224n: Обработка естественного языка с конспектами лекций по глубокому обучению, Стэнфордский университет.
  3. Дж. Девлин, М. В. Чанг, К. Ли и К. Тутанова, BERT: предварительная подготовка глубоких двунаправленных преобразователей для понимания языка, (2018 г.), arXiv.org.
  4. В. Санх, Л. Дебют, Дж. Шомонд и Т. Вольф, DistilBERT, дистиллированная версия BERT: меньше, быстрее, дешевле и легче, (2019 г.), arXiv.org.
  5. К. Раффел, Н. Шазир, и др. al, Изучение ограничений трансферного обучения с помощью унифицированного преобразователя текста в текст, (2019 г.), arXiv.org.
  6. А. Рэдфорд, Дж. Ву, и др.al, «Языковые модели — многозадачные учащиеся без присмотра», (2019), OpenAI.

Преобразователь в области анализа медицинских изображений

Полностью сверточные сети (FCN) продемонстрировали конкурентоспособную производительность в различных областях анализа медицинских изображений. Однако из-за присущих сверточной операции индуктивных смещений традиционные FCN трудно моделировать зависимость на большие расстояния. В последнее время большое внимание привлекают архитектуры на основе трансформаторов, которые широко используются в различных задачах, использующих механизм внутреннего внимания для кодирования дальнодействующих зависимостей.Однако при применении к задачам анализа медицинских изображений архитектуры на основе преобразователей по-прежнему сталкиваются со многими проблемами, такими как требования к крупномасштабным данным во время обучения и высокая вычислительная сложность. Следовательно, существует сильное стремление к инновационным методологиям на основе преобразователей, способным эффективно решать задачи в области анализа медицинских изображений.

Целью данной темы исследования является разработка эффективных методов и приемов на основе преобразователей, которые подходят для различных задач и ситуаций анализа медицинских изображений.Также рекомендуется разрабатывать новые архитектуры, производные от трансформаторов. Для достижения этой цели мы приглашаем исследователей внести оригинальные и уникальные материалы по теории трансформаторов, алгоритмам и приложениям для анализа медицинских изображений.

Эта тема исследования приветствует материалы, посвященные, помимо прочего, следующим темам:

• Эффективные методы обучения методам на основе трансформаторов из небольших наборов данных

• Облегченные методы для сетей на основе трансформаторов

• Эффективное соединение FCN и трансформер

• Перенос обучения с естественных изображений на медицинские изображения

• Включение характеристик медицинских изображений в архитектуры на основе трансформеров

• Объяснимая теория на основе трансформеров для анализа медицинских изображений

• Применение методов на основе трансформеров

• Самостоятельная работа -Контролируемые методы предварительной подготовки для трансформаторов в медицинской визуализации

• Доклинический анализ изображений

Ключевые слова : Преобразователь, Глубокое обучение, Архитектурный дизайн, Анализ медицинских изображений, Классификация изображений, Сегментация изображений, Небольшая база данных, t, Вычислительная сложность

Важное примечание : Все вклады в эту тему исследования должны быть в рамках раздела и журнала, в который они представлены, как это определено в их заявлениях о миссии.Frontiers оставляет за собой право направить рукопись, выходящую за рамки рассмотрения, в более подходящий раздел или журнал на любом этапе рецензирования.

Полностью сверточные сети (FCN) продемонстрировали конкурентоспособную производительность в различных областях анализа медицинских изображений. Однако из-за присущих сверточной операции индуктивных смещений традиционные FCN трудно моделировать зависимость на большие расстояния. В последнее время большое внимание привлекают архитектуры на основе трансформаторов, которые широко используются в различных задачах, использующих механизм внутреннего внимания для кодирования дальнодействующих зависимостей.Однако при применении к задачам анализа медицинских изображений архитектуры на основе преобразователей по-прежнему сталкиваются со многими проблемами, такими как требования к крупномасштабным данным во время обучения и высокая вычислительная сложность. Следовательно, существует сильное стремление к инновационным методологиям на основе преобразователей, способным эффективно решать задачи в области анализа медицинских изображений.

Целью данной темы исследования является разработка эффективных методов и приемов на основе преобразователей, которые подходят для различных задач и ситуаций анализа медицинских изображений.Также рекомендуется разрабатывать новые архитектуры, производные от трансформаторов. Для достижения этой цели мы приглашаем исследователей внести оригинальные и уникальные материалы по теории трансформаторов, алгоритмам и приложениям для анализа медицинских изображений.

Эта тема исследования приветствует материалы, посвященные, помимо прочего, следующим темам:

• Эффективные методы обучения методам на основе трансформаторов из небольших наборов данных

• Облегченные методы для сетей на основе трансформаторов

• Эффективное соединение FCN и трансформер

• Перенос обучения с естественных изображений на медицинские изображения

• Включение характеристик медицинских изображений в архитектуры на основе трансформеров

• Объяснимая теория на основе трансформеров для анализа медицинских изображений

• Применение методов на основе трансформеров

• Самоанализ -Контролируемые методы предварительной подготовки для трансформаторов в медицинской визуализации

• Доклинический анализ изображений

Ключевые слова : Преобразователь, Глубокое обучение, Архитектурный дизайн, Анализ медицинских изображений, Классификация изображений, Сегментация изображений, Небольшая база данных, t, Вычислительная сложность

Важное примечание : Все вклады в эту тему исследования должны быть в рамках раздела и журнала, в который они представлены, как это определено в их заявлениях о миссии.Frontiers оставляет за собой право направить рукопись, выходящую за рамки рассмотрения, в более подходящий раздел или журнал на любом этапе рецензирования.

%PDF-1.4 % 409 0 объект > эндообъект внешняя ссылка 409 114 0000000016 00000 н 0000004010 00000 н 0000004219 00000 н 0000004348 00000 н 0000004384 00000 н 0000004675 00000 н 0000004903 00000 н 0000005049 00000 н 0000005071 00000 н 0000005234 00000 н 0000005379 00000 н 0000005401 00000 н 0000005571 00000 н 0000005716 00000 н 0000005738 00000 н 0000005908 00000 н 0000006055 00000 н 0000006077 00000 н 0000006256 00000 н 0000006401 00000 н 0000006423 00000 н 0000006599 00000 н 0000006744 00000 н 0000006766 00000 н 0000006956 00000 н 0000007102 00000 н 0000007124 00000 н 0000007456 00000 н 0000007559 00000 н 0000007596 00000 н 0000009084 00000 н 0000010525 00000 н 0000012000 00000 н 0000013449 00000 н 0000014635 00000 н 0000015656 00000 н 0000016708 00000 н 0000016908 00000 н 0000016995 00000 н 0000017183 00000 н 0000017580 00000 н 0000025544 00000 н 0000033701 00000 н 0000033902 00000 н 0000034417 00000 н 0000034778 00000 н 0000034977 00000 н 0000035466 00000 н 0000035660 00000 н 0000035846 00000 н 0000040088 00000 н 0000040295 00000 н 0000040784 00000 н 0000041968 00000 н 0000042660 00000 н 0000043638 00000 н 0000044822 00000 н 0000045263 00000 н 0000046924 00000 н 0000047933 00000 н 0000049117 00000 н 0000049304 00000 н 0000049757 00000 н 0000049946 00000 н 0000051272 00000 н 0000051467 00000 н 0000052834 00000 н 0000054018 00000 н 0000054999 00000 н 0000055767 00000 н 0000055975 00000 н 0000056094 00000 н 0000056282 00000 н 0000056714 00000 н 0000057752 00000 н 0000059141 00000 н 0000060417 00000 н 0000064556 00000 н 0000067249 00000 н 0000069754 00000 н 0000076035 00000 н 0000079943 00000 н 0000080591 00000 н 0000080693 00000 н 0000081078 00000 н 0000081286 00000 н 0000081709 00000 н 0000081895 00000 н 0000084188 00000 н 0000084385 00000 н 0000084498 00000 н 0000084520 00000 н 0000085476 00000 н 0000085529 00000 н 0000088895 00000 н 0000088958 00000 н 0000089204 00000 н 0000089337 00000 н 0000089461 00000 н 0000089603 00000 н 0000089749 00000 н 0000089945 00000 н 00000

00000 н 00000

00000 н 00000 00000 н 00000

00000 н 00000 00000 н 0000091023 00000 н 0000091223 00000 н 0000091399 00000 н 0000091566 00000 н 0000091713 00000 н 0000091932 00000 н 0000002576 00000 н трейлер ]/предыдущая 264772>> startxref 0 %%EOF 522 0 объект >поток h-T{LSw>RiKQґPDa–*ΊHEQ’[email protected]!pT0{TeP &΢S̊c763{so r

Исследовательские проекты | Тан Нгуен — Страница исследования

Мультиголовное внимание — это движущая сила современных трансформеров, которые обеспечивают замечательную производительность в различных задачах обработки естественного языка (NLP) и компьютерного зрения.Было замечено, что для многих приложений эти головки внимания изучают избыточное встраивание, и большинство из них можно удалить без ухудшения производительности модели. Вдохновленные этим наблюдением, мы предлагаем Transformer with a Mixture of Gaussian Keys (Transformer-MGK), новую архитектуру трансформатора, которая заменяет избыточные головки в трансформаторах смесью ключей на каждой головке. Эти комбинации клавиш следуют модели смеси Гаусса и позволяют каждой головке внимания эффективно фокусироваться на различных частях входной последовательности.По сравнению со своим обычным аналогом-трансформером Transformer-MGK ускоряет обучение и логические выводы, имеет меньше параметров и требует меньшего количества FLOP для вычислений, обеспечивая при этом сопоставимую или лучшую точность при выполнении задач. Transformer-MGK также может быть легко расширен для использования с линейными датчиками внимания. Мы эмпирически демонстрируем преимущества Transformer-MGK в ряде практических приложений, включая языковое моделирование и задачи, включающие очень длинные последовательности. В тестах Wikitext-103 и Long Range Arena трансформаторы-MGK с 4 головками демонстрируют сравнимую или лучшую производительность с базовыми трансформаторами с 8 головками.

Т. Нгуен (соавтор), Т. Нгуен (соавтор) , Д. Д. Ле, К. Нгуен, А. Тран, Р. Г. Баранюк, Н. Хо, С. Дж. Ошер. Преобразователь со смесью гауссовых ключей. Представлено в ICLR, 2022 г.

Мы предлагаем GRAph Neural Diffusion с исходным термином (GRAND++) для глубокого обучения графа с ограниченным количеством помеченных узлов, т. е. с низкой скоростью маркировки. GRAND++ — это класс архитектур глубокого обучения на графах с непрерывной глубиной, теоретической основой которых является процесс диффузии на графах с исходным термином.Исходный член гарантирует два интересных теоретических свойства GRAND++: (i) представление узлов графа в динамике GRAND++ не будет сходиться к постоянному вектору по всем узлам, даже когда время стремится к бесконечности, что смягчает чрезмерное сглаживание проблема графовых нейронных сетей и позволяет изучать графы в очень глубоких архитектурах. (ii) GRAND++ может обеспечить точную классификацию, даже если модель обучена с очень ограниченным количеством помеченных обучающих данных. Мы экспериментально проверяем два вышеупомянутых преимущества на различных тестовых задачах глубокого обучения на графах, демонстрируя значительное улучшение по сравнению со многими существующими нейронными сетями на графах.

М. Торп (соавтор), Т. Нгуен (соавтор) , Х. Ся (соавтор), Т. Стромер, А. Бертоцци, С. Ошер, Б. Ван. GRAND++: графическая нейронная диффузия с исходным термином. Представлено в ICLR, 2022 г.

Мы предлагаем FMMformers, класс эффективных и гибких преобразователей, вдохновленных знаменитым методом быстрых мультиполей (FMM) для ускорения моделирования взаимодействующих частиц. FMM разлагает взаимодействие между частицами на компоненты ближнего и дальнего поля, а затем выполняет прямые и грубые вычисления соответственно.Точно так же формирователи FMM разлагают внимание на внимание ближнего и дальнего поля, моделируя внимание ближнего поля с помощью ленточной матрицы, а внимание дальнего поля — с помощью матрицы низкого ранга. Вычисление матрицы внимания для FMMformers требует линейной сложности по времени вычислений и объему памяти по отношению к длине последовательности. Напротив, стандартные преобразователи страдают квадратичной сложностью. Мы анализируем и подтверждаем преимущество FMMformers перед стандартным преобразователем в тестах Long Range Arena и языкового моделирования.FMMformers может даже превзойти стандартный трансформатор по точности со значительным отрывом. Например, FMMformers достигают средней точности классификации 60,74 % в пяти задачах Long Range Arena, что значительно лучше, чем средняя точность стандартного преобразователя 58,70 %.

Т. Нгуен , В. Сулиафу, С. Дж. Ошер, Л. Чен и Б. Ван. FMMformer: эффективный и гибкий преобразователь за счет разложения ближнего и дальнего поля Внимание .  NeurIPS, 2021 г.

Мы предлагаем FMMformers, класс эффективных и гибких преобразователей, вдохновленных знаменитым методом быстрых мультиполей (FMM) для ускорения моделирования взаимодействующих частиц. FMM разлагает взаимодействие между частицами на компоненты ближнего и дальнего поля, а затем выполняет прямые и грубые вычисления соответственно. Точно так же формирователи FMM разлагают внимание на внимание ближнего и дальнего поля, моделируя внимание ближнего поля с помощью ленточной матрицы, а внимание дальнего поля — с помощью матрицы низкого ранга.Вычисление матрицы внимания для FMMformers требует линейной сложности по времени вычислений и объему памяти по отношению к длине последовательности.

Х. Ся, В. Сулиафу, Х. Джи, Т. Нгуен , А. Л. Бертоцци, С. Дж. Ошер и Б. Ван. Нейронные обыкновенные дифференциальные уравнения Heavy Ball. НеврИПС, 2021.

Проектирование глубоких нейронных сетей — это искусство, которое часто требует дорогостоящего поиска возможных архитектур. Чтобы преодолеть это для рекуррентных нейронных сетей (RNN), мы устанавливаем связь между динамикой скрытого состояния в RNN и градиентным спуском (GD).Затем мы интегрируем импульс в эту структуру и предлагаем новое семейство RNN, называемое {\em MomentumRNN}. Мы теоретически доказываем и численно демонстрируем, что MomentumRNN устраняют проблему исчезающего градиента при обучении RNN. Мы изучаем долговременную кратковременную память импульса (MomentumLSTM) и подтверждаем ее преимущества в скорости сходимости и точности по сравнению с ее аналогом LSTM в различных тестах с небольшим компромиссом в вычислительной эффективности или эффективности памяти. Мы также демонстрируем, что MomentumRNN применим ко многим типам рекуррентных ячеек, в том числе к современным ортогональным RNN.Наконец, мы показываем, что другие передовые методы оптимизации на основе импульса, такие как ускоренные градиенты Адама и Нестерова с перезапуском, могут быть легко включены в структуру MomentumRNN для проектирования новых повторяющихся ячеек с еще более высокой производительностью.

Т. Нгуен , Р. Г. Баранюк, А. Л. Бертоцци и С. Дж. Ошер. MomentumRNN: Интеграция Momentum в рекуррентные нейронные сети. НейрИПС, 2020.

Нейронные сети уязвимы для входных возмущений, таких как аддитивный шум и атаки злоумышленников.Напротив, человеческое восприятие гораздо более устойчиво к таким возмущениям. Гипотеза байесовского мозга утверждает, что человеческий мозг использует внутреннюю генеративную модель для обновления апостериорных убеждений сенсорного ввода. Этот механизм можно интерпретировать как форму самосогласования между максимальной апостериорной (MAP) оценкой внутренней генеративной модели и внешней средой. Вдохновленные такой гипотезой, мы обеспечиваем самосогласованность в нейронных сетях, включив генеративную рекуррентную обратную связь.Мы реализуем этот дизайн на сверточных нейронных сетях (CNN). Предлагаемая структура, называемая сверточной нейронной сетью с обратной связью (CNN-F), вводит генеративную обратную связь со скрытыми переменными в существующие архитектуры CNN, где согласованные прогнозы делаются посредством чередующегося вывода MAP в рамках байесовской структуры. В экспериментах CNN-F демонстрирует значительно улучшенную устойчивость к состязаниям по сравнению с обычными CNN с прямой связью на стандартных тестах.

Ю. Хуанг, Дж.Горнет, С. Дай, З. Ю, Т. Нгуен , Д. Ю. Цао, А. Анандкумар. Нейронные сети с рекуррентной генерирующей обратной связью . НеврИПС, 2020.

Стохастический градиентный спуск (SGD) с постоянным импульсом и его варианты, такие как Адам, являются предпочтительными алгоритмами оптимизации для обучения глубоких нейронных сетей (ГНС). Поскольку обучение DNN невероятно затратно в вычислительном отношении, существует большой интерес к ускорению сходимости. Ускоренный градиент Нестерова (NAG) улучшает скорость сходимости градиентного спуска (GD) для выпуклой оптимизации с использованием специально разработанного импульса; однако он накапливает ошибку, когда используется неточный градиент (например, в SGD), замедляя конвергенцию в лучшем случае и расходясь в худшем.В этой статье мы предлагаем запланированный перезапуск SGD (SRSGD), новую схему в стиле NAG для обучения DNN. SRSGD заменяет постоянный импульс в SGD увеличивающимся импульсом в NAG, но стабилизирует итерации, сбрасывая импульс до нуля в соответствии с графиком. Используя различные модели и тесты для классификации изображений, мы демонстрируем, что при обучении DNN SRSGD значительно улучшает сходимость и обобщение; например, при обучении ResNet200 для классификации ImageNet SRSGD достигает коэффициента ошибок 20.93% по сравнению с контрольным показателем 22,13%. Эти улучшения становятся более значительными по мере того, как сеть становится глубже. Кроме того, как в CIFAR, так и в ImageNet, SRSGD достигает аналогичного или даже лучшего уровня ошибок при значительно меньшем количестве периодов обучения по сравнению с базовым уровнем SGD.

Ван (соавтор), Т. Нгуен (соавтор) , А. Л. Бертоцци, Р. Г. Баранюк и С. Дж. Ошер. Запланированный импульс перезапуска для ускоренного стохастического градиентного спуска . Препринт arXiv arXiv: 2002.10583, 2020.

Непрерывные нормализующие потоки (CNF) стали многообещающими глубокими генеративными моделями для широкого круга задач благодаря их обратимости и точной оценке правдоподобия. Однако формирование CNF на сигналах, представляющих интерес для генерации условного изображения и последующих задач прогнозирования, неэффективно из-за многомерного скрытого кода, генерируемого моделью, который должен иметь тот же размер, что и входные данные. В этой статье мы предлагаем InfoCNF, эффективную условную CNF, которая разделяет скрытое пространство на контролируемый код для конкретного класса и неконтролируемый код, который используется всеми классами для эффективного использования помеченной информации.Поскольку стратегия разбиения (немного) увеличивает количество вычислений функций (NFE), InfoCNF также использует вентильные сети для изучения допусков ошибок своих решателей обыкновенных дифференциальных уравнений (ODE) для повышения скорости и производительности. Мы эмпирически показываем, что InfoCNF повышает точность теста по сравнению с базовым уровнем, обеспечивая при этом сопоставимые оценки правдоподобия и снижая NFE на CIFAR10. Кроме того, применение той же стратегии секционирования в InfoCNF к данным временных рядов помогает повысить производительность экстраполяции.

Т. Нгуен , А. Гарг, Р. Г. Баранюк, А. Анандкумар. InfoCNF: эффективный условный непрерывный поток нормализации с адаптивными решателями . Препринт arXiv arXiv: 1912.03978, 2019.

Модель нейронного рендеринга: совместная генерация и прогнозирование для полууправляемого обучения

Неконтролируемое и частично контролируемое обучение представляет собой важную проблему, но при работе со сложными данными, такими как естественные изображения, возникают трудности. Прогресс в решении этих проблем ускорился бы, если бы у нас был доступ к соответствующим генеративным моделям, в рамках которых можно было бы ставить соответствующие задачи логического вывода.
Учитывая успех сверточных нейронных сетей (CNN) для предсказания изображений, мы разрабатываем новый класс вероятностных генеративных моделей, а именно модели нейронного рендеринга (NRM), вывод которых соответствует любой заданной архитектуре CNN. NRM использует данную CNN для проектирования априорного распределения в вероятностной модели. Мы показываем, что это приводит к эффективному полуконтролируемому обучению, которое использует менее размеченные данные, сохраняя при этом хорошую производительность прогнозирования. NRM генерирует изображения от грубого до более мелкого масштаба.Он вводит небольшой набор скрытых переменных на каждом уровне и обеспечивает зависимость между всеми скрытыми переменными посредством сопряженного априорного распределения. Этот сопряженный априор дает новый регуляризатор, основанный на путях, визуализируемых в генеративной модели для обучения CNN — нормализацию пути рендеринга (RPN). Мы показываем, что этот регуляризатор улучшает обобщение как в теории, так и на практике. Кроме того, оценка правдоподобия в NRM приводит к потерям при обучении для CNN, и, вдохновленные этим, мы разрабатываем новую потерю, называемую кросс-энтропией Max-Min, которая превосходит традиционные потери кросс-энтропии для классификации объектов.Перекрестная энтропия Max-Min предлагает новую глубокую сетевую архитектуру, а именно сеть Max-Min, для реализации этой потери. Численные эксперименты показывают, что NRM с RPN и перекрестной энтропией Max-Min превосходит или соответствует современному уровню техники в тестах, включая SVHN, CIFAR10 и CIFAR100, для полууправляемых и контролируемых задач обучения.

Ю. Хуанг, Дж. Горнет, С. Дай, З. Ю, Т. Нгуен , Д. Ю. Цао, А. Анандкумар. Нейронные сети с рекуррентной генерирующей обратной связью .Препринт arXiv arXiv: 2007.09200, 2020. (Принято на NeurIPS 2020)

Т. Нгуен (соавтор) , Н. Хо (соавтор), А. Б. Патель, А. Анандкумар, М. И. Джордан, Р. Г. Баранюк. Модель нейронного рендеринга: совместная генерация и прогнозирование для полууправляемого обучения . Глубокая математика, 2019.

Н. Хо, Т. Нгуен (соавтор), А. Б. Патель, А. Анандкумар, М. И. Джордан, Р. Г. Баранюк. Модель глубинного рендеринга со скрытой зависимостью .Семинар по теоретическим основам и приложениям глубоких генеративных моделей в ICML, 2018.

А. Б. Патель, Т. Нгуен и Р. Г. Баранюк. Вероятностная структура для глубокого обучения . НИПС, 2016.

T. Nguyen , W. Liu, E. Perez, R.G. Baraniuk и A.B. Patel. Полууправляемое обучение с помощью модели Deep Rendering Mixture . Препринт arXiv arXiv: 1612.01942, 2016.

Т. Нгуен, В. Лю, Ф. Синц, Р.Г. Баранюк, А. А. Толиас, X. Питков, А. Б. Патель. На пути к кортикальной модели глубокого обучения: полууправляемое обучение, разделительная нормализация и синаптическое сокращение . Конференция по когнитивной вычислительной нейронауке (CCN), 2017 г.

Обучение классификаторов изображений на (ограниченных) реальных и (обильных) синтетических данных

Несмотря на то, что самые большие успехи глубокого обучения в компьютерном зрении основаны на массивных наборах данных, состоящих из помеченных изображений, получение и аннотирование таких объемных данных на практике часто является дорогостоящим или неосуществимым.Одним из многообещающих решений является обучение моделей на синтетических данных, для которых мы знаем истинные метки, а затем развертывание этих моделей в реальных сценариях. К сожалению, методы контролируемого обучения плохо работают, когда распределения обучения и тестирования расходятся. Тонкие различия между реальными и синтетическими данными значительно снижают производительность. Чтобы изучить модели без реальных меток, мы предлагаем решение, состоящее из двух частей: (i) мы используем синтетический рендерер, способный генерировать большое количество реалистично изменяющихся синтетических изображений; и (ii) мы предлагаем стратегию адаптации домена, чтобы преодолеть разрыв между синтетическими и реальными изображениями.Смешивая синтетические и реальные данные в каждом мини-пакете во время обучения, мы повышаем точность тестов для задач классификации объектов. Наконец, мы предлагаем генеративно-состязательную сеть смешанной реальности (MrGAN), которая итеративно сопоставляет синтетические и реальные данные с помощью многоэтапного итеративного процесса. Результатом оптимизации является общее пространство, в которое могут быть отображены как реальные, так и синтетические изображения. После обучения в общем пространстве наши модели лучше обобщаются (из синтетических) на реальные данные.Мы подтверждаем преимущества использования синтетических данных и MrGAN в наших наборах данных на основе CIFAR для адаптации к предметной области. Используя как синтетические данные, так и MrGAN, мы добились повышения точности теста на 8,85%.

Т. Нгуен , Х. Чен, З. К. Липтон, Л. Дирак, С. Соатто, А. Анандкумар. Изучение классификаторов изображений на основе (ограниченных) реальных и (обильных) синтетических данных . 2018

Модель

Transformers BART поясняется для суммирования текста

Обобщение BERT (из-за двунаправленного кодера) и GPT2 (с декодером слева направо) — войдите в мир загадочной новой модели Seq2Seq — модели BART

Обобщение реферативного текста с использованием модели Transformers-BART

Загружаемый код решения | Пояснительные видео | Техническая поддержка

Начать проект

Что такое модель BART HuggingFace Transformer в НЛП?

Модели

HuggingFace Transformer обеспечивают простую в использовании реализацию некоторых из наиболее эффективных моделей обработки естественного языка.Модели-трансформеры — это современное состояние дел (SOTA) в нескольких задачах НЛП, таких как классификация текста, генерация текста, суммирование текста и ответы на вопросы.

Оригинальный Transformer основан на архитектуре кодер-декодер и представляет собой классическую модель последовательного преобразования. Входные и выходные данные модели представлены в виде последовательности (текста), и кодировщик изучает многомерное представление ввода, которое затем преобразуется декодером в выходные данные. Эта архитектура представила новую форму обучения для задач, связанных с языком, и, таким образом, созданные на ее основе модели достигают выдающихся результатов, превосходя существующие методы на основе глубоких нейронных сетей.

С момента создания ванильного Трансформера несколько последних моделей, вдохновленных Трансформером, использовали архитектуру для улучшения эталонного теста задач НЛП. Модели-трансформеры сначала предварительно обучаются на большом текстовом корпусе (таком как BookCorpus или Wikipedia). Это предварительное обучение гарантирует, что модель «понимает язык» и имеет достойную отправную точку для обучения выполнению дальнейших задач. Следовательно, после этого шага у нас есть только языковая модель. Способность модели понимать язык очень важна, поскольку она определяет, насколько хорошо вы сможете дополнительно обучить модель чему-то вроде классификации текста или суммирования текста.

BART — одна из таких моделей Transformer, в которой используются компоненты других моделей Transformer и улучшается обучение перед тренировкой. BART или двунаправленный и авторегрессивный

Трансформаторы

были предложены в документе BART: Pre-training Denoising Sequence-to-Sequence для генерации, перевода и понимания естественного языка. Модель BART HugggingFace позволяет предварительно обученным весам и весам точно настраивать ответы на вопросы, суммирование текста, генерацию условного текста, заполнение маски и классификацию последовательностей.

Итак, без лишних слов, давайте рассмотрим модель BART — использование, архитектуру, работу, а также пример HuggingFace.

Для чего используется модель BART?

Как упоминалось в оригинальной статье, BART — это модель последовательностей, обученная как шумоподавляющий автоэнкодер. Это означает, что точно настроенная модель BART может принимать текстовую последовательность (например, на английском языке) в качестве входных данных и выдавать на выходе другую текстовую последовательность (например, на французском языке). Этот тип модели актуален для машинного перевода (перевода текста с одного языка на другой), ответов на вопросы (получения ответов на заданный вопрос в конкретном корпусе), реферирования текста (краткого изложения или перефразирования длинного текстового документа), или классификация последовательности (категоризация входных текстовых предложений или токенов).Другая задача – это вывод предложений, который для двух или более предложений оценивает, являются ли предложения логическими расширениями или логически связаны с данным утверждением.

Поскольку неконтролируемое предварительное обучение BART приводит к языковой модели, мы можем точно настроить эту языковую модель для конкретной задачи в НЛП. Поскольку модель уже была предварительно обучена, для точной настройки не требуются массивные размеченные наборы данных (по сравнению с тем, что потребуется для обучения с нуля). Модель BART можно точно настроить на наборы данных, специфичные для предметной области, для разработки таких приложений, как медицинские диалоговые чат-боты, преобразование естественного текста в программный код или SQL-запросы, контекстно-зависимые приложения для языкового перевода или инструмент для перефразирования исследовательских работ.

На каких данных была обучена модель BART?

BART был обучен как автоэнкодер с шумоподавлением, поэтому обучающие данные включают «искаженный» или «зашумленный» текст, который будет сопоставлен с чистым или исходным текстом. Формат обучения аналогичен обучению любого шумоподавляющего автоэнкодера. Точно так же в компьютерном зрении мы обучаем автоэнкодеры удалять шум или улучшать качество изображения, используя зашумленные изображения в обучающих данных, сопоставленных с чистыми исходными изображениями в качестве цели.

Итак, что именно считается шумом для текстовых данных? Авторы BART остановились на использовании некоторых существующих и некоторых новых шумовых методов для предварительной тренировки. Используемые ими схемы шумоподавления: маскирование токенов, удаление токенов, заполнение текста, перестановка предложений и поворот документа. Изучая каждое из этих преобразований:

  • Маскировка токенов: случайные токены в предложении заменяются на [MASK]. Модель учится предсказывать один токен на основе остальной части последовательности.

  • Удаление токена: удаляются случайные токены. Модель должна научиться предсказывать содержимое токена и находить позицию, из которой токен был удален.

  • Заполнение текста: фиксированное количество смежных токенов удаляется и заменяется одним токеном [MASK]. Модель должна узнать содержимое недостающих токенов и количество токенов.

  • Перестановка предложений: предложения (разделенные точками) переставляются случайным образом.Это помогает модели изучить логическое следствие предложений.

  • Вращение документа: документ переупорядочивается, чтобы начать со случайного маркера. Содержимое перед токеном добавляется в конец документа. Это дает представление о том, как обычно устроен документ и как выглядит начало или конец документа.

Однако не все преобразования используются при обучении окончательной модели BART.Основываясь на сравнительном исследовании целей предварительного обучения, авторы используют только преобразования заполнения текста и перестановки предложений, при этом около 30% токенов маскируются, а все предложения переставляются.

Эти преобразования применяются к 160 ГБ текста из английской Википедии и набора данных BookCorpus. С этим набором данных размер словаря составляет около 29000, а максимальная длина последовательностей составляет 512 символов в чистых данных.

Сколько параметров имеет BART?

BART состоит из двунаправленного кодера, такого как BERT, и авторегрессионного декодера, такого как GPT.BERT имеет около 110 миллионов параметров, в то время как GPT имеет 117 миллионов, таких тренируемых весов. BART, являющийся последовательной версией этих двух, имеет около 140 миллионов параметров. Многие параметры оправданы высочайшей производительностью, которую он обеспечивает при выполнении нескольких задач, по сравнению с точно настроенным BERT или его вариациями, такими как RoBERTa, который имеет 125 миллионов параметров в своей базовой модели.

Ниже мы можем увидеть более подробную информацию о количестве параметров в различных моделях BART. Мы можем посмотреть на RoBERTa и его количество параметров на аналогичных задачах для сравнения.

BART превосходит RoBERTa в нескольких задачах тонкой настройки, как подробно описано далее в документе. Количество параметров последнего следующее:

Объяснение архитектуры BART

Чтобы понять цель и философию архитектуры BART, во-первых, нам нужно понять природу задач НЛП, которые он призван решать. В таких задачах, как ответы на вопросы и обобщение текста, которые требуют понимания естественного языка (или NLU), нашей модели необходимо читать текст целиком и понимать каждый токен в контексте того, что было до и после него. .Например, обучение замаскированной языковой модели предложением «мужчина пошел в молочный магазин, чтобы купить галлон молока» может иметь такое предложение в качестве входных данных на основе схем определения носа, которые мы видели выше:

«мужчина пошел в магазин [MASK], чтобы купить галлон молока».

Теперь для задачи NLU важно, чтобы модель полностью прочитала предложение, прежде чем предсказать [MASK], поскольку оно сильно зависит от таких терминов, как «магазин» и «молоко». В таком случае входная последовательность может быть правильно интерпретирована и изучена с помощью двунаправленного подхода к чтению и представлению текста.Модель BERT (или представления двунаправленного кодировщика от преобразователей) включает эту идею, чтобы значительно улучшить задачу языкового моделирования, которая возникает при предварительном обучении.

Таким образом, первая часть BART использует двунаправленный кодировщик BERT, чтобы найти наилучшее представление своей входной последовательности. Для каждой текстовой последовательности на входе кодировщик BERT выводит вектор внедрения для каждой лексемы в последовательности, а также дополнительный вектор, содержащий информацию на уровне предложения. Таким образом, декодер может обучаться как для задач на уровне токенов, так и на уровне предложений, что делает его надежной отправной точкой для любых будущих задач тонкой настройки.

Предварительное обучение выполняется с использованием замаскированных последовательностей, как обсуждалось ранее и показано ниже. В то время как BERT обучался с использованием простого метода маскирования токенов, BART расширяет возможности кодировщика BERT, используя более сложные виды механизмов маскирования в его предварительном обучении.

Как только мы получим представление входной текстовой последовательности на уровне токенов и предложений, декодер должен интерпретировать их для сопоставления с выходной целью. Однако при использовании декодера с аналогичной конструкцией такие задачи, как прогнозирование следующего предложения или прогнозирование токена, могут выполняться плохо, поскольку модель опирается на более полную подсказку ввода.В этих случаях нам нужны модели архитектуры, которые можно обучить генерации следующего слова, просматривая только предыдущие слова в последовательности. Следовательно, причинно-следственная или авторегрессионная модель, которая рассматривает только прошлые данные для прогнозирования будущего, пригодится.

Модель GPT-1 использовала архитектуру, аналогичную сегменту декодера ванильных трансформеров. GPT последовательно объединяет 12 таких декодеров, так что изучение только прошлых токенов может повлиять на текущий расчет токена.Архитектура показана выше. Как видно из исходного декодера Transformer, декодер GPT также использует маскированный многоголовый блок внутреннего внимания и уровень прямой связи.

По сравнению с другими моделями, которые мы обсуждали здесь, включая BART, GPT также использует полууправляемый подход к обучению. Во-первых, модель предварительно обучается на токенах «t», обращаясь к токенам «k» в прошлом, чтобы вычислить текущий токен. Это делается без присмотра на обширном текстовом корпусе, чтобы модель могла «выучить язык».

Затем, чтобы сделать модель надежной для конкретной задачи, она настраивается контролируемым образом, чтобы максимизировать вероятность метки «y» для заданных векторов признаков x1…xn.

Объединяя 1 и 2, мы получаем цель в 3. Лямбда представляет изученный весовой параметр для контроля влияния языкового моделирования.

На изображении ниже показано, как авторегрессионный декодер обрабатывает входные данные.

Несмотря на то, что мы отделяем декодер от кодировщика, входные данные для декодера по-прежнему будут представлять собой изученное представление (или встраивание) исходной текстовой последовательности.Таким образом, BART подключает двунаправленный кодер к авторегрессионному декодеру, чтобы создать архитектуру автокодировщика с шумоподавлением. И на основе этих двух компонентов окончательная модель BART будет выглядеть примерно так:

На приведенном выше рисунке входная последовательность представляет собой замаскированную (или зашумленную) версию [ABCDE], преобразованную в [A[MASK]B[MASK]E]. Кодер просматривает всю последовательность и изучает многомерные представления с двунаправленной информацией. Декодер берет эти векторы мыслей и регрессивно предсказывает следующий токен.Обучение происходит путем вычисления и оптимизации отрицательного логарифмического правдоподобия, сопоставленного с целью [ABCDE].

Модель BART для суммирования текста

По мере того, как в Интернете появляется все больше и больше объемного контента, исследователям или журналистам становится все труднее отфильтровывать нужный им контент. Резюме или перефразированный синопсис помогают читателям быстро просмотреть основные моменты огромного объема текстового содержания и сэкономить достаточно времени для изучения соответствующих документов.

Модели

Transformer могут автоматизировать эту задачу НЛП по резюмированию текста. Для этого есть два подхода: экстрактивный и абстрактный. Извлекающее обобщение идентифицирует и извлекает наиболее значимые утверждения из данного документа по мере их нахождения в тексте. Это можно рассматривать скорее как задачу поиска информации. Абстрактное обобщение является более сложной задачей, поскольку оно направлено на понимание всего документа и создание перефразированного текста для обобщения основных моментов. Модели-трансформеры, включая BART, выполняют последний вид суммирования.

Как мы отмечали в начале этой статьи, HuggingFace предоставляет доступ как к предварительно обученным, так и к точно настроенным весам для тысяч моделей трансформеров, BART — лишь одна из них. Для задачи суммирования текста вы можете выбрать точно настроенные модели BART на веб-сайте обозревателя моделей HuggingFace. Вы можете найти описание конфигурации и обучения каждой загруженной модели. Давайте проверим модель bart-large-cnn для начинающих.

Страница модели: facebook/bart-large-cnn · Hugging Face также предоставляет размещенный экземпляр API логического вывода, чтобы вы могли протестировать суммирование текста по выбранному вами тексту.Например, посмотрев текст по умолчанию и запустив на нем суммировщик, мы получим:

Теперь, поскольку эта конкретная модель была точно настроена на наборе данных новостных клипов CNN Daily Mail, данный текст, несомненно, будет хорошо работать на этой модели. Давайте посмотрим, что происходит, когда мы вводим другой текст. Мы попытались обобщить абзац из этой статьи с помощью средства суммирования BART!

Производительность вполне приличная! Это показывает, насколько хорошо полууправляемый подход к обучению BART обобщает предметные области для понимания языка.

После того, как вы выбрали модель, вы можете либо загрузить ее непосредственно со страницы модели, либо использовать пакет transforms , чтобы интегрировать модель прямо сейчас с вашим приложением Python.

Во-первых, запустите pip install transforms или перейдите на страницу установки HuggingFace.

Далее вы можете создать свой сумматор, выполнив три простых шага:

Сначала загрузите конвейер модели из трансформаторов. Определите модуль конвейера, указав имя задачи и имя модели.Мы используем «обобщение» и модель «facebook/bart-large-xsum». Здесь мы можем попробовать набор данных Extreme Summary (XSum) вместо набора данных новостей. Модель была обучена производить резюме только из одного предложения. Проверяя текст по умолчанию, предоставленный из набора данных новостей, мы можем проверить, насколько отличается эта новая модель.

Таким образом, последним шагом является определение входной последовательности и ее тестирование с использованием конвейера summer() . Эта функция также принимает параметры max_length и min_length , и эти два параметра управляют суммарной длиной с точки зрения токенов.

Как видим, производительность отличная. Однако все изменится, если мы добавим пользовательскую текстовую последовательность.

Здесь краткое изложение далеко не идеально, но все же точно относится к нескольким вводным строкам.

Будьте уверены в создании комплексных проектов.

Доступ к кураторской библиотеке из 181+ сквозных отраслевых проектов с кодом решения, видео и технической поддержкой.

Запросить демонстрацию

Другим подходом может быть использование BartTokenizer для создания токенов из текстовых последовательностей и BartForConditionalGeneration для суммирования.

Проект машинного обучения Практические идеи с использованием BART
  • Преобразование речи в текст или автоматическое распознавание речи (ASR)

С помощью ASR люди могут общаться с компьютерами и приложениями, используя свою повседневную речь. Система ASR интерпретирует речь и преобразует ее в точную расшифровку текста. Кроме того, расшифровка текста может быть прочитана и понята языковой моделью для выполнения различных задач, таких как поиск в Google, размещение напоминания или/или воспроизведение конкретной песни.

Поскольку речь и текст представляют собой последовательности данных, их можно отобразить путем точной настройки модели seq2seq, такой как BART. Для начала вы можете перейти к модели HuggingFace Speech3Text и попробовать их API вывода, чтобы выбрать лучшую модель для вашего варианта использования. Кроме того, вы можете настроить свою собственную модель BART, используя наборы данных, такие как набор данных LibriSpeech, или выбрать один из множества доступных на jim-schwoebel/voice_datasets. Поскольку аудио- и текстовые данные имеют разный формат, потребуется некоторая обработка данных для разделения акустических сегментов и сопоставления каждого из них с текстовыми токенами.Как только такое сопоставление установлено, вы можете точно настроить модель seq2seq.

  • Извлечение из научных статей

Исследование конкретной темы может быть утомительным, поскольку оно всегда должно начинаться с обширного обзора существующих работ. Однако, если вы сузили свою проблему, поиск соответствующих научных статей может занять довольно много времени, поскольку, несмотря на тезисы, нужно читать каждую статью, чтобы убедиться, что она является полезным источником.

Вы можете точно настроить модели Seq2Seq Transformer для научных статей в определенных областях, таких как искусственный интеллект или COVID-19, для создания сводок. Например, база данных Cornell Newsroom или набор данных KP20k предоставляет множество общих обучающих образцов, в то время как наборы данных, такие как ScisummNet, представляют собой резюме литературы по предметной области. BART можно точно настроить на этих наборах данных для создания контекстно-зависимого, извлеченного перефразирования для длинных исследовательских работ.

  • Создание запросов SQL из обычного текста

Эффективные SQL-запросы имеют первостепенное значение для извлечения информации из больших баз данных, однако пользователю, особенно неспециалисту, может быть сложно генерировать быстрые результаты поиска.Модели Seq2Seq могут помочь перевести естественные вопросы, такие как «сколько женщин в таблице?» в исполняемые SQL-запросы, которые могут получать ответы из базы данных.

Такие наборы данных, как SPIDER, SParC и WikiSQL, подготовлены именно для этой тонкой настройки. Модели с питанием от трансформатора недавно прошли тесты на этих наборах данных, и вы также можете добиться аналогичной производительности на своем пользовательском наборе данных. Простой тонкой настройкой модели BART можно генерировать SQL-подобные запросы, которые являются эффективными и дают ожидаемые результаты из базы данных.

Благодаря этим идеям проекта модели Барта и всестороннему изучению модели BART от последовательности к последовательности вы теперь можете с уверенностью изучить API-интерфейсы HuggingFace, чтобы не только протестировать, но и настроить их для своего бизнес-варианта. В этой статье сначала рассматривается проблема, которую BART стремится решить, и подход, лежащий в основе его превосходной производительности, включая архитектуру BART и обучающие данные. Мы также рассмотрели демо-вывод для суммирования текста с использованием реализации BART Python на HuggingFace.С этим обзором теории и кода у вас есть отличный старт для создания надежной модели seq2seq на основе Transformer в Python для вашего следующего проекта машинного обучения.

 

17 видов трансформаторов – Ищу программатор

Сяо Сяо из вогнутого храма Отчет Qubit | Публичный аккаунт QbitAI

В чем разница между Longformer, моделью, способной эффективно обрабатывать длинные тексты, и моделью BigBird, которую можно назвать «модернизированным» Transformer?

Откройте приложение Baidu, чтобы просмотреть больше изображений высокой четкости.

Какие есть другие варианты Transformer (X-former) и какие новые приложения есть?

Поскольку скорость разработки модели Трансформера меняется день ото дня, даже если она вернется к изучению через короткий промежуток времени, модель может быть намного больше.

Модель Transformer — это классическая модель NLP, запущенная Google в 2017 году (используемый Bert — Transformer). В задачах машинного перевода Transformer работает лучше, чем RNN и CNN. Для достижения хороших результатов ему нужен только кодер/декодер, и его можно эффективно распараллелить.

Хорошей новостью является то, что вот статья о «последних тенденциях» модели Transformer, в которой основное внимание уделяется усовершенствованию новой модели Transformer до механизма внутреннего внимания и сравнению этих моделей.

Кроме того, есть новейшие приложения моделей в различных областях, таких как НЛП, компьютерное зрение и обучение с подкреплением.

Стандартный трансформатор модели

Давайте сначала посмотрим, как выглядит стандартная модель трансформера.

Основная часть Трансформатора состоит из двух частей, обведенных двумя сплошными черными прямоугольниками справа, энкодером слева и декодером справа.

Можно видеть, что кодер/декодер в основном состоит из двух модулей: нейронной сети с прямой связью (синяя часть на рисунке) и механизма внимания (розово-красная часть на рисунке).Декодер обычно имеет еще один (перекрестный) механизм внимания.

Наиболее важной частью Трансформера является механизм внимания.

Вообще говоря, применение механизма внимания при обработке изображений заключается в том, чтобы заставить машину «уделять особое внимание определенной части изображения, подобно человеку», точно так же, как когда мы смотрим на изображение, мы обычно «уделяем особое внимание». в определенные места на картинке. .

Среди них механизм внутреннего внимания является ключом к определению характеристик модели Трансформера.Одна из ключевых проблем заключается в его временной сложности и пространственной сложности.

Поскольку механизм внимания напрямую сравнивает последовательности (последовательности) попарно, объем вычислений огромен (объем вычислений становится O(n)).

В последнее время в большом количестве статей предлагались новые «варианты» трансформатора, их основная цель — повысить эффективность модели, но если вы читаете их один за другим, это может показаться немного ошеломляющим.

С этой целью исследователи искусственного интеллекта Google специально составили документ по разработке модели Transformer, подробно объяснив их источник.

Модель Трансформер после “вариантов”

2 метода классификации

PressInstructions Для классификации модели Transformer можно разделить на следующие три категории:

Только кодировщик: может использоваться для классификации Только декодер: может использоваться для моделирования языка Кодировщик-декодер: может использоваться для машинного перевода

Но если нажать эти варианты Принципы повышения эффективности, То есть “эффективные методы” классифицировать, то эти “варианты” модели Трансформера можно разделить на следующие категории:

Фиксированные шаблоны: Ограничьте поле зрения фиксированными предопределенными шаблонами, такими как частичные окна, фиксированные блоки шагов, чтобы упростить матрицу внимания; Обучаемые шаблоны: Чтобы изучить шаблоны доступа на основе данных, ключом является определение релевантности токена. .Память: используйте модули памяти, которые могут обращаться к нескольким токенам одновременно, например к глобальной памяти. Низкий ранг: повысьте эффективность за счет использования аппроксимации низкого ранга матрицы внутреннего внимания. Ядра: повысьте эффективность за счет ядра. Ядро является аппроксимацией матрицы внимания и может рассматриваться как метод низкого ранга. Повторение: используйте рекурсию для соединения блоков в методе матричных блоков, чтобы в конечном итоге повысить эффективность.

Можно видеть, что недавнее исследование, связанное с Трансформером, было разделено на приведенное выше изображение, которое очень ясно.

После понимания метода классификации следующим шагом будут различные варианты модели Трансформера.

17 классический “Икс-формер”

1. Трансформатор со сжатием памяти (2018 г.)

Это одна из первых попыток улучшить работу Transformer с длинными последовательностями. В основном изменены две части: внимание к диапазону позиционирования и внимание к сжатию памяти.

Среди них первая направлена ​​на то, чтобы разделить входную последовательность на модули одинаковой длины и запустить механизм внутреннего внимания в каждой части, чтобы стоимость внимания каждой части оставалась неизменной, а количество активаций можно было линейно масштабировать в соответствии с к входной длине.

Последний использует свертку шага, чтобы уменьшить размер матрицы внимания и объем расчета внимания. Величина сокращения зависит от длины шага.

2. Преобразователь изображения (2018 г.)

Это вариант Трансформера, созданный на основе сверточных нейронных сетей. Основное внимание уделяется диапазону локального внимания, то есть рецептивная область ограничена локальной областью. Есть два основных решения: одномерное локальное внимание и двумерное локальное внимание.

Однако у этой модели есть ограничение, заключающееся в снижении затрат на хранение и вычисления за счет потери глобального приемлемого домена.

3. Комплект трансформатора (2019)

Эта модель была создана для решения специального сценария приложения: входные данные — это набор функций, а выходные данные — функция этого набора функций.

Он использует разреженный гауссовский процесс, чтобы уменьшить сложность внимания размера входного набора с квадратичного до линейного.

4、Разреженный трансформатор(2019)

Ключевая идея этой модели заключается в расчете внимания только на небольшой части разреженных пар данных, чтобы упростить плотную матрицу внимания до разреженной версии.

Однако у этой модели есть требования к оборудованию, для нее требуется специальное ядро ​​графического процессора, и ее нельзя напрямую использовать на другом оборудовании, таком как TPU.

5, осевой трансформатор (2019)

Эта модель в основном применяет несколько внимания вдоль одной оси входного тензора, и каждое внимание смешивает информацию по определенной оси, так что информация по другим осям остается независимой.

Поскольку длина любой отдельной оси обычно намного меньше, чем общее количество элементов, эта модель может значительно сэкономить вычисления и память.

6, Лонгформер (2020)

Вариант Разреженного Трансформатора обеспечивает лучшее дистанционное покрытие, оставляя промежутки в режиме внимания и увеличивая восприимчивое поле.

Для задач классификации Longformer использует глобальный токен (например, токен CLS), который может получить доступ ко всем входным последовательностям.

7. Расширенная конструкция трансформатора (2020 г.)

Это также вариант Sparse Transformer, в котором представлен новый глобальный механизм локального внимания, который похож на Longformer с точки зрения введения глобальных токенов.

Однако, поскольку каузальную маску нельзя рассчитать, ETC нельзя использовать для автоматического регрессионного декодирования.

8, Большая Птица (2020)

Как и Longformer, он также использует глобальную память, но разница в том, что он имеет уникальную «внутреннюю структуру преобразователя (ITC)», то есть глобальная память была расширена для включения токенов в последовательность вместо простой параметризованной памяти.

Однако, как и ETC, BigBird нельзя использовать для автоматического регрессионного декодирования.

9. Маршрутизирующий трансформатор (2020)

Предлагается кластерный механизм внимания для изучения разреженности внимания на основе данных.Чтобы убедиться, что количество токенов в кластере одинаково, модель инициализирует кластер и вычисляет расстояние каждого токена относительно центроида кластера.

10、Реформатор(2020)

Модель внимания, основанная на локальном чувствительном хэшировании (LSH), представляет обратимый уровень преобразователя, который помогает еще больше сократить объем памяти.

Ключевая идея модели заключается в том, что близлежащие векторы должны получать одинаковые хеш-значения, а удаленные векторы не должны получать одинаковые хэш-значения, поэтому это называется «локальная чувствительность».

11, Синкхорн Трансформатор (2020)

Эта модель относится к блочной модели, которая переупорядочивает входные ключи и значения блочным образом и применяет блочный механизм локального внимания для изучения разреженного режима.

12、Линформер(2020)

Это эффективная модель Трансформера, основанная на низкоуровневом механизме внутреннего внимания. В основном он выполняет проекцию низкого ранга по измерению длины и смешивает информацию о последовательности по измерению в одном преобразовании.

13, линейный трансформатор (2020)

Эта модель уменьшает сложность само-внимания с квадратичной до линейной за счет использования базового механизма само-внимания и корреляционных характеристик матричных произведений.

В настоящее время доказано, что он может увеличить скорость логического вывода на три порядка, в основном сохраняя эффективность прогнозирования.

14、Исполнитель(2020)

В этой модели используются ортогональные случайные признаки (ORF) и приближенные методы, чтобы избежать хранения и расчета матрицы внимания.

15, Модели синтезаторов (2020)

Эта модель изучает роль регуляции в механизме само-внимания. Он синтезирует модуль собственного внимания, чтобы приблизиться к этому весу внимания.

16, Трансформатор-XL (2020)

В этой модели используется рекурсивный механизм для связывания смежных частей. Рекурсию на основе блоков можно рассматривать как ортогональный подход к другим обсуждаемым методам, поскольку она не имеет явно разреженной и плотной матрицы внутреннего внимания.

17, Трансформаторы сжатия (2020)

Эта модель является расширением Transformer-XL, но отличается от Transformer-XL тем, что отбрасывает прошлые активации при перемещении между сегментами, и ее основная идея заключается в сохранении мелкозернистой памяти о прошлых активациях.

В целом параметры этих классических моделей следующие:

Для более подробной интерпретации (в том числе конкретных параметров модели и т.д.), а также прогноза будущего тренда Трансформера вы можете прочитать статью целиком.

об авторе

Йи Тай, первая диссертация, окончил Национальный университет Сингапура по компьютерным наукам со степенью магистра и доктором философии.

В настоящее время Йи Тай занимается исследовательской работой в Google AI, основное направление — обработка естественного языка и машинное обучение.

Алгоритмы машинного обучения

ai python: AST: Audio Spectrogram Transformer


эта статья опубликована в interspeech3021.
, CNN в качестве основного модуля, сеть широко используется в сквозной модели классификации речи. , цель этой статьи состоит в том, чтобы изучить прямое сопоставление звукового спектра с соответствующим тегом. чтобы лучше фиксировать удаленные глобальные зависимости (контекст), в последнее время появилась тенденция добавлять механизм самоконтроля в cnn., форма cnn – модель смешивания внимания. но в настоящее время неясно, достаточно ли использования модели cnn или модели сети внимания для достижения хороших результатов в классификации звука. 。
Основная работа этой статьи состоит в том, чтобы предложить первую несвертку. 、 Модель классификации звука, основанная на механизме внимания (учитесь на практике Вита. ), в этой статье оцениваются несколько задач классификации звука, и все они реализованы. Производительность СОТА.

в этой статье предлагается ast.: Преобразователь звуковой спектрограммы, модель без сверток, основанная исключительно на внимании.
AST Преимущества модели:

  • AST модель обеспечивает наилучшую производительность при выполнении нескольких задач классификации и наборов данных. ;
  • AST поддерживает ввод переменной длины и может применяться к различным задачам без изменения сетевой архитектуры;
  • с текущим наиболее эффективным cnn-вниманием по сравнению с гибридной моделью, AST имеет более простую архитектуру и меньшее количество параметров, быстрее сходятся при обучении.

2.1 Архитектура модели


На рис. 1 показана архитектура сети AST, прежде всего преобразование речевого клипа длиной в секунду в 128-мерный логарифмический спектр с использованием длины окна Хэмминга 25 мс, hop_size для 10 мс. получить спектрограмму размером 128 X 100 т, ввести в среду AST. после этого , спектр разбивается на n размеров 16 X 16 перекрытие участков, по временным и частотным измерениям закладывает основу для 6, получаем N = 12 ⌈ ( 100 t − 16 ) / 10 ⌉ N=12 \lceil (100t -16)/10 \rceil N=12⌈(100t−16)/10⌉。 в этой статье, через слой линейного отображения, мы устанавливаем 16X16 патч сплющен до размера 768 характеристики одномерного встраивания , кроме того, в этом документе добавлена ​​обучаемая функция кодирования местоположения.(размер также равен 768. ) для каждого внедрения патча, чтобы можно было получить информацию о пространственной структуре двумерного звукового спектра. 。

в этой статье, в начале последовательности добавлен дополнительный. Теги [CLS], ввод информации о функциях в среду Transformer. AST использует только раздел кодировщика в ,, используемый для классификации задач. Трансформатор архитектуры сетевой модели можно сослаться на 【Внимание – это все, что вам нужно】 эта классическая статья, в этой статье преобразователь размера встраивания 768, содержит 12 слоев, 12 больших.Преобразователь используется в качестве функции представления звукового спектра, который проходит через сигмовидную диаграмму, а активный линейный слой сопоставляет звуковой спектр с тегом для классификации.

2.2 Предварительная подготовка ImageNet

Преобразователь

недостатком этого метода по сравнению с архитектурой cnns является то, что первому требуется больше данных для обучения. тезис 【11】 автор упомянул, что метод Transformer в задаче классификации изображений, только когда количество данных превышает 1400, только через десять тысяч лет он лучше, чем модель cnn.。 но наборы голосовых данных обычно не имеют такого большого масштаба, поэтому в этой статье делается попытка применить кросс-модальное обучение переносу к ast, потому что спектр изображения и звука имеют аналогичный формат. 。 была проделана большая работа по переходу от визуальных задач к звуковым задачам. 【23, 24, 25, 8】, но все это основано на модели cnn. , среди них параметры обученной сети imagenet CNN используются в контрастном cnnoff-the-shelfViTAST

[11] А. Досовицкий, Л.Бейер, А. Колесников, Д. Вайссенборн, X. Чжай, Т. Унтертинер, М. Дегани, М. Миндерер, Г. Хейгольд, С. Гелли, Дж. Ушкорейт и Н. Хоулсби. Изображение стоит 16×16 слов: Трансформаторы для распознавания изображений в масштабе, в ICLR, 2021 г.

  1. ViT3ASTAST00.5
  2. ViT224X224384X384(Cut and bi-linear interplotation)384x38416x16 patchViTpatch34x24=576AST10s12x100patchespatchViT24x24AST12x100
  3. ВиТАСТВиТАСТ

DeiT12CNN384x38487MImageNet 201285.2%топ-1

[12] H. Touvron, M. Cord, M. Douze, F. Massa, A. Sablayrolles и H. J’egou, Обучение преобразованию изображений с эффективным использованием данных и дистилляция с помощью внимания, препринт arXiv arXiv: 2012.12877, 2020.

  • Аудиоустановка
  • ЭСК-50
  • Речевые команды V2

3.1 Эксперименты с AudioSet

3.1.1 Набор данных и подробности обучения

AudioSet10527сбалансированное обучение, полное обучение, оценочный набор22k2M20k28маскирование спектрограммы29усреднение веса30 ансамбль31batch_size12Adambalanced 5e-525epochsfull 1e-55epoch

3.1.2 Результаты AudioSet


8 Весоусредняющий ансамбль
Ансамбль-контрольно-проверочный ансамбль
Ансамбль-сенсамбль-нашивка

3.1.3 Исследование абляции

трюк

  1. ImageNet

    AST2

    AST3



  2. 4

  3. Патч

    5

  4. патч

    128x2patchImageNet16x16patch

.

Добавить комментарий

Ваш адрес email не будет опубликован.