Опубликовать инициативу
Всего
инициатив:

Инициатива №
77Ф41077
Уровень инициативы:
Федеральный

Использовать школьников в создании, проверке, разметке госкорпуса русского языка для решения проблем машинного обучения

Для решения многих лингвистических задач используются так называемые текстовые корпуса - специальным образом подобранные и структурированные коллекции текстов. Наиболее информативными являются размеченные корпуса, то есть такие, в которых частям текста приписана лингвистическая информация — например, каждое слово отнесено к той или иной части речи.
Создание размеченного корпуса — очень трудоёмкий процесс, требующий времени и сил многих людей. По этой причине чаще всего размеченные корпуса создаются коллективами исследователей при государственных учреждениях, и таких корпусов не очень много. Однажды созданный корпус может быть использован многими исследователями для решения различных задач.
Такие корпусы существуют для английского, немецкого и других языков, что позволяет программистам и лингвистам из этих стран разрабатывать алгоритмы распознавания речи, текста и т.д.
Россия в этом плане отстаёт, ибо чтобы обучить компьютер понимать человеческую речь на русском языке компьютеру необходимо иметь доступ к очень большому количеству желательно семантически и грамматически размеченного "языка".
Сейчас не существует достаточно большого и свободно распространяемого корпуса русского языка, который можно было бы использовать в лингвистических исследованиях и решении проблем машинного обучения. Данное положение вещей сильно тормозит развитие русской индустрию машинного обучения и компьютерную лингвистику.

Практический результат

Это позволит:
1) создать и постоянно увеличивать объёмы корпусов русского языка;
2) вовлечь школьников в изучение орфографии, грамматики и даст им дополнительное обоснование её важности (ибо нельзя обучить машину понимать вашу речь, если ты сам не понимаешь где "сказуемое", а где "подлежащее");
3) ученики с техническим уклоном заинтересуются гуманитарным направлением;
4) ученики с гуманитарным уклоном станут лучше понимать техническую сторону языка;
5) даст школьникам дополнительное побуждение в решении домашних заданий, ибо теперь результаты их работы навсегда останутся в интернете и действительно будут помогать людям в работе.
Для целей пункта 5 и для ещё большей стимуляции учащихся на пути набора корпусов, предлагаю:
а) каждый вклад в национальный корпус сопровождать подписью ученика и вести рейтинг самых плодотворных и грамматически правильных правок.
б) предусмотреть различные призы и награды для самых плодотворных учеников (их вклад будет подсчитываться на сайте корпуса в автоматическом режиме, так же их работа будет проходит многоуровневую проверку другими школьниками и учителями)
в) предусмотреть возможность делать домашнее задание по русскому языку и литературе в интернете. Например, ученику надо прочитать какое-то произведение, но, при чтении с монитора, он одновременно размечает синтаксическую структуру предложения (подлежащее, сказуемое) или проверяет разметку других школьников, присваивая им баллы и т.д. После учитель русского языка может проверить его работу на сайте, где и будет собираться данный корпус.

Решение

Предлагаю использовать труд школьников либо в рамках уроков русского языка/литературы, либо в рамках информатики для пополнения, составления, семантической разметки (подлежащее, сказуемое и т.д.) корпусов русского языка.
Пример:
Сейчас домашнее задание по русскому языку школьники пишут у себя в тетрадях и после эти тетради просто выбрасываются. Если же будет реализована эта инициатива, то вся работа школьников навсегда войдёт в корпус языка и будет помогать при решении проблем в лингвистике, машинном обучении и т.д.

К началу списка инициатив