рефератырефератырефератырефератырефератырефератырефератырефераты

рефераты, скачать реферат, современные рефераты, реферат на тему, рефераты бесплатно, банк рефератов, реферат культура, виды рефератов, бесплатные рефераты, экономический реферат

"САМЫЙ БОЛЬШОЙ БАНК РЕФЕРАТОВ"

Портал Рефератов

рефераты
рефераты
рефераты

Обзор методов обработки естественного языка в задачах дистанционного обучения

1

Обзор методов обработки естественного языка в задачах дистанционного обучения.

Задача обработки естественного языка при помощи ЭВМ с каждым днем становится все актуальней и актуальней. Развитие научно-технического прогресса во всем мире привело к тому, что объем новой информации постоянно растет со стремительно увеличивающейся скоростью. Человек во многих случаях становится не в состоянии самостоятельно переработать всю необходимую для его профессиональной деятельности информацию. И тогда компьютерные системы, использующие новейшие алгоритмы обработки естественного языка, могут оказать ему реальную помощь.

В последнее время компьютеры стали активно внедряться в систему образования /1,2,3/. Создано огромное количество программных продуктов, направленных на обучение различного рода предметам. Если раньше дисциплины, изучаемые с помощью компьютерных программ относились в основном к техническим, то теперь компьютер широко используется и при подготовке специалистов по гуманитарным предметам, ведущую роль среди которых, бесспорно, занимают иностранные языки. Повышение интереса к иностранным языкам, и в особенности к английскому, за последние несколько лет легко объясняется изменениями политического и экономического характера, и как следствие, возрастанием роли знания иностранного языка.

Потребности нашего общества в компьютеризации обучения языку сегодня резко возросли в связи со следующими факторами:

невозможность прохождения специальных языковых курсов без отрыва от основной работы;

постоянный рост оснащенности персональными компьютерами населения России;

ориентация учащейся молодежи на ЭВМ как на главное средство автоматизации интеллектуального труда;

острый дефицит кадров педагогов языковых дисциплин;

и ряд других.

Стремительное развитие компьютерных и информационных технологий естественным образом отразились и на системе образования. Возможности, которые появились благодаря внедрению передовых сетевых технологий (Internet - технологий) на территории России, послужили поводом для начала серьезных проектов, связанных с новым типом обучения - дистанционным обучением (ДО). Под термином ДО понимается обучение, при котором преподаватель и обучаемый разделены пространственно.

Немного об истории и развитии ДО /1/. ДО возникло более века тому назад. Принято различать 4 поколения развития ДО.

Первое поколение ДО начало развиваться в конце 19, в начале 20 века. Самыми распространенными тогда материалами были отпечатанные в типографиях учебники и сборники упражнений к ним. Взаимодействие обучаемого с преподавателем происходило с помощью обычной почтовой связи (обмен письмами).

Второе поколение ДО начало развиваться в 70-е годы. Был создан ряд университетов (в основном в Англии), цель которых была готовить студентов, которые по тем или иным причинам не имели возможности обучаться в очной форме. Учебные материалы давались с использованием местного телевидения и радио или путем пересылки по почте аудио записей курсов. Аудио-конференции с использованием телефонных систем, тоже являются частью второго поколения развития ДО.

Третье поколение ДО (начало 80-х годов) связывают с появлением спутниковых технологий и развитием компьютерной техники. Доставка информации стала возможна с помощью компьютерных сетей в цифровом виде. К третьему поколению развития ДО также относят видеоконференции и использование носителей CD-ROM.

Четвертое поколение ДО возникло с момента распространением Internet-технологии по всему миру. Internet намного облегчил доступ у информации. Сделал возможным как синхронное (chat, видео и аудио конференции), так и асинхронное (e-mail) взаимодействие обучаемого с преподавателем. Использование в ДО технологий базирующихся на WEB дает возможность применять во время учебного процесса не только текстовую информацию, но и звук и видео.

Как видно из выше сказанного, основным вопросом в организации ДО является способ доставки и организации учебного материала /1/. Одним из перспективных способов передачи информации при организации ДО является e-mail. За последние годы в различных университетах мира проводилось обучение по экспериментальной методике, особенность которой была в том, что взаимодействие учащихся (студентов 2-ых и 3-их курсов) и преподавателей, либо полностью, либо частично, происходило с помощью e-mail /2/. Курсовые материалы, использованные в экспериментах, были хорошо структурированы и подготовлены для самостоятельного освоения. В результате было показано, что усвоение пройденного материала студентами обучающимися с помощью e-mail, происходит не хуже, а на некоторых курсах лучше студентов, обучающихся традиционно. Так же преподавателями и студентами, участвующими в эксперименте, был отмечен ряд преимуществ такого подхода к обучению /2/.

Преподавателями были отмечены следующие положительные качества этого метода:

студент практически не зависит от расписания;

доставка и «чтение» материалов курса регистрируется преподавателем (при открытии письма учащимся, автоматически высылается письмо преподавателю);

работа с курсом практически не требует бумаги, что обеспечивает удобство работы и быстроту копирования материала;

однажды подготовленный курсовой материал может быть использован в последующие годы.

Так же важно отметить ряд преимуществ использования e-mail, которые нашли для себя учащиеся:

использование e-mail не требует присутствия на лекциях курса;

возможность работы с материалом в удобное для учащихся время;

весь курсовой материал хорошо систематизирован и может быть легко воспроизведен в полном объеме самостоятельно даже после окончания обучения.

Все перечисленные выше преимущества только малая часть того, что может дать образованию использование информационных технологий и методов ДО по сравнению с традиционными подходами.

Какие новые возможности позволяет использовать ДО по сравнению с широко известной заочной формой?

Возможность оперативного обмена информации по изучаемой проблеме, как с преподавателем, так и с другими участниками, изучающими курс.

Доступ к различным источникам информации, в том числе удаленным и распределенным базам данных, многочисленным конференциям по всему миру, огромному количеству библиотек.

Возможность организации совместных международных конференций по изучаемой проблеме, возможность запроса и получение ответа на интересующие вопросы через электронные конференции.

Возможность обучения в престижных зарубежных вузах, не покидая родного дома.

Из выше сказанного можно сделать вывод о необходимости и перспективности развития ДО. Важно сформулировать основные требования к создаваемым продуктам, ориентированным на применение для дистанционного обучения иностранному языку. Основные требования:

организация знаний о языке в виде целостной модели;

представление этой модели на ЭВМ в доступной для учащегося форме;

использование алгоритмов и методов искусственного интеллекта (ИИ) с целью повышения эффективности обучаемого комплекса;

обеспечение контроля знаний учащегося при помощи ЭВМ;

обеспечение работы системы, как в локальной сети, так и в глобальной сети Internet;

обеспечение открытости системы для удобства наполнения и корректировки базы знаний и тренажеров;

обеспечение платформенной независимости системы;

обеспечение модульности системы с целью быстрой замены, добавления или удаления приложений, используемых в обучении;

обеспечение связи с преподавателем.

В данной работе уделяется особое внимание вопросу использования в такого рода проектах методов ИИ. Речь пойдет об алгоритмах работы с текстовой информацией.

Задача интеллектуальной обработки текстов на естественном языке впервые появилась на рубеже 60х--70х гг. /7/. С тех пор было предпринято множество различных попыток ее решения, созданы десятки экспериментальных программ, способных вести диалог с пользователем на естественном языке. Однако широкого распространения такие системы пока не получили -- как правило, из-за невысокого качества распознавания фраз, жестких требований к синтаксису “естественного языка”, а также больших затрат машинного времени и ресурсов, необходимых для их работы. Практически во всех системах машинного понимания текста используется ограниченный естественный язык, поскольку полной и строгой формальной модели ни для одного естественного языка пока не создано.

Тем не менее естественно-языковые средства общения человека с ЭВМ постоянно развиваются, оставаясь одним из наиболее перспективных способов построения пользовательского интерфейса к сложным информационным системам.

Исследования этой области в Европе и США привлекают внимание крупнейших частных фирм и государственных организаций самого высокого уровня. Серьезная работа в направлении решении проблем автоматической обработки ЕЯ началась с основанных ARPA программ в 1980-х годах /7/, среди которых:

программа распознавания речи ATIS;

программа, направленная на решение задач понимания и извлечение информации из текстов IE (Information Extraction);

программа TIPSTER, существовавшая с 1991 по 1998 год, основной целью которой было сравнение и оценка результатов работы различных поисковых систем и систем реферирования.

Необходимо отметить, что такие задачи как распознавание и генерации речи, создание поисковых систем и систем реферирования, до настоящего времени решаются с минимальным участием лингвистов. Это обусловлено использованием при решении вышеупомянутых задач в основном статистических методов.

Несмотря на это, за долгие годы четко определились области, в которых наиболее сильны позиции профессиональных лингвистов. Это лексико-грамматический анализ (Part of Speech tagging) предложения /4,5,6/, синтаксический анализ (Text Parsing) предложения, нахождение имен собственных в тексте и автоматическое реферирование.

Задача лексико-грамматического анализа -- автоматически распознать, какой части речи принадлежит каждое слово тексте. На рис.1 показан пример предложения, в котором каждому слову поставлен в соответствие лексико-грамматический класс.

The/AT man/NN still/RB saw/VBD her/PPO./.

Обозначения

RB - наречие
AT - опр. артикль
NN - существительное
VB - глагол

VBD - глагол в прошедшем времени

PPO - объектное местоимение
PP$ - личное местоимение
. - точка

Рис.1

Данную задачу не трудно выполнить для русского языка благодаря его развитой морфологии практически со стопроцентной точностью. В английском языке простой алгоритм, присваивающий каждому слову в тексте наиболее вероятный для данного слова лексико-грамматический класс (часть речи) работает с точностью около 90%, что обусловлено лексической многозначностью английского языка.

Для улучшения точности лексико-грамматического анализа используются два типа алгоритмов: вероятностно-статистические и основанные на продукционных правилах, оперирующих словами и кодами.

Большинство вероятностно-статистических алгоритмов /4/ использует два источника информации:

1. Словарь словоформ языка /5/, в котором каждой словоформе соответствует множество лексико-грамматических классов, которые могут иметься у данной словоформы. Например, для словоформы well в словаре указано, что она может быть наречием, существительным, прилагательным и междометием. Для каждого лексико-грамматического класса словоформы указывается частота его встречаемости относительно других лексико-грамматических классов данной словоформы. Частота обычно подсчитывается на корпусе текстов, в котором предварительно вручную каждому слову приведен в соответствие лексико-грамматический класс. Таким образом, словоформа well в словаре будет представлена следующим образом (рис.2):

Словоформа

Часть речи

Частота

Well

существительное

4

Well

наречие

1567

Well

прилагательное

6

Well

междометие

1

Рис.2

2. Информацию о встречаемости всех возможных последовательностей лексико-грамматических классов. В зависимости от того, как представлена данная информация, разделяют биграмную, триграмную и квадриграмную модели. В биграмной модели используется информация о всех возможных последовательностях из двух кодов (рис.3):

Последовательность

Частота

неопр.артикль + сущ.ед.ч

35983

неопр.артикль + сущ.мн.ч

7494

Опр.артикль + сущ.ед.ч

13838

неопр.артикль + сущ.мн.ч

47

Рис.3

В триграмной модели и квадриграмной модели используется соответственно информация о всех возможных последовательностях из 3-х и 4-х кодов.

Рассмотрим подробнее пример разбора предложения, представленного на рис.1. Прежде всего, определяются все возможные значения частей речи, входящих в предложение, словоформ. Так словоформа «The» может быть только AT; «man» - NN или VB; «still» - NN, VB или RB; «saw» - NN или VBD; «her»-PPO или PP$. Далее воспользовавшись таблицей частотности, присваиваем словоформам тот или иной лексико-грамматический класс. Пример таблицы частотности для нашего предложения приведен на рис. 4.

NN

PPO

PP$

RB

VB

VBD

.

AT

186

0

0

8

1

8

9

NN

4

1

3

40

9

66

186

PPO

7

3

16

164

109

16

313

PP$

176

0

0

5

1

1

2

RB

5

3

16

164

109

16

313

VB

22

694

146

98

9

1

59

VBD

11

584

143

160

2

1

91

Рис.4

Например сочетание «The man» может быть либо (AT-NN) либо (AT-VB), c соответствующими вероятностями 186 и 1. Далее, аналогично, сравниваются вероятности p(AT-NN-NN)=744, p(AT-NN-VB)=1674 и p(AT-NN-RB)=7440 и т.д. В итоге мы получим следующую комбинацию: «AT-NN-RB-VBD-PPO», что и будет являться результатом работы вероятностно-статистического алгоритма.

Представленная выше информация обрабатывается программой, использующей статистические алгоритмы, чаще всего алгоритм скрытых цепей Маркова /4/ для нахождения наиболее вероятного лексико-грамматического класса для каждого слова в предложении.

Алгоритмы, основанные на продукционных правилах, используют правила, собранные автоматически с корпуса текстов, либо подготовленные квалифицированными лингвистами. Примером могут быть следующие правила:

Если словоформа может быть как глаголом, так и существительным, и перед ней стоит артикль, эта словоформа в данном случае является существительным.

Если словоформа может быть как предлогом, так и подчинительным союзом, и если после нее до конца предложения нет глагола, эта словоформа в данном случае является предлогом.

Оба подхода дают примерно одинаковый результат. При их использовании раздельно либо в различных комбинациях точность лексико-грамматического анализа улучшается до 96-98 %. Поскольку точность при лексико-грамматическом анализе текста вручную также имеет определенную погрешность (0,5-2 %), можно считать, что автоматизация лексико-грамматического анализа достигла практически такой же точности.

Синтаксический анализ /8/. В отличие от лексико-грамматического анализа текста, синтаксический анализ -- развивающаяся область прикладной лингвистики. Цель синтаксического анализа -- автоматическое построение функционального дерева фразы, т.е. нахождение взаимозависимостей между разноуровневыми элементами предложения. Считается, что имея успешно построенное функциональное дерево фразы, можно выделить из предложения смысловые элементы: логический субъект, логический предикат, прямые и косвенные дополнения и различные виды обстоятельств. Существует большое количество различных подходов к синтаксическому анализу текстов, например система LTAG/8/. Главная особенность этой системы заключается в построении элементарных смысловых деревьев предложения. Каждое элементарное дерево содержит в себе всю синтаксическую и семантическую информацию о конкретном слове или группе слов. К этим деревьям могут быть применены операции примыкания и подстановки. Подстановка является простой операцией - подстановкой дерева к висящей вершине другого дерева. Примыкание является более сложной операцией - присоединение некоторого дерева к внутренним вершинам другого дерева. Данный алгоритм подробно описан в работе /8/. Ниже рассмотрен один из общих подходов синтаксического анализа предложения.

Синтаксический разбор предложения происходит путем набора последовательных преобразований:

поиск грамматических идиом;

лексико-грамматический анализ предложения с устранением неоднозначности в определении частей речи;

нахождение именной группы объекта и субъекта;

нахождение глагольной группы;

выделение главных и придаточных предложений.

Приведем пример синтаксического разбора предложения рис.5.

[We] {have found} / that [subsequent addition] (of [the second inducer]) (of [either system]) <after {allowing} [single induction] {to proceed} +> (for [15 minutes]) (also) {results} (in [increased reproduction]) + \ + (of [both enzymes]).

Обозначения:

[…] - группа существительного;

(…) - группа дополнения;

{…} - глагольная группа;

/…\ и <…> - главные и придаточные предложения;

+ - окончание глагольного окружения.

Рис.5

В данной обзорной работе описаны лишь некоторые алгоритмы и наиболее общие подходы к проблеме автоматической обработки естественно-языковых текстов.

Сегодня в области компьютерной лингвистики ежегодно проводится более 40 конференций по всему миру, посвященных проблемам обработки естественного языка. Постоянно растет количество программных продуктов, связанных с данной темой, повышается их качество. Но, несмотря на это, те системы перевода, реферирования и экспертные системы, которые на сегодняшний день считаются лучшими, далеко не идеальны и требуют серьезных доработок. Все это говорит о необходимости продолжения исследований вопросов, связанных с обработкой естественного языка в задачах ДО и разработки новых подходов и алгоритмов, основанных на методах искусственного интеллекта.

рефераты
РЕФЕРАТЫ © 2010