Что такое обработка текста

Содержание

Обработка текстов

Смотреть что такое «Обработка текстов» в других словарях:

обработка текстов — Использование вычислительной машины для ввода, редактирования, форматирования и печати текстов и документов. [ГОСТ 15971 90] обработка текстов Процесс создания, редактирования и хранения текстовых документов на компьютере с помощью специальной… … Справочник технического переводчика

Обработка текстов — 54. Обработка текстов Text processing Использование вычислительной машины для ввода, редактирования, форматирования и печати текстов и документов Источник: ГОСТ 15971 90: Системы обработки информации. Термины и определения оригинал документа … Словарь-справочник терминов нормативно-технической документации

Обработка текстов — 1. Использование вычислительной машины для ввода, редактирования, форматирования и печати текстов и документов Употребляется в документе: ГОСТ 15971 90 Системы обработки информации. Термины и определения … Телекоммуникационный словарь

ОБРАБОТКА ТЕКСТОВ НА ЭВМ — согласно ГОСТ 15971–90 «Системы обработки информации. Термины и определения», – использование вычислительной машины для ввода, редактирования, форматирования и печати тестов и документов … Делопроизводство и архивное дело в терминах и определениях

Обработка — 7. Обработка* Математический и (или) логический анализ результатов измерения Источник … Словарь-справочник терминов нормативно-технической документации

Обработка естественного языка — (Natural Language Processing, NLP) общее направление искусственного интеллекта и математической лингвистики. Оно изучает проблемы компьютерного анализа и синтеза естественных языков. Применительно к искусственному интеллекту анализ означает … Википедия

обработка текста — Ввод, редактирование, корректура текста, формирование полос и распечатка текстов в издательской системе … Краткий толковый словарь по полиграфии

подготовка текстов — обработка текстов — [Л.Г.Суменко. Англо русский словарь по информационным технологиям. М.: ГП ЦНИИС, 2003.] Тематики информационные технологии в целом Синонимы обработка текстов EN word processing … Справочник технического переводчика

ГОСТ Р ИСО/МЭК 2382-23-2004: Информационная технология. Словарь. Часть 23. Обработка текста — Терминология ГОСТ Р ИСО/МЭК 2382 23 2004: Информационная технология. Словарь. Часть 23. Обработка текста оригинал документа: 23.06.22 автоматическая нумерация параграфов [automatic paragraph numbering]: Возможность текстового процессора… … Словарь-справочник терминов нормативно-технической документации

Автоматическая обработка текста — Автоматическая обработка текста преобразование текста на искусственном или естественном языке с помощью ЭВМ. Прикладные системы и теория А. о. т. начали создаваться в конце 50‑х гг. 20 в. (США, СССР, Франция, ФРГ и др.) и развивались в… … Лингвистический энциклопедический словарь

Источник

обработка текста

Смотреть что такое «обработка текста» в других словарях:

обработка текста — Операции обработки данных текста, включая ввод, текстовое редактирование, сортировку, объединение, поиск, запоминание, отображение или печать текста. [ГОСТ Р ИСО/МЭК 2382 23 2004] обработка текста Использование компьютера для редактирования и… … Справочник технического переводчика

Обработка текста — редактирование, корректура текста, формирование полос и распечатка текста в издательской системе. Прикладные пакеты для О. т. позволяют вводить текст с клавиатуры и редактировать его … Реклама и полиграфия

обработка текста — 23.01.02 обработка текста [text processing (word processing)]: Операции обработки данных текста, включая ввод, текстовое редактирование, сортировку, объединение, поиск, запоминание, отображение или печать текста. Источник: ГОСТ Р ИСО/МЭК 2382 23… … Словарь-справочник терминов нормативно-технической документации

обработка текста на естественном языке — — [Е.С.Алексеев, А.А.Мячев. Англо русский толковый словарь по системотехнике ЭВМ. Москва 1993] Тематики информационные технологии в целом EN natural language processingNLP … Справочник технического переводчика

АВТОМАТИЧЕСКАЯ ОБРАБОТКА ТЕКСТА — АВТОМАТИЧЕСКАЯ ОБРАБОТКА ТЕКСТА. Преобразование текста на естественном языке с помощью компьютера. В зависимости от целей различают несколько видов А. о. т. Обработка, преобразование текста при автоматизированном редактировании заключается во… … Новый словарь методических терминов и понятий (теория и практика обучения языкам)

автоматическая обработка текста — Автоматический процесс подготовки и редактирования текстовых материалов. [Е.С.Алексеев, А.А.Мячев. Англо русский толковый словарь по системотехнике ЭВМ. Москва 1993] Тематики информационные технологии в целом EN automated language processingALP … Справочник технического переводчика

Источник

Урок 5. Редактирование текста

Редакторское дело самым прямым образом связано с журналистикой. И даже если готовый материал в дальнейшем будет проходить через руки редактора какого-либо издания или интернет-сайта, автор просто обязан предварительно проверить его сам, чтобы исключить ошибки, опечатки, разночтения и т.п.

Именно поэтому для грамотного журналиста всегда будет преимуществом знание газетного или издательского дела, особенностей превращения рукописи в публикацию, основ современных полиграфических технологий и техники, экономики издательского производства. Исходя из этого, беседовать о журналисте в этом уроке мы будем как о редакторе. Собственно говоря, и сам урок будет полезен не только журналистам, но и редакторам.

Содержание:

Редактор – это человек, безукоризненно грамотный, отлично знающий литературный язык, умеющий применять все обилие лексико-стилистических средств для придания тексту яркости, понятности и интересности для читателя.

Само же понятие «редактирование» можно рассматривать с позиции трех главных его значений:

Ниже мы подробно поговорим конкретно о литературном редактировании текстовых материалов.

Литературное редактирование

Литературное редактирование – это многогранный процесс работы над готовящимся к публикации текстовым материалом. Он включает в себя оценку темы, проверку и исправление изложения, проверку и исправление разработки темы, литературную обработку текста. Давайте немного углубимся и разберемся в деталях каждой из составляющих

Оценка темы

Оценивая тему, необходимо познакомиться с текстом и дать общую оценку необходимости его публикации. В расчет здесь нужно брать специфику издания или веб-ресурса, где текст впоследствии будет опубликован, и соответствие текста задаче, решаемой автором.

Разработка темы

Под разработкой темы следует понимать установление того, насколько всесторонне и объективно рассматриваются в тексте факты, явления и события, насколько логично изложение материала. Очень важно определить основательность выводов, заключений, обобщений и научных положений, а также понять, удалось ли передать не только внешний облик рассматриваемого явления или события, но и его внутреннюю суть. Если редактор не является автором, он должен проверить на достоверность все цитаты, цифровые данные и факты. Как правило, этого вполне достаточно для составления правильного представления об истинности научной и фактической составляющих.

Литературная обработка

Литературная обработка предполагает оценку структуры материала, его объема, характера изложения, языка и стиля. При оценке текста всегда нужно обращать внимание на композицию текста и соотношение отдельных его блоков; проверять текст на наличие преувеличений второстепенных данных, повторений, сложных лексических конструкций; оценивать последовательность материала и т.п. Также нужно устанавливать соответствие объема материала выбранной теме, и при необходимости сокращать его. Огромную роль играют стиль и язык произведения: публиковать можно только такие работы, которые написаны точным и ясным литературным языком.

На стадии второго чтения можно делать правки, вносить исправления в композицию и устранять логические непоследовательности, а также анализировать заголовок – оценивать его выразительность и соответствие содержанию (чем больше заголовок соответствует содержанию, тем лучше).

Редактирование текста – это творческая работа, и во много она определяется индивидуальной манерой редактора. Однако такие вещи как работа над композицией и текстом, устранение смысловых ошибок, проверка фактического материала и выбор заголовка от индивидуальной манеры не зависят. Основная задача в процессе редактирования – это совершенствование содержания и формы текста. И смысл состоит в том, чтобы прийти к их единству.

Виды правки

Качественная правка позволят устранить погрешности, добиться четкости и ясности формулировок, проверить фактические данные и исключить неточности, избавить текст от шероховатости стиля и языка. Одновременно с этим правки должны вноситься, только если в них есть реальная необходимость.

Исходя из того, какие изменения претерпевает текст в ходе редактирования, можно выделить четыре основных вида правки:

Более подробно о каждом из видов.

Правка-вычитка

Смысл правки-вычитки состоит в том, чтобы сравнить текст с более совершенным оригиналом, выявить технические погрешности и устранить их. Правка-вычитка применятся при редактировании:

Если к публикации или изданию готовятся документальные или дефинитивные тексты, в первую очередь нужно убедиться в том, что они точно соответствуют оригиналу или предыдущему изданию.

Что касается конкретно исправлений, то им подлежат опечатки, орфографические ошибки, описки без смысловой нагрузки (при необходимости можно делать сноски и давать в них комментарии). Также дописываются недописанные слова, расшифровываются сокращения. Если попадаются тексты исторических произведений или документов, им придаются черты современной графики, однако особенности среды или эпохи (стиль, фразеологизмы, специфические выражения и т.п.), имеющиеся в тексте, остаются неизменными.

Правка-сокращение

При правке-сокращении главная задача редактора – это сокращение текста, но без ущерба для его содержания. Сокращение может быть необходимо по нескольким причинам:

Правка-обработка

Правка-обработка используется в редакторской практике чаще остальных видов. Редактор в данном случае исправляет неудачные обороты и слова, уточняет формулировки и фразы, придает построению произведения логичность, добавляет более убедительные аргументы, устраняет любые признаки путаницы. При этом тонкости стиля и слога автора должны сохраняться, и если автором является не редактор, любые изменения должны быть согласованы. Любая поправка должна быть научно и логически обоснована.

Правка-переделка

Правка-переделка актуальна в тех случаях, когда редактор трудится над работами авторов, плохо владеющих литературным языком. Это вид правки широко распространен в практике газетной работы, а также применяется при публикации статей, мемуаров, брошюр. Как и в прошлом случае, должна быть сохранена авторская стилистика.

Но, работая над устранением ошибок, редактору следует не только делать правки, но и постоянно отслеживать логичность подачи материала, т.к. выдвигаемые автором основные положения должны быть логически связаны, а все переходы от одной части к другой – закономерны и последовательны. По этой причине важно иметь представление о логических основах редактирования текста.

Логические основы редактирования текста

Как мы и сказали, редактор обязан обращать внимание на логичность подачи готовящегося к публикации материала. Это говорит о том, что основные тезисы, имеющиеся в тексте, нужно непременно доказывать, а сами доказательства должны быть достоверными, обоснованными и не вызывающими сомнений. Безусловно, формальная логика не избавит текст от недочетов и ошибок, но в полной мере будет способствовать систематизации изложения, придавать ему убедительности и устранять противоречия.

В некоторых случаях редактору требуется проверять комплекс доказательств, имеющихся в тексте, усиливать его, избавлять от ненужных аргументов, а также устранять подмену тезисов, если текст доказывает не то, что было задумано изначально. Говоря проще, редактору нужно оценивать состоятельность логического доказательства. Под последним следует понимать установление достоверности какого-то одного суждения через приведение других суждений, истинность которых не поддается сомнению и из которых проистекает достоверность проверяемого изначального суждения.

Логическое доказательство имеет место, если выполняются три условия:

1	Есть тезис – то, что требуется доказать.
2	Есть аргументы – суждения, которые доказывают тезис на должном уровне (до того, как доказывается тезис).
3	Есть демонстрация – суждения, показывающие, как тезис обосновывается приведенными аргументами.

Если хотя бы одно из этих условий не выполняется, доказательство будет несостоятельным, т.к. будет непонятно, почему, как и что вообще доказывается. Эта тема требует более детального рассмотрения, но с учетом специфики нашего курса (все-таки в большей степени он предназначен для журналистов, нежели для редакторов), мы не будем в нее углубляться, а перейдем к более важной части – разновидностям ошибок, встречающихся в текстовых материалах.

Основные ошибки при написании текстов

Всего существует пять основных категорий ошибок, допускаемых авторами при написании текстовых материалов:

Разберем, в чем состоят их особенности.

Логические ошибки

Логические ошибки разделяются на несколько категорий. Проявляются они в композиции текста, неудачной разработке темы, аргументации и т.д. К самым распространенным логическим ошибкам относятся:

Логические ошибки влекут за собой огромное количество смысловых ошибок, однако встречаются случаи, когда логические несоответствия применяются авторами специально. Такой прием характерен для пародий, памфлетов и фельетонов.

Лексические ошибки

Лексические ошибки еще одна распространенная категория ошибок. Основные их причины – это неточное словоупотребление, неудачное использование крылатых слов, идиом и фразеологизмов, языковая небрежность и перенасыщение текстового материала специальной лексикой и понятиями, которые могут быть неизвестны широкой публике

Грамматико-стилистические ошибки

Среди наиболее часто встречающихся грамматико-стилистических ошибок можно выделить неправильное употребление местоимений, неудачную замену множественного числа существительных единственным числом и наоборот, неправильное употребление рода существительных.

Синтаксические ошибки

Синтаксические ошибки выражаются в неверном порядке слов, нарушениях примыкания, согласования и управления, а также в неправильном употреблении причастных и деепричастных оборотов.

Орфографические ошибки

Орфографические ошибки состоят в неправильном написании слов. Основная их особенность заключается в том, что на слух они практически не воспринимаются, однако качество печатного текста заметно страдает. Самыми «популярными» орфографическими ошибками считаются:

Нередко также встречается неправильное написание слов «также» и «так же», «зачем» и «за чем», «компания» и «кампания», «почему» и «по чему», «в общем» и «вообще» и т.п.

Многих ошибок, какими бы они ни были, легко избежать, регулярно повышая свою грамотность. Но, конечно же, быть на 100% грамотным может далеко не каждый, а потому при редактировании текста всегда требуется проявлять к нему повышенное внимание, и при необходимости делать проверку по нескольку раз. Помните, что от того, насколько правильно и грамотно написан ваш текст, зависит и ваш успех, и то, насколько серьезно вы будете восприняты заказчиками и читателями. А в качестве отличного подспорья при проверке материалов можно использовать специальные программы для редактирования текстов.

Программы для редактирования текстов

В интернете сегодня работают специальные ресурсы для редактирования текста онлайн. От всех ошибок они вас не избавят, но помогут устранить наиболее часто встречающиеся. Сервисов, собственно говоря, тоже немало, но мы отметим лишь семь самых востребованных авторами:

Кстати, советуем вам не пренебрегать и встроенным проверщиком приложения MS Word – этот популярный текстовый редактор достаточно хорошо «причесывает» тексты, выделяя ошибки красными подчеркиваниями.

А чтобы процесс проверки и редактирования текста протекал быстрее и легче, дадим вам еще одну полезную рекомендацию – выстраивайте свою работу по редактированию на трех этапах:

Первый этап – это беглое – чисто ознакомительное чтение, во время которого вы оцениваете целостность материала, его содержание, идею и манеру изложения. Второй этап – это медленное и более углубленное чтение, во время которого вы фокусируетесь на всех абзацах, предложениях, словах и знаках. Здесь вы анализируете отдельные единицы текста, соотносите между собой его части, работаете над детализацией, исправляете все виды ошибок. Третий этап – это контрольное чтение. Текст еще раз перечитывается, анализируется единообразие подачи, правильность написания самых сложных элементов, имен собственных, числовых данных и дат.

На этом проверка заканчивается, и если все было сделано правильно и с головой, готовый материал будет соответствовать всем требованиям грамотности. Но все же еще раз напоминаем, что при наличии сомнений текст лучше лишний раз проверить, ведь, как говорится: «семь раз отмерь – один раз отрежь».

Проверьте свои знания

Если вы хотите проверить свои знания по теме данного урока, можете пройти небольшой тест, состоящий из нескольких вопросов. В каждом вопросе правильным может быть только один вариант. После выбора вами одного из вариантов, система автоматически переходит к следующему вопросу. На получаемые вами баллы влияет правильность ваших ответов и затраченное на прохождение время. Обратите внимание, что вопросы каждый раз разные, а варианты перемешиваются.

Напоминаем, что для полноценной работы сайта вам необходимо включить cookies, javascript и iframe. Если вы ввидите это сообщение в течение долгого времени, значит настройки вашего браузера не позволяют нашему порталу полноценно работать.

В шестом уроке мы вновь коснемся теории и побеседуем еще об одном очень популярном в наше время направлении – рекламной журналистике.

Источник

Что такое обработка текста

Часто интерактивные текстовые редакторы содержат дополнительную функциональность, призванную автоматизировать действия по редактированию, или отображают текстовые данные специальным образом (например, с подсветкой синтаксиса ).

Также нужно упомянуть удобный интерфейс, позволяющий быстро освоить приложение. Казалось бы, зачем искать что-то еще, но… есть одно «но». Microsoft Word – не бесплатное приложение. Конечно, тем, для кого работа на дому в интернете, к примеру, по набору текста стала источником стабильного и достаточно высокого дохода, имеет смысл купить этот редактор. Но, если человек использует подобное ПО достаточно редко, можно выбрать что-то похожее, только бесплатно.

Текстовый редактор LibreOffice Writer.

LibreOffice Writer – на данный момент это самый мощный среди бесплатных текстовых редакторов. Он позволяет работать с документами Microsoft Word, RTF, создавать HTML документы. В нем также можно вставлять в тексты таблицы, картинки, мультимедийные объекты и другие элементы. В LibreOffice Writer имеется редактируемый словарь и функция проверки орфографии. Интерфейс программы напоминает ранние версии Word, поэтому освоить его несложно. Тем более что есть русская версия приложения. Одним словом, этот редактор можно смело назвать бесплатным аналогом или упрощенной версией Microsoft Word. Есть и другие бесплатные приложения (AbiWord, OpenOffice), но, судя по отзывам пользователей, им далеко до LibreOffice Writer.

Текстовый редактор Блокнот.

Блокнот – это самый простой текстовый редактор, который входит в стандартный пакет установки системы Windows. Он работает с расширением TXT, но может открывать файлы INF, INI, LOG.

Тем не менее, Блокнот полезен не только начинающим, но и опытным пользователям, как простой и удобный вспомогательный инструмент. Вот лишь некоторые возможности этой программы:

Редактор текста Google, позволяющий печатать текст онлайн бесплатно.

По своим функциональным возможностям редактор текста Google – это что-то среднее между Microsoft Word и Блокнотом. Он поддерживает несколько текстовых форматов (DOCX, RTF, TXT), а также HTML, PDF. В нем можно форматировать тексты, использовать разные шрифты и стили, менять цвет текста, вставлять таблицы, рисунки, формулы, ссылки, специальные символы, номера страниц, сноски и комментарии, осуществлять поиск и проверку орфографии (редактор подчеркивает слова с ошибками и предлагает варианты их написания). Еще одна уникальная функция – это перевод текста на разные языки. Переведенный текст открывается в новом окне, что позволяет сравнить его с оригиналом.

Все документы автоматически сохраняются в разделе «Мой диск», где их можно оставить, если тексты еще нужны, или скачать на компьютер. Кстати, все это можно делать с мобильного телефона.

Бесплатный текстовый редактор Notepad для программистов и веб-мастеров.

Есть еще один редактор, о котором хотелось бы упомянуть, так как сам им пользуюсь. Это Notepad, который является аналогом блокнота и ориентирован на работу с исходным кодом PHP и Html. Он является незаменимым инструментом для блогеров и тех, кого интересует создание сайтов самостоятельно, и кто уже сталкивался с проблемой чистки и редактирования кода.

Приложение распространяется бесплатно, скачать текстовой редактор Notepad можно на сайте разработчиков. Программа очень легкая и обеспечивает максимальную скорость работы. К сожалению, подробно рассказать о редакторе в этом материале не получится, отмечу лишь некоторые особенности:

По статистике, редактором Notepad Plus пользуются до 70% Web-мастеров.

Пожалуй, на этом можно и завершить краткий обзор самых популярных текстовых редакторов. Желаю всем удачи и успехов!

Источник

Лингвистика и обработка текстов

За последнее десятилетие наметился прогресс в области обработки текстов на естественном языке, однако многие задачи по-прежнему остаются нерешенными, хотя появляются новые, связанные с мониторингом социальных сетей и обработкой искаженных текстов.

Задачи обработки текстов на естественном языке интересуют специалистов уже более полувека [1], за это время были разработаны методы решения задач информационного поиска [2], машинного перевода и т. п. При этом базовые принципы обработки неизменно связывались с компьютерной лингвистикой, однако многие новые задачи (например, выделение ключевых слов в документах или мониторинг социальных сетей), язык которых может очень сильно отличаться от «канонического», решаются и без ее применения. Среди задач, требующих пересмотра методов обработки текстов, можно назвать извлечение мнений, определение эмоциональной окраски текстов, анализ реального влияния источников информации (например, мнение «известного блогера» в действительности может быть интересно лишь его соседям по комнате), обработка некорректных или преднамеренно искаженных текстов.

Все эти задачи заставляют задуматься о том, всегда ли при обработке текстов следует отталкиваться от методов компьютерной лингвистики.

Во всех современных системах обработки текстов, начиная от простейшего поиска вхождения слов и заканчивая машинным переводом, предусмотрено несколько этапов, инвариантных к выбору естественного языка (рис. 1).

Рис. 1. Классическая поэтапная обработка текстов

На вход системы поступает последовательность символов, и на первом этапе (лексический анализ) происходит ее разбиение на отдельные слова и предложения. При этом некоторые последовательности символов (например, тире и точки в русском языке) могут трактоваться неоднозначно. Кроме того, на этапе лексического анализа возникает задача деобфускации — обнаружения и исправления преднамеренно искаженных (обфусцированных) слов. Типичным примером таких искажений является замена в спам-рассылках слова «drugs» (лекарства, наркотик) на «d.r.u.g.s» или «d-r-u-g-s».

Задачи обработки текстов возникли сразу за появлением вычислительной техники, но, несмотря на полувековую историю исследований в области искусственного интеллекта, скачок в развитии ИТ и смежных дисциплин, удовлетворительного решения таких задач пока нет.

Константин Селезнев

На следующем этапе происходит обработка отдельных слов, которая часто сводится к морфологическому анализу — определению характеристик слова (граммем) и основной словоформы. Существует два подхода к проведению морфологического анализа. Первый (точная морфология) подразумевает построение одного большого словаря, содержащего характеристики каждого слова (для русского языка такой словарь строится на основе словаря А. А. Зализняка, содержащего более 8 млн слов). Этот подход сравнительно прост в реализации, но имеет два важных недостатка. Во-первых, система будет корректно обрабатывать только слова, которые есть в словаре. Во-вторых, во многих языках этот словарь будет слишком большим.

Альтернативный подход (неточная морфология) к проведению анализа слов заключается в использовании системы правил, согласно которым по заданному слову предсказываются его характеристики. Недостатком подхода является то, что он не всегда может гарантировать 100-процентную точность результатов.

В задачах полнотекстового поиска и классификации текстов не требуется проведения полного морфологического анализа слов, а нужна только проверка того факта, что два указанных слова на самом деле являются формами одного и того же слова. Это может быть выполнено путем их лемматизации (приведение к основной словоформе) или стемминга, который заключается в выделении некоторой неизменяемой части слов. Однако морфологический анализ, лемматизация и стемминг не всегда способны определять родственные слова, например «безопасность» и «защита». Задачу определения родственных слов решают путем использования специальных словарей-тезаурусов, представляющих собой ориентированные графы, у которых вершины соответствуют словам, а дуги — семантически окрашенным связям между словами. Близость двух слов определяется на основе кратчайшего пути, соединяющего две соответствующие вершины графа. Если необходимо учитывать контекст слов, то задача значительно усложняется, и ее следует отнести к семантической обработке текста. Существуют автоматизированные способы определения связанности слов на основе частоты их совместной встречаемости или степени совпадения их контекстов употребления.

При синтаксическом анализе последовательность слов исходного текста преобразуется в древовидную иерархию, у которой листья соответствуют отдельным словам, узлы — группам слов, а дуги — взаимосвязям между словами и группами слов. Это преобразование осуществляется на основе заданной грамматики языка, которая по сути является фиксированным набором правил. Использование грамматик связано с очевидными трудностями — для естественного языка сложно разработать описывающую его систему правил, причем это особенно трудно для языков со сложной морфологической моделью и произвольным порядком слов (таких как русский). Кроме того, подавляющее большинство написанных человеком текстов содержат ошибки или опечатки. По этой причине любая грамматика может оказаться неприменимой, а попытки учесть все возможные варианты ошибок результата не дадут.

В основе большинства систем синтаксического анализа текста на русском языке лежат подходы, предполагающие использование различных вариантов грамматик. Наиболее интересными результатами являются Яндекс «Томита- парсер » (извлечение информации), парсер технологии Abbyy Compreno и модули системы ЭТАП-3 (машинный перевод). Попытки сравнения синтаксических анализаторов проводились неоднократно [ 3 ], и обнаружилось, что существующие системы слишком разнородны, а результаты их работы трудно привести к общему знаменателю. Мало того, за кадром остается весьма серьезная проблема — синтаксический анализ сам по себе не имеет практической ценности, а является лишь промежуточным этапом решения более общей задачи. При разработке и оценке модулей синтаксического анализа тестовые данные должны быть примерами входных данных конкретной системы. Допустим, для кадрового агентства создается система обработки резюме соискателей — тогда модули синтаксического анализа должны тестироваться именно на таких текстах.

Положение синтаксического анализа среди других методов предварительной обработки текстов двояко. С одной стороны, синтаксическая структура предложения достаточно точно определяет связи между словами, что необходимо в ряде практических приложений, таких как машинный перевод или извлечение информации. С другой, некоторые задачи (например, полнотекстовый поиск или классификация текстов) решаются и без синтаксического анализа, без следования традициям и глубокого анализа текста.

В задачах, требующих понимания смысла, дальнейшая обработка текста заключается в обнаружении и разрешении слов-ссылок. Простейший способ выполнения данной операции заключается в использовании системы правил. Например, слово «который» обычно связано с последним использованным существительным мужского рода. В более сложном случае для разрешения ссылок вида «этот факт» необходимо учитывать контекст. По мере усложнения обрабатываемых ссылок система постепенно движется к построению «локального» тезауруса документа. Далее любое слово нужно оценивать как с точки зрения локального, так и с точки зрения глобального тезауруса.

В итоге получается, что разрешение ссылок является частным случаем понимания смысла, который зависит от локального тезауруса. Отчасти верно и обратное — локальный тезаурус зависит от содержания текста, при этом для корректного понимания отдельных фраз иногда приходится задействовать целые понятийные слои языка. Например, упоминание теории относительности автоматически «подключает» соответствующую терминологию и понятийный аппарат.

Качественно выполненный семантический анализ приводит к построению локального тезауруса, у которого узлы соответствуют словам и словосочетаниям исходного текста, а дуги задают синтаксические и семантические связи. Часть семантических связей может указывать на глобальный тезаурус, который может быть построен вручную, а может быть комбинацией локальных тезаурусов других текстов. Во втором случае возникает любопытная идея — смысл слова состоит в его связях с фрагментами накопленных и обработанных текстов.

Локальный тезаурус способен формализованно задать содержание любого документа, но такое представление может быть крайне неудобным для дальнейшей обработки, поскольку один и тот же факт представим множеством различных способов. Необходимо более строгое и унифицированное представление, которое позволит формально и однозначно задавать любой смысл. Оно может быть основано на каком-либо способе представления знаний, в том числе и с помощью семантических сетей. В этом случае необходимо детальное описание возможных типов узлов и связей в таких сетях, а также система правил для преобразования информации из локального тезауруса в семантическую сеть. Попытки решить указанные задачи предпринимались давно, но не увенчались успехом, хотя сообщается, что эти задачи решены в Abbyy Compreno.

Ограничения существующих методов

Обработка текста происходит в несколько этапов, при этом выходные данные одного этапа передаются либо на вход следующего этапа, либо модулям, предназначенным для решения конкретной практической задачи, например машинного перевода. Результаты работы любого этапа неоднозначны — одни и те же входные данные дают несколько возможных результатов, и наоборот — один и тот же результат может получаться из совершенно разных входных данных. Это приводит к тому, что объем обрабатываемой информации при переходе с этапа на этап может резко увеличиваться.

Традиционная схема многоэтапной работы требует пересмотра — анализ текста может проходить в две фазы (рис. 2): поверхностное сканирование и выявление ключевых фрагментов текста, а затем детальный анализ по принципиально другому сценарию, согласно которому вышестоящие модули обращаются к нижестоящим за необходимой уточняющей информацией. Например, в задаче извлечения информации при поверхностном сканировании определяются упоминания людей, а затем семантический модуль обращается к нижележащему синтаксическому с запросом «какие связи есть у каждого найденного упоминания».

Рис. 2. Двухфазная обработка текстов

Как уже говорилось, модули нужно тестировать на реальных входных данных системы, и попытки сделать универсальные модули анализа, пригодные для решения любых задач, сталкиваются с одной и той же проблемой — модули оказываются оптимизированы для одной задачи и не оптимальны для других, а если анализ текста выполняется плохо, то и качество работы всей системы невысокое. При двухфазной обработке текста система способна влиять на то, какие модули необходимо задействовать и насколько эффективен оказывается именно лингвистический анализ текста.

Обработка отдельных текстов

При решении практических задач важно разделить их на две большие группы (рис. 3): обработка отдельных документов и обработка их массивов.

Рис. 3. Классификация практических задач

Группу задач обработки отдельных документов следует разделить на две подгруппы: корректировка документов и извлечение информации. Первая подразумевает, что на входе и на выходе будет текстовый документ (задачи исправления ошибок, корректировки текста, определения его структуры, реферирования, машинный перевод). Вторая подгруппа включает в себя задачи, связанные с обработкой формально представленного смысла: извлечение фактов, выполнение запросов на естественном языке, организация естественно-языковых интерфейсов, а также генерация корректных текстов.

Реализация всех задач первой подгруппы может быть основана либо на правилах, сформулированных экспертами, либо на закономерностях, полученных в результате применения методов машинного обучения. Использование системы правил потенциально дает более точные и предсказуемые результаты, но подразумевает большие затраты на ее создание. В свою очередь, применение методов машинного обучения не столь трудоемко, но требует большого количества качественных примеров. Скажем, можно найти множество хороших переводов английского текста на другие европейские языки и обратно, но трудно найти примеры переводов для редких языков.

Вторая подгруппа задач обработки отдельных документов включает в себя извлечение информации, выполнение запросов на естественном языке, генерацию текстов и организацию естественно-языковых интерфейсов. Все эти задачи подразумевают «понимание» текстов и поиск упоминаемых фактов. Работа осуществляется на основе системы правил извлечения информации, каждое из которых задает шаблон синтаксической структуры и шаблон формируемого фрагмента формализованного представления информации. При обработке документа просматриваются результаты синтаксического анализа и ищутся фрагменты, структура которых отвечает шаблонам из правил извлечения информации. Далее в соответствии со «сработавшими» правилами часть слов извлекается из текста и преобразуется в формализованную структуру.

Ключевое отличие от задачи «понимания» текста состоит в том, что происходит работа с информацией из указанной предметной области, для которой четко заданы концептуальная модель данных и правила извлечения. Поскольку описанные принципы извлечения информации применимы для различных предметных областей, то возможно создание универсального ПО, такого как Яндекс «Томита-парсер».

Выполнение запросов на естественном языке отличается от извлечения информации только тем, что результатом работы являются не упомянутые факты, а формализованное описание условий. Практическое применение запросов на естественном языке понятно не до конца, поскольку в большинстве случаев пользователю удобнее явно задавать формальные ограничения на информационные поля. Например, вместо формулировки «нужна машина не старше 5 лет» удобнее просто ввести нужные значения в соответствующие поля готовой формы. Кроме того, при выполнении запроса на естественном языке у пользователя возникает вполне обоснованное подозрение: а правильно ли его поняла система? Тем не менее такие запросы удобны для сложных предметных областей, где каждая сущность может состоять из десятков информационных полей и связей с другими сущностями.

Генерация текстов состоит в построении корректных документов, содержащих описание формально заданной информации. Как и выполнение запросов на естественном языке, данная задача востребована только для сложных предметных областей. Кроме того, поскольку на выходе получается текстовый документ, то действует особенность систем корректировки документов: пользователь не станет доверять системе полностью и всегда будет просматривать выходную информацию.

Организацию естественно-языковых интерфейсов можно рассматривать как комбинацию сразу трех задач, решенных сегодня в системе IBM Watson: извлечение информации, поиск ответа на уровне базы знаний и генерация текста. Пока еще сложно сказать, как эти технологии будут востребованы, но планируется использовать систему для медицинской диагностики, хотя неясно, будет ли естественно-языковой интерфейс удобнее других способов взаимодействия с экспертными системами.

Обработка массивов текстовых документов

Сегодня основная работа с массивами текстовых документов сводится к поиску необходимых документов или их фрагментов, что является обобщением задачи информационного поиска. Данный процесс включает в себя как собственно поиск документов, так и смежные с ним задачи определения ключевых слов, дубликатов документов и цитат, классификации и рубрикации документов, построения сниппетов (фрагментов) документов, построение кратких обзоров нескольких документов и так далее, вплоть до машинного перевода найденных документов с языка оригинала на язык запроса.

Системы информационного поиска можно разделить на две группы: поиск в локальных коллекциях и поиск в Интернете. Суммарный объем документов при поиске в локальных коллекциях сравнительно небольшой, и документы обычно не содержат преднамеренных ошибок.

Поиск в Сети имеет важные особенности. Во-первых, коллекция исходных документов является распределенной, и ее сбор (краулинг) сам по себе непрост. Во-вторых, огромный объем накапливаемой информации требует максимально высокой скорости обработки. В-третьих, документы в Интернете могут содержать ошибки и преднамеренные искажения, которые необходимо определять и обрабатывать. Примером преднамеренных искажений является веб-спам и всевозможные «поисковые оптимизации». В-четвертых, положение документа в выборке зависит от содержимого других документов (учитывается количество гиперссылок и их текст). Улучшение работы систем полнотекстового поиска заключается прежде всего в решении перечисленных проблем, и только потом — в проведении более глубокого анализа текстов.

Полнотекстовый поиск в Интернете может рассматриваться как работа с предварительно накопленным хранилищем документов. Существуют задачи, которые рассматривают Сеть как постоянный источник документов и выполняют их «потоковую» обработку. Самыми важными задачами такого типа являются спам-фильтры и системы веб-мониторинга.

Фильтрацию спама можно рассматривать как задачу классификации текстовых документов на две категории: спам и не спам. При ее решении используются различные методы машинного обучения, анализирующие содержимое документа и встречающиеся в нем слова. Однако точность дает проверка источника письма по «блэк-листу» — специальной базе данных со сведениями о серверах, рассылающих спам. Этот пример показывает, что некоторые на первый взгляд «канонические» задачи обработки текстов могут решаться вообще без привлечения компьютерной лингвистики.

Веб-мониторинг состоит в постоянном отслеживании информации в Интернете и в социальных сетях. Целью такого отслеживания является поиск и анализ новых сообщений по заданной тематике (например, касающейся указанного бренда или события). Другая цель веб-мониторинга — выявление быстро распространяющейся информации, которая копируется из одного сообщения в другое. Как правило, от программного обеспечения требуется определять сами факты быстрого распространения информации, находить основные пути ее распространения и первоначальные источники. Наконец, к задачам веб-мониторинга относится определение источников информации, имеющих существенное влияние на пользователей сети. Примерами таких источников являются блогеры, количество читателей постов которых сравнимо с аудиторией СМИ. Каждый такой источник информации характеризуется двумя параметрами: охватом (как много пользователей читают сообщения данного источника) и степенью отклика (как много пользователей реагируют на сообщения данного источника). Цели определения влиятельных источников могут быть самыми разными, начиная от проведения маркетинговых акций и заканчивая мероприятиями, связанными с обеспечением безопасности.

Системы веб-мониторинга сталкиваются с теми же проблемами, что и поисковые системы: распределенность исходной информации, ее суммарный объем, количество ошибок, вероятность преднамеренных искажений и т. п. Анализ содержимого сообщений сосредоточен на выявлении ключевых слов, деобфускации слов, а также определении негативных высказываний.

Сегодня приходится решать разные задачи обработки текстов, учитывая множество характеристик (язык, наличие ошибок, вероятность преднамеренных искажений и т. д.), что ставит под сомнение возможность создания и использования универсальных модулей анализа. Вместе с тем многие задачи могут быть решены без использования популярной сегодня, но трудоемкой и неэффективной в ряде случаев компьютерной лингвистики — ряд проблем можно решать без учета особенностей естественного языка.

Источник