Skip to content

Latest commit

 

History

History
85 lines (46 loc) · 8.3 KB

seminar-8.md

File metadata and controls

85 lines (46 loc) · 8.3 KB

AntConc

Download AntConc

С помощью данной программы можно производить поиск и подсчет различных элементов текста, анализировать частотность и контекст употребления словоформ, словосочетаний и морфем, сравнивать употребительность словоформ в разных текстах.

Отсутствие морфологического анализатора частично компенсируется возможностью подключения пользовательского списка лемм. Программа может быть использована для получения привязанных к заданной предметной области словарных минимумов, списков устойчивых сочетаний (в том числе терминологических), выборок к тематическим группам слов.

Проще говоря, это программа, которая позволяет создать собственный корпус.

Создание корпуса

Чтобы загрузить файл в меню File нажимаем «Open File» (файл должен быть в формате .txt /.xml /.html).

  1. Открываем во второй сверху строке меню кнопку «Word List» (вторяя слева) и нажимаем кнопку «Start» (внизу ближе к левому краю). Программа выстроит все словоформы текста в порядке частотности
  2. Можно сортировать и по другим критериям. Если вместо «Sort by Freq» (в самом низу ) выбрать «Sort by Word», произойдет сортировка по алфавиту, если выбрать «Sort by Word End», сортировка пойдет по концу слов.
  3. Если к тому же поставим галочку между фразами «Sort by» и «Invert Order», то сортировка пойдет в обратном порядке — от редких слов к частым или от я до а.
  4. Можно кликнуть из списка любое слово, начнется его автоматический поиск в окне Concordance.

Конкорданс

Конкорданс — это список всех употреблений заданного языкового выражения (например, слова) в контексте, возможно, со ссылками на источник.

(В НКРЯ нечто похожее было тогда, когда мы выводили в KWIC.)

Если открыто окно Concordance, искомое слово можно ввести в окошко, находящееся между кнопкой «Start» и фразой «Search Term» и нажать «Start». Будет происходить поиск данного слова в контекстах.

Если убрать галочку над тем же окошком между словами «Search Term» и «Words», можно будет искать не только конкретную форму слова, но и похожие формы: например, пишем пункт — выйдет пункта, пункты и т. п.

Кроме того можно использовать следующие специальные символы:

Вы можете сохранить результаты вашего поиска в отдельный файл: во вкладке File > «Save Output».

График конкорданса (Concordance Plot). В этом инструменте все адреса для каждого элемента поиска представлены в виде «штрих-кода», указывающего на место в файле, где находится элемент. График позволяет увидеть, какие файлы включают искомый элемент. Он также может быть использован для определения места, где сталкиваются искомый элемент и кластер. Во вкладке File View вы можете посмотреть расширенный контекст, в котором встречается искомое слово.

Кластеры

Кластеры (Clusters).Инструмент кластеры используется для создания упорядоченного списка кластеров, которые появляются вокруг поиска в целевом файле, перечисленные в левой части главного окна. С помощью функции Cluster Size мы можем изменять длину искомой последовательности. Search Term Position задаёт позицию искомого слова внутри N-граммы.

Коллокации

Коллокации (Collocates). Кластеры показывают N-граммы, которые встречаются в тексте (т.е. слова, которые стоят рядом друг с другом непосредственно), тогда как в списке коллокаций мы видим слова, которые статистически часто встречаются с искомым словом (слова, находящиеся в «окне поиска» – Window Span).

  • Freq(R) — насколько часто встречается данное слово справа от искомого
  • Freq(L) — насколько часто встречается данное слово слева от искомого
  • Freq — насколько часто встречается данное слово вместе с искомым
  • Stat — вероятность того, что данные слова встретятся вместе относительно того насколько часто они встречаются по отдельности.

Списки слов

Список слов. Данный инструмент подсчитывает все слова в корпусе и представляет их в упорядоченном списке. Это позволяет быстро найти, какие слова употребляются наиболее часто в корпусе.

Список ключевых слов. В дополнение к созданию списка слов, с помощью AntConc можно сравнить слова в целевом файле со словами, которые появляются в «базисном корпусе», чтобы создать список "Ключевых слов", которые являются наиболее частыми (или редкими) в целевых файлах.

Полезные ссылки

NGram Viewer User Guide

Sketch Engine User Guide

Advanced Usage of Google NGram Viewer

AntConc User Guide

AntConc Help

AntConc handout

Corpus Analysis with AntConc (tutorial)

Sample Corpus