Учебное пособие (1077022), страница 29
Текст из файла (страница 29)
Свойство Filterсодержит список расширений файлов, которые позволяет выбиратьдиалоговое окно. Открытие диалогового окна производится с помощьюметода ShowDialog.Еслипользователь«fd.ShowDialog()==невыбралDialogResult.OK»текстовыйнефайлвыполняется),(условиетосиспользованием класса MessageBox выводится сообщение «Необходимовыбрать файл» и обработчик события завершает работу.Если же условие истинно (файл успешно выбран), то выполняютсяосновные действия обработчика события.240С использованием класса Stopwatch (который был рассмотрен вразделе пособия по параллельной обработке) объявляется и запускаетсятаймер.С использованием метода File.ReadAllText (который был рассмотрен вразделе пособия по обработке текстовых файлов) содержимое файласчитывается в виде переменной text типа string.
Свойство fd.FileNameкласса OpenFileDialog возвращает путь и имя файла.С использованием метода Split класса string производится разделениесодержимого переменной text на массив строк textArray. Метод Splitпринимает в качестве параметра массив символов, которые могутразделять слова в файле.Далее в цикле foreach производится перебор всех слов в массивеtextArray. Для текущего слова производится удаление пробелов в начале иконце. Если текущее слово еще не содержится в списке слов list, то онодобавляется в этот список. Таким образом, каждое слово в файлевключается в список list только один раз.После этого производится остановка таймера. В текстовое полеtextBoxFileReadTime выводится время построения списка слов файла, а втекстовое поле textBoxFileReadCount выводится количество слов в спискеlist, то есть количество уникальных слов в файле. На рис. 43.
у текстовыхполей textBoxFileReadTime и textBoxFileReadCount серый фон, так как дляних установлено свойство «ReadOnly=true», то есть они доступны толькодля чтения. Если поле доступно только для чтения, то пользователь неможет вводить данные в такое поле, но его можно изменять в программе.12.2 Четкий поиск в текстовом файлеВ процедуре поиска используется не текстовый файл напрямую, асписок list слов, прочитанных из файла.Рассмотрим код обработчика кнопки «Четкий поиск»:241private void buttonExact_Click(object sender, EventArgs e){//Слово для поискаstring word = this.textBoxFind.Text.Trim();//Если слово для поиска не пустоif (!string.IsNullOrWhiteSpace(word) && list.Count > 0){//Слово для поиска в верхнем регистреstring wordUpper = word.ToUpper();//Временные результаты поискаList<string> tempList = new List<string>();Stopwatch t = new Stopwatch();t.Start();foreach (string str in list){if (str.ToUpper().Contains(wordUpper)){tempList.Add(str);}}t.Stop();this.textBoxExactTime.Text = t.Elapsed.ToString();this.listBoxResult.BeginUpdate();//Очистка спискаthis.listBoxResult.Items.Clear();//Вывод результатов поискаforeach (string str in tempList){this.listBoxResult.Items.Add(str);}this.listBoxResult.EndUpdate();}else{MessageBox.Show("Необходимо выбрать файл и ввести слово дляпоиска");}}В начале работы обработчика проверяется содержимое поля «Словодля поиска» (элемент textBoxFind).242Если данное поле не пусто (условие string.IsNullOrWhiteSpace(word)не выполняется) и прочитаны данные из файла (условие list.Count>0выполняется) то выполняются основные действия обработчика события.Если условие не выполняется, то выводится сообщение «Необходимовыбрать файл и ввести слово для поиска» и обработчик события завершаетработу.Далее перебираются все слова в списке list.
Если текущее проверяемоеслово включает слово для поиска как подстроку (что проверяется сиспользованием метода Contains класса string), то текущее проверяемоеслово добавляется во временный список найденных слов tempList. Передпроверкой строки переводятся в верхний регистр с использованием методаToUpper класса string.После завершения поиска в текстовое поле textBoxExactTimeвыводится время поиска, а в список listBoxResult (элемент ListBox) списокнайденных слов.Для заполнения данными элемента ListBox необходимо выполнитьследующие действия: для начала обновления данных списка необходимо вызвать методBeginUpdate; для работы со списком необходимо использовать коллекцию Items.Для очистки результатов предыдущего поиска следует вызватьметод Items.Clear; для добавления элементов в список необходимо использоватьметод Items.Add; для завершения обновления данных списка нужно вызвать методEndUpdate.В результате четкого поиска в список будут выведены слова файла,которые включают искомое слово как подстроку.243Пример результатов четкого поиска представлен на рис.
44. Вкачествефайлаиспользуетсятекстовоесодержимоестатьииз«Википедии» о языке программирования C#. Для корректного поиска врусскоязычном тексте, текстовый файл должен быть сохранен в кодировкеUTF-8, так как с ней по умолчанию работают методы класса File.Рис. 44. Результаты четкого поиска.12.3 Нечеткий поиск в текстовом файлеНечеткий поиск в текстовом файле практически не отличается отчеткого, только вместо проверки вхождения подстроки необходимовызыватьфункциювычислениярасстоянияДамерау-Левенштейна,рассмотренную ранее. Однако дополнительную сложность придаеттребование параллельного поиска в массиве слов (пример параллельногопоиска в массиве также был рассмотрен ранее).244Рассмотрим код обработчика кнопки «Параллельный нечеткийпоиск»:private void buttonApprox_Click(object sender, EventArgs e){//Слово для поискаstring word = this.textBoxFind.Text.Trim();//Если слово для поиска не пустоif (!string.IsNullOrWhiteSpace(word) && list.Count > 0){int maxDist;if(!int.TryParse(this.textBoxMaxDist.Text.Trim(), out maxDist)){MessageBox.Show("Необходимо указать максимальное расстояние");return;}if (maxDist < 1 || maxDist > 5){MessageBox.Show("Максимальное расстояние должно быть в диапазоне от 1до 5");return;}int ThreadCount;if (!int.TryParse(this.textBoxThreadCount.Text.Trim(), out ThreadCount)){MessageBox.Show("Необходимо указать количество потоков");return;}Stopwatch timer = new Stopwatch();timer.Start();//------------------------------------------------// Начало параллельного поиска//------------------------------------------------//Результирующий списокList<ParallelSearchResult> Result = new List<ParallelSearchResult>();//Деление списка на фрагменты для параллельного запуска в потокахList<MinMax> arrayDivList = SubArrays.DivideSubArrays(0, list.Count,ThreadCount);int count = arrayDivList.Count;//Количество потоков соответствует количеству фрагментов массиваTask<List<ParallelSearchResult>>[] tasks = newTask<List<ParallelSearchResult>>[count];//Запуск потоковfor (int i = 0; i < count; i++){//Создание временного списка, чтобы потоки не работали параллельно содной коллекциейList<string> tempTaskList = list.GetRange(arrayDivList[i].Min,arrayDivList[i].Max - arrayDivList[i].Min);245tasks[i] = new Task<List<ParallelSearchResult>>(//Метод, который будет выполняться в потокеArrayThreadTask,//Параметры потокаnew ParallelSearchThreadParam(){tempList = tempTaskList,maxDist = maxDist,ThreadNum = i,wordPattern = word});//Запуск потокаtasks[i].Start();}Task.WaitAll(tasks);timer.Stop();//Объединение результатовfor (int i = 0; i < count; i++){Result.AddRange(tasks[i].Result);}//------------------------------------------------// Завершение параллельного поиска//------------------------------------------------timer.Stop();//Вывод результатов//Время поискаthis.textBoxApproxTime.Text = timer.Elapsed.ToString();//Вычисленное количество потоковthis.textBoxThreadCountAll.Text = count.ToString();//Начало обновления списка результатовthis.listBoxResult.BeginUpdate();//Очистка спискаthis.listBoxResult.Items.Clear();//Вывод результатов поискаforeach (var x in Result){string temp = x.word + "(расстояние=" + x.dist.ToString() + " поток="+ x.ThreadNum.ToString() + ")";this.listBoxResult.Items.Add(temp);}//Окончание обновления списка результатовthis.listBoxResult.EndUpdate();}else{MessageBox.Show("Необходимо выбрать файл и ввести слово для поиска");246}}В начале обработчика, как и в случае четкого поиска, проверяется чтосписок list не пуст и что указано слово для поиска.
Если условиевыполняется, то производится проверка и приведение к типу int полей«Максимальное расстояние для нечеткого поиска» и «Количествопотоков». Для приведения к типу int используется метод int.TryParse. Длямаксимального расстояния также проверяется, что оно находится вдиапазоне от 1 до 5.Параллельный поиск практически полностью повторяет пример,рассмотренный в разделе 9. Разница состоит в том, что в данном случаеобрабатывается не массив целых чисел, а массив строк.Для хранения информации о найденных словах используется классParallelSearchResult:/// <summary>/// Результаты параллельного поиска/// </summary>public class ParallelSearchResult{/// <summary>/// Найденное слово/// </summary>public string word { get; set; }/// <summary>/// Расстояние/// </summary>public int dist { get; set; }/// <summary>/// Номер потока/// </summary>public int ThreadNum { get; set; }}Класс содержит найденное слово, расстояние Дамерау-Левенштейнамежду найденным и искомым словами, и номер потока, в котором былонайдено данное слово.Для разделения массива на подмассивы применяется класс SubArrays.247Для параллельного поиска используется класс Task.
Как и врассмотренном ранее примере параллельного поиска создается массивобъектов класса Task, потоки запускаются, ожидание завершения потоковосуществляетсяспомощьюметодаTask.WaitAll.Внутрипотокавыполняется метод ArrayThreadTask, который получает в качествепараметра объект класса ParallelSearchThreadParam.После завершения работы всех потоков проводится объединениерезультатов с помощью свойства Result класса Task.Далееосуществляетсявыводрезультатов.Заполняютсяполя«Вычисленное количество потоков» (так как класс SubArrays можетвозвращать на один поток больше чем указано) и «Время нечеткогопоиска».Аналогично четкому поиску найденные слова выводятся в списокlistBoxResult, но в данном случае наряду с найденным словом выводитсяномер потока, в котором было найдено слово, и реальное расстояниеДамерау-Левенштейна, на которое данное слово отличается от искомого.Рассмотрим метод ArrayThreadTask, который выполняется внутрипотока.














