Как посчитать слова в файле си
Обновлено: 06.07.2024
Р абота с текстовым файлом похожа работу с консолью: с помощью функций форматированного ввода мы сохраняем данные в файл, с помощью функций форматированного вывода считываем данные из файла. Есть множество нюансов, которые мы позже рассмотрим. Основные операции, которые необходимо проделать, это
- 1. Открыть файл, для того, чтобы к нему можно было обращаться. Соответственно, открывать можно для чтения, записи, чтения и записи, переписывания или записи в конец файла и т.п. Когда вы открываете файл, может также произойти куча ошибок – файла может не существовать, это может быть файл не того типа, у вас может не быть прав на работу с файлом и т.д. Всё это необходимо учитывать.
- 2. Непосредственно работа с файлом - запись и чтение. Здесь также нужно помнить, что мы работаем не с памятью с произвольным доступом, а с буферизированным потоком, что добавляет свою специфику.
- 3. Закрыть файл. Так как файл является внешним по отношению к программе ресурсом, то если его не закрыть, то он продолжит висеть в памяти, возможно, даже после закрытия программы (например, нельзя будет удалить открытый файл или внести изменения и т.п.). Кроме того, иногда необходимо не закрывать, а "переоткрывать" файл для того, чтобы, например, изменить режим доступа.
Кроме того, существует ряд задач, когда нам не нужно обращаться к содержимому файла: переименование, перемещение, копирование и т.д. К сожалению, в стандарте си нет описания функций для этих нужд. Они, безусловно, имеются для каждой из реализаций компилятора. Считывание содержимого каталога (папки, директории) – это тоже обращение к файлу, потому что папка сама по себе является файлом с метаинформацией.
Иногда необходимо выполнять некоторые вспомогательные операции: переместиться в нужное место файла, запомнить текущее положение, определить длину файла и т.д.
Для работы с файлом необходим объект FILE. Этот объект хранит идентификатор файлового потока и информацию, которая нужна, чтобы им управлять, включая указатель на его буфер, индикатор позиции в файле и индикаторы состояния.
Объект FILE сам по себе является структурой, но к его полям не должно быть доступа. Переносимая программа должна работать с файлом как с абстрактным объектом, позволяющим получить доступ до файлового потока.
Создание и выделение памяти под объект типа FILE осуществляется с помощью функции fopen или tmpfile (есть и другие, но мы остановимся только на этих).
Функция fopen открывает файл. Она получает два аргумента – строку с адресом файла и строку с режимом доступа к файлу. Имя файла может быть как абсолютным, так и относительным. fopen возвращает указатель на объект FILE, с помощью которого далее можно осуществлять доступ к файлу.
Например, откроем файл и запишем в него Hello World
Функция fopen сама выделяет память под объект, очистка проводится функцией fclose. Закрывать файл обязательно, самостоятельно он не закроется.
Функция fopen может открывать файл в текстовом или бинарном режиме. По умолчанию используется текстовый. Режим доступа может быть следующим
Тип | Описание |
---|---|
r | Чтение. Файл должен существовать. |
w | Запись нового файла. Если файл с таким именем уже существует, то его содержимое будет потеряно. |
a | Запись в конец файла. Операции позиционирования (fseek, fsetpos, frewind) игнорируются. Файл создаётся, если не существовал. |
r+ | Чтение и обновление. Можно как читать, так и писать. Файл должен существовать. |
w+ | Запись и обновление. Создаётся новый файл. Если файл с таким именем уже существует, то его содержимое будет потеряно. Можно как писать, так и читать. |
a+ | Запись в конец и обновление. Операции позиционирования работают только для чтения, для записи игнорируются. Если файл не существовал, то будет создан новый. |
Если необходимо открыть файл в бинарном режиме, то в конец строки добавляется буква b, например “rb”, “wb”, “ab”, или, для смешанного режима “ab+”, “wb+”, “ab+”. Вместо b можно добавлять букву t, тогда файл будет открываться в текстовом режиме. Это зависит от реализации. В новом стандарте си (2011) буква x означает, что функция fopen должна завершиться с ошибкой, если файл уже существует. Дополним нашу старую программу: заново откроем файл и считаем, что мы туда записали.
Вместо функции fgets можно было использовать fscanf, но нужно помнить, что она может считать строку только до первого пробела.
fscanf(file, "%127s", buffer);
Также, вместо того, чтобы открывать и закрывать файл можно воспользоваться функцией freopen, которая «переоткрывает» файл с новыми правами доступа.
Функции fprintf и fscanf отличаются от printf и scanf только тем, что принимают в качестве первого аргумента указатель на FILE, в который они будут выводить или из которого они будут читать данные. Здесь стоит сразу же добавить, что функции printf и scanf могут быть без проблем заменены функциями fprintf и fscanf. В ОС (мы рассматриваем самые распространённые и адекватные операционные системы) существует три стандартных потока: стандартный поток вывода stdout, стандартный поток ввода stdin и стандартный поток вывода ошибок stderr. Они автоматически открываются во время запуска приложения и связаны с консолью. Пример
Ошибка открытия файла
Если вызов функции fopen прошёл неудачно, то она возвратит NULL. Ошибки во время работы с файлами встречаются достаточно часто, поэтому каждый раз, когда мы окрываем файл, необходимо проверять результат работы
Проблему вызывает случай, когда открывается сразу несколько файлов: если один из них нельзя открыть, то остальные также должны быть закрыты
В простых случаях можно действовать влоб, как в предыдущем куске кода. В более сложных случаях используются методы, подменяющиее RAII из С++: обёртки, или особенности компилятора (cleanup в GCC) и т.п.
Буферизация данных
- 1) Если он заполнен
- 2) Если поток закрывается
- 3) Если мы явно указываем, что необходимо очистить буфер (здесь тоже есть исключения:)).
- 4) Также очищается, если программа завершилась удачно. Вместе с этим закрываются и все файлы. В случае ошибки выполнения этого может не произойти.
Форсировать выгрузку буфера можно с помощью вызова функции fflush(File *). Рассмотрим два примера – с очисткой и без.
Раскомментируйте вызов fflush. Во время выполнения откройте текстовый файл и посмотрите на поведение.
Буфер файла можно назначить самостоятельно, задав свой размер. Делается это при помощи функции
которая принимает уже открытый FILE и указатель на новый буфер. Размер нового буфера должен быть не меньше чем BUFSIZ (к примеру, на текущей рабочей станции BUFSIZ равен 512 байт). Если передать в качестве буфера NULL, то поток станет небуферизированным. Можно также воспользоваться функцией
- _IOFBF - полная буферизация. Данные записываются в файл, когда он заполняется. На считывание, буфер считается заполненным, когда запрашивается операция ввода и буфер пуст.
- _IOLBF - линейная буферизация. Данные записываются в файл когда он заполняется, либо когда встречается символ новой строки. На считывание, буфер заполняется до символа новой строки, когда запрашивается операция ввода и буфер пуст.
- _IONBF – без буферизации. В этом случае параметры size и buffer игнорируются.
Пример: зададим свой буфер и посмотрим, как осуществляется чтение из файла. Пусть файл короткий (что-нибудь, типа Hello, World!), и считываем мы его посимвольно
Видно, что данные уже находятся в буфере. Считывание посимвольно производится уже из буфера.
Функция int feof (FILE * stream); возвращает истину, если конец файла достигнут. Функцию удобно использовать, когда необходимо пройти весь файл от начала до конца. Пусть есть файл с текстовым содержимым text.txt. Считаем посимвольно файл и выведем на экран.
Всё бы ничего, только функция feof работает неправильно. Это связано с тем, что понятие "конец файла" не определено. При использовании feof часто возникает ошибка, когда последние считанные данные выводятся два раза. Это связано с тем, что данные записывается в буфер ввода, последнее считывание происходит с ошибкой и функция возвращает старое считанное значение.
Этот пример сработает с ошибкой (скорее всего) и выведет последний символ файла два раза.
Решение – не использовать feof. Например, хранить общее количество записей или использовать тот факт, что функции fscanf и пр. обычно возвращают число верно считанных и сопоставленных значений.
Примеры
1. В одном файле записаны два числа - размерности массива. Заполним второй файл массивом случайных чисел.
2. Пользователь копирует файл, при этом сначала выбирает режим работы: файл может выводиться как на консоль, так и копироваться в новый файл.
3. Пользователь вводит данные с консоли и они записываются в файл до тех пор, пока не будет нажата клавиша esc. Проверьте программу и посмотрите. как она себя ведёт в случае, если вы вводите backspace: что выводится в файл и что выводится на консоль.
4. В файле записаны целые числа. Найти максимальное из них. Воспользуемся тем, что функция fscanf возвращает число верно прочитанных и сопоставленных объектов. Каждый раз должно возвращаться число 1.
Другое решение считывать числа, пока не дойдём до конца файла.
5. В файле записаны слова: русское слово, табуляция, английское слово, в несколько рядов. Пользователь вводит английское слово, необходимо вывести русское.
Файл с переводом выглядит примерно так
солнце sun
карандаш pen
шариковая ручка pencil
дверь door
окно windows
стул chair
кресло armchair
и сохранён в кодировке cp866 (OEM 866). При этом важно: последняя пара cлов также заканчивается переводом строки.
Алгоритм следующий - считываем строку из файла, находим в строке знак табуляции, подменяем знак табуляции нулём, копируем русское слово из буфера, копируем английское слово из буфера, проверяем на равенство.
6. Подсчитать количество строк в файле. Будем считывать файл посимвольно, считая количество символов '\n' до тех пор, пока не встретим символ EOF. EOF – это спецсимвол, который указывает на то, что ввод закончен и больше нет данных для чтения. Функция возвращает отрицательное значение в случае ошибки.
ЗАМЕЧАНИЕ: EOF имеет тип int, поэтому нужно использовать int для считывания символов. Кроме того, значение EOF не определено стандартом.
В текстовом файле посчитать количество строк, а также для каждой отдельной строки определить количество в ней символов и слов.
Подсчет строк:
Ввести счетчик, присвоить ему 0.
Пока не будет достигнут конец файла, считывать очередную строку файла и увеличивать счетчик на 1.
Подсчет символов в строке:
Измерять длину очередной строки с помощью встроенный в язык программирования функции.
Подсчет слов в строке:
- Ввести счетчик слов и присвоить ему 0.
- Ввести флаговую переменную и присвоить ей 0 (сигнал нахождения вне слова).
- Пока не будет достигнут конец строки:
- Если очередной символ не пробел и флаг указывает на нахождение вне слова, то увеличить счетчик слов и присвоить флаговой переменной 1 (сигнал нахождения внутри слова).
- Если же очередной символ пробел, то присвоить флагу 0.
Pascal
Файл выполнен в среде GNU/Linux, компилятор FreePascal. Русские символы считаются за 2 символа. Например, в данном примере во второй строке 9 кириллических символа, пробел и восклицательный знак: 18 + 2 = 20 символов.Язык Си
посчитать количество строк в файле си
Тот же "эффект", что и в Паскале: кириллический символ считается за 2.Функция fgets() считывает строку вместе с символом перехода на новую строку. Аргумент N не позволяет считать больше указанного количества символов, но длина строки определяется по количеству считанных (т.е. фактической длиной строки).
Python
python количество строк в файле
Символ перехода на новую строку учитывается.КуМир
Здесь считается общее количество слов и символов.
Basic-256
Переход на новую строку учитывается как символ.var
f: text;
s: string;
line, chr, wrd: word;
i: byte;
flag: boolean;
begin
assign(f,'text.txt');
reset(f);
line := 0;
while not EOF(f) do begin
readln(f,s);
write(s, ' - ');chr := length(s);
write(chr, ' симв., ');wrd := 0;
flag := false;
for i:=1 to chr do
if (s[i] ' ') and (flag = false) then begin
wrd := wrd + 1;
flag := true;
end
else
if s[i] = ' ' then flag := false;
writeln(wrd, ' сл.');
end;
close(f);
writeln(line,' стр.');
end.Hello world! - 12 симв., 2 сл.
Привет мир! - 20 симв., 2 сл.
One, two, three - 15 симв., 3 сл.
Один, два, три - 24 симв., 3 сл.
4 стр.
Файл выполнен в среде GNU/Linux, компилятор FreePascal. Русские символы считаются за 2 символа. Например, в данном примере во второй строке 9 кириллических символа, пробел и восклицательный знак: 18 + 2 = 20 символов.посчитать количество строк в файле си
word = 0;
flag = 0;
for (i=0; ipython количество строк в файле
f = open('text.txt')
line = 0
for i in f:
line += 1flag = 0
word = 0
for j in i:
if j != ' ' and flag == 0:
word += 1
flag = 1
elif j == ' ':
flag = 0Hello world!
13 симв. 2 сл.
Привет мир!
12 симв. 2 сл.
One, two, three
16 симв. 3 сл.
Один, два, три
15 симв. 3 сл.
4 стр.Символ перехода на новую строку учитывается.
использовать Файлы П
алг
нач
цел f, line, word, char, in, i
лит s
line := 0
word := 0
char := 0
f := открыть на чтение ("текст.txt")
нц пока не конец файла (f)
Фввод f, s
line := line + 1
вывод s, нс
char := char + длин(s)
in := 0
нц для i от 1 до длин(s)
если s[i] " " и in = 0 то
word := word + 1
in := 1
иначе
если s[i] = " " то in := 0 все
все
кц
кц
закрыть(f)
вывод нс, "строк - ", line, нс
вывод "слов - ", word, нс
вывод "символов - ", char
конРепутация: нет
Всего: нетКак посчитать количество слов в файле?
Если словом нужно считать то что отделено пробелами, enterom and TabВот посчитать количество символов можно, но вот как посчитать слова?
Кто-нибудь встречался с ткой задачей?
Язык програмирования Си.
Репутация: нет
Думается нужно считать до того как слово кончиться, а знашь пробел это первое слово,дальше тарам пам пам - пробел,слово и т.д.
Всего: нет
Репутация: нет
Всего: 3Репутация: 1
Всего: 116дубликаты символов табуляции не должны подсчитываться. Если будет 10 пробелов подряд - не значит, что счетчик слов должен увеличиться на 10.
Репутация: нет
Всего: 3volvo877, понятное дело!
Я же сказал, что самый простой вариант! Простой и очень критичный к содержимому файла! Двойное и более дублирование пробелов, символов новой строки и табуляции он не видит! А ещё. А ещё, если функция fgetc не сможет прочитать из потока символ, она вернёт EOF, что может послужить причиной недосчёта!Репутация: 45
Самый простой вариант, который приходит в голову, это
Всего: 134
Цитата
324324 32 444444444
382844 4324 423
333
3
3
1Ну или более безопасный вариант
int words=0;
Здесь был кролик. Но его убили.
char c;
Человеки < кроликов, йа считаю.Репутация: 6
Всего: 44Репутация: 45
Всего: 134chaos
Тогда уж ifs >> str
Но в любом случае это С++, а не Си.ps. Даже вот так
Здесь был кролик. Но его убили.
Человеки < кроликов, йа считаю.Репутация: 6
Всего: 44
упс
забыл убрать, сории за невнимательность
и видимо по диаганали прочитал топик)) раз не заметил что на Си надо
Репутация: 6
вот еще один пример на этот раз на СИ(вроде как такая же идея была у KyKy)
Всего: 44
Репутация: нет
Всего: нетРепутация: 5
chaos, Mayk Прикольно, конечно, но. вроде автора темы уважать неплохо. Новичёк
Всего: 29
Репутация: нет
Всего: нетРепутация: 0
Всего: 12Перебирая по символу в цикле-
если ((это первый символ И его код больше пробела) ИЛИ (код символа меньше или равен пробелу) ) уст флаг=1передвинуть указатель на следующий символ
если (код символа больше пробела И флаг==1) инкрементировать счетчик слов
Репутация: 6
Всего: 44Enya
Идея вообще такая: как только мы встретили символ код каторого меньш 33(те всякие там пробелы, переводы строк и тп дрянь) и перед этим кодом был символ(те код больше 32, определяем был ли символ или пробел через флаг fSpace) то можно сказать что кончилось словоРепутация: 45
Всего: 134
только тут надо учитывать, что если char трактуется как signed char (а так скорее всего и есть), то русские буквы и псевдографика(которые как известно имеют номера 0x80-0xFF) тоже будут меньше нуля.
Здесь был кролик. Но его убили.
Человеки < кроликов, йа считаю.Репутация: нет
Всего: -4В позапрошлом семестре сделал людям кучу курсовиков, связанных со строками.
Вот близкий тебе пример:Задание на курсовую работу :
Написать программу, открывающую файл, подсчитывающую количество слов в нём и выводящую в некоторый другой файл строки, содержащие слово и количество вхождений слова в исходный файл. Строки должны быть упорядочены по длине слова.
char *infName,*outfName,*strFText,*strTime,*strWords,chrAct;
FILE *inFile,*outFile;
int FLen,n,m,QW,*intPos,intTime;- Черновик стандарта C++ (за октябрь 2005) можно скачать с этого сайта. Прямая ссылка на файл черновика(4.4мб).
- Черновик стандарта C (за сентябрь 2005) можно скачать с этого сайта. Прямая ссылка на файл черновика (3.4мб).
- Прежде чем задать вопрос, прочтите это и/или это! хранится весь мировой запас ссылок на документы, связанные с C++ :)
- Не брезгуйте пользоваться тегами [code=cpp][/code].
- Пожалуйста, не просите написать за вас программы в этом разделе - для этого существует "Центр Помощи".
Если Вам понравилась атмосфера форума, заходите к нам чаще! С уважением, Earnest Daevaorn
[ Время генерации скрипта: 0.1529 ] [ Использовано запросов: 21 ] [ GZIP включён ]
Мне нужно написать код на C, который выводит количество символов, строк и слов в данном файле. Задача кажется простой, но я действительно не уверен, что пошло не так в этот момент.
Идея задачи заключается в том, что вывод должен быть таким же, как вывод команды wc в Linux. Но я совершенно не понимаю, почему в моем цикле пропускаются некоторые символы. То, как я написал код, должно позволять считать КАЖДЫЙ ОДИН символ, даже эти пробелы. Почему тогда моя программа показывает, что файл-образец содержит 65 символов, а wc показывает 68? Я подумал, что, возможно, есть какие-то символы, которые пропускает fgetc, но это невозможно, поскольку я использовал эту функцию раньше, когда писал программу для копирования содержимого одного текстового файла в другой, и все работало правильно.
Кстати, мое решение для подсчета слов правильное? Условие после цикла должно гарантировать, что учитывается последнее слово перед EOF. Я использовал isspace, чтобы убедиться, что в финале нет пробелов.
2 ответа
"Моя программа показывает, что файл примера содержит 65 символов, а wc показывает 68"
Вы работаете в Windows, и в вашем файле всего три строки? Если это так, проблема в том, что Windows сопоставляет окончания строк CRLF с символами новой строки, поэтому 3 пары CRLF сопоставляются с окончанием 3 строк (только LF) с учетом расхождения. Чтобы решить эту проблему, откройте файл в двоичном режиме.
Я думаю, что код для подсчета слов в порядке, не запустив код. Вместо этого вы можете использовать флаг «in-word», изначально установленный на 0 (false), и переключиться на true и подсчитать новое слово, когда вы обнаружите что-то, что не является пробелом, когда вы не в слове. Оба работают; они немного разные.
Также помните, что fgetc() и родственники возвращают int , а не char . Вы не можете надежно обнаружить EOF, если сохраните возвращаемое значение в char , хотя характер проблемы зависит от того, является ли простой char подписанным или беззнаковым, и от используемого набора кода.
Если простой char является беззнаковым типом, вы никогда не сможете обнаружить EOF (поскольку EOF отображается в 0xFF, и когда он преобразуется в int для сравнения с EOF, он является положительным). Если простой char подписан, если входные данные содержат код 0xFF (в ISO 8859-1 и связанных наборах кодов это ÿ - ЛАТИНСКАЯ СТРОЧНАЯ БУКВА Y С ДИАРЕЗИСОМ в терминологии Unicode), вы обнаружите EOF раньше. Однако действительный UTF-8 никогда не может содержать байт 0xFF (ни 0xC0, 0xC1, ни 0xF5..0xFF), поэтому вы не должны сталкиваться с этой проблемой неверной интерпретации - но тогда ваш код является подсчетом байтов, а не подсчетом символов.
меня спросили об этом во время интервью, и, по-видимому, это простой вопрос, но это не было и до сих пор не очевидно для меня.
учитывая строку, подсчитайте все слова в ней. Не имеет значения, если они повторяются. Просто общее количество, как в текстовых файлах word count. Слова-это все, что отделено пробелом, и пунктуация не имеет значения, если это часть слова.
например: A very, very, very, very, very big dog ate my homework. ==> 11 words
мой "алгоритм" просто проходит через поиск пробелов и увеличиваю счетчик, пока не достигну нуля. Поскольку я не получил работу и меня попросили уйти после этого, я думаю, что мое решение не было хорошим? У кого-нибудь есть более умное решение? Я что-то упускаю?
менее умный, более очевидный-для-всех-программистов-в-вашей-команде способ сделать это.
предполагая, что слова разделены пробелом:
Примечание: между словами может быть несколько пробелов. Также это не ловит другие символы пробела, такие как tab new line или Carriage return. Поэтому подсчета пробелов недостаточно.
оператор ввода потока >> при использовании для чтения строки из потока. Читает одно слово, разделенное пробелом. Поэтому они, вероятно, искали вас, чтобы использовать это для идентификации слов.
когда можно использовать этот считать слова в строке.
усложняется:
Потоки можно обрабатывать так же, как и любой другой контейнер, и есть итераторы для цикла через них std::istream_iterator. Когда вы используете оператор ++ в istream_iterator, он просто читает следующее значение из потока, используя оператор >>. В этом случае мы читаем std:: string, поэтому он читает слово, разделенное пробелом.использование std:: distance просто обертывает все вышеперечисленное в аккуратный пакет, как это найдите расстояние между двумя итераторами, выполнив ++ на Первом, пока мы не достигнем второго.
чтобы избежать копирования строки мы можем быть Sneaky:
Примечание: мы по-прежнему копируем каждое слово из оригинала во временное. Но стоимость этого минимальна.
Читайте также: