подсчет слов в строке php
Строки | Strings PHP
Строка — это последовательность символов, например «Привет мир!». PHP поддерживает ровно 256 различных символов: буквы, цифры, знаки пунктуации, специальные символы и пробелы.
Строковые функции PHP
Разработчикам очень часто приходится иметь дело с различными функциями работы со строками в PHP. В разных справочниках представлены все функции, но этой главе мы рассмотрим некоторые часто используемые функции для управления строками.
Узнать длину строки
Функция strlen() возвращает длину строки, то есть количество символов в ней:
Пример
Результат выполнения кода:
Подсчитать количество слов в строке
Функция str_word_count() подсчитывает количество слов в строке:
Пример
Результат выполнения кода:
Перевернуть строку задом наперед
Функция strrev() возвращает строку, перевернутую задом наперед:
Пример
Результат выполнения кода:
Заменить текст внутри строки
Функция str_replace() заменяет некоторые символы на другие символы в строке.
В приведенном ниже примере текст «HTML» заменяется на «PHP»:
Пример
Результат выполнения кода:
Найти подстроку в строке
В приведенном ниже примере выполняется поиск текста «PHP» в строке «Я учу PHP»:
Пример
Результат выполнения кода:
Примечание: При использовании этой функции нужно учитывать, что индексация символов в строке начинается с нуля, поэтому позиция символа ‘Я’ будет равна 0.
Удалить пробелы из начала и конца строки
Функция trim() удаляет из строки начальные и конечные пробелы, а также управляющие символы ‘\n’, ‘\r’, ‘\t’:
Как посчитать слова в конкретной строке в PHP?
Я хочу посчитать слова в определенной строке, чтобы я мог проверить ее и запретить пользователям писать, например, более 100 слов.
Я написал эту функцию, но я не думаю, что она достаточно эффективна, я использовал функцию разнесения с пробелом в качестве разделителя, но что если пользователь поместит два пробела вместо одного. Вы можете дать мне лучший способ сделать это?
10 ответов
Может быть str_word_count мог бы помочь
Если вы планируете использовать специальные символы в любом из ваших слов, вы можете указать любые дополнительные символы в качестве третьего параметра.
У str_count_words есть свои недостатки. он будет считать подчеркивание как отдельные слова, например this_ это два слова:
Вы можете использовать следующую функцию для подсчета слов, разделенных пробелами, даже если между ними больше одного.
Это гарантирует, что он работает правильно со словами, разделенными несколькими пробелами или любым другим не буквенным символом. Он также правильно обрабатывает юникод (например, буквы с акцентом).
Используйте preg_split() вместо explode(). Split поддерживает регулярные выражения.
Я написал функцию, которая лучше, чем str_word_count потому что эта функция PHP считает тире и другие символы как слова.
Кроме того, моя функция решает проблему двойных пробелов, которые многие из написанных другими людьми функций не учитывают.
Также эта функция обрабатывает теги HTML. Где, если у вас есть два тега, вложенных вместе, и просто использовали strip_tags Функция это будет считаться одним словом, когда это два. Например:
Title
Title
Кроме того, я сначала убираю JavaScript из кода
Подсчет слов на веб-странице html с помощью php
мне нужен PHP-скрипт, который принимает URL-адрес веб-страницы, а затем повторяет, сколько раз упоминается слово.
пример
это общая HTML-страница:
это будет php-скрипт:
таким образом, выход будет такой таблицей:
5 ответов
одна строка ниже будет делать нечувствительное к регистру количество слов после удаления всех тегов HTML из вашей строки.
чтобы захватить исходный код страницы вы можете использовать cURL или функции file_get_contents()
приведенный ниже скрипт прочитает содержимое удаленного url-адреса, удалит теги html и подсчитает вхождения каждого уникального слова в нем.
предостережение: в вашем ожидаемом выходе «это» имеет значение 2, но ниже чувствительно к регистру, поэтому как «это», так и «это» записываются как отдельные слова. Вы можете преобразовать всю входную строку в нижний регистр перед обработкой, если исходный регистр не имеет значения для ваших целей.
дополнительно, как только основной strip_tags запускается на входе, теги, сформированные mal, не будут удалены, поэтому предполагается, что ваш исходный html действителен.
Edit: Чарли указывает в комментариях, что такие вещи, как head раздел будет по-прежнему учитываться. С помощью функции, определенной в Примечания пользователя функции strip_tags, они также позаботились из.
generichtml.com
парсер.в PHP
выход:
предыдущий код-это точка, в которой начинается. Следующим шагом является удаление тегов html с регулярными выражениями. Ищите функции ereg и eregi. Некоторые другие трюки необходимы для тегов стиля и скрипта (вы должны удалить содержимое) Точки и запятые также должны быть удалены.
Это мой код для подсчета слов, содержащих HTML-теги:
Это сложная работа, которую вы не должны пытаться самостоятельно.
тогда вы должны tokenize текст, который представляет свои собственные проблемы. Наконец, вы заинтересованы в какой-то форме stemming перед переходим к подсчету сроков.
Я рекомендую вам использовать специализированные инструменты для этого. Я не использовал ни один из них, но вы можете попробовать HTMLParser для разбора и введение для токенизации / stemming (цель Люсена Текст Поиска, но эти операции необходимы для построения индекса).
strlen
(PHP 4, PHP 5, PHP 7, PHP 8)
strlen — Возвращает длину строки
Описание
Список параметров
Строка ( string ), для которой измеряется длина.
Возвращаемые значения
Примеры
Пример #1 Пример использования strlen()
Примечания
Функция strlen() возвратит количество байт, а не число символов в строке.
Смотрите также
User Contributed Notes 8 notes
I want to share something seriously important for newbies or beginners of PHP who plays with strings of UTF8 encoded characters or the languages like: Arabic, Persian, Pashto, Dari, Chinese (simplified), Chinese (traditional), Japanese, Vietnamese, Urdu, Macedonian, Lithuanian, and etc.
As the manual says: «strlen() returns the number of bytes rather than the number of characters in a string.», so if you want to get the number of characters in a string of UTF8 so use mb_strlen() instead of strlen().
// the Arabic (Hello) string below is: 59 bytes and 32 characters
$utf8 = «السلام علیکم ورحمة الله وبرکاته!» ;
The easiest way to determine the character count of a UTF8 string is to pass the text through utf8_decode() first:
We just ran into what we thought was a bug but turned out to be a documented difference in behavior between PHP 5.2 & 5.3. Take the following code example:
?>
This is because in 5.2 strlen will automatically cast anything passed to it as a string, and casting an array to a string yields the string «Array». In 5.3, this changed, as noted in the following point in the backward incompatible changes in 5.3 (http://www.php.net/manual/en/migration53.incompatible.php):
«The newer internal parameter parsing API has been applied across all the extensions bundled with PHP 5.3.x. This parameter parsing API causes functions to return NULL when passed incompatible parameters. There are some exceptions to this rule, such as the get_class() function, which will continue to return FALSE on error.»
So, in PHP 5.3, strlen($attributes) returns NULL, while in PHP 5.2, strlen($attributes) returns the integer 5. This likely affects other functions, so if you are getting different behaviors or new bugs suddenly, check if you have upgraded to 5.3 (which we did recently), and then check for some warnings in your logs like this:
strlen() expects parameter 1 to be string, array given in /var/www/sis/lib/functions/advanced_search_lib.php on line 1028
If so, then you are likely experiencing this changed behavior.
When checking for length to make sure a value will fit in a database field, be mindful of using the right function.
There are three possible situations:
1. Most likely case: the database column is UTF-8 with a length defined in unicode code points (e.g. mysql varchar(200) for a utf-8 database).
Find the character set used, and pass it explicitly to the length function.
There’s a LOT of misinformation here, which I want to correct! Many people have warned against using strlen(), because it is «super slow». Well, that was probably true in old versions of PHP. But as of PHP7 that’s definitely no longer true. It’s now SUPER fast!
I created a 20,00,000 byte string (
20 megabytes), and iterated ONE HUNDRED MILLION TIMES in a loop. Every loop iteration did a new strlen() on that very, very long string.
The result: 100 million strlen() calls on a 20 megabyte string only took a total of 488 milliseconds. And the strlen() calls didn’t get slower/faster even if I made the string smaller or bigger. The strlen() was pretty much a constant-time, super-fast operation
So either PHP7 stores the length of every string as a field that it can simply always look up without having to count characters. Or it caches the result of strlen() until the string contents actually change. Either way, you should now never, EVER worry about strlen() performance again. As of PHP7, it is super fast!
Here is the complete benchmark code if you want to reproduce it on your machine:
Как найти длину строки в PHP?
В этой статье мы рассмотрим, как в PHP вычисляется длина строки. Поговорим про известную функцию strlen и расскажем про нюансы её работы.
Итак, начнём с того, что заключим нужный текст в переменную — это позволит нам в последующем удобнее обращаться к нашей текстовой информации. К примеру:
Будем считать, что строка у нас есть, поэтому осталось определить её длину. Сделать это можно, используя всем известную функцию strlen. Единственным и обязательным параметром данной функции является строка, число символов в которой мы считаем:
Функция работает предельно просто: принимает строку и возвращает в качестве результата определённое значение, которое, кстати, вы потом сможете применять в своих скриптах и функциях. При этом удобнее будет сделать так:
Но это в том случае, если мы уже создали данную переменную, иначе можно записать код следующим образом:
То есть ничего сложного, как видите, нет. Если же говорить о том, где в реальной практике может использоваться нахождение длины строки, то это, например, поле для ввода какого-нибудь текста, позволяющее определить размер статьи в режиме онлайн.
Каковы нюансы в работе функции strlen?
Следует учитывать, что функция вычисляет количество байт в строке string, а не привычное нам число символов. И тут всё зависит от кодировки:
В нашем случае русские буквы в юникоде занимают 2 байта, в результате чего длина одной буквы становится равной двум: 11 букв * 2 + 3 пробела = 25. Это важная особенность.
Кроме того, если в измеряемой нами строке символы отсутствуют, функция вернет значение 0. Также не стоит использовать strlen для расчёта длины массива, т. к. вернётся NULL.
Ещё существует функция iconv_strlen, позволяющая нам в качестве второго параметра указывать кодировку:
Как посчитать число слов в строке? Необходимость в этом тоже иногда возникает. В PHP для выполнения данной задачи есть функция str_word_count. Она имеет 2 основных параметра, которые обязательны. Первый — сама строка, число слов в которой нас интересует. Второй — формат, в котором будет выведено значение. Возможно использование и третьего параметра — charlist, в котором можно указывать список дополнительных символов, которые функция посчитает как слова. Но этот параметр необязателен, к тому же, обычно в таких излишествах нет надобности.
Что касается параметра format, то он способен принимать три значения: — 0 — просто возвращается количество найденных слов; — 1 — массив слов, входящих в строку; — 2 — массив со словами, причём индекс каждого слова — это его позиция в строке.
Используем strlen и конструкцию if else
В некоторых задачах на PHP нужно определить, превышает ли длина нашей строки какой-нибудь предел, например, десять. Такие задачки решаются через конструкцию if else:
Пожалуй, на этом всё, успешного вам обучения!
Интересуют продвинутые знания по PHP? Добро пожаловать на специализированный курс: