# Expressões Regulares

## Sem Expressões 

In [1]:
def eh_Telefone(texto):
    if len(texto) != 13:
        return False  # not phone number-sized
    for i in range(0, 2):
        if not texto[i].isdecimal():
            return False  # not an area code
    if texto[2] != '.':
        return False  # does not have first point
    for i in range(3, 8):
        if not texto[i].isdecimal():
            return False  # does not have first digits
    if texto[8] != '.':
        return False  # does not have second point
    for i in range(9, 13):
        if not texto[i].isdecimal():
            return False  # does not have last digits
    return True  # "text" is a phone number!

print('37.98844.2132 is a phone number:')
print(eh_Telefone('37.98844.2132'))
print('Não é Numero de Telefone:')
print(eh_Telefone('Thiago'))
print('Não é Numero de Telefone:')
print(eh_Telefone('12.34.5678'))
print('00.00000.0000 is a phone number:')
print(eh_Telefone('00.00000.0000'))


37.98844.2132 is a phone number:
True
Não é Numero de Telefone:
False
Não é Numero de Telefone:
False
00.00000.0000 is a phone number:
True


In [2]:
mensagem = 'Me ligue neste número: 37.98803.12020. Se não atender tente neste: 37.98803.6758. Obrigado!'

In [3]:
def eh_Telefone(texto):
    if len(texto) != 13:
        return False  # not phone number-sized
    for i in range(0, 2):
        if not texto[i].isdecimal():
            return False  # not an area code
    if texto[2] != '.':
        return False  # does not have first point
    for i in range(3, 8):
        if not texto[i].isdecimal():
            return False  # does not have first digits
    if texto[8] != '.':
        return False  # does not have second point
    for i in range(9, 13):
        if not texto[i].isdecimal():
            return False  # does not have last digits
    return True  # "text" is a phone number!

for i in range(len(mensagem)):
    parte = mensagem[i:i+13]
    if eh_Telefone(parte):
        print('Telefone encontrado: ' + parte)
print('Fim.')

Telefone encontrado: 37.98803.1202
Telefone encontrado: 37.98803.6758
Fim.


## Expressões 

In [4]:
import re

r --> (raw string) Strings Puras

In [5]:
regex_telefone = re.compile(r'\d\d.\d\d\d\d\d.\d\d\d\d')

search() --> pesquisa na string corrrespondência com a regex   #    None x Match

In [6]:
regex_telefone = re.compile(r'\d\d.\d\d\d\d\d.\d\d\d\d')
result = regex_telefone.search('Meu número de telefone é: 37.98802.3045')
print('Numero de Telefone encontrado: ' + result.group())

Numero de Telefone encontrado: 37.98802.3045


In [7]:
regex_telefone = re.compile(r'\d\d.\d\d\d\d\d.\d\d\d\d')
result = regex_telefone.search('Meu número de telefone é: 37.98802.3045 ou 37.99234.3456')
print('Numero de Telefone encontrado: ' + result.group())

Numero de Telefone encontrado: 37.98802.3045


# Agrupando com parênteses

In [8]:
regex_telefone = re.compile(r'(\d\d).(\d\d\d\d\d.\d\d\d\d)')
result = regex_telefone.search('Meu número de telefone é: 37.98802.3045')
print('Valor: ' + result.group(1))

Valor: 37


In [9]:
print('Valor: ' + result.group(2))

Valor: 98802.3045


In [10]:
print('Valor: ' + result.group(0))

Valor: 37.98802.3045


In [11]:
print('Valor: ' + result.group())

Valor: 37.98802.3045


groups() --> Grupos

In [12]:
result.groups()

('37', '98802.3045')

In [13]:
codigo, numero = result.groups()

In [14]:
print(codigo)

37


In [15]:
print(numero)

98802.3045


In [16]:
regex_telefone = re.compile(r'(\(\d\d\)) (\d\d\d\d\d.\d\d\d\d)')
result = regex_telefone.search('Meu número de telefone é: (37) 98802.3045')
print('Valor: ' + result.group(1))

Valor: (37)


In [17]:
print('Valor: ' + result.group(2))

Valor: 98802.3045


# Pipe

In [18]:
clubes = re.compile(r'Guarani | America')
result = clubes.search('Guarani contra o America')
result.group()

'Guarani '

In [19]:
clubes = re.compile(r'Guarani | America')
result = clubes.search('Agora o America venceu o Guarani')
result.group()

' America'

In [20]:
raiz = re.compile(r'Cas(a|as|amento|ado)')
result = raiz.search('O Caçador mora nas Casas.')
result.group()

'Casa'

In [21]:
result.group(1)

'a'

In [22]:
result.group(2)

IndexError: no such group

# Correspondência Opcional 

In [23]:
raiz2 = re.compile(r'Casa(mento)?')
result = raiz2.search('O homem da Casa')
result.group()

'Casa'

In [24]:
result = raiz2.search('O homem fugiu do Casamento')
result.group()

'Casamento'

In [25]:
regex_telefone = re.compile(r'(\d\d.)?\d\d\d\d\d.\d\d\d\d')
result = regex_telefone.search('Meu número de telefone é: 37.98802.3045')
print('Valor: ' + result.group())

Valor: 37.98802.3045


In [26]:
result = regex_telefone.search('Meu número de telefone é: 98802.3045')
print('Valor: ' + result.group())

Valor: 98802.3045


In [27]:
raiz2 = re.compile(r'Casa(mento)*')
result = raiz2.search('O homem da Casa')
result.group()

'Casa'

In [28]:
result = raiz2.search('O homem fugiu do Casamento')
result.group()

'Casamento'

In [29]:
result = raiz2.search('O homem fugiu do Casamentomentomentomentomento')
result.group()

'Casamentomentomentomentomento'

In [30]:
raiz2 = re.compile(r'Casa(mento)+')
result = raiz2.search('O homem foi ao Casamento')
result.group()

'Casamento'

In [31]:
raiz2 = re.compile(r'Casa(mento)+')
result = raiz2.search('O homem fugiu do Casamentomentomentomento')
result.group()

'Casamentomentomentomento'

In [32]:
raiz2 = re.compile(r'Casa(mento)+')
result = raiz2.search('O homem da Casa')
result.group()

AttributeError: 'NoneType' object has no attribute 'group'

In [33]:
raiz2 = re.compile(r'Casa(mento)+')
result = raiz2.search('O homem da Casa')
result == None

True

Correspondência com {}

In [34]:
expressao = re.compile(r'(Eu){3}')
result = expressao.search('Teste de EuEuEu')
result.group()

'EuEuEu'

In [35]:
result = expressao.search('Teste de EuEu')
result == None

True

Greedy e Nongreedy (Gulosas)

In [36]:
expressao = re.compile(r'(Eu){3,5}')
result = expressao.search('Teste de EuEuEuEuEu')
result.group()

'EuEuEuEuEu'

In [37]:
expressao = re.compile(r'(Eu){3,5}?')
result = expressao.search('Teste de EuEuEuEuEu')
result.group()

'EuEuEu'

# findall()

In [38]:
telefone = re.compile(r'\d\d-\d\d\d\d\d-\d\d\d\d')
result = telefone.search('Meus telefones: 37-98802-1045 e também o 37-33212-3454')
result.group()

'37-98802-1045'

In [39]:
telefone = re.compile(r'\d\d-\d\d\d\d\d-\d\d\d\d')
result = telefone.findall('Meus telefones: 37-98802-1045 e também o 37-33212-3454')
#group
print(result)

['37-98802-1045', '37-33212-3454']


Se houver grupos, o retorno é uma lista de tuplas

In [40]:
telefone = re.compile(r'(\d\d)-(\d\d\d\d\d)-(\d\d\d\d)')
result = telefone.findall('Meus telefones: 37-98802-1045 e também o 37-33212-3454')
print(result)

[('37', '98802', '1045'), ('37', '33212', '3454')]


# Classes de Caracteres

In [41]:
lista = re.compile(r'\d+\s\w+')
result = lista.findall('Guarana; 5 Coca_cola; 6 Água; 10 Sucos; 134 Cervejas')
print(result)

['5 Coca_cola', '6 Água', '10 Sucos', '134 Cervejas']


In [42]:
vogais = re.compile(r'[aeiouAEIOU]')
result = vogais.findall('Thiago Magela Rodrigues Dias')
print(result)

['i', 'a', 'o', 'a', 'e', 'a', 'o', 'i', 'u', 'e', 'i', 'a']


In [43]:
vogais = re.compile(r'[^aeiouAEIOU]')
result = vogais.findall('Thiago Magela Rodrigues Dias')
print(result)

['T', 'h', 'g', ' ', 'M', 'g', 'l', ' ', 'R', 'd', 'r', 'g', 's', ' ', 'D', 's']


In [48]:
inicio = re.compile(r'^Thiago')
result = inicio.search('Thiago Magela')
print(result)

<re.Match object; span=(0, 6), match='Thiago'>


In [49]:
result.group()

'Thiago'

In [50]:
result = inicio.search('Magela Thiago')
print(result)

None


In [51]:
inicio = re.compile(r'Thiago$')
result = inicio.search('Thiago Magela')
print(result)

None


In [52]:
inicio = re.compile(r'Thiago$')
result = inicio.search('Magela Thiago')
print(result)

<re.Match object; span=(7, 13), match='Thiago'>


In [53]:
inicio = re.compile(r'^\d+$')
result = inicio.search('Thiago Magela')
print(result)

None


In [54]:
result = inicio.search('12345XX67890')
print(result)

None


In [55]:
result = inicio.search('1234567890')
print(result)

<re.Match object; span=(0, 10), match='1234567890'>


Caractere Curinga

In [56]:
curinga = re.compile(r'.ato')
curinga.findall('Alguns animais: Leão; pato ou Pato; gato; coelho; sapato; sato')

['pato', 'Pato', 'gato', 'pato', 'sato']

In [57]:
curinga = re.compile(r'First Name: (.*) Last Name: (.*)')
result = curinga.search('First Name: Thiago Magela Last Name: Dias')
result.group(1)

'Thiago Magela'

In [58]:
result.group(2)

'Dias'

In [59]:
curinga2 = re.compile(r'<.*?>')
result = curinga2.search('<Primeiro texto> Segundo texto.>')
result.group()

'<Primeiro texto>'

In [60]:
curinga2 = re.compile(r'<.*>')
result = curinga2.search('<Primeiro texto> Segundo texto.>')
result.group()

'<Primeiro texto> Segundo texto.>'

Case Sensitive --> re.IGNORECASE

In [61]:
case = re.compile(r'cefet', re.I)
case.search('Cefet é uma Instituição federal de Ensino. ').group()

'Cefet'

In [62]:
case.search('Normalmente o CEFET é um lugar Legal.').group()

'CEFET'

In [63]:
case.search('Saudades do CeFeT................').group()

'CeFeT'

## Método Sub()

In [64]:
nomes = re.compile(r'Professor \w+')
result = nomes.sub('O Coitado', 'Professor Thiago é amigo do Professor Raulivan....')
print(result)

O Coitado é amigo do O Coitado....


# Extras

In [80]:
import re

patterns = ['termo1', 'termo2', 'Thiago']

# Texto para fazer o parse
text = 'Essa seria uma string com o termo1, mas sem o outro termo2.'

for pattern in patterns:
    print('Procurando por "%s" em: \n"%s"' % (pattern, text))
    
    # Check pelo padrão
    if re.search(pattern, text):
        print('\n')
        print('Match foi encontrado.\n')
    else:
        print('\n')
        print('Sem Match encontrado.\n')

Procurando por "termo1" em: 
"Essa seria uma string com o termo1, mas sem o outro termo2."


Match foi encontrado.

Procurando por "termo2" em: 
"Essa seria uma string com o termo1, mas sem o outro termo2."


Match foi encontrado.

Procurando por "Thiago" em: 
"Essa seria uma string com o termo1, mas sem o outro termo2."


Sem Match encontrado.



## Separação

In [81]:
# A partir de qual caractere queremos separar
split = '@'

frase = 'Qual o nome de dominio do seguinte endereco de email: thiagomagela@cefetmg.br'

# Divide a frase
re.split(split, frase)

['Qual o nome de dominio do seguinte endereco de email: thiagomagela',
 'cefetmg.br']

In [83]:
# A partir de qual caractere queremos separar
split = '@'

frase = 'Qual o nome de dominio do seguinte endereco de email: thiagomagela@cefetmg.br e do thiagomagela@gmail.com'

# Divide a frase
re.split(split, frase)

['Qual o nome de dominio do seguinte endereco de email: thiagomagela',
 'cefetmg.br e do thiagomagela',
 'gmail.com']