Python - Analiza unui articol de Blog

Analiza de continut digital utilizand Python

adi's avatar

Adi Chirilov

Iulie 24, 2024
Python - Analiza unui articol de Blog

In era digitală, abilitatea de a procesa și extrage rapid informații esențiale din conținut online este crucială. Python, cu numeroasele sale librării, oferă instrumente puternice pentru analiza textului și procesarea limbajului natural (NLP). În acest tutorial, vom explora cum să folosim Python pentru a extrage conținutul unui articol de blog de pe internet și să creăm un scurt rezumat al acestuia.


Librării utilizate:

  1. requests: Pentru a face cereri HTTP și a obține conținutul paginii web.
  2. beautifulsoup4: Pentru a parsa HTML-ul și a extrage textul articolului.
  3. nltk: Pentru procesarea limbajului natural și tokenizare.
  4. sumy: Pentru generarea rezumatului.


Înainte de a începe, asigurați-vă că aveți instalate toate librăriile necesare. Puteți face acest lucru folosind pip:


pip install requests beautifulsoup4 nltk sumy


Importul librăriilor necesare

import requests
from bs4 import BeautifulSoup
import nltk
from sumy.parsers.plaintext import PlaintextParser
from sumy.nlp.tokenizers import Tokenizer
from sumy.summarizers.lex_rank import LexRankSummarizer


# Descărcăm resursele necesare pentru NLTK
nltk.download('punkt')


Extragerea conținutului articolului

def get_article_text(url):
    # Facem o cerere GET către URL
    response = requests.get(url)
    
    # Parsăm conținutul HTML
    soup = BeautifulSoup(response.content, 'html.parser')
    
    # Găsim și extragem textul articolului
    # Notă: Aceasta poate varia în funcție de structura site-ului
    article = soup.find('article')
    if article:
        paragraphs = article.find_all('p')
        return ' '.join([p.text for p in paragraphs])
    else:
        return "Nu s-a putut extrage textul articolului."


Generarea rezumatului

def generate_summary(text, sentences_count=3):
    # Creăm un parser pentru textul extras
    parser = PlaintextParser.from_string(text, Tokenizer("english"))
    
    # Inițializăm summarizer-ul
    summarizer = LexRankSummarizer()
    
    # Generăm rezumatul
    summary = summarizer(parser.document, sentences_count)
    
    return ' '.join([str(sentence) for sentence in summary])


Funcția principală

def analyze_and_summarize(url):
    # Extragem textul articolului
    article_text = get_article_text(url)
    
    # Generăm rezumatul
    summary = generate_summary(article_text)
    
    return summary


# Exemplu de utilizare
url = "https://invat.eu/blog/ce-este-inteligenta-artificiala-7/"
summary = analyze_and_summarize(url)
print("Rezumatul articolului:")
print(summary)


Exemplu de output

Să presupunem că am rulat codul pentru un articol de blog despre inteligența artificială. Iată cum ar putea arăta un output tipic:


Rezumatul articolului:
Inteligența artificială (AI) transformă rapid multiple industrii, de la sănătate la finanțe. Cercetătorii lucrează la dezvoltarea de sisteme AI mai avansate care pot înțelege și replica comportamentul uman complex. Cu toate acestea, există preocupări etice semnificative legate de implementarea pe scară largă a AI, inclusiv probleme de confidențialitate și potențialul de a amplifica prejudecățile existente.

Acest rezumat oferă o privire de ansamblu concisă asupra principalelor puncte discutate în articol, permițând cititorului să înțeleagă rapid esența conținutului.


Bineînțeles! Voi crea un articol pentru începători care explică cum să folosești Python pentru a analiza și rezuma un articol de blog publicat pe internet. Iată articolul:

"Analiza și Rezumarea Articolelor de Blog cu Python: Un Ghid pentru Începători"

Introducere: În era digitală, abilitatea de a procesa și extrage rapid informații esențiale din conținut online este crucială. Python, cu numeroasele sale librării, oferă instrumente puternice pentru analiza textului și procesarea limbajului natural (NLP). În acest tutorial, vom explora cum să folosim Python pentru a extrage conținutul unui articol de blog de pe internet și să creăm un scurt rezumat al acestuia.

Librării utilizate:

  1. requests: Pentru a face cereri HTTP și a obține conținutul paginii web.
  2. beautifulsoup4: Pentru a parsa HTML-ul și a extrage textul articolului.
  3. nltk: Pentru procesarea limbajului natural și tokenizare.
  4. sumy: Pentru generarea rezumatului.

Instalarea librăriilor: Înainte de a începe, asigurați-vă că aveți instalate toate librăriile necesare. Puteți face acest lucru folosind pip:

Copy
pip install requests beautifulsoup4 nltk sumy

Codul pas cu pas:

  1. Importarea librăriilor necesare:
python

Copy
import requests
from bs4 import BeautifulSoup
import nltk
from sumy.parsers.plaintext import PlaintextParser
from sumy.nlp.tokenizers import Tokenizer
from sumy.summarizers.lex_rank import LexRankSummarizer

# Descărcăm resursele necesare pentru NLTK
nltk.download('punkt')
  1. Extragerea conținutului articolului:
python

Copy
def get_article_text(url):
    # Facem o cerere GET către URL
    response = requests.get(url)
    
    # Parsăm conținutul HTML
    soup = BeautifulSoup(response.content, 'html.parser')
    
    # Găsim și extragem textul articolului
    # Notă: Aceasta poate varia în funcție de structura site-ului
    article = soup.find('article')
    if article:
        paragraphs = article.find_all('p')
        return ' '.join([p.text for p in paragraphs])
    else:
        return "Nu s-a putut extrage textul articolului."
  1. Generarea rezumatului:
python

Copy
def generate_summary(text, sentences_count=3):
    # Creăm un parser pentru textul extras
    parser = PlaintextParser.from_string(text, Tokenizer("english"))
    
    # Inițializăm summarizer-ul
    summarizer = LexRankSummarizer()
    
    # Generăm rezumatul
    summary = summarizer(parser.document, sentences_count)
    
    return ' '.join([str(sentence) for sentence in summary])
  1. Funcția principală:
python

Copy
def analyze_and_summarize(url):
    # Extragem textul articolului
    article_text = get_article_text(url)
    
    # Generăm rezumatul
    summary = generate_summary(article_text)
    
    return summary

# Exemplu de utilizare
url = "https://example.com/sample-blog-post"
summary = analyze_and_summarize(url)
print("Rezumatul articolului:")
print(summary)

Exemplu de output: Să presupunem că am rulat codul pentru un articol de pe un blog despre inteligența artificială. Iată cum ar putea arăta un output tipic:

Inteligența artificială (AI) transformă rapid multiple industrii, de la sănătate la finanțe. 
Cercetătorii lucrează la dezvoltarea de sisteme AI mai avansate care pot înțelege și replica comportamentul uman complex. 
Cu toate acestea, există preocupări etice semnificative legate de implementarea pe scară largă a AI, 
inclusiv probleme de confidențialitate și potențialul de a amplifica prejudecățile existente.

Acest rezumat oferă o privire de ansamblu concisă asupra principalelor puncte discutate în articol, permițând cititorului să înțeleagă rapid esența conținutului.


Concluzie:

Acest tutorial v-a arătat cum să folosiți Python pentru a extrage și rezuma automat conținutul unui articol de blog. Această tehnică poate fi extrem de utilă pentru cercetare, analiză de conținut sau simpla economisire de timp atunci când navigați prin cantități mari de informații online. Pe măsură ce vă familiarizați cu aceste concepte, puteți explora tehnici mai avansate de NLP pentru a îmbunătăți calitatea rezumatelor și a extrage informații mai specifice din text.


Nu ai gasit ce cautai? Poti conversa cu Asistentul AI: programare python

Articole Similare

Toate Articolele
10 Iulie 2024

Digitalizare - Utilizarea unui Browser Web

Accesarea Informatiei din Internet

14 Iulie 2024

Digitalizare - Platforme eLearning

Google Classroom, Moodle, Invat.eu

30 Iulie 2024

Antreprenoriat - Primii pași în lumea afacerilor

Cum să începi o afacere cu resurse putine

10 Iulie 2024

Digitalizare - Servicii de Mail

Gestionarea Contului de Mail, Trimitere