Wpis z mikrobloga

Mirki z #programowanie, może ktoś z was będzie wiedział w jaki sposób można rozpoznać najważniejszy tekst na stronie? Coś w stylu tego co robi getpocket.com - wyciąga treść samego artykułu z bloga, pomija reklamy itp. i to dopiero wrzuca do czytania maszynowego.
  • 5
Beautiful Soup


@kysko: W sensie, pobranie drzewa strony i poruszanie się po nim to dla mnie nie problem. Bardziej chodzi mi algorytm dzięki któremu przy dowolnym kodzie źródłowym będę mógł wyciągnąć interesującą mnie treść (treść postu na blogu). Tak żebym nie musiał tworzyć parsera pod każdą domenę osobno i aby to się nie wywaliło jeżeli zmieni się szablon na stronie.
@ineedadollar: To nie jest takie proste. HTML nie definiuje jedynej poprawnej i działającej metody do umieszczenia tekstu na stronie, dlatego narzędzia wspomniane przez @kysko są tylko połową sukcesu. Jeżeli strona napisana jest "zgodnie ze sztuką", to dobrym początkiem jest wyciąganie całego tekstu z tagów `, ponieważ czysto teoretycznie właśnie tam powinna znajdować się treść. Dobrym pomysłem może być też chociażby wyciąganie całego tekstu z tagów albo ` i sprawdzanie, czy