Wpis z mikrobloga

Skopiuj link

28.08.2019, 21:11:57

Mirki z #programowanie, może ktoś z was będzie wiedział w jaki sposób można rozpoznać najważniejszy tekst na stronie? Coś w stylu tego co robi getpocket.com - wyciąga treść samego artykułu z bloga, pomija reklamy itp. i to dopiero wrzuca do czytania maszynowego.

k.....o

konto usunięte 28.08.2019, 21:17:28

@ineedadollar: najlatwiej to python z libem Beautiful Soup na necie jest masa tutoriali, mozesz tez próbować headless browserami i jakimś frameworkiem do testingu np selenium

ineedadollar

28.08.2019, 21:28:11

Beautiful Soup

@kysko: W sensie, pobranie drzewa strony i poruszanie się po nim to dla mnie nie problem. Bardziej chodzi mi algorytm dzięki któremu przy dowolnym kodzie źródłowym będę mógł wyciągnąć interesującą mnie treść (treść postu na blogu). Tak żebym nie musiał tworzyć parsera pod każdą domenę osobno i aby to się nie wywaliło jeżeli zmieni się szablon na stronie.

BartorKrajczyk

28.08.2019, 21:30:41

@ineedadollar: To nie jest takie proste. HTML nie definiuje jedynej poprawnej i działającej metody do umieszczenia tekstu na stronie, dlatego narzędzia wspomniane przez @kysko są tylko połową sukcesu. Jeżeli strona napisana jest "zgodnie ze sztuką", to dobrym początkiem jest wyciąganie całego tekstu z tagów `

, ponieważ czysto teoretycznie właśnie tam powinna znajdować się treść. Dobrym pomysłem może być też chociażby wyciąganie całego tekstu z tagów

albo ` i sprawdzanie, czy

k.....o

konto usunięte 28.08.2019, 21:32:22

@ineedadollar: ja bym zaczął od stworzenia tagów ignorowanych i potem brał wszystko pozostałe, pozostanie wtedy problem odfiltrowania

ineedadollar

28.08.2019, 21:53:23

@kysko: @BartorKrajczyk: Z tego co widze embed.ly i diffbot.com radzą sobie świetnie ale koszt $99-$299/mo jak na coś dla siebie mnie odrzuca.

Znalazłem:
- readability od Mozilla - na tej podstawie myślę że coś uda się zrobić
- pracę na ten temat od HP
- pracę na ten temat od L3S
- port readability na .NET
- coś w PHP
- coś innego w PHP
- coś innego w PHP

Puuchacz

Aktywne Wpisy

BereznowskaPatrycja

BereznowskaPatrycja +109

3 godz. i 32 min. temu

Cześć wszystkim! Nazywam się Patrycja Bereznowska, jestem zawodniczką Grupy Sportowej ORLEN. Moją pasją są naprawdę długie biegi. Jestem rekordzistką i mistrzynią świata w biegach 24-, 48- i 72-godzinnych. Zapraszam na #ama 2 marca o godzinie 17:00. Do zobaczenia!

#bieganie #sport #ciekawostki

Kumpel19

Kumpel19 +212

5 godz. i 5 min. temu

19-latka Ruslana Danilkina dwa tygodnie temu straciła nogę w rosyjskim ostrzale artyleryjskim..

Deklaruje że chce się dalej zaangażować w obrone swojej ojczyzny - ukrainy - że "nie pozostawi swoich chłopaków", i chce wrócić jak najszybciej do swojej jednostki.. choćby pomagać przy kuchni wojskowej.

#ukraina #wojna #rosja

Aktywne Wpisy

Aktywne Znaleziska

Burny: Nasze budynki czeka technologiczna rewolucja. Węgiel, gaz i olej w Polsce

Lisner przejmuje część biznesu Grupy Graal. Bogusław Kowalski odchodzi z firmy

Luka mieszkaniowa. Oto ile mamy mieszkań i czy naprawdę wciąż ich brakuje

Coś się szykuje? Rosjanie ewakuują Krym!

Parlament Finlandii uchwalił ustawę o przystąpieniu do NATO

Popularne tagi