Wolnościowa Biblioteka online

niohnioh

Kucolibertarianin
77
157

tosiabunio

Grand Master Architect
Członek Załogi
6 586
13 126
Będę marudził - skany i pdfy ssą po same kule. 21 wiek mamy. Ja rozumiem, że to polska mowa, ale większość tych dzieł mam w oryginale w ładnych ebookach. Nie polecam.
 
T

Tralalala

Guest
A nie można z pdfa importować do tego formatu którego używasz na ebooku (epub?)?
Ze skanów można zczytać znaki za pomocą jakiegoś programu do OCR, sam nie sprawdzałem jak to wychodzi ale ponoć całkiem dobrze jeżeli skany są w miarę ładnie zrobione, problem jest z tabelkami czy obrazkami.
 
OP
N

niohnioh

Kucolibertarianin
77
157
Poza tym, dodam od siebie jedną książkę, której nie zdobędziecie nigdzie w internecie. Harmonie ekonomiczne Frederica Bastiata są dostępne w wersji pdf na stronie Instytutu Misesa. Jednak ja przerobiłem je na epub i mobi. Wysłałem te wersje do naszego instytutu, ale zweryfikowanie poprawności dodatkowych formatów nie jest dla nich priorytetem i weryfikacja stanęła w miejscu, więc dzieła nie zostały nikomu udostępnione.
 

Attachments

GoldenColt

Well-Known Member
822
3 078
No w sumie jest tu trochę towaru, którego póki co nie było nie żadnych chomikach, ale straaaaszna szkoda że większość fajnych pozycji jest w formie skanu. No ale darowanemu koniowi....
 

kompowiec

Open Source Boy
1 611
1 531
O ja pierdole, sumliński xD naprawdę?

Ale po za tym to spoko PDFy, zassałem wszystko. Jak zacznę czytać (tj. robić z nich audiobooki) to może zrobi się z nich pastebki txt.
 

MaxStirner

Well-Known Member
2 337
3 895
Nieprawda, jeśli to Bastiat wszystkie książki są w necie (nieliczne tylko po francusku). Harmonie w wersji tekstowej są tu
http://www.econlib.org/library/Bastiat/basHarCover.html. Tekst wystarczy skopiowac do pliku i tyle - puryści mogą próbowac formatować, mnie tam szkoda czasu. Pdf do epuba da sie przekonwertować w calibre, ale tylko nieskanowany tekst (tzn plik w którym użyto czcionki) Daje to różne efekty, na ogół tracisz jakiś element formatowania i ilustracje, można próbować sie samemu bawić z wyrażeniami regularnymi - jak mówiłem mnie też na to szkoda roboty. Ocr tak samo spowoduje że stracisz ilustacje i bardziej skomplikowane formatowanie np tabele. Wszystko zależy od pliku i jego budowy. Narzekania na brak epuba nie czaje bo pdfy gołe da sie wygodnie czytać w każdym programie który ma zwijanie tekstu i jest oparty o dobrą niezasobożerną biblioteke np Mupdf. Ja używam koreadera, choć to program jeszcze na dorobku, ale ma reflow. Nigdy nie przerabiam na Epub, nie mam potrzeby
https://github.com/koreader/koreader/wiki/Download
 

kompowiec

Open Source Boy
1 611
1 531
może dlatego że epuby mają to od siebie, że epubami można łatwiej manipulować aniżeli zwykłym PDFem? PDF można potratkować raczej jako pliki "tylko do odczytu" gdy tymczasem epubowe teksty można kopiować, zmieniać na audiobooki i tak dalej.

Po za tym, OCRy nie służą do zostawiania grafik i innych ozdobników, co najwyżej może wyciągnąć tekst znajdujący się na grafice.
 

MaxStirner

Well-Known Member
2 337
3 895
Hmm nigdy go nie używałem, głownie Tesseracta i OCRopusa. Wypróbuję dzięki. W każdym razie jeśli ma taką opcję nigdzie nie chwalą sie tym w pomocy albo reklamach. Tak czy siak dzięki szukałem tego.
komp - Niby masz racje, aczkolwiek wg mnie to troche przereklamowane. Jedyna przewaga epuba, z puntu widzenia usera to
a) z reguły mniejszy rozmiar pliku, co przy dużej liczbie ebooków zaczyna mieć znaczenie
b) Możliwość zmiany czcionki i stylu
Tekst z pdfa nieskanowanego można przecież dowolnie kopiować, wysyłać do programów typu text to speech, itd
Jeśli założysz sobie Ivonę, lub np Balabolkę (frontend do TTS) + Ivonę odczyta tekst z takiego PDFa bez kłopotu. Dodam jeszcze, że zastosowanie opcji reflow pozwala na zmianę rozmiaru czcionki w pdf.
 
Ostatnia edycja:

Mad.lock

barbarzyńsko-pogański stratego-decentralizm
5 149
4 621
@MaxStirner a znasz jakiś sposób na kasację znaków końca linii, ale nie końców akapitu, z tekstu skopiowanego z PDF? Ale automatycznie, bez konieczności znajomości oryginału? Bez tego PDF będzie formatem stratnym dla treści przy próbach konwersji. Kto produkuje pliki PDF bez ważnej przyczyny (identyczność wyglądu, nie treści, wydrukowanych dokumentów, a komu naprawdę coś takiego jest potrzebne?) ten jest tylko ciemnym biurwem gorszego sortu.
 

kompowiec

Open Source Boy
1 611
1 531
@up - chyba to będzie odpowiednie:
:%s/\n//g

Przyda się także kasacja idiotycznych numerków stron, które znajdują się w nowym wierszu:
:%s/^\d*// (więcej)
na doczepiane cyferki pod koniec artykułu nie mam sposobu, zwykle robiłem hlsearch i przesuwałem się z prędkością światła, tak jak to w vimie możliwie.

co do tekstu, jak napiszę sobie coś w latexie i przerobię na PDF to i owszem, albo gdy kupię ebooka w dobrej jakości. Pirackie, wtórne skany już wymagają trochę zachodu ;)

Właśnie sobie skanuje OCRem moją ulubioną książkę którą mam w domu i piąty dzień ją skanuje, poprawiam tekst, łącze rozdziały w jeden plik, daję IVONĘ i jeszcze konwertuje na mp3 (bo AtVoice na androida obsługuje tylko .ogg a tego nie obsługuje mój discmen) i na koniec oczywiście udostępniłem. Wszystko na komórce bo nie umiem zainstalować syntezatora na debianie (espeak już mi się przejadł, do tego naprawdę nie da się przyzwyczaić).

teraz szukam programu, który by mi pozwalał hurtowo zdjęcia przerabiać, bez pierdolenia się każdym z osobna ;)

Czasem się zastanawiam, czy ktoś byłby zainteresowany takimi warezami na wzór projektu gutenberg (który ma nawet .txt bo się nadaje właśnie do audiobooków) Ciekawe czy jest polska wersja tego serwisu, jedyny jaki bym mógł w taki sposób określić to tylko wikiźródła.. ale tam usuwają masę licencji otwartych, o NC i BSD nie wspominając nawet.. dzisiaj jedynie co jest to najwyżej scribd, chyba największa biblioteka w necie jaka jest, ale wymagają jakiegoś abonamentu (30 dniowy trial).
 

MaxStirner

Well-Known Member
2 337
3 895
Co to w ogóle jest?
Wyrażenie regularne (inaczej regex). Każdy edytor tekstu obsługuje manipulacje tekstem za pomocą tego. Część javaskryptu. Na usuwanie gołych pustych akapitów starcza mi ^\n (samo \n suwa wszystkie akapity w tekscie).
Puste, nadmiarowe twarde spacje usunie [:space:]+
. Wpisujesz to w pole znajdz i zamień (pole zamień na zostawiasz puste). Musisz miec zaznaczoną opcje "dopasuj jako wyrazenie rgularne"
Wstępna lista tutaj, jest ich dużo wiecej
https://help.libreoffice.org/Common/List_of_Regular_Expressions/pl
 
Ostatnia edycja:

Mad.lock

barbarzyńsko-pogański stratego-decentralizm
5 149
4 621
W moim edytorze to nie działa. Zresztą nic nie zadziała, bo jak zaznaczę myszą i skopiuję z PDF-a tekst, to już na tym etapie mam tylko linie oddzielone znakami końca linii tam gdzie akurat się kończyły w PDF-ie. A akapitów nie odróżnię od nowych linii, które akurat zaczynają się od nowego zdania.

PDF i akopiowany txt. Entery to wiem jak usunąć, ale wtedy będę miał jeden wielki akapit.

 

kompowiec

Open Source Boy
1 611
1 531
Każdy edytor tekstu obsługuje manipulacje tekstem za pomocą tego.
Każdy, bardziej zaawansowany od notatnika/leafpada. Gedit chyba z kilka lat temu używałem, nie pamiętam czy w ogóle potrafi obsługiwać regexy. Raczej nie, podobnie jest w oknie Gvim gdzie włączasz frontendowy :%s i nie obsługuje on też wszystkich (stąd też się nadaje do znaków, które w regexie są specjalne i nie znamy sposobu by to ominąć)

mad, regex opisywałem dla vima. Skoro masz ubuntu to masz pewnie namiastkę vi nawet. Ale zainstaluj najlepiej normalnego vima bo nie wiem jak to jest z kompatybilnością poleceń i wejdź w linka do StackOverflow który podałem wyżej pod "więcej". Formatowanie tych enterów tutaj widzę że nie ma sensu (w audiobookach to nie przeszkadza) tylko te cyferki widzę że wkurwiają. Ale jeśli tak bardzo chcesz, można się pobawić zapewne ilością znaków w wierszu do słynnych 80 a potem wyjebać (nie testowałem): http://stackoverflow.com/questions/235439/vim-80-column-layout-concerns

a jak nie chce ci się z tym pierdolić, masz http://chomikuj.pl/tuz-tuz/Kolekcja+S-F+++(TXT)/Douglas+Adams/Cykl+Autostopem+przez+Galaktyke cały cykl. Tylko widzę tu jakiś problem z Polskimi znakami :( sam jedną taką książkę ściągnąłem i nie potrafię przywrócić jej polskich znaków. Help anyone?

A jak mimo wszystko nie potrafisz tego zrobić, zróbmy takiego deala: ty mi przywrócisz PL znaki z tego dokumentu: http://chomikuj.pl/Komputer-World/root/home/Documents/Audiobooki/samoleczenie+wzroku+dr.+batesa/src a ja poprawię twojego, usuwając wszelkie niepotrzebne ozdobniki.
 
Do góry Bottom